Ниже приведены часто задаваемые вопросы в интервью для новичков, а также опытных тестировщиков и разработчиков ETL.
1) Что такое ETL?
В архитектуре хранилищ данных ETL является важным компонентом, который управляет данными для любого бизнес-процесса. ETL расшифровывается как « Извлечь, преобразовать и загрузить» . Extract выполняет процесс чтения данных из базы данных. Transform выполняет преобразование данных в формат, подходящий для отчетности и анализа. В то время как load выполняет процесс записи данных в целевую базу данных.
2) Объясните, что включает в себя тестирование ETL?
Тестирование ETL включает
- Убедитесь, что данные правильно преобразуются в соответствии с бизнес-требованиями.
- Убедитесь, что прогнозируемые данные загружаются в хранилище данных без усечения и потери данных.
- Убедитесь, что приложение ETL сообщает о недопустимых данных и заменяет их значениями по умолчанию.
- Убедитесь, что данные загружаются в ожидаемый период времени, чтобы улучшить масштабируемость и производительность.
3) Упомяните, какие типы приложений для хранилищ данных и в чем разница между интеллектуальным анализом данных и хранилищами данных?
Типы приложений хранилища данных:
- Обработка информации
- Аналитическая обработка
- Сбор данных
Интеллектуальный анализ данных можно определить как процесс извлечения скрытой прогнозной информации из больших баз данных и интерпретации данных, в то время как хранилище данных может использовать добычу данных для более быстрой аналитической обработки данных. Хранилище данных - это процесс объединения данных из нескольких источников в одно общее хранилище.
4) Какие различные инструменты используются в ETL?
- Cognos Decision Stream
- Oracle Warehouse Builder
- Бизнес-объекты XI
- Бизнес-склад SAS
- Сервер SAS Enterprise ETL
5) Что такое факт? Какие бывают факты?
Это центральный компонент многомерной модели, которая содержит меры, подлежащие анализу. Факты связаны с размерами.
Типы фактов
- Аддитивные факты
- Полусаддитивные факты
- Неаддитивные факты
6) Объясните, что такое кубы и кубы OLAP?
Кубы - это блоки обработки данных, состоящие из таблиц фактов и измерений из хранилища данных. Он обеспечивает многомерный анализ.
OLAP расшифровывается как Online Analytics Processing, а куб OLAP хранит большие данные в многомерной форме для целей отчетности. Он состоит из фактов, называемых мерами, сгруппированных по размерам.
7) Объясните, что такое уровень трассировки и какие бывают типы?
Уровень отслеживания - это объем данных, хранящихся в файлах журнала. Уровень трассировки можно разделить на два: Обычный и Подробный. Обычный уровень подробно объясняет уровень трассировки, в то время как подробный объясняет уровни трассировки в каждой строке.
8) Объясните, что такое крупность фактов?
Факты зерна можно определить как уровень, на котором хранится информация о фактах. Это также известно как гранулярность фактов.
9) Объясните, что такое схема не имеющих фактов фактов и что такое меры?
Таблица фактов без мер называется таблицей фактов без фактов. Он может просматривать количество происходящих событий. Например, он используется для записи такого события, как количество сотрудников в компании.
Числовые данные, основанные на столбцах в таблице фактов, известны как меры.
10) Объясните, что такое трансформация?
Преобразование - это объект репозитория, который генерирует, изменяет или передает данные. Преобразования бывают двух типов: Активные и Пассивные.
11) Объясните использование преобразования поиска?
Преобразование поиска полезно для
- Получение связанного значения из таблицы с использованием значения столбца
- Обновить медленно меняющуюся таблицу измерений
- Убедитесь, что записи уже существуют в таблице
12) Объясните, что такое разбиение по хешу и циклическое разбиение?
Для повышения производительности транзакции делятся на части, это называется секционированием. Partioning позволяет Informatica Server создавать множественные подключения к различным источникам.
Типы перегородок бывают
Циклическое разбиение:
- По информатике данные распределяются равномерно по всем разделам
- В каждом разделе, где количество обрабатываемых строк примерно одинаково, применимо это разделение.
Разбиение на разделы:
- Для разделения ключей для группировки данных между разделами сервер Informatica применяет хеш-функцию.
- Он используется, когда необходимо обеспечить процессы групп строк с одним и тем же ключом разделения в одном разделе.
13) Укажите, в чем преимущество использования целевого адаптера DataReader?
Преимущество использования целевого адаптера DataReader заключается в том, что он заполняет набор записей ADO (состоящий из записей и столбцов) в памяти и предоставляет данные из задачи DataFlow путем реализации интерфейса DataReader, чтобы другое приложение могло использовать эти данные.
14) Каковы возможные способы обновления таблицы с помощью SSIS (Служба интеграции SQL Server)?
Для обновления таблицы с помощью SSIS возможны следующие способы:
- Используйте команду SQL
- Используйте промежуточный стол
- Использовать кеш
- Используйте задачу сценария
- Используйте полное имя базы данных для обновления, если используется MSSQL
15) Если у вас есть не-OLEDB (база данных связывания и встраивания объектов) источник для поиска, что бы вы сделали?
В случае, если у вас есть источник, отличный от OLEBD для поиска, вам необходимо использовать кеш для загрузки данных и использовать их в качестве источника.
16) В каком случае вы используете динамический и статический кеш в связанных и несвязанных преобразованиях?
- Динамический кеш используется, когда вам нужно обновить главную таблицу и медленно меняющиеся измерения (SCD) типа 1
- Для плоских файлов используется статический кеш
17) Объясните, в чем разница между поиском без подключения и подключения?
Подключенный поиск |
Несвязанный поиск |
|
- Используется, когда функция поиска используется вместо преобразования выражения при отображении |
|
- Возвращает только один выходной порт |
|
|
|
|
|
|
|
|
18) Объясните, что такое представление источника данных?
Представление источника данных позволяет определить реляционную схему, которая будет использоваться в базах данных служб анализа. Измерения и кубы создаются не напрямую из объектов источников данных, а из представлений источников данных.
19) Объясните, в чем разница между инструментами OLAP и инструментами ETL?
Разница между инструментами ETL и OLAP заключается в том, что
Инструмент ETL предназначен для извлечения данных из устаревших систем и загрузки в указанную базу данных с некоторым процессом очистки данных.
Пример: этап данных, информатика и т. Д.
В то время как OLAP предназначен для отчетности в данных OLAP, доступных в разнонаправленной модели.
Пример: Business Objects, Cognos и т. Д.
20) Как можно извлечь данные SAP с помощью Informatica?
- С опцией подключения к источнику питания вы извлекаете данные SAP с помощью informatica.
- Установите и настройте инструмент PowerConnect
- Импортируйте источник в Source Analyzer. Между Informatica и SAP Powerconnect действует как шлюз. Следующим шагом является создание кода ABAP для сопоставления, после чего только informatica может извлекать данные из SAP.
- Для подключения и импорта источников из внешних систем используется Power Connect.
21) Упомяните, в чем разница между Power Mart и Power Center?
Центр питания |
Power Mart |
|
|
|
|
|
|
|
|
22) Объясните, что такое плацдарм и каково его назначение?
Подготовка данных - это область, в которой вы временно храните данные на сервере хранилища данных. Подготовка данных включает следующие шаги
- Извлечение исходных данных и преобразование данных (реструктуризация)
- Преобразование данных (очистка данных, преобразование значений)
- Назначения суррогатных ключей
23) Что такое схема шины?
Для различных бизнес-процессов для определения общих измерений используется схема BUS. Он имеет согласованные размеры и стандартное определение информации.
24) Объясните, что такое очистка данных?
Очистка данных - это процесс удаления данных из хранилища данных. Он удаляет ненужные данные, такие как строки с нулевыми значениями или лишними пробелами.
25) Объясните, что такое объекты схемы?
Объекты схемы - это логическая структура, которая напрямую ссылается на данные базы данных. Объекты схемы включают таблицы, представления, синонимы последовательностей, индексы, кластеры, пакеты функций и ссылки на базы данных.
26) Объясните эти термины «Сессия», «Рабочийлет», «Маплет» и «Рабочий процесс»?
- Маплет: он упорядочивает или создает наборы преобразований.
- Worklet: он представляет собой конкретный набор поставленных задач.
- Рабочий процесс: это набор инструкций, которые сообщают серверу, как выполнять задачи.
- Сессия: это набор параметров, который сообщает серверу, как перемещать данные из источников в целевые.
Бесплатная загрузка PDF: вопросы и ответы на собеседовании по тестированию ETL