25 самых популярных вопросов на собеседовании по тестированию ETL & Ответы

Anonim

Ниже приведены часто задаваемые вопросы в интервью для новичков, а также опытных тестировщиков и разработчиков ETL.

1) Что такое ETL?

В архитектуре хранилищ данных ETL является важным компонентом, который управляет данными для любого бизнес-процесса. ETL расшифровывается как « Извлечь, преобразовать и загрузить» . Extract выполняет процесс чтения данных из базы данных. Transform выполняет преобразование данных в формат, подходящий для отчетности и анализа. В то время как load выполняет процесс записи данных в целевую базу данных.

2) Объясните, что включает в себя тестирование ETL?

Тестирование ETL включает

  • Убедитесь, что данные правильно преобразуются в соответствии с бизнес-требованиями.
  • Убедитесь, что прогнозируемые данные загружаются в хранилище данных без усечения и потери данных.
  • Убедитесь, что приложение ETL сообщает о недопустимых данных и заменяет их значениями по умолчанию.
  • Убедитесь, что данные загружаются в ожидаемый период времени, чтобы улучшить масштабируемость и производительность.

3) Упомяните, какие типы приложений для хранилищ данных и в чем разница между интеллектуальным анализом данных и хранилищами данных?

Типы приложений хранилища данных:

  • Обработка информации
  • Аналитическая обработка
  • Сбор данных

Интеллектуальный анализ данных можно определить как процесс извлечения скрытой прогнозной информации из больших баз данных и интерпретации данных, в то время как хранилище данных может использовать добычу данных для более быстрой аналитической обработки данных. Хранилище данных - это процесс объединения данных из нескольких источников в одно общее хранилище.

4) Какие различные инструменты используются в ETL?

  • Cognos Decision Stream
  • Oracle Warehouse Builder
  • Бизнес-объекты XI
  • Бизнес-склад SAS
  • Сервер SAS Enterprise ETL

5) Что такое факт? Какие бывают факты?

Это центральный компонент многомерной модели, которая содержит меры, подлежащие анализу. Факты связаны с размерами.

Типы фактов

  • Аддитивные факты
  • Полусаддитивные факты
  • Неаддитивные факты

6) Объясните, что такое кубы и кубы OLAP?

Кубы - это блоки обработки данных, состоящие из таблиц фактов и измерений из хранилища данных. Он обеспечивает многомерный анализ.

OLAP расшифровывается как Online Analytics Processing, а куб OLAP хранит большие данные в многомерной форме для целей отчетности. Он состоит из фактов, называемых мерами, сгруппированных по размерам.

7) Объясните, что такое уровень трассировки и какие бывают типы?

Уровень отслеживания - это объем данных, хранящихся в файлах журнала. Уровень трассировки можно разделить на два: Обычный и Подробный. Обычный уровень подробно объясняет уровень трассировки, в то время как подробный объясняет уровни трассировки в каждой строке.

8) Объясните, что такое крупность фактов?

Факты зерна можно определить как уровень, на котором хранится информация о фактах. Это также известно как гранулярность фактов.

9) Объясните, что такое схема не имеющих фактов фактов и что такое меры?

Таблица фактов без мер называется таблицей фактов без фактов. Он может просматривать количество происходящих событий. Например, он используется для записи такого события, как количество сотрудников в компании.

Числовые данные, основанные на столбцах в таблице фактов, известны как меры.

10) Объясните, что такое трансформация?

Преобразование - это объект репозитория, который генерирует, изменяет или передает данные. Преобразования бывают двух типов: Активные и Пассивные.

11) Объясните использование преобразования поиска?

Преобразование поиска полезно для

  • Получение связанного значения из таблицы с использованием значения столбца
  • Обновить медленно меняющуюся таблицу измерений
  • Убедитесь, что записи уже существуют в таблице

12) Объясните, что такое разбиение по хешу и циклическое разбиение?

Для повышения производительности транзакции делятся на части, это называется секционированием. Partioning позволяет Informatica Server создавать множественные подключения к различным источникам.

Типы перегородок бывают

Циклическое разбиение:

  • По информатике данные распределяются равномерно по всем разделам
  • В каждом разделе, где количество обрабатываемых строк примерно одинаково, применимо это разделение.

Разбиение на разделы:

  • Для разделения ключей для группировки данных между разделами сервер Informatica применяет хеш-функцию.
  • Он используется, когда необходимо обеспечить процессы групп строк с одним и тем же ключом разделения в одном разделе.

13) Укажите, в чем преимущество использования целевого адаптера DataReader?

Преимущество использования целевого адаптера DataReader заключается в том, что он заполняет набор записей ADO (состоящий из записей и столбцов) в памяти и предоставляет данные из задачи DataFlow путем реализации интерфейса DataReader, чтобы другое приложение могло использовать эти данные.

14) Каковы возможные способы обновления таблицы с помощью SSIS (Служба интеграции SQL Server)?

Для обновления таблицы с помощью SSIS возможны следующие способы:

  • Используйте команду SQL
  • Используйте промежуточный стол
  • Использовать кеш
  • Используйте задачу сценария
  • Используйте полное имя базы данных для обновления, если используется MSSQL

15) Если у вас есть не-OLEDB (база данных связывания и встраивания объектов) источник для поиска, что бы вы сделали?

В случае, если у вас есть источник, отличный от OLEBD для поиска, вам необходимо использовать кеш для загрузки данных и использовать их в качестве источника.

16) В каком случае вы используете динамический и статический кеш в связанных и несвязанных преобразованиях?

  • Динамический кеш используется, когда вам нужно обновить главную таблицу и медленно меняющиеся измерения (SCD) типа 1
  • Для плоских файлов используется статический кеш

17) Объясните, в чем разница между поиском без подключения и подключения?

Подключенный поиск

Несвязанный поиск

  • Подключенный поиск участвует в отображении

- Используется, когда функция поиска используется вместо преобразования выражения при отображении

  • Может быть возвращено несколько значений

- Возвращает только один выходной порт

  • Он может быть связан с другими преобразованиями и возвращает значение
  • Другое преобразование не может быть подключено
  • Статический или динамический кеш может использоваться для подключенного поиска
  • Не подключен как только статический кеш
  • Подключенный поиск поддерживает определенные пользователем значения по умолчанию
  • Поиск без подключения не поддерживает пользовательские значения по умолчанию
  • В Connected Lookup несколько столбцов можно вернуть из той же строки или вставить в кеш динамического поиска.
  • Неподключенный поиск назначает один порт возврата и возвращает по одному столбцу из каждой строки

18) Объясните, что такое представление источника данных?

Представление источника данных позволяет определить реляционную схему, которая будет использоваться в базах данных служб анализа. Измерения и кубы создаются не напрямую из объектов источников данных, а из представлений источников данных.

19) Объясните, в чем разница между инструментами OLAP и инструментами ETL?

Разница между инструментами ETL и OLAP заключается в том, что

Инструмент ETL предназначен для извлечения данных из устаревших систем и загрузки в указанную базу данных с некоторым процессом очистки данных.

Пример: этап данных, информатика и т. Д.

В то время как OLAP предназначен для отчетности в данных OLAP, доступных в разнонаправленной модели.

Пример: Business Objects, Cognos и т. Д.

20) Как можно извлечь данные SAP с помощью Informatica?

  • С опцией подключения к источнику питания вы извлекаете данные SAP с помощью informatica.
  • Установите и настройте инструмент PowerConnect
  • Импортируйте источник в Source Analyzer. Между Informatica и SAP Powerconnect действует как шлюз. Следующим шагом является создание кода ABAP для сопоставления, после чего только informatica может извлекать данные из SAP.
  • Для подключения и импорта источников из внешних систем используется Power Connect.

21) Упомяните, в чем разница между Power Mart и Power Center?

Центр питания

Power Mart

  • Предположим, для обработки огромного объема данных
  • Предположим, для обработки небольшого объема данных
  • Он поддерживает источники ERP, такие как SAP, people soft и т. Д.
  • Он не поддерживает источники ERP
  • Он поддерживает локальный и глобальный репозиторий.
  • Он поддерживает локальный репозиторий
  • Преобразует локальный репозиторий в глобальный
  • Нет спецификации для преобразования локального репозитория в глобальный.

22) Объясните, что такое плацдарм и каково его назначение?

Подготовка данных - это область, в которой вы временно храните данные на сервере хранилища данных. Подготовка данных включает следующие шаги

  • Извлечение исходных данных и преобразование данных (реструктуризация)
  • Преобразование данных (очистка данных, преобразование значений)
  • Назначения суррогатных ключей

23) Что такое схема шины?

Для различных бизнес-процессов для определения общих измерений используется схема BUS. Он имеет согласованные размеры и стандартное определение информации.

24) Объясните, что такое очистка данных?

Очистка данных - это процесс удаления данных из хранилища данных. Он удаляет ненужные данные, такие как строки с нулевыми значениями или лишними пробелами.

25) Объясните, что такое объекты схемы?

Объекты схемы - это логическая структура, которая напрямую ссылается на данные базы данных. Объекты схемы включают таблицы, представления, синонимы последовательностей, индексы, кластеры, пакеты функций и ссылки на базы данных.

26) Объясните эти термины «Сессия», «Рабочийлет», «Маплет» и «Рабочий процесс»?

  • Маплет: он упорядочивает или создает наборы преобразований.
  • Worklet: он представляет собой конкретный набор поставленных задач.
  • Рабочий процесс: это набор инструкций, которые сообщают серверу, как выполнять задачи.
  • Сессия: это набор параметров, который сообщает серверу, как перемещать данные из источников в целевые.

Бесплатная загрузка PDF: вопросы и ответы на собеседовании по тестированию ETL