62 самых популярных вопроса на собеседовании с Data Engineer & Ответы

Anonim

Вот часто задаваемые вопросы собеседования с инженером по обработке данных как для новичков, так и для опытных кандидатов, чтобы получить подходящую работу.

1) Объясните Data Engineering.

Инженерия данных - это термин, используемый в больших данных. Основное внимание уделяется применению сбора данных и исследований. Данные, полученные из различных источников, - это просто необработанные данные. Инженерия данных помогает преобразовать эти необработанные данные в полезную информацию.

2) Что такое моделирование данных?

Моделирование данных - это метод документирования сложной конструкции программного обеспечения в виде диаграммы, чтобы любой мог легко ее понять. Это концептуальное представление объектов данных, связанных между различными объектами данных и правилами.

3) Перечислите различные типы схем проектирования в моделировании данных.

В моделировании данных в основном используются два типа схем: 1) схема "звезда" и 2) схема "снежинка".

4) Различать структурированные и неструктурированные данные

Ниже приводится разница между структурированными и неструктурированными данными:

Параметр Структурированные данные Неструктурированные данные
Место хранения СУБД Неуправляемые файловые структуры
Стандарт ADO.net, ODBC и SQL STMP, XML, CSV и SMS
Инструмент интеграции ELT (извлечение, преобразование, загрузка) Ручной ввод данных или пакетная обработка, включающая коды
масштабирование Масштабирование схемы затруднено Масштабирование очень просто.

5) Объясните все компоненты приложения Hadoop.

Ниже приведены компоненты приложения Hadoop:

  • Hadoop Common: это общий набор утилит и библиотек, используемых Hadoop.
  • HDFS: это приложение Hadoop относится к файловой системе, в которой хранятся данные Hadoop. Это распределенная файловая система с высокой пропускной способностью.
  • Hadoop MapReduce: основан на алгоритме для обеспечения крупномасштабной обработки данных.
  • Hadoop YARN: он используется для управления ресурсами в кластере Hadoop. Его также можно использовать для планирования задач для пользователей.

6) Что такое NameNode?

Это центральный элемент HDFS. Он хранит данные HDFS и отслеживает различные файлы в кластерах. Здесь фактические данные не сохраняются. Данные хранятся в DataNodes.

7) Определение потоковой передачи Hadoop

Это утилита, которая позволяет создавать карты и сокращать задания и отправлять их в определенный кластер.

8) Что такое полная форма HDFS?

HDFS означает распределенную файловую систему Hadoop.

9) Определить блок и сканер блоков в HDFS

Блоки - это наименьшая единица файла данных. Hadoop автоматически разбивает огромные файлы на мелкие части.

Сканер блоков проверяет список блоков, представленных в DataNode.

10) Какие действия выполняются, когда сканер блоков обнаруживает поврежденный блок данных?

Ниже приведены шаги, которые выполняются, когда сканер блоков обнаруживает поврежденный блок данных:

1) Прежде всего, когда Block Scanner обнаруживает поврежденный блок данных, DataNode сообщает NameNode

2) NameNode запускает процесс создания новой реплики с использованием реплики поврежденного блока.

3) Количество репликаций правильных реплик пытается соответствовать коэффициенту репликации. При обнаружении совпадения поврежденный блок данных не будет удален.

11) Назовите два сообщения, которые NameNode получает от DataNode?

NameNode получает два сообщения от DataNode. Это 1) отчет о блоке и 2) сердцебиение.

12) Перечислить различные файлы конфигурации XML в Hadoop?

В Hadoop есть пять файлов конфигурации XML:

  • Mapred-сайт
  • Основной сайт
  • HDFS-сайт
  • Пряжа-сайт

13) Каковы четыре буквы V больших данных?

Четыре V больших данных:

  • Скорость
  • Разнообразие
  • Объем
  • Достоверность

14) Объясните особенности Hadoop

Важные особенности Hadoop:

  • Это среда с открытым исходным кодом, которая доступна бесплатно.
  • Hadoop совместим со многими типами оборудования и обеспечивает легкий доступ к новому оборудованию в пределах конкретного узла.
  • Hadoop поддерживает более быструю распределенную обработку данных.
  • Он хранит данные в кластере, который не зависит от остальных операций.
  • Hadoop позволяет создавать по 3 реплики для каждого блока с разными узлами.

15) Объясните основные методы работы с Reducer

  • setup (): используется для настройки таких параметров, как размер входных данных и распределенного кеша.
  • cleanup (): этот метод используется для очистки временных файлов.
  • reduce (): это сердце редуктора, который вызывается один раз для каждой клавиши с соответствующей сокращенной задачей.

16) Какое сокращение от COSHH?

Аббревиатура COSHH - это расписание на основе классификации и оптимизации для гетерогенных систем Hadoop.

17) Объясните схему звезды

Схема «звезда» или схема «звездообразное соединение» - это простейший тип схемы хранилища данных. Она известна как звездная схема, потому что ее структура похожа на звезду. В схеме "звезда" центр звезды может иметь одну таблицу фактов и несколько связанных таблиц измерений. Эта схема используется для запроса больших наборов данных.

18) Как развернуть решение для больших данных?

Выполните следующие шаги, чтобы развернуть решение для больших данных.

1) Интегрируйте данные с использованием таких источников данных, как СУБД, SAP, MySQL, Salesforce.

2) Храните извлеченные данные в базе данных NoSQL или HDFS.

3) Разверните решение для работы с большими данными с помощью сред обработки, таких как Pig, Spark и MapReduce.

19) Объясните FSCK

Проверка файловой системы или FSCK - это команда, используемая HDFS. Команда FSCK используется для проверки несоответствий и проблем в файле.

20) Объясните схему снежинки

Схема «Снежинка» является расширением схемы «звезда» и добавляет дополнительные измерения. Его называют снежинкой, потому что его диаграмма похожа на снежинку. Таблицы измерений нормализованы, что позволяет разбить данные на дополнительные таблицы.

21) Различия между схемой звезды и снежинки

Звезда Схема SnowFlake
Иерархии измерений хранятся в таблице измерений. Каждая иерархия хранится в отдельных таблицах.
Шансы на избыточность данных высоки Шансы на избыточность данных низкие.
Имеет очень простой дизайн БД. Имеет сложный дизайн БД
Обеспечивает более быстрый способ обработки куба Обработка куба происходит медленно из-за сложного соединения.

22) Объясните распределенную файловую систему Hadoop

Hadoop работает с масштабируемыми распределенными файловыми системами, такими как S3, HFTP FS, FS и HDFS. Распределенная файловая система Hadoop создана на основе файловой системы Google. Эта файловая система разработана таким образом, чтобы ее можно было легко запустить в большом кластере компьютерной системы.

23) Объясните основные обязанности дата-инженера

У инженеров по обработке данных много обязанностей. Они управляют исходной системой данных. Инженеры по обработке данных упрощают сложную структуру данных и предотвращают дублирование данных. Часто они также обеспечивают ELT и преобразование данных.

24) Что такое полная форма ПРЯЖИ?

Полная форма YARN - это еще один переговорщик ресурсов.

25) Список различных режимов в Hadoop

Режимы в Hadoop: 1) Автономный режим 2) Псевдораспределенный режим 3) Полностью распределенный режим.

26) Как добиться безопасности в Hadoop?

Выполните следующие шаги для обеспечения безопасности в Hadoop:

1) Первый шаг - защитить канал аутентификации клиента на сервере. Предоставьте клиенту отметку времени.

2) На втором этапе клиент использует полученную метку времени для запроса TGS для билета службы.

3) На последнем шаге клиент использует билет службы для самоутентификации на определенном сервере.

27) Что такое сердцебиение в Hadoop?

В Hadoop NameNode и DataNode взаимодействуют друг с другом. Heartbeat - это сигнал, который DataNode регулярно отправляет в NameNode, чтобы показать его присутствие.

28) Различия между NAS и DAS в Hadoop

NAS DAS
Емкость памяти составляет от 10 9 до 10 12 байтов. Емкость памяти составляет 10 9 байт.
Стоимость управления за гигабайт умеренная. Стоимость управления за гигабайт высока.
Передавать данные через Ethernet или TCP / IP. Передавать данные с помощью IDE / SCSI

29) Перечислите важные поля или языки, используемые инженером данных

Вот несколько полей или языков, используемых инженером по обработке данных:

  • Вероятность и линейная алгебра
  • Машинное обучение
  • Анализ тенденций и регрессия
  • Базы данных Hive QL и SQL

30) Что такое большие данные?

Это большой объем структурированных и неструктурированных данных, которые не могут быть легко обработаны традиционными методами хранения данных. Инженеры по обработке данных используют Hadoop для управления большими данными.

31) Что такое планирование FIFO?

Это алгоритм планирования заданий Hadoop. В этом планировании FIFO репортер выбирает задания из очереди работ, причем самое старое задание первым.

32) Укажите номера портов по умолчанию, на которых выполняется средство отслеживания задач, NameNode и средство отслеживания заданий в Hadoop.

Номера портов по умолчанию, на которых выполняется отслеживание задач, NameNode и средство отслеживания заданий в Hadoop, следующие:

  • Трекер задач работает на порте 50060
  • NameNode работает на порте 50070
  • Job Tracker работает на порте 50030

33) Как отключить сканер блоков на узле данных HDFS

Чтобы отключить сканер блоков на узле данных HDFS, установите для dfs.datanode.scan.period.hours значение 0.

34) Как определить расстояние между двумя узлами в Hadoop?

Расстояние равно сумме расстояний до ближайших узлов. Метод getDistance () используется для вычисления расстояния между двумя узлами.

35) Зачем использовать обычное оборудование в Hadoop?

Обычное оборудование легко получить и доступно по цене. Это система, совместимая с Windows, MS-DOS или Linux.

36) Определите коэффициент репликации в HDFS

Фактор репликации - это общее количество реплик файла в системе.

37) Какие данные хранятся в NameNode?

Namenode хранит метаданные для HDFS, например информацию о блоках и информацию о пространстве имен.

38) Что вы подразумеваете под «осведомленностью о стойке»?

В кластере Haddop Namenode использует Datanode для улучшения сетевого трафика при чтении или записи любого файла, который находится ближе к ближайшей стойке, для запроса чтения или записи. Namenode поддерживает идентификатор стойки каждого DataNode для получения информации о стойке. Эта концепция называется Rack Awareness в Hadoop.

39) Каковы функции Secondary NameNode?

Ниже приведены функции Secondary NameNode:

  • FsImage, в котором хранится копия файла EditLog и FsImage.
  • Сбой NameNode: если происходит сбой NameNode, то FsImage вторичного NameNode можно использовать для воссоздания NameNode.
  • Контрольная точка: используется Secondary NameNode для подтверждения того, что данные не повреждены в HDFS.
  • Обновление: автоматически обновляются файлы EditLog и FsImage. Это помогает обновлять файл FsImage на вторичном узле имени.

40) Что происходит, когда NameNode не работает, а пользователь отправляет новое задание?

NameNode - это единственная точка отказа в Hadoop, поэтому пользователь не может отправить новое задание, не может выполнить. Если NameNode не работает, то задание может завершиться ошибкой, так как этому пользователю необходимо дождаться перезапуска NameNode перед запуском любого задания.

41) Каковы основные этапы редуктора в Hadoop?

В Hadoop есть три основных этапа редуктора:

1. Перемешать: Здесь Reducer копирует вывод Mapper.

2. Сортировка. При сортировке Hadoop сортирует входные данные для редуктора с использованием того же ключа.

3. Уменьшить: на этом этапе выходные значения, связанные с ключом, уменьшаются, чтобы объединить данные в окончательный результат.

42) Почему Hadoop использует объект контекста?

Платформа Hadoop использует объект Context с классом Mapper для взаимодействия с остальной системой. Объект контекста получает сведения о конфигурации системы и задание в своем конструкторе.

Мы используем объект Context для передачи информации в методы setup (), cleanup () и map (). Этот объект делает важную информацию доступной во время работы с картой.

43) Определить комбайнер в Hadoop

Это необязательный шаг между отображением и уменьшением. Combiner принимает выходные данные функции Map, создает пары ключ-значение и отправляет их в Hadoop Reducer. Задача Combiner - обобщить окончательный результат Map в итоговые записи с идентичным ключом.

44) Какой коэффициент репликации по умолчанию доступен в HDFS Что это означает?

Фактор репликации по умолчанию в HDFS равен трем. Коэффициент репликации по умолчанию указывает, что будет три реплики каждых данных.

45) Что вы имеете в виду «Локальность данных» в Hadoop?

В системе больших данных размер данных огромен, и поэтому нет смысла перемещать данные по сети. Теперь Hadoop пытается приблизить вычисления к данным. Таким образом, данные остаются локальными для сохраненного места.

46) Определить балансировщик в HDFS

В HDFS балансировщик - это административный аппарат, используемый административным персоналом для перебалансировки данных между узлами данных и перемещения блоков с чрезмерно загруженных узлов на недостаточно используемые.

47) Объясните безопасный режим в HDFS

Это режим только для чтения NameNode в кластере. Изначально NameNode находится в безопасном режиме. Это предотвращает запись в файловую систему в безопасном режиме. В это время он собирает данные и статистику со всех узлов данных.

48) В чем важность распределенного кэша в Apache Hadoop?

В Hadoop есть полезная служебная функция, так называемый распределенный кэш, которая повышает производительность заданий за счет кэширования файлов, используемых приложениями. Приложение может указать файл для кеша с помощью конфигурации JobConf.

Фреймворк Hadoop создает реплики этих файлов для узлов, на которых должна выполняться задача. Это делается до начала выполнения задачи. Распределенный кэш поддерживает распространение файлов только для чтения, а также файлов ZIP и JAR.

49) Что такое Metastore в Hive?

В нем хранится схема, а также расположение таблицы Hive.

Таблица Hive определяет, сопоставления и метаданные, которые хранятся в Metastore. Это может быть сохранено в СУБД, поддерживаемой JPOX.

50) Что означает SerDe в Hive?

SerDe - это краткое название сериализатора или десериализатора. В Hive SerDe позволяет читать данные из таблицы и записывать в определенное поле в любом формате.

51) Список компонентов, доступных в модели данных Hive

В модель данных Hive входят следующие компоненты:

  • Таблицы
  • Перегородки
  • Ведра

52) Объясните использование Hive в экосистеме Hadoop.

Hive предоставляет интерфейс для управления данными, хранящимися в экосистеме Hadoop. Hive используется для отображения и работы с таблицами HBase. Запросы Hive преобразуются в задания MapReduce, чтобы скрыть сложность, связанную с созданием и запуском заданий MapReduce.

53) Список различных сложных типов данных / коллекций, поддерживаемых Hive

Hive поддерживает следующие сложные типы данных:

  • карта
  • Struct
  • Множество
  • Союз

54) Объясните, как используется файл .hiverc в Hive?

В Hive .hiverc - это файл инициализации. Этот файл изначально загружается, когда мы запускаем интерфейс командной строки (CLI) для Hive. Мы можем установить начальные значения параметров в файле .hiverc.

55) Можно ли создать более одной таблицы в Hive для одного файла данных?

Да, мы можем создать несколько схем таблиц для файла данных. Hive сохраняет схему в Hive Metastore. На основе этой схемы мы можем получать разные результаты из одних и тех же данных.

56) Объясните различные реализации SerDe, доступные в Hive

В Hive доступно множество реализаций SerDe. Вы также можете написать свою собственную реализацию SerDe. Ниже приведены некоторые известные реализации SerDe:

  • OpenCSVSerde
  • RegexSerDe
  • DelimitedJSONSerDe
  • ByteStreamTypedSerDe

57) Список функций создания таблиц, доступных в Hive

Ниже приведен список функций создания таблиц:

  • Взрыв (массив)
  • JSON_tuple ()
  • Куча()
  • Взрыв (карта)

58) Что такое перекошенный стол в Hive?

Перекошенная таблица - это таблица, которая чаще всего содержит значения столбцов. В Hive, когда мы указываем таблицу как SKEWED во время создания, искаженные значения записываются в отдельные файлы, а оставшиеся значения переходят в другой файл.

59) Вывести список объектов, созданных оператором create в MySQL.

Объекты, созданные оператором create в MySQL, следующие:

  • База данных
  • Индекс
  • Стол
  • Пользователь
  • Процедура
  • Спусковой крючок
  • Мероприятие
  • Вид
  • Функция

60) Как посмотреть структуру базы данных в MySQL?

Чтобы увидеть структуру базы данных в MySQL, вы можете использовать

Команда DESCRIBE. Синтаксис этой команды: DESCRIBE Table name ;.

61) Как искать конкретную строку в столбце таблицы MySQL?

Используйте оператор регулярного выражения для поиска строки в столбце MySQL. Здесь мы также можем определять различные типы регулярных выражений и искать с помощью регулярных выражений.

62) Объясните, как анализ данных и большие данные могут увеличить доход компании?

Ниже приведены способы увеличения доходов компании с помощью аналитики и больших данных:

  • Эффективно используйте данные, чтобы обеспечить рост бизнеса.
  • Повышайте ценность для клиентов.
  • Использование аналитических данных для улучшения прогнозов уровня укомплектования персоналом.
  • Снижение себестоимости продукции организаций.