88 вопросов и ответов на собеседовании по моделированию данных

Anonim

Вот вопросы собеседования по моделированию данных как для более новых, так и для опытных кандидатов.

1) Что такое моделирование данных?

Моделирование данных - это процесс создания модели данных для хранения в базе данных. Это концептуальное представление объектов данных, связи между различными объектами данных и правил.

2) Объяснять различные типы моделей данных

В основном существует три различных типа моделей данных:

Концептуальный: концептуальная модель данных определяет, что должна содержать система. Эта модель обычно создается заинтересованными сторонами бизнеса и архитекторами данных. Цель состоит в том, чтобы организовать, охватить и определить бизнес-концепции и правила.

Логический: определяет, как система должна быть реализована независимо от СУБД. Эта модель обычно создается архитекторами данных и бизнес-аналитиками. Цель состоит в том, чтобы разработать техническую карту правил и структур данных.

Физический: эта модель данных описывает, как система будет реализована с использованием конкретной СУБД. Эта модель обычно создается администраторами баз данных и разработчиками. Целью является фактическая реализация базы данных.

3) Объясните факты и таблицу фактов

Факт представляет собой количественные данные. Например, чистая сумма, которая причитается. Таблица фактов содержит числовые данные, а также внешние ключи из размерных таблиц.

4) Перечислите различные схемы проектирования при моделировании данных.

Существует два разных типа схем моделирования данных: 1) схема "звезда" и 2) схема "снежинка".

5) Когда следует рассматривать денормализацию?

Денормализация используется, когда при извлечении данных активно используется таблица. Он используется для создания хранилища данных.

6) Объясните размер и атрибут

Размеры представляют собой качественные данные. Например, продукт, класс, план и т. Д. Таблица измерений имеет текстовые или описательные атрибуты. Например, категория продукта и название продукта являются двумя атрибутами таблицы аналитики продукта.

7) Что факт меньше факта?

Факт без фактов - это таблица, не имеющая измерения фактов. Он содержит только ключи измерения.

8) Что такое аналитика в памяти?

Аналитика в памяти - это процесс кэширования базы данных в оперативной памяти.

9) В чем разница между OLTP и OLAP?

OLTP OLAP
OLTP - это онлайн-транзакционная система. OLAP - это процесс онлайн-анализа и извлечения данных.
Для него характерно большое количество коротких онлайн-транзакций. Для него характерен большой объем данных.
OLTP использует традиционную СУБД. OLAP использует хранилище данных.
Таблицы в базе данных OLTP нормализованы. Таблицы в OLAP не нормализованы.
Его время отклика составляет миллисекунды. Его время отклика составляет от секунд до минут.
OLTP разработан для бизнес-операций в реальном времени. OLAP предназначен для анализа бизнес-показателей по категориям и атрибутам.

10) Что такое таблица?

Набор строк и столбцов называется таблицей. Каждый столбец имеет тип данных. Таблица содержит связанные данные в табличном формате.

11) Что такое столбец?

Столбец или поле - это вертикальное расположение данных, которые содержат связанную информацию.

12) Определите разреженность данных

Разреженность данных - это термин, используемый для обозначения того, сколько данных у вас есть для объекта / измерения модели.

13) Что такое составной первичный ключ?

Составной первичный ключ относится к случаю, когда более одного столбца таблицы используется как часть первичного ключа.

14) Что такое первичный ключ?

Первичный ключ - это столбец или группа столбцов, которые неравномерно идентифицируют каждую строку в таблице. Значение первичного ключа не должно быть нулевым. Каждая таблица должна содержать один первичный ключ.

15) Объясните внешний ключ

Внешний ключ - это группа атрибутов, которая используется для связывания родительской и дочерней таблиц. Значение столбца внешнего ключа, доступного в дочерней таблице, ссылается на значение первичного ключа в родительской таблице.

16) Что такое метаданные?

Метаданные описывают данные о данных. Он показывает, какие данные фактически хранятся в системе баз данных.

17) Что такое витрина данных?

Витрина данных - это сокращенная версия хранилища данных, предназначенная для использования конкретным отделом, подразделением или группой пользователей в организации. Например, маркетинг, продажи, управление персоналом или финансы.

18) Что такое OLTP?

Онлайн-обработка транзакций, известная как OLTP, поддерживает приложения, ориентированные на транзакции, в трехуровневой архитектуре. OLTP управляет повседневными транзакциями компании или организации.

19) Какие примеры системы OLTP?

Примером системы OLTP являются:

  • Отправка текстового сообщения
  • Добавить книгу в корзину
  • Бронирование авиабилетов онлайн
  • Онлайн банкинг
  • Порядок въезда

20) Что такое контрольное ограничение?

Ограничение проверки используется для проверки диапазона значений в столбце.

21) Перечислите типы нормализации?

Типы нормализации: 1) первая нормальная форма, 2) вторая нормальная форма, 3) третья нормальная форма, 4) четвертая нормальная форма и 5) пятая нормальная форма.

22) Что такое форвардная инженерия данных?

Форвард-инжиниринг - это технический термин, используемый для описания процесса автоматического преобразования логической модели в физическое устройство.

23) Что такое PDAP?

Это куб данных, в котором данные хранятся в виде сводки. Это помогает пользователю быстро анализировать данные. Данные в PDAP хранятся таким образом, чтобы можно было легко создавать отчеты.

24) Объясните дизайн базы данных схемы снежинок

Схема «снежинка» - это комбинация таблицы измерений и таблицы фактов. Как правило, обе таблицы разбиты на несколько таблиц измерений.

25) Объясните сервис анализа

Служба анализа дает комбинированное представление данных, которые используются в интеллектуальном анализе данных или OLAP.

26) Что такое алгоритм кластеризации последовательностей?

Алгоритм кластеризации последовательностей собирает пути, которые похожи или связаны друг с другом, и последовательности данных, имеющих события.

27) Что такое дискретные и непрерывные данные?

Скрытые данные - это конечные данные или определенные данные. Например, пол, номера телефонов. Непрерывные данные - это данные, которые изменяются непрерывно и упорядоченно. Например, возраст.

28) Что такое алгоритм временных рядов?

Алгоритм временных рядов - это метод прогнозирования непрерывных значений данных в таблице. Например, производительность, один сотрудник может прогнозировать прибыль или влияние.

29) Что такое бизнес-аналитика?

BI (Business Intelligence) - это набор процессов, архитектур и технологий, которые преобразуют необработанные данные в значимую информацию, которая способствует прибыльным бизнес-действиям. Это набор программного обеспечения и услуг для преобразования данных в полезные сведения и знания.

30) Что такое битовый индекс?

Индексы Bitmap - это особый тип индекса базы данных, который использует битовые массивы (битовые массивы) для ответа на запросы путем выполнения побитовых операций.

31) Подробное описание хранилищ данных

Хранилище данных - это процесс сбора и управления данными из различных источников. Он предоставляет содержательную информацию о бизнесе и предприятии. Хранилища данных обычно используются для подключения и анализа данных из разнородных источников. Это ядро ​​системы бизнес-аналитики, предназначенной для анализа данных и создания отчетов.

32) Что такое размер мусора?

Измерение нежелательной почты объединяет две или более связанных мощности в одно измерение. Обычно это логические значения или значения флагов.

33) Объясните схему данных

Схема данных - это схематическое представление, которое иллюстрирует отношения и структуры данных.

34) Объясните частоту сбора данных

Частота сбора данных - это скорость сбора данных. Он также проходит различные стадии. Этими этапами являются: 1) извлечение из различных источников, 3) преобразование, 4) очищение и 5) хранение.

35) Что такое мощность базы данных?

Количество элементов - это числовой атрибут отношения между двумя сущностями или наборами сущностей.

36) Какие существуют типы кардинальных отношений?

Различные типы ключевых кардинальных отношений:

  • Индивидуальные отношения
  • Отношения один-ко-многим
  • Отношения многие-к-одному
  • Отношения "многие ко многим"

37) Определите критический фактор успеха и перечислите его четыре типа

Критический фактор успеха - это благоприятный результат любой деятельности, необходимой организации для достижения своей цели.

Четыре типа критических факторов успеха:

  • Отраслевые CSF
  • Стратегия CSFs
  • Экологические CSF
  • Височные ликворы

38) Что такое интеллектуальный анализ данных?

Интеллектуальный анализ данных - это междисциплинарный навык, использующий машинное обучение, статистику, искусственный интеллект и технологии баз данных. Все дело в обнаружении неожиданных / ранее неизвестных взаимосвязей между данными.

39) В чем разница между схемой Star и схемой Snowflake?

Схема звезды Схема снежинки
Иерархии для измерений хранятся в размерной таблице. Иерархии разделены на отдельные таблицы.
Он содержит таблицу фактов, окруженную таблицами измерений. Одна таблица фактов, окруженная таблицей измерений, которая, в свою очередь, окружена таблицей измерений
В звездообразной схеме только одно соединение создает связь между таблицей фактов и любыми таблицами измерений. Схема «снежинка» требует много объединений для получения данных.
Имеет простой дизайн базы данных Имеет сложный дизайн базы данных
Денормализованная структура данных и запросы также выполняются быстрее. Нормализованная структура данных.
Высокий уровень избыточности данных Избыточность данных очень низкого уровня
Предлагает более эффективные запросы с помощью оптимизации запросов Star Join. Таблицы могут быть соединены с несколькими измерениями. Схема Snow Flake представлена ​​централизованной таблицей фактов, которая вряд ли связана с несколькими измерениями.

40) Что такое идентифицирующие отношения?

Идентификация отношений между сущностями в СУБД используется для определения взаимосвязи между двумя сущностями: 1) сильной сущностью и 2) слабой сущностью.

41) Что такое саморекурсивные отношения?

Рекурсивная связь - это отдельный столбец в таблице, который связан с первичным ключом той же таблицы.

42) Объясните моделирование реляционных данных

Реляционное моделирование данных - это представление объектов в реляционной базе данных, которое обычно нормализуется.

43) Что такое аналитика прогнозного моделирования?

Процесс проверки или тестирования модели, которая будет использоваться для прогнозирования результатов тестирования и проверки. Его можно использовать для машинного обучения, искусственного интеллекта, а также для статистики.

44) В чем разница между логической моделью данных и физической моделью данных?

Логическая модель данных Физическая модель данных
Логическая модель данных может логически спроектировать требования бизнеса. Физическая модель данных предоставляет информацию об источнике целевой базы данных и ее свойствах.
Он отвечает за фактическую реализацию данных, хранящихся в базе данных. Физическая модель данных помогает создать новую модель базы данных из существующей и применить ограничение ссылочной целостности.
Он содержит сущность, атрибуты первичного ключа, ключи инверсии, альтернативный ключ, правило, деловое отношение, определение и т. Д. Физическая модель данных содержит таблицу, ключевые ограничения, уникальный ключ, столбцы, внешний ключ, индексы, значения по умолчанию и т. Д.

45) Какие бывают типы ограничений?

Другой тип ограничения может быть уникальным, пустыми значениями, внешними ключами, составным ключом или проверочным ограничением и т. Д.

46) Что такое инструмент моделирования данных?

Инструмент моделирования данных - это программное обеспечение, которое помогает в построении потока данных и взаимосвязи между данными. Примеры таких инструментов: Borland Together, Altova Database Spy, casewise, Case Studio 2 и т. Д.

47) Что такое иерархическая СУБД?

В иерархической базе данных данные модели организованы в древовидную структуру. Данные хранятся в иерархическом формате. Данные представлены с использованием отношений родитель-потомок. В иерархической СУБД у родителя может быть много потомков, у потомков только один родитель.

48) Каковы недостатки иерархической модели данных?

Недостатками иерархической модели данных являются:

  • Он не является гибким, так как требуется время, чтобы адаптироваться к меняющимся потребностям бизнеса.
  • Структура ставит проблему в межведомственном общении, вертикальном общении, а также межведомственном общении.
  • Иерархическая модель данных может создавать проблемы разобщенности.

49) Объясните процессно-ориентированный подход к моделированию данных.

Подход, основанный на процессах, используемый в моделировании данных, следует пошаговому методу взаимосвязи между моделью сущность-взаимосвязь и организационным процессом.

50) Каковы преимущества использования моделирования данных?

Преимущества использования моделирования данных в хранилищах данных:

  • Это помогает вам управлять бизнес-данными путем их нормализации и определения его атрибутов.
  • Моделирование данных объединяет данные различных систем для уменьшения избыточности данных.
  • Это позволяет создать эффективный дизайн базы данных.
  • Моделирование данных помогает организационному отделу работать в команде.
  • Это облегчает доступ к данным.

51) Каковы недостатки использования моделирования данных?

Недостатками использования моделирования данных являются:

  • Имеет меньшую структурную независимость
  • Это может сделать систему сложной.

52) Что такое индекс?

Индекс используется для столбца или группы столбцов для быстрого извлечения данных.

53) Каковы характеристики логической модели данных?

Характеристики логической модели данных:

  • Описывает потребности в данных для одного проекта, но может интегрироваться с другими логическими моделями данных в зависимости от объема проекта.
  • Разработан и разработан независимо от СУБД.
  • Атрибуты данных будут иметь типы данных с точной точностью и длиной.
  • Процессы нормализации модели, которые обычно применяются до 3NF.

54) Каковы характеристики физической модели данных?

Характеристики физической модели данных:

  • Физическая модель данных описывает потребность в данных для одного проекта или приложения. Он может быть интегрирован с другими физическими моделями данных в зависимости от объема проекта.
  • Модель данных содержит отношения между таблицами, которые учитывают количество элементов и допустимость значений NULL для отношений.
  • Разработано для конкретной версии СУБД, местоположения, хранилища данных или технологии, которая будет использоваться в проекте.
  • Столбцы должны иметь точные типы данных, назначенную длину и значения по умолчанию.
  • Определены первичные и внешние ключи, представления, индексы, профили доступа, авторизации и т. Д.

55) Каковы два типа методов моделирования данных?

Два типа методов моделирования данных: 1) модель сущность-связь (ER) и 2) UML (унифицированный язык моделирования).

56) Что такое UML?

UML (Unified Modeling Language) - это универсальный язык разработки баз данных и моделирования в области разработки программного обеспечения. Основная цель - предоставить обобщенный способ визуализации дизайна системы.

57) Объясните объектно-ориентированную модель базы данных

Объектно-ориентированная модель базы данных - это набор объектов. Эти объекты могут иметь связанные функции, а также методы.

58) Что такое сетевая модель?

Это модель, построенная на иерархической модели. Он позволяет связывать записи несколькими отношениями, что указывает на наличие нескольких записей. Можно построить набор родительских записей и дочерних записей. Каждая запись может принадлежать нескольким наборам, что позволяет устанавливать сложные отношения таблиц.

59) Что такое хеширование?

Хеширование - это метод, который используется для поиска всех значений индекса и получения требуемых данных. Это помогает вычислить прямое расположение данных, которые записаны на диск, без использования структуры индекса.

60) Что такое бизнес или естественные ключи?

бизнес или естественные ключи - это поле, однозначно идентифицирующее сущность. Например, идентификатор клиента, номер сотрудника, адрес электронной почты и т. Д.

61) Что такое составной ключ?

Когда для представления ключа используется более одного поля, это называется составным ключом.

62) Что такое первая нормальная форма?

Первая нормальная форма или 1NF - это свойство отношения, доступное в системе управления реляционной базой данных. Любое отношение называется первой нормальной формой, если домен каждого атрибута содержит значения, которые являются атомарными. Он содержит одно значение из этого домена.

63) В чем разница между первичным ключом и внешним ключом?

Первичный ключ Иностранный ключ
Первичный ключ помогает однозначно идентифицировать запись в таблице. Внешний ключ - это поле в таблице, которое является первичным ключом другой таблицы.
Первичный ключ никогда не принимает нулевые значения. Внешний ключ может принимать несколько значений NULL.
Первичный ключ - это кластерный индекс, а данные в таблице СУБД физически организованы в последовательности кластеризованного индекса. Внешний ключ не может автоматически создавать индекс, кластеризованный или некластеризованный. Однако вы можете вручную создать индекс по внешнему ключу.
У вас может быть единственный первичный ключ в таблице. В таблице может быть несколько внешних ключей.

64) Каковы требования второй нормальной формы?

Требования второй нормальной формы:

  • Он должен быть в первой нормальной форме.
  • Он не содержит каких-либо непервичных атрибутов, которые функционально зависят от любого подмножества ключа-кандидата в отношении таблицы.

65) Каковы правила для третьей нормальной формы?

Правила для третьих нормальных форм:

  • Он должен быть во второй нормальной форме
  • Не имеет транзитивных функциональных зависимостей.

66) Какое значение имеет использование ключей?

  • Ключи помогают идентифицировать любую строку данных в таблице. В реальном приложении таблица может содержать тысячи записей.
  • Ключи гарантируют, что вы можете однозначно идентифицировать запись таблицы, несмотря на эти проблемы.
  • Позволяет установить взаимосвязь между таблицами и определить взаимосвязь между ними.
  • Помогите вам укрепить личность и целостность в отношениях.

67) Что такое суррогатный ключ?

Искусственный ключ, предназначенный для уникальной идентификации каждой записи, называется суррогатным ключом. Эти типы ключей уникальны, потому что они создаются, когда у вас нет естественного первичного ключа. Они не придают значения данным в таблице. Суррогатный ключ обычно является целым числом.

68) Подробно объясните альтернативный ключ

Альтернативный ключ - это столбец или группа столбцов в таблице, которые однозначно идентифицируют каждую строку в этой таблице. Таблица может иметь несколько вариантов первичного ключа, но только один может быть установлен в качестве первичного ключа. Все ключи, которые не являются первичными, называются альтернативными ключами.

69) Что такое четвертая нормальная форма в СУБД?

Четвертая нормальная форма - это уровень нормализации базы данных, на котором не должно быть нетривиальных зависимостей, кроме ключа-кандидата.

70) Что такое система управления базами данных?

Система управления базами данных или СУБД - это программное обеспечение для хранения и извлечения пользовательских данных. Он состоит из группы программ, управляющих базой данных.

71) Какое правило пятой нормальной формы?

Таблица находится в 5- й нормальной форме, только если она находится в 4- й нормальной форме, и ее нельзя разложить на любое количество меньших таблиц без потери данных.

72) Что такое нормализация?

Нормализация - это метод проектирования базы данных, который организует таблицы таким образом, чтобы уменьшить избыточность и зависимость данных. Он делит большие таблицы на более мелкие и связывает их с помощью отношений.

73) Объясните характеристики системы управления базами данных

  • Обеспечивает безопасность и устраняет избыточность
  • Самоописывающая природа системы баз данных
  • Изоляция между программами и абстракцией данных
  • Поддержка нескольких представлений данных.
  • Совместное использование данных и обработка многопользовательских транзакций
  • СУБД позволяет сущностям и отношениям между ними формировать таблицы.
  • Он следует концепции ACID (атомарность, согласованность, изоляция и долговечность).
  • СУБД поддерживает многопользовательскую среду, которая позволяет пользователям получать доступ к данным и управлять ими параллельно.

74) Список популярных СУБД

Популярные СУБД:

  • MySQL
  • Microsoft Access
  • Oracle
  • PostgreSQL
  • база данных
  • FoxPro
  • SQLite
  • IBM DB2
  • Microsoft SQL Server.

75) Объясните концепцию СУБД

Система управления реляционными базами данных - это программное обеспечение, которое используется для хранения данных в виде таблиц. В такой системе данные управляются и хранятся в строках и столбцах, которые известны как кортежи и атрибуты. РСУБД - это мощная система управления данными, которая широко используется во всем мире.

76) В чем преимущества модели данных?

Преимущества модели данных:

  • Основная цель разработки модели данных - убедиться, что объекты данных, предлагаемые функциональной группой, представлены точно.
  • Модель данных должна быть достаточно подробной, чтобы ее можно было использовать для построения физической базы данных.
  • Информация в модели данных может использоваться для определения взаимосвязи между таблицами, первичными и внешними ключами и хранимыми процедурами.
  • Модель данных помогает предприятиям общаться внутри и между организациями.
  • Модель данных помогает документировать сопоставления данных в процессе ETL
  • Помогите распознать правильные источники данных для заполнения модели

77) Каковы недостатки модели данных?

Недостатки модели данных:

  • Для разработки модели данных необходимо знать физические характеристики хранимых данных.
  • Это навигационная система, которая производит комплексную разработку приложений, управление ими. Таким образом, требуется знание биографической правды.
  • Даже небольшие изменения, внесенные в структуру, требуют модификации всего приложения.
  • В СУБД отсутствует набор языков манипулирования данными.

78) Объясните различные типы таблиц фактов

Есть три типа таблиц фактов:

  • Аддитив: это мера, которая добавляется к любому измерению.
  • Неаддитивный: это мера, которую нельзя добавить ни к какому измерению.
  • Полусаддитивный: это мера, которую можно добавить к нескольким измерениям.

79) Что такое сводная таблица?

Сводная таблица содержит агрегированные данные, которые можно вычислить с помощью таких функций, как: 1) Среднее 2) МАКС, 3) Счетчик, 4) СУММ, 5) СУММ и 6) МИН.

80) Что такое Подтвержденный размер?

Согласованное измерение - это измерение, которое разработано таким образом, чтобы его можно было использовать во многих таблицах фактов в различных областях хранилища данных.

81) Список типов иерархий в моделировании данных

Существует два типа иерархий: 1) иерархии на основе уровней и 2) иерархии родитель-потомок.

82) В чем разница между витриной данных и хранилищем данных?

Витрина данных Хранилище данных
Витрина данных фокусируется на одной предметной области бизнеса. Хранилище данных ориентировано на несколько областей бизнеса.
Он используется для принятия тактических решений для роста бизнеса. Помогает владельцам бизнеса принять стратегическое решение
Витрина данных следует восходящей модели Хранилище данных следует нисходящей модели
Источник данных поступает из одного источника данных Источник данных поступает из нескольких разнородных источников данных.

83) Что такое XMLA?

XMLA - это анализ XML, который считается стандартом для доступа к данным в онлайн-аналитической обработке (OLAP).

84) Объясните размер мусора

Размер нежелательной почты помогает хранить данные. Он используется, когда данные не подходят для хранения в схеме.

85) Объясните цепную репликацию данных

Ситуация, когда вторичный узел выбирает цель, используя время проверки связи, или когда ближайший узел является вторичным, это называется цепной репликацией данных.

86) Объяснение виртуального хранилища данных

Виртуальное хранилище данных дает коллективное представление о завершенных данных. В виртуальном хранилище данных нет исторических данных. Он рассматривается как логическая модель данных, имеющая метаданные.

87) Объясните снимок хранилища данных

Снимок - это полная визуализация данных в момент начала процесса извлечения данных.

88) Что такое двунаправленная вытяжка?

Способность системы извлекать, очищать и передавать данные в двух направлениях называется направленным извлечением.