Концепции хранилищ данных
Основная концепция хранилища данных - предоставить компании единую версию истины для принятия решений и прогнозирования. Хранилище данных - это информационная система, которая содержит исторические и коммутативные данные из одного или нескольких источников. Концепции хранилищ данных упрощают процесс отчетности и анализа в организациях.
Характеристики хранилища данных
Концепции хранилищ данных имеют следующие характеристики:
- Предметно-ориентированный
- Интегрированный
- Временной вариант
- Энергонезависимая
Предметно-ориентированный
Хранилище данных является предметно-ориентированным, поскольку оно предлагает информацию о теме, а не о текущих операциях компании. Этими предметами могут быть продажи, маркетинг, распространение и т. Д.
Хранилище данных никогда не фокусируется на текущих операциях. Вместо этого упор делается на моделирование и анализ данных для принятия решений . Он также обеспечивает простой и краткий обзор конкретной темы, исключая данные, которые не помогают в процессе принятия решения.
Интегрированный
В хранилище данных интеграция означает установление общей единицы измерения для всех похожих данных из разнородной базы данных. Данные также должны храниться в хранилище данных обычным и универсально приемлемым способом.
Хранилище данных разрабатывается путем интеграции данных из различных источников, таких как мэйнфрейм, реляционные базы данных, плоские файлы и т. Д. Более того, в нем должны соблюдаться согласованные соглашения об именах, формате и кодировании.
Эта интеграция помогает в эффективном анализе данных. Необходимо обеспечить согласованность в соглашениях об именах, показателях атрибутов, структуре кодирования и т.д. Рассмотрим следующий пример:
В приведенном выше примере есть три разных приложения с метками A, B и C. Информация, хранящаяся в этих приложениях, - это пол, дата и баланс. Однако данные каждого приложения хранятся по-разному.
- В приложении A гендерное поле хранит логические значения, такие как M или F.
- В приложении B поле "пол" представляет собой числовое значение,
- В приложении C поле пола хранится в виде символьного значения.
- То же самое с датой и балансом
Однако после процесса преобразования и очистки все эти данные сохраняются в общем формате в хранилище данных.
Вариант времени
Временной горизонт для хранилища данных довольно обширен по сравнению с операционными системами. Данные, собранные в хранилище данных, распознаются за определенный период и предлагают информацию с исторической точки зрения. Он явно или неявно содержит элемент времени.
Одно из таких мест, где временная дисперсия отображения данных хранилища данных находится в структуре ключа записи. Каждый первичный ключ, содержащийся в DW, должен явно или неявно иметь элемент времени. Например, день, неделя, месяц и т. Д.
Другой аспект дисперсии во времени заключается в том, что после того, как данные вставлены в хранилище, их нельзя обновить или изменить.
Энергонезависимая
Хранилище данных также является энергонезависимым, что означает, что предыдущие данные не стираются при вводе в него новых.
Данные доступны только для чтения и периодически обновляются. Это также помогает анализировать исторические данные и понимать, что и когда произошло. Он не требует механизмов управления транзакциями, восстановления и параллелизма.
Такие действия, как удаление, обновление и вставка, которые выполняются в среде рабочего приложения, опускаются в среде хранилища данных. В хранилище данных выполняются только два типа операций с данными.
- Загрузка данных
- Доступ к данным
Вот несколько основных различий между приложением и хранилищем данных.
Оперативное приложение | Хранилище данных |
Сложная программа должна быть написана, чтобы гарантировать, что процессы обновления данных поддерживают высокую целостность конечного продукта. | Такого рода проблем не возникает, потому что обновление данных не выполняется. |
Данные размещаются в нормализованной форме для обеспечения минимальной избыточности. | Данные не хранятся в нормализованном виде. |
Технология, необходимая для поддержки транзакций, восстановления данных, отката и разрешения, поскольку тупиковая ситуация довольно сложна. | Он предлагает относительную простоту в технологии. |
Архитектура хранилища данных
Архитектура хранилища данных сложна, поскольку это информационная система, которая содержит исторические и коммутативные данные из нескольких источников. Существует 3 подхода к построению уровней хранилища данных: одноуровневый, двухуровневый и трехуровневый. Эта трехуровневая архитектура хранилища данных объясняется ниже.
Одноуровневая архитектура
Цель одного уровня - минимизировать объем хранимых данных. Эта цель - устранить избыточность данных. Эта архитектура нечасто используется на практике.
Двухуровневая архитектура
Двухуровневая архитектура - это один из уровней хранилища данных, который разделяет физически доступные источники и хранилище данных. Эта архитектура не расширяется, а также не поддерживает большое количество конечных пользователей. У него также есть проблемы с подключением из-за сетевых ограничений.
Трехуровневая архитектура хранилища данных
Это наиболее широко используемая архитектура хранилищ данных.
Он состоит из верхнего, среднего и нижнего яруса.
- Нижний уровень: база данных серверов хранилища данных в качестве нижнего уровня. Обычно это система реляционных баз данных. Данные очищаются, преобразуются и загружаются на этот уровень с помощью внутренних инструментов.
- Средний уровень: средний уровень в хранилище данных - это сервер OLAP, который реализован с использованием модели ROLAP или MOLAP. Для пользователя этот уровень приложения представляет собой абстрактное представление базы данных. Этот уровень также действует как посредник между конечным пользователем и базой данных.
- Верхний уровень: Верхний уровень - это интерфейсный клиентский уровень. Верхний уровень - это инструменты и API, которые вы подключаете и получаете данные из хранилища данных. Это могут быть инструменты запросов, инструменты отчетности, инструменты управляемых запросов, инструменты анализа и инструменты интеллектуального анализа данных.
Компоненты хранилища данных
Мы узнаем о компонентах хранилища данных и архитектуре хранилища данных с диаграммой, как показано ниже:
Хранилище данных основано на сервере РСУБД, который представляет собой центральное хранилище информации, окруженное некоторыми ключевыми компонентами хранилища данных, чтобы сделать всю среду функциональной, управляемой и доступной.
В основном есть пять компонентов хранилища данных:
База данных хранилища данных
Центральная база данных является основой среды хранилища данных. Эта база данных реализована по технологии РСУБД. Хотя такая реализация ограничена тем фактом, что традиционная система СУБД оптимизирована для обработки транзакционных баз данных, а не для хранения данных. Например, специальные запросы, объединения нескольких таблиц, агрегаты требуют больших ресурсов и снижают производительность.
Следовательно, используются альтернативные подходы к базе данных, перечисленные ниже:
- В хранилище данных реляционные базы данных развертываются параллельно для обеспечения масштабируемости. Параллельные реляционные базы данных также позволяют использовать совместно используемую память или модель без совместного использования в различных многопроцессорных конфигурациях или массивно-параллельных процессорах.
- Новые структуры индексов используются для обхода сканирования реляционных таблиц и повышения скорости.
- Использование многомерной базы данных (MDDB) для преодоления любых ограничений, накладываемых реляционными моделями хранилищ данных. Пример: Essbase от Oracle.
Инструменты поиска, сбора, очистки и преобразования (ETL)
Инструменты поиска, преобразования и миграции данных используются для выполнения всех преобразований, суммирования и всех изменений, необходимых для преобразования данных в единый формат в хранилище данных. Их также называют инструментами извлечения, преобразования и загрузки (ETL).
В их функционал входит:
- Анонимизируйте данные в соответствии с нормативными требованиями.
- Исключение нежелательных данных в операционных базах данных от загрузки в хранилище данных.
- Поиск и замена общих имен и определений для данных, поступающих из разных источников.
- Расчет сводок и производных данных
- В случае отсутствия данных заполните их значениями по умолчанию.
- Дедублированные повторяющиеся данные, поступающие из нескольких источников данных.
Эти инструменты извлечения, преобразования и загрузки могут создавать задания cron, фоновые задания, программы Cobol, сценарии оболочки и т. Д., Которые регулярно обновляют данные в хранилище данных. Эти инструменты также полезны для поддержки метаданных.
Эти инструменты ETL должны решать проблемы неоднородности баз данных и данных.
Метаданные
Название «Мета-данные» предполагает некоторые технологические концепции хранилищ данных высокого уровня. Однако все довольно просто. Метаданные - это данные о данных, которые определяют хранилище данных. Он используется для создания, обслуживания и управления хранилищем данных.
В архитектуре хранилища данных метаданные играют важную роль, поскольку они определяют источник, использование, значения и особенности данных хранилища данных. Он также определяет, как данные могут быть изменены и обработаны. Он тесно связан с хранилищем данных.
Например, строка в базе данных продаж может содержать:
4030 KJ732 299.90
Это бессмысленные данные, пока мы не сверимся с мета-данными, которые говорят нам, что это было
- Номер модели: 4030
- Идентификатор торгового агента: KJ732
- Общая сумма продаж 299,90 долларов США.
Следовательно, метаданные являются важными составляющими преобразования данных в знания.
Метаданные помогают ответить на следующие вопросы
- Какие таблицы, атрибуты и ключи содержатся в хранилище данных?
- Откуда взялись данные?
- Сколько раз перезагружаются данные?
- Какие преобразования произошли с очищением?
Метаданные можно разделить на следующие категории:
- Технические метаданные : этот вид метаданных содержит информацию о хранилище, которая используется разработчиками и администраторами хранилища данных.
- Бизнес-метаданные: этот вид метаданных содержит детали, которые позволяют конечным пользователям легко понять информацию, хранящуюся в хранилище данных.
Инструменты запросов
Одной из основных задач хранилищ данных является предоставление информации предприятиям для принятия стратегических решений. Инструменты запросов позволяют пользователям взаимодействовать с системой хранилища данных.
Эти инструменты делятся на четыре категории:
- Инструменты запросов и отчетов
- Инструменты разработки приложений
- Инструменты интеллектуального анализа данных
- Инструменты OLAP
1. Инструменты запросов и отчетов:
Инструменты запросов и отчетов можно разделить на
- Инструменты отчетности
- Инструменты для управляемых запросов
Инструменты отчетности:
Инструменты отчетности можно разделить на инструменты для создания отчетов и инструменты для создания отчетов для настольных компьютеров.
- Составители отчетов: этот вид инструментов отчетов - это инструменты, предназначенные для анализа конечными пользователями.
- Производственная отчетность: этот вид инструментов позволяет организациям создавать регулярные операционные отчеты. Он также поддерживает большие объемные пакетные задания, такие как печать и расчеты. Некоторые популярные инструменты отчетности: Brio, Business Objects, Oracle, PowerSoft, SAS Institute.
Инструменты для управляемых запросов:
Этот вид инструментов доступа помогает конечным пользователям устранять препятствия в базе данных, SQL и структуре базы данных, вставляя мета-уровень между пользователями и базой данных.
2. Инструменты разработки приложений:
Иногда встроенные графические и аналитические инструменты не удовлетворяют аналитические потребности организации. В таких случаях пользовательские отчеты разрабатываются с использованием инструментов разработки приложений.
3. Инструменты интеллектуального анализа данных:
Интеллектуальный анализ данных - это процесс обнаружения новых значимых корреляций, схем и тенденций путем интеллектуального анализа больших объемов данных. Инструменты интеллектуального анализа данных используются для автоматизации этого процесса.
4. Инструменты OLAP:
Эти инструменты основаны на концепции многомерной базы данных. Это позволяет пользователям анализировать данные, используя сложные и сложные многомерные представления.
Архитектура шины хранилища данных
Шина хранилища данных определяет поток данных в вашем хранилище. Поток данных в хранилище данных можно разделить на следующие категории: входящий, восходящий, нисходящий, исходящий и метапоток.
При проектировании шины данных необходимо учитывать общие измерения, факты в витринах данных.
Витрины данных
Витрина данных - это уровень доступа, который используется для передачи данных пользователям. Он представлен как вариант для хранилища данных большого размера, поскольку для его создания требуется меньше времени и денег. Однако нет стандартного определения витрины данных, различающейся от человека к человеку.
Проще говоря, витрина данных - это филиал хранилища данных. Витрина данных используется для разделения данных, которые создаются для определенной группы пользователей.
Витрины данных могут быть созданы в той же базе данных, что и хранилище данных, или в физически отдельной базе данных.
Рекомендации по архитектуре хранилища данных
Чтобы разработать архитектуру хранилища данных, вам необходимо следовать приведенным ниже рекомендациям:
- Используйте модели хранилищ данных, оптимизированные для поиска информации, которые могут быть многомерными, денормализованными или гибридными.
- Выберите подходящий подход к проектированию: сверху вниз и снизу вверх в хранилище данных.
- Необходимо обеспечить быструю и точную обработку данных. В то же время вы должны использовать подход, объединяющий данные в единую версию истины.
- Тщательно спроектируйте процесс сбора и очистки данных для хранилища данных.
- Разработайте архитектуру метаданных, которая позволяет обмениваться метаданными между компонентами хранилища данных.
- Рассмотрите возможность реализации модели ODS, когда потребность в извлечении информации находится в нижней части пирамиды абстракции данных или когда требуется доступ к нескольким рабочим источникам.
- Следует убедиться, что модель данных интегрирована, а не просто консолидирована. В этом случае вам следует рассмотреть модель данных 3NF. Он также идеально подходит для приобретения инструментов ETL и очистки данных.
Резюме:
- Хранилище данных - это информационная система, которая содержит исторические и коммутативные данные из одного или нескольких источников. Эти источники могут быть традиционными хранилищами данных, облачными хранилищами данных или виртуальными хранилищами данных.
- Хранилище данных является предметно-ориентированным, поскольку оно предлагает информацию о предмете, а не о текущих операциях организации.
- В хранилище данных интеграция означает установление общей единицы измерения для всех похожих данных из разных баз данных.
- Хранилище данных также является энергонезависимым, что означает, что предыдущие данные не стираются при вводе в него новых.
- Хранилище данных зависит от времени, поскольку данные в DW имеют длительный срок хранения.
- В основном есть 5 компонентов архитектуры хранилища данных: 1) база данных 2) инструменты ETL 3) метаданные 4) инструменты запросов 5) витрины данных.
- Это четыре основные категории инструментов запросов: 1. Запросы и отчеты, инструменты 2. Инструменты разработки приложений, 3. Инструменты интеллектуального анализа данных 4. Инструменты OLAP.
- Инструменты поиска, преобразования и миграции данных используются для выполнения всех преобразований и суммирования.
- В архитектуре хранилища данных метаданные играют важную роль, поскольку они определяют источник, использование, значения и особенности данных хранилища данных.