Что такое озеро данных?
Озеро данных - это репозиторий хранилища, в котором может храниться большой объем структурированных, полуструктурированных и неструктурированных данных. Это место для хранения всех типов данных в их собственном формате без фиксированных ограничений на размер учетной записи или размер файла. Он предлагает большое количество данных для повышения аналитической производительности и встроенной интеграции.
Озеро данных похоже на большой контейнер, который очень похож на настоящие озеро и реки. Точно так же, как в озере у вас есть несколько притоков, в озере данных есть структурированные данные, неструктурированные данные, машина к машине, журналы проходят в режиме реального времени.
Озеро данных демократизирует данные и является экономичным способом хранения всех данных организации для последующей обработки. Аналитик-исследователь может сосредоточиться на поиске смысловых закономерностей в данных, а не на самих данных.
В отличие от иерархической системы Dataware, где данные хранятся в файлах и папках, озеро данных имеет плоскую архитектуру. Каждому элементу данных в озере данных присваивается уникальный идентификатор и помечается набор метаданных.
В этом руководстве вы узнаете:
- Что такое озеро данных?
- Почему именно Data Lake?
- Архитектура озера данных
- Ключевые концепции озера данных
- Стадии зрелости озера данных
- Рекомендации по внедрению озера данных:
- Разница между озерами данных и хранилищем данных
- Преимущества и риски использования Data Lake:
Почему именно Data Lake?
Основная цель создания озера данных - предложить аналитикам данных необработанное представление данных.
Причины использования Data Lake:
- С появлением таких механизмов хранения, как Hadoop, хранение разрозненной информации стало проще. Нет необходимости моделировать данные в схеме масштаба предприятия с помощью озера данных.
- С увеличением объема данных, качества данных и метаданных повышается и качество анализа.
- Data Lake обеспечивает гибкость бизнеса
- Машинное обучение и искусственный интеллект можно использовать для составления прибыльных прогнозов.
- Он предлагает конкурентное преимущество внедряющей организации.
- Отсутствует разрозненная структура данных. Data Lake дает 360-градусный обзор клиентов и делает анализ более надежным.
Архитектура озера данных
На рисунке показана архитектура озера бизнес-данных. Нижние уровни представляют данные, которые в основном находятся в состоянии покоя, а верхние уровни показывают данные транзакций в реальном времени. Эти данные проходят через систему без задержки или с небольшой задержкой. Ниже приведены важные уровни архитектуры озера данных:
- Уровень приема. Уровни слева отображают источники данных. Данные можно загружать в озеро данных партиями или в режиме реального времени.
- Уровень аналитики: уровни справа представляют сторону исследования, в которой используются выводы системы. Для анализа данных можно использовать запросы SQL, NoSQL или даже Excel.
- HDFS - это экономичное решение как для структурированных, так и для неструктурированных данных. Это зона посадки для всех данных, которые хранятся в системе.
- Уровень дистилляции берет данные из шины хранения и преобразует их в структурированные данные для облегчения анализа.
- На уровне обработки выполняются аналитические алгоритмы и пользовательские запросы в различных интерактивных пакетных режимах в реальном времени для создания структурированных данных для упрощения анализа.
- Унифицированный уровень операций управляет системным управлением и мониторингом. Он включает в себя аудит и управление квалификацией, управление данными, управление рабочим процессом.
Ключевые концепции озера данных
Ниже приведены ключевые концепции озера данных, которые необходимо понять, чтобы полностью понять архитектуру озера данных.
Получение данных
Прием данных позволяет соединителям получать данные из разных источников данных и загружать их в озеро данных.
Прием данных поддерживает:
- Все типы структурированных, полуструктурированных и неструктурированных данных.
- Множественные загрузки, такие как пакетная, в режиме реального времени, однократная загрузка.
- Многие типы источников данных, такие как базы данных, веб-серверы, электронная почта, Интернет вещей и FTP.
Хранилище данных
Хранение данных должно быть масштабируемым, предлагать рентабельное хранилище и обеспечивать быстрый доступ к исследованию данных. Он должен поддерживать различные форматы данных.
Управление данными
Управление данными - это процесс управления доступностью, удобством использования, безопасностью и целостностью данных, используемых в организации.
Безопасность
Безопасность должна быть реализована на каждом уровне озера данных. Все начинается с Хранения, Отключения и Потребления. Основная необходимость - остановить доступ неавторизованных пользователей. Он должен поддерживать различные инструменты для доступа к данным с удобным графическим интерфейсом и панелями мониторинга.
Аутентификация, учет, авторизация и защита данных - некоторые важные особенности безопасности озера данных.
Качество данных:
Качество данных - важный компонент архитектуры озера данных. Данные используются для определения стоимости бизнеса. Получение информации из некачественных данных приведет к некачественной информации.
Обнаружение данных
Обнаружение данных - еще один важный этап перед началом подготовки данных или анализа. На этом этапе метод тегов используется для выражения понимания данных путем организации и интерпретации данных, полученных в озере данных.
Аудит данных
Две основные задачи аудита данных - это отслеживание изменений в ключевом наборе данных.
- Отслеживание изменений важных элементов набора данных
- Регистрирует, как / когда / и кто меняет эти элементы.
Аудит данных помогает оценить риски и соответствие требованиям.
Происхождение данных
Этот компонент имеет дело с происхождением данных. В основном это касается того, куда он движется с течением времени и что с ним происходит. Это упрощает исправление ошибок в процессе анализа данных от источника до места назначения.
Исследование данных
Это начальный этап анализа данных. Это помогает определить правильный набор данных, что жизненно важно перед началом исследования данных.
Все указанные компоненты должны работать вместе, чтобы играть важную роль в построении озера данных, легко развиваться и исследовать окружающую среду.
Стадии зрелости озера данных
Определение стадий зрелости озера данных отличается от учебника к другому. Хотя суть остается прежней. После зрелости определение стадии производится с точки зрения непрофессионала.
Этап 1. Обработка и прием данных в масштабе
Этот первый этап зрелости данных предполагает улучшение способности преобразовывать и анализировать данные. Здесь владельцам бизнеса необходимо найти инструменты в соответствии с их набором навыков для получения дополнительных данных и создания аналитических приложений.
Этап 2: наращивание аналитической мускулатуры
Это второй этап, который включает улучшение способности преобразовывать и анализировать данные. На этом этапе компании используют инструмент, наиболее соответствующий их навыкам. Они начинают собирать больше данных и создавать приложения. Здесь возможности корпоративного хранилища данных и озера данных используются вместе.
Этап 3: EDW и Data Lake работают в унисон
Этот шаг включает в себя передачу данных и аналитики в руки как можно большему количеству людей. На этом этапе озеро данных и корпоративное хранилище данных начинают работать как единое целое. Оба играют свою роль в аналитике
Этап 4: возможности предприятия в озере
На этой стадии зрелости озера данных в озеро данных добавляются возможности предприятия. Принятие управления информацией, возможностей управления жизненным циклом информации и управления метаданными. Однако очень немногие организации могут достичь этого уровня зрелости, но в будущем это число будет увеличиваться.
Рекомендации по внедрению озера данных:
- Архитектурные компоненты, их взаимодействие и идентифицированные продукты должны поддерживать собственные типы данных.
- При проектировании Data Lake следует руководствоваться тем, что доступно, а не тем, что требуется. Требования к схеме и данным не определены, пока они не будут запрошены.
- При проектировании следует руководствоваться одноразовыми компонентами, интегрированными с сервисным API.
- Обнаружение, прием, хранение, администрирование, качество, преобразование и визуализация данных должны управляться независимо.
- Архитектура озера данных должна быть адаптирована к конкретной отрасли. Он должен гарантировать, что возможности, необходимые для этой области, являются неотъемлемой частью проекта.
- Важно более быстрое внедрение вновь обнаруженных источников данных
- Data Lake помогает настраивать управление для извлечения максимальной выгоды
- Озеро данных должно поддерживать существующие методы и методы управления корпоративными данными.
Проблемы создания озера данных:
- В Data Lake объем данных выше, поэтому процесс должен больше полагаться на программное администрирование.
- Трудно иметь дело с разреженными, неполными и непостоянными данными.
- Для более широкого набора данных и источников требуется более широкое управление данными и поддержка
Разница между озерами данных и хранилищем данных
Параметры | Озера данных | Хранилище данных |
---|---|---|
Данные | Озера данных хранят все. | Хранилище данных ориентировано только на бизнес-процессы. |
Обработка | Данные в основном не обрабатываются | Данные с высокой степенью обработки. |
Тип данных | Он может быть неструктурированным, полуструктурированным и структурированным. | Это в основном в табличной форме и структуре. |
Задача | Совместное использование данных | Оптимизирован для поиска данных |
Ловкость | Высокая гибкость, настраивайте и перенастраивайте по мере необходимости. | По сравнению с озером данных оно менее гибкое и имеет фиксированную конфигурацию. |
Пользователи | Data Lake в основном используется Data Scientist | Бизнес-профессионалы широко используют хранилище данных |
Место хранения | Дизайн озер данных для недорогого хранения. | Используется дорогое хранилище, обеспечивающее быстрое время отклика. |
Безопасность | Предлагает меньший контроль. | Позволяет лучше контролировать данные. |
Замена EDW | Озеро данных может быть источником для EDW | Дополняет EDW (не заменяет) |
Схема | Схема при чтении (нет предопределенных схем) | Схема при записи (предопределенные схемы) |
Обработка данных | Помогает для быстрого приема новых данных. | На внедрение нового контента уходит много времени. |
Детализация данных | Данные с низким уровнем детализации или детализации. | Данные на сводном или агрегированном уровне детализации. |
Инструменты | Можно использовать инструменты с открытым исходным кодом / такие как Hadoop / Map Reduce | В основном коммерческие инструменты. |
Преимущества и риски использования Data Lake:
Вот несколько основных преимуществ использования озера данных:
- Полностью помогает с ионизацией продукта и расширенной аналитикой
- Предлагает экономичную масштабируемость и гибкость
- Предлагает ценность из неограниченного количества типов данных
- Снижает долгосрочную стоимость владения
- Позволяет экономно хранить файлы
- Быстро адаптируется к изменениям
- Основное преимущество озера данных - централизация различных источников контента.
- Пользователи из разных отделов могут быть разбросаны по всему миру и иметь гибкий доступ к данным.
Риск использования озера данных:
- Через некоторое время Data Lake может потерять актуальность и динамику.
- При проектировании озера данных возникает больший риск.
- Неструктурированные данные могут привести к неуправляемому хаосу, неиспользуемым данным, разрозненным и сложным инструментам, сотрудничеству в масштабе предприятия, унифицированным, согласованным и общим
- Это также увеличивает затраты на хранение и вычисления.
- Невозможно получить информацию от других, которые работали с данными, потому что нет данных о происхождении результатов предыдущих аналитиков.
- Самый большой риск озер данных - это безопасность и контроль доступа. Иногда данные могут быть помещены в озеро без какого-либо надзора, поскольку некоторые из них могут иметь конфиденциальность и требовать соблюдения нормативных требований.
Резюме:
- Озеро данных - это репозиторий хранилища, в котором может храниться большой объем структурированных, полуструктурированных и неструктурированных данных.
- Основная цель создания озера данных - предложить аналитикам данных необработанное представление данных.
- Унифицированный уровень операций, уровень обработки, уровень дистилляции и HDFS являются важными уровнями архитектуры озера данных.
- Прием данных, хранение данных, качество данных, аудит данных, исследование данных, обнаружение данных - вот некоторые важные компоненты архитектуры озера данных.
- При проектировании Data Lake следует руководствоваться тем, что доступно, а не тем, что требуется.
- Data Lake снижает долгосрочную стоимость владения и позволяет экономично хранить файлы
- Самый большой риск озер данных - это безопасность и контроль доступа. Иногда данные могут быть помещены в озеро без какого-либо надзора, поскольку некоторые из них могут иметь конфиденциальность и требовать соблюдения нормативных требований.