Прежде чем мы перейдем к введению в большие данные, вам сначала нужно знать
Что такое данные?
Количества, символы или символы, с которыми операции выполняются компьютером, которые могут храниться и передаваться в форме электрических сигналов и записываться на магнитных, оптических или механических носителях записи.
Теперь давайте изучим введение в Big Data.
Что такое большие данные?
Большие данные - это огромные по объему массивы данных, которые со временем растут в геометрической прогрессии. Это данные настолько большого размера и сложности, что ни один из традиционных инструментов управления данными не может их хранить или обрабатывать эффективно. Большие данные - это тоже данные, но огромного размера.
В этом руководстве вы узнаете,
- Что такое данные?
- Что такое большие данные?
- Примеры больших данных
- Типы больших данных
- Характеристики больших данных
- Преимущества обработки больших данных
Примеры больших данных
Ниже приведены некоторые примеры больших данных.
Нью - Йоркская фондовая биржа генерирует около одного терабайта новых торговых данных в день.
Социальные медиа
Статистика показывает, что ежедневно в базы данных социальной сети Facebook попадает более 500 терабайт новых данных . Эти данные в основном генерируются с точки зрения загрузки фото и видео, обмена сообщениями, добавления комментариев и т. Д.
Один реактивный двигатель может генерировать более 10 терабайт данных за 30 минут полета. При многих тысячах рейсов в день объем генерируемых данных достигает многих петабайт.
Типы больших данных
Ниже приведены типы больших данных:
- Структурированный
- Неструктурированный
- Полуструктурированный
Структурированный
Любые данные, которые могут быть сохранены, доступны и обработаны в форме фиксированного формата, называются «структурированными» данными. С течением времени талантливые специалисты в области компьютерных наук достигли больших успехов в разработке методов работы с такими данными (формат которых хорошо известен заранее), а также в извлечении из них ценности. Однако в настоящее время мы предвидим проблемы, когда размер таких данных значительно возрастает, а типичные размеры достигают нескольких зеттабайт.
Вы знаете? 10 21 байт, равный 1 зеттабайту или одному миллиарду терабайт, образует зеттабайт .
Глядя на эти цифры, можно легко понять, почему было дано название «большие данные», и представить себе проблемы, связанные с их хранением и обработкой.
Вы знаете? Данные, хранящиеся в системе управления реляционными базами данных, являются одним из примеров «структурированных» данных.
Примеры структурированных данных
Таблица «Сотрудник» в базе данных является примером структурированных данных.
Employee_ID | Имя сотрудника | Пол | отделение | Salary_In_lacs |
---|---|---|---|---|
2365 | Раджеш Кулкарни | Мужской | Финансы | 650000 |
3398 | Пратибха Джоши | женский | Админ | 650000 |
7465 | Шушил Рой | Мужской | Админ | 500000 |
7500 | Шубходжит Дас | Мужской | Финансы | 500000 |
7699 | Прия Сане | женский | Финансы | 550000 |
Неструктурированный
Любые данные неизвестной формы или структуры относятся к неструктурированным данным. Помимо огромного размера, неструктурированные данные создают множество проблем с точки зрения их обработки для извлечения из них ценности. Типичным примером неструктурированных данных является разнородный источник данных, содержащий комбинацию простых текстовых файлов, изображений, видео и т. Д. В настоящее время в организациях есть множество доступных данных, но, к сожалению, они не знают, как извлечь из этого пользу, поскольку эти данные представлены в необработанном или неструктурированном формате.
Примеры неструктурированных данных
Результат, возвращаемый поиском Google
Полуструктурированный
Полуструктурированные данные могут содержать данные обеих форм. Мы можем видеть полуструктурированные данные как структурированные по форме, но на самом деле они не определены, например, в определении таблицы в реляционной СУБД. Примером полуструктурированных данных являются данные, представленные в файле XML.
Примеры полуструктурированных данных
Персональные данные, хранящиеся в файле XML-
Prashant Rao Male 35 Seema R. Female 41 Satish Mane Male 29 Subrato Roy Male 26 Jeremiah J. Male 35
Рост данных с годами
Обратите внимание, что неструктурированные данные веб-приложений состоят из файлов журналов, файлов истории транзакций и т. Д. Системы OLTP созданы для работы со структурированными данными, в которых данные хранятся в отношениях (таблицах).
Характеристики больших данных
Большие данные можно описать следующими характеристиками:
- Объем
- Разнообразие
- Скорость
- Изменчивость
(i) Объем - само название «большие данные» связано с огромным размером. Размер данных играет очень важную роль в определении ценности данных. Кроме того, могут ли конкретные данные действительно рассматриваться как большие данные или нет, зависит от объема данных. Следовательно, «объем» - это одна из характеристик, которую необходимо учитывать при работе с большими данными.
(ii) Разнообразие . Следующий аспект больших данных - это их разнообразие .
Разнообразие относится к разнородным источникам и характеру данных, как структурированным, так и неструктурированным. Раньше электронные таблицы и базы данных были единственными источниками данных, которые рассматривались большинством приложений. В настоящее время в приложениях для анализа также учитываются данные в виде электронных писем, фотографий, видео, устройств мониторинга, PDF-файлов, аудио и т. Д. Такое разнообразие неструктурированных данных создает определенные проблемы для хранения, добычи и анализа данных.
(iii) Скорость - термин «скорость» относится к скорости генерации данных. Скорость создания и обработки данных для удовлетворения требований определяет реальный потенциал данных.
Скорость больших данных связана со скоростью, с которой данные поступают из таких источников, как бизнес-процессы, журналы приложений, сети и сайты социальных сетей, датчики, мобильные устройства и т. Д. Поток данных огромен и непрерывен.
(iv) Вариабельность - это относится к несогласованности, которую иногда могут демонстрировать данные, что препятствует процессу эффективной обработки и управления данными.
Преимущества обработки больших данных
Возможность обрабатывать большие данные дает множество преимуществ, таких как:
- Компании могут использовать внешнюю разведку при принятии решений
Доступ к социальным данным из поисковых систем и сайтов, таких как facebook, twitter, позволяет организациям оптимизировать свои бизнес-стратегии.
- Улучшенное обслуживание клиентов
Традиционные системы обратной связи с клиентами заменяются новыми системами, разработанными с использованием технологий больших данных. В этих новых системах большие данные и технологии обработки естественного языка используются для чтения и оценки ответов потребителей.
- Раннее выявление риска для продукта / услуг, если таковые имеются
- Лучшая операционная эффективность
Технологии больших данных могут использоваться для создания промежуточной или целевой зоны для новых данных перед определением того, какие данные следует переместить в хранилище данных. Кроме того, такая интеграция технологий больших данных и хранилища данных помогает организации разгрузить редко используемые данные.
Резюме
- Определение больших данных: большие данные определяются как данные огромного размера. Bigdata - это термин, используемый для описания огромного по размеру набора данных, который, тем не менее, экспоненциально растёт со временем.
- Примеры аналитики больших данных включают фондовые биржи, сайты социальных сетей, реактивные двигатели и т. Д.
- Большие данные могут быть 1) структурированными, 2) неструктурированными, 3) полуструктурированными.
- Объем, разнообразие, скорость и изменчивость - вот несколько характеристик больших данных.
- Улучшение обслуживания клиентов, более высокая операционная эффективность, более эффективное принятие решений - вот несколько преимуществ Bigdata.