Машинное обучение без учителя: что такое, алгоритмы, пример

Содержание:

Anonim

Неконтролируемое обучение

Неконтролируемое обучение - это метод машинного обучения, при котором пользователям не нужно контролировать модель. Вместо этого он позволяет модели работать самостоятельно, обнаруживая закономерности и информацию, которые ранее не были обнаружены. В основном он имеет дело с немаркированными данными.

Алгоритмы неконтролируемого обучения

Алгоритмы обучения без учителя позволяют пользователям выполнять более сложные задачи обработки по сравнению с обучением с учителем. Однако обучение без учителя может быть более непредсказуемым по сравнению с другими естественными методами обучения. Алгоритмы неконтролируемого обучения включают кластеризацию, обнаружение аномалий, нейронные сети и т. Д.

В этом руководстве вы узнаете:

  • Пример машинного обучения без учителя
  • Почему обучение без учителя?
  • Типы обучения без учителя
  • Кластеризация
  • Типы кластеризации
  • Ассоциация
  • Машинное обучение с учителем и без учителя
  • Приложения неконтролируемого машинного обучения
  • Недостатки обучения без учителя

Пример машинного обучения без учителя

Возьмем, к примеру, ребенка и ее семейную собаку.

Она знает и опознает эту собаку. Через несколько недель друг семьи приносит с собой собаку и пытается поиграть с младенцем.

Бэби раньше не видел эту собаку. Но он узнает, что многие черты (2 уха, глаза, ходьба на 4 ногах) похожи на ее домашнюю собаку. Она идентифицирует новое животное как собаку. Это обучение без учителя, при котором вас не учат, но вы учитесь на основе данных (в данном случае данных о собаке). Если бы это обучение проходило под наблюдением, друг семьи сказал бы ребенку, что это собака.

Почему обучение без учителя?

Вот основные причины использования обучения без учителя:

  • Машинное обучение без учителя находит в данных все неизвестные закономерности.
  • Неконтролируемые методы помогают найти функции, которые могут быть полезны для категоризации.
  • Это происходит в режиме реального времени, поэтому все входные данные будут проанализированы и помечены в присутствии учащихся.
  • Легче получить данные без меток с компьютера, чем данные с метками, которые требуют ручного вмешательства.

Типы обучения без учителя

Проблемы неконтролируемого обучения далее группируются в проблемы кластеризации и ассоциации.

Кластеризация

Кластеризация - важная концепция, когда речь идет об обучении без учителя. В основном он занимается поиском структуры или шаблона в коллекции некатегоризованных данных. Алгоритмы кластеризации обработают ваши данные и найдут естественные кластеры (группы), если они существуют в данных. Вы также можете изменить количество кластеров, которые должны идентифицировать ваши алгоритмы. Это позволяет вам регулировать степень детализации этих групп.

Вы можете использовать разные типы кластеризации:

Эксклюзивный (разбиение)

В этом методе кластеризации данные группируются таким образом, что одни данные могут принадлежать только одному кластеру.

Пример: K-означает

Агломеративный

В этом методе кластеризации все данные представляют собой кластер. Итерационные объединения между двумя ближайшими кластерами уменьшают количество кластеров.

Пример: иерархическая кластеризация

Перекрытие

В этом методе нечеткие наборы используются для кластеризации данных. Каждая точка может принадлежать двум или более кластерам с разными степенями принадлежности.

Здесь данные будут связаны с соответствующим значением членства. Пример: нечеткие C-средние

Вероятностный

Этот метод использует распределение вероятностей для создания кластеров.

Пример: следующие ключевые слова

  • "мужская туфля".
  • "женская обувь".
  • "женская перчатка".
  • "мужская перчатка".

можно разделить на две категории: «обувь» и «перчатки» или «мужчина» и «женщина».

Типы кластеризации

  • Иерархическая кластеризация
  • К-средство кластеризации
  • K-NN (k ближайших соседей)
  • Анализ главных компонентов
  • Разложение по сингулярным значениям
  • Независимый анализ компонентов

Иерархическая кластеризация:

Иерархическая кластеризация - это алгоритм, который строит иерархию кластеров. Он начинается со всех данных, которые назначаются собственному кластеру. Здесь два близких кластера будут в одном кластере. Этот алгоритм завершается, когда остается только один кластер.

К-означает кластеризацию

K означает, что это итеративный алгоритм кластеризации, который помогает вам находить максимальное значение для каждой итерации. Изначально выбирается желаемое количество кластеров. В этом методе кластеризации вам необходимо сгруппировать точки данных в k групп. Большее значение k означает меньшие группы с большей степенью детализации таким же образом. Меньшее значение k означает большие группы с меньшей степенью детализации.

Результатом работы алгоритма является группа «меток». Он назначает точку данных одной из k групп. При кластеризации k-средних каждая группа определяется путем создания центроида для каждой группы. Центроиды подобны сердцу кластера, которое захватывает ближайшие к ним точки и добавляет их в кластер.

Кластеризация K-среднего дополнительно определяет две подгруппы:

  • Агломеративная кластеризация
  • Дендрограмма

Агломеративная кластеризация:

Этот тип кластеризации K-средних начинается с фиксированного числа кластеров. Он распределяет все данные по точному количеству кластеров. Этот метод кластеризации не требует ввода количества кластеров K. Процесс агломерации начинается с формирования всех данных в виде единого кластера.

Этот метод использует некоторую меру расстояния, уменьшает количество кластеров (по одному на каждой итерации) за счет процесса слияния. Наконец, у нас есть один большой кластер, содержащий все объекты.

Дендрограмма:

В методе кластеризации дендрограммы каждый уровень представляет возможный кластер. Высота дендрограммы показывает уровень сходства между двумя объединенными кластерами. Чем ближе к основанию процесса, тем больше похожий кластер, что является обнаружением группы из дендрограммы, что не является естественным и в основном субъективным.

K- Ближайшие соседи

K-ближайший сосед - самый простой из классификаторов машинного обучения. Он отличается от других методов машинного обучения тем, что не создает модели. Это простой алгоритм, который хранит все доступные случаи и классифицирует новые экземпляры на основе меры сходства.

Это очень хорошо работает, когда между примерами есть расстояние. Скорость обучения низкая, когда обучающая выборка большая, а вычисление расстояния нетривиально.

Анализ основных компонентов:

На случай, если вам нужно многомерное пространство. Вам нужно выбрать основу для этого места и только 200 самых важных оценок этого основания. Эта база известна как главный компонент. Выбранное вами подмножество представляет собой новое пространство, меньшее по размеру по сравнению с исходным пространством. Он сохраняет максимально возможную сложность данных.

Ассоциация

Правила ассоциации позволяют устанавливать ассоциации между объектами данных внутри больших баз данных. Этот метод без учителя предназначен для обнаружения интересных взаимосвязей между переменными в больших базах данных. Например, люди, которые покупают новый дом, скорее всего, купят новую мебель.

Другие примеры:

  • Подгруппа больных раком, сгруппированная по результатам измерений экспрессии генов.
  • Группы покупателей на основе их истории просмотров и покупок
  • Группа фильмов по рейтингу зрителей фильмов

Машинное обучение с учителем и без учителя

Параметры Техника машинного обучения с учителем Техника неконтролируемого машинного обучения
Входные данные Алгоритмы обучаются с использованием помеченных данных. Алгоритмы используются против данных, которые не помечены
Вычислительная сложность Обучение с учителем - более простой метод. Обучение без учителя - сложная с точки зрения вычислений
Точность Очень точный и надежный метод. Менее точный и надежный метод.

Приложения неконтролируемого машинного обучения

Некоторые применения методов машинного обучения без учителя:

  • Кластеризация автоматически разбивает набор данных на группы на основе их сходства.
  • Обнаружение аномалий может обнаружить необычные точки данных в вашем наборе данных. Это полезно для поиска мошеннических транзакций.
  • Анализ ассоциаций выявляет наборы элементов, которые часто встречаются вместе в вашем наборе данных.
  • Модели со скрытыми переменными широко используются для предварительной обработки данных. Например, уменьшение количества объектов в наборе данных или разложение набора данных на несколько компонентов.

Недостатки обучения без учителя

  • Вы не можете получить точную информацию о сортировке данных, а выходные данные, используемые при обучении без учителя, помечены и неизвестны.
  • Меньшая точность результатов связана с тем, что входные данные заранее неизвестны и не помечаются людьми. Это означает, что машина должна делать это сама.
  • Спектральные классы не всегда соответствуют информационным классам.
  • Пользователь должен потратить время на интерпретацию и маркировку классов, которые следуют этой классификации.
  • Спектральные свойства классов также могут изменяться со временем, поэтому вы не можете иметь одну и ту же информацию о классе при переходе от одного изображения к другому.

Резюме

  • Неконтролируемое обучение - это метод машинного обучения, при котором вам не нужно контролировать модель.
  • Машинное обучение без учителя помогает находить в данных все неизвестные закономерности.
  • Кластеризация и ассоциация - это два типа обучения без учителя.
  • Четыре типа методов кластеризации: 1) Эксклюзивный 2) Агломеративный 3) Перекрывающийся 4) Вероятностный.
  • Важными типами кластеризации являются: 1) Иерархическая кластеризация 2) Кластеризация K-средних 3) K-NN 4) Анализ главных компонентов 5) Разложение по сингулярным значениям 6) Анализ независимых компонентов.
  • Правила ассоциации позволяют устанавливать ассоциации между объектами данных внутри больших баз данных.
  • В обучении с учителем алгоритмы обучаются с использованием помеченных данных, в то время как в обучении без учителя алгоритмы используются с данными, которые не помечены.
  • Обнаружение аномалий может обнаружить важные точки данных в вашем наборе данных, что полезно для обнаружения мошеннических транзакций.
  • Самый большой недостаток обучения без учителя заключается в том, что вы не можете получить точную информацию о сортировке данных.