Машинное обучение с учителем: что такое, алгоритмы, пример

Содержание:

Anonim

Что такое машинное обучение с учителем?

При обучении с учителем вы обучаете машину, используя данные, которые хорошо «помечены ». Это означает, что некоторые данные уже помечены правильным ответом. Это можно сравнить с обучением, которое происходит в присутствии руководителя или учителя.

Алгоритм обучения с учителем учится на помеченных данных обучения, помогает прогнозировать результаты для непредвиденных данных.

Успешное построение, масштабирование и развертывание точных моделей машинного обучения с учителем требует времени и технических знаний от команды высококвалифицированных специалистов по данным. Более того, специалист по анализу данных должен перестроить модели, чтобы убедиться, что предоставленная информация остается верной до тех пор, пока данные не изменятся.

В этом руководстве вы узнаете:

  • Что такое машинное обучение с учителем?
  • Как работает контролируемое обучение
  • Типы контролируемых алгоритмов машинного обучения
  • Контролируемые и неконтролируемые методы машинного обучения
  • Проблемы машинного обучения с учителем
  • Преимущества обучения с учителем:
  • Недостатки обучения с учителем
  • Лучшие практики контролируемого обучения

Как работает контролируемое обучение

Например, вы хотите обучить машину, которая поможет вам предсказать, сколько времени вам потребуется, чтобы ехать домой с рабочего места. Здесь вы начинаете с создания набора помеченных данных. Эти данные включают

  • Погодные условия
  • Время дня
  • каникулы

Все эти детали - ваши входные данные. Выходные данные - это количество времени, которое потребовалось, чтобы вернуться домой в этот конкретный день.

Вы инстинктивно знаете, что если на улице идет дождь, вам понадобится больше времени, чтобы ехать домой. Но машине нужны данные и статистика.

Давайте теперь посмотрим, как вы можете разработать модель обучения с учителем из этого примера, которая поможет пользователю определить время в пути. Первое, что вам потребуется для создания - это тренировочный набор. Этот обучающий набор будет содержать общее время в пути и соответствующие факторы, такие как погода, время и т. Д. На основе этого обучающего набора ваша машина может увидеть прямую зависимость между количеством дождя и временем, которое вам понадобится, чтобы добраться до дома.

Таким образом, выясняется, что чем больше идет дождь, тем дольше вы будете ехать, чтобы вернуться домой. Он также может увидеть связь между временем, когда вы уходите с работы, и временем, когда вы будете в дороге.

Чем ближе вы к 18:00, тем дольше вы доберетесь до дома. Ваша машина может обнаружить некоторые отношения с вашими помеченными данными.

Это начало вашей модели данных. Это начинает влиять на то, как дождь влияет на то, как люди водят машину. Также становится очевидным, что все больше людей путешествуют в определенное время суток.

Типы контролируемых алгоритмов машинного обучения

Регрессия:

Метод регрессии предсказывает одно выходное значение с использованием обучающих данных.

Пример : вы можете использовать регрессию для прогнозирования стоимости дома на основе данных обучения. Входными переменными будут местонахождение, размер дома и т. Д.

Сильные стороны : выходные данные всегда имеют вероятностную интерпретацию, и алгоритм можно упорядочить, чтобы избежать переобучения.

Слабые стороны : логистическая регрессия может работать неэффективно при наличии множественных или нелинейных границ принятия решений. Этот метод не является гибким, поэтому он не фиксирует более сложные отношения.

Логистическая регрессия:

Метод логистической регрессии, используемый для оценки дискретных значений на основе заданного набора независимых переменных. Это помогает вам прогнозировать вероятность возникновения события, подбирая данные для функции logit. Следовательно, это также известно как логистическая регрессия. Поскольку он предсказывает вероятность, его выходное значение находится между 0 и 1.

Вот несколько типов алгоритмов регрессии

Классификация:

Классификация означает группировку вывода внутри класса. Если алгоритм пытается разделить входные данные на два разных класса, это называется двоичной классификацией. Выбор между более чем двумя классами называется многоклассовой классификацией.

Пример : определение того, будет ли кто-то неплательщиком ссуды.

Сильные стороны : дерево классификации очень хорошо работает на практике.

Слабые стороны : отдельные деревья без ограничений подвержены переобучению.

Вот несколько типов алгоритмов классификации

Наивные байесовские классификаторы

Наивная байесовская модель (NBN) проста в построении и очень полезна для больших наборов данных. Этот метод состоит из прямых ациклических графов с одним родителем и несколькими дочерними элементами. Он предполагает независимость дочерних узлов, отделенных от их родительских.

Деревья решений

Деревья решений классифицируют экземпляры, сортируя их на основе значения функции. В этом методе каждый режим является особенностью экземпляра. Он должен быть классифицирован, и каждая ветвь представляет значение, которое может принять узел. Это широко используемый метод классификации. В этом методе классификация представляет собой дерево, известное как дерево решений.

Он помогает оценить реальные значения (стоимость покупки автомобиля, количество звонков, общий объем продаж за месяц и т. Д.).

Машина опорных векторов

Машина опорных векторов (SVM) - это тип алгоритма обучения, разработанный в 1990 году. Этот метод основан на результатах теории статистического обучения, представленной Вапом Ником.

Машины SVM также тесно связаны с функциями ядра, что является центральной концепцией для большинства задач обучения. Фреймворк ядра и SVM используются в самых разных областях. Он включает в себя поиск мультимедийной информации, биоинформатику и распознавание образов.

Контролируемые и неконтролируемые методы машинного обучения

На основе Техника машинного обучения с учителем Техника неконтролируемого машинного обучения
Входные данные Алгоритмы обучаются с использованием помеченных данных. Алгоритмы используются против данных, которые не помечены
Вычислительная сложность Обучение с учителем - более простой метод. Обучение без учителя - сложная с точки зрения вычислений
Точность Очень точный и надежный метод. Менее точный и надежный метод.

Проблемы машинного обучения с учителем

Вот проблемы, с которыми сталкивается машинное обучение с учителем:

  • Нерелевантная функция ввода данных обучения может дать неточные результаты
  • Подготовка и предварительная обработка данных - это всегда проблема.
  • Точность ухудшается, когда в качестве обучающих данных вводятся невозможные, маловероятные или неполные значения.
  • Если соответствующий эксперт недоступен, тогда другой подход - «грубая сила». Это означает, что вам нужно продумать правильные функции (входные переменные) для обучения машины. Это могло быть неточно.

Преимущества обучения с учителем:

  • Контролируемое обучение позволяет собирать данные или создавать выходные данные из предыдущего опыта.
  • Помогает оптимизировать критерии эффективности, используя опыт
  • Машинное обучение с учителем помогает решать различные типы реальных вычислительных задач.

Недостатки обучения с учителем

  • Граница принятия решения может быть перетренирована, если в вашем обучающем наборе нет примеров, которые вы хотели бы иметь в классе.
  • Пока вы тренируете классификатор, вам нужно выбрать множество хороших примеров из каждого класса.
  • Классификация больших данных может стать настоящей проблемой.
  • Обучение контролируемому обучению требует много вычислительного времени.

Лучшие практики контролируемого обучения

  • Прежде чем делать что-либо еще, вам нужно решить, какие данные будут использоваться в качестве обучающего набора.
  • Вам необходимо определить структуру изучаемой функции и алгоритм обучения.
  • Соберите соответствующие результаты либо от экспертов-людей, либо от измерений.

Резюме

  • При обучении с учителем вы обучаете машину, используя данные, которые хорошо «помечены».
  • Вы хотите обучить машину, которая поможет вам предсказать, сколько времени вам потребуется, чтобы ехать домой с рабочего места, - это пример обучения с учителем.
  • Регрессия и классификация - это два типа контролируемых методов машинного обучения.
  • Обучение с учителем - более простой метод, в то время как обучение без учителя - сложный метод.
  • Самая большая проблема в контролируемом обучении заключается в том, что несоответствующая функция ввода данных обучения может дать неточные результаты.
  • Основное преимущество обучения с учителем состоит в том, что оно позволяет собирать данные или создавать выходные данные из предыдущего опыта.
  • Недостатком этой модели является то, что граница принятия решения может быть перенапряжена, если в вашем обучающем наборе нет примеров, которые вы хотите иметь в классе.
  • В качестве наилучшей практики обучения с супервизией вам сначала нужно решить, какие данные следует использовать в качестве обучающего набора.