50 самых популярных вопросов на собеседовании по машинному обучению & Ответы

Скачать PDF

1) Что такое машинное обучение?

Машинное обучение - это отрасль информатики, которая занимается системным программированием, чтобы автоматически учиться и совершенствоваться с опытом. Например: роботы запрограммированы таким образом, что они могут выполнять задачу на основе данных, которые они собирают с датчиков. Он автоматически изучает программы на основе данных.

2) Упомянули разницу между интеллектуальным анализом данных и машинным обучением?

Машинное обучение связано с изучением, проектированием и разработкой алгоритмов, которые дают компьютерам возможность учиться без явного программирования. В то время как интеллектуальный анализ данных можно определить как процесс, в котором неструктурированные данные пытаются извлечь знания или неизвестные интересные шаблоны. В этом процессе используются алгоритмы машинного обучения.

3) Что такое «переоснащение» в машинном обучении?

В машинном обучении, когда статистическая модель описывает случайную ошибку или шум вместо лежащей в основе взаимосвязи, происходит «переоснащение». Когда модель чрезмерно сложна, обычно наблюдается переоснащение из-за слишком большого количества параметров по отношению к количеству типов обучающих данных. Модель демонстрирует плохие характеристики, которые были переоборудованы.

4) Почему происходит переоснащение?

Возможность переобучения существует, поскольку критерии, используемые для обучения модели, не совпадают с критериями, используемыми для оценки эффективности модели.

5) Как избежать переобучения?

Используя большое количество данных, можно избежать переобучения, переобучение происходит относительно, поскольку у вас небольшой набор данных, и вы пытаетесь извлечь из него уроки. Но если у вас небольшая база данных, и вы вынуждены использовать модель, основанную на ней. В такой ситуации вы можете использовать метод, известный как перекрестная проверка . В этом методе набор данных разделяется на две части: наборы данных для тестирования и обучения, набор данных для тестирования будет тестировать только модель, в то время как в наборе данных для обучения точки данных появятся вместе с моделью.

В этом методе модели обычно дается набор известных данных, на которых выполняется обучение (набор обучающих данных), и набор данных неизвестных данных, на котором тестируется модель. Идея перекрестной проверки состоит в том, чтобы определить набор данных для «тестирования» модели на этапе обучения.

6) Что такое индуктивное машинное обучение?

Индуктивное машинное обучение включает в себя процесс обучения на примерах, когда система из набора наблюдаемых примеров пытается вызвать общее правило.

7) Какие пять популярных алгоритмов машинного обучения?

Деревья решений
Нейронные сети (обратное распространение)
Вероятностные сети
Ближайший сосед
Опорные векторные машины

8) Каковы различные алгоритмы машинного обучения?

Различные типы методов машинного обучения:

Контролируемое обучение
Неконтролируемое обучение
Полу-контролируемое обучение
Обучение с подкреплением
Трансдукция
Учиться усваивать знания

9) Каковы три этапа построения гипотез или модели в машинном обучении?

Построение модели
Тестирование модели
Применение модели

10) Каков стандартный подход к обучению с учителем?

Стандартный подход к обучению с учителем - разделить набор примеров на обучающий набор и тест.

11) Что такое «Учебный набор» и «Тестовый набор»?

В различных областях информатики, таких как машинное обучение, набор данных используется для обнаружения потенциально предсказательной взаимосвязи, известной как «обучающий набор». Учебный набор - это примеры, данные учащемуся, в то время как тестовый набор используется для проверки точности гипотез, генерируемых учащимся, и это набор примеров, скрытых от учащегося. Обучающий набор отличается от тестового набора.

12) Перечислите различные подходы к машинному обучению?

Различные подходы к машинному обучению:

Концепция против классификационного обучения
Символическое обучение против статистического
Индуктивное или аналитическое обучение

13) Что не является машинным обучением?

Искусственный интеллект
Вывод на основе правил

14) Объясните, какова функция «обучения без учителя»?

Найдите кластеры данных
Найдите низкоразмерные представления данных
Найдите интересные направления в данных
Интересные координаты и соотношения
Найдите новые наблюдения / очистка базы данных

15) Объясните, какова функция «контролируемого обучения»?

Классификации
Распознавание речи
Регресс
Прогнозировать временной ряд
Аннотировать строки

16) Что такое алгоритмо-независимое машинное обучение?

Машинное обучение, в котором математические основы не зависят от какого-либо конкретного классификатора или алгоритма обучения, называется машинным обучением, независимым от алгоритма?

17) В чем разница между искусственным обучением и машинным обучением?

Проектирование и разработка алгоритмов в соответствии с поведением на основе эмпирических данных известно как машинное обучение. Хотя искусственный интеллект в дополнение к машинному обучению, он также охватывает другие аспекты, такие как представление знаний, обработка естественного языка, планирование, робототехника и т. Д.

18) Что такое классификатор в машинном обучении?

Классификатор в машинном обучении - это система, которая вводит вектор дискретных или непрерывных значений признаков и выводит одно дискретное значение - класс.

19) Каковы преимущества наивного байесовского метода?

В Naïve Bayes классификатор будет сходиться быстрее, чем дискриминационные модели, такие как логистическая регрессия, поэтому вам нужно меньше данных для обучения. Основное преимущество заключается в том, что он не может изучать взаимодействия между функциями.

20) В каких областях используется распознавание образов?

Распознавание образов можно использовать в

Компьютерное зрение
Распознавание речи
Сбор данных
Статистика
Неофициальный поиск
Биоинформатика

21) Что такое генетическое программирование?

Генетическое программирование - один из двух методов, используемых в машинном обучении. Модель основана на тестировании и выборе лучшего варианта среди набора результатов.

22) Что такое индуктивное логическое программирование в машинном обучении?

Индуктивное логическое программирование (ILP) - это подраздел машинного обучения, в котором используется логическое программирование, представляющее базовые знания и примеры.

23) Что такое выбор модели в машинном обучении?

Процесс выбора моделей среди различных математических моделей, которые используются для описания одного и того же набора данных, известен как выбор модели. Выбор модели применяется в областях статистики, машинного обучения и интеллектуального анализа данных.

24) Какие два метода используются для калибровки в контролируемом обучении?

Два метода, используемых для прогнозирования хороших вероятностей в контролируемом обучении:

Платта калибровка
Изотоническая регрессия

Эти методы предназначены для двоичной классификации, и это нетривиально.

25) Какой метод часто используется для предотвращения переобучения?

Когда имеется достаточно данных, используется «Изотоническая регрессия», чтобы предотвратить проблему переобучения.

26) В чем разница между эвристикой для изучения правил и эвристикой для деревьев решений?

Разница в том, что эвристика для деревьев решений оценивает среднее качество ряда несвязанных наборов, в то время как изучающие правила оценивают только качество набора экземпляров, который покрывается правилом-кандидатом.

27) Что такое персептрон в машинном обучении?

В машинном обучении Perceptron - это алгоритм контролируемой классификации ввода на один из нескольких возможных недвоичных выходов.

28) Объясните два компонента программы байесовской логики?

Программа байесовской логики состоит из двух компонентов. Первый компонент - логический; он состоит из набора байесовских предложений, отражающих качественную структуру предметной области. Второй компонент - количественный, он кодирует количественную информацию о домене.

29) Что такое байесовские сети (BN)?

Байесовская сеть используется для представления графической модели вероятностного отношения между набором переменных.

30) Почему алгоритм обучения на основе экземпляров иногда называют алгоритмом ленивого обучения?

Алгоритм обучения на основе экземпляров также называется алгоритмом ленивого обучения, поскольку они задерживают процесс индукции или обобщения до выполнения классификации.

31) Какие два метода классификации могут обрабатывать SVM (машина опорных векторов)?

Комбинирование бинарных классификаторов
Модификация двоичного кода для включения мультиклассового обучения

32) Что такое ансамблевое обучение?

Для решения конкретной вычислительной программы стратегически генерируются и объединяются несколько моделей, таких как классификаторы или эксперты. Этот процесс известен как ансамблевое обучение.

33) Почему используется ансамблевое обучение?

Ансамблевое обучение используется для улучшения классификации, прогнозирования, аппроксимации функций и т. Д. Модели.

34) Когда использовать ансамблевое обучение?

Ансамблевое обучение используется при создании более точных и независимых друг от друга классификаторов компонентов.

35) Каковы две парадигмы ансамблевых методов?

Две парадигмы ансамблевых методов:

Последовательные ансамблевые методы
Параллельные ансамблевые методы

36) В чем заключается общий принцип ансамблевого метода и что такое «мешки» и «бустинг» в ансамблевом методе?

Общий принцип ансамблевого метода состоит в том, чтобы объединить прогнозы нескольких моделей, построенных с помощью заданного алгоритма обучения, чтобы повысить надежность по сравнению с одной моделью. Бэггинг - это комплексный метод улучшения нестабильных схем оценки или классификации. При этом методы повышения используются последовательно для уменьшения смещения комбинированной модели. И Boosting, и Bagging могут уменьшить количество ошибок за счет уменьшения дисперсии.

37) Что такое декомпозиция ошибки классификации смещения на отклонение в методе ансамбля?

Ожидаемую ошибку алгоритма обучения можно разложить на смещение и дисперсию. Термин смещения измеряет, насколько близко средний классификатор, созданный алгоритмом обучения, соответствует целевой функции. Термин дисперсии измеряет, насколько предсказание алгоритма обучения колеблется для разных обучающих наборов.

38) Что такое алгоритм инкрементального обучения в ансамбле?

Метод инкрементального обучения - это способность алгоритма учиться на новых данных, которые могут быть доступны после того, как классификатор уже был сгенерирован из уже доступного набора данных.

39) Для чего используются PCA, KPCA и ICA?

PCA (анализ основных компонентов), KPCA (анализ основных компонентов на основе ядра) и ICA (независимый анализ компонентов) - важные методы извлечения признаков, используемые для уменьшения размерности.

40) Что такое сокращение размеров машинного обучения?

В машинном обучении и статистике сокращение размерности - это процесс уменьшения количества рассматриваемых случайных величин, который можно разделить на выбор и извлечение признаков.

41) Что такое машины опорных векторов?

Машины опорных векторов - это контролируемые алгоритмы обучения, используемые для классификации и регрессионного анализа.

42) Каковы компоненты методов реляционной оценки?

Важными компонентами методов реляционной оценки являются:

Получение данных
Получение правды на земле
Метод перекрестной проверки
Тип запроса
Показатель скоринга
Тест значимости

43) Какие существуют методы последовательного обучения с учителем?

Различные методы решения задач последовательного обучения с учителем:

Скользящие окна методы
Рекуррентные раздвижные окна
Скрытые модели Маркова
Модели Маркова с максимальной энтропией
Условные случайные поля
Графические трансформаторные сети

44) В каких областях робототехники и обработки информации возникает проблема последовательного прогнозирования?

Области робототехники и обработки информации, где возникает проблема последовательного прогнозирования:

Имитационное обучение
Структурированный прогноз
Обучение с подкреплением на основе моделей

45) Что такое пакетное статистическое обучение?

Методы статистического обучения позволяют изучать функцию или предсказатель из набора наблюдаемых данных, которые могут делать прогнозы относительно невидимых или будущих данных. Эти методы обеспечивают гарантии производительности изученного предсказателя для будущих невидимых данных на основе статистических предположений о процессе генерации данных.

46) Что такое PAC Learning?

Обучение PAC (вероятно, приблизительно правильное) - это среда обучения, которая была введена для анализа алгоритмов обучения и их статистической эффективности.

47) К каким категориям вы можете отнести процесс последовательного обучения?