50 лучших вопросов и ответов на собеседование в области науки о данных

Ниже приведены часто задаваемые вопросы на собеседовании для новичков, а также для опытных специалистов по анализу данных.

1. Что такое Data Science?

Наука о данных - это комбинация алгоритмов, инструментов и техники машинного обучения, которая помогает вам находить общие скрытые закономерности из заданных необработанных данных.

2. Что такое логистическая регрессия в Data Science?

Логистическая регрессия также называется логит-моделью. Это метод прогнозирования двоичного результата на основе линейной комбинации переменных-предикторов.

3. Назовите три типа систематических ошибок, которые могут возникнуть во время выборки.

В процессе выборки существует три типа систематических ошибок:

Критерий отбора
Предвзятость по охвату
Предубеждение в отношении выживаемости

4. Обсудите алгоритм дерева решений.

Дерево решений - это популярный алгоритм машинного обучения с учителем. Он в основном используется для регрессии и классификации. Это позволяет разбить набор данных на более мелкие подмножества. Дерево решений может обрабатывать как категориальные, так и числовые данные.

5. Что такое априорная вероятность и правдоподобие?

Априорная вероятность - это доля зависимой переменной в наборе данных, в то время как вероятность - это вероятность классификации данного наблюдателя при наличии какой-либо другой переменной.

6. Объясните рекомендательные системы?

Это подкласс методов фильтрации информации. Это помогает вам предсказать предпочтения или оценки, которые пользователи могут дать продукту.

7. Назовите три недостатка использования линейной модели.

Три недостатка линейной модели:

Предположение о линейности ошибок.
Вы не можете использовать эту модель для двоичных или подсчетных результатов
Есть много проблем с переоснащением, которые он не может решить

8. Зачем нужно выполнять ресемплинг?

Передискретизация выполняется в следующих случаях:

Оценка точности выборочной статистики путем случайного рисования с заменой из набора точек данных или использования в качестве подмножеств доступных данных
Замена меток на точках данных при выполнении необходимых тестов
Проверка моделей с использованием случайных подмножеств

9. Перечислите библиотеки Python, используемые для анализа данных и научных вычислений.

SciPy
Панды
Матплотлиб
NumPy
SciKit
Сиборн

10. Что такое анализ мощности?

Анализ мощности является неотъемлемой частью экспериментального плана. Это поможет вам определить размер выборки, необходимый для выяснения влияния данного размера на причину с определенным уровнем уверенности. Это также позволяет использовать конкретную вероятность в ограничении размера выборки.

11. Объясните совместную фильтрацию

Совместная фильтрация, используемая для поиска правильных шаблонов с помощью совместной точки зрения, нескольких источников данных и различных агентов.

12. Что такое предвзятость?

Смещение - это ошибка, появившаяся в вашей модели из-за чрезмерного упрощения алгоритма машинного обучения ». Это может привести к недостаточной подгонке.

13. Обсудить «наивный» в наивном байесовском алгоритме?

Модель наивного алгоритма Байеса основана на теореме Байеса. Он описывает вероятность события. Он основан на предварительном знании условий, которые могут быть связаны с этим конкретным событием.

14. Что такое линейная регрессия?

Линейная регрессия - это метод статистического программирования, при котором оценка переменной «A» предсказывается на основе оценки второй переменной «B». B называется переменной-предиктором, а A - переменной критерия.

15. Укажите разницу между ожидаемым и средним значениями.

Различий не так много, но оба эти термина используются в разных контекстах. Среднее значение обычно упоминается, когда вы обсуждаете распределение вероятностей, тогда как ожидаемое значение упоминается в контексте случайной величины.

16. Какова цель проведения A / B-тестирования?

AB-тестирование, используемое для проведения случайных экспериментов с двумя переменными, A и B. Цель этого метода тестирования - выявить изменения на веб-странице, чтобы максимизировать или увеличить результат стратегии.

17. Что такое ансамблевое обучение?

Ансамбль - это метод объединения разнопланового набора учащихся вместе, чтобы импровизировать над стабильностью и предсказательной силой модели. Есть два типа методов ансамблевого обучения:

Упаковка

Метод бэггинга помогает внедрить одинаковых учащихся в небольших выборках. Это помогает вам делать более близкие прогнозы.

Повышение

Повышение - это итеративный метод, который позволяет вам регулировать вес наблюдения в зависимости от последней классификации. Повышение снижает ошибку смещения и помогает создавать надежные прогностические модели.

18. Объясните собственное значение и собственный вектор

Собственные векторы нужны для понимания линейных преобразований. Специалисту по данным необходимо вычислить собственные векторы для ковариационной матрицы или корреляции. Собственные значения - это направления с использованием определенных действий линейного преобразования путем сжатия, поворота или растяжения.

19. Дайте определение термину перекрестная проверка.

Перекрестная проверка - это метод проверки для оценки того, как результаты статистического анализа будут обобщаться для независимого набора данных. Этот метод используется в фоновом режиме, когда цель прогнозируется, и нужно оценить, насколько точно модель будет работать.

20. Объясните этапы проекта анализа данных.

Ниже перечислены важные этапы аналитического проекта:

Понять бизнес-проблему
Изучите данные и внимательно изучите их.
Подготовьте данные для моделирования, найдя недостающие значения и преобразовав переменные.
Запустите модель и проанализируйте результат Big data.
Подтвердите модель с новым набором данных.
Реализуйте модель и отслеживайте результат, чтобы проанализировать эффективность модели за определенный период.

21. Обсудите искусственные нейронные сети

Искусственные нейронные сети (ИНС) - это особый набор алгоритмов, который произвел революцию в машинном обучении. Это помогает вам адаптироваться к изменяющимся данным. Таким образом, сеть генерирует наилучший возможный результат без изменения критериев вывода.

22. Что такое обратное распространение?

Обратное распространение - это суть обучения нейронной сети. Это метод настройки весов нейронной сети в зависимости от количества ошибок, полученных в предыдущую эпоху. Правильная настройка помогает снизить количество ошибок и сделать модель надежной за счет увеличения ее обобщения.

23. Что такое случайный лес?

Случайный лес - это метод машинного обучения, который помогает выполнять все типы задач регрессии и классификации. Он также используется для обработки пропущенных значений и значений выбросов.

24. В чем важность систематической ошибки отбора?

Смещение отбора возникает, когда при отборе лиц, групп или данных для анализа не достигается особая рандомизация. Это говорит о том, что данная выборка не совсем точно отражает популяцию, которая должна была быть проанализирована.

25. Что такое метод кластеризации K-средних?

Кластеризация K-средних - важный метод обучения без учителя. Это метод классификации данных с использованием определенного набора кластеров, который называется K кластерами. Он используется для группировки, чтобы выяснить сходство данных.

26. Объясните разницу между наукой о данных и аналитикой данных.

Специалистам по обработке данных необходимо нарезать данные, чтобы извлечь ценную информацию, которую аналитик данных может применить к реальным бизнес-сценариям. Основное различие между ними заключается в том, что специалисты по обработке данных имеют больше технических знаний, чем бизнес-аналитики. Более того, им не нужно понимание бизнеса, необходимое для визуализации данных.

27. Объясните p-value?

Когда вы проводите проверку гипотез в статистике, значение p позволяет определить силу ваших результатов. Это числовое число от 0 до 1. В зависимости от значения оно поможет вам обозначить силу конкретного результата.

28. Дайте определение термину "глубокое обучение".

Глубокое обучение - это разновидность машинного обучения. Он связан с алгоритмами, вдохновленными структурой, называемой искусственными нейронными сетями (ИНС).

29. Объясните метод сбора и анализа данных для использования социальных сетей для прогнозирования погодных условий.

Вы можете собирать данные из социальных сетей, используя API Facebook, Twitter, Instagram. Например, для твитера мы можем построить особенность из каждого твита, такую как дата твита, ретвиты, список подписчиков и т. Д. Затем вы можете использовать многомерную модель временных рядов для прогнозирования погодных условий.

30. Когда вам нужно обновить алгоритм в Data Science?

Вам необходимо обновить алгоритм в следующей ситуации:

Вы хотите, чтобы ваша модель данных развивалась как потоки данных с использованием инфраструктуры
Базовый источник данных меняется
Если это нестационарность

31. Что такое нормальное распределение

Нормальное распределение - это набор непрерывных переменных, разбросанных по нормальной кривой или в форме колоколообразной кривой. Вы можете рассматривать это как непрерывное распределение вероятностей, которое полезно в статистике. Когда мы используем кривую нормального распределения, полезно анализировать переменные и их отношения.

32. Какой язык лучше всего подходит для текстовой аналитики? R или Python?

Python больше подходит для текстовой аналитики, поскольку он состоит из богатой библиотеки, известной как pandas. Он позволяет использовать инструменты анализа данных и структуры данных высокого уровня, в то время как R не предлагает эту функцию.

33. Объясните преимущества использования статистики специалистами по данным.

Статистика помогает специалистам по обработке данных лучше понять ожидания клиентов. Используя статистический метод, специалисты по данным могут получить информацию об интересе, поведении, вовлеченности, удержании потребителей и т. Д. Это также поможет вам построить мощные модели данных для проверки определенных выводов и прогнозов.

34. Назовите различные типы фреймворков глубокого обучения.

Pytorch
Microsoft Cognitive Toolkit
TensorFlow
Кафе
Chainer
Керас

35. Объясните автокодировщик

Автоэнкодеры - это обучающиеся сети. Это помогает вам преобразовывать входные данные в выходы с меньшим количеством ошибок. Это означает, что вы получите результат, максимально приближенный к входному.

36. Дайте определение машине Больцмана.

Машины Больцмана - это простой алгоритм обучения. Это поможет вам обнаружить те особенности, которые представляют сложные закономерности в обучающих данных. Этот алгоритм позволяет вам оптимизировать вес и количество для данной задачи.

37. Объясните, почему так важна очистка данных и какой метод вы используете для поддержания чистоты данных.

Грязные данные часто приводят к неверным внутренним данным, что может нанести ущерб перспективам любой организации. Например, если вы хотите провести целевую маркетинговую кампанию. Однако наши данные неверно говорят о том, что конкретный продукт будет востребован вашей целевой аудиторией; кампания не удастся.

38. Что такое асимметричное и равномерное распределение?

Неравномерное распределение возникает, когда данные распределяются по одной из сторон графика, тогда как равномерное распределение определяется, когда данные распределяются одинаково в диапазоне.

39. Когда возникает недообучение в статической модели?

Недостаточное соответствие происходит, когда статистическая модель или алгоритм машинного обучения не может уловить основной тренд данных.

40. Что такое обучение с подкреплением?

Обучение с подкреплением - это механизм обучения тому, как соотносить ситуации с действиями. Конечный результат должен помочь вам увеличить двоичный сигнал вознаграждения. В этом методе учащемуся не говорят, какое действие следует предпринять, но вместо этого он должен выяснить, какое действие предлагает максимальное вознаграждение. Поскольку этот метод основан на механизме вознаграждения / штрафа.

41. Назовите наиболее часто используемые алгоритмы.

Специалисты по обработке данных используют четыре наиболее часто используемых алгоритма:

Линейная регрессия
Логистическая регрессия
Случайный лес
KNN

42. Что такое точность?

Точность - это наиболее часто используемый механизм классификации ошибок. Его диапазон от 0 до 1, где 1 представляет 100%.

43. Что такое одномерный анализ?

Анализ, который не применяется ни к одному атрибуту за раз, известен как одномерный анализ. Коробчатая диаграмма - широко используемая одномерная модель.

44. Как вы преодолеваете трудности с вашими выводами?

Чтобы преодолеть трудности, с которыми я столкнулся, нужно поощрять обсуждение, демонстрировать лидерство и уважать различные варианты.

45. Объясните методику кластерной выборки в Data Science.

Метод кластерной выборки используется, когда сложно изучить разброс целевой группы населения, и простая случайная выборка не может быть применена.

46. Укажите разницу между набором для проверки и набором тестов.

Набор проверки в основном рассматривается как часть обучающего набора, поскольку он используется для выбора параметров, что помогает избежать переобучения строящейся модели.

В то время как набор тестов используется для тестирования или оценки производительности обученной модели машинного обучения.

47. Объясните термин «формула биномиальной вероятности»?

«Биномиальное распределение содержит вероятности каждого возможного успеха в N попытках для независимых событий, которые имеют вероятность π».

48. Что такое отзыв?

Отзыв - это отношение истинно положительного показателя к фактическому положительному показателю. Он колеблется от 0 до 1.

49. Обсудите нормальное распределение.

Нормальное распределение равномерно распределено, так как среднее, медиана и мода равны.

50. Как вы можете выбрать важные переменные при работе с набором данных? Объяснять

Вы можете использовать следующие методы выбора переменных:

Удалите коррелированные переменные перед выбором важных переменных
Используйте линейную регрессию и выберите переменные, которые зависят от этих значений p.
Использовать обратный, прямой выбор и пошаговый выбор
Используйте Xgboost, Random Forest и постройте диаграмму важности переменных.
Измерьте информационный приток для данного набора функций и выберите соответственно n первых функций.

51. Можно ли зафиксировать корреляцию между непрерывной и категориальной переменной?

Да, мы можем использовать метод ковариационного анализа для выявления связи между непрерывными и категориальными переменными.

52. Если рассматривать категориальную переменную как непрерывную переменную, можно улучшить прогнозную модель?

Да, категориальное значение следует рассматривать как непрерывную переменную только в том случае, если переменная имеет порядковый характер. Так что это лучшая прогностическая модель.