Что такое матрица неточностей?
Матрица неточностей - это метод измерения производительности для классификации машинного обучения. Это своего рода таблица, которая помогает вам узнать производительность модели классификации на наборе тестовых данных, для которых известны истинные значения. Сам термин «матрица путаницы» очень прост, но связанная с ним терминология может немного сбивать с толку. Здесь дается простое объяснение этой техники.
В этом руководстве вы узнаете,
- Что такое матрица путаницы?
- Четыре результата матрицы путаницы
- Пример матрицы путаницы:
- Как рассчитать матрицу неточностей
- Другие важные термины с использованием матрицы путаницы
- Зачем нужна матрица путаницы?
Четыре результата матрицы путаницы
Матрица неточностей визуализирует точность классификатора путем сравнения фактических и прогнозируемых классов. Бинарная матрица путаницы состоит из квадратов:
- TP: True Positive: предсказанные значения правильно предсказаны как фактические положительные.
- FP: Прогнозируемые значения неверно предсказывают фактическое положительное значение. т.е. отрицательные значения предсказываются как положительные
- FN: False Negative: положительные значения считаются отрицательными.
- TN: True Negative: прогнозируемые значения правильно предсказываются как фактическое отрицательное значение.
Вы можете вычислить тест на точность из матрицы неточностей:
Пример матрицы неточностей:
Матрица неточностей - это полезный метод машинного обучения, который позволяет измерять отзыв, точность, точность и кривую AUC-ROC. Ниже приведен пример, чтобы узнать термины Истинно Положительный, Истинно отрицательный, Ложноотрицательный и Истинно отрицательный.
Истинно положительный:
Вы прогнозировали позитив, и это оказалось правдой. Например, вы предсказывали, что Франция выиграет чемпионат мира, и она выиграла.
Истинно отрицательный:
Когда тебе предсказали негатив, и это правда. Вы предсказывали, что Англия не выиграет, а она проиграла.
Ложный положительный результат:
Ваш прогноз положительный и ложный.
Вы предсказывали, что Англия выиграет, но она проиграла.
Ложноотрицательный:
Ваш прогноз отрицательный, и результат тоже неверный.
Вы предсказывали, что Франция не победит, но она победила.
Вы должны помнить, что мы описываем прогнозируемые значения как истинные или ложные, или как положительные и отрицательные.
Как рассчитать матрицу неточностей
Вот пошаговый процесс вычисления матрицы путаницы при интеллектуальном анализе данных.
- Шаг 1) Во-первых, вам нужно протестировать набор данных с его ожидаемыми значениями результатов.
- Шаг 2) Прогнозируйте все строки в тестовом наборе данных.
- Шаг 3) Рассчитайте ожидаемые прогнозы и результаты:
- Сумма верных прогнозов каждого класса.
- Общее количество неверных прогнозов каждого класса.
После этого эти числа упорядочиваются следующими способами:
- Каждая строка матрицы связана с предсказанным классом.
- Каждый столбец матрицы соответствует фактическому классу.
- Общее количество правильной и неправильной классификации заносится в таблицу.
- Сумма правильных прогнозов для класса входит в прогнозируемый столбец и ожидаемую строку для этого значения класса.
- Сумма неверных прогнозов для класса входит в ожидаемую строку для этого значения класса и прогнозируемый столбец для этого конкретного значения класса.
Другие важные термины с использованием матрицы путаницы
- Положительное прогнозное значение (PVV): это очень близко к точности. Одно существенное различие между двумя терминами состоит в том, что PVV учитывает распространенность. В ситуации, когда классы идеально сбалансированы, положительная прогностическая ценность равна точности.
- Частота нулевых ошибок: этот термин используется для определения того, сколько раз ваше предсказание было бы неверным, если бы вы могли предсказать класс большинства. Вы можете рассматривать это как базовую метрику для сравнения вашего классификатора.
- Оценка F: оценка F1 - это средневзвешенная оценка истинно положительного (отзыва) и точности.
- Кривая Roc: Кривая Roc показывает истинно положительные результаты по сравнению с ложноположительными в различных точках отсечения. Он также демонстрирует компромисс между чувствительностью (отзывчивость и специфичность или истинно отрицательный показатель).
- Точность: метрика точности показывает точность положительного класса. Он измеряет, насколько вероятно предсказание положительного класса верным.
Максимальный балл равен 1, когда классификатор идеально классифицирует все положительные значения. Сама по себе точность не очень помогает, потому что игнорирует отрицательный класс. Эта метрика обычно используется в паре с метрикой отзыва. Напоминание также называется чувствительностью или истинно положительным показателем.
- Чувствительность : Чувствительность вычисляет соотношение правильно обнаруженных положительных классов. Этот показатель показывает, насколько хороша модель для распознавания положительного класса.
Зачем нужна матрица путаницы?
Вот плюсы / преимущества использования матрицы путаницы.
- Он показывает, насколько сбивается с толку любая классификационная модель, когда она делает прогнозы.
- Матрица неточностей не только дает вам представление об ошибках, которые делает ваш классификатор, но также и о типах совершаемых ошибок.
- Эта разбивка поможет вам преодолеть ограничение, связанное с использованием только точности классификации.
- Каждый столбец матрицы неточностей представляет экземпляры этого предсказанного класса.
- Каждая строка матрицы путаницы представляет экземпляры фактического класса.
- Он дает представление не только об ошибках, которые делает классификатор, но также и об ошибках.