логистическая регрессия что это такое

Алгоритмы машинного обучения простым языком. Часть 3

логистическая регрессия что это такое. Смотреть фото логистическая регрессия что это такое. Смотреть картинку логистическая регрессия что это такое. Картинка про логистическая регрессия что это такое. Фото логистическая регрессия что это такое

Jun 8, 2019 · 5 min read

логистическая регрессия что это такое. Смотреть фото логистическая регрессия что это такое. Смотреть картинку логистическая регрессия что это такое. Картинка про логистическая регрессия что это такое. Фото логистическая регрессия что это такое

Логистическая регрессия

Итак, мы уже познакомились с линейной регрессией. Она определяла влияние переменных на другую переменную при условии, что: 1) результирующая переменная непрерывна и 2) отношение между независимыми переменными и результирующей линейное.

Но что, если результирующая переменная категориальная? Тогда и приходит на помощь логистическая регрессия!

Категориальные переменные — те, которые могут принимать лишь значения, обозначающие определённую категорию. Например, дни недели. Если у тебя есть точки на графике, обозначающие события определённого дня, то ни одна точка не может быть между понедельником и вторником. Если что-то произошло в понедельник, то оно произошло в понедельник, всё просто.

Те п ерь, если мы вспомним, как работает линейная регрессия, то как вообще можно определить линию наилучшего соответствия для чего-то категориального? Это невозможно! Поэтому логистическая регрессия выдаёт не численное значение, а вероятность соответствия той или иной категории. Поэтому модели, использующие логистическую регрессию, чаще всего используются для классификации.

Логистическая функция нелинейна. Как тогда логистическая регрессия может быть линейным классификатором?

Многомерная логистическая функция задаёт поверхность, которая поднимается от озёрной ложи (в точке ноль) к плато (в точке 1). Если вы заполните озеро до значения 0,5, то береговая линия будет прямой. Эта прямая и есть разделительная прямая для классификатора. В этом смысле логистическая регрессия — это линейный классификатор. Она работает лучше всего с линейно разделимыми классами”.

логистическая регрессия что это такое. Смотреть фото логистическая регрессия что это такое. Смотреть картинку логистическая регрессия что это такое. Картинка про логистическая регрессия что это такое. Фото логистическая регрессия что это такое

Вернёмся к тому, что мы называем линейную и логистическую регрессию “линейными”. Где же линейная часть логистической регрессии, когда мы не можем определить линию наилучшего соответствия? В мире логистической регрессии результирующая переменная находится в линейных отношениях с логарифмом отношения шансов независимых переменных.

Отношение шансов

Ядро логистической регрессии=отношение шансов.

Отношение шансов — это отношение вероятности успешного исхода к вероятности провала. Другими словами, это отношение вероятности того, что событие произойдёт, к вероятности того, что оно не произойдёт.

Для конкретного примера давай рассмотрим школьников, которые пишут тест. Известно, что для девушек отношение шансов того, что они сдадут тест, 5:1, а для парней — 3:10. Это значит, что из 6 девушек 5 скорее всего успешно сдадут тест, а из 13 парней — всего лишь 3. Общее количество учеников равно 19.

То есть отношение шансов и вероятность — одно и то же?

Нет. Вероятность — это отношение количества раз, когда произошло конкретное событие, к количеству всех произошедших событий (например, из 30 подбрасываний монетки в 10 случаях выпала решка).

Отношение шансов — это отношение количества раз, когда произошло конкретное событие, к количеству раз, когда оно не произошло (из 30 подбрасываний в 10 случаях выпала решка, значит, в 20 она не выпала, тогда отношение шансов — 10:20).

Это значит, что вероятность всегда будет в пределах от нуля до единицы, тогда как отношение шансов может расти от нуля до бесконечности. Это проблема для модели логистической регрессии, так как ожидаемые выходные данные должны быть вероятностью, то есть числом в промежутке от нуля до единицы.

Как получить вероятность из отношения шансов?

Давай рассмотрим это на определённой задаче классификации. Например, победит ли твоя любимая футбольная команда в матче с другой командой. Предположим, что отношение шансов того, что твоя любимая команда проиграет — 1:6 или 0,17, а того, что выиграет — 6:1 или 6. Эти числа можно представить на числовой прямой таким образом:

логистическая регрессия что это такое. Смотреть фото логистическая регрессия что это такое. Смотреть картинку логистическая регрессия что это такое. Картинка про логистическая регрессия что это такое. Фото логистическая регрессия что это такое

Скорее всего, ты не хочешь, чтобы модель ориентировалась только на модуль отношений шансов. Нужно, чтобы она учитывала, допустим, погоду, игроков и так далее. Для того, чтобы равномерно (симметрично) распределить модуль отношения шансов, мы вычисляем логарифм отношения шансов.

Логарифм отношения шансов

логистическая регрессия что это такое. Смотреть фото логистическая регрессия что это такое. Смотреть картинку логистическая регрессия что это такое. Картинка про логистическая регрессия что это такое. Фото логистическая регрессия что это такое

Это натуральный логарифм из отношения шансов. Когда ты берёшь натуральный логарифм от каких-то значений, ты делаешь их более нормально распределёнными. Когда что-то имеет нормальное распределение, с ним очень легко работать.

Когда мы берём натуральный логарифм от отношения шансов, мы распределяем значения от отрицательной бесконечности до положительной. Ты можешь увидеть это на кривой Белла.

Хоть нам и до сих пор нужно число в промежутке от 0 до 1, достигнутая симметрия приближает нас к получению верного результата.

Логит-функция

Это функция, с помощью которой мы получаем логарифм отношения шансов.

Источник

Пошаговое построение логистической регрессии в Python

логистическая регрессия что это такое. Смотреть фото логистическая регрессия что это такое. Смотреть картинку логистическая регрессия что это такое. Картинка про логистическая регрессия что это такое. Фото логистическая регрессия что это такое

Jul 12, 2020 · 9 min read

логистическая регрессия что это такое. Смотреть фото логистическая регрессия что это такое. Смотреть картинку логистическая регрессия что это такое. Картинка про логистическая регрессия что это такое. Фото логистическая регрессия что это такое

Логистическая регрессия — это алгоритм классификации машинного обучения, используемый для прогнозирования вероятности категориальной зависимой переменной. В логистической регрессии зависимая переменная является бинарной переменной, содержащей данные, закодированные как 1 (да, успех и т.п.) или 0 (нет, провал и т.п.). Другими словами, модель логистической регрессии предсказывает P(Y=1) как функцию X.

Условия логистической регрессии

Держа в уме все перечисленные условия, давайте взглянем на наш набор данных.

Данные

Набор данных взят с репозитория машинного обучения UCI и относится к прямым маркетинговым кампаниям (телефонный обзвон) португальского банковского учреждения. Цель классификации в прогнозировании успеха подписки клиента (1/0) на срочный депозит (переменная y). Загрузить этот набор данных можно здесь.

Эт и данные предоставляют информацию о клиентах банка, которая включает 41,188 записей и 21 поле.

логистическая регрессия что это такое. Смотреть фото логистическая регрессия что это такое. Смотреть картинку логистическая регрессия что это такое. Картинка про логистическая регрессия что это такое. Фото логистическая регрессия что это такое

Прогнозируемая переменная (желаемая цель):

y —подписался ли клиент на срочный вклад (двоично: “1” означает “Да”, “0” означает “Нет”).

Колонка образования в наборе данных имеет очень много категорий, и нам нужно сократить их для оптимизации моделирования. В этой колонке представлены следующие категории:

Источник

Логистическая регрессия для чайников: подробное объяснение

Дата публикации Aug 14, 2019

логистическая регрессия что это такое. Смотреть фото логистическая регрессия что это такое. Смотреть картинку логистическая регрессия что это такое. Картинка про логистическая регрессия что это такое. Фото логистическая регрессия что это такое

Хотел бы начать это путешествие ML с этим сообщением:

«Постарайтесь сначала понять формулировку проблемы, оставив в стороне свой тренированный интеллект, и попытайтесь проанализировать данные, как будто вы ничего о них не знаете. Ваше честное признание того, что вы ничего не знаете, приведет вас к процессу создания модели, достойной развертывания. «

Процесс важнее, чем результат в области науки о данных

В нашей последней статье о контролируемом ML мы рассмотрели модель линейной регрессии, которая имела дело с непрерывными атрибутами, чтобы определить влияние независимой переменной на зависимую переменную. Я бы пригласил вас пройти через это, чтобы получить правильный контекст.

Машинное обучение под наблюдением с использованием линейной регрессии: Часть 1

Понимание модели линейной регрессии

towardsdatascience.com

Все упражнение в модели линейной регрессии состояло в том, чтобы найти наилучшую линию соответствия, которая может предсказать влияние независимой переменной на зависимую или целевую переменную. Линейная регрессия имеет дело с проблемой, где нам нужно предсказать

Здесь мы пытаемся предсказать влияние / изменения, наблюдаемые на целевые переменные продажи / производительность, исходя из рабочего времени / возраста. Как насчет проблемы, когда мы хотим четко предсказать на основе входных данных, вероятность того, что пациенты будут диабетиками или не диабетиками, или предсказать вероятность того, что собака будет лаять в середине ночи или нет.

Проблема такого типа, когда нам нужно найти вероятность того, что событие произойдет или нет, или же оно будет истинным / ложным, называется проблемой классификации. Чтобы решить эту проблему, мы часто используем один из самых популярныхмодель ML под наблюдениемназывается,Модель логистической регрессии.

С этой информацией давайте начнем сегодняшнюю сессию по логистической регрессии, где мы рассмотрим

Что такое логистическая регрессия?

Логистическая регрессияэто статистический метод для анализа набора данных, в котором есть одна или несколько независимых переменных, которые определяют результат. Результат измеряется с помощью дихотомической переменной (в которой есть только два возможных результата). Он используется для прогнозирования двоичного результата (1/0, Да / Нет, Истина / Ложь) с учетом набора независимых переменных.

Вы также можете рассматривать логистическую регрессию как особый случай линейной регрессии, когда исходная переменная является категориальной, где мы используем логарифм шансов в качестве зависимой переменной. Проще говоря, он предсказывает вероятность возникновения события путем подгонки данных клогитфункция.

Помните, что в некоторых случаях зависимые переменные могут иметь более двух результатов, например, в браке / не замужем / в разводе, такие сценарии классифицируются какполиномиальная логистическая регрессия.Хотя они работают одинаково, чтобы предсказать результат.

Несколько знакомых примеров логистической регрессии:

Некоторые выдающиеся примеры, такие как:

Как работает логистическая регрессия?

Логистическая модель: сигмовидная функция

Давайте попробуем понять логистическую регрессию, понимая логистическую модель. Как и в случае линейной регрессии, давайте представим нашу гипотезу (Предсказание зависимой переменной) в классификации. В классификации наше представление гипотезы, которое пытается предсказать двоичный результат или o или 1, будет выглядеть так:

hθ (x) = g (θ T x) = 1/1 + e − θ T x,

Здесь g (z) = 1 / (1 + e ^ −z) называется lОгистическая функция или сигмовидная функция:

логистическая регрессия что это такое. Смотреть фото логистическая регрессия что это такое. Смотреть картинку логистическая регрессия что это такое. Картинка про логистическая регрессия что это такое. Фото логистическая регрессия что это такое

(г): представление логистической функции, которую мы также называем сигмовидной функцией. Из приведенного выше визуального представления сигмовидной функции мы можем легко понять, как эта кривая описывает многие реальные ситуации, такие как рост населения. На начальных этапах это показывает экспоненциальный рост, но через некоторое время, из-за конкуренции за определенные ресурсы (горлышко бутылки), скорость роста снижается, пока не достигнет тупиковой ситуации, и рост не будет

Вопрос здесь в том, как этологит(сигмоидальная функция) помогает нам определить вероятность классификации данных по различным классам. Давайте попробуем понять, как рассчитывается наша функция logit, что даст нам некоторую ясность

Математика за логистической функцией:

Шаг 1: Классификация входных данных должна быть в классе ноль или единица.

Во-первых, нам нужно вычислить вероятность того, что наблюдение принадлежит классу 1 (мы также можем назвать его положительным классом), используя функцию логистического отклика. В этом случае наш параметр z, как видно из приведенной ниже функции logit.

логистическая регрессия что это такое. Смотреть фото логистическая регрессия что это такое. Смотреть картинку логистическая регрессия что это такое. Картинка про логистическая регрессия что это такое. Фото логистическая регрессия что это такое

логистическая регрессия что это такое. Смотреть фото логистическая регрессия что это такое. Смотреть картинку логистическая регрессия что это такое. Картинка про логистическая регрессия что это такое. Фото логистическая регрессия что это такое

Log Odds (функция Logit):

Вышеприведенное объяснение также может быть понято с точки зрения логарифмических коэффициентов, что является своего рода пониманием вероятности классификации элементов на классы (1 или 0) с помощьюСТАВКИ:

логистическая регрессия что это такое. Смотреть фото логистическая регрессия что это такое. Смотреть картинку логистическая регрессия что это такое. Картинка про логистическая регрессия что это такое. Фото логистическая регрессия что это такое

логистическая регрессия что это такое. Смотреть фото логистическая регрессия что это такое. Смотреть картинку логистическая регрессия что это такое. Картинка про логистическая регрессия что это такое. Фото логистическая регрессия что это такое

Эти шансы, которые напоминают сходство с линейной регрессией, называютсялогит.

logit (P) = a + bX,

Шаг 2: Определение граничных значений для шансов

Теперь мы определим границу порога, чтобы четко классифицировать каждое заданное входное значение в один из классов.

Мы можем выбрать пороговое значение в соответствии с бизнес-проблемой, которую мы пытаемся решить, как правило, которая находится в районе 0,5 Таким образом, если ваши значения вероятности окажутся> 0,5, мы можем классифицировать такое наблюдение в тип класса 1, а остальные в класс 0.Выбор порогового значения обычно основывается на типах ошибок, которые бывают двух типов:ложные срабатывания и ложные отрицания.

Ложно-положительная ошибка возникает, когда модель прогнозирует класс 1, но наблюдение фактически принадлежит классу 0. Ложно-отрицательная ошибка допускается, когда модель прогнозирует класс 0, но наблюдение фактически принадлежит классу 1. Идеальная модель будет классифицировать все правильно классифицирует: все 1 (или истины) как 1, и все 0 (или ложь) как 0. Таким образом, мы имели бы FN = FP = 0.

логистическая регрессия что это такое. Смотреть фото логистическая регрессия что это такое. Смотреть картинку логистическая регрессия что это такое. Картинка про логистическая регрессия что это такое. Фото логистическая регрессия что это такое

Влияние пороговых значений:

1.Более высокое пороговое значение

Предположим, если P (y = 1)> 0,7. Модель является более строгой при классификации как 1, и, следовательно, будет сделано больше ошибок ложного отрицания.

2. Нижнее пороговое значение:

Предположим, если P (y = 1)> 0,3.

Модель теперь менее строгая, и мы классифицируем больше примеров как класс 1, поэтому мы делаем больше ошибок ложных срабатываний.

Путаница Матрица: путь к Choose Эффективное пороговое значение:

Матрица путаницы, также известная как матрица ошибок, является предиктором производительности модели для задачи классификации. Количество правильных и неправильных прогнозов суммируется со значениями количества и разбивается по каждому классу. Это лежит в основе путаницы.

Матрица путаницы показывает, каким образом ваша модель классификации находится в замешательстве, когда она делает прогнозы для наблюдений, она помогает нам измерить тип ошибки, которую делает наша модель, при классификации наблюдения по различным классам.

логистическая регрессия что это такое. Смотреть фото логистическая регрессия что это такое. Смотреть картинку логистическая регрессия что это такое. Картинка про логистическая регрессия что это такое. Фото логистическая регрессия что это такое

Ключевые части матрицы путаницы:

Ключевые показатели обучения из матрицы путаницы:

Матрица путаницы помогает нам изучать следующие метрики, помогая нам измерять производительность логистической модели.

Точность:

В целом, как часто верен классификатор?

Точность = (TP + TN) / общее количество засекреченных предметов = (TP + TN) / (TP + TN + FP + FN)

Точность:

Когда это предсказывает да, как часто это правильно?

Точность обычно используется, когда целью являетсяограничить количество ложных срабатываний(ФП). Например, с помощью алгоритма фильтрации спама, где наша цель состоит в том, чтобы свести к минимуму количество реальных электронных писем, которые классифицируются как спам

Точность = TP / (TP + FP)

Отзыв:

Когда это на самом деле положительный результат, как часто он предсказывает правильно?

Напомним = TP / (TP + FN), также известный как чувствительность.

f1-счет:

Это просто гармоническое среднее точности и напоминания:

f1-оценка = 2 * ((точность * отзыв) / (точность + отзыв))

Поэтому, когда вам нужно принять во внимание как точность, так и вспомнить, этот показатель f1 является полезным показателем для измерения. Если вы попытаетесь оптимизировать только отзыв, ваш алгоритм будет предсказывать, что большинство примеров будет принадлежать положительному классу, но это приведет к множеству ложных срабатываний и, следовательно, к низкой точности. Кроме того, если вы попытаетесь оптимизировать точность, ваша модель будет предсказывать очень мало примеров как положительные результаты (те, которые имеют наибольшую вероятность), но отзыв будет очень низким. Так что может быть полезно сбалансировать и рассмотреть оба варианта и увидеть результат.

Площадь AUC под кривой:

логистическая регрессия что это такое. Смотреть фото логистическая регрессия что это такое. Смотреть картинку логистическая регрессия что это такое. Картинка про логистическая регрессия что это такое. Фото логистическая регрессия что это такое

Специфичность или истинный отрицательный показатель= TN / (TN + FP)

Чувствительность или истинно положительный показатель= TP / (TP + FN)

ТакFPR, ложноположительный показатель = 1 – специфичность

Интуиция за кривой ROC:

Эта модель, которая предсказывает случайно, будет иметь ROC-кривую, которая выглядит как диагональная зеленая линия (как показано выше на рисунке). Это не дискриминационная модель. Чем дальше кривая от диагональной линии, тем лучше модель различает положительные и отрицательные значения в целом.

Типы логистической регрессии:

Поскольку мы поняли некоторые важные оговорки, связанные с логистической регрессией, пришло время взять некоторое практическое понимание на простом примере:

Реализация логистической регрессии:

Мы собираемся охватить это упражнение по созданию модели в следующие шаги:

Основная цель: прогнозировать диабет с использованием классификатора логистической регрессии.

1. Загрузка данных:

Мы будем использоватьНабор данных индийского диабета Pima, полученный из kaggle, Пожалуйста, загрузите данные из следующихссылка:

Напишите / скопируйте приведенный ниже код и запустите его в своем блокноте Juypter (убедитесь, что вы установилианаконда дистрибуцияв вашей системе), когда вы запустите этот фрагмент кода, вы увидите вывод, как показано на рис. 1.0

логистическая регрессия что это такое. Смотреть фото логистическая регрессия что это такое. Смотреть картинку логистическая регрессия что это такое. Картинка про логистическая регрессия что это такое. Фото логистическая регрессия что это такое

Исследовательский анализ данных:

Давайте изучим данный набор данных, чтобы найти

Анализ нечисловых и нулевых значений:

Напишите следующий фрагмент кода и скомпилируйте его:

Выход:

Вы обнаружите, что нет нечисловых атрибутов, так как возвращаемый массив имеет пустые значения индекса для каждого столбца.

логистическая регрессия что это такое. Смотреть фото логистическая регрессия что это такое. Смотреть картинку логистическая регрессия что это такое. Картинка про логистическая регрессия что это такое. Фото логистическая регрессия что это такое

Описательный анализ:

Давайте проведем некоторый описательный анализ, чтобы найти

Мы можем проанализировать каждый столбец с помощью пандописывают ()метод, чтобы получить статистическую сводку всех атрибутов. Этот анализ помогает нам определить, какой столбец сильно искажен, как выглядят хвосты, каковы средние, срединные и квартильные значения каждого столбца.

Запишите / скопируйте следующий код в свой блокнот и скомпилируйте его:

логистическая регрессия что это такое. Смотреть фото логистическая регрессия что это такое. Смотреть картинку логистическая регрессия что это такое. Картинка про логистическая регрессия что это такое. Фото логистическая регрессия что это такое

Быстрое наблюдение:

Давайте разберемся подробнее со всеми атрибутами dataframe, используя визуализацию парных участков.

Анализ парных участков.

логистическая регрессия что это такое. Смотреть фото логистическая регрессия что это такое. Смотреть картинку логистическая регрессия что это такое. Картинка про логистическая регрессия что это такое. Фото логистическая регрессия что это такое

логистическая регрессия что это такое. Смотреть фото логистическая регрессия что это такое. Смотреть картинку логистическая регрессия что это такое. Картинка про логистическая регрессия что это такое. Фото логистическая регрессия что это такое

Давайте посмотрим на целевой столбец ‘учебный классЧтобы понять, как данные распределяются между различными значениями.

логистическая регрессия что это такое. Смотреть фото логистическая регрессия что это такое. Смотреть картинку логистическая регрессия что это такое. Картинка про логистическая регрессия что это такое. Фото логистическая регрессия что это такое

Ключевые идеи:

Логистическая модель с использованием SkLearn & Python:

Импортные пакеты Sklearn:

ИмпортироватьЛогистическая регрессиямодель и другие необходимые пакеты, отsklearnпакет Python, как показано ниже:

Разделить данные на данные обучения и испытаний:

Давайте построим нашу модель:

Давайте посмотрим, как наша модель маркирует данные X_train, чтобы сделать классификацию:

логистическая регрессия что это такое. Смотреть фото логистическая регрессия что это такое. Смотреть картинку логистическая регрессия что это такое. Картинка про логистическая регрессия что это такое. Фото логистическая регрессия что это такое

Вы можете видеть, что с помощью функции model.predict (X_test) наша модель классифицировала каждый атрибут столбца (X-train) как 0/1 как прогноз

Время, чтобы измерить, как модель выступила (забил)

Перед этим давайте выясним значения коэффициентов плоскости (поверхности), которую наша модель нашла в качестве поверхности наилучшего соответствия, используя приведенный ниже код:

Который, получить в нашей функции сигмовидной

сигмоид, g (z) = 1 / (1 + e ^ −z).

логистическая регрессия что это такое. Смотреть фото логистическая регрессия что это такое. Смотреть картинку логистическая регрессия что это такое. Картинка про логистическая регрессия что это такое. Фото логистическая регрессия что это такое

Оценка модели:

Давайте посмотрим, как наша модель наилучшего соответствия сравнивается с нетренированными тестовыми данными, используя основную логистическую функцию (сигмовидная функция) мы обсуждали выше.

логистическая регрессия что это такое. Смотреть фото логистическая регрессия что это такое. Смотреть картинку логистическая регрессия что это такое. Картинка про логистическая регрессия что это такое. Фото логистическая регрессия что это такое

Показатель модели составляет 0,774, что в пересчете на процент составляет 77,4%. Это не на высоте. Кроме того, здесь необходимо указать, что ранее мы обсуждали, как диабетический класс был недостаточно представлен по сравнению с недиабетическим классом с точки зрения выборочных данных, поэтому мы должны редко полагаться на эту модель и проводить дальнейшие измерения с использованием метрик уровня класса матриц смешения. (Напомним, точность и т. Д.)

Давайте измерим производительность модели с помощью Confusion Metrics:

логистическая регрессия что это такое. Смотреть фото логистическая регрессия что это такое. Смотреть картинку логистическая регрессия что это такое. Картинка про логистическая регрессия что это такое. Фото логистическая регрессия что это такое

Наблюдение:

Давайте вычислим значение отзыва: показатель уровня класса для измерения производительности модели:

Отзыв:

Отзыв(Для недиабетических) = TP / (TP + FN)

Напомним = 132 / (132 + 14) = 132/146 = 0,90 = 90%

Отзыв(Для диабетиков) = TP / (TP + FN)

Напомним (для диабетиков) = 47/85 = 0,55 = 55%,

Эта модель работает плохо в случае диабетика, что вполне заметно из-за отсутствия доступных образцов данных для диабетического класса для моделирования, как мы обсуждали ранее.

Точность:

что является низким, особенно учитывая природу проблемы (здесь отрасль здравоохранения), которую мы пытаемся решить, где ожидается точность более 95%.

Что дальше?

Закрытие:

Хотелось бы закончить эту часть «Логистической регрессией» пищей для размышлений

Никогда не доверяйте тому, что вы знаете, вместо того, чтобы задавать вопросы и найти ответ для себя.

Источник

Логистическая регрессия для машинного обучения

Дата публикации 2016-04-01

Логистическая регрессия является еще одной техникой, заимствованной машинным обучением из области статистики.

Это метод перехода к задачам бинарной классификации (задачи с двумя значениями классов). В этом посте вы познакомитесь с алгоритмом логистической регрессии для машинного обучения.

Прочитав этот пост, вы узнаете:

Этот пост был написан для разработчиков, интересующихся прикладным машинным обучением, в частности прогнозным моделированием. Вам не нужно иметь опыт работы в линейной алгебре или статистике.

логистическая регрессия что это такое. Смотреть фото логистическая регрессия что это такое. Смотреть картинку логистическая регрессия что это такое. Картинка про логистическая регрессия что это такое. Фото логистическая регрессия что это такое

Логистическая функция

Логистическая регрессия названа для функции, используемой в основе метода, логистической функции.

логистическая функцияСтатистиками также была разработана функция сигмоидальной функции, которая также описывала свойства роста популяции в экологии, которая быстро возрастала и максимально увеличивала пропускную способность окружающей среды. Это S-образная кривая, которая может принимать любое действительное число и отображать его в значение от 0 до 1, но никогда точно не в этих пределах.

логистическая регрессия что это такое. Смотреть фото логистическая регрессия что это такое. Смотреть картинку логистическая регрессия что это такое. Картинка про логистическая регрессия что это такое. Фото логистическая регрессия что это такое

Теперь, когда мы знаем, что такое логистическая функция, давайте посмотрим, как она используется в логистической регрессии.

Представление, используемое для логистической регрессии

Логистическая регрессия использует уравнение в качестве представления, очень похожего на линейную регрессию.

Входные значения (x) объединяются линейно с использованием весов или значений коэффициентов (называемых бета-заглавной греческой буквой) для прогнозирования выходного значения (y). Ключевым отличием от линейной регрессии является то, что моделируемое выходное значение представляет собой двоичные значения (0 или 1), а не числовое значение.

Ниже приведен пример уравнения логистической регрессии:

у = е ^ (b0 + b1 * x) / (1 + е ^ (b0 + b1 * x))

Фактическим представлением модели, которую вы бы сохранили в памяти или в файле, являются коэффициенты в уравнении (бета-значение или b).

Получите БЕСПЛАТНУЮ карту алгоритмов Mind

логистическая регрессия что это такое. Смотреть фото логистическая регрессия что это такое. Смотреть картинку логистическая регрессия что это такое. Картинка про логистическая регрессия что это такое. Фото логистическая регрессия что это такое

Я создал удобную карту разума из 60+ алгоритмов, организованных по типу.

Загрузите его, распечатайте и используйте.

Также получите эксклюзивный доступ к алгоритмам машинного обучения по электронной почте мини-курса.

Логистическая регрессия предсказывает вероятности (техническая интерлюдия)

Логистическая регрессия моделирует вероятность класса по умолчанию (например, первого класса).

Например, если мы моделируем пол людей как мужской или женский с их роста, то первым классом может быть мужчина, а модель логистической регрессии может быть записана как вероятность мужчины с учетом роста человека, или более формально:

P (пол = мужской | высота)

Другими словами, мы моделируем вероятность того, что вход (X) принадлежит классу по умолчанию (Y = 1), мы можем записать это формально как:

Мы предсказываем вероятности? Я думал, что логистическая регрессия была алгоритмом классификации?

Обратите внимание, что прогноз вероятности должен быть преобразован в двоичные значения (0 или 1), чтобы фактически сделать прогноз вероятности. Подробнее об этом позже, когда мы поговорим о прогнозировании.

Логистическая регрессия является линейным методом, но прогнозы преобразуются с использованием логистической функции. Результатом этого является то, что мы больше не можем понимать прогнозы как линейную комбинацию входных данных, как мы можем с линейной регрессией, например, продолжая сверху, модель может быть сформулирована как:

p (X) = e ^ (b0 + b1 * X) / (1 + e ^ (b0 + b1 * X))

Я не хочу слишком углубляться в математику, но мы можем перевернуть вышеприведенное уравнение следующим образом (помните, что мы можем убрать e с одной стороны, добавив натуральный логарифм (ln) к другой):

Это полезно, потому что мы можем видеть, что вычисление выходных данных справа снова линейно (точно так же как линейная регрессия), а входное значение слева представляет собой логарифм вероятности класса по умолчанию

Это соотношение слева называется коэффициентами класса по умолчанию (исторически сложилось, что мы используем коэффициенты, например, коэффициенты используются в скачках, а не вероятностях). Коэффициенты рассчитываются как отношение вероятности события, деленное на вероятность не события, например 0,8 / (1-0,8) с коэффициентом 4. Поэтому мы могли бы написать:

ln (коэффициент) = b0 + b1 * X

Поскольку шансы лог-трансформированы, мы называем эту левую часть лог-шансы или пробит. Для преобразования можно использовать другие типы функций (которые выходят за пределы области действия_, но в качестве таковых обычно называют преобразование, которое связывает уравнение линейной регрессии с вероятностями, как функцию связи, например, функцию связи пробита.

Мы можем переместить показатель степени вправо и записать его как:

шансы = е ^ (b0 + b1 * X)

Все это помогает нам понять, что в действительности модель по-прежнему является линейной комбинацией входных данных, но эта линейная комбинация относится к лог-коэффициентам класса по умолчанию.

Изучение модели логистической регрессии

Коэффициенты (бета-значения b) алгоритма логистической регрессии должны оцениваться на основе ваших тренировочных данных. Это делается с использованием оценки максимального правдоподобия.

Оценка максимального правдоподобияЭто распространенный алгоритм обучения, используемый различными алгоритмами машинного обучения, хотя он и делает предположения о распределении ваших данных (подробнее об этом, когда мы поговорим о подготовке ваших данных).

Лучшие коэффициенты привели бы к модели, которая предсказывала бы значение, очень близкое к 1 (например, мужской) для класса по умолчанию, и значение, очень близкое к 0 (например, женский) для другого класса. Интуиция для максимального правдоподобия для логистической регрессии состоит в том, что процедура поиска ищет значения для коэффициентов (бета-значений), которые сводят к минимуму ошибку в вероятностях, прогнозируемых моделью, к значениям в данных (например, вероятность 1, если данные являются первичными учебный класс).

Мы не собираемся вдаваться в математику с максимальной вероятностью. Достаточно сказать, что алгоритм минимизации используется для оптимизации наилучших значений коэффициентов для ваших тренировочных данных. Это часто реализуется на практике с использованием эффективного алгоритма численной оптимизации (например,Квазиньютоновский метод).

Когда вы изучаете логистику, вы можете реализовать ее самостоятельно с нуля, используя гораздо более простой алгоритм градиентного спуска.

логистическая регрессия что это такое. Смотреть фото логистическая регрессия что это такое. Смотреть картинку логистическая регрессия что это такое. Картинка про логистическая регрессия что это такое. Фото логистическая регрессия что это такое

Прогнозирование с логистической регрессией

Прогнозирование с помощью модели логистической регрессии так же просто, как включение чисел в уравнение логистической регрессии и вычисление результата.

Давайте сделаем это на конкретном примере.

Допустим, у нас есть модель, которая может предсказать, является ли человек мужчиной или женщиной в зависимости от его роста (полностью вымышленный). Учитывая рост 150см, это лицо мужского или женского пола.

y = e ^ (b0 + b1 * X) / (1 + e ^ (b0 + b1 * X))

y = exp (-100 + 0,6 * 150) / (1 + EXP (-100 + 0,6 * X))

Или вероятность, близкая к нулю, что человек является мужчиной.

На практике мы можем использовать вероятности напрямую. Поскольку это классификация, и мы хотим получить четкий ответ, мы можем привязать вероятности к значению двоичного класса, например:

0, если p (мужчина) & lt; 0,5

1, если р (мужской) = 0,5

Теперь, когда мы знаем, как делать прогнозы, используя логистическую регрессию, давайте посмотрим, как мы можем подготовить наши данные, чтобы получить максимальную отдачу от этой техники.

Подготовить данные для логистической регрессии

Предположения, сделанные логистической регрессией о распределении и взаимосвязях в ваших данных, во многом совпадают с предположениями, сделанными в линейной регрессии.

В конечном счете, в проектах машинного обучения с прогностическим моделированием вы сосредоточены на точном прогнозировании, а не на интерпретации результатов. Таким образом, вы можете нарушить некоторые предположения, если модель устойчива и работает хорошо.

Дальнейшее чтение

По логистической регрессии доступно много материалов. Это любимый в мае дисциплины, такие как науки о жизни и экономики.

Ресурсы логистической регрессии

Ознакомьтесь с некоторыми из приведенных ниже книг для получения более подробной информации об алгоритме логистической регрессии.

Логистическая регрессия в машинном обучении

Чтобы сосредоточиться на машинном обучении (например, только на том, чтобы делать точные прогнозы), взгляните на охват логистической регрессии в некоторых популярных текстах машинного обучения ниже:

Если бы я выбрал один, я бы указал наВведение в статистическое обучение, Это отличная книга со всех сторон.

Резюме

В этом посте вы обнаружили алгоритм логистической регрессии для машинного обучения и прогнозного моделирования. Вы много прошли и узнали:

У вас есть вопросы о логистической регрессии или об этом посте?
Оставьте комментарий и спросите, я сделаю все возможное, чтобы ответить.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *