Логистическая регрессия
При изучении линейной регрессии мы исследуем модели вида:
Y =a + b1*x1 + b2*x2 + …+bq * xq + e.
Здесь зависимая переменная Y является непрерывной, и мы определяем набор независимых переменных xi и коэффициенты при них bi, которые позволили бы нам предсказывать среднее значение Y с учетом наблюдаемой ее изменчивости. Во многих ситуациях, однако, Y не является непрерывной величиной, а принимает всего два возможных значения. Обычно единицей в этом случае представляеют осуществления какого-либо события (успех), а нулем - отсутствие его реализации (неуспех). Среднее значение Y - обозначенное через p, есть доля случаев, в которых Y принимает значение 1. Математически это можно записать как: p = P(Y=1) или, p = P("Успех") В этом случае нам хотелось бы уметь оценивать величину p и определять факторы (независимые переменные xi (непрерывные), которые влияют на переменную Y.
Вероятно, первой попыткой было бы опробование модели вида p = a + b1 * x1. (2)
(Мы для простоты рассматриваем уравнение для одной независимой переменной). В принципе это та же стандартная линейная регрессионная модель в которой Y - зависимая непрерывная переменная заменена на вероятность p. Однако, исследование такой модели показывает ее непригодность, поскольку p - вероятность и ее значения ограничиваются интервалом (0,1), а правая часть уравнения, напротив, может иметь значения, лежащие вне указанного выше интервала. Можно попробовать применить модель вида
p = e a + b1 * x1
Это уравнение гарантирует, что оценки для p будут положительными. Однако, изучая модель, мы бы скоро осознали, что и эта модель не пригодна. В самом деле, правая часть уравнения может давать значения большие единицы.
Для устранения этого ограничения нам нужно применить модель вида
P = e a + b1 * x1 /(1 + e a + b1 * x1)
Выражение, стоящее справа от знака равенства, называется логистической функцией. Она не может принимать как отрицательные значения, так и значения большие единицы, и, следовательно, ограничивает оценки для p требуемым интервалом. Несложные математические преобразования позволяют от уравнения перейти к уравнению:
ln[ p / (1 - p)] = a + b1 * x1
По определению величина p / (1 - p) представляет собой "шансы успеха". По этой причине моделирование p с помощью логистической функции эквивалентно использованию линейной регрессионной модели, в которой непрерывная переменная Y заменена логарифмом от "шансов успеха", то есть мы полагаем, что зависимость между ln[ p / (1 - p)] и x1 линейная. Для оценки статистической значимости всего уравнения в целом, с помощью метода правдоподобия вычисляется статистика χ2.
|