Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Логистическая регрессия





 

При изучении линейной регрессии мы исследуем модели вида:

 

Y =a + b1*x1 + b2*x2 + …+bq * xq + e.

 

Здесь зависимая переменная Y является непрерывной, и мы определяем набор независимых переменных xi и коэффициенты при них bi, которые позволили бы нам предсказывать среднее значение Y с учетом наблюдаемой ее изменчивости.

Во многих ситуациях, однако, Y не является непрерывной величиной, а принимает всего два возможных значения. Обычно единицей в этом случае представляеют осуществления какого-либо события (успех), а нулем - отсутствие его реализации (неуспех).

Среднее значение Y - обозначенное через p, есть доля случаев, в которых Y принимает значение 1. Математически это можно записать как:

p = P(Y=1) или,

p = P("Успех")

В этом случае нам хотелось бы уметь оценивать величину p и определять факторы (независимые переменные xi (непрерывные), которые влияют на переменную Y.

 

Вероятно, первой попыткой было бы опробование модели вида

p = a + b1 * x1. (2)

 

(Мы для простоты рассматриваем уравнение для одной независимой переменной).

В принципе это та же стандартная линейная регрессионная модель в которой Y - зависимая непрерывная переменная заменена на вероятность p. Однако, исследование такой модели показывает ее непригодность, поскольку p - вероятность и ее значения ограничиваются интервалом (0,1), а правая часть уравнения, напротив, может иметь значения, лежащие вне указанного выше интервала.

Можно попробовать применить модель вида

 

p = e a + b1 * x1

 

Это уравнение гарантирует, что оценки для p будут положительными. Однако, изучая модель, мы бы скоро осознали, что и эта модель не пригодна. В самом деле, правая часть уравнения может давать значения большие единицы.

 

Для устранения этого ограничения нам нужно применить модель вида

 

P = e a + b1 * x1 /(1 + e a + b1 * x1)

 

Выражение, стоящее справа от знака равенства, называется логистической функцией. Она не может принимать как отрицательные значения, так и значения большие единицы, и, следовательно, ограничивает оценки для p требуемым интервалом.

Несложные математические преобразования позволяют от уравнения перейти к уравнению:

 

ln[ p / (1 - p)] = a + b1 * x1

 

По определению величина p / (1 - p) представляет собой "шансы успеха". По этой причине моделирование p с помощью логистической функции эквивалентно использованию линейной регрессионной модели, в которой непрерывная переменная Y заменена логарифмом от "шансов успеха", то есть мы полагаем, что зависимость между ln[ p / (1 - p)] и x1 линейная.

Для оценки статистической значимости всего уравнения в целом, с помощью метода правдоподобия вычисляется статистика χ2.

 








Дата добавления: 2015-04-16; просмотров: 370. Нарушение авторских прав; Мы поможем в написании вашей работы!




Расчетные и графические задания Равновесный объем - это объем, определяемый равенством спроса и предложения...


Кардиналистский и ординалистский подходы Кардиналистский (количественный подход) к анализу полезности основан на представлении о возможности измерения различных благ в условных единицах полезности...


Обзор компонентов Multisim Компоненты – это основа любой схемы, это все элементы, из которых она состоит. Multisim оперирует с двумя категориями...


Композиция из абстрактных геометрических фигур Данная композиция состоит из линий, штриховки, абстрактных геометрических форм...

Метод архитекторов Этот метод является наиболее часто используемым и может применяться в трех модификациях: способ с двумя точками схода, способ с одной точкой схода, способ вертикальной плоскости и опущенного плана...

Примеры задач для самостоятельного решения. 1.Спрос и предложение на обеды в студенческой столовой описываются уравнениями: QD = 2400 – 100P; QS = 1000 + 250P   1.Спрос и предложение на обеды в студенческой столовой описываются уравнениями: QD = 2400 – 100P; QS = 1000 + 250P...

Дизартрии у детей Выделение клинических форм дизартрии у детей является в большой степени условным, так как у них крайне редко бывают локальные поражения мозга, с которыми связаны четко определенные синдромы двигательных нарушений...

ТЕОРИЯ ЗАЩИТНЫХ МЕХАНИЗМОВ ЛИЧНОСТИ В современной психологической литературе встречаются различные термины, касающиеся феноменов защиты...

Этические проблемы проведения экспериментов на человеке и животных В настоящее время четко определены новые подходы и требования к биомедицинским исследованиям...

Классификация потерь населения в очагах поражения в военное время Ядерное, химическое и бактериологическое (биологическое) оружие является оружием массового поражения...

Studopedia.info - Студопедия - 2014-2025 год . (0.013 сек.) русская версия | украинская версия