Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Логистическая регрессия





 

При изучении линейной регрессии мы исследуем модели вида:

 

Y =a + b1*x1 + b2*x2 + …+bq * xq + e.

 

Здесь зависимая переменная Y является непрерывной, и мы определяем набор независимых переменных xi и коэффициенты при них bi, которые позволили бы нам предсказывать среднее значение Y с учетом наблюдаемой ее изменчивости.

Во многих ситуациях, однако, Y не является непрерывной величиной, а принимает всего два возможных значения. Обычно единицей в этом случае представляеют осуществления какого-либо события (успех), а нулем - отсутствие его реализации (неуспех).

Среднее значение Y - обозначенное через p, есть доля случаев, в которых Y принимает значение 1. Математически это можно записать как:

p = P(Y=1) или,

p = P("Успех")

В этом случае нам хотелось бы уметь оценивать величину p и определять факторы (независимые переменные xi (непрерывные), которые влияют на переменную Y.

 

Вероятно, первой попыткой было бы опробование модели вида

p = a + b1 * x1. (2)

 

(Мы для простоты рассматриваем уравнение для одной независимой переменной).

В принципе это та же стандартная линейная регрессионная модель в которой Y - зависимая непрерывная переменная заменена на вероятность p. Однако, исследование такой модели показывает ее непригодность, поскольку p - вероятность и ее значения ограничиваются интервалом (0,1), а правая часть уравнения, напротив, может иметь значения, лежащие вне указанного выше интервала.

Можно попробовать применить модель вида

 

p = e a + b1 * x1

 

Это уравнение гарантирует, что оценки для p будут положительными. Однако, изучая модель, мы бы скоро осознали, что и эта модель не пригодна. В самом деле, правая часть уравнения может давать значения большие единицы.

 

Для устранения этого ограничения нам нужно применить модель вида

 

P = e a + b1 * x1 /(1 + e a + b1 * x1)

 

Выражение, стоящее справа от знака равенства, называется логистической функцией. Она не может принимать как отрицательные значения, так и значения большие единицы, и, следовательно, ограничивает оценки для p требуемым интервалом.

Несложные математические преобразования позволяют от уравнения перейти к уравнению:

 

ln[ p / (1 - p)] = a + b1 * x1

 

По определению величина p / (1 - p) представляет собой "шансы успеха". По этой причине моделирование p с помощью логистической функции эквивалентно использованию линейной регрессионной модели, в которой непрерывная переменная Y заменена логарифмом от "шансов успеха", то есть мы полагаем, что зависимость между ln[ p / (1 - p)] и x1 линейная.

Для оценки статистической значимости всего уравнения в целом, с помощью метода правдоподобия вычисляется статистика χ2.

 








Дата добавления: 2015-04-16; просмотров: 370. Нарушение авторских прав; Мы поможем в написании вашей работы!




Композиция из абстрактных геометрических фигур Данная композиция состоит из линий, штриховки, абстрактных геометрических форм...


Важнейшие способы обработки и анализа рядов динамики Не во всех случаях эмпирические данные рядов динамики позволяют определить тенденцию изменения явления во времени...


ТЕОРЕТИЧЕСКАЯ МЕХАНИКА Статика является частью теоретической механики, изучающей условия, при ко­торых тело находится под действием заданной системы сил...


Теория усилителей. Схема Основная масса современных аналоговых и аналого-цифровых электронных устройств выполняется на специализированных микросхемах...

Билет №7 (1 вопрос) Язык как средство общения и форма существования национальной культуры. Русский литературный язык как нормированная и обработанная форма общенародного языка Важнейшая функция языка - коммуникативная функция, т.е. функция общения Язык представлен в двух своих разновидностях...

Патристика и схоластика как этап в средневековой философии Основной задачей теологии является толкование Священного писания, доказательство существования Бога и формулировка догматов Церкви...

Основные симптомы при заболеваниях органов кровообращения При болезнях органов кровообращения больные могут предъявлять различные жалобы: боли в области сердца и за грудиной, одышка, сердцебиение, перебои в сердце, удушье, отеки, цианоз головная боль, увеличение печени, слабость...

Образование соседних чисел Фрагмент: Программная задача: показать образование числа 4 и числа 3 друг из друга...

Шрифт зодчего Шрифт зодчего состоит из прописных (заглавных), строчных букв и цифр...

Краткая психологическая характеристика возрастных периодов.Первый критический период развития ребенка — период новорожденности Психоаналитики говорят, что это первая травма, которую переживает ребенок, и она настолько сильна, что вся последую­щая жизнь проходит под знаком этой травмы...

Studopedia.info - Студопедия - 2014-2025 год . (0.012 сек.) русская версия | украинская версия