Студопедия — Линейная регрессия
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Линейная регрессия






Проблема. В настоящий момент имеет место всё более широкое использование бронхологических методик в пульмонологии, в т.ч. и в группе соматически тяжёлых больных с выраженной бронхообструкцией и тяжёлой дыхательной недостаточностью. Небольшое количество работ посвящено оценке изменений сатурации кислорода SaO2 (насыщение крови кислородом, выраженное в %) под влиянием проведения фибробронхоскопии, причём это касается, прежде всего, постбронхоскопического периода. Во всех случаях отмечалось снижение резервов оксигенации после бронхологического вмешательства. Вместе с тем изучению динамики SaO2 непосредственно во время проведения бронхологического вмешательства почти не уделяется внимания. В ходе проведённых исследований выявлено, что зависимость SaО2 (y) от времени проведения ФБС (τ) определяется в виде суммы двух функций: y(τ) = y1(τ) + y2(τ). Функция y1(τ) отражает линейную составляющую и функция y2(τ) - периодическую составляющую. Предметом настоящего рассмотрения стала линейная составляющая функциональной зависимости SaО2 от времени проведения ФБС.

 

Вернемся к графику, который показывает зависимость между ростом и весом (рисунок 24). Мы уже оговорили, что между этими величинами существует связь и эта связь линейная. А теперь попытаемся вывести некоторую функцию (математическое правило), которая позволяла бы определять, хотя бы приблизительно, изменение веса при изменении роста.

Регрессия – это функция, связывающая зависимую величину y с независимой величиной x. Она показывает, как в среднем изменяется y при изменениях x. Из математики нам известны различные функции: линейная, квадратичная, экспоненциальная, тригонометрические и т.д. Простейшей функцией является линейная, график этой функции изображен на рисунке 26. Уравнение линейной регрессии имеет вид

 

где – зависимая переменная, x – независимая переменная, b0 и b1 – постоянные коэффициенты

Основная задача регрессионного анализа найти постоянные коэффициенты b0 и b1 и оценить их статистическую значимость. Дело в том, что через точки на диаграмме рассеяния можно провести сколь угодно много прямых линий (вывести множество функций), все они будут отличаться друг от друга коэффициентами b0 и b1. Необходимо выбрать из них такую, которая наилучшим образом описывает связь между y и x. Одним из способов сделать это - применить метод наименьших квадратов (МНК).

Как уже отмечалось, уравнение регрессии показывает, как в среднем меняется y, т.е. конкретные его значения, полученные в опыте, и рассчитанные по уравнению могут не совпадать – есть некоторая ошибка. Из рисунка 27 видно, что для одних значений y эта ошибка меньше, для других – больше.

 


Рисунок 27

 

Суть МНК в том, чтобы вывести такое уравнение регрессии, для которого сумма квадратов всех ошибок была бы наименьшей. После некоторых математических выкладок, которые мы здесь приводить не будем, можно получить, что такое уравнение имеет следующие коэффициенты b1 и b0.

 

 

Уравнение регрессии фактически является математической моделью взаимосвязи двух случайных величин. Качество этой модели, т.е. насколько хорошо она отражает эту связь, можно оценить с помощью коэффициента детерминации R2, который равен квадрату коэффициента корреляции между величинами (×100 %). Он показывает, сколько процентов исходных (выборочных) данных вписывается в полученную модель, или какой процент изменчивости y объясняется влиянием x.

 

При проведении фибробронхоскопии были получены следующие данные по динамике SaO2  
Время, сек                    
SaО2, %                    

 

Для получения уравнения регрессии проведены расчеты

 

i xi yi ()() ()2
      -135   -945      
      -105   -315      
      -75   -375      
      -45   -45      
      -15   -45      
        -1 -15      
                 
        -4 -300      
        -6 -630      
        -9 -1215      
  165 79     ∑=-3840 ∑=74250    
          b1 = -0,05 b0 = 87,5    

 

Окончательно уравнение регрессии имеет вид

 

SaО2 = -0,05τ+87,5

 

Интерпретация: линейная компонента зависимости SaO2 от времени проведения ФБС (τ) отражает, по нашим представлениям, как бы результирующий вектор кислородоустойчивости организма. При отсутствии кислородной подачи во время проведения ФБС непосредственный гипоксический эффект, сопровождающий введение в трахеобронхиальное дерево фибробронхоскопа (крупного инородного тела, частично обтурирующего просвет), явно превалирует над более отдалённым положительным эффектом эвакуации бронхиального секрета. Поэтому линейная компонента здесь будет иметь чётко убывающий характер.

График функции

 

 

Поскольку уравнение регрессии находится по выборочным данным, обязательным является процедура проверки на статистическую значимость коэффициентов b1 и b0 и самой модели, которая осуществляется с использованием критериев Стъюдента и Фишера. В таблицах приведено решение этой задачи в ППП STATISTICA

 

r = 0,93 R2 =0,87 F (1,8)=54,028 p =0,000
  значение коэффициента станд. ошибка коэффициента t-Стъюдента p-уровень
b0 87,5 1,31 66,8 0,000
b1 -0,05 0,007 -7,3 0,000

 

Из нее видно, что между анализируемыми величинами существует сильная прямая связь (r = 0,93), коэффициенты уравнения регрессии статистически значимы (по критерию Стъюдента), само уравнение регрессии также статистически значимо (по критерию Фишера), оно объясняет до 87% вариации SaO2 (R2 =0,87).

 

Уравнение регрессии, как правило, используются для прогноза, т.е. по нему, зная величину x,можно вычислить возможное значение y. При этом вы должны быть уверены, что общая тенденция развития явления сохранится за пределами наблюдений. В противном случае прогноз можно осуществлять только в пределах наблюдаемых значений x.

Предположим мы прогнозируем некоторое значение у при заданном х=х0. Тогда доверительный интервал для прогноза составляет

 

 

где – среднеквадратичное отклонение у вследствие ошибок модели, t -критерий Стъюдента для заданного α; и f=n-2

 

Решим задачу прогноза сатурации кислорода SaO2 через 200 сек после начала ФБС.

SaО2 = -0,05τ+87,5=-0,05×200+87,5=77,5 %

Для расчета доверительного интервала дополним таблицу

 

i xi yi ()2
             
        84,5 -2,5 6,25
             
        81,5 -1,5 2,25
             
        78,5 -0,5 0,25
             
        75,5 -0,5 0,25
          -1  
        72,5 -2,5 6,25
  165 79 ∑=74250     Σ=30,25

 

Тогда

 

Таким образом, на 200 сек. фибробронхоскопии сатурация кислорода составит от 76 до 79%.

 

 

Если независимых переменных много x1, x2, x3, x4, т.д., то возможно построение уравнение множественной линейной регрессии

 

 

Например, САД зависит от возраста, ИМТ, рациона питания и т.д. (см. таблицу).

 

r = 0,6 R2 =0,36 F (4,433)=60,3 p =0,000
  Коэффициенты bi Ст. ошибка коэффициента t -Стъюдента p-уровень
признак    
свободн. член -16,5 11,12 -1,48 0,139
ЛПВП 2,5 2,20 1,16 0,247
Возр 0,3 0,12 2,47 0,014
Холест. 3,2 0,69 4,57 0,000
ИМТ 5,5 0,39 14,18 0,000

 

Уравнение регрессии имеет вид

 

 

В данном примере коэффициент множественной корреляции равен 0,6, т.е. модель объясняет до 36% вариаций систолического артериального давления. Она является статистически значимой (т.е. не случайной). Если судить по p- уровню, то САД зависит от возраста, содержания холестерина в крови и от индекса массы тела. Связь с уровнем липидов не подтверждается. В таблице ниже приведены частные коэффициенты корреляции отдельных признаков с САД, а также оценка их статистической значимости. Самая сильная связь наблюдается с индексом массы тела (r = 0,563), с возрастом и уровнем холестерина связь слабая, а с ЛПВП - статистически незначимая.

 

признак Частная корреляция t - Стъюдента p -уровень
ЛПВП 0,056 1,16 0,247
Возр 0,118 2,47 0,014
Холест 0,214 4,57 0,000
ИМТ 0,563 14,18 0,000

 

Перед использованием множественной регрессии проверьте соблюдение некоторых условий:

- зависимая величина является количественной непрерывной, а независимые - могут быть количественными или ординальными

- независимые величины не должны сильно коррелировать между собой, в этом случае нужно отобрать один наиболее значимый признак

- число наблюдений должно примерно в 10 раз превосходить число анализируемых признаков

Если взаимосвязь между величинами имеет более сложный характер, чем линейный, то возможны нелинейные модели, например такого вида

 

Для анализа таких моделей также существуют статистические методы, однако для их освоения требуются специальные математические знания. Описание этих методов можно найти в специальной литературе.


 







Дата добавления: 2015-06-15; просмотров: 456. Нарушение авторских прав; Мы поможем в написании вашей работы!



Шрифт зодчего Шрифт зодчего состоит из прописных (заглавных), строчных букв и цифр...

Картограммы и картодиаграммы Картограммы и картодиаграммы применяются для изображения географической характеристики изучаемых явлений...

Практические расчеты на срез и смятие При изучении темы обратите внимание на основные расчетные предпосылки и условности расчета...

Функция спроса населения на данный товар Функция спроса населения на данный товар: Qd=7-Р. Функция предложения: Qs= -5+2Р,где...

Экспертная оценка как метод психологического исследования Экспертная оценка – диагностический метод измерения, с помощью которого качественные особенности психических явлений получают свое числовое выражение в форме количественных оценок...

В теории государства и права выделяют два пути возникновения государства: восточный и западный Восточный путь возникновения государства представляет собой плавный переход, перерастание первобытного общества в государство...

Закон Гука при растяжении и сжатии   Напряжения и деформации при растяжении и сжатии связаны между собой зависимостью, которая называется законом Гука, по имени установившего этот закон английского физика Роберта Гука в 1678 году...

Примеры задач для самостоятельного решения. 1.Спрос и предложение на обеды в студенческой столовой описываются уравнениями: QD = 2400 – 100P; QS = 1000 + 250P   1.Спрос и предложение на обеды в студенческой столовой описываются уравнениями: QD = 2400 – 100P; QS = 1000 + 250P...

Дизартрии у детей Выделение клинических форм дизартрии у детей является в большой степени условным, так как у них крайне редко бывают локальные поражения мозга, с которыми связаны четко определенные синдромы двигательных нарушений...

Педагогическая структура процесса социализации Характеризуя социализацию как педагогический процессе, следует рассмотреть ее основные компоненты: цель, содержание, средства, функции субъекта и объекта...

Studopedia.info - Студопедия - 2014-2024 год . (0.011 сек.) русская версия | украинская версия