Регресійний аналіз
Регресійний аналіз полягає в прогнозуванні однієї змінної на підставі іншої. Лінійний регресійний аналіз прогнозує значення однієї змінної на підставі іншої за допомогою прямої лінії. Нахил цієї лінії, виражається в одиницях вимірювання у на одну одиницю х і характеризує крутизну підйому або спуску (якщо b негативне) лінії. Зрушення, а, дорівнює значенню, яке приймає у при х, рівному 0. Лінія найменших квадратів характеризується найменшою зі всіх можливих ліній сумою зведених у квадрат помилок прогнозування по вертикалі й використовується як краща лінія прогнозування, заснована на даних. Нахил цієї лінії, b, називають також коефіцієнтом регресії у по х, а зрушення а (відрізок, що відсікається на осі у) називають також постійним членом регресії.
Прогнозоване значення для у при заданому значенні х визначається шляхом підстановки цього значення х в рівняння для лінії найменших квадратів. Кожна з точок даних характеризується залишком – помилкою прогнозування, яка вказує, наскільки вище або нижче за лінію знаходиться крапка. Існують дві міри відповідності лінії найменших квадратів наявним даним. Стандартна помилка оцінки,яку позначають Для обчислення:
Для інтерпретації:
Значення Довірчі інтервали й перевірка гіпотез для коефіцієнта регресії пов'язані з певними припущеннями щодо аналізованої сукупності даних, які повинні гарантувати, що вона складається з незалежних спостережень, що характеризуються лінійним взаємозв'язком із рівною варіацією та приблизно нормально розподіленою випадковістю. По-перше, ці дані повинні представляти собою довільну вибірку з тієї, що цікавить нас генеральній сукупності. По-друге, лінійна модель указує, що спостережуване значення у визначається взаємозв'язком у генеральній сукупності плюс випадкова помилка, що має нормальний розподіл. Існують параметри генеральної сукупності, що відповідають нахилу та зрушенню лінії найменших квадратів, побудованої на даних вибірки:
де
Статистичні висновки (використання довірчих інтервалів і перевірки статистичних гіпотез) щодо коефіцієнтів лінії найменших квадратів ґрунтуються, як завжди, на їх стандартних помилках і значеннях із Стандартна помилка коефіцієнта нахилу,
Стандартна помилка зрушення,
Довірчий інтервал для нахилу в генеральній сукупності β:
Довірчий інтервал для зрушення в генеральній сукупності α;:
Один із способів перевірки, чи є виявлений взаємозв'язок між х і у реальним або це просто випадковий збіг, полягає в порівнянні β з заданим значенням β0 = 0. Про значущий зв'язок можна говорити в тому випадку, якщо 0 не потрапляє в довірчий інтервал, що базується на b і Sb, або якщо абсолютне значення t = b/ Sb перевершує відповідне t- значенняв t- таблиці. Ця перевірка еквівалентна перевірці значущості коефіцієнта кореляції й означає, по суті, те ж саме, що і F- тестдля випадку, коли рівняння містить тільки одну змінну х. Зрозуміло, будь-який із коефіцієнтів (а або b ) можна порівняти з будь-яким відповідним заданим значенням, скориставшись одно - або двосторонньою перевіркою (залежно від конкретних обставин) і з використанням тих же методів перевірки, що були розглянуті для середнього генеральній сукупності. Для прогнозування середнього значення нового спостереження у за умови, що х = х0, невизначеність прогнозу оцінюють за допомогою стандартної помилки
Довірчий інтервал для прогнозованого (середнього) значення у при заданому значенні х0 має наступний вигляд: від
|