Точечные и интервальные оценки линейной модели
Цель работы: освоение методов оценки уравнения линейной регрессии, определения значимости её параметров и уравнения в целом и построения доверительных интервалов для параметров модели, для линии регрессии и для индивидуальных значений зависимой переменной. Исходные положения. Для осуществления надежного прогнозирования изменения производственно-экономических процессов необходимо с определить доверительные интервалы, в которые с заданной вероятностью попадают истинные значения анализируемой величины. Порядок проведения расчетов рассмотрим на следующей ситуации.
Таблица 3. Данные по среднедневной заработной плате уi, руб. и среднедушевому прожиточному минимуму в день одного трудоспособного х i, руб. Требуется: 1. Построить выборочное уравнение линейной парной регрессии (найти значения коэффициентов b 1, b 0). 2. Рассчитать значение выборочного коэффициента корреляции rxy, общую сумму квадратов Q, сумму квадратов, объясненную регрессией Qr, остаточную сумму квадратов Qе, несмещенные оценки соответствующих дисперсий S 2, S 2R, S 2e, средних квадратических отклонений S, S R, S e, выборочный коэффициент детерминации R 2 yx и стандартные отклонения коэффициентов регрессии Sb 1, Sb 0. 3. На уровне значимости α = 0, 05 оценить значимость коэффициентов и уравнения регрессии. Найти доверительные интервалы для значимых коэффициентов регрессии и значений уi . 4. Построить графики зависимостей уi, и от хi, а также доверительные интервалы для значений уi, и . 5. Проверить полученные результаты с помощью стандартных статистических функций ТЕНДЕНЦИЯ, ЛИНЕЙН и программы РЕГРЕССИЯ из пакета анализа Мiсrоsоft Ехсеl. Решение 1. Для определения параметров уравнения линейной регрессии строим расчетную таблицу (Рис. 1.4). 2. Строим выборочное уравнение регрессии. Находим выборочные средние: и, используя Мастер функций Мiсrоsоft Ехсеl, проверяем полученные значения с помощью стандартной функции СРЗНАЧ (-) из категории Статистические, подставляя в нее в качестве аргументов-столбцов векторы соответствующих переменных (например, x = (x 1 x 2 … x n)т, y = (y 1 y 2 … y n)т и т.д.).
Рис. 24. Исходные данные и доверительные интервалы
Находим значения выборочных дисперсий и средних квадратических отклонений и проверяем полученные значения с помощью стандартных статистических функций ДИСПР (-) и СТАНДОТКЛОНП (-) соответственно. Находим выборочный коэффициент ковариации и проверяем полученное значение с помощью стандартной статистической функции КОВАР (х; у) Рассчитываем значения выборочных коэффициентов регрессии и проверяем полученные значения с помощью стандартных статистических функций НАКЛОН (у; х) и ОТРЕЗОК (у; х) соответственно. Величина коэффициента b 1 показывает, что с увеличением прожиточного минимума на 1 руб. среднедневная заработная плата возрастает в среднем на 0, 92 руб. Параметр b 0 мы не интерпретируем, поскольку в выборке отсутствуют значения хi факторного признака, близкие к нулю. 3. Рассчитываем значение выборочного коэффициента корреляции по формуле и проверяем полученное значение с помощью стандартной статистической функции КОРРЕЛ (х; у). Подставляя рассчитанные значения b 0 и b 1 в формулу находим величины , (i = 1, 2,..., n). Для одного, произвольно выбранного k -го значения , отвечающего аргументу хk, проверяем полученный результат с помощью стандартной статистической функции ПРЕДСКАЗ (хk, y; х). Вычисляем значения и рассчитываем соответствующие суммы квадратов, дисперсия на степень свободы и средние квадратические отклонения: Полученное значение стандартной ошибки Se проверяем с помощью статистической функции СТОШYХ (у; x). Рассчитываем величину выборочного коэффициента детерминации и проверяем полученное значение с использованием эквивалентного выражения R2xy = r2xy а также с помощью стандартной статистической функции КВПИРСОН (у; х). Величина коэффициента R2xy показывает, что 52% вариации зависимой переменной объясняется вариацией предикторной переменной, а остальные 48% - влиянием неучтенных и случайных факторов. Находим стандартные отклонения оценок коэффициентов регрессии по формулам Теперь выборочное уравнение регрессии можно записать в общепринятом виде (под коэффициентами в скобках указаны их стандартные отклонения): (24, 21) (0, 2797) 4. Вычисляем статистики критерия значимости коэффициентов регрессии: Находим значение критической точки с помощью стандартной статистической функции СТЬЮДРАСПОБР(α; n-m-1) для заданного уровня значимости α = 0, 05: tкр (α; k = n – m –1) = 2, 228, (n – m –1 = 12 – 2 =10). Поскольку | tbj |> tкр, с уровнем значимости 0, 05 (с доверительным уровнем 95%) делаем вывод о том, что коэффициенты β 0 и β 1 значимы. Вычисляем Р -значения для коэффициентов с помощью статистической функции СТЬЮДРАСП (| tbj |, n – m –1; хвосты): Рb 0 = 0, 0098 - для коэффициента β 0; Рb 1 = 0, 0081 - для коэффициента β 1; хвосты = 2 – двустороннее t -распределение. В силу того, что Рbj < α, вывод о значимости коэффициентов регрессии подтверждается. Определяем значение F -статистики по формуле и проверяем полученное значение с использованием эквивалентных формул – формулы и соотношения . Критическое значение статистики Фишера - Снедекора для заданного уровня значимости α = 0, 05 находим с помощью стандартной статистической функции FРАСПОБР (α; m; n-m-1) Fкр = (α; k 1= m =1; k 2= n - m -1=10) = 4, 96, проверяя полученное значение по формуле . В силу того, что F > F кр, с доверительным уровнем 0, 95 делаем вывод о том, что уравнение регрессии значимо. Вычисляем величину Р -значения с помощью статистической функции FРАСП (F; k 1 = m =1; k 2 = n - m -1=10) р = 0, 008. Поскольку p < α, вывод о значимости уравнения регрессии подтверждается. Рис. 25. Проверка значимости модели
Нижние и верхние границы доверительного интервала коэффициентов регрессии β j (нижние и верхние γ •100%) согласно (1.20) найдем по формулам β 1 min = b 1 – t кр Sb 1 = 0, 297; β 1 max = b 1 + t кр Sb 1 = 1, 544; β 0 min = b 1 – t кр Sb 0 = 23, 03; β 0 max = b 0 + t кр Sb 0 = 130, 92.
Для получения доверительного интервала для линии регрессии находим несмещенную оценку дисперсии прогноза величин у, соответствующих значениям по формуле , и, вычисляя корень, определим значения Sеi. Нижние и верхние границы доверительного интервала для математического ожидания зависимой величины определяем по формуле ymin < Mx(Y) < y max, где и приводим их величины в табл. 24. Для получения доверительного интервала для индивидуальных значений зависимой переменной находим несмещенную оценку дисперсии прогноза величин у, соответствующих значениям по формуле и, вычисляя корень, определим значения Sеi. Нижние и верхние границы доверительного интервала для значений уi определяем по формуле yi min < yi < yi max, где и приводим их величины в табл. 24. 5. При построении графиков используем Мастер диаграмм Мiсrоsoft Ехсеl в следующем порядке. Шаг 1 - тип диаграммы. На вкладке Стандартные выбираем Точечную диаграмму, позволяющую сравнить пары значений. Нажимаем кнопку Далее. Шаг 2 - источник данных диаграммы. На вкладке диапазон данных выделяем диапазон (х; у) и указываем, что ряды находятся в столбцах. Переходим на вкладку Ряд. В поле Графика просматриваем полученный результат. В поле Имя указываем название «у». Последовательно нажимая кнопку Добавить, добавляем ряды значений аналогичным образом и задаем названия «ур», «уmin», «уmax». После просмотра результатов нажимаем кнопку Далее. Шаг 3 - параметры диаграммы. На вкладке Заголовки в полях Название диаграммы, Ось Х (категорий) и Ось Y (значений) задаем соответствующие названия «Зависимость среднедневной заработной платы, руб. от среднедушевого прожиточного минимума в день, руб.», «Среднедушевой прожиточный минимум в день, руб.» и «Среднедневная заработная плата, руб.». На вкладке Линии сетки добавляем основные линии на оси Х (категорий). Остальные вкладки оставляем без изменения. После просмотра результатов нажимаем кнопку Далее. Шаг 4 - размещение диаграммы. Помещаем диаграмму на имеющемся листе и нажимаем кнопку Готово. В результате получаем диаграмму, показанную на рис. 26. Рис. 26. Диаграмма Y - исходные данные (yi); Yp - линейная регрессия (); Ymin - нижняя граница доверительного интервала для линии регрессии (); Ymax - верхняя граница доверительного интервала для линии регрессии (); Ymin инд - нижняя граница доверительного интервала для индивидуальных значений; Ymax инд - верхняя граница доверительного интервала для индивидуальных значений.
Параметры полученной диаграммы можно изменять, используя меню Диаграмма или контекстное меню, вызываемое щелчком правой кнопки мыши. В частности, целесообразно задать новые значения шкалы осей, чтобы расположить графики наилучшим образом. Для этого необходимо выбрать команду Формат оси и на вкладке Шкала задать требуемые величины в полях Минимальное значение, Максимальное значение и Цена основных делений, убрав флажки из соответствующих полей Авто. Для более наглядного представления результатов необходимо выбрать ряд ур, с помощью контекстного меню выбрать команду Формат ряда данных и на вкладке Вид задать параметры линии н маркера (можно также вызвать команду Добавить линию тренда и в поле Линия тренда на вкладке Тип выбрать поле Линейная). Для рядов и аналогичным образом добавляется линия тренда Полиномиальная при значении степени, равном 2 (по умолчанию). С помощью команды Формат линии тренда при необходимости на вкладке Вид выбирается тип, цвет и толщина линии, а на вкладке Параметры - название аппроксимирующей кривой и величина интервала прогноза вперед или назад на заданное число единиц. Здесь также задается возможность показать уравнение регрессии и коэффициент детерминации в поле диаграммы. 6. Для определения значений результативного признака по линейному уравнению регрессии с помощью стандартной статистической функции ТЕНДЕНЦИЯ выполняем следующие операции: в расчетной таблице (рис. 24) озаглавливаем столбец (например, символом «у р» или словом «тенденция» и выделяем 12 значащих позиций этого столбца (i = 1, 2,..., n); • с помощью Мастера функций выбираем статистическую функцию ТЕНДЕНЦИЯ; • в поля Изв_знач _ у и Изв_знач _ х вводим значения векторов у и х соответственно; • поле Нов_знач_х оставляем пустым (при этом предполагается, что Нов_ знач_х совпадают с Изв_знач_х); • поле Константа оставляем пустым (если Константа имеет значение ИСТИНА, 1 или опущена, то коэффициент b 0 вычисляется обычным образом, если Константа имеет значение ЛОЖЬ или 0, то коэффициент b 0 полагается равным нулю); • контролируем результат решения в окне функции (первый элемент массива) = 148, 770; • для получения массива результатов (вывода формулы массива) нажимаем комбинацию клавиш Ctrl+Shift+Enter (в выделенном столбце появятся результаты вычислений). Для определения параметров линейного уравнения регрессии с помощью стандартной статистической функции ЛИНЕЙН выполняем следующие операции: • с целью лучшего восприятия результатов строим вспомогательную таблицу, которая в наших обозначениях имеет вид (табл. 4), и выделяем в ней свободные ячейки;
Таблица 4. Вспомогательная таблица для функции ЛИНЕЙН
• с помощью Мастера функций выбираем статистическую функцию ЛИНЕЙН; • в поля Изв_знач_у и Изв_знач_х вводим значения векторов у и х соответственно; • поле Константа оставляем пустым (если Константа имеет значение ИСТИНА, 1 или опущена, то коэффициент b 0 вычисляется обычным образом, если Константа имеет значение ЛОЖЬ или 0, то коэффициент b 0 полагается равным нулю); • в поле Стат вводим значение ИСТИНА или 1 (если Стат имеет значение ИСТИНА или 1, то вычисляется дополнительная статистика - строки 3-6 в табл. 4, если Стат имеет значение ЛОЖЬ, 0 или опущена, то вычисляются только значения коэффициентов и - вторая строка в табл. 4); • контролируем результат решения в окне функции (первый элемент массива) b 1 = 0, 920431; • для получения массива результатов (вывода формулы массива) нажимаем комбинацию клавиш Ctrl+Shift+Enter; • в выделенных ячейках появятся результаты вычислений, представленные в табл. 5 (b 1, b 0 - выборочные оценки коэффициентов регрессии; Sb 1, Sb 0 - стандартные отклонения коэффициентов регрессии; R2xy - выборочный коэффициент детерминации; Se - значение стандартной ошибки; F - значение F -статистики для уравнения регрессии; df = n -2 - число степеней свободы; Qr и Qe - факторная и остаточная суммы квадратов соответственно). Таблица 5. Результаты расчета
Для получения решения с помощью подпрограммы РЕГРЕССИЯ из пакета анализа выполняем следующие операции: • выбираем команду Анализ данных в меню Сервис (если она отсутствует, необходимо в меню Сервис выбрать команду Надстройки и в появившемся окне диалога выбрать пункт Пакет анализа); • в окне Анализ данных выбираем инструмент Регрессия (при использовании этого инструмента данные обязательно должны быть расположены по столбцам); • в категории Входные данные в поля Входной интервал Y и Входной интервал Х вводим значения векторов у и х соответственно, а остальные поля оставляем пустыми (флажок в поле Метки ставится, если в соответствующие входные интервалы включены названия столбцов; флажок в поле Константа - ноль ставится, когда коэффициент b 0 полагается равным нулю; флажок в поле Уровень надежности ставится в случаях, когда необходимо задать величину доверительного уровня γ •100%, отличную от 95%); • в категории Параметры вывода оставляем переключатель в положении Новый рабочий лист, при необходимости задавая имя листа в поле ввода рядом с параметром (этот параметр вставляет новый лист в рабочую книгу и располагает результаты, начиная с ячейки А1 нового листа; параметр Выходной интервал позволяет ввести ссылку для левой верхней ячейки интервала, в который выводятся результаты на текущем рабочем листе; параметр Новая рабочая книга создает новую рабочую книгу, добавляя в нее новый лист и вставляя результаты в ячейку А1 этого листа); • в категории Остатки ставим флажки в полях Остатки, Стандартизированные остатки, График остатков, График подбора. Последний позволяет вывести точечные графики зависимости наблюдаемых у и теоретических результативных значений от факторных признаков xi; • в категории Нормальная вероятность ставим флажок в поле График нормальной вероятности. Это позволяет вывести точечный график зависимости наблюдаемых значений у от автоматически формируемых интервалов персентилей. Результаты расчетов выводятся в виде пяти таблиц и трех диаграмм. Содержание таблиц под общим названием Вывод итогов показано на рис. 27. Таблица Регрессионная статистика. В таблице представлены: • Множественный R - множественный выборочный коэффициент корреляции Rxy, равный квадратному корню из коэффициента детерминации и, для парной регрессии, совпадающий с выборочным коэффициентом корреляции rxy; • R-квадрат - коэффициент детерминации R2xy; • Нормированный R-квадрат - для парной регрессии определяется выражением (вычисление этого коэффициента целесообразно только для множественной регрессии); m – число факторных признаков; • Стандартная ошибка - корень из несмещенной оценки остаточной дисперсии • наблюдения - число наблюдений в выборке n.
Рис. 27. Вывод итогов расчета параметров линейной регрессионной модели Таблица Дисперсионный анализ. В таблице представлены (по столбцам соответственно для строк Регрессия, Остаток, Итого): • df - число степеней свободы (df = m - для объясненной дисперсии, df = n - m -1 - для остаточной дисперсии, df = n – 1 - для общей дисперсии df = m + n - m -1); • SS – сумма квадратов (, объясненная регрессией, - остаточная, - общая); • MS – несмещенные оценки дисперсий ( - объясненная регрессией, - остаточная); • F - вычисленное значение статистики Фишера - Снедекора • Значимость F - величина Р -значения для выборочного уравнения регрессии, Таблица с информацией о праметрах выборочного уравнения регрессии. В ней по столбцам соответственно для строк Y-пересечение (коэффициент b 0) и Переменная Х1 (коэффициент b 1) представлены: • Коэффициенты - значения коэффициентов b 0 и b 1; • Стандартная ошибка - стандартные отклонения коэффициентов регрессии Sb 0 и Sb 1; • t -статистика - статистики критерия значимости tb 0 и tb 1 коэффициентов регрессии β 0 и β 1; • Р -значения - величины Р -значений Рb 0 и Рb 1 для коэффициентов β 0 и β 1; • Нижние 95% и Верхние 95% - значения соответствующих интервальных оценок β j min = b j – t кр Sb j и β j max = b j + t кр Sb j для коэффициентов β j при уровне значимости α = 0, 05, γ •100% = 95% (в случае задания другого доверительного уровня, например γ =1-α = 0, 9, в этих столбцах все равно будут указаны 95% границы, а в следующих двух столбцах - 90%). Таблица Вывод остатка. В таблице представлены: • Наблюдение - порядковые номера i выборочных значений уi и хi, (i = 1, 2, …, n); • Предсказанное Y – значения рассчитанные по выборочному уравнению регрессии = b0 + b1 xi; • Остатки - значения остатков регрессии еi (выборочная оценка возмущений ε i); • Стандартные остатки - значения нормированных остатков регрессии , где ; Таблица Вывод вероятности. В таблице представлены: • Персентиль - рассчитывается для каждого значения уi как сумма предшествующего вычисленного значения персентиля и шага h = 100%/n (при этом начальное и конечное значения равны h / 2 и 100% - h / 2 соответственно); • Y - значения уi, расположенные в неубывающем порядке. Три диаграммы (которые здесь не показаны) включают в себя: • диаграмму Переменная Х1 График остатков - график зависимости еi от xi ; • диаграмму Переменная Х1 График подбора - графики зависимостей уi и от xi; • диаграмму График нормального распределения, строящуюся по данным таблицы Вывод вероятности. Порядок выполнения работы 1.Получить у преподавателя данные для расчета. 2.Ввести исходные данные в таблицу Excel. 3.Провести на ЭВМ серию расчетов по определению параметров регрессионной зависимости, точечных и интервальных оценок. 4.Построить графическую интерпретацию доверительных интервалов для линии регрессии и индивидуальных значений зависимой переменной. 5.Зафиксировать результаты расчетов в тетради. 6.Сделать выводы по результатам моделирования и записать в тетради.
Отчет по работе должен содержать 1.Название и цель работы. 2.Основные теоретические и методические положения. 3.Исходные данные для расчета. 4.Результаты расчета. 5.Выводы по результатам моделирования.
|