Коэффициент детерминации и эмпирическое корреляционное отношение
На основании правил сложения дисперсий можно определить ПОКАЗАТЕЛЬ ТЕСНОТЫ СВЯЗИ между группировочными (признак-фактор) и результативными признаками. Этот показатель называется эмпирическим корреляционным отношением и представляет собой выражение:
Этот показатель говорит о том, что взаимосвязь между фактором и производительностью имеет тесноту связи, то есть вариация данной производительности обусловлена обучением на 86%, а всё остальное - стажем, возрастом, другими случайными факторами. Таким образом, факт профессионального обучения очень желателен. Оценка значимости рассчитанного корреляционного отношения с помощью дисперсионного отношения (F-критерия Фишера, статистики Фишера) F-критерий Фишера применяют для сравнения дисперсий двух выборочных совокупностей. Вычисление ведется по формуле , где - значение оценки большей дисперсии - значение оценки меньшей дисперсии В таблицах F-распределения указываются предельные значения F-критерия для различных комбинаций числа степеней свободы n’1 и n’2, которые могут быть превзойдены с вероятностью 0,05 или 0,01 в силу случайных обстоятельств. Числа степеней свободы для поиска критического значения по таблице F-распределения следует взять равными (n1-1) и (n2-1).
«Таблица пограничных значений показателей достоверности (Fтабл) при Р=0,95 (верхняя строка) и Р=0,99 (нижняя строка)»
Если расчетное значение F-критерия при пятипроцентном уровне значимости и числе степеней свободы к1 и к2 больше табличного, то это позволяет с вероятностью 95% утверждать существенность различий в величине дисперсий и соответственно делать вывод о существенности корреляционной связи между анализируемыми показателями.
Практически все наблюдения выборочные. Поэтому для определения достоверности влияния факторов в группах, в общем случае с разным числом дат – (результатов наблюдений), применяется так называемая девиата, т.е. дисперсия, приходящаяся на один элемент свободного варьирования или на одну степень свободы: , где n’ – число степеней свободы. При вычислении общей девиаты имеем Для факториальной девиаты Для случайной девиаты где и - частная (групповая, вычисляемая по групповым средним) и общая средние. Корень квадратный из девиаты () – известный показатель математической статистики – среднее квадратическое отклонение (s). Существенность (достоверность) действия фактора определяется отношением факториальной и случайной девиат: Это отношение сравнивается со стандартной, табличной величиной «Фишера». Если . равно или превышает табличное, то действие изучаемого фактора можно считать доказанным. Когда рассматриваемые факторы существенно влияют на результативный признак, дисперсионный анализ позволяет также измерить и оценить роль различных их градаций и сочетаний. После выявления причинно-следственных связей между событиями и результатами важно определить зависимость или корреляцию между событиями и временную задержку между ними.
Линейная и временная связь стохастических переменных После выявления причинно-следственных связей между событиями и результатами важно определить зависимость или корреляцию между событиями и временную задержку между ними. Напомним методику. Корреляция. Для выявления степени корреляции между n парами данных для переменных и , , ,…, эти данные наносятся на график (диаграмму рассеяния) и для них вычисляется коэффициент корреляции по следующей формуле: где представляют собой соответственно стандартные отклонения и : , Числитель в правой части выражения для r называется ковариацией. По диаграмме рассеяния, называемой еще полем корреляции, проще всего определить силу связи между случайными величинами и . Ее вид, показывающий тенденцию к росту с ростом , определяет и вид корреляции: Коэффициент корреляции всегда принимает значение в интервале .Если взлеты и падения и y полностью совпадают, то , а с ослаблением совпадений уменьшается. Однако, если нет корреляции, это не означает, что между и вовсе нет никакой зависимости, это говорит лишь о том, что между ними нет линейной зависимости. Excel позволяет использовать 80 статистических функций (вычисление средних значений, сумм, распределений и стандартных отклонений). Расчет временного лага. Сведем в таблицу число жалоб населения в МЖРЭП на неисправную сантехнику (ед.) и затраты из бюджета МСУ на ремонт сантехники (тыс.руб.) по месяцам 1999 года:
При использовании функции = CORREL(а1,а2) получим коэффициент – это довольно высокая корреляция. А что получится, если это соответствие сдвинуть? Если, например, имеет место смещение на 1 месяц, т.е. , то поле корреляции будет более выраженным: Ясно, что наивысшая корреляция достигается при временном лаге в 2 месяца. Но при этом возникает проблема определения суммы затрат . Для решения задачи используют линию регрессии и формулу ее описывающую: (1) для n пар данных: , ,…, .
При определении линейной зависимости между и по формуле находят значения и методом минимизации суммы квадратов разностей: Так получена формула (1), которая при использовании в ней коэффициента корреляции r приобретает вид: Если по данным таблицы вычислить , , , , , то можно найти предсказанное значение (прогноз) у для данного значения . Например, значение расходов в тыс. руб. в тринадцатом месяце при временном лаге 2 месяца: по формуле линии регрессии получим: тогда при , В Excel функция LINEST (ЛИНЕЙН) вычисляет параметры линейного тренда, а функция SLOPE (НАКЛОН) – возвращает наклон линии регрессии. Линию регрессии можно использовать эффективно, когда высок коэффициент корреляции, если , то эти рассуждения не имеют смысла. Расчет вектора коэффициентов множественной линейной регрессии Линейная модель множественной регрессии имеет вид: (1) где i – индекс наблюдения. Коэффициент регрессии aj показывает, на какую величину в среднем изменится результативный признак y, если переменную xj увеличить на единицу измерения. Анализ уравнения (1) и методика определения параметров становятся более наглядными, а расчетные процедуры существенно упрощаются, если воспользоваться матричной формой записи уравнения (1): , где y — вектор-столбец зависимой переменной размерности n ×1, представляющий собой n наблюдений значений yj; X — матрица n наблюдений независимых переменных x 1, x 2, x 3,..., xm, размерность матрицы X равна n ×(m +1); a — подлежащий оцениванию вектор неизвестных параметров размерности (m +1) ×1; e — вектор случайных отклонений (возмущений) размерности n ×1. Таким образом, , , Уравнение (1) содержит значения неизвестных параметров a0, a1, a2,..., am. Эти величины оцениваются на основе выборочных наблюдений, поэтому полученные расчетные показатели не являются истинными, а представляют собой лишь их статистические оценки. Формула расчета вектора коэффициентов регрессии в векторно-матричной записи имеет вид: а = (ХТХ)-1XTY. (2)
|