Глава 7. Корреляционный и регрессионный анализ. Выявление связи между величинами
Корреляционный метод позволяет получить числовые показатели, характеризующие степень (тесноту) связи между двумя или несколькими признаками. Для характеристики количественной связи между явлениями и отдельными признаками следует различать функциональную (полную) и статистическую (неполную) связь между признаками. Статистической называют зависимость случайной величины Y от X, при которой изменение одной из величин (X) влечет изменение другой (Y). Возникновение понятия статистической связи обуславливается тем, что зависимая переменная подвержена влиянию ряда контролируемых или неучтенных факторов, а также тем, что изменение значений переменных неизбежно сопровождается некоторыми случайными ошибками. Корреляционная зависимость между двумя переменными величинами – это зависимость между значениями одной из них и условным математическим ожиданием другой. Сравнивая различные виды зависимости между Х и Y, можно сказать, что с изменением значений переменной Х при функциональной зависимости однозначно изменяется определенное значение переменной Y, при корреляционной – определенное среднее значение Y, при статистической – определенное распределение переменной Y. Статистические связи между переменными можно изучать методами корреляционного и регрессионного анализа. Основной задачей регрессионного анализа является установление формы и изучение зависимости между переменными. Основной задачей корреляционного анализа является выявление связи между случайными переменными и оценка ее тесноты. Установление форм связи и подбор математического уравнения в большинстве случаев решается на основе логического анализа предыдущих исследований, данных статистических группировок, графического метода. Линейная парная связь выражается уравнением прямой регрессии: где а – угловой коэффициент прямой регрессии Y на Х, называемый выборочным коэффициентом регрессии. При малых выборках данные не группируются. Параметры а и b находятся по методу наименьших квадратов из нормальной системы уравнений (7.1) где n – число наблюдаемых значений пар взаимосвязанных величин (xi; yi). Выборочные уравнения прямой линии регрессии имеют вид: - уравнение прямой регрессии Y на Х; (7.2) - уравнение прямой регрессии Х на Y. (7.3) Выборочный линейный коэффициент корреляции характеризует тесноту связи между Х и Y. Коэффициент корреляции находится по формуле: (8) где и - выборочные средние случайных величин Х и Y; - среднее значение произведений и - выборочные средние квадратические отклонения, Свойства коэффициента корреляции : 1) Если =0, то Х и Y не связаны корреляционной зависимостью; 2) Если то Х и Y связаны функциональной зависимостью; 3) Если коэффициент корреляции положителен, то связь прямая; если коэффициент корреляции отрицателен, то связь обратная; 4) Связь тем теснее, чем ближе к единице:
Примеры 100. Найти коэффициент корреляции между производительностью труда Y (тыс. руб.) и энерговооруженностью труда Х (кВт) (в расчете на одного работающего) для 14 предприятий региона по следующим данным:
Найти коэффициент корреляции и построить уравнение регрессии. Решение. Для вычисления коэффициента корреляции воспользуемся формулой (8) и сведем все вычисления в расчетную таблицу:
= = = = = = Связь сильная, прямая. Для получения уравнения регрессии составим и решим систему уравнений: 101. Распределение 100 предприятий по объему выпускаемой продукции Х (в тыс. руб.) и по себестоимости единицы продукции Y (тыс. руб.) дано в корреляционной таблице.
Предполагая, что между переменными Х и Y существует корреляционная зависимость, определить выборочный коэффициент корреляции; найти уравнение прямой регрессии Y на Х; сделать вывод о тесноте и направлении связи; оценить среднюю себестоимость продукции (тыс. руб.) при объеме выпускаемой продукции в 5, 0 тыс. руб. Решение. 1. Найдем средние значения , и вычислим Так как коэффициент корреляции отрицателен, то связь между величинами Х и Y обратная. Теснота связи высокая. 2. Для получения уравнения прямой линии регрессии Y на Х воспользуемся уравнением 3. Оценим среднюю себестоимость продукции при объеме выпускаемой продукции в 5, 0 тыс.руб.
|