Скорректированный индекс детерминации (корреляции).
В рассмотренных показателях множественной корреляции (индекс и коэффициент) используется остаточная дисперсия, которая имеет систематическую ошибку в сторону преуменьшения, тем более значительную, чем больше параметров определяется в уравнении регрессии при заданном объеме п. Таким образом, чем больше параметров при х, тем ближе остаточная дисперсия к нулю и, тем ближе коэффициент (индекс) корреляции приблизится к единице даже при слабой связи фактора с результатом. Для того, чтобы не допускать возможного преувеличения тесноты связи, используется скорректированный индекс (коэффициент) множественной корреляции. Скорректированный индекс множественной корреляции содержит поправку на число степеней свободы, а именно: остаточная сумма квадратов делится на число степеней свободы остаточной вариации, а общая сумма квадратов делится на число степеней свободы в целом по совокупности (5.2.11) Поскольку , то величину скорректированного индекса детерминации можно представить в виде (5.2.12) Чем больше т, тем сильнее различия между и R2. Для линейной зависимости признаков скорректированный коэффициент множественной корреляции определяется как корень квадратный из скорректированного коэффициента детерминации. Отличие состоит лишь в том, что в линейной регрессии под т понимают число факторов, включенных в модель, а в криволинейной зависимости т – число параметров при х и их преобразованиях (х2, loq x и др.). Так, для функции y = a + b1x1 + c1x21+ b2x2 + c2x22 m = 4. При заданном объеме наблюдений с увеличением числа факторов скорректированный коэффициент множественной детерминации убывает Его величина может стать и отрицательной при слабых связях результата с факторами, в этом случае он должен считаться равным нулю. Чем больше объем совокупности, тем ближе значения и R2. В статистических пакетах прикладных программ в процедуре множественной регрессии обычно приводится скорректированный коэффициент (индекс) корреляции (детерминации). Величина коэффициента детерминации применяется для оценки качества модели. Низкое значение показателя означает, что в модель не включены существенные факторы – с одной стороны, а с другой – форма связи не отражает реальные соотношения между переменными. Требуется дальнейшая работа по улучшению качества модели.
|