Данные для двумерного статистического анализа
зависимости Y= f (x 1, x 2 )
Важнейшие результаты анализа (см. вывод итогов на листе Excel): R 2 = 0,9637;
Таким образом, в нашем случае математическая модель приоб-ретает вид
Ŷ = - 162 - 4,3045 · x 1 + 5,6630 · x 2. Значение критерия Фишера F = 119,35 при уровне значимости ошибки его определения α = 3,32 · 10 -07. Уровни значимости ошибок определения коэффициентов математической модели соответственно составили
Таким образом, доверительные вероятности определения коэффициентов β0 = 1 - 0,4513 = 0,5487; β1 @ 1; β2 @ 1
Доверительная вероятность определения R 2 составила
β = 1 - 3,32. 10 -7 @ 1,
т.е. принятая нами модель адекватно описывает исследуемый массив данных. Поставим перед собой цель повысить степень адекватности математической модели исследуемого объекта, рассмотренной в предыдущей задаче, путём достижения более высокого значения R 2. В ряде случаев это удаётся сделать путём принятия более сложной формы модели, например вида
Ŷ = b 0 + b 1 x 1 + b 2 x 2 + b 3 x 12 + b 4 x 22 + b 5 x 1 x 2.
Таблица 3 К расчёту нелинейной полиномиальной регрессии
Рекомендуется испытать эту модель, поскольку общего правила здесь нет, и нужно экспериментировать. Для достижения поставленной цели реконструируем табл. 2, приведя её к виду табл. 3, для чего вставим три новых столбца между столбцами B и C. Чтобы это выполнить, следует установить курсор в произвольную ячейку столбца C, а затем использовать команды
ВСТАВКА | СТОЛБЦЫ
Значения цены из бывшего столбца C переместятся в столбец F. Новый вид электронной таблицы требует следующих действий пользователя. В ячейку C2 вписать формулу = A2 ^ 2, в ячейку D2 - формулу = B2 ^ 2, в ячейку E2 - формулу = A2 * B2. Значения x 1^2, x 2^2, x 1*x2 будут теперь рассматриваться как аргументы обычной линейной регрессии (с учётом обозначений формулы, начинающейся со знака =, символов произведения * и возведения в степень ^, знакомых их информатики). В результате решения получаем искомое уравнение регрессии в форме при следующих данных:
R 2 = 0,9704; F = 39,4116; α = 0,000164; b 0 = 318,83; α 0 = 0,6740; β 0 = 0,3260 b 1 = - 3,6709; α 1 = 0,1145; β 1 = 0.8855 b 2 =3,4424; α 2 = 0,2650; β 2 = 0.7350 b 3 = - 0,00097; α 3 = 0,6699; β 3 = 0.3301 b 4 = 0,001678; α 4 = 0,5449; β 4 = 0.4551 b 5 = 0,00044; α5 = 0,9140; β5 = 0.0860
Как следует из приведенных данных, ценой существенного усложнения математической модели здесь удалось несколько повысить значение критерия R 2, однако доверительные вероятности bi = 1 - ai определения коэффициентов заметно снизились. Тот же подход может быть использован при определении уравнения регрессии при поиске оптимальной степени к
Ŷ = b0 + b1x +b2x2 + b3x3 + … + bKxK, где x 2, x 3, … xK формально рассматриваются как линейные аргументы (факторы), и для них отводятся соответствующие столбцы в электронной таблице обработки данных. Заметим, что при исследовании двухфакторного объекта y = f (x 1, x 2) его математическая модель в форме уравнения Ŷ = b 0 + b 1 x 1 + b 2 x 2 + b 3 x 12 + b 4 x 22 + b 5 x 1 x 2 позволяет средствами Excel получить графическое представление поверхности Ŷ в функции определяющих её факторов [34], ч.1, c.99 … 107. Файл подобного графического анализа экспериментальных данных под названием Graph_An.xls (на диске с программами) иллюстрирует такую возможность при значениях коэффициентов b 0 = 40,17; b 1 = 56,28; b 2 = 22,91;; b 3 = -10,41; b 4 = -1,835; b 5 = -1,79. Отсюда следует, что графический анализ экспериментальных данных позволяет оценить форму поверхности отклика и установить наличие её эстремумов при соответствующих значениях коэффициентов, найденных комплексным статистическим анализом. Рекомендуемая литература: [34], ч.1, с.76 … 88.
Вопросы для самопроверки 1. Какому условию должно удовлетворить количество данных пассивного эксперимента при проведении их комплексного статистического анализа? 2. Какие частные задачи решает комплексный анализ данных, реализуемый, например, с помощью системы электронных таблиц Microsoft Excel? 3. Можно ли в среде Microsoft Excel выполнить корреляционный, регрессионный и дисперсионный анализ экспериментальных данных? 4. Какие суммы квадратов используются при комплексном статистическом анализе? 5. По каким суммам квадратов вычисляется экспериментальное значение критерия Фишера? 6. Что представляет собой критерий “R – квадрат” при комплексном анализе результатов статистических данных средствами Excel? 7. Каким образом критерий R2 может характеризовать адекватность полученной математической модели? 8. Каково условие проверки значимости коэффициентов уравнения регрессии по критерию Стьюдента? 9. Чем отличается способ оценки значимости коэффициентов уравнения регрессии по принятому в Excel критерию “Р – значение” (то есть по уровню значимости ошибки его определения) от оценки по критерию Стьюдента? 10. Что представляет термин “ t – статистика” при выводе итогов комплексного статистического анализа данных в среде Excel? 11. Объясните сущность выводимого в итогах расчетов (Excel) термина “значимость “.
После окончания работы над теоретическим материалом настоящей темыы студенту необходимо выполнить лабораторную работу №4 (разделы 3.4 и 3.5), а затем пройти тестирование согласно данным раздела 4.3. Тесты).
|