Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Дисперсионный анализ





Лабораторная работа № 6

Тема: Применение дисперсионного анализа при обработке информации.

Дисперсионный анализ

 

Одна из задач статистики связана с сопоставлением параметров распределения выборок, т.е. с определением существенных различий в значениях параметров однотипных выборок. Наиболее широкое распространение получил дисперсионный анализ. В дисперсионном анализе исследуются методы проверки гипотезы о равенстве математических ожиданий случайных величин, представленных выборками ограниченного объема. Непосредственное сравнение оценок математических ожиданий совокупности выборок оказывается менее эффективным, чем сопоставление оценок дисперсий, это обстоятельство и дало наименование методу. Подобные задачи возникают при исследовании влияния каких-либо параметров на показатели качества объекта, например: привела ли модернизация оборудования к снижению времени обработки запросов; влияет ли размер кэша второго уровня на производительность системы при решении конкретных задач обработки данных. Эти задачи решаются в рамках однофакторного дисперсионного анализа. В более сложных ситуациях исследуется влияние нескольких факторов на нескольких уровнях (многофакторный дисперсионный анализ). Далее будет рассмотрен только однофакторный анализ.

Однофакторный дисперсионный анализ позволяет установить, оказывает ли существенное влияние некоторый фактор Ф на исследуемую случайную величину.

Задача сравнения выборок случайных величин формулируется следующим образом.

Имеются результаты наблюдений в виде совокупности групп наблюдений, задан уровень значимости α для проверки статистической гипотезы. В данном случае отдельные группы трактуются как выборки одной и той же случайной величины, полученные по результатам наблюдения за одним объектом при различных значениях фактора Ф (количество уровней фактора равно m).

Требуется проверить нулевую гипотезу Н 0 о равенстве математических ожиданий случайных величин всех выборок. Иначе говоря, требуется установить, значимо или незначимо различаются выборочные средние значения, вычисленные для каждого слоя.

Допущения: генеральные совокупности, соответствующие каждому слою, распределены нормально; дисперсии слоев одинаковы; математические ожидания, дисперсии, законы распределения случайных величин для различных слоев неизвестны, сами случайные величины являются непрерывными. Вполне понятно, что первые два условия являются наиболее существенными и весьма ограничивают область применения методов дисперсионного анализа.

Основная идея дисперсионного анализа состоит не в сопоставлении математических ожиданий случайных величин, а в сравнении оценки "факторной дисперсии", порождаемой воздействием фактора, и оценки "остаточной дисперсии", обусловленной случайными причинами. Если различие между этими оценками значимо, то фактор оказывает существенное влияние на случайную величину, в противном случае влияние фактора несущественно. Если установлено существенное влияние фактора, то каждой группе соответствует своя оценка математического ожидания. Упорядочение значений оценок математического ожидания позволит выявить влияние фактора.


Пример 1. Три различные группы из шести испытуемых получили списки из десяти слов. Первой группе слова предъявлялись с низкой скоростью -1 слово в 5 секунд, второй группе со средней скоростью - 1 слово в 2 секунды, и третьей группе с большой скоростью - 1 слово в секунду. Было предсказано, что показатели воспроизведения будут зависеть от скорости предъявления слов. Доказать это предположение.

Результаты представлены в табл. 1.

Таблица 1. Количество воспроизведенных слов (по J. Greene, M D'Olivera, 1989, p. 99)

№ испытуемого Группа 1 низкая скорость Группа 2 средняя скорость Группа 3 высокая скорость
       
       
       
       
       
       
суммы      
средние 7,17 6,17 4,00
Общая сумма      

Известно, что данные подчиняются нормальному закону распределения.

Выдвинем нулевую гипотезу: различия в объеме воспроизведения слов между группами являются случайными и не зависят от скорости предъявления слов.

Альтернативная гипотеза: Различия в объеме воспроизведения слов между группами являются не случайными и зависят от скорости предъявления слов.

Последовательность операций в однофакторном дисперсионном анализе для несвязанных выборок:

1. подсчитаем SSфакт - вариативность признака, обусловленную действием исследуемого фактора. Часто встречающееся обозначение SS - сокращение от "суммы квадратов" (sum of squares).

, (1)

где Тс – сумма индивидуальных значений по каждому из условий. Для нашего примера 43, 37, 24 (см. табл. 1);

с – количество условий (градаций) фактора (=3);

n – количество испытуемых в каждой группе (=6);

N – общее количество индивидуальных значений (=18);

- квадрат общей суммы индивидуальных значений (=1042=10816)

Отметим разницу между , в которой все индивидуальные значения сначала возводятся в квадрат, а потом суммируются, и , где индивидуальные значения сначала суммируются для получения общей суммы, а потом уже эта сумма возводится в квадрат.

По формуле (1) рассчитав фактическую вариативность признака, получаем:

2. подсчитаем SSобщ – общую вариативность признака:

(2)

3. подсчитаем случайную (остаточную) величину SSсл, обусловленную неучтенными факторами:

(3)

4. число степеней свободы равно:

=3-1=2 (4)

5. «средний квадрат» или математическое ожидание суммы квадратов,усредненная величина соответствующих сумм квадратов SS равна:

(5)

6. значение статистики критерия Fэмп (критерий Фишера) рассчитаем по формуле:

(6)

Для нашего примера имеем: Fэмп=15,72/2,11=7,45

7. определим Fкрит по статистическим таблицам. Для df1=k1=2 и df2=k2=15 табличное значение статистики равно 3,68

8. если Fэмп<; Fкрит, то нулевая гипотеза принимается, в противном случае принимается альтернативная гипотеза. Для нашего примера Fэмп > Fкрит (7.45>3.68), следовательно принимается альтернативная гипотеза.

Вывод: различия в объеме воспроизведения слов между группами являются более выраженными, чем случайные различия внутри каждой группы (Р-значение меньше уровня значимости альфа<0,05, следовательно критерий Фишера значим). Т.о. скорость предъявления слов влияет на объем их воспроизведения.

 

Решим задачу в Excel.

На лист Excel ввести исследуемые данные. Дальше выбираем команду Сервис – Пакет анализа – Однофакторный дисперсионный анализ. В диалоговом окне Входной интервал вводим исходных данных, в разделе Группировка переключатель По столбцам (т.к. результаты по группам расположены в столбцах). Далее указать Выходной диапазон (любую свободную ячейку на листе).

Результат анализа. В результате будет получена следующая таблица.

 

Параметр Альфа определяет статистический уровень значимости для теста (=0,05).

SS - вариативность признака, обусловленного действием исследуемого фактора.

Df –число степеней свободы

MS – «средний квадрат» или математическое ожидание суммы квадратов

F – статистика критерия эмпирическая (т.е расчетная)

F критическое – определяется по статистическим таблицам

Р-значение сравнивается с уровнем значимости. Если P-значение меньше 0,05, критерий Фишира значим, иначе, незначим.

если Fэмп<; Fкрит, то нулевая гипотеза принимается, в противном случае принимается альтернативная гипотеза

Мы получили все те же данные при помощи Excel, вывод такой же.


 







Дата добавления: 2015-08-12; просмотров: 1323. Нарушение авторских прав; Мы поможем в написании вашей работы!




Шрифт зодчего Шрифт зодчего состоит из прописных (заглавных), строчных букв и цифр...


Картограммы и картодиаграммы Картограммы и картодиаграммы применяются для изображения географической характеристики изучаемых явлений...


Практические расчеты на срез и смятие При изучении темы обратите внимание на основные расчетные предпосылки и условности расчета...


Функция спроса населения на данный товар Функция спроса населения на данный товар: Qd=7-Р. Функция предложения: Qs= -5+2Р,где...

СПИД: морально-этические проблемы Среди тысяч заболеваний совершенно особое, даже исключительное, место занимает ВИЧ-инфекция...

Понятие массовых мероприятий, их виды Под массовыми мероприятиями следует понимать совокупность действий или явлений социальной жизни с участием большого количества граждан...

Тактика действий нарядов полиции по предупреждению и пресечению правонарушений при проведении массовых мероприятий К особенностям проведения массовых мероприятий и факторам, влияющим на охрану общественного порядка и обеспечение общественной безопасности, можно отнести значительное количество субъектов, принимающих участие в их подготовке и проведении...

Вопрос 1. Коллективные средства защиты: вентиляция, освещение, защита от шума и вибрации Коллективные средства защиты: вентиляция, освещение, защита от шума и вибрации К коллективным средствам защиты относятся: вентиляция, отопление, освещение, защита от шума и вибрации...

Задержки и неисправности пистолета Макарова 1.Что может произойти при стрельбе из пистолета, если загрязнятся пазы на рамке...

Вопрос. Отличие деятельности человека от поведения животных главные отличия деятельности человека от активности животных сводятся к следующему: 1...

Studopedia.info - Студопедия - 2014-2025 год . (0.013 сек.) русская версия | украинская версия