Студопедия — Дисперсионный анализ
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Дисперсионный анализ






Лабораторная работа № 6

Тема: Применение дисперсионного анализа при обработке информации.

Дисперсионный анализ

 

Одна из задач статистики связана с сопоставлением параметров распределения выборок, т.е. с определением существенных различий в значениях параметров однотипных выборок. Наиболее широкое распространение получил дисперсионный анализ. В дисперсионном анализе исследуются методы проверки гипотезы о равенстве математических ожиданий случайных величин, представленных выборками ограниченного объема. Непосредственное сравнение оценок математических ожиданий совокупности выборок оказывается менее эффективным, чем сопоставление оценок дисперсий, это обстоятельство и дало наименование методу. Подобные задачи возникают при исследовании влияния каких-либо параметров на показатели качества объекта, например: привела ли модернизация оборудования к снижению времени обработки запросов; влияет ли размер кэша второго уровня на производительность системы при решении конкретных задач обработки данных. Эти задачи решаются в рамках однофакторного дисперсионного анализа. В более сложных ситуациях исследуется влияние нескольких факторов на нескольких уровнях (многофакторный дисперсионный анализ). Далее будет рассмотрен только однофакторный анализ.

Однофакторный дисперсионный анализ позволяет установить, оказывает ли существенное влияние некоторый фактор Ф на исследуемую случайную величину.

Задача сравнения выборок случайных величин формулируется следующим образом.

Имеются результаты наблюдений в виде совокупности групп наблюдений, задан уровень значимости α для проверки статистической гипотезы. В данном случае отдельные группы трактуются как выборки одной и той же случайной величины, полученные по результатам наблюдения за одним объектом при различных значениях фактора Ф (количество уровней фактора равно m).

Требуется проверить нулевую гипотезу Н 0 о равенстве математических ожиданий случайных величин всех выборок. Иначе говоря, требуется установить, значимо или незначимо различаются выборочные средние значения, вычисленные для каждого слоя.

Допущения: генеральные совокупности, соответствующие каждому слою, распределены нормально; дисперсии слоев одинаковы; математические ожидания, дисперсии, законы распределения случайных величин для различных слоев неизвестны, сами случайные величины являются непрерывными. Вполне понятно, что первые два условия являются наиболее существенными и весьма ограничивают область применения методов дисперсионного анализа.

Основная идея дисперсионного анализа состоит не в сопоставлении математических ожиданий случайных величин, а в сравнении оценки "факторной дисперсии", порождаемой воздействием фактора, и оценки "остаточной дисперсии", обусловленной случайными причинами. Если различие между этими оценками значимо, то фактор оказывает существенное влияние на случайную величину, в противном случае влияние фактора несущественно. Если установлено существенное влияние фактора, то каждой группе соответствует своя оценка математического ожидания. Упорядочение значений оценок математического ожидания позволит выявить влияние фактора.


Пример 1. Три различные группы из шести испытуемых получили списки из десяти слов. Первой группе слова предъявлялись с низкой скоростью -1 слово в 5 секунд, второй группе со средней скоростью - 1 слово в 2 секунды, и третьей группе с большой скоростью - 1 слово в секунду. Было предсказано, что показатели воспроизведения будут зависеть от скорости предъявления слов. Доказать это предположение.

Результаты представлены в табл. 1.

Таблица 1. Количество воспроизведенных слов (по J. Greene, M D'Olivera, 1989, p. 99)

№ испытуемого Группа 1 низкая скорость Группа 2 средняя скорость Группа 3 высокая скорость
       
       
       
       
       
       
суммы      
средние 7,17 6,17 4,00
Общая сумма      

Известно, что данные подчиняются нормальному закону распределения.

Выдвинем нулевую гипотезу: различия в объеме воспроизведения слов между группами являются случайными и не зависят от скорости предъявления слов.

Альтернативная гипотеза: Различия в объеме воспроизведения слов между группами являются не случайными и зависят от скорости предъявления слов.

Последовательность операций в однофакторном дисперсионном анализе для несвязанных выборок:

1. подсчитаем SSфакт - вариативность признака, обусловленную действием исследуемого фактора. Часто встречающееся обозначение SS - сокращение от "суммы квадратов" (sum of squares).

, (1)

где Тс – сумма индивидуальных значений по каждому из условий. Для нашего примера 43, 37, 24 (см. табл. 1);

с – количество условий (градаций) фактора (=3);

n – количество испытуемых в каждой группе (=6);

N – общее количество индивидуальных значений (=18);

- квадрат общей суммы индивидуальных значений (=1042=10816)

Отметим разницу между , в которой все индивидуальные значения сначала возводятся в квадрат, а потом суммируются, и , где индивидуальные значения сначала суммируются для получения общей суммы, а потом уже эта сумма возводится в квадрат.

По формуле (1) рассчитав фактическую вариативность признака, получаем:

2. подсчитаем SSобщ – общую вариативность признака:

(2)

3. подсчитаем случайную (остаточную) величину SSсл, обусловленную неучтенными факторами:

(3)

4. число степеней свободы равно:

=3-1=2 (4)

5. «средний квадрат» или математическое ожидание суммы квадратов,усредненная величина соответствующих сумм квадратов SS равна:

(5)

6. значение статистики критерия Fэмп (критерий Фишера) рассчитаем по формуле:

(6)

Для нашего примера имеем: Fэмп=15,72/2,11=7,45

7. определим Fкрит по статистическим таблицам. Для df1=k1=2 и df2=k2=15 табличное значение статистики равно 3,68

8. если Fэмп<; Fкрит, то нулевая гипотеза принимается, в противном случае принимается альтернативная гипотеза. Для нашего примера Fэмп > Fкрит (7.45>3.68), следовательно принимается альтернативная гипотеза.

Вывод: различия в объеме воспроизведения слов между группами являются более выраженными, чем случайные различия внутри каждой группы (Р-значение меньше уровня значимости альфа<0,05, следовательно критерий Фишера значим). Т.о. скорость предъявления слов влияет на объем их воспроизведения.

 

Решим задачу в Excel.

На лист Excel ввести исследуемые данные. Дальше выбираем команду Сервис – Пакет анализа – Однофакторный дисперсионный анализ. В диалоговом окне Входной интервал вводим исходных данных, в разделе Группировка переключатель По столбцам (т.к. результаты по группам расположены в столбцах). Далее указать Выходной диапазон (любую свободную ячейку на листе).

Результат анализа. В результате будет получена следующая таблица.

 

Параметр Альфа определяет статистический уровень значимости для теста (=0,05).

SS - вариативность признака, обусловленного действием исследуемого фактора.

Df –число степеней свободы

MS – «средний квадрат» или математическое ожидание суммы квадратов

F – статистика критерия эмпирическая (т.е расчетная)

F критическое – определяется по статистическим таблицам

Р-значение сравнивается с уровнем значимости. Если P-значение меньше 0,05, критерий Фишира значим, иначе, незначим.

если Fэмп<; Fкрит, то нулевая гипотеза принимается, в противном случае принимается альтернативная гипотеза

Мы получили все те же данные при помощи Excel, вывод такой же.


 







Дата добавления: 2015-08-12; просмотров: 1295. Нарушение авторских прав; Мы поможем в написании вашей работы!



Обзор компонентов Multisim Компоненты – это основа любой схемы, это все элементы, из которых она состоит. Multisim оперирует с двумя категориями...

Композиция из абстрактных геометрических фигур Данная композиция состоит из линий, штриховки, абстрактных геометрических форм...

Важнейшие способы обработки и анализа рядов динамики Не во всех случаях эмпирические данные рядов динамики позволяют определить тенденцию изменения явления во времени...

ТЕОРЕТИЧЕСКАЯ МЕХАНИКА Статика является частью теоретической механики, изучающей условия, при ко­торых тело находится под действием заданной системы сил...

Классификация потерь населения в очагах поражения в военное время Ядерное, химическое и бактериологическое (биологическое) оружие является оружием массового поражения...

Факторы, влияющие на степень электролитической диссоциации Степень диссоциации зависит от природы электролита и растворителя, концентрации раствора, температуры, присутствия одноименного иона и других факторов...

Йодометрия. Характеристика метода Метод йодометрии основан на ОВ-реакциях, связанных с превращением I2 в ионы I- и обратно...

Кран машиниста усл. № 394 – назначение и устройство Кран машиниста условный номер 394 предназначен для управления тормозами поезда...

Приложение Г: Особенности заполнение справки формы ву-45   После выполнения полного опробования тормозов, а так же после сокращенного, если предварительно на станции было произведено полное опробование тормозов состава от стационарной установки с автоматической регистрацией параметров или без...

Измерение следующих дефектов: ползун, выщербина, неравномерный прокат, равномерный прокат, кольцевая выработка, откол обода колеса, тонкий гребень, протёртость средней части оси Величину проката определяют с помощью вертикального движка 2 сухаря 3 шаблона 1 по кругу катания...

Studopedia.info - Студопедия - 2014-2024 год . (0.011 сек.) русская версия | украинская версия