Дисперсионный анализ
Что делать, когда мы хотим сравнить несколько выборок? Попарно сравнивать параметрическими или непараметрическими критериями? Очень быстро мы утонем в расчётах. Но, разумеется, наука уже знает способ нам помочь. Для сравнения трёх и более выборок используют дисперсионный анализ (ANOVA). Дисперсионный анализ, основы которого были разработаны Фишером в 1920-1930 гг., позволяет устанавливать не только степень одновременного влияния на признак нескольких факторов и каждого в отдельности, но также их суммарное влияние в любых комбинациях и дополнительный эффект от сочетания разных факторов. Разумеется, и в этом случае остается масса неучтенных факторов, но, во-первых, методика позволяет оценить долю их влияния на общую изменчивость признака, а во-вторых, исследователь обычно имеет возможность выделить несколько ведущих факторов и исследовать именно их воздействие на изменчивость признаков. Дисперсионный анализ позволяет решить множество задач, когда требуется изучить воздействие природных или искусственно создаваемых факторов на интересующий исследователя признак. Дисперсионный анализ принадлежит к числу довольно трудоемких биометрических методов, однако правильная организация опыта или сбора данных в природных условиях существенно облегчает вычисления. Идея дисперсионного анализа заключается в разложении общей дисперсии случайной величины на независимые случайные слагаемые, каждое из которых характеризует влияние того или иного фактора или их взаимодействия. Последующее сравнение этих дисперсий позволяет оценить существенность влияния фактора на исследуемую величину. Таким образом, задача дисперсионного анализа состоит в том, чтобы выявить ту часть общей изменчивости признака, которая обусловлена воздействием учитываемых факторов, и оценить достоверность делаемого вывода. Пусть, например, А – исследуемая величина, – среднее значение величины А, учитываемые факторы мы обозначим буквой х, неучитываемые – z, а все факторы вместе – буквой у (или припиской этих букв к соответствующим символам). Неучитываемые факторы составляют «шум» – помехи, мешающие выделить степень влияния учитываемых факторов. Отклонение А от при действии факторов х и z можно представить в виде суммы (А- )=У=Х+Z, где Х – отклонение, вызываемое фактором х, Z – отклонение, вызываемое фактором z, У – отклонение, вызываемое всеми факторами. Кроме того, предположим, что Х,У,Z – являются независимыми случайными величинами, обозначим дисперсии через s2Х, s2Y, s2Z, s2А. Тогда имеет место равенство: s2А=s2Х+s2Z Сравнивая дисперсии можно установить степень влияния факторов х и z на величину А, т.е. степень влияния учтенных и неучтенных факторов. Непременным условием дисперсионного анализа является разбивка каждого учитываемого фактора не менее чем на две качественные или количественные градации. Если исследуется влияние одного фактора на исследуемую величину, то речь идет об однофакторном комплексе, если изучается влияние двух факторов – то о двухфакторном комплексе и т.д. Для проведения дисперсионного анализа обязательным условием является нормальное распределение и равные дисперсии совокупности случайных величин. Для пояснения логической схемы дисперсионного анализа рассмотрим простейший произвольный пример. Предположим, что совокупности возрастающих доз удобрения на разных делянках имеют нормальное распределение и равные дисперсии. Имеется m таких совокупностей (разные делянки), из которых произведены выборки объемом n1,n2,…,nm. Обозначим выборку из i -ой совокупности через (хi1,хi2,…хin) - урожайность делянок. Тогда все выборки можно записать в виде таблицы, которая называется матрицей наблюдений. Таблица 2.3
|