ОБЩИЕ ПОЛОЖЕНИЯ. Цель методического издания – научить студентов обрабатывать статистические данные и по данной выборке делать выводы об изучаемой случайной величине
Цель методического издания – научить студентов обрабатывать статистические данные и по данной выборке делать выводы об изучаемой случайной величине, т.е. о генеральной совокупности её значений. Подготовка социологов в вузе включает в себя и изучение дисциплины «Математика», и такой ее раздел, как «Математическая статистика». Выполнение контрольной работы в соответствии с данными методическими указаниями способствует решению задачи – закрепить теоретические и практические знания студентов, полученные при изучении раздела «Математическая статистика» дисциплины «Математика» с помощью средств вычислительной техники и анализа полученных результатов. Программа изучения «Математической статистики» построена на следующие принципах: 1. Изучение «Математической статистики» способствует формированию фундаментальных знаний будущих социологов. 2.Использование прохождения учебной практики по математической статистике как аппарата для социологических исследований. 3.Закладка фундамента для непрерывной математической подготовки, необходимой для проведения современных социологических исследований, изучения и внедрения новых технологий. Содержание раздела «Математическая статистика» дисциплины «Математика» приведено в Приложении 1 При выполнении контрольной работы студент должен: знать основные положения в области теории вероятностей и математической статистики; уметь использовать основные понятия и теоремы в практической деятельности; научиться собирать и систематизировать материал, получать первоначальные навыки его обработки. Промежуточной формой контроля по математике, включая и математическую статистику, является экзамен.
МЕТОДИЧЕСКИЕ УКАЗАНИЯ К ИЗУЧЕНИЮ ДИСЦИПЛИНЫ
Основные понятия математической статистики В математической статистике принято выделять два основных направления исследований: первое направление связано с оценкой неизвестных параметров, второе – с проверкой некоторых априорных предположений или статистических гипотез. Основными понятиями математической статистики являются: генеральная совокупность, выборка, эмпирическая функция распределения. Генеральная совокупность – это случайная величина или случайный вектор, заданный на вероятностном пространстве событий. Исследование всех элементов генеральной совокупности невозможно и нецелесообразно, так как объём элементов очень велик, и обработка стоит большого труда. Поэтому из генеральной совокупности отбирают определённое количество элементов, которые называются выборкой, и производят их изучение. Элементы выборки называют вариантами. Чтобы по данным выборки можно было судить об интересующем признаке генеральной совокупности, все объекты должны иметь одинаковую вероятность попадания в выборку, т.е. выборка должна быть репрезентативной. И тогда, в соответствии с законом больших чисел, результаты выборки будут близки к результатам, которые могут быть получены при наблюдении всех объектов генеральной совокупности. Способ составления выборки может быть повторным, если один и тот же объект генеральной совокупности попадает под наблюдение более одного раза, в противном случае способ составления выборки называется бесповторным. Если объём выборки достаточно велик, то существенной разницы между бесповторной и повторной выборками нет. Среди этих двух основных способов различают следующие способы составления выборки: механический, при котором объекты отбирают через определённый интервал (например, каждое десятое изделие с конвейера); простойслучайный, при котором объекты отбирают случайно (например, каждый объект заменяют жетоном с номером, жетоны перемешивают и случайным образом берут несколько штук, а затем по ним берут объекты); типический, при котором объекты генеральной совокупности разбивают на непересекающиеся группы, а из них случайным образом берут объекты; серийный, при котором объекты разбивают на непересекающиеся группы и берут случайным образом некоторые из групп. Типическим способом пользуются тогда, когда результат наблюдения заметно колеблется в различных типических группах генеральной совокупности. Серийным способом пользуются тогда, когда результат наблюдения колеблется незначительно в различных группах, и тогда наблюдению подвергаются все объекты случайно выбранной группы (серии). Статистическая обработка выборки начинается с составления дискретного вариационного ряда (Таблица 3), где
n – объём выборки. Варианты могут быть записаны в виде точечных значений или в виде интервалов непрерывных значений. В первом случае вариационный ряд называется дискретным, во втором – интервальным. Эти ряды помогают выявить структуру изучаемого явления. Для интервального вариационного ряда в первой строке (столбце) таблицы записываются интервалы изменения непрерывного признака
При этом значение признака, находящегося на границе интервалов относят к правой границе интервала. На практике считают, что правильно составленный ряд распределения содержит от 6 до 15 частичных интервалов. Часто интервальный вариационный ряд заменяют дискретным вариационным рядом, выбирая средние значения интервала. После составления вариационного ряда необходимо построить функцию распределения выборки или эмпирическую функцию F*(x), то есть функцию найденную по данным эксперимента. Эмпирическое распределение можно изобразить в виде полигона, гистограммы или ступенчатой кривой. Ступенчатая кривая. При известном статистическом распределении частот количественного признака Х, значение
Число наблюдений
Если за F*(x)= Таким образом, для того чтобы найти, например
Эта функция служит приближённой оценкой теоретической функции распределения F(x) случайной величины Х. Различие между эмпирической и теоретической функциями состоит в том, что теоретическая функция F(x) определяет вероятность события Х<х, а эмпирическая функция 1) значения эмпирической функции принадлежат интервалу 2) F*(x)- неубывающая функция; 3) если На рисунке 1 изображена функция распределения Полигон частот (или многоугольник распределения) – это ломаная, отрезки которой соединяют точки ( В случае непрерывных случайных величин строится гистограмма частот или относительных частот. Это ступенчатая фигура, состоящая из прямоугольников, основаниями которых являются частичные интервалы длиной h, а высоты равны Графическое изображение вариационных рядов в виде полигона и гистограммы позволяет получать первоначальное представление о закономерностях, имеющих место в совокупности наблюдений. На основании полученных выборочных данных необходимо сделать предположение, что изучаемая величина распределена по некоторому определённому закону. Для того чтобы проверить, согласуется ли это предположение с данными наблюдений, вычисляют частоты наблюдаемых значений, т.е. находят теоретически сколько раз величина Х должна была принять каждое из наблюдаемых значений, если она распределена по предполагаемому закону. Для этого находят выравнивающие (теоретические) частоты по формуле:
где n – число испытаний,
В случае непрерывного распределения весь интервал возможных значений делят на k непересекающихся интервалов и вычисляют вероятности Эмпирические и выравнивающие частоты сравнивают, и при небольшом расхождении данных, делают заключение о выбранном законе распределения.
Статистические оценки и их свойства Статистической оценкой неизвестного параметра называется функция от наблюдаемых случайных величин. Пусть Если М( Оценка Если несмещённая оценка имеет наименьшую дисперсию при одних и тех же объёмах выборки, то она называется эффективной. При большом объёме выборки наряду с требованием несмещённости и эффективности, к оценке предъявляют требование состоятельности. Оценка называется состоятельной, если вероятность сколь угодно малого отклонения оценки от оцениваемого параметра сколь угодно близка к единице:
После извлечения из генеральной совокупности выборки объёма n рассчитывают основные числовые характеристики выборки: Выборочные средние При статистической обработке материала необходимо учитывать особенности изучаемых явлений, для изучения которых требуются различные средние. Математическая статистика выводит различные средние из формул степенной средней:
Вопрос о том, какой вид средней необходимо применить, решается путём конкретного анализа изучаемой совокупности, определяется материальным содержанием изучаемого явления, а также исходя из принципа осмысленности результатов при суммировании. Средняя арифметическая: Это величина ( или где а Она исчисляется в тех случаях, когда объём усредняемого признака, образуется как сумма его значений у отдельных единиц изучаемой статистической совокупности. Средняя гармоническая:
Эта величина применяется, когда статистическая информация не содержит частот по отдельным вариантам совокупности, а представлена как их произведение, т.е. произведения по каждому признаку равны. Средняя квадратическая:
Средняя геометрическая:
Этой средней удобно пользоваться, когда уделяется внимание не абсолютным разностям, а отношениям двух чисел, т.е. индивидуальные значения признака – относительные величины. Она используется в расчётах среднегодовых темпов роста, а также для определения равноудалённой величины от максимального и минимального значений признака. Необходимо заметить, что разные виды средних величин при одном и том же исходном материале имеют неодинаковое значение:
Эти неравенства называются мажорантностью средних. Для характеристики структуры совокупности применяются особые показатели, которые называются структурными средними. К ним относятся мода и медиана. Выборочная мода ( Выборочная медиана ( Если Различие индивидуальных значений признака внутри изучаемой совокупности в статистике называют вариацией признака, которую характеризуют следующие показатели: Выборочная дисперсия (
Мерой надёжности средней является выборочное среднее квадратическое отклонение (
Чем меньше Коэффициент вариации (V) - это выраженное в процентах отношение выборочного среднего квадратического отклонения к выборочной средней. Он служит для сравнения величин рассеяния двух вариационных рядов. Ряд, у которого коэффициент вариации больше, имеет большее рассеяние: V = Если V>33%, то имеет место большая колеблемость изучаемого признака. Для характеристики колеблемости признака используется ряд показателей. Наиболее простой - размах варьирования (R). Это разность между наибольшей и наименьшей вариантами: R = Чтобы дать обобщающую характеристику распределению отклонений, исчисляют среднее абсолютное отклонение (
Величины Выборочная средняя Для устранения смещённости выборочной дисперсии и среднего квадратического отклонения их умножают на дроби
Оценки Все оценки, рассмотренные выше – точечные. Они выражаются одним числом. При выборке малого объёма точечная оценка может значительно отличаться от оцениваемого параметра, то есть могут возникнуть грубые ошибки. Задача интервального оценивания состоит в том, чтобы по данным выборки найти такой интервал, который с заданной вероятностью покрывает оцениваемый параметр.
Заданную вероятность Интервал ( Пусть генеральная совокупность распределена по нормальному закону, причём Вероятность заданного отклонения вычисляется по формуле: где t =
P( Для заданного Квантилью, или левосторонней критической областью, отвечающей вероятности Доверительный интервал для оценки среднего квадратического отклонения случайной величины Х с надёжностью
где S – несмещённое значение выборочного среднего квадратичного отклонения; q – параметр, который находится по таблице (Приложение 5) на основе известного объёма выборки n и заданной надёжности оценки С помощью рядов распределения решается важнейшая задача статистики – характеристика закономерностей и изменение показателей колеблемости для варьирующих признаков. Определение формы кривой распределения является важной задачей, так как обрабатываемый материал даёт по определённому признаку характерную, типичную для него кривую. Всякое искажение формы кривой означает нарушение или изменение нормальных условий возникновения материала. Для характеристики распределений используются моменты распределения. Это средние величины отклонений определённой степени от какого-либо числа. Если это средние арифметические, то моменты называются центральными. Если отклонения отсчитываются от произвольно выбранного начала, то они называются условными. Если же это число равно 0, то моменты распределения называются начальными. Центральный эмпирический момент k -го порядка случайной величины Х вычисляется по формуле:
Наиболее точным и распространённым показателем является асимметрия (
Асимметрия положительна, если «длинная часть» кривой распределения расположена справа от математического ожидания и отрицательна, если «длинная часть» кривой расположена слева от математического ожидания. Оценка степени существенности этого показателя даётся с помощью средней квадратической ошибки, которая зависит от объёма наблюдений n и рассчитывается по формуле:
если отношение Для оценки «крутости», то есть большего или меньшего подъёма кривой распределения по сравнению с нормальной кривой, пользуются другой характеристикой - эксцессом. Эксцесс эмпирического распределения (
Если эксцесс положительный, то кривая имеет более высокую и острую вершину, чем нормальная кривая; если эксцесс отрицательный, то сравниваемая кривая имеет более низкую и плоскую вершину, чем нормальная кривая (при равенстве математических ожиданий). Если асимметрия и эксцесс имеют небольшие значения, то предполагается близость этого распределения к нормальному.
Проверка статистической гипотезы о нормальном распределении
Наряду с задачами оценивания параметров большую группу задач математической статистики составляют задачи проверки статистических гипотез. Статистической гипотезой называется предположение относительно генеральной совокупности, проверяемое по выборочным данным. Процесс принятия решения называется проверкой статистической гипотезы. Поскольку выдвигаемая гипотеза опирается только на случайные выборочные значения, то и выводы будут носить вероятностный характер. Поэтому можно с заданной вероятностью утверждать, что гипотеза справедлива или нет. Проверяемая гипотеза называется нулевой и обозначается По выборке При любом результате проверки гипотезы есть вероятность допустить ошибку. Если отклоняется верная гипотеза, то совершается ошибка первого рода. Если принимается ложная гипотеза, то совершается ошибка второго рода. Вероятность α совершить ошибку первого рода называется уровнем значимости гипотезы. Этот уровень (вероятность отклонить верную гипотезу) выбирают как можно меньше (0,01; 0,05…) в том случае, если ошибка первого рода влечёт большие потери, а ошибка второго рода – малые. Единственный способ одновременного уменьшения вероятностей этих ошибок – это увеличение объёма выборки. Пусть гипотеза состоит в том, что генеральная совокупность подчиняется некоторому закону распределения. По выборке нужно подтвердить или опровергнуть эту гипотезу. Критерий для проверки такой гипотезы называется критерием согласия. При решении социологических задач модель закона распределения в общем случае неизвестна, поэтому возникает необходимость выбора закона распределения, согласующегося с результатами выборочных наблюдений. В предлагаемом задании следует рассмотреть критерий Пирсона, схема проверки которого состоит в следующем: 1. По выборочным данным проводят оценку параметров выбранной модели закона распределения. Предполагают, что закон распределения имеет r параметров. 2. Подставляя выборочные оценки значений параметров распределения, находят теоретические значения вероятностей:
3. Рассчитывают теоретические частоты:
4. Рассчитывают значение критерия согласия Пирсона:
Эта величина при n 5. Задаваясь достаточно малой вероятностью (уровнем значимости
Элементы теории корреляции Многие социологические задачи требуют установить и оценить зависимость двух и более случайных величин. Эта зависимость может быть функциональной, статистической или совсем отсутствовать. Отсутствие зависимости (связи) характерно для независимых случайных величин. Если каждому значению случайной величины X соответствует определённое значение случайной величины Y, то говорят, что X и Y имеют между собой функциональную зависимость. Эта зависимость реализуется редко, так как обе величины подвержены действию случайных факторов. Если каждому значению случайной величины X соответствует вполне определённый закон распределения случайной величины Y, то говорят, что X и Y имеют статистическую зависимость. Частным случаем такой зависимости является корреляционная зависимость, когда при изменении одной из величин изменяется среднее значение другой. Для исследования влияния одной величины на изменение другой рассматривают условные законы распределения первой величины при фиксированных значениях второй. Пусть Х получила одно из своих значений Корреляционной зависимостью Y от X называют функциональную зависимость условной средней
Аналогично определяется условная средняя Выражение (31) называют уравнением регрессии Х на Y, а функцию
Задача теории корреляции состоит в определении формы корреляционной зависимости и оценки тесноты этой зависимости. Функция регрессии может быть линейной, квадратичной, показательной и т. д. Если функции (30), (31) линейные, то корреляционная зависимость называется линейной, в противном случае – нелинейной. Степень зависимости Y от X оценивается по величине рассеяния значений Y вокруг условного среднего Для того, чтобы иметь конкретное представление о двумерном распределении и его характеристиках, результаты n наблюдений, в каждом из которых регистрируются совместные значения X и Y, вносят в корреляционную таблицу (таблица 7). Если одна и та же пара чисел (x,y) наблюдается несколько раз, то эти данные группируют, т.е. подсчитывают частоты В первой строке таблицы указывают наблюдаемые значения признака Х, а в первом столбце – наблюдаемые значения признака Y. На пересечении строк и столбцов вписывают частоты Выборочное уравнение линейной регрессии Y на X имеет вид:
Так как по выборочным данным можно получить только оценки параметров, то оценку коэффициента k обозначим через
Используя метод наименьших квадратов, основанный на минимизации суммы квадратов отклонений теоретических значений функции от наблюдаемых значений
|