Лекция 20.03.13.
Репрезентативность выборки. В матстате такого понятия вообще нет. С точки зрения точных наук это понятие так же бесполезно. Поэтому вообще вопрос обсуждаемый.
Определения: Репрезентативность — (с фр. Показательный, представляющий собой) — в общей теории статистики — соответствие характеристик полученных в результате выборочного наблюдение показателям, характериемых всю генеральную совокупность. Расхождение между указанными показателями представляют собой ошибку репрезентативности, которая может быть случайной или систематической. (Большой энциклопедический словарь) Репрезентативность — главное свойство выборочной совокупности, состоящее в близости ее характеристик к тем характеристикам, откуда они отобраны. (А. Я. Боярский). Рассмотрение выборочной совокупности в 2 направлениях — сравнение переменных и характеристик, и колеблемость изучаемых характеристик. Чаще всего репрезентативность измеряется ошибкой выборки. В самом общем виде, репрезентативность — это то свойство выборки, позволяющее переходить от выборочной совокупности к совокупности генеральной.
На чем основывается уверенность в таких методах? Есть проблемы: каждое исследование уникально (с полной точностью мы не можем воспроизвести ситуацию опроса). И вообще эффективны ли индуктивные методы. Справедливы ли наши заключения? Многие утверждают, что если отбор элементов произведен правильно, то репрезентативность обеспечивается автоматически. Но это так-то не так: ведь объем выборки большой, и она неоднородна.
Надо иметь в виду: - В силу индуктивного характера, репрезентативность всегда конкретна (каждый раз надо обосновывать построение) - Репрезентативность — всегда гипотеза, которая хуже или лучше обоснована. Но всегда есть шанс, что она будет отвергнута. - Априорное обоснование лежит не в статистических методах и процедурах отбора, а в понимании закономерностей, которые лежат в основе изучаемого явления. - В социологических исследованиях речь идет не только о статистических методах. Обеспечение валидности (нестатистическое понимание репрезентативности) - В экспертных опросах, качественных методах вообще нет того смысла. В качественных методах строится теоретическая выборка (обеспечивается репрезентативность понятий)
В. И. Шлипентох: обращает внимание на то, что можно выделить прямую и обратную задачу репрезентативности. Т.е. Задачу вычленения репрезентативной части можно условно назвать «прямой». Всегда есть сверх-объект (в отношении чего репрезентативна часть). Какую сверх часть представляет наша выборка — обратная задача.
Планирование выборки включает в себя много этапов: · выбор единицы отбора · установление основы выборки · собственно планирование выборки (включает в себя выделение параметров отбора и оценки репрезентативности, выбор критериев отбора, определение ориентировочного объема выборки, установление вида выборки и схема отбора) · формирование выборочной совокупности · контроль репрезентативности и ремонта выборки · распространение резултатов на исследуемую совокупность
центральные вопросы: установления основы выборки, выбор единицы отбора и планирование выборки. т.е. кого, сколько и как отбирать? Эти вопросы увязану между собой. Они должна соответствовать объекту и цели.
Мы должны разделить изучаемую совокупность на единицы отбора (чаще всего это индивид или группа людей, но так не всегда. Единицами могут быть самые разные объекты. Единицы наблюдения и единицы наблюдения могут не совпадать)
Основа выборки. Общая схема определяется основой выборки. Формирование и оценка качества этой основы являются важными. Набор требований: полнота основы (представленность в списке всех единиц генеральной совокупности), отсутствие дублирования (каждая единица должна быть представлена 1 раз), точность (не устаревшие данные о генеральной совокупности), адекватность целям исследования, удобство использования. Основа выборки будет считаться не полной, если содержит пропуски отдельных единиц или групп, либо содержит сведения о несуществующих единицах, либо данные о существующих единицах, но не реальные. И т.п. Недостати есть всегда. Устаревание!!!
Лекция 27.03.13 Основы, наиболее употребительные для соц. Исследований: списки отдельных лиц (сост. Определенными органами, организациями и т.д.), регистры (если бы они существовали), картотеки (предприятий, кадров), базы данных (о категориях лиц, клиентские базы), материалы переписи населения, списки домохозяйств, похозяйственные книги с/х, карты (районов, регионов), списки жилищ, списки отдельных территориальных единиц, списки и описание избирательных участков, счетных комиссий, справочники и так далее. Описание основ выборки было дано Ейцем (написание фамилии хреновое у меня)))). Арутюнян. Что-то тоже делал в середине 80-х годов. Списки он делал. Информация — дефицитный ресурс (в силу стоимости). Один из первых регистров был создан в Швеции 1749 году. Ребенок попадает в регистр с момента рождения и выбывает только при смерти или после выезда из страны. В России предложения о создании регистра, но как-то не судьба. Горяченко сейчас что-то говорит о переписях, но я ничего не понимаю. А потом про натурный обход и карты. Но логики никакой. Я хочу спать. Не знаю зачем пришла сюда. Она говорит, что телефонные базы — стремные. А инет сейчас вполне себе неплох. Объем выборки Често встает вопрос: «какой % генеральной совокупности надо опросить?», но этот вопрос вообще не правомерен, т.к. не существует относительного объема выборки. Объем обычно меньше 0,1%, а то и 0,004%. Но тем не менее все репрезентативно и вообще окей. Существует только абсолютный объем выборки! Нужна информация о: допустимая погрешность, желаемая точность результатов и ресурсные ограничения. Все выборки содержат элемент ошибки. Только случайно можно получить такую ситуацию, когда оценка по генеральной совокупности совпадет с выборочной. Всегда есть шанс построить неудачную выборку (даже если она была построена по всем правилам и канонам), что она превысит 5%. Ошибки распределения распределены нормально. Всегда есть шанс, что будет косяк. Если бы увеличиваем ош. В 2 раза, то объем выбоорки мы должны увеличить в 4 раза. Для гетерогенной совокупности — ошибка больше и соответственно объем больше. Парамерты: однородность, целесообразный уровень надежности выводов, степени дробности группироков для анализа планируемых по задачам, которые мы решаем. 3 стратегии: - предварительный расчет выборки: должно быть на входе некое утверждение о желаемой точности (задаем ДИ, ошибку предельную). Расчет объема выборки основан на понятии предельной ошибки выборки (заданной точности) и принятого уровня доверительной, то есть, вероятности того, что для изучаемого признака отклонения выборочного значения характеристики не превысят некоторого критического значения (предельной ошибки): e = t x корень из (pq/n). n = (t^2 pq) / e^2 !!!!! n = (2^2 0,5 0,5) / (0,4^2) Для оценки доли признака в генеральной совокупности, обладающего данным качеством, объем выборки с возвращением. M = б/ корень из n. E = txM. T = 1,96 при P=0,95 T = 2 при Р=0,954 Максимальная степень неоднородности — 0,5х0,5 (0,25) - последовательная стратегия - комбинированная стратегия
10.04.13 Лекция. Продолжение прошлой.
Нет понятия относительного объема выборки — он всегда абсолютный. Зависит от ряда факторов (степень однородности совокупности — по наиболее изменчивому признаку; методы сбора информации; …). Существует 3 основных стратегии расчета выборки: предварительного, последовательного, комбинированная.
Стратегия предварительного расчета выборки — ориентировачный объем выборки расчитывается до проведения исследования. Должно иметься некоторое утверждение относительно желаемой точности выборки — допустимая предельная ошибка (задаем ДИ): {О с палкой и волной — е <или равно О с палкой <или равно О с палкой и волной + е} О с палкой — параметр генеральной совокупности О с палкой и волной — параметр выбороной совокупности e — предельная ошибка выборки
Нужно заранее задать допустимую степень риска, которому мы подвергаемся. Такая вероятность, которая представляет собой вероятность допустить ошибку 1го рода, то е сть отвергнуть правильную гипотезу, называется уровнем значимости альфа.
Расчет объема выборки основан на понятиях предельной ошибки выборки (заданной точности) и принятого уровня доверительной вероятности, то есть, вероятности того, что для изучаемого признака отклонения выборочного значения характеристики не превысят некоторого критического значения (предельной ошибки). Величина ошибки выборочной средней мю, фоторая выражается формулой: мю = корень из (б квадрат/ n) Предельная ошибка: е = tмю Тогда объем выборки равен: n = (t^2 б^2) / e^2 t — коэффициент доверия, гарантирующий, что ошибка не превысит z-кратнуюсреднюю ошибку (нормальное отклонение, задаваемое исходя их уровня доверительной вероятности, которое находится по таблицам критических точек стандартного нормального распределения) Для оценки доли признака в генеральной совокупности в генеральной совокупности, обладающего данным качеством: е = t корень (pq/n) объем выборки с возвращением: n = (t^2 pq) / e^2. Тут p — это доля, а не вероятность.
Объем выборки без возвращения: n = (t^2 pqN) / (e^2 N + t^2 pq) t = 1,96 для доверительной вероятности 0,95 t = 2 для......0, 954
Таблица. Ориентировачный объем выборки в зависимости от делаемой степени точности.
Если переменные количественные: Откуда взять предварительные оценки дисперсии? 1. С помощью отбора в 2 этапа (1 — случайная выборка, потом на ее основе дисперсию) 2. По данным пробного исследовнаия 3. По данным предыдущих обследований по аналогичным совокупностям 4. На основе априорных представлений о характере распределения изучаемого признака в генеральной совокупности
Каждая группа долдна быть наполнена не менее объема малой выборки (25-30 единиц).
Последовательная стратегия — объем выборки ставится в зависимости от результатов, получаемых в ходе исследования (прирост информации, данные о разбросе оценок). Решение о достаточности принимается тогда, когда происходит насыщение, то е сть прекращаеттся существенный прирост информации Комбинированная стратегия — сочетание обеих стратегий. Априорный расчет дает верхнюю границу, а затем ведется оценка прироста информации.
Виды выборок: (способ отбора единиц, число ступеней отбора, степень преобразования основы выборки) 2 крупные группы: вероятностные (случайные) и неслучайные выборки.
1. Вероятностная группа (все элементы ГС имеют равные шансы попасть в выборку) 1.1. Собственно случайная (в том числе механическая). Эталон для организации исследования. 1.2. Модифициорованная случайная.
2 разновидности случайного отбора: повторный, бесповторный (с/без возвращением/я)
Лекция 17.04.13 1) отбор первого элемента 2) шаг 3) анализ особенностей основы выборки
я не понимаю, что писать:(
Стратифицированная выборка. Основана на использовании априорной информации, которую мы фактически перобразуем для получения однородных групп. Из этих групп мы и формируем выборку. Стратификацию выгодно применять для неоднородных совокупностей. Это удобно, если большая дисперсия и мы пытаемся выделить однородные группы, которые сильно отличаются между собой. 2 цели: увеличить точность и что-то еще Проблемы: выбор переменной стратификации, определение числа страт,определение границ страт, размещение выборки по стратам. Стратифицирующие признаки должны быть связаны с тем, что мы изучаем. Принцип стратификации по минимуму дисперсии (принцип Далениуса) Пропорциональное, равномерное (объем выборки из каждой страты - константа), оптимальное размещение выборки
Лекция 8.05.13. Первая модификация связана с уменьшением внутригрупповой дисперсии за счет предварительного выделения групп, более однородных чем вся совокупность в целом. Получается стратифицированная выборка Вторая модификация, осуществляемая за счет уменьшения межгрупповой дисперсии, представлена гнездовой (серийной) выборкой, причем она наиболее эффективна в случае …
Гнездовой отбор базируется на выделении промежуточных единиц отбора, представляющих собой группы, состоящие из более мелких единиц отбора (элементов), которые являются единицами обследования. Единица отбора и единица наблюдения не совпадают. Гнездовую выборку иногда назыают кластерной или серийной. Преимущество перед собственно случаной выборкой: повышение организационной эффективности выборки, ее концентрация. Основу выборки для гнездового опроса сформировать проще, чем для собственно случайной выборки, поскольку основой в этом случае является список совокупностей, а не отдельных ее элементов.
Часто гнездовой отбор выступает как элемент многоступенчатой выборки, когда вначале выбираются гнезда, а затем выборка из отобранных гезд. Причины распространения многоступенчатой ывборки: удобство организации, концентрация на ограниченной территории, недостаточность априорной информации, имеющейся у исследователя относительно единц наблшюдения. Принципиальные особенности:...........
Многофазная выборка: 2 варианта: - из выборки, построенной для первого этапа(фазы), в дальнейшем формируется подвыборка («выборка из выборки») тех же единиц отбора - на следующем этапе обследуются все те же единицы отбора, которые участвовали в выборке на 1 фазе. Принципиальное отличие многофазной выборки от многоступенчатой - при многофазной выборке на всех фазах сохраняется одна и та же единица отбора - при многоступенчатой выборке происходит смена едниц отбора на последующих ступенях. Используется, как правило, для углубленных исследований на подвыборке по расширенной программе, либо в лонгитюдных динамических исследованиях.
Неслучайные методы отбора: Неслучайные виды отбора, в отличие от вероятностных, не основаны на принципе равенства шансов у каждой единицы попасть в выборку. Для нее в принципе автоматически не обеспечивается соответствие выборочной и генеральной совокупностей.
Основные недостатки: сложно построить репрезентативную выборку и невозможно определить теоретическую ошибку выборки.
Факторы, определяющие природу случайного отбора: · готовность исследователя иметь дело с доступными единицами (фактор доступности), то есть решение о включении в выборку остается за респондентом. · Стремление максимально гарантировать исследование необходимых объектов в усливиях ограниченных ресурсов (фактор целенаправленности), то есть решение о включении в выборку отстается за огранизатором.
Виды неслучайных выборок
А и В проще использовать для пилотажа, при пробных исследованиях, при изучении интимных сторон жизни, для изучения здоровь, для подбора участников эксперимента, подбор участников фокус-групп.
Квотный отбор — обеспечение полного соответствия выборки и генеральной совокупности по заранее выбранным параметрам, то есть «модель генеральной совокупности» Привлекательные стороны: быстрота, экономичность, отсутствие необходимости основы выборки, удобство, гибкость, эластичногсть Недостатки: зависимость между признаками квотирования, не обеспечивается автоматически репрезентативность, нельзя рассчитать теоретические ошибки репрезентативности, сложность отбора информации в труднодоступных квотах, тенденция превращения квтной выборки в доступную, трудности контроля за интервьюером.
Лекция 15.05.13 (Ремонт выборкии пр) Квотная выборка — выборка, ориентированная на модель генерально совокупности. Имеет тенденцию превращаться в доступную выборку. Маршрут так же задается (шаг, сторона улицы, дома и т.д.). Выбирается начальная квартира (в зависимости от этажности дома, от кол-ва квартир в доме), задается шаг. Важно, чтобы он не совпадал с кол-вом квартир на этаже и чтобы он не был кратен кол-ву квартир в подъезде. Проверка с помощью критериев стьюдента, хи-квадрат, напрмер.
Псоле сбора информации возникает проблема ремонта выборки. Ремонт выборки — выравнивание распределений выборочной и генеральной совокупности. Или первичная статистическая обрабока данных, для того, чтобы обеспечить корректировку социально-демографических характеристик, выделяющихся ответов, восстановление пропущенных ответов и т.д. Делается для повышения качества собранного массива. Не очень часто используется эта процедура, не всегда это делается обоснованно.
Общие принципы, на которых базируется логика ремонта выборки · Доминирование неформальных процедур. Должно быть знание об изучаемой проблеме. Математические процедуры — не так важны. Решение о проведении ремонта проводится на основе содержательных рассуждений и соображений. · Оптимизация.
Ремонт выборки осуществляется после очищения массива от ошибок ввода и т.д.
- Корректировка социально-демографических характеристик респондента образование — анализ таблиц сопряженности. Влияние характеристик на те или иные ответы. В некоторых случаях, что-то можно редактировать (пол, например), а что-то нет. ВЗВЕШИВАНИЕ - Корректировка слишком выделяющихся ответов. Резко выделяющиеся ответы иногда можно удалить (либо всю анкету, либо сам ответ). Можно так же отнести ответ к графе «другое». Можно еще уменьшить дробность шкалы. - Корректировка полученных ответов. (табличные вопросы, открытые вопросы, открытые вопросы по какой-то тематике). Заменять модой, медианой, средним Если пропущен пол, возраст и пр — ищется связь с ответами, либо вписывается наиболее часто повторяющиеся ответы. Если был осуществлен ремонт, то это должно быть указано в отчете — как, каким образом и т.д.
|