Выборка. Проблемы формир-я выборки.
Выборка -сов-ть элем-в подмножества большой гр объектов. По данным, получ-м на этом подмножестве, дел-ся опред-е выводы касательно всей гр. Возможн распростр-я выбор-х данных на большую гр зависит от метода, с пом кот была произведена выборка. Понятие совок-ть (популяция) может относиться не только к людям, но и к фирмам, работ-м в промыш-ти, к орг-м розн или опт торговли или даже к тов, производимым на п/п, и это понятие опред-ся как все множ-во элем-в, удовлетвор-х некот заданным усл-м. Основа (база) выборки - перечень элем-в, из кот будет произв-ся выборка, она может сост из территор-х ед-ц, орг-й, лиц и др элем-в. Выбор-й метод эффективнее переписи всей совок по след причинам: 1. полное обслед-е совок требует очень больших матер-х и вр-х затрат. 2. к моменту завершения переписи и обработки данных, получ-я инф-я часто устаревает. 3. в некот случаях ценз просто невозможен. 4. Провед-е переписей требует привлеч большого штата сотруд-в, что влечет за собой возраст-е вероятн появл систематич ошибок. Сущ след последов-ть, кот можно придерж-ся при составл-и выборки. 1эт. задать совок-ть или набор элем-в, кот необходимо обследовать. Чем проще опред-ся целевая популяция, тем выше ее охват и тем легче и дешевле процедура формир-я выборки. Охват -это выраж-я в %доля элементов популяции или группы, кот удовлетв-т усл-м включ-я в состав выборки. Охват прямо влияет на врем-е и матер-е затраты, необх-е для проведения обслед-я. Если охват большой врем и матер затраты, потребные для сбора данных, сводятся к мин. И наоборот, с увелич кол-ва критериев, кот должны удовлетворять потенц-е респонд, возраст и матер-е, и врем-е изд-ки, потребные для их выявления. 2эт. опред основы выборки, кот явл перечнем элементов, из кот будет произв-ся выб. 3эт. опред-е процедуры отбора. Выбор метода или процедуры составления выборки во многом зависит от принятой исслед-м основы выборки. Разл типы выборок требуют разл типов основ выборки. Все техники контроля выборки м б разделены на 2 категории: наблюд за вероятн-ми и за детерминир-ми (квотными) выб. Вероятностная выборка – это выборка, в кот каждый член совок-ти может включ-ся с некот заданной ненулевой вероятн-ю. Преимущ -позв оценить возможную ошибку выбор-го обслед-я.Типы:- Простая случайная выборка- каждый элемент, включ в выб, обладает одной и той же заданной вероятн-ю попадания в число исслед-х элем-в, и люб комбинация элем-в исх-й популяции может потенц-но стать выборкой.(все студ колледжа по номерам) Предпочтит-й метод формир-я простой случ выборки основан на использ-и таблицы случ-х чисел. - Стратифицир-я выб - это вероятн-я выб, для кот хар-рна след 2шаг-я процедура:1. Генер-я (исх-я) совок-ть дел на ряд непересек-ся, исчерпыв-х ее подмножеств. Подмножества, на кот подразд генер совок-ть, наз слоями или частными совок-ми. Каждый элемент совок-ти должен входить в один и только один из слоев; при этом процедура распред-я должна охват все без искл-я элементы генер-й совок-ти.2. В каждом подмнож или гр произв-ся независимый отбор элем-в простых случ-х выборок. Элементам генер-й совок-ти каждой страты присв-ся порядк номера от 1 до 10. Далее для отбора элем-в может быть использ таблица случ-х чисел. Преимущ: -обеспеч большую точность выбор-х статистик, чем простая случ-я выборка. -раздел-е позволяет обследовать интерес-е исслед-ля хар-ки опред-х подмножеств. Хотя стратифицир выб дают более точные оценки, они имеют и большую стоим. Поэтому при выборе стратифицир выб необходимо сделать выбор между пропорционально (выб, в кот межслойное соотнош наблюдений пропорц-но относит-й доле элем-в в каждом слое генер-й совок-ти) и непропорц-но (выб, в кот V отд-х слоев или подмножеств зависит от V и изменчивости соотв-х слоев генер-й совок-ти, т.е. слои с большей изменч-ю колич-го признака получают в выб большее, а слои, близкие к гомогенности, меньшее представл-е, чем в пропорц-но стратиф-й выборке)стратифицир выб. Преимущество пропорцо распред-я состоит в том, что здесь достаточно знать только относит размеры каждой страты для опред-я кол-ва выбор-х наблюд-й, кот д б отобраны из каждого слоя для зад-го V выборки. Однако, непропорц-но стратифицир-я выборка может давать более точные рез-ты. При ее сост одновро учит-т 2 критерия: V страты и ее изменчивость. - Груп-е выб (кластерные) –вероятн-я выб, для кот хар-на след 2ступ-я процедура: 1) генер совок-ть делится на ряд непересек-ся исчерпыв-х ее подмножеств; 2) производится случ отбор подмножеств. Если для выб используют все эл выбр-х подмножеств, процедура наз одноступенчатой; если же выб отбир из этих подмнож при пом вероятн-го метода, процедура наз 2ступ-й. Систематич выб – один из видов груп выбор-го отбора, предполаг включ-е в нее каждого k-го элемента генер-й совок-ти, начиная с некот выбр произв элемента.Систематич выб относится к категории групп-х одноступ-х, т.к. использ все элементы выдел-х групп. Дост-ва:- простота формир-я;- отсут-т проблема дублир-я элем-в в отлич от случ-й выб;- имеет большую репрезент-ть, чем простая случ выб. Сущ опасность, если в списке элем наблюд естеств-я период-ть, оценка, производимая на основе такой выб, связана с серьезными ошибками. Территор-я выб – вид групп-го выбор-го отбора, при кот территории или зоны (напр, переписные районы, участки) выступ в роли первичных выбор-х единиц. Генер совок-ть делится (обычно с использ-м карты) на ряд непересек-ся, исчерпыв-х ее подмножеств или террит-й, после чего формир случ-я выборка этих территорий. Если в исслед-и участвуют все семьи, живущие на выдел-х террит-х, то имеем дело с одноступ-й территор-й выборкой; если же исслед-я не все, но лишь отобр-е из первичной выб семьи, обслед-е наз-ся 2ступе-м. Детерминир-я выб –это выб, основ-я на некот частных предпочтениях или суждениях, обуславл-х отбор тех или иных элем-в, при этом оценка вероятности включ-я в выборку произв-го элемента совок-ти становится невозможной. Гарантир репрезент-ть такой выб нельзяТипы: - Нерепрезентативные выб иногда назся случайными, т.к. отбор элем-в выборки осущ «случ» обр,- отбир те элементы, кот явл или предст-ся наиб доступн в пер проведения отбора.(беседа с приятелем)Репрезент-ть выб осущ надлеж процед отбора элементов. -Преднамер-е выб- (наз не вполне случайными)- элементы, отвеч-е целям обслед-я, отбир вручную. -Квотная выборка- отбир т о, что доля элем-в выб, облад-х опред хар-ми, примерно соотв-т доле таких же элем-в в обслед-й совок-и, т.е. каждому задается квота, определ-я хар-ки нас-я.(опрос студентов) Эти выб зависят скорее от личных, субъективных позиций или суждений, чем от объект-й процедуры отбора элем-в выборки. Причем, в отличие от преднамер-й выборки, личное суждение здесь принадлежит не разработчику проекта, а интервьюеру. Выборки могут подразд также на выборки фиксир-го V и последоват-е выборки. Фиксир-я выборка -выб, опред-е V кот произв априорно, потребная инф-я опред по отобр-м элементам.V выборки опред-ся до начала обслед- и
анализу рез-в предш-т сбор всех необход-х данных. При МИ обычно использ именно выборки фиксир-го V. Последоват-я выб -формир на основ серии последоват-х реш-й. Если после рассмотр малой выб рез-т предст-ся неубедит-м, рассматр-ся выборка большего V, если и этот шаг не приводит к результату, V выборки вновь увелич и так далее.Работа с последоват-й выб дает возможн оценить тренд данных по мере их сбора, что позвсократить расх, связ с доп-ми наблюд-ми, в тех случаях, когда их целесообр-ть невелика. 4эт. опред-е V выборки. При опред V выб необходимо учит точность и достоверность выб. Точность - степ ошиб-ти рез-в обслед-я или размер доверит-го интервала. Абсол-я точность зад-ся опред-м интервалом, в кот должно нах-ся оценив-е знач. Относит-я точность опред-ся относит-но ур оценки пар-ра. Достоверность - степ увер-ти в том, что оценка близка к истинному знач. Для выборки фиксир-го V степ точности и степ достовер-ти явл связанными величинами. Можно опред либо одну, либо др величины, но не обе одновр-но. Опред-е V выборки при оценке среднего. Рассм случай, когда генер-я дисперсия известна. Дисперсия генер совок ти s2 может быть известна из предыд исслед-й. Это означает, что размах распред-я sх-, зад-го среднеквадратичной ошибкой оценки известен с точностью до коэф пропорцион-и квадратному корню из V выборки, т.к. Ϭхср=Ϭ/√n. Доверит ур того, что постр-й интервал будет содерж в себе генер-е среднее, часто приним 95%. При этом коэф Стьюдента (tc) равен примерно 2. И так как размер зад-го полуинтервала (Н) опред: H=tc*Ϭхср=tc*Ϭ/√n,то можно относит определить V выборки, т.к. Н и tc заданы, а s известна из предыд-х исслед-й. n=t2c/H2*Ϭ2. Др способ реш пробл оценки заключ в построении номограммы уравнения и считывания с нее потребного V выб. Номограммы, кот, по сути, явл графич реш-ем уравн-я, для наиб часто использ-х случаев спец разработаны и использ без предварит-х расчетов. Рассм случай, когда генер дисперсия неизвестна. Процедура оценки V выборки остается практич неизменной, просто вместо изв-го знач дисперсии исп-ся будет оценочное значение генер-й дисперсии s. Еще одна возможность заключ в учете того обстоят-ва, что для величины с нормальным распред-м обл изм-я примерно равна ±3м среднеквадр-м отклонениям. Т о, если можно опред обл изм-я, то можно путем деления на 6 опред и среднеквадратич отклонение. Даже небольшой запас априорной инф-и может позв опред облизмен-я. Ошиб-я оценка скажется на точности доверит-го интервала, кот может изм-ся и в большую, и в меньшую сторону. При проведении исслед-я редко анализир только один параметр. Обычно исслед-я носят комплексный многоцел-й хар-р. V выб при работе с выбор-ми долями. Среднеквадратическая ошибка доли опред:Ϭр=√d*(1-d)/n.. В этом случае средним знач-м явл генер доля, а среднеквадратич отклон-м – среднеквадратич ошибка доли, т.е. H=tcsp Отсюда,n=(t2c/H2)*d*(1-d). Необход отметить, что по опред-ю V выб генер-я совок-ть не входит в формулу расчета, т.е., с оговоркой можно сказать, что V выб не зависит от генер-й совок-ти.Объясн это тем, что если все элементы генер совок-ти имеют одно и то же знач колич-го признака,то для опред-я среднего достат будет отобрать выб, состоящую из одного-единств-го элемента Чем выше степень изменчивости признака, тем большим д б размер выб, обеспечив-й задан-ю точность исслед-я. Итак, V генер-й совок-ти оказ-т на V выб лишь опосред-е влияние. В больш случаев с возраст-м V исх совок-ти возрастает и потенц возможность увеличения изменч-ти исслед-го колич-го признака. V выборки не зависит от V генеральной совок-ти и при оценке доли. Для доли опред-м фактором явл расч доля генер-й совок-ти, обладающая данным признаком: чем ближе эта доля к 0,5, тем большей должна быть выборка, при этом ее V не зависит от V всей совок-ти. Значение 0,5 соотв-т макс изменч-ти, т.к. половина генер-й совок-ти обладает данным признаком, а половина не обладает им. В тех случаях, когда выборка представляет собой большую часть генер-й совок-ти, во избежание переоценки выб требуется некот изменение формул расчета. И в первую очередь, это связанно с тем, что с увелич-м V выборки возрастает и стоимость исслед-я. В связи с этим в формулу вводят коэф-т поправки на конечность совок-ти (N-n)/(N-1). Тогда формула расчета среднеквадратич ошибки среднего имеет след-й вид:Ϭхср=Ϭ/√n*√(N-n)/(N-1), где N – V генер-й совок-ти. Когда требуемая выб сост-т более 5% генер-й совок-ти, ее расчетный V должен быть уменьшен путем ввода в формулу поправки на размер совок-ти. n’=n*(N-N+n-1). 5эт. отбор элементов выб. Использ-й для этого способ опред-ся избранным типом выборки. 6эт. обслед-е отобр-х элем-в. На этом этапе сущ большая вероятность совершения ряда ошибок.
|