Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Одномерный анализ: табулирование и представление данных





Результаты измерения любой переменной могут быть представлены с помощью распределения наблюдений («случаев») по отдельным категориям данной пе­ременной. Категория, в которую попадают одинаковые наблюдения, может быть номинальной («православный», «протестант» и т.п.) либо иметь числовое зна­чение. В любом случае результатом такого упорядочения наблюдений будет их группировка. Работать с упорядоченными данными значительно проще, чем с исходным «сырым» массивом: в «сырых» данных, конечно, содержатся сведе­ния о том, как много в выборке, например, пенсионеров, однако для получения нужной цифры придется перебрать все наблюдения «случай» за «случаем». Если данные сгруппированы, достаточно посмотреть, какова абсолютная частота, т. е. число наблюдений в данной выборке, попадающих в интересующую нас категорию. Для переменных, имеющих не произвольную метрику, т. е. изме­ренных на ординальном или интервальном уровне (см. гл. 6), нередко исполь­зуется еще одна процедура, делающая представление данных более компакт­ным и удобным в работе при сохранении заданного уровня точности. Предпо­ложим, что в каком-то исследовании 22,0782% опрошенных поддержали государственную программу приватизации, а исследование, проведенное ме­сяц спустя, дало иное значение — 22,1327%. Даже если теоретический конст­рукт «поддержка программы приватизации» можно представить как непре­рывный ряд числовых значений, на практике исследовательской перемен­ной будет соответствовать некоторый набор дискретных числовых величин (категорий). Кроме того, тысячные или сотые доли процента едва ли будут су­щественны для интерпретации полученных результатов. Поэтому в представ­лении данных обычно используют процедуру округления. Определив необходи­мую степень точности — и соответственно приемлемый уровень неточности, — ис­следователь может округлить все полученные числовые значения до десятых долей или, скажем, до целых процентов. Так, в нашем примере округление до целого числа даст цифру 22%. В дальнейшем каждое последующее наблюде­ние, дающее числовое значение в интервале между 21,5% и 22,5%, будет попадать в класс «22% поддержки приватизации». В результате процедуры округле­ния исследователь фактически устанавливает границы классов, объединяющих значения переменной в заданном интервале, и середины (центры) классов, т. е. усредненные значения для каждого интервала.

Необходимость объединить значения переменной в 10—15 крупных классов-категорий часто возникает и при работе со «слишком хорошо измеренными» признаками, соответствующими шкалам интервалов или отношений (возраст, доход и т. п.). Во-первых, чрезмерное количество градаций переменной препят­ствует ее компактному представлению — табличному или графическому. Во-вторых, для конечной выборки обычно соблюдается следующая закономер­ность: число градаций (категорий) признака обратно пропорционально их за­полненности. Переменная с огромным числом градаций, содержащих по 2—3 наблюдения, часто создает серьезные проблемы в статистическом анализе и оценивании (хотя для некоторых методов анализа — корреляция, регрес­сия и т. п. — эти проблемы, как мы увидим дальше, несущественны). Самым целесообразным выходом обычно оказывается перекодирование, «сжатие» исследовательской переменной. Здесь существует два основных подхода:

1) исходные градации объединяются в более крупные классы на основа­нии каких-то содержательных соображений, причем полученные классы имеют приблизительно равную ширину (например, данные о возрасте часто перекодируют в более широкие «десятилетние» категории — 20—29 лет, 30—39 лет и т. п.);

2) решение о способе «сжатия» переменной принимают, основываясь на рас­пределении наблюдений («случаев») по оси переменной, например, границы между «низким», «средним» и «высоким» доходом устанавливают так, что­бы в каждую категорию попало 33% наблюдений.

Стремление к компактности и «читабельности» данных не должно вести к край­ностям. Руководствуясь соображениями здравого смысла, исследователь дол­жен избегать ситуаций, когда перегруппировка ведет к тому, что полученная переменная оказывается слишком грубым средством классификации наблюде­ний, не позволяющим выявить существенные для анализа различия. Важно так­же следить за тем, чтобы объединение категорий или числовых градаций пере­менной-признака не привело к искусственному созданию отношений и взаимо­связей, которые в действительности отсутствуют в данных.

Независимо от того, какие статистические методы и модели собирается исполь­зовать исследователь, первым шагом в анализе данных всегда является постро­ение частотных распределений для каждой изучавшейся переменной. Полу­ченные результаты принято представлять в виде таблицы частотного распреде­ления (или просто — таблицы распределения) для каждой существенной переменной. Примером табличного представления может служить приведен­ная ниже таблица 8.1, в которой представлены гипотетические данные выбо­рочного опроса 500 владельцев домашних телефонов.

Таблица 8.1

Частотное распределение ежемесячных расходов на международные телефонные переговоры

 

Интервал класса (расходы в руб.) Абсолютная частота, чел. Относительная частота, %
до 3000   11,0
3000—5999   8,6
6000—8999   29,0
9000—11999   17,2
12000—14999   14,0
15000—19999   10,5
20000—23999   8,0
свыше 24000   1,7
Всего N = 465 100% (= 465)
не ответили   (35)

 

Иногда в таблице распределения указывают лишь относительные частоты, опус­кая абсолютные. Но и в этом случае в правом нижнем углу таблицы должны быть указаны абсолютное число ответивших (база для вычисления процентов) и число неответивших.

Помимо табличного представления частотных распределений обычно исполь­зуют и различные методы графического представления. Самый распространен­ный метод графического представления одномерных распределений это гис­тограмма, или столбиковая диаграмма. Каждый столбик соответствует интервалу значений переменной, причем его середина совмещается с серединой дан­ного интервала. Высота столбика отражает частоту (абсолютную или относи­тельную) попадания наблюдавшихся значений переменной в определенный интервал. При построении гистограмм часто приходится использовать некото­рые конвенции, основанные на сугубо практических соображениях. Так, используя при группировке значений переменной неравные интервалы либо ос­тавляя крайние градации открытыми («старше 65 лет», «свыше 24000 рублей» и т. д.), мы все же отображаем эти интервалы на гистограмме с помощью столбиков, имеющих одинаковую ширину. Другое практическое правило по­зволяет сделать гистограмму визуально уравновешенной, т. е. более привлека­тельной: масштаб шкалы обычно выбирают так, чтобы общая высота гистог­раммы составляла приблизительно 40—60% ее ширины. Пример гистограммы для данных из таблицы 8.1 приведен на рисунке 14.


Интервал класса (расходы в рублях)

Рис. 14. Гистограмма для данных о расходах на







Дата добавления: 2015-06-15; просмотров: 476. Нарушение авторских прав; Мы поможем в написании вашей работы!




Кардиналистский и ординалистский подходы Кардиналистский (количественный подход) к анализу полезности основан на представлении о возможности измерения различных благ в условных единицах полезности...


Обзор компонентов Multisim Компоненты – это основа любой схемы, это все элементы, из которых она состоит. Multisim оперирует с двумя категориями...


Композиция из абстрактных геометрических фигур Данная композиция состоит из линий, штриховки, абстрактных геометрических форм...


Важнейшие способы обработки и анализа рядов динамики Не во всех случаях эмпирические данные рядов динамики позволяют определить тенденцию изменения явления во времени...

Понятие о синдроме нарушения бронхиальной проходимости и его клинические проявления Синдром нарушения бронхиальной проходимости (бронхообструктивный синдром) – это патологическое состояние...

Опухоли яичников в детском и подростковом возрасте Опухоли яичников занимают первое место в структуре опухолей половой системы у девочек и встречаются в возрасте 10 – 16 лет и в период полового созревания...

Способы тактических действий при проведении специальных операций Специальные операции проводятся с применением следующих основных тактических способов действий: охрана...

Лечебно-охранительный режим, его элементы и значение.   Терапевтическое воздействие на пациента подразумевает не только использование всех видов лечения, но и применение лечебно-охранительного режима – соблюдение условий поведения, способствующих выздоровлению...

Тема: Кинематика поступательного и вращательного движения. 1. Твердое тело начинает вращаться вокруг оси Z с угловой скоростью, проекция которой изменяется со временем 1. Твердое тело начинает вращаться вокруг оси Z с угловой скоростью...

Условия приобретения статуса индивидуального предпринимателя. В соответствии с п. 1 ст. 23 ГК РФ гражданин вправе заниматься предпринимательской деятельностью без образования юридического лица с момента государственной регистрации в качестве индивидуального предпринимателя. Каковы же условия такой регистрации и...

Studopedia.info - Студопедия - 2014-2025 год . (0.012 сек.) русская версия | украинская версия