Студопедия — Одномерный анализ: табулирование и представление данных
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Одномерный анализ: табулирование и представление данных






Результаты измерения любой переменной могут быть представлены с помощью распределения наблюдений («случаев») по отдельным категориям данной пе­ременной. Категория, в которую попадают одинаковые наблюдения, может быть номинальной («православный», «протестант» и т.п.) либо иметь числовое зна­чение. В любом случае результатом такого упорядочения наблюдений будет их группировка. Работать с упорядоченными данными значительно проще, чем с исходным «сырым» массивом: в «сырых» данных, конечно, содержатся сведе­ния о том, как много в выборке, например, пенсионеров, однако для получения нужной цифры придется перебрать все наблюдения «случай» за «случаем». Если данные сгруппированы, достаточно посмотреть, какова абсолютная частота, т. е. число наблюдений в данной выборке, попадающих в интересующую нас категорию. Для переменных, имеющих не произвольную метрику, т. е. изме­ренных на ординальном или интервальном уровне (см. гл. 6), нередко исполь­зуется еще одна процедура, делающая представление данных более компакт­ным и удобным в работе при сохранении заданного уровня точности. Предпо­ложим, что в каком-то исследовании 22,0782% опрошенных поддержали государственную программу приватизации, а исследование, проведенное ме­сяц спустя, дало иное значение — 22,1327%. Даже если теоретический конст­рукт «поддержка программы приватизации» можно представить как непре­рывный ряд числовых значений, на практике исследовательской перемен­ной будет соответствовать некоторый набор дискретных числовых величин (категорий). Кроме того, тысячные или сотые доли процента едва ли будут су­щественны для интерпретации полученных результатов. Поэтому в представ­лении данных обычно используют процедуру округления. Определив необходи­мую степень точности — и соответственно приемлемый уровень неточности, — ис­следователь может округлить все полученные числовые значения до десятых долей или, скажем, до целых процентов. Так, в нашем примере округление до целого числа даст цифру 22%. В дальнейшем каждое последующее наблюде­ние, дающее числовое значение в интервале между 21,5% и 22,5%, будет попадать в класс «22% поддержки приватизации». В результате процедуры округле­ния исследователь фактически устанавливает границы классов, объединяющих значения переменной в заданном интервале, и середины (центры) классов, т. е. усредненные значения для каждого интервала.

Необходимость объединить значения переменной в 10—15 крупных классов-категорий часто возникает и при работе со «слишком хорошо измеренными» признаками, соответствующими шкалам интервалов или отношений (возраст, доход и т. п.). Во-первых, чрезмерное количество градаций переменной препят­ствует ее компактному представлению — табличному или графическому. Во-вторых, для конечной выборки обычно соблюдается следующая закономер­ность: число градаций (категорий) признака обратно пропорционально их за­полненности. Переменная с огромным числом градаций, содержащих по 2—3 наблюдения, часто создает серьезные проблемы в статистическом анализе и оценивании (хотя для некоторых методов анализа — корреляция, регрес­сия и т. п. — эти проблемы, как мы увидим дальше, несущественны). Самым целесообразным выходом обычно оказывается перекодирование, «сжатие» исследовательской переменной. Здесь существует два основных подхода:

1) исходные градации объединяются в более крупные классы на основа­нии каких-то содержательных соображений, причем полученные классы имеют приблизительно равную ширину (например, данные о возрасте часто перекодируют в более широкие «десятилетние» категории — 20—29 лет, 30—39 лет и т. п.);

2) решение о способе «сжатия» переменной принимают, основываясь на рас­пределении наблюдений («случаев») по оси переменной, например, границы между «низким», «средним» и «высоким» доходом устанавливают так, что­бы в каждую категорию попало 33% наблюдений.

Стремление к компактности и «читабельности» данных не должно вести к край­ностям. Руководствуясь соображениями здравого смысла, исследователь дол­жен избегать ситуаций, когда перегруппировка ведет к тому, что полученная переменная оказывается слишком грубым средством классификации наблюде­ний, не позволяющим выявить существенные для анализа различия. Важно так­же следить за тем, чтобы объединение категорий или числовых градаций пере­менной-признака не привело к искусственному созданию отношений и взаимо­связей, которые в действительности отсутствуют в данных.

Независимо от того, какие статистические методы и модели собирается исполь­зовать исследователь, первым шагом в анализе данных всегда является постро­ение частотных распределений для каждой изучавшейся переменной. Полу­ченные результаты принято представлять в виде таблицы частотного распреде­ления (или просто — таблицы распределения) для каждой существенной переменной. Примером табличного представления может служить приведен­ная ниже таблица 8.1, в которой представлены гипотетические данные выбо­рочного опроса 500 владельцев домашних телефонов.

Таблица 8.1

Частотное распределение ежемесячных расходов на международные телефонные переговоры

 

Интервал класса (расходы в руб.) Абсолютная частота, чел. Относительная частота, %
до 3000   11,0
3000—5999   8,6
6000—8999   29,0
9000—11999   17,2
12000—14999   14,0
15000—19999   10,5
20000—23999   8,0
свыше 24000   1,7
Всего N = 465 100% (= 465)
не ответили   (35)

 

Иногда в таблице распределения указывают лишь относительные частоты, опус­кая абсолютные. Но и в этом случае в правом нижнем углу таблицы должны быть указаны абсолютное число ответивших (база для вычисления процентов) и число неответивших.

Помимо табличного представления частотных распределений обычно исполь­зуют и различные методы графического представления. Самый распространен­ный метод графического представления одномерных распределений это гис­тограмма, или столбиковая диаграмма. Каждый столбик соответствует интервалу значений переменной, причем его середина совмещается с серединой дан­ного интервала. Высота столбика отражает частоту (абсолютную или относи­тельную) попадания наблюдавшихся значений переменной в определенный интервал. При построении гистограмм часто приходится использовать некото­рые конвенции, основанные на сугубо практических соображениях. Так, используя при группировке значений переменной неравные интервалы либо ос­тавляя крайние градации открытыми («старше 65 лет», «свыше 24000 рублей» и т. д.), мы все же отображаем эти интервалы на гистограмме с помощью столбиков, имеющих одинаковую ширину. Другое практическое правило по­зволяет сделать гистограмму визуально уравновешенной, т. е. более привлека­тельной: масштаб шкалы обычно выбирают так, чтобы общая высота гистог­раммы составляла приблизительно 40—60% ее ширины. Пример гистограммы для данных из таблицы 8.1 приведен на рисунке 14.


Интервал класса (расходы в рублях)

Рис. 14. Гистограмма для данных о расходах на







Дата добавления: 2015-06-15; просмотров: 434. Нарушение авторских прав; Мы поможем в написании вашей работы!



Шрифт зодчего Шрифт зодчего состоит из прописных (заглавных), строчных букв и цифр...

Картограммы и картодиаграммы Картограммы и картодиаграммы применяются для изображения географической характеристики изучаемых явлений...

Практические расчеты на срез и смятие При изучении темы обратите внимание на основные расчетные предпосылки и условности расчета...

Функция спроса населения на данный товар Функция спроса населения на данный товар: Qd=7-Р. Функция предложения: Qs= -5+2Р,где...

Тема: Кинематика поступательного и вращательного движения. 1. Твердое тело начинает вращаться вокруг оси Z с угловой скоростью, проекция которой изменяется со временем 1. Твердое тело начинает вращаться вокруг оси Z с угловой скоростью...

Условия приобретения статуса индивидуального предпринимателя. В соответствии с п. 1 ст. 23 ГК РФ гражданин вправе заниматься предпринимательской деятельностью без образования юридического лица с момента государственной регистрации в качестве индивидуального предпринимателя. Каковы же условия такой регистрации и...

Седалищно-прямокишечная ямка Седалищно-прямокишечная (анальная) ямка, fossa ischiorectalis (ischioanalis) – это парное углубление в области промежности, находящееся по бокам от конечного отдела прямой кишки и седалищных бугров, заполненное жировой клетчаткой, сосудами, нервами и...

Образование соседних чисел Фрагмент: Программная задача: показать образование числа 4 и числа 3 друг из друга...

Шрифт зодчего Шрифт зодчего состоит из прописных (заглавных), строчных букв и цифр...

Краткая психологическая характеристика возрастных периодов.Первый критический период развития ребенка — период новорожденности Психоаналитики говорят, что это первая травма, которую переживает ребенок, и она настолько сильна, что вся последую­щая жизнь проходит под знаком этой травмы...

Studopedia.info - Студопедия - 2014-2024 год . (0.01 сек.) русская версия | украинская версия