Тема 2. Анализ двумерных распределений
Одной из важнейших задач любого анализа данных является проверка гипотез, сформулированных в программе исследования, то есть предположений о наличии связи между двумя и более переменными. И на определенном этапе анализа необходимо заняться поиском таких связей. Чтобы проделать это, надо найти ответ на пять основных вопросов: 1. Существует ли в реальности обозначенная в гипотезе связь между независимой и зависимой переменными? 2. Каково направление этой связи? 3. Насколько сильна связь? 4. Является ли связь статистически значимой? 5. Является ли связь каузальной? Прежде всего, необходимо ответить на первый вопрос. Мы можем утверждать, что связь существует, если значения, которые мы наблюдаем для независимой переменной, ассоциируются со значениями, наблюдаемыми для зависимой переменной. Воспользуемся нашим примером. Мы сформулировали гипотезу о том, что существует связь между трудовой занятостью студента очного отделения и его успехами в учебе. При анкетировании был задан прямой вопрос с предлагаемыми вариантами ответов. Каковы ваши успехи в учебе? Отметьте средний балл по результатам сессий за прошлый год. 1 - до 3, 5 баллов 2 – 3, 5 – 4 балла 3 – 4 – 4, 5 балла 4 – 4, 5 - 5 баллов При обработке данных опроса нам для проверки гипотезы необходимо сопоставить значения независимой переменной (трудовая занятость) с соответствующими значениями зависимой переменной (успехи в учебе). С целью такого сопоставления мы после соответствующей обработки данных составляем таблицу 4.3. Таблица 4.3 Успеваемость работающих и не работающих студентов.
Такая таблица называется «кросстаб», а процесс ее создания – «кросстабуляция». Это один из основных способов анализа, используемых для того, чтобы увидеть, какую связь переменные имеют друг с другом. Категории независимой и зависимой переменной в принципе могут размещаться как по строкам, так и по столбцам (графам) кросстаба. Обычно независимую переменную помещают в верхней части кросстаба, формируя, таким образом, столбцы из значений зависимой переменной. Однако на практике из соображений удобства кросстаб чаще всего конструируют так, чтобы сверху вниз шла переменная с большим числом категорий. Реально, конечно не имеет значения, как будет сконструирован кросстаб: имея независимую переменную в верней части таблицы (по горизонтали) или сверху вниз (по вертикали). Главное – соблюсти правило: когда выбор сделан, процентные отношения в таблице должны вычисляться таким образом, чтобы проверить наличие связи. Давайте на примере кросстаба 4.3 посмотрим, как производится чтение таблицы – процесс, в ходе которого и выявляется наличие или отсутствие связи между переменными и ее параметры. Прежде всего, обратим внимание на правый крайний столбец и две нижние строки. Здесь сведены контрольные суммы по каждой из строк. Смысл приведенных цифр таков: число в правой верхней ячейке говорит о том, что число опрошенных со средним баллом успеваемости до 3, 5 составляет 54 человека; цифра в ячейке ниже сообщает, что это составляет 19, 1% от общей численности выборочного массива (283 человека, которые и принимаются за сто процентов, - данные в клетках в правом нижнем углу таблицы). Общее число опрошенных со средним баллом от 3, 5 до 4 - 97 человек, что составляет 34, 3 процента от общей численности выборочного массива и т.д. В самой нижней строке приведены контрольные суммы количества тех, кто дал различные ответы по вопросу трудовой занятости по всем группам успеваемости. Так, общее число совмещающих работу и учебу – 118 человек, что составляет 41, 7% от общего объема выборочного массива; тех, кто не работает, было в выборочном массиве 165 человек или 58, 3% и т.д. Две ячейки в правом нижнем углу указывают на общую численность участников опроса, которая принимается за сто процентов для обеих исследуемых переменных. Контрольные суммы позволяют убедиться, что в процессе обработки были учтены ответы всех без исключения категорий респондентов. Вообще говоря, для максимальной полноты распределения в кросстабе обычно учитываются и те, кто не дал ответа на вопрос и те, кто выбрал ответ «затрудняюсь ответить». И хотя содержимое этих столбцов не очень информативно, порой знание о том, каков процент уклонившихся от ответа бывает достаточно полезным. Анализ проводят, отслеживая изменение значений зависимой переменной при переходе от одного значения независимой переменной к другому. В данном примере независимой переменной мы считаем трудовую занятость студента, а зависимой – средний балл успеваемости по результатам сессии. Процедуру отслеживания изменений значения зависимой переменной можно проводить как по строкам, так и по столбцам. Двигаясь по столбцам, мы начинаем с первого значения независимой переменной – студентов, совмещающих учебу с работой. Мы видим, что среди работающих студентов около 40% имеют средний балл 3, 5-4, а 23, 8% опрошенных имеют максимально высокий балл – от 4, 5 до 5. Перейдя к следующему столбцу, мы убеждаемся, что соотношение средне и хорошо успевающих студентов меняется – 30, 3% и 28, 5% соответственно. Это позволяет нам сделать вывод о наличии связи между переменными, а также о направлении этой связи, которая в данном случае в основном является прямой или положительной. Ее можно выразить простым описанием: студенты, совмещающие учебу с работой, имеют более низкие показатели успеваемости. Анализ по строкам подтверждает наши выводы: среди успевающих на 4 и более баллов значительно больше неработающих студентов, отдающих все силы и время учебе. Фактически непосредственному анализу подвергались далеко не все цифры, а лишь некоторые из них – те, которые можно было бы свести в сокращенном варианте в виде табл.4.3а.
Таблица 4.3а Успеваемость работающих и не работающих студентов.
Данные, приведенные в табл.4.3 и 4.3а, позволяют нам сделать следующие основные выводы. 1. Существует связь между трудовой занятостью студента и его успеваемостью. 2. Эта связь в основном положительная: среди не работающих студентов меньше имеющих средний балл 3, 5-4, и больше хорошо успевающих студентов со средним баллом 4-4, 5 и 4, 5-5. Исключение составляет лишь самая верхняя строка, где представлены слабо успевающие студенты, для которых, по-видимому, успеваемость вообще не играет никакой роли. Понятие силы связи имеет отношение к тому, насколько сильно различаются наблюдаемые значения зависимой переменной при изменении значений независимой переменной. В нашем случае степень различия не велика, поэтому мы можем сделать вывод, что связь слабая. Наиболее сильная из возможных связей между двумя переменными – это такая связь, при которой значение зависимой переменной для каждого случая в одной категории независимой переменной отличается от каждого из случаев в другой категории. Такую связь называют совершенной, потому что зависимая переменная абсолютно ассоциируется с независимой переменной, не допуская никаких исключений. Совершенная связь дает исследователю возможность точно предсказать значение любого из случаев зависимой переменной, если известно значение независимой. Пример совершенной связи для гипотетического случая мог бы выглядеть так, как в таблице 4.3б.
Таблица 4.3б Успеваемость работающих и неработающих студентов.
Строго говоря, в реальных распределениях социологических данных крайне редко встречаются как вполне совершенная связь, так и абсолютно полное отсутствие всякой связи.
|