Студопедия — Кластерный анализ при большом количестве наблюдений
Студопедия Главная Случайная страница Обратная связь

Разделы: Автомобили Астрономия Биология География Дом и сад Другие языки Другое Информатика История Культура Литература Логика Математика Медицина Металлургия Механика Образование Охрана труда Педагогика Политика Право Психология Религия Риторика Социология Спорт Строительство Технология Туризм Физика Философия Финансы Химия Черчение Экология Экономика Электроника

Кластерный анализ при большом количестве наблюдений






(Кластерный анализ методом к-средних)

Процедура иерархического кластерного анализа эффективна для малого числа объектов. Ее преимущественно в том, что каждый объект можно рассмотреть в отдельности. Но эта процедура не годится для массивов большого объема

Поэтому при наличии большого количества наблюдений применяют другие методы. В такой ситуации наиболее приемлем алгоритм, носящий название «k-средних». Он реализуется в пакете командой меню K-means. Алгоритм заключается в следующем: выбирается заданное число k точек и на первом шаге эти точки рассматриваются как «центры» кластеров. Каждому кластеру соответствует один центр. Объекты распределяются по кластерам по принципу: каждый объект относится к кластеру с ближайшим к этому объекту центром. Таким образом, все объекты распределились по k кластерам.

Затем заново вычисляют центры этих кластеров, которыми после этого момента считаются покоординатные средние кластеров. После этого опять распределяют объекты. Вычисление центров и перераспределение объектов происходит до тех пор, пока центры не стабилизируются.

В качестве примера расчёта по этому алгоритму, рассмотрим выборку из результатов опроса 1200 молодых респондентов, в котором задавался вопрос относительно их жизненных стратегий – «что важно для достижения успеха в жизни» с вариантами ответов[7]:

59. Происходить из материально обеспеченной семьи
60. Иметь хорошее образование
61. Иметь амбиции для продвижения по жизни
62. Иметь высокопоставленных родителей
63. Иметь связи в криминальном мире
64. Иметь везение, счастливый случай
65. Иметь природные задатки
66. Много работать
67. Иметь необходимые знакомства, связи
68. Иметь нравственные убеждения
69. Проживать в определенном регионе
70. Важно, каков твой пол

Ответы на эти вопросы хранятся в переменных v59-v70 в файле opros.sav. В этом файле также находятся и другие переменные, использовавшиеся при исследовании (пол, возраст, место жительства, профессия). На основании вопросов о жизненных стратегиях молодежи попытаемся определить группы (кластеры) респондентов. Для начала рекомендуется сократить количество переменных при помощи факторного анализа.

Откройте файл opros.sav.

Выберите в меню Analyze (Анализ) Data Reduction (Преобразование данных) Factor... (Факторный анализ)

· Переменные v59-v70 внесите в список целевых переменных.

· Через выключатель Extraction... (Отбор) деактивируйте вывод неповёрнутого факторного решения.

· Через выключатель Rotation... (Вращение) для осуществления вращения активируйте метод варимакса.

· Минуя выключатель Options... (Опции) в разделе Coefficient Display Format (Формат отображения коэффициентов) (подразумеваются факторные нагрузки) активируйте Sorted by Size (Отсортированные по размеру). Затем активируйте опцию Suppress absolute values less then: (He выводить абсолютные значения меньше чем:) и введите значение,40.

· В заключение щёлкните по выключателю Scores... (Значения), чтобы значения факторов сохранить в виде новых переменных.

В результате расчёта было отобрано три фактора и добавлено в файл три переменные от (fac1_1 до fac3_1), которые и отображают эти три фактора. Среди результатов присутствует повёрнутая факторная матрица (см. следующую таблицу).

Факторная матрица красноречиво демонстрирует, что отобранные факторы могут быть расположены в следующей смысловой последовательности:

· группа «пассивных», для которых достижение успеха связано со статусом родителей, материальной обеспеченностью семьи, знакомствами с нужными людьми.

· группа «активных, самостоятельных», для которых важно много работать, иметь хорошее образование, нравственные убеждения, задатки и амбиции.

· группа «ориентированных на случай или на природные задатки»

Теперь используем сохранённые нами значения этих трех факторов для проведения кластерного анализа для респондентов. Так как количество наблюдений равное 1085 слишком велико для иерархического кластерного анализа, выберем метод анализа кластерных центров.

· Присвойте переменным fac1_1-fac3_1 метки: "пассивные", "активные", "ориентированные на случай" соответственно.

· Выберите в меню Analyze (Анализ) Classify (Классифицировать) K-Means Cluster... (Кластерный анализ методом к-средних)

Откроется диалоговое окно K-Means Cluster Analysis (Кластерный анализ методом к-средних).

 

 

· Переменные от fac1_1 до fac3_1 поместите в поле тестируемых переменных. Теперь нужно указать количество кластеров. Подходящим вариантом было бы сначала провести иерархический кластерный анализ для произвольно выбранных наблюдений и получившееся количество кластеров принять за оптимальное.Но можно провести и несколько опытных, пробных расчётов с различным количеством кластеров и после этого определиться с подходящим вариантом решения.

· Мы остановимся на трех кластерах; введите это значение в поле Number of Clusters (Количество кластеров).

· Через выключатель Iterate... (Итерации) укажите число итераций равное 99; установленное по умолчанию количество итераций равное 10, оказалось бы недостаточным.

· Щёлкните по выключателю Save... (Сохранить), чтобы при помощи дополнительных переменных зафиксировать принадлежность наблюдений к кластеру.

· Щёлкните на ОК, чтобы начать расчёт.

Сначала приводятся первичные кластерные центры и обобщённые данные итерационного процесса (30 итераций); затем выводятся окончательные кластерные центры и информация о количестве наблюдений.

При оценке кластерных центров следует в первую очередь обратить внимание на то, что здесь речь идёт о средних значениях факторов, которые находятся в пределах примерно от -3 до +3. К тому же, надо помнить, что в соответствии с кодировкой ответов (1 - очень важно, 5 - не важно) большое отрицательное значение фактора означает его большую степень его проявления, то есть сигнализирует о высокой компетентности, и наоборот, большое положительное значение фактора подразумевает низкую степень его проявления.

Если учесть всё вышесказанное, то наши три кластера можно интерпретировать следующим образом:

Кластер1: самостоятельные респонденты

Кластер2: пассивные респонденты

КластерЗ: ориентированные на случай

В заключение выводятся показатели количества наблюдений, относящихся к каждому из кластеров. Группа пользователей (кластер 1) наиболее многочисленна.

К исходному файлу была добавлена переменная qc1_1, отражающая принадлежность к определённому кластеру. Эту переменную можно использовать для обнаружения возможных связей между кластерной принадлежностью и полом, возрастом, профессией или отношением к политической деятельности (исходя из задач исследования).

Как видно из таблицы, среди тех, тех, кто считает политику бесполезной и относится к ней негативно большинство составляют респонденты с пассивной жизненной установкой (48,9%), не многим меньше (36,2%) респонденты ориентированные на случай. Такого же мнения придерживаются всего лишь 14,9% из числа активной молодежи.

 

Заключение.

Цель данного пособия - познакомить студентов с базовыми техниками и методиками программы SPSS, наиболее часто применяемыми в практической исследовательской работе. Кроме описанных в данном пособии статистических методов обработки данных, программа SPSS позволяет проводить кластерный анализ, дискриминантный анализ, многомерное шкалирование, логлинейный метод и метод логистической регрессии. Подробнее с этими методами можно познакомиться в специальной литературе (см. стр.3).

В заключении можно сказать, что программа SPSS, как и широко распространенные программы Exel и Statistica, является эффективным инструментом для практической работы в области социологического и политического анализа.

 







Дата добавления: 2015-08-30; просмотров: 791. Нарушение авторских прав; Мы поможем в написании вашей работы!



Обзор компонентов Multisim Компоненты – это основа любой схемы, это все элементы, из которых она состоит. Multisim оперирует с двумя категориями...

Композиция из абстрактных геометрических фигур Данная композиция состоит из линий, штриховки, абстрактных геометрических форм...

Важнейшие способы обработки и анализа рядов динамики Не во всех случаях эмпирические данные рядов динамики позволяют определить тенденцию изменения явления во времени...

ТЕОРЕТИЧЕСКАЯ МЕХАНИКА Статика является частью теоретической механики, изучающей условия, при ко­торых тело находится под действием заданной системы сил...

Понятие о синдроме нарушения бронхиальной проходимости и его клинические проявления Синдром нарушения бронхиальной проходимости (бронхообструктивный синдром) – это патологическое состояние...

Опухоли яичников в детском и подростковом возрасте Опухоли яичников занимают первое место в структуре опухолей половой системы у девочек и встречаются в возрасте 10 – 16 лет и в период полового созревания...

Способы тактических действий при проведении специальных операций Специальные операции проводятся с применением следующих основных тактических способов действий: охрана...

Уравнение волны. Уравнение плоской гармонической волны. Волновое уравнение. Уравнение сферической волны Уравнением упругой волны называют функцию , которая определяет смещение любой частицы среды с координатами относительно своего положения равновесия в произвольный момент времени t...

Медицинская документация родильного дома Учетные формы родильного дома № 111/у Индивидуальная карта беременной и родильницы № 113/у Обменная карта родильного дома...

Основные разделы работы участкового врача-педиатра Ведущей фигурой в организации внебольничной помощи детям является участковый врач-педиатр детской городской поликлиники...

Studopedia.info - Студопедия - 2014-2024 год . (0.01 сек.) русская версия | украинская версия