Модуль 2. Моделі управління інноваційними процесами.

Лабораторна робота 2.

Процедури класифікації

Одним із типів економічних задач є задачі класифікації. Для рішення задач цього типу в системі Statistica є два модулі – Кластерний аналіз і Дискримінантний аналіз. Розглянемо роботу цих модулів на прикладах.

Кластерні процедури класифікації

У табл. 7 наведені дані про структуру зайнятості населення за регіонами України. Необхідно провести класифікацію регіонів України за рівнем зайнятості методами кластерного аналізу, привести основні характеристики виділених класів, дати інтерпретацію отриманих результатів.

Таблиця 7

Структура зайнятості населення по регіонам

№ п/п	Регіон	Структура зайнятості, %
сільське господарство (СГ)	промисловість (П)

1.	Автономна Республіка Крим
2.	Вінницька
3.	Волинська
4.	Дніпропетровська
5.	Донецька
6.	Житомирська
7.	Закарпатська
8.	Запорізька
9.	Івано-Франківська
10.	Київська

Продовження табл.7


11.	Кіровоградська
12.	Луганська
13.	Львівська
14.	Миколаївська
15.	Одеська
16.	Полтавська
17.	Рівненська
18.	Сумська
19.	Тернопільська
20.	Харківська
21.	Херсонська
22.	Хмельницька
23.	Черкаська
24.	Чернівецька
25.	Чернігівська

Запускаємо програму Statistica і формуємо таблицю (файл) вихідних даних. Для того, щоб результати аналізу були представлені наглядніше, пропонується ввести замість номерів регіонів їхні назви. Це можна зробити подвійним натисканням кнопки миші на номері об’єкта (регіону).

Перед тим, як проводити аналіз, зверніть увагу на те, у якому вигляді представлені вихідні дані. Якщо вихідні дані мають різні одиниці або масштаб вимірів, то перед початком аналізу їх необхідно стандартизувати. Це можна зробити наступним чином: виділити стовпці та натиснути праву кнопку миші Fill/Standardize Block → Standardize Columns. Якщо ж розмірність однакова для всіх аналізованих ознак, то стандартизацію можна не проводити.

Спочатку проведемо кластеризацію ієрархічним методом. На панелі інструментів Statistics або в меню Statistics виберемо функцію Cluster Analysis – Кластерний аналіз і у вікні, що з’явилося, виберемо Ієрархічний метод кластеризації – Joining (tree clustering). Обравши цей метод, отримаємо стартове вікно ієрархічного методу кластеризації (рис. 22).

Рис. 22. Стартове вікно ієрархічного методу кластерного аналізу

У цьому вікні оберемо змінні, за якими буде проводитися кластеризація (кнопка Variables – Змінні). У рядку Input file необхідно задати форму представлення вихідних даних (спостережувані – Rawdata або матриця відстаней – Distance matrix). У рядку Cluster потрібно вибрати вид класифікації (класифікація Випадків (рядків) – Cases (rows) або класифікація Змінних (стовпців) – Variables (columns)).

Нижче вибирається алгоритм кластеризації та міра відстані.

У Statistica можна вибрати один з наступних методів (алгоритмів) ієрархічного об'єднання кластерів:

Single linkage – метод одиночного зв’язку;

Complete linkage – метод повного зв’язку;

Unweighted pair-group average – незважений метод „середнього зв’язку”;

Weighted pair-group average – зважений метод „середнього зв’язку”;

Unweighted pair-group centroid – незважений центроїдний метод;

Weighted pair-group centroid (median) – зважений центроїдний метод;

Ward's method – метод Уорда.

У Statistica реалізовані наступні міри відстаней: евклідова відстань, квадрат евклідової відстані, манхеттенівська відстань (або „відстань міських кварталів”), метрика Чебишева, метрика Мінковського, пірсонівський коефіцієнт кореляції та ін.

Наприклад, виберемо алгоритм Уорда й Евклідову відстань (дивіться установки на рис. 17).

Після натискання кнопки ОК одержуємо вікно результатів ієрархічного кластерного аналізу (рис. 23). В інформаційній частині вікна зазначена наступна інформація: кількість аналізованих змінних і випадків (в даному разі – регіонів), вид класифікації, спосіб обробки пропущених значень, алгоритм кластеризації та міра відстаней. У функціональній частині вікна є ряд кнопок, що дозволяють різнобічно переглянути результати кластеризації.

Рис. 23. Вікно результатів кластеризації ієрархічним методом

Наглядно результати кластеризації ієрархічними методами представляються на дендрограмі (дереві класифікації), для побудови якої призначені дві кнопки у вікні результатів – Horizontal hierarchical tree plot (горизонтальна дендрограма) та Vertical icicle plot (вертикальна дендрограма). Вид дерева класифікації обирається суб’єктивно. На рис. 24 показано горизонтальне дерево класифікації регіонів за двома показниками.

Рис. 24. Горизонтальна дендрограма

Розглянемо отриману дендрограму. На ній наглядно представлено об’єднання регіонів у кластери. Якщо умовно „розрізати” дендрограму на рівні 45, то одержимо три кластери (класи регіонів). У перший кластер увійшли 10 регіонів: Черкаська, Луганська, Донецька, Харківська, Запорізька, Закарпатська, Житомирська, Сумська, Львівська і Дніпропетровська області. У другий кластер увійшли також 10 регіонів: Чернівецька, Миколаївська, Рівненська, Кіровоградська, Київська, Чернігівська, Тернопільська, Волинська, Хмельницька і Вінницька області. У третій кластер увійшли 5 регіонів: Херсонська, Івано-Франківська, Одеська, Полтавська області й Автономна Республіка Крим. На дендрограмі також зазначені відстані, на яких відбулося об’єднання елементів (регіонів) у кластери, алгоритм, міра відстаней і кількість оброблених випадків.

Матрицю приєднань, у якій зазначені об'єкти (регіони) і відстані, на яких відбулося об'єднання регіонів у кластери, можна побачити, натиснувши кнопку Amalgamation schedule (список приєднань). З цього списку також можна встановити, які регіони об’єдналися в кластери.

Матрицю відстаней між регіонами можна побачити, натиснувши кнопку Distance matrix. Ініціювавши кнопку Descriptive statistics – Описова статистика, отримаємо матрицю, у якій будуть указані середні значення показників та їх стандартні відхилення для кожного об’єкта.

Проведемо кластеризацію методом k-середніх і порівняємо отримані результати.

На панелі інструментів Statistics або в меню Statistics вибрати функцію Cluster Analysis – Кластерний аналіз, а у вікні, що з’явилося, вибрати ітеративний метод кластеризації – k-means clustering. Обравши цей метод, отримаємо стартове вікно для кластеризації (рис. 25).

Рис. 25. Стартове вікно методу k-середніх

У стартовому вікні аналізу вибираються змінні для класифікації (кнопка Variables), вибирається бажана кількість кластерів (Number of clusters), кількість ітерацій (Number of iterations). Тут також задаються початкові умови вибору центрів кластерів (три опції внизу): Choose observations to maximize initial between-cluster distances – вибрати як центри такі елементи, щоб максимізувати відстань між кластерами; Sort distances and take observations at constant intervals – вибрати відстані в постійних інтервалах; Choose the first N (Number of clusters) observations – як центри взяти перші N елементів (дивіться установки на рис. 25).

Після натискання кнопки ОК одержуємо вікно результатів кластерного аналізу методом k-середніх (рис. 26).

Рис. 26. Вікно результатів кластеризації методом k-середніх

В інформаційній частині вікна зазначена кількість показників, за якими проведена класифікація, кількість оброблених випадків, метод кластеризації, спосіб обробки пропущених значень, кількість виділених кластерів і номер ітерації, після якої закінчився процес класифікації.

У функціональній частині вікна є ряд кнопок, що дозволяють усебічно розглянути результати класифікації. Призначення кнопок наведено у табл. 8.

Результати ініціалізації кнопок наведені на рис. 27, 28

На графіку середніх (рис. 27) зображені середні значення змінних у кластерах. Так у третій кластер увійшли регіони з низькою зайнятістю в сільському господарстві і високою зайнятістю в промисловості. У другому кластері спостерігається протилежна ситуація. У перший кластер увійшли регіони із середніми значеннями зайнятості в сільському господарстві та у промисловості.

Таблиця 8

⇐ Предыдущая 1 2 3 4 567 8 Следующая ⇒

Дата добавления: 2015-09-19; просмотров: 889. Нарушение авторских прав; Мы поможем в написании вашей работы!

Аальтернативная стоимость. Кривая производственных возможностей В экономике Буридании есть 100 ед. труда с производительностью 4 м ткани или 2 кг мяса...

Вычисление основной дактилоскопической формулы Вычислением основной дактоформулы обычно занимается следователь. Для этого все десять пальцев разбиваются на пять пар...

Расчетные и графические задания Равновесный объем - это объем, определяемый равенством спроса и предложения...

Кардиналистский и ординалистский подходы Кардиналистский (количественный подход) к анализу полезности основан на представлении о возможности измерения различных благ в условных единицах полезности...

Стресс-лимитирующие факторы Поскольку в каждом реализующем факторе общего адаптационного синдрома при бесконтрольном его развитии заложена потенциальная опасность появления патогенных преобразований...

ТЕОРИЯ ЗАЩИТНЫХ МЕХАНИЗМОВ ЛИЧНОСТИ В современной психологической литературе встречаются различные термины, касающиеся феноменов защиты...

Этические проблемы проведения экспериментов на человеке и животных В настоящее время четко определены новые подходы и требования к биомедицинским исследованиям...

Задержки и неисправности пистолета Макарова 1.Что может произойти при стрельбе из пистолета, если загрязнятся пазы на рамке...

Вопрос. Отличие деятельности человека от поведения животных главные отличия деятельности человека от активности животных сводятся к следующему: 1...

Расчет концентрации титрованных растворов с помощью поправочного коэффициента При выполнении серийных анализов ГОСТ или ведомственная инструкция обычно предусматривают применение раствора заданной концентрации или заданного титра...

Studopedia.info - Студопедия - 2014-2024 год . (0.01 сек.) русская версия | украинская версия