Модуль 2. Моделі управління інноваційними процесами.

Лабораторна робота 2.

Процедури класифікації

Одним із типів економічних задач є задачі класифікації. Для рішення задач цього типу в системі Statistica є два модулі – Кластерний аналіз і Дискримінантний аналіз. Розглянемо роботу цих модулів на прикладах.

Кластерні процедури класифікації

У табл. 7 наведені дані про структуру зайнятості населення за регіонами України. Необхідно провести класифікацію регіонів України за рівнем зайнятості методами кластерного аналізу, привести основні характеристики виділених класів, дати інтерпретацію отриманих результатів.

Таблиця 7

Структура зайнятості населення по регіонам

№ п/п	Регіон	Структура зайнятості, %
сільське господарство (СГ)	промисловість (П)

1.	Автономна Республіка Крим
2.	Вінницька
3.	Волинська
4.	Дніпропетровська
5.	Донецька
6.	Житомирська
7.	Закарпатська
8.	Запорізька
9.	Івано-Франківська
10.	Київська

Продовження табл.7


11.	Кіровоградська
12.	Луганська
13.	Львівська
14.	Миколаївська
15.	Одеська
16.	Полтавська
17.	Рівненська
18.	Сумська
19.	Тернопільська
20.	Харківська
21.	Херсонська
22.	Хмельницька
23.	Черкаська
24.	Чернівецька
25.	Чернігівська

Запускаємо програму Statistica і формуємо таблицю (файл) вихідних даних. Для того, щоб результати аналізу були представлені наглядніше, пропонується ввести замість номерів регіонів їхні назви. Це можна зробити подвійним натисканням кнопки миші на номері об’єкта (регіону).

Перед тим, як проводити аналіз, зверніть увагу на те, у якому вигляді представлені вихідні дані. Якщо вихідні дані мають різні одиниці або масштаб вимірів, то перед початком аналізу їх необхідно стандартизувати. Це можна зробити наступним чином: виділити стовпці та натиснути праву кнопку миші Fill/Standardize Block → Standardize Columns. Якщо ж розмірність однакова для всіх аналізованих ознак, то стандартизацію можна не проводити.

Спочатку проведемо кластеризацію ієрархічним методом. На панелі інструментів Statistics або в меню Statistics виберемо функцію Cluster Analysis – Кластерний аналіз і у вікні, що з’явилося, виберемо Ієрархічний метод кластеризації – Joining (tree clustering). Обравши цей метод, отримаємо стартове вікно ієрархічного методу кластеризації (рис. 22).

Рис. 22. Стартове вікно ієрархічного методу кластерного аналізу

У цьому вікні оберемо змінні, за якими буде проводитися кластеризація (кнопка Variables – Змінні). У рядку Input file необхідно задати форму представлення вихідних даних (спостережувані – Rawdata або матриця відстаней – Distance matrix). У рядку Cluster потрібно вибрати вид класифікації (класифікація Випадків (рядків) – Cases (rows) або класифікація Змінних (стовпців) – Variables (columns)).

Нижче вибирається алгоритм кластеризації та міра відстані.

У Statistica можна вибрати один з наступних методів (алгоритмів) ієрархічного об'єднання кластерів:

Single linkage – метод одиночного зв’язку;

Complete linkage – метод повного зв’язку;

Unweighted pair-group average – незважений метод „середнього зв’язку”;

Weighted pair-group average – зважений метод „середнього зв’язку”;

Unweighted pair-group centroid – незважений центроїдний метод;

Weighted pair-group centroid (median) – зважений центроїдний метод;

Ward's method – метод Уорда.

У Statistica реалізовані наступні міри відстаней: евклідова відстань, квадрат евклідової відстані, манхеттенівська відстань (або „відстань міських кварталів”), метрика Чебишева, метрика Мінковського, пірсонівський коефіцієнт кореляції та ін.

Наприклад, виберемо алгоритм Уорда й Евклідову відстань (дивіться установки на рис. 17).

Після натискання кнопки ОК одержуємо вікно результатів ієрархічного кластерного аналізу (рис. 23). В інформаційній частині вікна зазначена наступна інформація: кількість аналізованих змінних і випадків (в даному разі – регіонів), вид класифікації, спосіб обробки пропущених значень, алгоритм кластеризації та міра відстаней. У функціональній частині вікна є ряд кнопок, що дозволяють різнобічно переглянути результати кластеризації.

Рис. 23. Вікно результатів кластеризації ієрархічним методом

Наглядно результати кластеризації ієрархічними методами представляються на дендрограмі (дереві класифікації), для побудови якої призначені дві кнопки у вікні результатів – Horizontal hierarchical tree plot (горизонтальна дендрограма) та Vertical icicle plot (вертикальна дендрограма). Вид дерева класифікації обирається суб’єктивно. На рис. 24 показано горизонтальне дерево класифікації регіонів за двома показниками.

Рис. 24. Горизонтальна дендрограма

Розглянемо отриману дендрограму. На ній наглядно представлено об’єднання регіонів у кластери. Якщо умовно „розрізати” дендрограму на рівні 45, то одержимо три кластери (класи регіонів). У перший кластер увійшли 10 регіонів: Черкаська, Луганська, Донецька, Харківська, Запорізька, Закарпатська, Житомирська, Сумська, Львівська і Дніпропетровська області. У другий кластер увійшли також 10 регіонів: Чернівецька, Миколаївська, Рівненська, Кіровоградська, Київська, Чернігівська, Тернопільська, Волинська, Хмельницька і Вінницька області. У третій кластер увійшли 5 регіонів: Херсонська, Івано-Франківська, Одеська, Полтавська області й Автономна Республіка Крим. На дендрограмі також зазначені відстані, на яких відбулося об’єднання елементів (регіонів) у кластери, алгоритм, міра відстаней і кількість оброблених випадків.

Матрицю приєднань, у якій зазначені об'єкти (регіони) і відстані, на яких відбулося об'єднання регіонів у кластери, можна побачити, натиснувши кнопку Amalgamation schedule (список приєднань). З цього списку також можна встановити, які регіони об’єдналися в кластери.

Матрицю відстаней між регіонами можна побачити, натиснувши кнопку Distance matrix. Ініціювавши кнопку Descriptive statistics – Описова статистика, отримаємо матрицю, у якій будуть указані середні значення показників та їх стандартні відхилення для кожного об’єкта.

Проведемо кластеризацію методом k-середніх і порівняємо отримані результати.

На панелі інструментів Statistics або в меню Statistics вибрати функцію Cluster Analysis – Кластерний аналіз, а у вікні, що з’явилося, вибрати ітеративний метод кластеризації – k-means clustering. Обравши цей метод, отримаємо стартове вікно для кластеризації (рис. 25).

Рис. 25. Стартове вікно методу k-середніх

У стартовому вікні аналізу вибираються змінні для класифікації (кнопка Variables), вибирається бажана кількість кластерів (Number of clusters), кількість ітерацій (Number of iterations). Тут також задаються початкові умови вибору центрів кластерів (три опції внизу): Choose observations to maximize initial between-cluster distances – вибрати як центри такі елементи, щоб максимізувати відстань між кластерами; Sort distances and take observations at constant intervals – вибрати відстані в постійних інтервалах; Choose the first N (Number of clusters) observations – як центри взяти перші N елементів (дивіться установки на рис. 25).

Після натискання кнопки ОК одержуємо вікно результатів кластерного аналізу методом k-середніх (рис. 26).

Рис. 26. Вікно результатів кластеризації методом k-середніх

В інформаційній частині вікна зазначена кількість показників, за якими проведена класифікація, кількість оброблених випадків, метод кластеризації, спосіб обробки пропущених значень, кількість виділених кластерів і номер ітерації, після якої закінчився процес класифікації.

У функціональній частині вікна є ряд кнопок, що дозволяють усебічно розглянути результати класифікації. Призначення кнопок наведено у табл. 8.

Результати ініціалізації кнопок наведені на рис. 27, 28

На графіку середніх (рис. 27) зображені середні значення змінних у кластерах. Так у третій кластер увійшли регіони з низькою зайнятістю в сільському господарстві і високою зайнятістю в промисловості. У другому кластері спостерігається протилежна ситуація. У перший кластер увійшли регіони із середніми значеннями зайнятості в сільському господарстві та у промисловості.

Таблиця 8

⇐ Предыдущая 1 2 3 4 567 8 Следующая ⇒

Дата добавления: 2015-09-19; просмотров: 920. Нарушение авторских прав; Мы поможем в написании вашей работы!

Вычисление основной дактилоскопической формулы Вычислением основной дактоформулы обычно занимается следователь. Для этого все десять пальцев разбиваются на пять пар...

Расчетные и графические задания Равновесный объем - это объем, определяемый равенством спроса и предложения...

Кардиналистский и ординалистский подходы Кардиналистский (количественный подход) к анализу полезности основан на представлении о возможности измерения различных благ в условных единицах полезности...

Обзор компонентов Multisim Компоненты – это основа любой схемы, это все элементы, из которых она состоит. Multisim оперирует с двумя категориями...

КОНСТРУКЦИЯ КОЛЕСНОЙ ПАРЫ ВАГОНА Тип колёсной пары определяется типом оси и диаметром колес. Согласно ГОСТ 4835-2006* устанавливаются типы колесных пар для грузовых вагонов с осями РУ1Ш и РВ2Ш и колесами диаметром по кругу катания 957 мм. Номинальный диаметр колеса – 950 мм...

Философские школы эпохи эллинизма (неоплатонизм, эпикуреизм, стоицизм, скептицизм). Эпоха эллинизма со времени походов Александра Македонского, в результате которых была образована гигантская империя от Индии на востоке до Греции и Македонии на западе...

Демографияда "Демографиялық жарылыс" дегеніміз не? Демография (грекше демос — халық) — халықтың құрылымын...

Классификация потерь населения в очагах поражения в военное время Ядерное, химическое и бактериологическое (биологическое) оружие является оружием массового поражения...

Факторы, влияющие на степень электролитической диссоциации Степень диссоциации зависит от природы электролита и растворителя, концентрации раствора, температуры, присутствия одноименного иона и других факторов...

Йодометрия. Характеристика метода Метод йодометрии основан на ОВ-реакциях, связанных с превращением I2 в ионы I- и обратно...

Studopedia.info - Студопедия - 2014-2025 год . (0.014 сек.) русская версия | украинская версия