Типові задачі практики
Задача 1. Виявлення типології споживчої поведінки населення. Аналіз суті диференціальної поведінки, прогнозування структури споживання. В цьому випадку логічна схема досліджень полягає в наступному. Багатомірна статистика розглядає досліджувану сукупність багатомірних об’єктів, як сукупність точок чи векторів у просторі тих ознак, якими вони є описані. Стосовно схеми споживання такою множиною є множина сімей. Кожна сім’я з однієї сторони характеризується деяким набором ознак , тобто факторів детермінантів (соціально-демографічні та інші ознаки, що описують умови життєдіяльності сім’ї), а з другої набором параметрів поведінки, в яких відбуваються її фактичні потреби. До соціально-демографічних факторів відносяться суспільна і національна приналежність, рівень освіти і кваліфікації, характер праці, демографічний тип і вік сім’ї, тип населеного пункту, і характер житла, розмір і структура майна. Весь комплекс соціально-демографічних та інших факторів, що суттєво впливають на структуру споживання називаються типоутворюючими. Вони мають визначальне значення, в той час як усі інші, дають лише випадкову варіацію поведінки споживання в межах однієї групи. До ознак поведінки відносять: рівень і структуру споживання, характер (обсяг і зміст) використання вільного часу, інтенсивність зміни соціального, трудового, демографічного статусу.
Отже в задачі маємо числові характеристики та градації типоутворюючих факторів і одночасно ознак поведінки кожної сім’ї в аналізованій сукупності. В цьому випадку логічна схема дослідження ділиться на такі етапи. Етап 1. Збір і первинна обробка вхідних даних. Об’єкти (сім’ї) виступають як точки в двох багатомірних просторах ознак: змінні в просторі станів і значення показників в просторі поведінки . При відповідному виборі метрики в просторах та геометрична близькість точок в означає подібність умов життєдіяльності відповідних двох сімей, так само як геометрична близькість точок в означає подібність їх поведінки споживання. Етап 2. Виявлення основних типів споживання з допомогою розбиття досліджуваної множини точок-сімей на класи в просторі поведінки . Тут перевіряється гіпотеза існування “природних”, об’єктивно обумовлених типів поведінки – невеликої кількості класів сімей, таких, що сім’ї одного класу характеризуються більш однотипною поведінкою споживання, ніж в порівнянні з сім’ями з інших класів. Це означає, що в просторі станів маємо згустки точок. Етап 3. Відбір найбільш інформативних типоутворюючих ознак і вибір метрики в просторі цих ознак. Найбільш інформативними вважаються такі фактори-детермінанти чи ті їх набори, різниця в законах розподілу яких виявляється найбільшою при переході від одного класу поведінки споживання до іншого. Далі проводять розбиття досліджуваної сукупності сімей на класи, використовуючи лише найбільш інформативні ознаки-детермінанти. При цьому результат залежатиме не лише від складу групи цих ознак, але й від способу обчислення відстані між двома точками в цьому просторі, зокрема і від того, з якими вагами враховуються при обчисленні відстані відібрані типоутворюючі ознаки. Ваги вибирають так, щоб результат розбиття сімей на класи в просторі найбільш інформативних ознак, найменше відрізнявся від розбиття тих же сімей в просторі поведінки, тобто добиваються найбільшої зв’язаності в результатах класифікації. Етап 4. Аналіз динаміки структури досліджуваної сукупності об’єктів в просторі найбільш інформативних типоутворюючих ознак. Кінцевою метою цього етапу є прогнозування поступових перетворень класифікаційної структури сукупності споживачів, які мають відбутися чи відбуваються з плином часу. Етап 5. Прогнозування структури споживання. На цьому етапі використовується результат попереднього етапу, виходячи з заданою класифікаційною структурою споживачів для того періоду часу в майбутньому, який нас цікавить.
ЗАДАЧА 2. Класифікація як необхідний попередній етап статистичної обробки багатомірних даних. Варіант а. Нехай вивчається залежність міграції населення (професійної чи територіальної) від низки соціально-економічних та географічних факторів таких, як середній заробіток, забезпечення житлом, дитячими закладами, рівень освіти, можливість професійного росту, кліматичні умови, тощо. Для різних однорідних груп індивідів ті самі фактори впливають на різною мірою, а інколи і в протилежних напрямках. Тому для проведення регресійного та кореляційного аналізів необхідно попередньо розбити всі отримані дані на однорідні класи і далі розв’язувати поставлену задачу окремо для кожного такого класу. Лише тоді можна сподіватись, що отримані результати регресії по допускатимуть змістовну інтерпретацію, а ступінь тісноти зв’язку між та виявиться достатньо високою. Варіант б. Для розробки обґрунтованих нормативів для підприємств деякої галузі здійснюють їх класифікацію по , оскільки лише для одного класу підприємств можна обґрунтовувати нормативи. Отже, якщо – вектор показників якості роботи підприємства (обсяг та якість продукції, її собівартість, рентабельність та інше), а – вектор регульованих факторів, від яких залежать умови виробництва (число основних підрозділів, рівень автоматизації), то задача опису залежності виду розв’язується окремо для кожного з класу.
ЗАДАЧА 3. Класифікація в задачах планування вибіркових обстежень. Наприклад, треба відібрати міста, райони, школи для проведення обстежень, досліджень чи перевірок. Як правило, виходячи з кінцевих цілей класифікації розбиття багатомірних даних на одномірні групи часом дуже складно відокремити від задач зменшення розмірності досліджуваних даних. Серед основних видів виділяють такі типові задачі зменшення розмірності ознакового простору. 1. Відбір найбільш інформативних показників. Тут з початкової апріорної множини ознак відбирається або створюється деяка комбінація початкових ознак з меншою їх кількістю, тобто , , які мають найбільшу інформативність відповідно до деякого критерію інформативності для кожного типу задачі. Критерій може бути “націлений” на досягнення максимальної точності прогнозу або на найбільш точне віднесення об’єкта до одного з класів. 2. Стиск масивів оброблюваної та збережуваної інформації. Тут використовуються методи, які дозволяють замінити початкову систему показників набором допоміжних найбільш інформативних змінних , тобто розмірність інформаційного масиву знижується від до , практично в десятки разів. 3. Візуалізація даних. Графічне та аналітичне представлення даних.
|