Структурный подход к обработке многомерных данных
Совокупность описаний объектов и отношений между этими описаниями называется структурой данных. Целью анализа структуры данных является построение математической модели исследуемого явления в виде функционального, статистического или иного описания. Такая модель позволяет заменить экспериментальные данные, как способ представления, на некоторый более общий закон, из которого исходные данные вытекают уже как частный случай. Другими словами, целью структурного анализа данных являются выводы о взаимоотношениях объектов из некоторого множества, сведения о которых могут и не содержаться в явном виде в исходной информации. Да и форма представления данных, т.е. описаний объектов может быть самой разнообразной: числовые таблицы, качественные таблицы, тексты и др. На практике широко используется табличное представление данных. Пусть таблица экспериментальных данных состоит из n строк (по числу объектов) и m столбцов (по числу признаков, показателей). Структурная схема обработки данных такой таблицы осуществляется в три этапа. Этап 1. Приведение экспериментальных данных к стандартному виду, пригодному для ввода и обработки в ЭВМ. Основная цель этапа состоит в переходе от описательных и абстрактных значений признаков (показателей) к числовому представлению. Такой процесс называется шкалированием и является предметом изучения теории измерений. В результате этого этапа имеем матрицу шкальных (количественных) значений , где – шкальное (количественное) значение j –го показателя для i –го объекта. Наиболее часто используются 3 типа шкал. 1. Шкала наименований. Здесь показатели называются классификационными или номинальными ("профессия", "торговая марка", "тип двигателя", вариант инвестиционного проекта и т.д.). 2. Порядковая шкала. Здесь показатели называются качественными или ранговыми ("сила ветра в баллах", "оценка на экзамене", "образование", рейтинг финансовой организации и т.д.) 3. Количественные шкалы интервалов, отношений, разностей, абсолютных значений. Примером признака, измеренного в абсолютной шкале, может служить "количество элементов некоторого множества", "количество единиц оборудования"; в шкале отношений измеряются, например, вес, длина; в шкале интервалов измеряются время, температура, размер дивидендов, прибыль и т.д. Сами показатели можно рассматривать как оси системы координат в m –мерном пространстве. Тогда каждый i –й объект с описанием можно интерпретировать как точку с координатами в этом пространстве. Пространство разнотипных признаков размерности m называется пространством описания. Этап 2. Разбиение множества имеющихся объектов на непересекающиеся классы S 1, S 2,..., SG, каждый из которых соответствует определенной модели (или одной части) исследуемого явления. Эта задача решается методами классификации, распознавания образов, дискриминантного анализа. Этап 3. Поиск законов, описывающих поведение объектов каждого из классов S 1, S 2,..., SG. Здесь могут использоваться методы регрессионного, факторного анализов, интерполяции, аппроксимации, методы снижения размерности и т.д.
|