Многомерное шкалирование
Задача многомерного шкалирования состоит в построении переменных основе имеющихся расстояний между объектами. В частности, если нам даны расстояния между городами, программа многомерного шкалирования должна восстановить систему координат (с точностью до поворота и единицы длины) и приписать координаты каждому городу, так чтобы зрительно карта и изображение городов в этой системе координат совпали. Близость может определяться не только расстоянием в километрах, но и другими показателями, такими как размеры миграционных потоков между городами, интенсивность телефонных звонков, а также расстояниями в многомерном признаковом пространстве. В последнем случае задача построения такой системы координат близка к задаче, решаемой факторным анализом - сжатию данных, описанию их небольшим числом переменных. Нередко требуется, также, наглядное представление свойств объектов. В этом случае полезно придать координаты переменным, расположить в геометрическом пространстве переменные. С технической точки зрения это всего лишь транспонирование матрицы данных. Для определенности мы будем говорить о создании геометрического пространства для объектов, специально оговаривая случаи анализа множества свойств. В социальных исследованиях методом многомерного шкалирования создают зрительный образ "социального пространства" объектов наблюдения или свойств. Для такого образа наиболее приемлемо создание двумерного пространства. Основная идея метода состоит в приписывании каждому объекту значений координат, так, чтобы матрица евклидовых расстояний между объектами в этих координатах, помноженная на константу оказалась близка к матрице расстояний между объектами, определенной из каких-либо соображений ранее. Метод весьма трудоемкий и рассчитан анализ данных, имеющих небольшое число объектов.
Евклидово пространство Пусть мы определили r шкал X1,…,Xr. Расстояние между парой объектов i и j определяется формулой dij= . Для однозначности задания шкал предполагается, что =0 и . Кроме того, по аналогии с методом главных компонент, первая шкала выбирается с наибольшей дисперсией, вторая - имеет вторую наибольшую дисперсию и т.д.
|