Деревья решений.
Если нейронная сеть для классификации использует одновременно всю совокупность имеющихся признаков, то дерево решения рассматривает признаки поочередно, выбирая тот из них, который может внести наибольший вклад в процесс разбиения исходного множества на классы. Если значение больше некоторого порогового, то получим результат 3 крестика и один нолик. В обратном случае – 1 крестик и 3 нолика. Получили 2 подмножества. В них процедуру повторяем. Если задать элемент с некоторыми координатами S(x1, x2), то по этому дереву можно получить однозначный ответ о принадлежности к определенному узлу. Суть задачи регрессии – мы находим значения дискретной переменной. Достоинством дерева решений является то, что оно может быть использовано как с численными, так и номинальными входными переменными. 1 этап – построение дерева решений. 2 этап – использование дерева решений. Построение дерева связано с выбором критериев расщепления из числа возможных параметров, указанных в обучающей выборке и определением его порогового значения, а также решением вопроса об отнесении полученного узла к терминальному, либо к внутреннему, для которого процесс расщепления следует продолжить. Использование можно осуществлять в той же среде, что и построение модели в режиме что-если. Е НЕ (x1>x1*) И НЕ (X2>x2*1) То S принадлежит (х). Это правило позволяет пользователю увидеть процесс расширения задач в отличие от нейронных сетей. Существуют различные виды деревьев решений. Предыдущее дерево было бинарным, так как из каждого узла только два выхода: ДА и НЕТ. Бинарные деревья являются частным случаем, однако достаточно распространенным. Все решения разбиваются на категории: базовая информация, информация о занятости, о финансовом положении, регистрационная информация. При равных условиях можно использовать дополнительный параметр – доход, с помощью которого определяется, какое решение примет система. Такие возможности являются следствием интуитивного восприятия пользователем. Деревья решений позволяют классифицировать объекты в тех случаях, когда пользователю сложно определить, какие из возможных факторов следует учитывать, а какими можно пренебречь. Алгоритм построения дерева решений не требует от пользователя первоначального выбора факторов, при этом алгоритм сам отберет наиболее значимые и только они будут использованы для построения внутренних и терминальных узлов дерева. Это значительно облегчает задачу аналитика при построении модели. Что касается точности, то модель дерева решения сопоставима с другими методами классификации, точность модели может быть определена путем отношения количества правильных ответов к общему количеству объектов, включенных в обучающую выборку. Кроме того для проверки точности исходная выборка разбивается на обучающую и тестовую. Тестовая используется для окончательной проверки точности модели. Алгоритмы построения дерева решения являются масштабируемыми и в соответствии с этим могут быть использованы для обработки сверхбольших БД, масштабируемость означает, что время, которое затрачивается для построения деревьев решений, увеличивается. Большинство алгоритмов построения имеют возможность специальной обработки исходной выборки путем удаления дублированных и введения пропущенных значений, кроме того деревья могут использовать как категориальные, так и числовые величины исходных факторов. Многие статистические модели и модели обучения являются параметрическими. Алгоритмы включают 2 этапа: этап построения и этап сокращения. На каком шаге построения нужно отбросить некоторые ветви, чтобы модель ориентировалась на более общие знания. Одним из возможных методов остановки обучения является достижение заданной точности. На этапе сокращения решается вопрос об отсечении ветвей по некоторому правилу. Белов, Баллод, Елизарова ТВ и МС глава 8 – факторный анализ. Существуют различные критерии расщепления, которые используются в моделях деревьев решения. В соответствии с этими критериями при построении дерева необходимо найти такой фактор, который бы в наибольшей степени разбивал анализируемое подмножество на классы однородных элементов. В идеале разбиваемые подмножества должна состоять из элементов одного класса. Последнее означает, что количество примесей должно стремиться к минимуму. Среди наиболее используемых критериев является энтропийный критерий, основанный на оценке т.н. информационного выигрыша того или иного фактора. Gain = H(N) – Hx(N), Hx(N) = Σ H(ki). Другой критерий расщепления основан на том, что выбирается расстояние между разделяемыми классами и тогда критерий расщепления стремится выбрать тот фактор, который дает наибольшее расстояние (критерий Джинни). Gini = 1 – Σ Pi2(x). Рассмотрим правило остановки дерева. Это правило определяет, является ли данный узел терминальным или его нужно вновь подвергать изменению. Ранняя остановка определяет целесообразность остановки. Она ориентирована на количество узлов, преимущество правила – сокращение объема дерева, однако возникает риск точности дерева. Второй вариант остановки – это ограничение глубины дерева. В этом случае осуществляется максимально возможная глубина, а затем отсекаются те из них, которые вносят минимальный вклад в качество классификации. Среди реализованных в аналитических платформах методов распространены CART, C 4.5. Первый из них – классификационное и регрессионное дерево. Этот алгоритм решает задачи как классификации, так и регрессии. Однако он строит только бинарные деревья. В процессе работы осуществляется функция оценки качества разбиения, реализован механизм отсечения, реализован механизм обработки пропущенных значений и механизм проведения анализа типа что-если. Для проверки качества используется перекрестная проверка, которая является оригинальной частью, при этом из исходной выборки не требуется выделять тестовое подмножество. Второй алгоритм строит дерево с неограниченным количеством ветвей, однако работает только с дискретными зависимыми атрибутами при решении задач классификации. Отличается высокой скоростью построения дерева и высокой точностью, в качестве критерия использует критерий Джинни. Деревья решений представляют собой достаточно гибкое и наглядное средство предсказания принадлежности объектов и прогнозиоования значения.
Df – собственная дисперсия должна быть максимальной. Df-x – должна быть минимальна, f = а0+а1*х1+а2*х2. ΣDx = n; Замена факторов возможна в том случае, если между исходными переменными существует взаимное влияние (корреляция). Тогда можно перейти к нормированным значениям. Тогда R = 1/n*Z*ZT, Z=A*F, R = 1/n*A*F*AT*FT, C = 1/n*F*FT = E, тогда R* = A*AT. Есть матрица n*m. Затем эту матрицу мы нормируем. Дальше вычисляем корреляции между признаками. Затем вычисляем матрицу факторных нагрузок. Затем вычисляем значения самих латентных факторов (размер p*n). Операция вращения осей латентных факторов. Получаем матрицу W размера m*p. Затем Fw того же размера. Затем можно проверить, на сколько в целом изменился показатель.
|