Общая схема обучения нейронных сетей. Обучение однослойной нейронной сети с учителем.
Принцип параллельной обработки сигналов, который достигается путем объединения большого числа нейронов в так называемые слои и соединения определенным образом нейронов различных слоев, а также, в некоторых конфигурациях, и нейронов одного слоя между собой. В качестве примера простейшей НС рассмотрим трехнейронный персептрон (рис. 7.1), то есть такую сеть, нейроны которой имеют активационную функцию в виде единичного скачка. Рис. 7.1. Однослойный персептрон.
На n входов поступают некие сигналы, проходящие по синапсам на 3 нейрона, образующие единственный слой этой НС и выдающие три выходных сигнала:
Очевидно, что все весовые коэффициенты синапсов одного слоя нейронов можно свести в матрицу W, в которой каждый элемент wij задает величину i -ой синаптической связи j -ого нейрона. Таким образом, процесс, происходящий в НС, может быть записан в матричной форме:
где X и Y – соответственно входной и выходной сигнальные векторы, F(V) – активационная функция, применяемая поэлементно к компонентам вектора V, Q - пороговый вектор. Теоретически число слоев и число нейронов в каждом слое может быть произвольным, однако фактически оно ограничено ресурсами компьютера или специализированной микросхемы, на которых обычно реализуется НС. Чем сложнее НС, тем масштабнее задачи, подвластные ей. Выбор структуры НС осуществляется в соответствии с особенностями и сложностью задачи. Разработчику НС приходится решать сложную проблему синтеза новой конфигурации. При этом он руководствуется несколькими основополагающими принципами: возможности сети возрастают с увеличением числа ячеек сети, плотности связей между ними и числом выделенных слоев; введение обратных связей наряду с увеличением возможностей сети поднимает вопрос о динамической устойчивости сети; сложность алгоритмов функционирования сети (в том числе, например, введение нескольких типов синапсов – возбуждающих, тормозящих и др.) также способствует усилению мощи НС. Очевидно, что процесс функционирования НС, то есть сущность действий, которые она способна выполнять, зависит от величин синаптических связей, поэтому, задавшись определенной структурой НС, отвечающей какой-либо задаче, разработчик сети должен найти оптимальные значения всех переменных весовых коэффициентов (некоторые синаптические связи могут быть постоянными). Этот этап называется обучением НС, и от того, насколько качественно он будет выполнен, зависит способность сети решать поставленные перед ней проблемы во время эксплуатации. На этапе обучения кроме параметра качества подбора весов важную роль играет время обучения. Как правило, эти два параметра связаны обратной зависимостью и их приходится выбирать на основе компромисса. Обучение НС может вестись с учителем или без него. В первом случае сети предъявляются значения как входных, так и желательных выходных сигналов, и она по некоторому внутреннему алгоритму подстраивает веса своих синаптических связей. Во втором случае выходы НС формируются самостоятельно, а веса изменяются по алгоритму, учитывающему только входные и производные от них сигналы. Существует великое множество различных алгоритмов обучения, которые однако делятся на два больших класса: детерминистские и стохастические. В первом из них подстройка весов представляет собой жесткую последовательность действий, во втором – она производится на основе действий, подчиняющихся некоторому случайному процессу. Еще одна классификация делит НС на синхронные и асинхронные. В первом случае в каждый момент времени свое состояние меняет лишь один нейрон. Во втором – состояние меняется сразу у целой группы нейронов, как правило, у всего слоя. Алгоритмически ход времени в НС задается итерационным выполнением однотипных действий над нейронами. Далее будут рассматриваться только синхронные НС. Сети также можно классифицировать по числу слоев. На рисунке 7.2 представлен двухслойный персептрон, полученный из персептрона с рисунка 7.1 путем добавления второго слоя, состоящего из двух нейронов.
Рис. 7.2. Двухслойный персептрон.
Алгоритмы обучения бывают с учителем и без. Алгоритм называется алгоритмом с учителем, если при обучении известны и входные, и выходные вектора сети. Имеются пары вход + выход – известные условия задачи и решение. В процессе обучения сеть меняет свои параметры и учится давать нужное отображение X®Y. Сеть учится давать результаты, которые нам уже известны. За счет способности к обобщению сетью могут быть получены новые результаты, если подать на вход вектор, который не встречался при обучении. Алгоритм относится к обучению без учителя, если известны только входные вектора, и на их основе сеть учится давать наилучшие значения выходов. Что понимается под “наилучшими” — определяется алгоритмом обучения. Персептрон обучается с учителем. Это означает, что должно быть задано множество пар векторов , s=1..S, где – формализованное условие задачи, а – известное решение для этого условия. Совокупность пар составляет обучающее множество. S – количество элементов в обучающем множестве – должно быть достаточным для обучения сети, чтобы под управлением алгоритма сформировать набор параметров сети, дающий нужное отображение X®Y. Количество пар в обучающем множестве не регламентируется. Если элементов слишком много или мало, сеть не обучится и не решит поставленную задачу. Выберем один из векторов xs и подадим его на вход сети. На выходе получится некоторый вектор ys. Тогда ошибкой сети можно считать для каждой пары (xs, ds). Чаще всего для оценки качества обучения выбирают суммарную квадратическую ошибку:
Реже применяется средняя относительная ошибка:
Ее преимущество в том, что она дает значение, не зависящее напрямую ни от количества примеров в обучающем множестве, ни от размерности выходного вектора, и имеет удобное для восприятия человеком значение в интервале от 0 до 100%. Задача обучения персептрона ставится так: подобрать такие значения параметров сети, чтобы ошибка была минимальна для данного обучающего множества. Большая часть методов обучения — итерационные. Параметрам сети (весовым коэффициентам и пороговым уровням) присваиваются малые начальные значения. Затем параметры изменяются так, чтобы ошибка E убывала. Изменения продолжаются до тех пор, пока ошибка не станет достаточно малой. Общая схема обучения персептрона: 1. Инициализировать веса и параметры функции активации в малые ненулевые значения; 2. Подать на вход один образ и рассчитать выход; 3. Посчитать ошибку Es, сравнив ds и ys. 4. Изменить веса и параметры функции активации так, чтобы ошибка Es уменьшилась. 5. Повторить шаги 2-4 до тех пор, пока ошибка не перестанет убывать или не станет достаточно малой. Здесь веса меняются так, что убывает не E, а Es, относящаяся к образу s, а не ко всему обучающему множеству. Шаги в данном варианте алгоритма делаются не в направлении убывания E, а в направлении убывания Es, таким образом, E не обязательно должна убывать. Какие условия необходимы для существенной убыли E? Опыт показывает, что для этого необходимо отсутствие упорядоченности в предъявлении образов, т.е. в выборе s на каждой итерации. Если образы выбираются случайно из обучающего множества, то ошибка E чаще всего убывает. Если же есть упорядоченность (например, образы предъявляются циклически: 1-й, 2-й,..., S- й, 1-й,...) то чаще всего E (t), где t — время обучения, не имеет предела при t®¥, т.е. алгоритм расходится. В этом случае Es тоже убывает при каждом изменении параметров, но при следующей коррекции для образа (s +1) ошибка E s+1 убывает, а E s, относящаяся к предыдущему образу, возрастает сильнее, так что E может увеличиться. Сеть "забывает" текущий образ при предъявлении следующего. Обучение однослойного персептрона Задача обучения однослойного персептрона решается просто. Его работа определяется выражением:
Подадим на вход один вектор x s из обучающего множества. Рассчитаем выход и сравним полученный выходной вектор ys с эталоном: ds. Зная разницу между ними, можно ввести коррекции для весовых коэффициентов и пороговых уровней:
где e – небольшое положительное число, характеризующее скорость обучения. Разница между выходом и эталоном, и умножение на текущее значение входа xij обеспечивают правильное направление коррекций: если , то выход должен увеличиться, и вес увеличивается, если xij>0, и уменьшается, если xij<0. Если xij=0, то вес менять нельзя, т.к. он не влияет на выход. Абсолютное значение xij также учитывается при обучении. Чем меньше меняются веса, тем меньше вероятность искажения уже запомненных образов. Поэтому множитель xij оправдан.
|