Многослойный персептрон
Эта глава посвящена важному классу нейронных сетей — многослойным сетям прямого распространения. Обычно сеть состоит из множества сенсорных элементов (входных узлов или узлов источника), которые образуют входной слой; одного или нескольких скрытых слоев (hidden layer) вычислительных нейронов и одного выходного слоя (output layer) нейронов. Входной сигнал распространяется по сети в прямом направлении, от слоя к слою. Такие сети обычно называют многослойными персептронами (multilayer percetron). Они представляют собой обобщение однослойного персептрона. Многослойные персептроны успешно применяются для решения разнообразных сложных задач. При этом обучение с учителем выполняется с помощью такого популярного алгоритма, как алгоритм обратного распространения ошибки (error back-propagation algorithm). Этот алгоритм основывается на коррекции ошибок (error-correction learning rule). Обучение методом обратного распространения ошибки предполагает два прохода по всем слоям сети: прямого и обратного. При прямом проходе (forward pass) образ (входной вектор) подается на сенсорные узлы сети, после чего распространятся по сети от слоя к слою. В результате генерируется набор выходных сигналов, который и вляется фактической реакцией сети на данный входной образ. Во время прямого прохода все синаптические веса сети фиксированы. Во время обратного прохода (backward pass) все синаптические веса настраиваются в соответствии с правилом коррекции ошибок, а именно: фактический выход сети вычитается из желаемого (целевого) отклика, в результате чего формируется сигнал ошибки (error signal). Этот сигнал впоследствии распространяется по сети в направлении, обратном направлению синаптических связей. Отсюда и название — алгоритм обратного распространения ошибки. Синаптические веса настраиваются с целью максимального приближения выходного сигнала сети к желаемому в статистическом смысле.
Алгоритм обратного распространения ошибки в литературе иногда называют упрощенно — алгоритмом обратного распространения (back-propagation algorithm). Процесс обучения, реализуемый этим алгоритмом, называется обучением на основе обратного распространения (back-propagation learning). Многослойные персептроны имеют три отличительных признака. 1. Каждый нейрон сети имеет нелинейную функцию активации. Важно подчеркнуть, что данная нелинейная функция является гладкой (т.е. всюду дифференцируемой). Самой популярной формой функции, удовлетворяющей этому требованию, является сигмоидальная, определяемая логистической функцией. , где — индуцированное локальное поле (т.е. взвешенная сумма всех синаптических входов плюс пороговое значение) нейрона ; — выход нейрона. Наличие нелинейности играет очень важную роль, так как в противном случае отображение «вход-выход» сети можно свести к обычному однослойному персептрону. Более того, использование логистической функции мотивировано биологически, так как в ней учитывается восстановительная фаза реального нейрона. 2. Сеть содержит один или несколько слоев скрытых нейронов, не являющихся частью входа или выхода сети. Эти нейроны позволяют сети обучаться решению сложных задач, последовательно извлекая наиболее важные признаки из входного образа (вектора). 3. Сеть обладает высокой степенью связности (connectivity), реализуемой посредством синаптических соединений. Изменение уровня связности сети требует изменения множества синаптических соединений или их весовых коэффициентов. Комбинация всех этих свойств наряду со способностью к обучению на собственном опыте обеспечивает вычислительную мощность многослойного персептрона. Однако эти же качества являются причиной неполноты современных знаний о поведении такого рода сетей. Во-первых, распределенная форма нелинейности и высокая связность сети существенно усложняют теоретический анализ многослойного персептрона. Во-вторых, наличие скрытых нейронов делает процесс обучения более трудным для визуализации. Именно в процессе обучения необходимо определить, какие признаки входного сигнала следует представлять скрытыми нейронами. Тогда процесс обучения становится еще более сложным, поскольку поиск должен выполняться в очень широкой области возможных функций, а выбор должен производиться среди альтернативных представлений входных образов. Рис. Структурный график многослойного персептрона с двумя скрытыми слоями.
|