Алгоритм обратного распространения ошибки

⇐ Предыдущая 13 14 15 16 171819 20 21 22 Следующая ⇒

При рассмотрении различных моделей нейронов мы обсуждали основные технологии их обучения. Чаще всего обучение осуществлялось следующим образом. Рассчитывалась сумма произведений входных сигналов на соответствующие им веса. Далее полученное значение подавалось на вход используемой функции активации, на выходе которой появлялся выходной сигнал нейрона. Поскольку требуемое выходное значение нам известно (оно равно эталонному выходному значению, содержащемуся в обучающей выборке), то погрешность сигнала на выходе нейрона определяется достаточно просто. Искомая погрешность равна разности между фактическим выходным значением и эталонным значением. Аналогичным образом можно рассчитать погрешность для последнего слоя в многослойных сетях. Однако в этой ситуации возникает сложность с расчетом погрешности для скрытых слоев, поскольку учитель не знает эталонные значения на выходах расположенных в них нейронов. На помощь приходит наиболее распространенная технология обучения многослойных нейронных сетей, называемая методом обратного распространения ошибки. Для описания этого алгоритма необходимо формально определить соответствующую меру погрешности. Она представляет собой функцию, в которой в роли переменных выступают все веса многослойной нейронной сети. Обозначим искомую функцию Q(w), где w - вектор всех весов сети. В процессе обучения будем стремиться минимизировать значение Q (w) относительно вектора w. Разложим функцию Q(w) в ряд Тейлора в непосредственной близости от известного фактического решения w. Разложение в направлении р представим следующим образом:

Q (w+p)= Q (w)+[g(w)]^Tp+0,5 p ^TH(w)p +..., (2.95)

где g (w) обозначает вектор градиента, т.е.:

(2.96)

a H(w) - гессиан, т.е. матрица вторых производных:

(2.97)

Веса модифицируются по формуле

w(t+1) = w(t) + η(t)p(t), (2.98)

где η - коэффициент обучения (способ подбора значения этого параметра будет описан несколько позднее).

Веса могут модифицироваться так долго, пока функция Q не достигнет минимума либо ее значение не станет меньше априори заданного порога. Таким образом, задача сводится к поиску вектора направления р, обеспечивающего уменьшение погрешности на выходе сети на очередных шагах алгоритма. Это означает, что на следующих итерациях должно выполняться неравенство Q( w (t + 1))< Q (w(t)). Ограничим ряд Тейлора, аппроксимирующий функцию погрешности Q, линейным разложением, т.е.

Q (w+ p) = Q (w) + [g(w)]^Tp. (2.99)

Поскольку функция Q( w ) зависит от весов, найденных на шаге t, a Q( w+р) - от весов, найденных на шаге (t+ 1 ) то для выполнения неравенства Q( w (t+1))<Q( w (t) достаточно подобрать вектор р(t), при котором g(w(t)^Tp(t)<0. Легко заметить, что это условие выполняется при

p(t)=-g(w(t)). (2.100)

При подстановке зависимости (2.100) в формулу (2.98) получаем следующее выражение для изменения весов многослойной нейронной сети:

w (t+ l)= w (t) - ηg(w (t)). (2.101)

Зависимость (2.101) известна в литературе под названием «правило наискорейшего спуска». Для эффективного использования выражения (2.101) с целью вывода алгоритма обратного распространения ошибки необходимо формально описать структуру многослойной нейронной сети и ввести соответствующие обозначения.

Эта структура изображена на рисунке 2.16. В каждом слое расположено N_k элементов, k =1,..., L, обозначаемых N^k_i, i = 1, ..., N_k. Элементы N^k_i будем называть нейронами, причем каждый из них может иметь сигмоиду на выходе. Обсуждаемая нейронная сеть имеет N₀ входов, на которые подаются сигналы х₁ (t), ...,x_N₀ (t), записываемые в векторной форме как

x = [ x ₁(t),..., x_N₀ (t)]^T, t = 1,2,.... (2.102)

Рис.2.16. Многослойная нейронная сеть

Выходной сигнал i -го нейрона в k- мслое обозначается у_i⁽^k⁾(t), i = 1,. .,N_k, k = 1,..., L. На рисунке 2.17 показана детальная структура i -го нейрона в k- мслое.

Рис. 2.17. Структура нейрона

Нейрон N^k_i имеет N_k входов, образующих вектор

(2.103)

причем x_i⁽^k⁾(t) = +1 для i = 0 и k = 1, ...,L.

Обратим внимание на факт, что входной сигнал нейрона N^k_i связан с выходным сигналом (k - 1)-го слоя следующим образом:

для для для

(2.104)

На рисунке 2.17 символом w_ij⁽^k⁾ (t) обозначен вес входа i -го нейрона, i=1,…N_k_, расположенного в k -м слое, который соединяет этот нейрон с j -м входным сигналом x_i⁽^k⁾(t), j= 0,1 ,...,N_k. Вектор весов нейрона N^k_i будем обозначать

, k =1,..., L, i = 1 ..,,N_k. (2.105)

Выходной сигнал нейрона N^k_i в момент t, t = 1,2,... определяется как

y_i⁽^k⁾(t) = f(si⁽^k⁾(t)), (2.106)

причем

(2.107)

Отметим, что выходные сигналы нейронов L -го слоя

(2.108)

одновременно являются выходными сигналами сети в целом. Они сравниваются с так называемыми эталонными сигналами сети

(2.109)

Погрешность на выходе сети определяется следующим образом:

(2.110)

При использовании зависимостей (2.101) и (2.110) получаем

(2.111)

Обратим внимание, что

(2.112)

Если ввести обозначение

(2.113)

то получим равенство

(2.114)

При этом алгоритм (2.111) принимает вид

(2.115)

Способ расчета значения зависит от номера слоя. Для последнего слоя получаем

(2.116)

Для произвольного слоя k ≠ L получаем

(2.117)

Определим погрешность для i -го нейрона в k -м (не последнем) слое в виде

k = 1,…,L - 1. (2.118)

При подстановке выражения (2.118) в формулу (2.117) получаем

(2.119)

В результате алгоритм обратного распространения ошибки можно записать в виде

(2.120)

(2.123)

(2.124)

Мы рассмотрели последовательность математических выражений, описывающих способ обучения многослойной нейронной сети. Выполнение алгоритма начинается с подачи обучающей последовательности на вход сети. Вначале эта последовательность обрабатывается нейронами первого слоя. Конечно, под «обработкой» мы понимаем здесь расчет значений выходных сигналов (см. формулы (2.106), (2.107)) для каждого нейрона этого слоя. Полученные сигналы подаются на входы нейронов следующего слоя. Описанный цикл повторяется, т.е. вновь рассчитываются выходные сигналы нейронов очередного слоя, которые передаются далее - вплоть до выходного слоя. После получения выходного сигнала последнего слоя и выбора соответствующего эталонного сигнала из обучающей последовательности рассчитывается погрешность на выходе сети по формуле (2.121). Веса нейронов последнего слоя можно модифицировать при помощи дельта-правила также как и веса одиночного нейрона с сигмоидой на выходе - для этого используются формулы (2,121), (2.123), (2,124). Однако этот способ непригоден для модификации весов нейронов в скрытых слоях, поскольку значения для этих нейронов неизвестны, а целевая функция, заданная выражением (2.110), зависит от весов всех нейронов сети. Поэтому выходная погрешность распространяется в обратном направлении (от выходного слоя к входному) в соответствии с межслойными соединениями нейронов и с учетом их функций активации (см. формулы (2.122) - (2.124)). Таким образом, название алгоритма объясняется способом его реализации, т.е. погрешность «возвращается» от выходного слоя к входному слою.

27. Принцип обучения нейронной сети «без учителя»

⇐ Предыдущая 13 14 15 16 171819 20 21 22 Следующая ⇒

Дата добавления: 2015-09-06; просмотров: 667. Нарушение авторских прав; Мы поможем в написании вашей работы!

Вычисление основной дактилоскопической формулы Вычислением основной дактоформулы обычно занимается следователь. Для этого все десять пальцев разбиваются на пять пар...

Расчетные и графические задания Равновесный объем - это объем, определяемый равенством спроса и предложения...

Кардиналистский и ординалистский подходы Кардиналистский (количественный подход) к анализу полезности основан на представлении о возможности измерения различных благ в условных единицах полезности...

Обзор компонентов Multisim Компоненты – это основа любой схемы, это все элементы, из которых она состоит. Multisim оперирует с двумя категориями...

Правила наложения мягкой бинтовой повязки 1. Во время наложения повязки больному (раненому) следует придать удобное положение: он должен удобно сидеть или лежать...

ТЕХНИКА ПОСЕВА, МЕТОДЫ ВЫДЕЛЕНИЯ ЧИСТЫХ КУЛЬТУР И КУЛЬТУРАЛЬНЫЕ СВОЙСТВА МИКРООРГАНИЗМОВ. ОПРЕДЕЛЕНИЕ КОЛИЧЕСТВА БАКТЕРИЙ Цель занятия. Освоить технику посева микроорганизмов на плотные и жидкие питательные среды и методы выделения чистых бактериальных культур. Ознакомить студентов с основными культуральными характеристиками микроорганизмов и методами определения...

САНИТАРНО-МИКРОБИОЛОГИЧЕСКОЕ ИССЛЕДОВАНИЕ ВОДЫ, ВОЗДУХА И ПОЧВЫ Цель занятия.Ознакомить студентов с основными методами и показателями...

В теории государства и права выделяют два пути возникновения государства: восточный и западный Восточный путь возникновения государства представляет собой плавный переход, перерастание первобытного общества в государство...

Закон Гука при растяжении и сжатии Напряжения и деформации при растяжении и сжатии связаны между собой зависимостью, которая называется законом Гука, по имени установившего этот закон английского физика Роберта Гука в 1678 году...

Характерные черты официально-делового стиля Наиболее характерными чертами официально-делового стиля являются: • лаконичность...

Studopedia.info - Студопедия - 2014-2025 год . (0.012 сек.) русская версия | украинская версия