Математические основы алгоритма обратного распространения ошибки
Алгоритм обратного распространения ошибки был предложен D.Rumelhart, G.Hinton, R.Williams в 1986 г. и является эффективным средством для обучения многослойных нейронных сетей. Рассмотрим нейронную сеть, состоящую из четырех слоев. Обозначим слои нейронных элементов от входа к выходу соответственно через l, k, i, j. Тогда выходное значение j -го нейрона последнего слоя где Sj – взвешенная сумма j -го нейрона выходного слоя; уi – выходное значение i -го нейрона предпоследнего слоя; wij и Tj – соответственно весовой коэффициент и порог j -го нейрона выходного слоя. Аналогично выходное значение i -го нейрона предпоследнего слоя Соответственно для k -го слоя Алгоритм обратного распространения ошибки минимизирует среднеквадратичную ошибку нейронной сети. Для этого с целью настройки синаптических связей используется метод градиентного спуска в пространстве весовых коэффициентов и порогов нейронной сети. Согласно методу градиентного спуска изменение весовых коэффициентов и порогов нейронной сети происходит по следующему правилу: где Е – среднеквадратичная ошибка нейронной сети для одного образа. где tj – эталонное выходное значение j -го нейрона. Ошибка j -го нейрона выходного слоя gj = yj - tj. Теорема. Для любого скрытого слоя i ошибка i-го нейронного элемента определяется рекурсивным образом через ошибки нейронов следующего слоя j: где m – число нейронов следующего слоя по отношению к слою i; wij – синаптич. связь между i -м и j -м нейронами различных слоев; Sj – взвеш. сумма j -го нейрона. Используя результаты данной теоремы, можно определить ошибки нейронов скрытого слоя через ошибки нейронов следующего слоя по отношению к скрытому. Теорема. Производные среднеквадратичной ошибки по весовым коэффициентам и порогам нейронных элементов для любых двух слоев i и j многослойной сети определяются следующим образом: Следствие. Для минимизации среднеквадратичной ошибки сети весовые коэффициенты и пороги нейронных элементов должны изменяться с течением времени следующим образом: где a – скорость обучения. Данное следствие определяет правило обучения многослойных нейронных сетей в общем виде, которое называется обобщенным дельта-правилом.
|