Роль времени
Время играет критически важную роль в обучении, распознавании и предсказании. Давайте начнем с распознавания (inference). Без использования фактора времени, мы бы практически ничего не смогли бы понять из приходящего от наших тактильных или аудиальных сенсоров. Например, если вам завязать глаза и кто-то положит вам в руку яблоко, вы сможете понять что это такое всего через секунду или около того. И по мере движения ваших пальцев вокруг яблока (что меняет поступающую к вам тактильную информацию) сам объект (яблоко), равно как и ваше высокоуровневое представление о яблоке, остаются неизменными. Однако, если вам положить яблоко на раскрытую ладонь, полностью запретив двигать рукой и пальцами, то вам будет гораздо сложнее отличить это яблоко от, скажем, лимона. То же самое верно и для слуха. Статичный звук имеет для нас мало смысла. Слово вроде «яблоко» или хрустящий звук, когда кто-то откусывает кусок яблока, могут быть распознаны только после восприятия сотен кратких последовательно меняющихся во времени звуков различных спектров. Напротив, зрение является более сложным случаем. В отличии от осязания и слуха, люди способны распознать изображение, которое предъявляется им так быстро, что у них нет никакой возможности совершить движение глазами. То есть визуальное распознавание не всегда требует изменения входных данных во времени. Тем не менее, при обычном зрении, мы постоянно двигаем нашими глазами, головой, телом и объекты окружающего мира двигаются вместе с ними тоже. Наша описанная выше возможность распознавания столь быстрых образов является особым случаем, который становится возможным благодаря статистическим свойствам зрения и годам тренировок. В общем случае, для нормальной работы зрения, слуха и осязания требуются изменяющиеся во времени входные данные. Рассмотрев все эти случаи распознавания, давайте теперь посмотрим на обучение. Чтобы обучиться, на НТМ нужно подать переменный во времени поток данных. Даже для зрения, где иногда возможно статическое распознавание, мы должны увидеть многие изменяющиеся изображения объекта, чтобы понять и запомнить, как он выглядит. Например, представьте себе, что на вас бежит собака. В каждый момент времени изображение собаки проецируется на сетчатку нашего глаза, создавая некоторый паттерн. Вы воспринимаете эти паттерны как различные виды одной и той же собаки, хотя математически все эти паттерны совершенно различные. Наш мозг понимает, что все эти различные паттерны означают один объект наблюдая их в одной последовательности. Время здесь является «инструктором» («супервизором»), который говорит вам, какие пространственные паттерны идут вместе. Обратите внимание, что не просто изменение входа важно для нашего сенсорных чувств. Последовательное восприятие не связанных между собой входных паттернов приведет нас только к замешательству. Изменяющиеся во времени входные данные должны приходить к нам от одного источника из реального мира. И это касается не только наших человеческих чувств, хотя мы их используем тут в качестве примеров. Если мы захотим обучить НТМ распознавать данные с датчиков температуры, вибрации и шума на теплоэлектростанции, то нам нужно будет ее обучать на наборах данных именно от них, меняющихся во времени. Типично, когда для обучения сети НТМ требуется достаточно много входных данных. Вы сами научились распознавать собак, только увидев многих их представителей, а не одно изображение только одной собаки. Задачей алгоритмов обучения НТМ является изучение временных последовательностей из потока входных данных с целью построения модели, какой из паттернов следует в ней за другим паттерном. Это не просто, поскольку может быть не известно, когда последовательность начинается и заканчивается, на входе могут одновременно присутствовать перекрывающиеся последовательности, обучение должно происходить постоянно и возможно присутствие шума во входных данных. Запоминание и распознание последовательностей является основой для выработки предсказаний. После того как НТМ выучила какие паттерны скорее всего следуют за какими, она может предсказать появление следующих паттернов на основе текущих и последних входных данных. Подробнее мы рассмотри работу предсказаний в НТМ позднее. Теперь мы вернемся к четырем основным функциям НТМ: обучение, распознавание, предсказание и поведение. Каждый НТМ регион выполняет первые три функции. Поведение выходит из этого ряда. И хотя мы знаем из нейрофизиологии, что большинство регионов коры мозга как-то участвуют в поведении, мы полагаем, что для большинства практических приложений это не является необходимым. Поэтому мы не включили поведение в нашу текущую имплементацию НТМ, хотя упоминаем о нем здесь для общей полноты картины.
|