Студопедия

КАТЕГОРИИ:

АстрономияБиологияГеографияДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРиторикаСоциологияСпортСтроительствоТехнологияФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника


ОБУЧЕНИЕ НЕЙРОННЫХ СЕТЕЙ




Важнейшим свойством нейронных сетей является их способ­ность к обучению, что делает нейросетевые модели незаменимы­ми при решении задач, для которых алгоритмизация является не­возможной проблематичной или слишком трудоемкой. Обучение нейронной сети заключается в изменении внутренних параметров модели таким образом, чтобы на выходе ИНС генерировался век­тор значений, совпадающий с результатами примеров обучающей выборки. Изменение параметров нейросетевой модели может вы­полняться разными способами в соответствии с различными алгоритмами обучения. Парадигма обучения определяется доступ­ностью необходимой информации. Выделяют три парадигмы:

• обучение с учителем (контролируемое);

• обучение без учителя (неконтролируемое);

• смешанное обучение.

При обучении с учителем все примеры обучающей выборки содержат правильные ответы (выходы), соответствующие исход­ным данным (входам). В процессе контролируемого обучения синаптические веса настраиваются так, чтобы сеть порождала отве­ты, наиболее близкие к правильным.

Обучение без учителя используется, когда не для всех приме­ров обучающей выборки известны правильные ответы. В этом случае предпринимаются попытки определения внутренней структуры поступающих в сеть данных с целью распределить об­разцы по категориям (модели Кохонена).

При смешанном обучении часть весов определяется посредст­вом обучения с учителем, а другая часть получается с помощью алгоритмов самообучения.

Обучение по примерам характеризуется тремя основными свойствами: емкостью, сложностью образцов и вычислительной сложностью. Емкость соответствует количеству образцов, кото­рые может запомнить сеть. Сложность образцов определяет спо­собности нейронной сети к обучению. В частности, при обуче­нии ИНС могут возникать состояния «перетренировки», в кото­рых сеть хорошо функционирует на примерах обучающей выбор­ки, но не справляется с новыми примерами, утрачивая способ­ность обучаться.

Рассмотрим известные правила обучения ИНС.

Правило коррекции по ошибке. Процесс обучения ИНС состо­ит в коррекции исходных значений весовых коэффициентов межнейронных связей, которые обычно задаются случайным об­разом. При вводе входных данных запоминаемого примера (сти­мула) появляется реакция, которая передается от одного слоя нейронов к другому, достигая последнего слоя, где вычисляется результат. Разность между известным значением результата и ре­акцией сети соответствует величине ошибки, которая может ис­пользоваться для корректировки весов межнейронных связей. Корректировка заключается в небольшом (обычно менее 1%) увеличении синаптического веса тех связей, которые усиливают правильные реакции, и уменьшении тех, которые способствуют ошибочным. Это простейшее правило контролируемого обуче­ния (дельта-правило) используется в однослойных сетях с одним уровнем настраиваемых связей между множеством входов и мно­жеством выходов. При этом на каждом -м шаге для j-го нейрона вес i-й связи вычисляется по формуле известное (правильное) значение выхода j-го нейрона; Rjk — рассчитанное значение выхода j-го нейрона; — величина сигнала на i-м входе, η — коэффициент скорости обучения.

Оптимальные значения весов межнейронных соединений можно определить путем минимизации среднеквадратичной ошибки с использованием детерминированных или псевдослучайных алгоритмов поиска экстремума в пространстве весовых коэффициентов. При этом возникает традиционная проблема оптимизации, связанная с попаданием в локальный минимум.

Правило Хебба [7]. Оно базируется на следующем нейрофизиологическом наблюдении: если нейроны по обе стороны синапса активизируются одновременно и регулярно, то сила их синаптической связи возрастает. При этом изменение веса каждой меж нейронной связи зависит только от активности нейронов, образующих синапс. Это существенно упрощает реализацию алгоритмов обучения.

Обучение методом соревнования. В отличие от правила Хебба, где множество выходных нейронов может возбуждаться одновременно, в данном случае выходные нейроны соревнуются (конкурируют) между собой за активизацию. В процессе соревновательного обучения осуществляется модификация весов связей выигравшего нейрона и нейронов, расположенных в его окрестности («победитель забирает все»).

Метод обратного распространения ошибки. Он является обобщением процедуры обучения простого перцептрона с использованием дельта-правила на многослойные сети [2, 6, 10]. В данном методе необходимо располагать обучающей выборкой, содержа щей «правильные ответы», т.е. выборка должна включать множество пар образцов входных и выходных данных, между которыми нужно установить соответствие. Перед началом обучения межнейронным связям присваиваются небольшие случайные значения. Каждый шаг обучающей процедуры состоит из двух фаз. Во время первой фазы входные элементы сети устанавливаются в заданное состояние. Входные сигналы распространяются по сети, порождая некоторый выходной вектор. Для работы алгоритма требуется, чтобы характеристика вход-выход нейроподобных элементов была неубывающей и имела ограниченную производную. Обычно для этого используют сигмоидальные функции. Полученный выходной вектор сравнивается с требуемым (правильным). Если они совпадают, то весовые коэффициенты связей не изменяются. В противном случае вычисляется разница между фактическими и требуемыми выходными значениями, которая передается последовательно от выходного слоя к входному. На основе этой информации проводится модификация связей в соответствии с обобщенным дельта-правилом, которое имеет вид: , где изменение в силе связи для p-й обучающей пары пропорционально произведению сигнала ошибки j-го нейрона , получающего входной сигнал по этой связи, и выходного сигнала i-го нейрона , посылающего сигнал по этой связи. Определение сигнала ошибки является рекурсивным процессом, который начинается с выходных блоков. Для выходного блока сигнал ошибки , где и - соответственно желаемое и действительное значения выходного сигнала j-го блока; — производная от выходного сигнала j-го блока. Сигнал ошибки для скрытого блока определяется рекурсивно через сигнал ошибки блоков, с которым соединен его выход, и веса этих связей равны . Для сигмоидальной функции , поэтому на интервале производная имеет максимальное значение в точке 0.5, а в точках 0 и 1 обращается в ноль. Максимальные изменения весов соответствуют блокам (нейронам), которые еще не выбрали свое состояние. Кроме того, при конечных значениях весовых коэффициентов выходные сигналы блоков не могут достигать значений 0 или 1, Поэтому за 0 обычно принимают значения , а за 1 - значения .

Модификация весов производится после предъявления каждой пары вход-выход. Однако если коэффициент η|, определяющий скорость обучения, мал, то можно показать, что обобщенное дельта-правило достаточно хорошо аппроксимирует минимизацию общей ошибки функционирования сети D методом градиентного спуска в пространстве весов. Общая ошибка функциони­рования сети определяется по формуле


Обучение продолжается до тех пор, пока ошибка не умень­шится до заданной величины. Эмпирические результаты свиде­тельствуют о том, что при малых значениях η система находит до­статочно хороший минимум D. Один из основных недостатков алгоритма обратного распространения ошибки заключается в том, что во многих случаях для сходимости может потребоваться многократное (сотни раз) предъявление всей обучающей выбор­ки. Повышения скорости обучения можно добиться, например, используя информацию о второй производной D или путем уве­личения η.

Алгоритм обратного распространения ошибки используется также для обучения сетей с обратными связями. При этом ис­пользуется эквивалентность многослойной сети с прямыми свя­зями и синхронной сети с обратными связями на ограниченном интервале времени (слой соответствует такту времени).

В настоящее время предложены алгоритмы обучения, более привлекательные в смысле биологической аналогии. Примером является алгоритм рециркуляции для сетей, в которых скрытые блоки соединены с входными. При обучении веса связей перест­раиваются таким образом, чтобы минимизировать частоту смены активности каждого блока. Таким образом, обученная сеть имеет стабильные состояния и может функционировать в режиме ассо­циативной памяти.

 

5.5.


Поделиться:

Дата добавления: 2015-08-05; просмотров: 112; Мы поможем в написании вашей работы!; Нарушение авторских прав





lektsii.com - Лекции.Ком - 2014-2024 год. (0.006 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав
Главная страница Случайная страница Контакты