Методы обучения распознаванию образов.

⇐ ПредыдущаяСтр 50 из 67Следующая ⇒

Предложенный Ф.Розенблаттом метод обучения для однослойных сетей состоит в итерационной подстройке матрицы весов, последовательно уменьшающей ошибку в выходных векторах. Алгоритм включает несколько шагов:

Шаг 0. Начальные значения весов всех нейронов полагаются случайными.

Шаг 1. Сети предъявляется входной образ x^a, в результате формируется выходной образ .

Шаг 2. Вычисляется вектор ошибки , делаемой сетью на выходе. Дальнейшая идея состоит в том, что изменение вектора весовых коэффициентов в области малых ошибок должно быть пропорционально ошибке на выходе, и равно нулю, если ошибка равна нулю.

Шаг 3. Вектор весов модифицируется по следующей формуле: . Здесь - - темп обучения.

Шаг 4. Шаги 1-3 повторяются для всех обучающих векторов. Один цикл последовательного предъявления всей выборки называется эпохой. Обучение завершается по истечении нескольких эпох, а) когда итерации сойдутся, то есть вектор весов перестает изменяться, или б) когда полная просуммированная по всем векторам абсолютная ошибка станет меньше некоторого малого значения.

Используемая на шаге 3 формула учитывает следующие обстоятельства:

а) модифицируются только компоненты матрицы весов, отвечающие ненулевым значениям входов;

б) знак приращения веса соответствует знаку ошибки, то есть положительная ошибка (d > 0, значение выхода меньше требуемого) приводит к усилению связи;

в) обучение каждого нейрона происходит не зависимо от обучения остальных нейронов, что соответствует важному с биологической точки зрения, принципу локальностиобучения.

Данный метод обучения был назван Ф.Розенблаттом "методом коррекции с обратной передачей сигнала ошибки". Позднее более широко стало известно название "d-правило". Представленный алгоритм относится к широкому классу алгоритмов обучения с учителем, поскольку известны как входные векторы, так и требуемые значения выходных векторов (имеется учитель, способный оценить правильность ответа ученика).

Для обучения многослойной сети Руммельхартом и Хинтоном (Rummelhart, Hinton, 1986) был предложен алгоритм обратного распространения ошибок (error back propagation). Многочисленные публикации о промышленных применениях многослойных сетей с этим алгоритмом обучения подтвердили его принципиальную работоспособность на практике.

алгоритм обучения НС с помощью процедуры обратного распространения подразумевает наличие некоего внешнего звена, предоставляющего сети, кроме входных, также и целевые выходные образы. Алгоритмы, пользующиеся подобной концепцией, называются алгоритмами обучения с учителем. Для их успешного функционирования необходимо наличие экспертов, создающих на предварительном этапе для каждого входного образа эталонный выходной.

Основная идея обратного распространения состоит в том, как получить оценку ошибки для нейронов скрытых слоев. Заметим, что известные ошибки, делаемые нейронами выходного слоя, возникают вследствие неизвестных пока ошибок нейронов скрытых слоев. Чем больше значение синаптической связи между нейроном скрытого слоя и выходным нейроном, тем сильнее ошибка первого влияет на ошибку второго. Следовательно, оценку ошибки элементов скрытых слоев можно получить, как взвешенную сумму ошибок последующих слоев. При обучении информация распространяется от низших слоев иерархии к высшим, а оценки ошибок, делаемые сетью - в обратном направлении, что и отражено в названии метода.

Обучение сводится к решению задачи оптимизации функционала ошибки градиентным методом. Вся "соль" обратного распространения ошибки состоит в том, что в качестве ее оценки для нейронов скрытых слоев можно принять взвешенную сумму ошибок последующего слоя.

практика показывает, что сходимость метода обратного распространения весьма медленная. Невысокий темп сходимости является "генетической болезнью" всех градиентных методов, так как локальное направление градиента отнюдь не совпадает с направлением к минимуму. Во-вторых, подстройка весов выполняется независимо для каждой пары образов обучающей выборки. При этом улучшение функционирования на некоторой заданной паре может, вообще говоря, приводить к ухудшению работы на предыдущих образах. В этом смысле, нет достоверных (кроме обширной практики применения метода) гарантий сходимости.

применение метода градиентного спуска не гарантирует, что будет найден глобальный, а не локальный минимум целевой функции. Эта проблема связана еще с одной, а именно – с выбором величины скорости обучения. Доказательство сходимости обучения в процессе обратного распространения основано на производных, то есть приращения весов и, следовательно, скорость обучения должны быть бесконечно малыми, однако в этом случае обучение будет происходить неприемлемо медленно. С другой стороны, слишком большие коррекции весов могут привести к постоянной неустойчивости процесса обучения. Поэтому в качестве коэффициента скорости обучения обычно выбирается число, меньшее 1, но не очень маленькое, например, 0.1, и оно, вообще говоря, может постепенно уменьшаться в процессе обучения. Кроме того, для исключения случайных попаданий в локальные минимумы иногда, после того как значения весовых коэффициентов застабилизируются, h кратковременно сильно увеличивают, чтобы начать градиентный спуск из новой точки. Если повторение этой процедуры несколько раз приведет алгоритм в одно и то же состояние НС, можно более или менее уверенно сказать, что найден глобальный максимум, а не какой-то другой.

Дата добавления: 2015-04-18; просмотров: 84; Мы поможем в написании вашей работы!; Нарушение авторских прав

⇐ Предыдущая 45 46 47 48 495051 52 53 54 Следующая ⇒

lektsii.com - Лекции.Ком - 2014-2024 год. (0.007 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав
Главная страница Случайная страница Контакты