3. Дать случайное изменение весу и пересчитать выход сети и изменение целевой функции в соответствии со сделанным изменением веса.

4. Если целевая функция уменьшилась (улучшилась), то сохранить изменение веса. Если изменение веса приводит к увеличению целевой функции, то вероятность сохранения этого изменения вычисляется с помощью распределения Больцмана:

P(c) = exp (-c / kT) (5.2)

где Р(е) - вероятность изменения с в целевой функции; k - константа, аналогичная константе Больцмана, выбира­емая в зависимости от задачи; Т - искусственная темпе­ратура. Выбирается случайное число /• из равномерного распределения от нуля до единицы. Если Р(с) больше, чем г, то изменение сохраняется, в противном случае величина веса возвращается к предыдущему значению. Это позволяет системе делать случайный шаг в на­правлении, портящем целевую функцию, позволяя ей тем самым вырываться из локальных минимумов, где любой малый шаг увеличивает целевую функцию. Для завершения больцмановского обучения повторяют шаги 3 и 4 для каждого из весов сети, постепенно умень­шая температуру Т, пока не будет достигнуто допустимо низкое значение целевой функции. В этот момент предъ­является другой входной вектор и процесс обучения пов­торяется. Сеть обучается на всех векторах обучающего множества, с возможным повторением, пока целевая функ­ция не станет допустимой для всех них. Величина случайного изменения веса на шаге 3 может определяться различными способами. Например, подобно тепловой системе весовое изменение w может выбираться в соответствии с гауссовским распределением:

P(w) = ехр(- w2/T2), (5.3)

где P(w) - вероятность изменения веса на величину w, Т - искусственная температура. Такой выбор изменения веса приводит к системе, аналогичной [3]. Так как нужна величина изменения веса w, а не вероятность изменения веса, имеющего величину w, то метод Монте-Карло может быть использован следующим образом:

1. Найти кумулятивную вероятность, соответствующую P(w). Это есть интеграл от P(w) в пределах от 0 до w. Так как в данном случае P(w) не может быть проинтегри­рована аналитически, она должна интегрироваться числен­но, а результат необходимо затабулировать. 2. Выбрать случайное число из равномерного распре­деления на интервале (0,1). Используя эту величину в качестве значения P(w), найти в таблице соответствующее значение для величины изменения веса. Свойства машины Больцмана широко изучались. В работе [1] показано, что скорость уменьшения температу­ры должна быть обратно пропорциональна логарифму време­ни, чтобы была достигнута сходимость к глобальному минимуму. Скорость охлаждения в такой системе выражает­ся следующим образом:

T(t) = T0/log(1 + t), (5.4)

где T(t) - искусственная температура как функция вре­мени; Т0 - начальная искусственная температура; t -искусственное время. Этот разочаровывающий результат предсказывает очень медленную скорость охлаждения (и данные вычисле­ния). Этот вывод подтвердился экспериментально. Машины Больцмана часто требуют для обучения очень большого ресурса времени.

Обучение Коши

В работе [6] развит метод быстрого обучения подоб­ных систем. В этом методе при вычислении величины шага распределение Больцмана заменяется на распределение Коши. Распределение Коши имеет, как показано на рис. .5.3, более длинные «хвосты», увеличивая тем самым вероятность больших шагов. В действительности распреде­ление Коши имеет бесконечную (неопределенную) диспер­сию. С помощью такого простого изменения максимальная скорость уменьшения температуры становится обратно пропорциональной линейной величине, а не логарифму, как для алгоритма обучения Больцмана. Это резко уменьшает время обучения. Эта связь может быть выражена следующим образом:

T(t) = T0/(1 + t) (5.5)

Распределение Коши имеет вид

P(x) = T(t) / [T(t)2 + x2] ,

где Р(х) есть вероятность шага величины х.


Рис. 5.3. Распределение Коши и распределение Больцмана.

В уравнении (5.6) Р(х) может быть проинтегрирована стандартными методами. Решая относительно х, получаем

xc = р{T(t)tg[P(х)]), (5.7)

где р - коэффициент скорости обучения; хc - изменение веса. Теперь применение метода Мойте Карло становится очень простым. Для нахождения х в этом случае выбирает­ся случайное число из равномерного распределения на открытом интервале (- /2, /2) (необходимо ограничить функцию тангенса). Оно подставляется в формулу (5.7) в качестве Р(х), и с помощью текущей температуры вычисля­ется величина шага.

Метод искусственной теплоемкости

Несмотря на улучшение, достигаемое с помощью мето­да Коши, время обучения может оказаться все еще слишком большим. Способ, уходящий своими корнями в термодинами­ку, может быть использован для ускорения этого процес­са. В этом методе скорость уменьшения температуры изменяется в соответствии с искусственной «теплоемкостью», вычисляемой в процессе обучения. Во время отжига металла происходят фазовые перехо­ды, связанные с дискретными изменениями уровней энергии. При каждом фазовом переходе может иметь место резкое изменение величины, называемой теплоемкостью. Теплоемкость определяется как скорость изменения темпе­ратуры с энергией. Изменения теплоемкости происходят из-за попадания системы в локальные энергетические минимумы. Искусственные нейронные сети проходят аналогичные фазы в процессе обучения. На границе фазового перехода искусственная теплоемкость может скачкообразно изме­ниться. Эта псевдотеплоемкость определяется как средняя скорость изменения температуры с целевой функцией. В примере шарика в коробке сильная начальная встряска делает среднюю величину целевой функции фактически не зависящей от малых изменений температуры, т.е. теплоем­кость близка к константе. Аналогично при очень низких температурах система замерзает в точке минимума, так что теплоемкость снова близка к константе. Ясно, что в каждой из этих областей допустимы сильные изменения температуры, так как не происходит улучшения целевой функции, При критических температурах небольшое уменьшение температуры приводит к большому изменению средней вели­ чины целевой функции. Возвращаясь к аналогии с шариком, при «температуре», когда шарик обладает достаточной средней энергией, чтобы перейти из А в В, но недоста­точной для перехода из В в А, средняя величина целевой функции испытывает скачкообразное изменение. В этих критических точках алгоритм должен изменять температуру очень медленно, чтобы гарантировать, что система не замерзнет случайно в точке А, оказавшись пойманной в локальный минимум. Критическая температура может быть обнаружена по резкому уменьшению искусственной теплоем­кости, т.е. средней скорости изменения температуры с целевой функцией. При достижении критической температуры скорость изменения температуры должна замедляться, чтобы гарантировать сходимость к глобальному минимуму.

ОБРАТНОЕ РАСПРОСТРАНЕНИЕ И ОБУЧЕНИЕ КОШИ

Обратное распространение обладает преимуществом прямого поиска, т.е. веса всегда корректируются в на­правлении, минимизирующем функцию ошибки. Хотя время обучения и велико, оно существенно меньше, чем при случайном поиске, выполняемом машиной Коши, когда нахо­дится глобальный минимум, но многие шаги выполняются в неверном направлении, что отнимает много времени. Соединение этих двух методов дало хорошие резуль­таты [7]. Коррекция весов, равная сумме, вычисленной алгоритмом обратного распространения, и случайный шаг, задаваемый алгоритмом Коши, приводят к системе, которая сходится и находит глобальный минимум быстрее, чем система, обучаемая каждым из методов в отдельности. Простая эвристика используется для избежания паралича сети, который может иметь место как при обратном рас­пространении, так и при обучении по методу Коши.

Трудности, связанные с обратным распространением

Несмотря на мощь, продемонстрированную методом обратного распространения, при его применении возникает ряд трудностей, часть из которых, однако, облегчается благодаря использованию нового алгоритма.

Сходимость. В работе [5] доказательство сходимости дается на языке дифференциальных уравнений в частных производных, что делает его справедливым лишь в том случае, когда коррекция весов выполняется с помощью бесконечно малых шагов. Так как это ведет к бесконечному времени сходимости, то оно теряет силу в практичес­ких применениях. В действительности нет доказательства, что обратное распространение будет сходиться при конеч­ном размере шага. Эксперименты показывают, что сети обычно обучаются, но время обучения велико и непредска­зуемо.

Локальные минимумы. В обратном распространении для коррекции весов сети используется градиентный спуск, продвигающийся к минимуму в соответствии с локальным наклоном поверхности ошибки. Он хорошо работает в слу­чае сильно изрезанных невыпуклых поверхностей, которые встречаются в практических задачах. В одних случаях локальный минимум является приемлемым решением, в дру­гих случаях он неприемлем. Даже после того как сеть обучена, невозможно ска­зать, найден ли с помощью - обратного распространения глобальный минимум. Если решение неудовлетворительно, приходится давать весам новые начальные случайные зна­чения и повторно обучать сеть без гарантии, что обуче­ние закончится на этой попытке или что глобальный мини­мум вообще будет когда либо найден.

Паралич. При некоторых условиях сеть может при обучении попасть в такое состояние, когда модификация весов не ведет к действительным изменениям сети. Такой «паралич сети» является серьезной проблемой: один раз возникнув, он может увеличить время обучения на несколько поряд­ков. Паралич возникает, когда значительная часть нейро­нов получает веса, достаточно большие, чтобы дать боль­шие значения NET. Это приводит к тому, что величина OUT приближается к своему предельному значению, а производ­ная от сжимающей функции приближается к нулю. Как мы видели, алгоритм обратного распространения при вычисле­нии величины изменения веса использует эту производную в формуле в качестве коэффициента. Для пораженных пара­личом нейронов близость производной к нулю приводит к тому, что изменение веса становится близким к нулю. Если подобные условия возникают во многих нейронах сети, то обучение может замедлиться до почти полной остановки. Нет теории, способной предсказывать, будет ли сеть парализована во время обучения или нет. Эксперименталь­но установлено, что малые размеры шага реже приводят к параличу, но шаг, малый для одной задачи, может ока­заться большим для другой. Цена же паралича может быть высокой. При моделировании многие часы машинного време­ни могут уйти на то, чтобы выйти из паралича.

Трудности с алгоритмом обучения Коши

Несмотря на улучшение скорости обучения, даваемое машиной Коши по сравнению с машиной Больцмана, время сходимости все еще может в 100 раз превышать время для алгоритма обратного распространения. Отметим, что сете­вой паралич особенно опасен для алгоритма обучения Коши, в особенности для сети с нелинейностью типа логи­стической функции. Бесконечная дисперсия распределения Коши приводит к изменениям весов неограниченной величи­ны. Далее, большие изменения весов будут иногда прини­маться даже в тех случаях, когда они неблагоприятны, часто приводя к сильному насыщению сетевых нейронов с вытекающим отсюда риском паралича.

Комбинирование обратного распространения с обучением Коши

Коррекция весов в комбинированном алгоритме, ис­пользующем обратное распространение и обучение Коши, состоит из двух компонент: (1) направленной компоненты, вычисляемой с использованием алгоритма обратного рас­пространения, и (2) случайной компоненты, определяемой распределением Коши. Эти компоненты вычисляются для каждого веса, и их сумма является величиной, на которую изменяется вес. Как и в алгоритме Коши, после вычисления изменения веса вычисляется целевая функция. Если имеет место улучше­ние, изменение сохраняется. В противном случае оно

сохраняется с вероятностью, определяемой распределением Больцмана. Коррекция веса вычисляется с использованием пред­ставленных ранее уравнений для каждого из алгоритмов:

wmn,k(n+1) = wmn,k(n) + [ wmn,k(n) + (1 - )n,kOUTm,i] + (1 - )xc ,

где - коэффициент, управляющий относительными величи­нами Коши и обратного распространения в компонентах весового шага. Если  приравнивается нулю, система становится полностью машиной Коши. Если  приравнивает­ся единице, система становится машиной обратного рас­пространения. Изменение лишь одного весового коэффициента между вычислениями весовой функции неэффективно. Оказалось, что лучше сразу изменять все веса целого слоя, хотя для некоторых задач может оказаться выгоднее иная страте­гия.

Преодоление сетевого паралича комбинированным методом обучения. Как и в машине Коши, если изменение веса ухудшает целевую функцию, - с помощью распределения Больцмана решается, сохранить ли новое значение веса или восстановить предыдущее значение. Таким образом, имеется конечная вероятность того, что ухудшающее мно­жество приращений весов будет сохранено. Так как рас­пределение Коши имеет бесконечную дисперсию (диапазон изменения тангенса простирается от до на облас­ти определения), то весьма вероятно возникновение боль­ших приращений весов, часто приводящих к сетевому пара­личу. Очевидное решение, состоящее в ограничении диапа­зона изменения весовых шагов, ставит вопрос о математи­ческой корректности полученного таким образом алгорит­ма. В работе [6] доказана сходимость системы к глобаль­ному минимуму лишь для исходного алгоритма. Подобного доказательства при искусственном ограничении размера шага не существует. В действительности экспериментально выявлены случаи, когда для реализации некоторой функции требуются большие веса, и два больших веса, вычитаясь, дают малую разность. Другое решение состоит в рандомизации весов тех нейронов, которые оказались в состоянии насыщения. Недостатком его является то, что оно может серьезно нарушить обучающий процесс, иногда затягивая его до бесконечности. Для решения проблемы паралича был найден метод, не нарушающий достигнутого обучения. Насыщенные нейроны выявляются с помощью измерения их сигналов ОПТ. Когда величина OUT приближается к своему предельному значе­нию, положительному или отрицательному, на веса, пита­ющие этот нейрон, действует сжимающая функция. Она подобна используемой для получения нейронного сигнала OUT, за исключением того, что диапазоном ее изменения является интервал (+ 5,- 5) или другое подходящее мно­жество. Тогда модифицированные весовые значения равны

Wmn = -5+10/[1 + ехр(-Wmn /5)].

Эта функция сильно уменьшает величину очень боль­ших весов, воздействие на малые веса значительно более слабое. Далее она поддерживает симметрию, сохраняя небольшие различия между большими весами. Эксперимен­тально было показано, что эта функция выводит нейроны из состояния насыщения без нарушения достигнутого в сети обучения. Не было затрачено серьезных усилий для оптимизации используемой функции, другие значения конс­тант могут оказаться лучшими.

Экспериментальные результаты. Комбинированный алгоритм, использующий обратное распространение и обучение Коши, применялся для обучения нескольких больших сетей. На­пример, этим методом была успешно обучена система, распознающая рукописные китайские иероглифы [6]. Все же время обучения может оказаться большим (приблизительно 36 ч машинного времени уходило на обучение). В другом эксперименте эта сеть обучалась на задаче ИСКЛЮЧАЮЩЕЕ ИЛИ, которая была использована в качестве теста для сравнения с другими алгоритмами. Для сходимо­сти сети в среднем требовалось около 76 предъявлений обучающего множества. В качестве сравнения можно ука­зать, что при использовании обратного распространения в среднем требовалось около 245 предъявлений для решения этой же задачи [5] и 4986 итераций при использовании обратного распространения второго порядка. Ни одно из обучений не привело к локальному мини­муму, о которых сообщалось в [5]. Более того, ни одно из 160 обучений не обнаружило неожиданных патологий, сеть всегда правильно обучалась. Эксперименты же с чистой машиной Коши привели к значительно большим временам обучения. Например, при р=0,002 для обучения сети в среднем требовалось около 2284 предъявлений обучающего множества.

Обсуждение

Комбинированная сеть, использующая обратное рас­пространение и обучение Коши, обучается значительно быстрее, чем каждый из алгоритмов в отдельности, и относительно нечувствительна к величинам коэффициентов. Сходимость к глобальному минимуму гарантируется алгори­тмом Коши, в сотнях экспериментов по обучению сеть ни разу не попадала в ловушки локальных минимумов. Пробле­ма сетевого паралича была решена с помощью алгоритма селективного сжатия весов, который обеспечил сходимость во всех предъявленных тестовых задачах без существенно­го увеличения обучающего времени. Несмотря на такие обнадеживающие результаты, метод еще не исследован до конца, особенно на больших зада­чах. Значительно большая работа потребуется для опреде­ления его достоинств и недостатков.


Глава 6 Сети Хопфилда

Сети, рассмотренные в предыдущих главах, не имели обратных связей, т.е. связей, идущих от выходов сетей и их входам. Отсутствие обратной связи гарантирует безу­словную устойчивость сетей. Они не могут войти в режим, когда выход беспрерывно блуждает от состояния к состоя­нию и не пригоден к использованию. Но это весьма жела­тельное свойство достигается не бесплатно, сети без обратных связей обладают более ограниченными возможнос­тями по сравнению с сетями с обратными связями. Так как сети с обратными связями имеют пути, пере­дающие сигналы от выходов к входам, то отклик таких сетей является динамическим, т.е. после приложения нового входа вычисляется выход и, передаваясь по сети обратной связи, модифицирует вход. Затем выход повторно вычисляется, и процесс повторяется снова и снова. Для устойчивой сети последовательные итерации приводят к все меньшим изменениям выхода, пока в конце концов выход не становится постоянным. Для многих сетей про­цесс никогда не заканчивается, такие сети называют неустойчивыми. Неустойчивые сети обладают интересными свойствами и изучались в качестве примера хаотических систем. Однако такой большой предмет, как хаос, нахо­дится за пределами этой книги. Вместо этого мы сконцен­трируем внимание на устойчивых сетях, т.е. на тех, которые в конце концов дают постоянный выход. Проблема устойчивости ставила в тупик первых ис­следователей. Никто не был в состоянии предсказать, какие из сетей будут устойчивыми, а какие будут нахо­диться в постоянном изменении. Более того, проблема представлялась столь трудной, что многие исследователи были настроены пессимистически относительно возможности ее решения. К счастью, в работе [2] была получена тео­рема, описавшая подмножество сетей с обратными связями, выходы которых в конце концов достигают устойчивого состояния. Это замечательное достижение открыло дорогу дальнейшим исследованиям и сегодня многие ученые зани­маются исследованием сложного поведения и возможностей этих систем. Дж. Хопфилд сделал важный вклад как в теорию, так и в применение систем с обратными связями. Поэтому некоторые из конфигураций известны как сети Хопфилда. Из обзора литературы видно, что исследованием этих и сходных систем занимались многие. Например, в работе [4] изучались общие свойства сетей, аналогичных многим, рассмотренным здесь. Работы, цитируемые в списке лите­ратуры в конце главы, не направлены на то, чтобы дать исчерпывающую библиографию по системам с обратными связями. Скорее они являются лишь доступными источника­ми, которые могут служить для объяснения, расширения и обобщения содержимого этой книги.

КОНФИГУРАЦИИ СЕТЕЙ С ОБРАТНЫМИ СВЯЗЯМИ

На рис. 6.1 показана сеть с обратными связями, состоящая из двух слоев. Способ представления несколько отличается от использованного в работе Хопфилда и дру­гих, но эквивалентен им с функциональной точки зрения, а также хорошо связан с сетями, рассмотренными в преды­дущих главах. Нулевой слой, как и на предыдущих рисун­ках, не выполняет вычислительной функции, а лишь рас­пределяет выходы сети обратно на входы. Каждый нейрон первого слоя вычисляет взвешенную сумму своих входов, давая сигнал NET, который затем с помощью нелинейной функции F преобразуется в сигнал OUT. Эти операции сходны с нейронами других сетей (см. гл.2).

Бинарные системы

В первой работе Хопфилда [6] функция F была просто пороговой функцией. Выход такого нейрона равен единице, если взвешенная сумма выходов с других нейронов больше порога Т., в противном случае она равна нулю. Он вычис­ляется следующим образом:

(6.1)

Состояние сети - это просто множество текущих значений сигналов OUT от всех нейронов. В первоначаль­ной сети Хопфилда состояние каждого нейрона менялось в дискретные случайные моменты времени, в последующей работе состояния нейронов могли меняться одновременно. Так как выходом бинарного нейрона может быть только ноль или единица (промежуточных уровней нет), то теку­щее состояние сети является двоичным числом, каждый бит которого является сигналом OUT некоторого нейрона. Функционирование сети легко визуализируется геоме­трически. На рис. 6.2 а показан случай двух нейронов в выходном слое, причем каждой вершине квадрата соответс­твует одно из четырех состояний системы (00, 01, 10, II). На рис. 6.2 б показана трехнейронная система, представленная кубом (в трехмерном пространстве), имею­щим восемь вершин, каждая из которых помечена трехбито­вым бинарным числом. В общем случае система с п нейро­нами имеет 2n различных состояний и представляется fi-мерным гиперкубом.

Рис. 6.2 а. Два нейрона порождают систему с четырьмя состояниями.

Рис. 6.2 б. Три нейрона порождают систему с восемью состояниями.

Когда подается новый входной вектор, сеть перехо­дит из вершины в вершину, пока не стабилизируется. Устойчивая вершина определяется сетевыми весами, теку­щими входами и величиной порога. Если входной вектор частично неправилен или неполон, то сеть стабилизирует­ся в вершине, ближайшей к желаемой.

Устойчивость

Как и в других сетях, веса между слоями в этой сети могут рассматриваться в виде матрицы W. В работе [2] показано, что сеть с обратными связями является устойчивой, если ее матрица симметрична и имеет нули на главной диагонали, т.е. если Wij = Wji и Wii = 0 для всех i. Устойчивость такой сети может быть доказана с помощью элегантного математического метода. Допустим, что найдена функция, которая всегда убывает при измене­нии состояния сети. В конце концов эта функция должна достичь минимума и прекратить изменение, гарантируя тем самым устойчивость сети. Такая функция, называемая функцией Ляпунова, для рассматриваемых сетей с обратны­ми связями может быть введена следующим образом:

(6.2)

где Е - искусственная энергия сети; wij - вес от выхода нейрона i к входу нейрона j; OUTj - выход нейрона j; Ij - внешний вход нейрона j; Тj - порог нейрона j.

Изменение энергии Е, вызванное изменением состояния j-нейрона, есть

(6.3)

где 0UTj- изменение выхода у-го нейрона. Допустим, что величина NET нейрона j больше поро­га. Тогда выражение в скобках будет положительным, а из уравнения (6.1) следует, что выход нейрона j должен измениться в положительную сторону (или остаться без изменения). Это значит, что 0UTj может быть только положительным или нулем и Е должно быть отрицательным.

Следовательно, энергия сети должна либо уменьшиться, либо остаться без изменения. Далее, допустим, что величина NET меньше порога. Тогда величина 0UTj. может быть только отрицательной или нулем. Следовательно, опять энергия должна умень­шиться или остаться без изменения. И окончательно, если величина NET равна порогу, j равна нулю и энергия остается без изменения. Это показывает, что любое изменение состояния нейрона либо уменьшит энергию, либо оставит ее без изменения. Благодаря такому непрерывному стремлению к уменьшению энергия в конце концов должна достигнуть минимума и прекратить изменение. По определению такая сеть является устойчивой. Симметрия сети является достаточным, но не необхо­димым условием для устойчивости системы. Имеется много устойчивых систем (например, все сети прямого дейст­вия!), которые ему не удовлетворяют. Можно продемонст­рировать примеры, в которых незначительное отклонение от симметрии может приводить к непрерывным осцилляциям. Однако приближенной симметрии обычно достаточно для устойчивости систем.

Ассоциативная память

Человеческая память ассоциативна, т.е. некоторое воспоминание может порождать большую связанную с ним область. Например, несколько музыкальных тактов могут вызвать целую гамму чувственных воспоминаний, включая пейзажи, звуки и запахи. Напротив, обычная компьютерная память является локально адресуемой, предъявляется адрес и извлекается информация по этому адресу. Сеть с обратной связью формирует ассоциативную память. Подобно человеческой памяти по заданной части нужной информации вся информация извлекается из «памя­ти». Чтобы организовать ассоциативную память с помощью сети с обратными связями, веса должны выбираться так, чтобы образовывать энергетические минимумы в нужных вершинах единичного гиперкуба. Хопфилд разработал ассоциативную память с непре­рывными выходами, изменяющимися в пределах от +1 до -1, соответствующих двоичным значениям 0 и 1. Запоминаемая информация кодируется двоичными векторами и хранится в весах согласно следующей формуле:

(6.4)

где т - число запоминаемых выходных векторов; d - номер запоминаемого выходного вектора; OUTi,d - i -компонента запоминаемого выходного вектора. Это выражение может стать более ясным, если заме­тить, что весовой массив W может быть найден вычислени­ем внешнего произведения каждого запоминаемого вектора с самим собой (если требуемый вектор имеет п компонент, то эта операция образует матрицу размером п х п) и суммированием матриц, полученных таким образом. Это может быть записано в виде

W = (6.5)

где Dj - i -й запоминаемый вектор-строка. Как только веса заданы, сеть может быть использо­вана для получения запомненного выходного вектора по данному входному вектору, который может быть частично неправильным или неполным. Для этого выходам сети сна­чала придают значения этого входного вектора. Затем входной вектор убирается и сети предоставляется возмож­ность «расслабиться», опустившись в ближайший глубокий минимум. Сеть идущая по локальному наклону функции энергии, может быть захвачена локальным минимумом, не достигнув наилучшего в глобальном смысле решения.

Непрерывные системы

В работе [7] рассмотрены модели с непрерывной активационной функцией F, точнее моделирующей биологический нейрон. В общем случае это S-образная или логис­тическая функция

F(x) = 1 / (1+ exp(-NET)) (6.6)

где  - коэффициент, определяющий крутизну сигмоидальной функции. Если  велико, F приближается к описанной ранее пороговой функции. Небольшие значения  дают более пологий наклон. Как и для бинарных систем, устойчивость гарантиру­ется, если веса симметричны, т.е. wij =wji и wii=0 при всех i. Функция энергии, доказывающая устойчивость подобных систем, была сконструирована, но она не рас­сматривается здесь из-за своего концептуального сходст­ва с дискретным случаем. Интересующиеся читатели могут обратиться к работе [2] для более полного рассмотрения этого важного предмета. Если  велико, непрерывные системы функционируют подобно дискретным бинарным системам, окончательно стабилизируясь со всеми выходами, близкими нулю или единице, т.е. в вершине единичного гиперкуба. С умень­шением  устойчивые точки удаляются от вершин, последо­вательно исчезая по мере приближения  к нулю. На рис. 6.3 показаны линии энергетических уровней непре­рывной системы с двумя нейронами.

Сети Хопфилда и машина Больцмана

Недостатком сетей Хопфилда является их тенденция стабилизироваться в локальном, а не глобальном минимуме функции энергии. Эта трудность преодолевается в основ­ном с помощью класса сетей, известных под названием машин Больцмана, в которых изменения состоянии нейронов обусловлены статистическими, а не детерминированными закономерностями. Существует тесная аналогия между этими методами и отжигом металла, поэтому и сами методы часто называют имитацией отжига.

Термодинамические системы

Металл отжигают, нагревая его до температуры, превышающей точку его плавления, а затем давая ему медленно остыть. При высоких температурах атомы, обла­дая высокими энергиями и свободой перемещения, случай­ным образом принимают все возможные конфигурации. При постепенном снижении температуры энергии атомов умень­шаются, и система в целом стремится принять конфигура­цию с минимальной энергией. Когда охлаждение завершено, достигается состояние глобального минимума энергии.

Рис 6.3. Линии энергетических уровней.

При фиксированной температуре распределение энергий системы определяется вероятностным фактором Больцмана.

ехр(-E / kT),

где Е - энергия системы; k - постоянная Больцмана; Т -температура. Отсюда можно видеть, что имеется конечная вероятность того, что система обладает высокой энергией даже при низких температурах. Сходным образом имеется не­большая, но вычисляемая вероятность, что чайник с водой на огне замерзнет, прежде чем закипеть. Статистическое распределение энергий позволяет системе выходить из локальных минимумов энергии. В то же время вероятность высокоэнергетических состояний быстро уменьшается со снижением температуры. Следова­тельно, при низких температурах имеется сильная тенден­ция занять низкоэнергетическое состояние.

Статистические сети Хопфилда

Если правила изменения состояний для бинарной сети Хопфилда заданы статистически, а не детерминировано, как в уравнении (6.1), то возникает система, имитиру­ющая отжиг. Для ее реализации вводится вероятность изменения веса как функция от величины, на которую выход нейрона OUT превышает его порог. Пусть

Ek=NETk - k ,

где NETk - выход NET нейрона k, k - порог нейрона k, и

pk = 1/ [1 + ехр(-Ek/ T)],

(отметьте вероятностную функцию Больцмана в знаменате­ле), где Т - искусственная температура. В стадии функционирования искусственной температу­ре Т приписывается большое значение, нейроны устанавли­ваются в начальном состоянии, определяемом входным вектором, и сети предоставляется возможность искать минимум энергии в соответствии с нижеследующей процеду­рой:

1. Приписать состоянию каждого нейрона с вероят­ностью р значение единица, а с вероятностью 1 – рk - нуль.


Информация о работе «Нейрокомпьютерные системы»
Раздел: Информатика, программирование
Количество знаков с пробелами: 243425
Количество таблиц: 1
Количество изображений: 0

Похожие работы

Скачать
145786
1
2

... - это та сложная и разная по физическому проявлению полевая структура, которая окружает пространство, примыкающее к телу человека». Признание факта существования биополя (а не признать это невозможно) означает, что живые организмы создают предпосылки для дистанционных взаимодействий между ними. Однако, для того чтобы признать возможность таких взаимодействий, необходимо наличие способности к ...

Скачать
15022
0
0

... в связи с необходимостью упорядоченного сообщения с высоким приоритетом при радикальном изменении окружающих условий и двунаправленностью каналов. Возможности вычисления путей маршрутизации можно применять при построении интегральных схем и проектирования кристаллов процессоров. Нейрокомпьютеры с успехом применяются при обработке сейсмических сигналов в военных целях для определения коорди

Скачать
27268
0
0

... человеческое внимание устремилось к этой высшей области, которая должна преобразить многие основы жизни. Во времена темного средневековья, наверное, всякие исследования в области парапсихологии кончились бы инквизицией, пытками и костром. Современные нам "инквизиторы" не прочь и сейчас обвинить ученых исследователей или в колдовстве или в сумасшествии. Также мы ...

Скачать
38834
4
8

... информацию, находить в ней закономерности, производить прогнозирование и т.д. В этой области приложений самым лучшим образом зарекомендовали себя так называемые нейронные сети – самообучающиеся системы, имитирующие деятельность человеческого мозга. Область науки, занимающаяся построением и исследованием нейронных сетей, находится на стыке нейробиологии, математики, электроники и программирования ...

0 комментариев


Наверх