Helgus ~ µастер ~ Kласс: Это незавершённая статья по ивентологии и её применениям

Иску́сcтвенные нейро́нные се́ти (ИНС) также называют просто «нейронная сеть» (НС), это математическая или компьютерная модель, построенная по принципу работы биологических нейронных сетей — сетей нервных клеток живого организма. ИНС состоит из связанной группы искусственных нейронов и обрабатывает информацию, используя коннективисткий (коннективизм) подход для вычислений. В большинстве случаев – это адаптивная система, которая изменяет свою структуру, основываясь на обработке на входящей или исходящей информации, которая течет через сеть во время фазы обучения. Другими словами, нейронные сети – инструменты для моделирования нелинейных статистических данных. ИНС используется, для моделирования сложного отношения между входами (input) и выходами (output), или для распознавания образов среди данных.

введение

Несмотря на то, что среди исследователей, нет единого определения того, что можно называть нейронная сеть, большинство, согласны с тем, что все же это сеть простых обрабатывающих элементов (нейронов), которые могут показать сложное глобальное поведение, определенное связями между обрабатывающими элементами и параметрами элемента. Оригинальное идея пришла в технику после исследования центральной нервной системы и нейронов (и их аксонов, дендритов и синапсов), которые образуют один из самых существенный обрабатывающий информацию элемент. В модели нейронной сети, простые узлы (их называют по разному «нейроны», «нейроды» (neurodes), «ОЭ» (обрабатывающие элементы), или «юниты») связаны друг с другом и образуют сеть узлов, отсюда и название НС. Поскольку НС не должны быть адаптивными по существу, на практике вместе с ними используют алгоритмы, разработанные для изменения загруженности связей в сети, чтобы пропустить необходимый сигнал. Еще одно подобие биологическим нейронным сетям в том, что функции выполняются юнитами все вместе, параллельно. В настоящее время термин ИНС используется, в основном, для моделей нейронной сети, используемых в статистике, когнитивной психологии и исследованиях искусственного интеллекта. Модели нейронной сети, разработанные с эмуляцией центральной нервной системы (ЦНС) - предмет теоретической нейронауки (вычислительной нейронауки). Современное программное обеспечение, для искусственных нейронных сетей, основывается на обработки сигналов и статистике. В некоторых таких системах нейронные сети, или части (как в искусственные нейроны), используется как компоненты больших система, которые комбинируют и адаптивные элементы и неадаптивные элементы. В то время как более основной подхода таких адаптивных систем больше подходит для решения проблем реального мира (конкретного применения), тем меньше отношения имеет к традиционному понятию искусственного интеллекта модели коннективизма.

Модели[]

Модели нейронной сети в искусственном интеллекте обычно упоминаются как искусственные нейронные сети (ИНС); это в основном простые математические модели, определяющие функцию $f:X \rightarrow Y$

Каждый тип модели ИНС соответствует классу функций.

Сеть в искусственной нейронной сети[]

Слово сеть в термине 'искусственная нейронная сеть' возникает, потому что функция $f(x)$ определена как композиция других функций $g_i(x)$ , которые также может быть определена как композиции других функций. Такую функцию можно будет удобно представить в виде сети, где стрелками показать зависимость между переменными.

Широко используемый тип состава - нелинейная взвешенная сумма, где $f (x) = K \left(\sum_i w_i g_i(x)\right)$ ,где K - некоторая предопределенная функция, типа гиперболического тангенса. Это будет удобно при дальнейшем представлении группы функций $g_i$ как просто вектор $g = (g_1, g_2, \ldots, g_n)$ .

Этот граф изображает такое разложение $f$ , с зависимостями между переменными, обозначенными стрелками. Возможна интерпретация двумя способами.

Первое представление - функциональное представление: переменная $x$ преобразован в 3-мерный вектор $x$ , который тогда преобразован в 2-мерный векторный $g$ , который наконец преобразован в $f$ . С этим представлением обычно сталкиваются в контексте оптимизации. Второе представление - вероятностное представление: случайная переменная $F = f(G)$ зависит от случайного переменного $G = g(H)$ , который зависит от $H=h(X)$ , который зависит от случайной переменной $X$ . С этим представлением обычно сталкиваются в контексте графических моделей.

Два представления в значительной степени эквивалентны. В любом случае, для этой специфической архитектуры сети функции составляющие композицию не зависят друг от друга (например, компоненты $g$ независимы друг от друга данного и зависят от $h$ ).

Сети, такого типа, обычно называют сетями прямого распространения (feedforward), потому что они имеют направленный нециклический граф. Сети с циклами обычно называют реккурентными. Такие сети обычно изображаются вверху графа, т.о. показывают $f$ чтобы зависеть от себя.

Обучение[]

Однако интересный такие функции могут быть в себе, что привлекло большинство интереса в нейронных сетях - возможность изучения, которое в практике означает следующее: Дана задача, которую надо решить, и класс функции $F$ , под обучением понимается, использование множества наблюдений, чтобы найти такое $f^* \in F$ , которое будет являться оптимальным решением поставленной задачи.

Это влечет за собой определение функции оценки(оптимизации) $C : F \rightarrow \mathbb{R}$ , для оптимального решения $f^*$ , $C(f^*) \leq C(f)$ $\forall f \in F$ (решение имеет меньшую оценку, чем оценка оптимального решения) Функция оценки $C$ это важное понятие в ’’обучении’’, поскольку является мерой того, как мы далеко от оптимального решения проблемы, которую мы хотим решить. Алгоритмы обучения ведут поиск среди всех решений, чтобы найти функцию, которая имеет наименьшую стоимость (оценку). Для приложений (заявлений), что решение зависит от некоторых данных, стоимость (оценка) должна быть функцией наблюдения, иначе мы не сможешь построить модель на основании этих данных.

Как простой пример рассматривают проблему поиска модели $f$ , которая минимизирует $C=E\left[(f(x)-y)^{2}\right]$ , для пары значений $(x,y)$ , полученные из некоторого распределения $\mathcal{D}$ . В практической ситуациях мы бы имели $N$ примеров из $\mathcal{D}$ и таким образом, для вышеупомянутого примера, мы бы минимиировали ${\hat {C}}={\frac {1}{N}}\sum _{i=1}^{N}(f(x_{i})-y_{i})^{2}$ . Таким образом стоимость (оценка) минимизирована по образцу данных, а не истинного распределения данных. Когда $N \rightarrow \infty$ , некоторая форма онлайн обучения должна быть использована, где оценка частично минимизирована, так как каждый новый пример замечен (учтен). Пока онлайн обучение используется, тогда распределение $\mathcal{D}$ фиксировано, и это является очень полезным, в случае когда распределение изменяется медленно в течение долгого времени. В методах нейронных сетей, некоторые формы онлайн обучения также часто используются для конечных наборов данных.

Выбор функции оценки[]

Пока возможно произвольно определить некоторую специальную (ad hoc)функцию оценки, частичная функция оценки будет использоваться также, потому что это имеет желательные свойства (, типа выпуклости) или потому что это возникает естественно из специфической формулировки проблемы (то есть, В вероятностной формулировке следующая вероятность модели может использоваться как обратная стоимость). В конечном счете, функция стоимости будет зависеть от задачи, которую мы желаем выполнить. Рассмотрим три основных категории задач обучения

Парадигмы Обучения[]

Есть три главных парадигмы обучения, каждая соответствует специфической абстрактной задаче обучения. Они контролируемое обучение, неконтролируемое обучение и Обучение с подкреплением. Обычно любой данный тип архитектуры сети может использоваться в любой из этих задач.

Контролируемое обучение[]

Контролируемое обучение, или обучение с учителем - способ постановки эксперимента, в ходе которого НС обучается с помощью примеров пар $(x, y), x \in X, y \in Y$ , (вход-эталон), и наша цель состоит в том, чтобы найти функцию $f:X \rightarrow Y$ среди всех возможных функций, который совпадают с примерамм. Другими словами, мы хотим построить карту, соответствующую данным; функция оценки связана с несоответствием между нашей каротй и данными, и это неявно содержит уже известную информацию в области проблемы.

Неконтролируемое обучение[]

В неконтролируемом обучении, или обучении без учителя, имеется некоторая переменная $x$ , и функция оценки, которая будет минимизирована, и которая может быть любой функцией от переменной $x$ и выходными данными сети, $f$ Функция оценки зависит от задачи (что мы хотим смоделировать), и наших априорных предположений (неявные свойства нашей модели, ее параметров и переменных). Приведем простой пример, рассмотрим модель $f(x)=a$ , где $a$ и функция оценки $C=E[(x - f(x))^2]$ . Минимизирую эту оценку, мы получим оценку $a$ , которая равна значению данных. Функция оценки может быть сложнее. Ее вид зависит от заявления. Для примера, при сжатии, она может быть связана с взаимной информацией между x и y. В статистическом моделировании, будет связь с апостериорной вероятностью модели имеющихся данных.

Обучение с подкреплением[]

В обучении с подкреплением, переменная $x$ как правило не дается, но генерируется по средствам взаимодействия агента с окружающей средой. В каждый момент времени $t$ , агент выполняет некоторое действие $y_t$ и окружающая среда генерирует наблюдение $x_t$ и мгновенную стоимость Невозможно разобрать выражение (синтаксическая ошибка): {\displaystyle с_t } , согласно некоторым (как правило не известным) динамикам. Цель, исследовать "политику" выбора действий минимизирующих некоторую меру долгосрочной оценки, т.е. ожидаемой совокупности оценки.

Алгоритмы обучения[]

Обучение модели нейронной сети, по существу, означает выбор одной модель из множества возможных моделей (или, по Баясу, определить распределение по набору возможных моделей), который минимизирует критерий оценки. Есть многочисленные алгоритмы, доступные для того, чтобы обучать модели нейронной сети; большинство из них может рассматриваться как прямое приложение теории оптимизации и статистической оценки.

Большинство алгоритмов, используемых в обучении искусственных нейронных сетей использует некоторую форму градиентного спуска.

Временное перцепционное обучение полагается на обнаружение временных отношений в сенсорных потоках сигнала. В окружающей среде, статистически существенные временные корреляции могут быть найдены, контролируя время прибытия сенсорных сигналов. Это сделано перцепционной сетью. осуществляется, если просто взять производную функции оценки относительно параметров сети и затем изменяя эти параметры.

Временное перцепционное обучение полагается на обнаружение временных отношений в сенсорных потоках сигнала. В окружающей среде, статистически существенные временные корреляции могут быть найдены, контролируя время прибытия сенсорных сигналов. Это осуществляется перцепционной сетью.

Использование искусственных нейронных сетей[]

Возможно самое большое преимущество ИНС - их способность, быть использованными как механизм приближения для произвольной функции, который 'учится' на основе полученных (наблюдаемых) данных. Однако использование сетей не является настолько легким и простым в понимании.

Выбор модели: Этот пункт зависит от представленных данных и цели применения. Слишком сложные модели имеют тенденцию приводить к проблемам в обучении.
Алгоритм обучения: существуют многочисленные связи между алгоритмами обучения. Почти любой алгоритм будет работать хорошо с корректными гиперпараметрами для того, чтобы обучаться на специфическом фиксированном наборе данных. Но отбор и настройка алгоритма обучения на еще не известных данных требуют большого количества экспериментов.
Надежность: Если модель, функция оценки и алгоритм обучения отобраны соответственно, получающаяся ИНС может быть очень надежной.

Грамотно созданная ИНС послужит естественно для обучения online(онлайн) и применима для больших наборов данных. Их простое выполнение и существование главным образом местных зависимостей, показанных в структуре учитывают быстро, параллельное выполнение в аппаратных средствах.

Применение[]

Полезность моделей ИНС заключается в том, что модели могут быть использованы для вывода функции, на основе наблюдений (имеющихся данных). Это особенно полезно для применения, где сложность данных или задачи делает вывод такой функции в ручную непрактичным.

Реальные применение[]

Задачи, для решения, которых применяют ИНС, можно разделить на следующие категории:

Функция приближения, или регрессионный анализ (линейный), включающий предсказания временных периодов и моделирование.
Классификация, включающая определение образца и последовательности, определение новизны и последовательное принятие решение.
Обработка данных, включающая фильтрование, кластеризацию, слепое разделение источников и сжатие.

Прикладные области включают идентификацию системы и контроль (контроль устройства, контроль производственным процессом), геймплей и принятие решения (нарды, шахматы), распознавание образов (радарные системы, идентификация лица, определение объектов и много больше), распознавание последовательности (жест, речь, распознавание рукописного текста), медицинский диагноз, финансовые заявления (автоматизированные системы торговли), поиск данных (или поиск информации в базах данных (knowledge discovery in databases, "KDD")), визуализация и фильтрование электронной почты от спама.

Классификация по характеру связей[]

Сети прямого распространения (Feedforward)[]

Все связи направлены строго от входных нейронов к выходным. Примерами таких сетей являются Перцептрон, многослойный перцептрон, Нейронная сеть Ворда.

Рекуррентные нейронные сети‎[]

Сигнал с выходных нейронов или нейронов скрытого слоя частично передается обратно на входы нейронов входного слоя (обратная связь). Рекуррентная сеть Хопфилда «фильтрует» входные данные, возвращаясь к устойчивому состоянию и, таким образом, позволяет решать задачи компрессии данных и построения ассоциативной памяти. Частным случаем рекуррентных сетей является двунаправленные сети. В таких сетях между слоями существуют связи как в направлении от входного слоя к выходному, так и в обратном. Классическим примером является НС Коско.

Радиально-базисные функции[]

Искусственные нейронные сети использующие в качестве активационных функций радиально-базисные (такие сети сокращенно называются RBF-сетями). Общий вид радиально-базисной функции:

$f(x)=\phi \left(\frac{x^2}{\sigma^2}\right)$ , например, $f(x)=e^{-{{x^2}\over{\sigma^2}}},$

где $x$ — вектор входных сигналов нейрона, $\sigma$ — ширина окна функции, $\phi(y)$ — убывающая функция (чаще всего, равная нулю вне некоторого отрезка).

Радиально-базисная сеть характеризуется тремя особенностями:

1. Единственный скрытый слой

2. Только нейроны скрытого слоя имеют нелинейную активационную функцию

3. Синаптические веса связей входного и скрытого слоев равны единице

Самоорганизующиеся карты[]

Такие сети представляют собой, соревновательную нейронную сеть с неконтролируемым обучением, выполняющая задачу визуализации и кластеризации. Является методом проецирования многомерного пространства в пространство с более низкой размерностью (чаще всего, двумерное), применяется также для решения задач моделирования, прогнозирования и др. Является одной из версий нейронных сетей Кохонена. Самоорганизующиеся карты Кохонена служат, в первую очередь, для визуализации и первоначального («разведывательного») анализа данных.

Сигнал в сеть Кохонена поступает сразу на все нейроны, веса соответствующих синапсов интерпретируются как координаты положения узла, и выходной сигнал формируется по принципу «победитель забирает все» — то есть ненулевой выходной сигнал имеет нейрон, ближайший (в смысле весов синапсов) к подаваемому на вход объекту. В процессе обучения веса синапсов настраиваются таким образом, чтобы узлы решетки «располагались» в местах локальных сгущений данных, то есть описывали кластерную структуру облака данных, с другой стороны, связи между нейронами соответствуют отношениям соседства между соответствующими кластерами в пространстве признаков.

Удобно рассматривать такие карты как двумерные сетки узлов, размещенных в многомерном пространстве. Изначально самоорганизующаяся карта представляет из себя сетку из узлов, соединенный между собой связями. Кохонен рассматривал два варианта соединения узлов — в прямоугольную и гексагональную сетку — отличие состоит в том, что в прямоугольной сетке каждый узел соединен с 4-мя соседними, а в гексагональной — с 6-ю ближайщими узлами. Для двух таких сеток процесс построения сети Кохонена отличается лишь в том месте, где перебираются ближайшие к данному узлу соседи.

Начальное вложение сетки в пространство данных выбирается произвольным образом. В авторском пакете SOM_PAK предлагаются варианты случайного начального расположения узлов в пространстве и вариант расположения узлов в плоскости. После этого узлы начинают перемещаться в пространстве согласно следующему алгоритму:

Случайным образом выбирается точка данных $x$ .
Определяется ближайший к $x$ узел карты (BMU — Best Matching Unit).
Этот узел перемещается на заданный шаг по направлению к x. Однако, он перемещается не один, а увлекает за собой определенное количество ближайших узлов из некоторой окрестности на карте. Из всех двигающихся узлов наиболее сильно смещается центральный — ближайший к точке данных — узел, а остальные испытывают тем меньшие смещения, чем дальше они от BMU. В настройке карты различают два этапа — этап грубой (ordering) и этап тонкой (fine-tuning) настройки. На первом этапе выбираются большие значения окрестностей и движение узлов носит коллективный характер — в результате карта «расправляется» и грубым образом отражает структуру данных; на этапе тонкой настройки радиус окрестности равен 1-2 и настраиваются уже индивидуальные положения узлов. Кроме этого, величина смещения равномерно затухает со временем, то есть она велика в начале каждого из этапов обучения и близка к нулю в конце.
Алгоритм повторяется определенное число эпох (понятно, что число шагов может сильно изменяться в зависимости от задачи).

Литература[]

Arbib, Michael A. (Ed.) (1995). The Handbook of Brain Theory and Neural Networks.

Arbib, Michael A. (Ed.) (2008). Computing The Brain - A Guide To Neiroinformatics.

Bar-Yam, Yaneer (2003) Dynamics of Complex Systems.

Bhadeshia H. K. D. H. (1992) Neural Networks in Materials Science.

Выделить Искусственная нейронная сеть и найти в:

Страница 0 - краткая статья
Страница 1 - энциклопедическая статья
Разное - на страницах: 2 , 3 , 4 , 5
Прошу вносить вашу информацию в «Искусственная нейронная сеть 1», чтобы сохранить ее

Искусственная нейронная сеть

Содержание