ИЗВЛЕЧЕНИЕ ЗНАНИЙ С ИСПОЛЬЗОВАНИЕМ НЕЙРОННЫХ СЕТЕЙ

Для извлечения знаний из выборки данных, собранных пользователем, используются технологии искусственных нейронных сетей, которые позволяют представить извлеченные знания в символьной форме, в виде компактной системы логических правил, доступной для понимания. На их основе решены конкретные задачи медицинской диагностики и управления промышленным производством. Созданные технологии могут найти применение для поиска и категоризации Web документов, обработки сигналов и т.д.

Рис. 5., табл. 1, библиограф. 5

1 Введение

Познание закономерностей окружающего мира осуществляется нами через накопление и обобщение эмпирических наблюдений и данных, представляющих интересную для нас информацию. Все существующие в настоящее время информационные технологии в той или иной степени направлены на решение этой проблемы. Появляются все более мощные средства накопления данных, извлечения и представления интересной информации в виде таблиц, графиков и аналитических зависимостей. Эти информационные технологии становятся доступными для широкого круга пользователей, работающих в науке и образовании, экономике, медицине и т.д. Читателям в этом плане будет интересно, например, ознакомиться с превосходным обзором российских нейросайтов Андрея Власова.

Обобщение и аналитическое представление накопленной информации осуществляется с двумя целями. Первая состоит в том, чтобы гарантировать принятие рациональных решений, риск потерь которых сведен к минимуму. Вторая заключается в том, чтобы понять механизм принятия решений. Пользователь, принимая определенное решение, нуждается в содержательном ответе на вопросы, как он получил это решение, почему он должен следовать этому решающему правилу, и т.д.

В связи с этим, актуальной становится задача создания эффективных методов обобщения и интерпретации данных, имеющихся в распоряжении у пользователя.

2 Статистический подход

Современного пользователя все реже и реже удовлетворяют результаты статистического анализа, используемого для обобщения и интерпретации искомых закономерностей в явном виде y= f(x), существующих между независимой переменной y и m-мерным вектором x= (x1, ..., xm) независимых переменных. В известной степени это обусловлено тем, что в рамках статистического подхода требуются дополнительные усилия для того, чтобы были приняты гипотезы об однородности имеющихся данных, взаимной независимости переменных и т.д.

Пользователь должен знать основные понятия и положения математической статистики для того, чтобы с их помощью интерпретировать интересующие его закономерности.

2.1 Как выбрать полином?

Искомые зависимости зависят от выбора параметров аппроксимирующей функции. Так, например, величина e остаточной ошибки на обучающей выборке снижается при возрастании степени p аппроксимирующего полинома и достигает минимума при p= n, где n - длина обучающей выборки, рис.2.

Однако величина ошибки на проверочной выборке увеличивается при возрастании степени p полинома. Как в этом случае выбрать степень искомого полинома?

3 Нейросетевой подход

Искушенного пользователя в полной мере не могут удовлетворить и современные информационные технологии, базирующиеся на искусственных нейронных сетях. Пользователь должен знать основные понятия в теории нейронных сетей. В каждом конкретном случае он должен выбрать наиболее подходящую конфигурацию нейронной сети (структуру межнейронных связей), определить число нейронов в сети и задать функцию их активации. Далее в рамках выбранной архитектуры он должен подобрать подходящий метод обучения нейронной сети, рис. 3.

И, наконец, если в результате обучения была достигнута желаемая точность аппроксимации, пользователь должен интерпретировать решающие правила, реализуемые обученной нейронной сетью.

3.1 Как интерпретировать решающие правила?

На этом этапе перед пользователем могут возникнуть непреодолимые трудности. Дело в том, что нейронные сети в соответствии с коннекционистской парадигмой содержат чрезвычайно большое количество межнейронных (синаптических) связей. В рамках этой парадигмы каждый выход нейрона в одном слое соединен с каждым входом другого, рис. 4.

Такое большое число связей существенно затрудняет интерпретацию обученной сети и представление реализуемых ею решающих правил в явном виде.

3.2 Доступные средства

Доступные пакеты предлагают в лучшем случае упрощенное представление обученной нейронной сети. К числу таких пакетов можно отнести "Нейрокомп" (Красноярск) и "NeuroShell". В первом реализована процедура проф. А. Горбаня (http://www.chat.ru/~neurocom/), предложенная им для контрастирования (или порогового выделения наиболее значимых) межнейронных связей. Во втором реализованы алгоритмы многослойной самоорганизации А. Ивахненко (http://www.inf.kiev.ua/GMDH-home/).

3.3 Недостатки

Оба подхода имеют известные недостатки. Пользователя в основном ожидает две неприятности. Первая из них связана с тем, что результаты обучения и найденные решающие правила зависят от некоторых параметров и условий, предварительно задаваемых пользователем. Вторая, более серьезная, возникает из-за отсутствия логического (символьного) представления решающих правил, реализуемых обученной нейронной сетью. Здесь возникает вопрос о том, как можно интерпретировать наши знания.

В самом общем виде логика нашего мышления может быть описана такими основными логическими операциями, как конъюнкция, дизъюнкция и логическое отрицание. Эти логические (символьные) операции были предложены математиком Булем. Отношения между причиной и ее следствием могут быть выражены в форме символьных правил "если, то" (if-then). До известной степени сложности мы можем легко оперировать булевыми функциями и правилами на их основе. Более того, на основе таких операций можно выразить логическую функцию любой сложности.

Из этого следует, что мы можем легко понять решающие правила, реализуемые обученной нейронной сетью, если они были бы представлены в булевой форме. В известных алгоритмах самоорганизации синтез логических (булевых) решающих правил не может быть эффективным.

4 Самоорганизация нейронной сети

В рамках созданной технологии используются новые критерии, благодаря которым самоорганизация нейронной сети стала возможной в классе логических функций [1]. Нейронные сети, синтезированные на непредставительной (малой) обучающей выборке, могут быть легко представлены в символьной форме. Они имеют оптимальную сложность, измеряемую количеством нейронов и связей между ними. Самоорганизация исключает влияние субъективных факторов. Обученные нейронные сети могут воспринимать нечеткие переменные и вырабатывать соответствующие (нечеткие) решения.

4.1 Символьное представление

Самоорганизация нейронной сети осуществляется в классе невырожденных логических функций g1, ..., gl двух переменных, где l= 10. (Напомним, что вырожденные функции принимают значения только 0 или только 1). Нейронная сеть, синтезированная в этом классе функций, описывается следующим образом.

{yi(1)= g(xji, xki)}, i= 1, ..., l1; j= k= 1, ..., m,

... (1)

{yi(r)= g(yj (r-1), xk)}, i= 1, ..., lr; j= 1, ..., lr-1, k= 1, ..., m,

где r - число слоев нейронной сети; lr - число нейронов в r-м слое, l1= (m- 1)m/2; m - количество входных переменных.

Заметим, что из предполагаемого состава признаков x1, ..., xM в процессе самоорганизации удаляются входные переменные, разделяющая способность которых оказалась незначительной. Поэтому число m<= M.

Значения логических функций g1, ..., gl можно представить в табулированном виде. Ниже приведен конкретный пример синтезированной нейронной сети, представленной в символьной форме.

4.2 Оптимальная сложность

Сложность синтезированных нейронных сетей определяется количеством r слоев и числом lr нейронов в каждом из них. Результатом самоорганизации является нейронная сеть минимальной конфигурации, содержащая минимальное число слоев и нейронов, представленных системой логических правил (1). Поскольку извлеченные правила обеспечивают минимальное число ошибок классификации обучающей выборки, сложность синтезированной сети будет оптимальной.

4.3 Исключение внешних факторов

В рамках предложенного метода результаты самоорганизации не зависят от задаваемых извне условий. В частности, от пользователя не требуется предварительно задавать конфигурацию нейронной сети (определять количество слоев и нейронов в них). Ему не требуется также знать информативность или разделяющую способность исходных признаков.

4.4 Нечеткие переменные и решения

Количество решающих правил (экспертов) пропорционально сложности решаемой задачи классификации, поэтому нейроны выходного слоя образуют коллектив экспертов оптимальной сложности. Наличие коллектива из l нейронов позволяет оценивать принадлежность решений к одному из двух классов (Напомним, что если количество классов больше двух, дихотомический алгоритм применяется несколько раз).

Окончательное решение принимается по мажоритарному принципу (большинством голосов). Для оценки его достоверности (принадлежности к одному из классов) вычисляется значение коэффициента k = l1/l согласованности, где l1- число экспертов, принявших согласованное решение. Обычно число l1 выбирается в интервале [l/2, l], поэтому величина k = [0.5, 1]. Анализируя значение коэффициента согласованности, можно контролировать качество обучения и достоверность принимаемых решений в каждом конкретном случае.

5 Пример реализации

Покажем на конкретном примере, как легко может быть представлена нейронная сеть, синтезированная предложенным методом [1]. Нейронная сеть обучалась различать два ревматологических заболевания, кодируемых 0 и 1 соответственно. Врач-эксперт предложил первоначально использовать M= 19 признаков (симптомов). После самоорганизации число признаков уменьшилось до восьми, m= 8.

На рис. 5 обученная сеть представлена в виде матрицы Штейнбуха.

На этом рисунке двухслойная нейронная сеть представлена в виде горизонтальных и вертикальных шин, на пересечении которых кружочками обозначены соединения нейронов. Каждый нейрон, представленный залитым кружочком, имеет два входа и реализует одну из логических функций g0, g1, ..., g5, табулированные значения которых приведены в таблице.

Табулированные значения функций

Входы

Значения функции gi(u1, u2)

u1

u2

g0

g1

g2

g3

g4

g5

0

0

0

0

0

1

1

1

0

1

0

1

1

0

1

1

1

0

0

0

1

1

0

1

1

1

1

0

1

1

1

0

На входы (вертикальные шины) матрицы поступают значения 0 и 1 признаков. Каждый количественный признак в зависимости от найденного порога ui представляется нечеткой переменной xi, принимающей значения 0 или 1.

Наличие девяти выходов y1, ..., y9 позволяет оценивать принадлежность решений к одному из двух заболеваний с помощью коэффициента k = l1/l согласованности. Поскольку l1 = 5...9, величина k = 5/9...1.

Извлеченные правила легко табулируются и могут быть представлены диагностической таблицей, привычной для пользователей-врачей. Эта таблица состоит из 2m=8 = 256-ти комбинаций восьми признаков, принимающих значения 0 и 1.

В данном примере обучающая и тестовая выборки безошибочно распознаются при минимальном количестве нейронов: используется всего восемь нейронов в первом слое и девять во втором.

6 Применение

Предложенный подход был использован для решения задач медицинской диагностики [1, 4, 5] и управления промышленным производством в регионе [2, 3]. Во всех случаях обучающие выборки не были представительными - число классифицированных примеров не превысило 35.

Нейронные сети обучались дифференциальной диагностике ревматологических заболеваний и прогнозированию послеоперационных осложнений в абдоминальной хирургии. Для обучения были использованы малые выборки из 13-35 случаев, классифицированных экспертами (врачами). В результате были найдены решающие правила, обеспечивающие безошибочную классификацию обучающих выборок. Извлеченные правила имеют минимальную сложность. Количество расхождений с врачебными заключениями на тестовых примерах не превысило допустимых значений.

Символьные правила извлекались с целью выработки управляющих (административных) воздействий, направленных на рост объема промышленного производства в регионе. Для этого были использованы ежемесячные данные, опубликованные управлением статистики (по Пензенской области в 1995-1999 гг. и Мордовии в 1995 г.). В предполагаемые модели ежемесячного роста эксперты (экономисты) рекомендовали включить девять показателей экономического состояния за 11 предыдущих месяцев. В результате самоорганизации удалось существенно упростить искомые зависимости. Найденные модели позволили безошибочно прогнозировать тенденции ежемесячного роста промышленного производства.

7 Выводы

Таким образом, предложенный подход позволяет извлекать из выборки данных объективные знания о причинно-следственных соотношениях (моделях) между входными (независимыми) и выходными (зависимыми) переменными. Модели извлеченных знаний имеют оптимальную сложность и представлены в удобной и понятной для понимания символьной форме, описываемой компактной системой логических (булевых) функций. Предложенная технология исключает использование в моделях неинформативных переменных и может оперировать с нечеткими решениями. При этом результаты моделирования не зависят от влияния субъективных факторов, знаний и умения пользователей. Другое важное преимущество состоит в том, что извлечение адекватных моделей возможно из непредставительных (малых) выборок. Это особенно важно в тех случаях (например, в медицине), когда пользователь не может без существенных потерь составить представительную выборку классифицированных наблюдений. Эффективность технологии подтверждается решением конкретных задач медицинской диагностики и управления промышленным производством. Созданные технологии могут найти широкое применение в различных экспертных системах, системах информационного поиска и категоризации Web документов, обработки сигналов и т.д.

Цитируемые источники

  1. Щетинин В.Г. Многослойная самоорганизация нейронных сетей оптимальной сложности// Автоматика и вычислительная техника. - Рига, 1998. - ╪4. - С.30-37. (Word97, avt.zip, 28 KB)
  2. Щетинин В.Г., Костюнин А.В. Принятие решений на нейронных сетях оптимальной сложности// Автоматизация и современные технологии. - М., 1998. - ╪4. - С. 38-43.
  3. Щетинин В.Г., Столярова О.В., Костюнин А.В. Синтез решающих правил на нейронных сетях для управления производством// Приборы и системы управления.- М., 1999. - ╪1. С. 72-77. (Word97, ec.zip, 33 KB)
  4. Щетинин В.Г., Соломаха А.А. Применение искусственных нейронных сетей в клинической лабораторной диагностике// Клиническая лабораторная диагностика. - М., 1998. - ╪10. - С. 21-23. (Word97, med.zip, 31 KB)
  5. Щетинин В.Г., Комаров В.Т. Дифференциальная диагностика при помощи искусственных нейронных сетей// Клиническая лабораторная диагностика. - М., 1998.- ╪11. С.34-37.

Back to Home