Читать в оригинале

ОглавлениеСледующая >>


Мир выглядит молодой красавицей или
Брокенской ведьмой в зависимости от
того, через какие очки на него смотришь.
Г. Гейне

ПРЕДИСЛОВИЕ

Задаче обучения машин распознаванию образов уже более пятнадцати лет. За это время иные идеи оформились в самостоятельное научное направление, а задача обучения распознаванию образов все еще не обрела формальной постановки, которая удовлетворила бы всех исследователей. И не потому, что ей уделялось мало внимания.

Содержательная (а не формальная) постановка задачи появилась в конце 50-х годов и заключалась в том, чтобы построить машину, способную обучаться классификации ситуаций так же, как это делают живые существа. Такое широкое понимание проблемы привело к возникновению различных направлений исследования. Одни ученые считали главным построение модели процесса восприятия, другие видели основное содержание проблемы в ее утилитарном проявлении – создании алгоритмов обучения распознаванию образов для решения конкретных задач практики, третьи искали в этой задаче постановки новых математических проблем.

Сначала исследование задачи обучения распознаванию образов шло чрезвычайно успешно. Сразу же по всем направлениям удалось сделать значительный шаг: были построены модели, которые на первых порах вполне удовлетворяли исследователей, решено несколько практических задач, которые никак не удавалось решить другими методами, наконец, были доказаны первые теоремы об алгоритмах обучения.

Начало 60-х годов казалось весьма обнадеживающим, Однако время шло, а второй шаг так и не был сделан: усложнение моделей ничего не добавило к объяснению тонких эффектов восприятия, не удалось построить более эффективных алгоритмов распознавания.

С этого момента, пожалуй, впервые стал серьезно проявляться интерес к теории. Теория призвана была выяснить, существуют ли общие принципы обучения, которым должен был бы следовать любой алгоритм, или любая модель процесса восприятия. Словом, как это всегда бывает, к теории обратились тогда, когда выяснилось, что никакие изобретения не позволяют улучшить существующие алгоритмы. От теории ожидали новых принципов, которые позволили бы строить более эффективные алгоритмы обучения. Для построения теории прежде всего надо найти формальную схему, в которую можно было бы вложить задачу обучения распознаванию образов. Это-то и оказалось трудно сделать.

Одни специалисты видели проблему в том, чтобы, используя априорные сведения о свойствах образов, найти такое их описание, при котором отыскание принципа классификации не составляло бы труда. Другие, напротив, считали выбор системы описания внешним моментом в постановке задачи и видели основную проблему в отыскании правила классификации среди заданного множества возможных правил.

Эти две точки зрения являются диаметрально противоположными. В первом случае постановка должна быть нацелена па выявление общих принципов использования априорной информации при составлении адекватного описания образов. При этом важно, что априорные сведения об образах различной природы разные, а принцип их учета один и тот же.

Во втором случае проблема получения описания выносится за рамки общей постановки и теория обучения машин распознаванию образов сводится к проблеме минимизации риска в специальном классе решающих правил.

По существу, различные точки зрения на постановку задачи распознавания образов определяются ответом на вопрос: возможны ли единые принципы построения адекватного описания образов различной природы или же конструирование языка описания есть каждый раз задача специалистов конкретных областей знаний?

Если да, то выявление этих принципов должно составить основное направление исследования задачи распознавания образов. Основное потому, что такое направление исследований явилось бы и общим и принципиально новым.

Если же нет, то задача обучения распознаванию образов приводится к задаче минимизации среднего риска в специальном классе решающих правил и может рассматриваться как одно из направлений прикладной статистики.

Ответа на этот вопрос до сих пор нет и потому выбор постановки задачи является пока вопросом веры. Большинство исследователей, однако, приняли вторую точку зрения, и под теорией распознавания образов принято сейчас понимать теорию минимизации риска в специальном классе решающих правил.

В этой книге мы также будем придерживаться того, что теория обучения машин распознаванию образов сводится к проблеме минимизации среднего риска.

Методы минимизации среднего риска являются традиционным предметом исследования теории статистических решений, и поэтому проблема заключается в том, чтобы суметь применить их для соответствующего класса решающих функций. На этом пути существовали известные трудности, но довольно быстро их удалось преодолеть и к середине 60-х годов появилась общая теория обучения распознаванию образов. Эта теория одновременно с удовлетворением принесла и некоторое разочарование. Общий принцип построения алгоритма был чересчур широким: ему удовлетворяло очень много алгоритмов обучения; кроме того, можно было найти регулярным способом (и было показано каким именно) огромное количество конкретных алгоритмов обучения распознаванию образов, которые на практике оказывались ничуть не лучше существующих.

Таким образом, сложилась кризисная ситуация: казалось, что задача обучения распознаванию образов в статистической постановке себя исчерпала.

Вероятно, это было бы действительно так, если бы не одно обстоятельство. Дело в том, что конструктивные методы минимизации среднего риска, разработанные в теории статистических решений, в основном носят асимптотический характер, т. е. метод, минимизирующий величину среднего риска на основе выборки, считается состоятельным, если с ростом объема выборки с помощью этого метода можно как угодно близко подойти к оптимальному решению. Вот эти-то асимптотически-оптимальные методы минимизации риска и применялись для решения задачи обучения распознаванию образов. На практике же всегда используются выборки ограниченного объема, которые никак нельзя считать настолько большими, чтобы применять асимптотические методы.

Поэтому возникает надежда построить более содержательную теорию применением к нашей специальной задаче минимизации среднего риска, образующей статистическую задачу обучения распознаванию образов, методов минимизации риска на конечных выборках, т. е. построить не асимптотически-оптимальную теорию алгоритмов обучения, а конечно-оптимальную теорию. Но оказалось, что в теории статистических решений нет достаточно общих конструктивных конечно-оптимальных методов минимизации риска. И не потому, что математики не подозревали о существовании такой проблемы; напротив, необходимость создания конструктивных конечно-оптимальных алгоритмов давно была известна, по все попытки построить теорию таких алгоритмов наталкивались на значительные трудности.

Итак, исследование задачи обучения распознаванию образов вывело на нерешенную проблему. Но теперь эта проблема стоит не во всем объеме, а лишь для специального класса задач. Конечно-оптимальная теория алгоритмов обучения распознаванию образов еще не построена. Однако вне зависимости от того, насколько удачными окажутся попытки построить такую теорию, идея создания конечно-оптимальных методов минимизации риска для специального класса решающих правил уже принесла свои плоды: были найдены новые достаточно общие процедуры поиска оптимальных решений.

Что же сейчас составляет статистическую теорию обучения распознаванию образов? Вероятно, правильно было бы видеть в задаче обучения распознаванию образов три линии развития.

Первая линия связана со становлением задачи. В ней можно проследить, как из физиологической модели восприятия возникают алгоритмы опознания образов, как задача обучения формулируется в четких математических терминах, как она вливается в традиционные задачи математической статистики, какие новые идеи она порождает, как способствует решению задач практики.

Вторая линия отражает влияние задачи обучения распознаванию образов на развитие аппарата математической статистики. Здесь можно проследить, как сначала использовались известные методы статистики, как затем образовывались новые понятия, и, наконец, можно увидеть влияние этих новых идей на развитие традиционных направлений исследований в статистике.

Третья линия отражает развитие конструктивных идей построения алгоритмов. Сначала это были некоторые эвристические процедуры, единственным обоснованием которых была ссылка на аналогию с физиологическими моделями восприятия, затем это были различные методы построения разделяющих поверхностей и, наконец, это – методы выбора экстремальных подпространств и построения на них различных решающих правил.

В монографии нашли отражение все три линии развития теории. Первая линия сконцентрирована в основном в первой части книги – «Элементарная теория», вторая – во второй части – «Статистические основы теории» и третья – в третьей части книги – «Методы построения разделяющих поверхностей».

Первая часть книги носит сравнительно элементарный характер. В ней основной упор сделан на изложение идей статистической теории обучения распознаванию образов. Для чтения этой части книги достаточно знания математики в объеме курса втуза.

Чтение второй части книги требует знания основ теории вероятностей в объеме университетского курса и предполагает известную математическую культуру.

Третья часть книги посвящена изложению группы алгоритмов, основанных на методе обобщенного портрета. Она написана так, чтобы ее могли использовать читатели, цель которых выбрать и запрограммировать нужный им алгоритм обучения.

Книга ни в коей мере не является обзором теории обучения распознаванию образов. В ней, сильно сказываются научные интересы и пристрастия авторов. Тем не менее, мы надеемся, что она окажется интересной и полезной читателю.

Авторы



ОглавлениеСледующая >>