Читать в оригинале

<< ПредыдущаяОглавлениеСледующая >>


Глава 3 Базовые гипотезы, лежащие в основе методов анализа данных

Как будет видно из дальнейшего, строгие математические методы, используемые в математической статистике, разработаны для случаев, когда о распределениях анализируемых генеральных совокупностей известно все, что только может потребоваться в процессе решения задачи: известны виды законов распределений и все их параметры, априорные вероятности появления образов, матрица потерь от ошибок и т. д.

К сожалению, при решении реальных задач анализа данных такие условия не встречаются. Так, в задаче распознавания обучающая выборка каждого из  образов представлена конечным числом  реализаций  , описанных  характеристиками  . Сведений о законах и параметрах распределения генеральных совокупностей  образов нет. В частности, ничего не известно о зависимости одних признаков от других. Не известна связь обучающей выборки с генеральной совокупностью, т. е. не известна степень представительности  выборки. Владелец обучающей выборки («заказчик») имеет туманные представления об априорной вероятности появления разных образов и о матрице стоимости ошибок распознавания. (Оставим пока в стороне те обычно сопутствующие факты, что выборка бывает очень небольшой, в данных есть ошибки и пробелы, признаки измерены в разных шкалах и среди них имеются неинформативные, шумящие признаки и пр.)

Совершенно очевидно, что для приведения ситуации к виду, при котором можно было бы применить тот или иной статистический алгоритм, нужно к имеющейся объективной информации добавить ряд субъективно выбираемых предположений или гипотез. Этот этап привнесения эвристических гипотез, значение которого подчеркивалось в первой главе, имеет место во всех случаях решения реальных задач распознавания образов и потому деление алгоритмов на строгие статистические и нестрогие эвристические не имеет смысла.

Дополнительные гипотезы могут носить общий характер или касаться мелких частностей. Здесь будут описаны две базовых гипотезы — компактности и -компактности [74] — и показано их влияние на характер алгоритмов анализа данных.

 



<< ПредыдущаяОглавлениеСледующая >>