Глава 3 Базовые гипотезы, лежащие в основе методов анализа данныхКак будет видно из дальнейшего, строгие математические методы, используемые в математической статистике, разработаны для случаев, когда о распределениях анализируемых генеральных совокупностей известно все, что только может потребоваться в процессе решения задачи: известны виды законов распределений и все их параметры, априорные вероятности появления образов, матрица потерь от ошибок и т. д. К сожалению, при решении реальных задач анализа данных такие условия не встречаются. Так, в задаче распознавания обучающая выборка каждого из образов представлена конечным числом реализаций , описанных характеристиками . Сведений о законах и параметрах распределения генеральных совокупностей образов нет. В частности, ничего не известно о зависимости одних признаков от других. Не известна связь обучающей выборки с генеральной совокупностью, т. е. не известна степень представительности выборки. Владелец обучающей выборки («заказчик») имеет туманные представления об априорной вероятности появления разных образов и о матрице стоимости ошибок распознавания. (Оставим пока в стороне те обычно сопутствующие факты, что выборка бывает очень небольшой, в данных есть ошибки и пробелы, признаки измерены в разных шкалах и среди них имеются неинформативные, шумящие признаки и пр.) Совершенно очевидно, что для приведения ситуации к виду, при котором можно было бы применить тот или иной статистический алгоритм, нужно к имеющейся объективной информации добавить ряд субъективно выбираемых предположений или гипотез. Этот этап привнесения эвристических гипотез, значение которого подчеркивалось в первой главе, имеет место во всех случаях решения реальных задач распознавания образов и потому деление алгоритмов на строгие статистические и нестрогие эвристические не имеет смысла. Дополнительные гипотезы могут носить общий характер или касаться мелких частностей. Здесь будут описаны две базовых гипотезы — компактности и -компактности [74] — и показано их влияние на характер алгоритмов анализа данных.
|