Читать в оригинале

<< ПредыдущаяОглавлениеСледующая >>


§ 2. Что такое анализ данных?

Среди задач прикладной математики поясним место того направления, которое с подачи французских математиков получило название анализа данных [14, 51].

Классическое направление прикладной математики связано с методами вычислений одних характеристик изучаемого объекта или явления по известным значениям других его характеристик. При этом модель объекта считается известной, а зависимости между характеристиками описываются аналитическим выражением в виде уравнения или системы уравнений или неравенств. Проблемы, возникающие при решении таких задач, связаны, например, с большими объемами вычислений, с защитой от погрешностей, накапливающихся в компьютере из-за округления чисел.

Позже появились задачи анализа объектов, математическая модель которых известна с точностью до параметров. Известен набор характеристик, влияющих на целевую характеристику, известен также общий вид зависимости между характеристиками, но коэффициенты, показатели степени и другие параметры модели неизвестны, и, чтобы их определить, используются протоколы наблюдений, отражающие значения одних характеристик при разных значениях других. Делается серия предположений о значениях неизвестных параметров модели и эти предположения проверяются на протоколах. В результате выбираются такие значения параметров, при которых модель с заданной точностью позволяет по одним (входным) характеристикам определять другие (выходные или целевые) характеристики. Такого рода задачи называются задачами идентификации моделей.

Наконец, с появлением кибернетики стали формулироваться задачи анализа «черного ящика»: исследователю известен набор характеристик, среди которых имеются характеристики, влияющие на целевое свойство объекта, но какие из них являются определяющими (информативными) и какой математической моделью описываются закономерности их влияния на целевую характеристику, не известно. Нужно выбрать информативные характеристики и построить модель, позволяющую вычислять значения целевой характеристики по значениям других характеристик.

Единственным источником информации для решения такой задачи служит таблица экспериментальных данных типа «стимул- реакция» с описанием входных и выходных характеристик наблюдаемого объекта или множества объектов. Как мы видели раньше, такие таблицы данных называют таблицами «объект- свойство». Теперь выбор модели и ее параметров делается путем проверки разных эмпирических гипотез на материале таблицы данных. Возникающий при этом круг задач и составляет направление, именуемое задачами анализа данных.

Возвращаясь к началу, можно отметить, что вычислительная математика обычно не имеет дела с этапом выдвижения гипотез о том, какие характеристики должны включаться в модель объекта и какой должна быть эта модель. Риск сделать ошибку в выборе модели и ее параметров остается вне поля внимания, а аккуратные вычисления по имеющейся модели создают впечатление высокого качества решения проблемы в целом.

Задачи идентификации моделей требуют от математика ответственности за правильный выбор параметров модели. Наличие этого рискованного шага в процессе решения задачи лишает результат ореола строгой математической чистоты.

На результатах решения задач анализа данных лежит явный след большого числа эвристических или экспертных предположений —  и о выборе характеристик объекта, и о классе моделей, и о параметрах выбранной модели. Эти предположения представляются на языке математических формул, но истоки их появления лежат вне математики, так что основная часть процесса решения задач анализа данных связана с проникновением в природу изучаемого явления и характерна скорее для естественно-научных областей.

Ситуация усугубляется еще и тем, что реальные данные обладают такими особенностями, которые затрудняют применение строгих математических методов. Достаточно отметить, что таблицы данных часто бывают представлены малыми выборками в пространствах большой размерности при отсутствии информации о характере и степени зависимости одних характеристик от других, разнотипности измерительных шкал, наличии шумов и пробелов. В этих условиях методы решения задач анализа данных вынужденно основываются как на корректных математических процедурах, так и на чисто эвристических приемах. Не удивительно, что получаемые решения воспринимаются настороженно, а многие методы решения выглядят недостаточно строго обоснованными.

Это обстоятельство объективно отражает тот факт, что на любом этапе развития прикладной математики возникают реальные задачи, для решения которых хорошо обоснованные математические методы еще не готовы. Вместе с тем важность задач не позволяет отложить их решение и вынуждает принимать рискованные эмпирические гипотезы и использовать нестрогие эвристические приемы. Если получаемые при этом результаты (предсказания, прогнозы) подтверждаются фактами, то настороженность в восприятии использованной модели сменяется уверенностью в ее адекватности изучаемому явлению, а внимание математика переносится на аналитическое исследование модели и вычислительные трудности, связанные с ее использованием. А доброжелательные и стимулирующие замечания типа «голая эвристика», «мутный поток литературы» применяются строгими критиками уже к попыткам решения других нетрадиционных проблем.

 



<< ПредыдущаяОглавлениеСледующая >>