Глава 13 Анализ данных и Data Mining

§ 1. Что такое Data Mining?

В последнее время в англоязычной литературе получил распространение термин Data Mining (DM) [127,168], которым обозначается круг методов обработки данных, отличающихся от того, что авторы этого термина называют анализом данных. Попытки прямого перевода выражения Data Mining особым успехом не увенчались: вряд ли устроит вариант «горная промышленность данных» или «добыча данных». Чуть лучше было бы «обогащение данных». Внимательное чтение разъяснений этого термина показало, что американское понимание термина «анализ данных» (обозначим это через AmAD) отличается от того, что под этим термином понимают французские и российские специалисты (эту версию интерпретации обозначим через FRAD).

Представители AmAD называют анализом данных классические дедуктивные процедуры математической статистики: корреляционный и регрессионный анализы, метод главных компонент, построение оптимальных решающих функций при известных законах распределения генеральных совокупностей и т. д. Схема действий при этом простая:

(данные) => (программа AmAD) = (численный результат).

В основе программ лежат математические модели с известными параметрами. За адекватность модели и ее параметров изучаемому явлению AmAD-ист не отвечает. Он отвечает только за хорошую работу своей программы при заданных условиях.

Представители FRAD берутся за анализ явлений, для которых еще нет математических моделей. Есть только протоколы «стимул-реакция», представленные таблицами данных типа «объект-свойство-время». Конструирование моделей и определение параметров этих моделей является основным предметом внимания FRAD-истов. Они отвечают за привнесение эвристических гипотез о характере компактности, возможных формах (моделях) зависимостей, параметрах предполагаемых законов распределений и т. д. Наряду с дедуктивным аппаратом при решении этих задач используются индуктивные методы, реализованные в алгоритмах машинного обучения.

Вспомним классификацию задач прикладной математики, описанную в § 2 главы 1. Там выделялись задачи трех типов: вычислительная математика (ВМ), идентификация моделей (ИМ) и анализ данных (АД). Теперь можем сказать, что под AmAD подразумеваются задачи из области ВМ, в то время как FRAD полностью совпадает с АД. Задачи же, относящиеся к DM, охватывают область ИМ и АД, т. е. все то, что в прикладной математике отличается от ВМ.

Схематично получившуюся в результате классификацию задач можно представить так, как показано на рис. 36.

Рис. 36

Следует отметить одно важное методологическое отличие в подходах к решению задач между (ИМ&АД) и DM. В DM специально подчеркивается необходимость получения результата в таком виде, который удовлетворял бы двум требованиям: он должен быть понятным пользователю нематематику и вместе с тем быть пригодным для дальнейшей обработки компьютерными программами. Следовательно, не всякий формально правильный результат будет приемлемым, нужно выполнить еще и требования «прозрачности» для человека и машины.

Д. Мики формулирует этот тезис следующим образом [124].

1. Слабый критерий: система использует данные для выработки способов улучшения обработки будущих данных.

2. Сильный критерий: слабый критерий выполняется. Кроме того, система может представить эти способы в понятной символьной форме.

3. Сверхсильный критерий: слабый и сильный критерии удовлетворяются. Кроме того, система может представить эти способы в эффективной операционной символьной форме.

Некоторые методы АД обеспечивают получение таких результатов. В частности, закономерности в виде логических решающих правил представляют собой хороший пример: они легко интерпретируются человеком и удобны для дальнейшего машинного использования. Понятны человеку и описания таксонов, получаемых алгоритмами семейства FOREL.

В других же случаях результат, будучи приемлемым для машинного использования, оказывается трудно понимаемым человеком. Это касается всех тех случаев, когда результат решения задачи представлен перечнем каких-то элементов. Например, таксономия с помощью алгоритмов семейства KRAB дает результат в виде перечня объектов, входящих в тот или иной таксон. Машина может использовать такую информацию, а человек в длинный перечень фактов может поверить, но понять отражаемую этим перечнем закономерность может не всегда. Чтобы помочь человеку, а заодно упростить задачу и для машины, делается более краткое и простое описание результата в виде набора понятных человеку простых понятий или концептов (в данном случае сфер), покрывающих область каждого таксона.

То же самое происходит и при выборе информативных признаков, когда результат представлен их перечнем. Если список выбранных признаков большой, то сделать его понятным для человека можно группировкой отдельных признаков в небольшое число групп. В одну группу собираются признаки, связанные между собой взаимной зависимостью (коррелированные признаки). По такому принципу из признаков формируют факторы, а из симптомов — синдромы. Смысл каждой отдельной группы понятен человеку, становится понятным и весь результат.

При распознавании с опорой на гипотезу локальной компактности формулы разделяющих поверхностей между разными образами в явном виде не выписываются: делать это было бы трудно и бесполезно из-за их громоздкости и непонятности. Чтобы объяснить человеку конкретное решение, сделанное по правилу ближайшего соседа, достаточно сказать, что контрольный объект оказался наиболее похожим на такой-то прецедент, и показать (или описать) его. Такое правило понятно человеку и легко реализуемо программой.

Не всегда результат, понятный машине, удается привести к понятному для человека виду. Например, квадратичная решающая функция в многомерном признаковом пространстве прозрачна для машины, но мало что говорит человеку. Замена ее набором гиперплоскостей также мало помогает делу — попробуйте представить себе даже одну гиперплоскость в пространстве с размерностью больше трех. То же, по-видимому, можно сказать и о результатах формирования вторичных признаков по методу МГУА [94], некоторых алгебраических методах принятия решений и т. д.

Объяснить процесс получения результата или сам результат в простых для человека терминах не удается, но использовать эти результаты для дальнейших машинных процедур можно. Человеку же придется удовлетвориться тем фактом, что эти результаты объективно правильны: признаки действительно являются информативными, объекты распознаются правильно, прогнозы сбываются.

Приведенные примеры показывают, что многие методы АД дают сразу прозрачные для человека и машины результаты, другие методы требуют дополнительных процедур для приведения результатов к прозрачному для человека виду. Важность и полезность прозрачности результата для человека признается всеми: домохозяйке нет дела до принципов работы телевизора, достаточно того, что она может управлять им с помощью небольшого количества кнопок. Но категорического условия делать все результаты не только правильными и прозрачными для машины, но и прозрачными для человека в АД обычно не выдвигается.

Идеология же Data Mining это условие считает обязательным. Чтобы сделать сложные результаты прозрачными, рекомендуется использовать широкий набор вспомогательных средств в виде простых для понимания заготовок (моделей, концептов).

Применение концептов делает результат психологически более приемлемым, переработанная таким способом информация становится для человека как бы более богатой. Может быть, на этом основании можно согласиться с термином «обогащение данных» (ОД) в качестве русского эквивалента термина Data Mining.

Один и тот же результат при разных концептуальных базах может получить разную интерпретацию, что не противоречит практике человеческого восприятия: на одной и той же картине один видит одно, другой другое. Снова вспомним высказывание Р. Фейнмана [155]: чем больше разных интерпретаций получает явление, тем глубже мы его понимаем.

Парадигма DM после этих пояснений может быть представлена такой схемой действий:

(данные+концепт)=>(программа DМ) = (прозрачный результат).

Использование заранее приготовленных концептов или моделей полезно не только для объяснения полученного результата, но и для самого процесса получения этого результата. Об этом говорит богатая история научных открытий, во многих из которых явно видны следы попыток такого типа: «А что если попробовать такую модель? А не образуют ли объекты такую структуру? А что если упорядочить объекты по такому правилу?..».

Эффективность такой технологии «обогащения данных» можно показать на примерах машинного переоткрытия некоторых законов природы.