§ 2. Классификация задач анализа данных [72]Анализ данных, представленных таблицей «объект-свойство-время» (ТОСВ) (трехвходовая таблица или куб данных на рис. 1), всегда включает в себя решение задач двух связанных между собой направлений: а) обнаружение закономерных связей между элементами таблицы и б) использование обнаруженных закономерностей для предсказания (прогнозирования) значений одних элементов таблицы по известным значениям других ее элементов. Бывают случаи, когда требуется решать задачу только одного из этих направлений. Например, нужно выявить имеющиеся в таблице закономерности и зафиксировать их для использования в будущем (случай а) или сделать прогноз на базе ранее обнаруженных закономерностей (случай б). Часто встречается ситуация и комбинированного характера, когда для прогнозирования конкретной характеристики данного объекта требуется сначала обнаружить специфичные закономерности, нужные именно для этого конкретного случая. Такой комбинированный случай (а, б) является более общим и классификацию задач анализа данных мы будем строить, имея в виду именно его. Рис. 1. I. Рассмотрим задачи предсказания элементов в двумерной таблице типа «объект-свойство» (двумерная таблица ТОС/В на рис. 1), строки в которой Предсказываемые элементы 1) все элементы 2) все элементы 3) элементы В каждом семействе выделяем классы задач в зависимости от того, какое количество 1.1) предсказывается один элемент 1.2) предсказывается сразу несколько элементов 1.3) предсказываются сразу все элементы столбца 2.1) 2.2) 2.3) В третьем семействе выделяется два класса задач: 3.1) 3.2) В каждом из этих восьми классов различаем типы задач в соответствии со шкалами, в которых измеряются значения предсказываемых элементов. Выделим три группы шкал: наименований (Н), порядка (П) и количественные (К). Ситуацию, при которой предсказываются разнотипные элементы, обозначим символом (Р). Описанная классификация задач анализа данных приведена в табл. 1. Приведем примеры некоторых распространенных типов задач предсказания. Таблица 1. Классификация задач анализа данных
Задача 1.1. Н состоит в предсказании одного элемента в столбце, измеренном в шкале наименований. В этом обычно состоит задача распознавания образов: указать имя образа (класса), которому принадлежит некоторый новый объект Похожие по смыслу задачи составляют класс 1.2. Только здесь нужно принимать решение сразу о нескольких элементах: распознать Важную роль играют задачи класса 1.3. Разделить объекты по похожести их свойств, т. е. установить некоторую их классификацию, — значит сформировать в ТОС некоторый новый столбец С задачами второго семейства сталкиваются, когда нужно, например, оценивать информативность свойств, представленных в таблице. Если имеющиеся свойства предварительно разделены на информативные и неинформативные классы, то при необходимости определения, к какому из этих классов следует отнести некоторое новое свойство, мы имеем дело с задачей типа 2.1.Н. Если требуется указать порядковое место нового свойства в предварительно упорядоченном наборе свойств, то решается задача 2.1.П. А если требуется оценить информативность свойства в битах, то имеет место задача 2.1.К. Для группы свойств в этом классе формулируются задачи 2.2.Н, 2.2.П и 2.2.К. Очевидна интерпретация и задач оценки всей совокупности свойств сразу (задач типа 2.3.Н, 2.3.П и 2.3.К). Представим себе таблицу с пробелами в разных столбцах и строках. Для предсказания значений пропущенных элементов приходится решать задачи разных типов из класса 3.2, в том числе и задачу предсказания разнотипных элементов 3.2.Р. Наконец, класс 3.3 охватывает задачи генерации таблиц с заданными свойствами: тестовых таблиц для проверки программ распознавания образов, таблиц случайных чисел и т. п. В зависимости от требуемого типа шкал имеют место задачи типа 3.3.Н, 3.3.П, 3.3.К или 3.3.Р. II. Рассмотрим теперь таблицу, которая отображает значения некоторого свойства Если задана целевая строка В случае, когда предсказываемые элементы разбросаны по разным столбцам и строкам, решаются задачи семейства 3. Существенное отличие таблицы ТОВ/С от таблицы ТОС/В состоит в том, что столбцы в ТОВ/С связаны друг с другом отношением порядка следования. Эта дополнительная информация может оказаться полезной при решении некоторых задач, например задачи прогнозирования многомерных динамических рядов. III. Теперь обратимся еще к одному сечению куба данных — к таблице ТСВ/О (см. рис. 1), строками которой считаем свойства некоторого выделенного объекта, а столбцами — моменты времени измерения этих свойств. Примером такой таблицы может служить протокол наблюдения за Здесь снова можно группировать строки (т. е. симптомы по похожести их динамики во времени) и столбцы (моменты времени с похожими «профилями» симптомов), для чего потребуются методы таксономии типа 1.3.Н или 2.З.Н. Для предсказания порядковых позиций группы новых свойств среди предварительно упорядоченных свойств решается задача типа 1.2.П. Если нужно определить, к какому из ранее выделенных типов (классов) моментов времени следует отнести некоторый новый момент времени, то нужно решать задачу распознавания образов, т. е. задачу типа 1.1.Н. Понятна на этой таблице интерпретация и других типов задач. Снова отметим, что порядок столбцов в таблице менять нельзя. На это ограничение можно опереться при решении некоторых задач. IV. Наконец от рассмотрения задач на плоских сечениях куба данных перейдем к рассмотрению задач на кубе в целом. При решении описанных задач использовались закономерности, обнаруживаемые только на той или иной двумерной таблице. Хотелось бы иметь возможность работать с закономерностями, рассеянными в кубе и не представленными целиком ни в одном из его сечений. В дальнейшем мы опишем методы решения ряда задач анализа данных для случая, когда исходная информация представлена именно такими трехвходовыми таблицами или кубами данных типа ТОСВ. Некоторые из этих методов предварительно делают из куба данных большую двумерную таблицу. Это можно сделать, «склеивая» плоские сечения (например, представляющие собой таблицы ТОС/В) в единое «полотно», в котором содержится m строк (объектов) и V. Не все описанные типы задач одинаково хорошо изучены: некоторые имеют давнюю историю, широко известны, имеют хорошо отработанные алгоритмы и программы для их решения, которые применяются в разных прикладных областях. Другие известны меньше, но понятны и иногда используются. Есть и такие, которые пока ясно не формулировались и интерпретация которых вызывает затруднения. В дальнейших разделах книги описываются в основном хорошо изученные типы задач, методы решения и примеры их приложений в различных содержательных областях. Основная часть описываемых методов реализована в программах пакета ОТЭКС [82].
|