§ 2. Классификация задач анализа данных [72]Анализ данных, представленных таблицей «объект-свойство-время» (ТОСВ) (трехвходовая таблица или куб данных на рис. 1), всегда включает в себя решение задач двух связанных между собой направлений: а) обнаружение закономерных связей между элементами таблицы и б) использование обнаруженных закономерностей для предсказания (прогнозирования) значений одних элементов таблицы по известным значениям других ее элементов. Бывают случаи, когда требуется решать задачу только одного из этих направлений. Например, нужно выявить имеющиеся в таблице закономерности и зафиксировать их для использования в будущем (случай а) или сделать прогноз на базе ранее обнаруженных закономерностей (случай б). Часто встречается ситуация и комбинированного характера, когда для прогнозирования конкретной характеристики данного объекта требуется сначала обнаружить специфичные закономерности, нужные именно для этого конкретного случая. Такой комбинированный случай (а, б) является более общим и классификацию задач анализа данных мы будем строить, имея в виду именно его. Рис. 1. I. Рассмотрим задачи предсказания элементов в двумерной таблице типа «объект-свойство» (двумерная таблица ТОС/В на рис. 1), строки в которой () описывают объектов, а столбцы () соответствуют свойствам (характеристикам) этих объектов. Отсутствие информации о времени (что отмечено знаком /В) означает, что все измерения проведены в один и тот же момент времени или что свойства изучаемых объектов от времени не зависят. Предсказываемые элементы в ТОС/В могут располагаться по-разному. В зависимости от этого выделим три семейства задач: 1) все элементы расположены в одном столбце; 2) все элементы расположены в одной строке; 3) элементы принадлежат разным столбцам и строкам. В каждом семействе выделяем классы задач в зависимости от того, какое количество элементов нужно предсказывать. Первое семейство по этой характеристике имеет три класса задач: 1.1) предсказывается один элемент ; 1.2) предсказывается сразу несколько элементов ; 1.3) предсказываются сразу все элементы столбца . Аналогичным способом выделим классы задач во втором семействе: 2.1) ; 2.2) ; 2.3). В третьем семействе выделяется два класса задач: 3.1) ; 3.2) . В каждом из этих восьми классов различаем типы задач в соответствии со шкалами, в которых измеряются значения предсказываемых элементов. Выделим три группы шкал: наименований (Н), порядка (П) и количественные (К). Ситуацию, при которой предсказываются разнотипные элементы, обозначим символом (Р). Описанная классификация задач анализа данных приведена в табл. 1. Приведем примеры некоторых распространенных типов задач предсказания. Таблица 1. Классификация задач анализа данных
Задача 1.1. Н состоит в предсказании одного элемента в столбце, измеренном в шкале наименований. В этом обычно состоит задача распознавания образов: указать имя образа (класса), которому принадлежит некоторый новый объект (определить тип заболевания, предсказать наличие или отсутствие нефти и пр.). В задаче 1.1. П все объекты упорядочены по целевому свойству и требуется определить место нового объекта в этом порядке (например, предсказать, что нефти в месторождении больше, чем в , но меньше, чем в 1). В случае 1.1. К нужно указать количественную характеристику объекта (например, предсказать запасы нефти в миллионах тонн). Похожие по смыслу задачи составляют класс 1.2. Только здесь нужно принимать решение сразу о нескольких элементах: распознать объектов (тип 1.2.Н), определить порядковые позиции группы объектов (тип 1.2.П) или оценить количественную характеристику сразу для объектов (1.2.К). Важную роль играют задачи класса 1.3. Разделить объекты по похожести их свойств, т. е. установить некоторую их классификацию, — значит сформировать в ТОС некоторый новый столбец , измеряемый в шкале наименований (задача типа 1.3.Н). Часто ее называют задачей автоматической классификации или таксономии. При экспертном оценивании m объектов с участием n экспертов требуется определить итоговую оценку либо в шкале порядка (тогда это задача 1.3.П), либо в более сильной шкале, например в процентах (задача типа 1.3.К). С задачами второго семейства сталкиваются, когда нужно, например, оценивать информативность свойств, представленных в таблице. Если имеющиеся свойства предварительно разделены на информативные и неинформативные классы, то при необходимости определения, к какому из этих классов следует отнести некоторое новое свойство, мы имеем дело с задачей типа 2.1.Н. Если требуется указать порядковое место нового свойства в предварительно упорядоченном наборе свойств, то решается задача 2.1.П. А если требуется оценить информативность свойства в битах, то имеет место задача 2.1.К. Для группы свойств в этом классе формулируются задачи 2.2.Н, 2.2.П и 2.2.К. Очевидна интерпретация и задач оценки всей совокупности свойств сразу (задач типа 2.3.Н, 2.3.П и 2.3.К). Представим себе таблицу с пробелами в разных столбцах и строках. Для предсказания значений пропущенных элементов приходится решать задачи разных типов из класса 3.2, в том числе и задачу предсказания разнотипных элементов 3.2.Р. Наконец, класс 3.3 охватывает задачи генерации таблиц с заданными свойствами: тестовых таблиц для проверки программ распознавания образов, таблиц случайных чисел и т. п. В зависимости от требуемого типа шкал имеют место задачи типа 3.3.Н, 3.3.П, 3.3.К или 3.3.Р. II. Рассмотрим теперь таблицу, которая отображает значения некоторого свойства для всех объектов в каждый из , , моментов времени (двумерная таблица ТОВ/С на рис. 1). Такого рода таблица описывает, например, урожай зерновых во всех хозяйствах в разные годы за последние лет. Все исходные данные в этой таблице измерены в шкале одного и того же типа. Что касается выделенного (целевого) столбца , то тип его шкалы может быть любым — Н, П или К. В зависимости от этого для предсказания элементов целевого столбца могут потребоваться методы решения задач семейства 1. Так, при необходимости сделать автоматическую классификацию объектов по похожести их характеристики во времени решается задача типа 1.3.Н. Для указания порядковых позиций для некоторого набора новых объектов среди ранее упорядоченных объектов по динамике их характеристики решается задача 1.2.П и т. д. Если задана целевая строка , то формулируемые на ней задачи принадлежат семейству 2. Например, группировка (таксономия) моментов времени по похожести значений характеристики для всех объектов приводит к формулировке задачи типа 2.3.Н. Если нужно нескольким выделенным моментам времени приписать некоторую количественную характеристику, то нужно будет решать задачу 2.2.К и т. д. В случае, когда предсказываемые элементы разбросаны по разным столбцам и строкам, решаются задачи семейства 3. Существенное отличие таблицы ТОВ/С от таблицы ТОС/В состоит в том, что столбцы в ТОВ/С связаны друг с другом отношением порядка следования. Эта дополнительная информация может оказаться полезной при решении некоторых задач, например задачи прогнозирования многомерных динамических рядов. III. Теперь обратимся еще к одному сечению куба данных — к таблице ТСВ/О (см. рис. 1), строками которой считаем свойства некоторого выделенного объекта, а столбцами — моменты времени измерения этих свойств. Примером такой таблицы может служить протокол наблюдения за симптомами одного пациента в течение дней. Здесь снова можно группировать строки (т. е. симптомы по похожести их динамики во времени) и столбцы (моменты времени с похожими «профилями» симптомов), для чего потребуются методы таксономии типа 1.3.Н или 2.З.Н. Для предсказания порядковых позиций группы новых свойств среди предварительно упорядоченных свойств решается задача типа 1.2.П. Если нужно определить, к какому из ранее выделенных типов (классов) моментов времени следует отнести некоторый новый момент времени, то нужно решать задачу распознавания образов, т. е. задачу типа 1.1.Н. Понятна на этой таблице интерпретация и других типов задач. Снова отметим, что порядок столбцов в таблице менять нельзя. На это ограничение можно опереться при решении некоторых задач. IV. Наконец от рассмотрения задач на плоских сечениях куба данных перейдем к рассмотрению задач на кубе в целом. При решении описанных задач использовались закономерности, обнаруживаемые только на той или иной двумерной таблице. Хотелось бы иметь возможность работать с закономерностями, рассеянными в кубе и не представленными целиком ни в одном из его сечений. В дальнейшем мы опишем методы решения ряда задач анализа данных для случая, когда исходная информация представлена именно такими трехвходовыми таблицами или кубами данных типа ТОСВ. Некоторые из этих методов предварительно делают из куба данных большую двумерную таблицу. Это можно сделать, «склеивая» плоские сечения (например, представляющие собой таблицы ТОС/В) в единое «полотно», в котором содержится m строк (объектов) и столбцов: признаков, измеренных в разные моментов времени. К такой таблице дальше применяются методы, разработанные для данных типа ТОС/В. Имеются и методы, не использующие предварительного преобразования кубов в таблицы. V. Не все описанные типы задач одинаково хорошо изучены: некоторые имеют давнюю историю, широко известны, имеют хорошо отработанные алгоритмы и программы для их решения, которые применяются в разных прикладных областях. Другие известны меньше, но понятны и иногда используются. Есть и такие, которые пока ясно не формулировались и интерпретация которых вызывает затруднения. В дальнейших разделах книги описываются в основном хорошо изученные типы задач, методы решения и примеры их приложений в различных содержательных областях. Основная часть описываемых методов реализована в программах пакета ОТЭКС [82].
|