Читать в оригинале

<< ПредыдущаяОглавлениеСледующая >>


Часть I Введение в анализ данных

Глава 1 Основные понятия

В этой книге описываются методы обработки информации, представленной в различной форме — в виде «данных», «знаний», «структур» и т. д. В основе анализа всех этих видов информации лежат две процедуры: процедура обнаружения закономерностей, содержащихся в представленной информации, и процедура использования обнаруженных закономерностей для предсказания значения одной части информации по известным значениям другой ее части. Но прежде чем переходить к описанию этих процедур, нужно пояснить смысл употребляемых в книге терминов, в частности таких распространенных, как данные, знания, гипотеза, закономерность и т. п.

§ 1. Чем отличаются «данные» от «знаний»?

Исходная информация, которую нужно обрабатывать, чаще всего имеет вид числовых таблиц (матриц), состоящих из  строк и  столбцов. Строки  отражают информацию об изучаемых объектах или явлениях, а столбцы  отражают свойства (признаки, характеристики) этих объектов или явлений. Природа объектов может быть любой — это могут быть физические тела, живые организмы, сигналы, отдельные социальные процессы, заводы, виды спорта, месторождения и т. д. Понятно, что набор признаков, описывающих эти объекты, будет в каждом случае своим и должен отражать их наиболее важные свойства.

На пересечении -й строки и -го столбца указывается значение  -го признака у -го объекта. Такой факт (например, что -й дом имеет высоту 12 м) считаем атомарной частью данных о конкретном -м объекте. Полные данные об -м объекте содержатся в совокупности всех элементов -й строки. Информация же о всех заданных свойствах всех изучаемых объектов, записанная в таблице «объект-свойство», и называется таблицей данных. Таким образом, данные представляют собой совокупность отдельных конкретных фактов.

Пусть в таблице данных представлены описания большого количества жилых домов, а нас интересуют только три свойства этих домов: из какого материала они построены, в какой цвет покрашены их стены и какой они высоты. После изучения таблицы данных мы можем обнаружить некоторые закономерности. Например, выясняется, что все панельные дома, окрашенные в серый цвет, имеют высоту от 15 до 25 м, панельные зеленые дома — от 8 до 16 м, а кирпичные, вне зависимости от цвета стен, имеют высоту меньше 10 м. Обозначим признак «вид строительного материала» через . Этот признак принимает два понятных значения:  (панель) или  (кирпич). Признак «цвет стен», обозначаемый через принимает значения:  = серый,  = зеленый или  = любой. Признак «высота»  может принимать любое числовое значение от нуля до 30 м. Тогда обнаруженные закономерности можно сжато записать в виде таких логических высказываний:

Эти высказывания не содержат информации в виде конкретных характеристик каждого отдельного дома, но зато отражают наши знания о некоторых обобщенных характеристиках всех домов, описанных в таблице данных.

Так выглядит переход от данных к знаниям. Знания представляют собой краткое обобщенное описание основного содержания информации, представленной в данных. Знания могут быть представлены в различной форме. В дальнейшем мы будем пользоваться приведенной выше формой в виде логических правил типа «если ... то ...».

 



<< ПредыдущаяОглавлениеСледующая >>