§ 4. Примеры применения алгоритмов семейства ZET

4.1. Применение в экономике. Много различных задач было решено в свое время по заданию существовавшего тогда Госплана Российской Федерации [56]. В одной из задач требовалось отредактировать таблицу (найти ошибки), в которой были отражены характеристики зернового производства в областях и краях Российской Федерации. Описывающие свойства отражали данные о посевных площадях, количестве удобрений, тракторов, комбайнов и т. д. Целевые характеристики касались урожайности зерновых, валового сбора зерна и пр. Было выяснено, что некоторые характеристики не связаны с остальными, и это отражалось в больших погрешностях при их восстановлении. Так, например, обнаружился на первый взгляд странный факт, что количество удобрений не влияет на урожайность зерновых культур. Объяснение этому факту состояло в том, что удобрения использовались лишь при производстве овощей, а на зерновые их не хватало.

Были обнаружены и большие отклонения от общей закономерности для отдельных элементов таблицы. Некоторые из этих отклонений оказались работникам Госплана вполне понятными: «Мы давно подозревали, что ... область нас обманывает по этому показателю». Так это или нет — мы не знали и на этом эпизоде лишний раз убедились, что часто пользователь склонен переоценивать достоверность машинных решений. Нужно постоянно подчеркивать необходимость тщательной содержательной проверки получаемых программой решений, не воспринимать их в качестве бесспорной истины, а пытаться дополнить машинные ответы на вопрос «Что?» человеческими ответами на вопросы «Как?» и «Почему?».

Одна из таблиц содержала ежемесячные сведения о средних надоях молока в республике за период с 1946 по 1982 годы. Требовалось обучить программу делать прогнозы надоев на один год вперед. Использовалась описанная выше программа ZETMC. Выяснилось, что обнаруживаемые закономерности (похожести строк и похожести столбцов) позволяли получать такие прогнозы с достаточно высокой надежностью: ошибка годового прогноза не превышала 1,5%. Практически прогноз вырабатывался на 14 месяцев вперед. Нам присылали данные о надоях с января по октябрь текущего года, и мы высылали в Госплан прогнозы на конец данного года и на все месяцы будущего года. В течение всего этого периода работники Госплана сообщали нам фактические данные за каждый месяц. Мы делали прогноз на оставшиеся месяцы прогнозируемого периода. Опыт показал, что такой метод скользящего уточняющего прогнозирования является наиболее адекватным для информационной поддержки процессов выработки управляющих решений.

4.2. Применение в геологии и медицине. Таблицы данных, которые содержат информацию, собранную несколькими разными геологическими экспедициями, обычно содержат большое количество пробелов. Экспедиции имели неодинаковый набор измерительной аппаратуры, какой-то прибор вышел из строя во время работы, какие-то данные оказались утерянными и т. д. И для того чтобы применить привычные методы анализа, нужно сначала попытаться заполнить пропущенные элементы такой сводной таблицы.

Аналогичная ситуация типична и для медицинских данных, полученных путем сведения в одну таблицу сведений из историй болезни различных пациентов. При разных посещениях даже одного и того же врача фиксировались разные симптомы. Еще большее различие возникает при использовании документов от другого врача или другой поликлиники. Как правило, эти таблицы содержат не менее 30 % пробелов.

На таблицах такого рода отрабатывалась стратегия заполнения большого числа пробелов. Начальные условия для заполнения различных пробелов не одинаковы. Для некоторых пробелов удается выбрать компетентную подматрицу с высокой компетентностью строк и столбцов. Для других же этого сделать не удается, они оказываются менее обусловленными. Рекомендуемая стратегия состоит в том, что сначала нужно заполнить пробел с наилучшей обусловленностью. Затем, опираясь на все элементы, в том числе и на только что заполненный, найти самый обусловленный пробел из оставшихся. И такой процесс заполнения самого обусловленного элемента на каждом шаге продолжается до заполнения всей таблицы. На каждом шаге программа выдает информацию об ожидаемой ошибке прогнозирования значения заполняемого элемента. Процесс может быть остановлен при выходе в область, для которой ожидаемая ошибка превышает заданный порог.

Встретился нам и такой экзотический случай, когда в таблице было пропущено 82 % клеток. Вместе с тем материал для геологов был очень ценным, и нами была предпринята попытка заполнить пробелы в этой таблице. Имевшихся 18 % клеток хватило для заполнения всего нескольких пробелов. Для остальных пробелов нельзя было найти ни одной компетентной строки и ни одного компетентного столбца.

4.3. Применения в технике. В одной из задач данные отражали известные характеристики телевизионных приемников различного типа. Фирмы, производящие телевизоры, указывают их технические характеристики, но наборы этих характеристик оказываются не полностью совпадающими. Сведение таких данных в одну таблицу выявляет в ней пустые клеточки, которые было бы интересно заполнить, чтобы узнать некоторые характеристики, о которых изготовитель умалчивает. Выяснилось, что ряд свойств приемников связан с другими свойствами сильной зависимостью и предсказания таких хорошо обусловленных пробелов обычно подтверждаются. Вместе с тем обнаружились некоторые свойства, которые не зависят от значения других свойств и потому не могут быть хорошо предсказанными. Примером такого свойства может служить материал корпуса (металл, дерево или пластик), который не зависит от размера экрана, частоты развертки и т. д.

Многолетний опыт использования алгоритмов семейства ZET показал их высокую эффективность по сравнению с другими известными алгоритмами заполнения пробелов, редактирования таблиц и прогнозирования характеристик динамических (меняющихся во времени или пространстве) объектов.

Вместе с тем, по мере накопления опыта решения реальных задач возникли идеи дальнейшего совершенствования алгоритмов такого назначения. В процессе исследований изучается влияние различных способов нормировки столбцов, сравниваются разные стратегии выбора компетентных подматриц и различные способы прогнозирования пробелов по компетентным подматрицам. Делается также попытка создать алгоритм и приемлемую по машинному времени и памяти программу заполнения пробелов в так называемых трехвходовых таблицах или кубах данных типа «объект-свойство-время».