7.4. Оценивание при помощи теоремы Байеса

7.4.1. Теорема Байеса

В этом разделе мы опять будем пользоваться обозначением для общего вектора параметров. Теорема Байеса гласит, что если — априорное распределение вероятности для , то апостериорное распределение вероятности для после получения данных можно следующим образом выразить через априорную вероятность и функцию правдоподобия:

. (7.4.1)

Знаменатель просто обеспечивает нормировку: интеграл от равен единице. Существенную роль в выражении играет числитель — видно, что апостериорная вероятность пропорциональна априорной вероятности, умноженной на функцию правдоподобия. Сэведж [64] показал, что априорная и апостериорная вероятности могут интерпретироваться как субъективные вероятности. В частности, во многих случаях до того, как появились данные, мы очень мало знаем о и готовы согласиться, что в интересующей нас области любые значения равновероятны. В этом случае можно считать в этой области равномерным, и, следовательно, будет пропорционально функции правдоподобия.

Следует заметить, что при этом не требуется, чтобы распределение было равномерным во всем диапазоне, который для некоторых параметров может быть бесконечным. Говоря о локальной равномерности, мы подразумеваем, что распределение приближенно постоянно в области, где функция правдоподобия существенна, и не принимает очень больших значений вне этой области.

Так, если — вес стула, то мы определенно можем сказать a priori, что он весит больше унции (≈30 г) и меньше тонны. Также вероятно, что, когда мы сделаем наблюдение , взвесив стул на весах со стандартным отклонением , мы можем честно признаться, что нас равно удовлетворили бы любые априорные значения в пределах . Исключение составил бы случай, когда вес тяжелого по внешнему виду стула оказался бы, скажем, равным 10 унциям. В этом случае априорное распределение и функция правдоподобия оказались бы несопоставимыми, и мы, конечно, не стали бы применять теорему Байеса, а проверили бы весы, и если бы они оказались правильными, исследовали стул более внимательно.

В этой идее есть, конечно, некий произвол. Пусть мы предположили, что априорное распределение локально равномерно. Отсюда следует, что распределение любой линейной функции также локально равномерно. Однако априорное распределение некого нелинейного преобразования (например, ) может и не быть локально равномерным. Этот произвол обычно не играет существенной роли, если мы можем получить довольно точные оценки . Мы будем тогда рассматривать только в весьма узком диапазоне, в котором преобразование (скажем, ) часто очень близко к линейному.

Джеффрис [65] указывал, что лучше выбрать преобразование так, чтобы мера информации Фишера была бы независимой от и, следовательно, от . Это эквивалентно выбору таким образом, чтобы предельная дисперсия ее оценки максимального правдоподобия была независима от , и достигается выбором априорного распределения , пропорциональным .

Джеффрис оправдывал этот выбор, исходя из его инвариантности по отношению к используемой параметризации. Тот же результат может быть получен [66] из следующих рассуждений. Если для больших выборок функция правдоподобия для приближается к нормальной кривой, то среднее значение и дисперсия этой кривой заключает в себе всю информацию, которую можно рассчитывать извлечь из данных. Положим теперь, что можно найти преобразование , для которого аппроксимирующая нормальная кривая имеет почти постоянную дисперсию, какими бы ни были истинные значения параметров. Тогда при этой параметризации единственная информация, на которую можно рассчитывать, выражается в параметре, определяющем положение функции правдоподобия. Не знать ничего существенного a priori об этой ожидаемой информации означает, что любые возможные положения мы a priori считаем равновероятными. Иначе говоря, следует считать локально равномерным.

Обобщение правила Джеффриса на случай нескольких параметров заключается в том, что совместное априорное распределение параметров считается пропорциональным

. (7.4.2)

В [67] подчеркивалось, что саму функцию правдоподобия лучше рассматривать и графически представлять в такой метрике , для которой независимо от . Если это сделано, то функция правдоподобия и апостериорная функция плотности распределения с равномерным априорным распределением пропорциональны.