Читать в оригинале

<< ПредыдущаяОглавлениеСледующая >>


14.5. Оценка вероятности по частоте

На практике часто приходится оценивать неизвестную вероятность  события  по его частоте  в  независимых опытах.

Эта задача близко примыкает к рассмотренным в предыдущих . Действительно, частота события  в  независимых опытах есть не что иное, как среднее арифметическое наблюденных значений величины , которая в каждом отдельном опыте принимает значение 1, если событие  появилось, и 0, если не появилось:

.               (14.5.1)

Напомним, что математическое ожидание величины  равно ; ее дисперсия , где . Математическое ожидание среднего арифметического также равно

,                (14.5.2)

т. е. оценка  для  является несмещенной.

Дисперсия величины  равна

.              (14.5.3)

Можно доказать, что эта дисперсия является минимально возможной, т. е. оценка  для  является эффективной.

Таким образом, в качестве точечной оценки для неизвестной вероятности  разумно во всех случаях принимать частоту . Возникает вопрос о точности и надежности такой оценки, т. е. о построении доверительного интервала для вероятности .

Хотя эта задача и представляет собой частный случай ранее рассмотренной задачи о доверительном интервале для математического ожидания, все же целесообразно решать ее отдельно. Специфика здесь в том, что величина  - прерывная случайная величина только с двумя возможными значениями: 0 и 1. Кроме того, ее математическое ожидание  и дисперсия  связаны функциональной зависимостью. Это упрощает задачу построения доверительного интервала.

Рассмотрим сначала наиболее простой случай, когда число опытов  сравнительно велико, а вероятность  не слишком велика и не слишком мала. Тогда можно считать, что частота события  есть случайная величина, распределение которой близко к нормальному. Расчеты показывают, что этим допущением можно пользоваться даже при не очень больших значениях : достаточно, чтобы обе величины  и  были больше четырех. Будем исходить из того, что эти условия выполнены и частоту  можно считать распределенной по нормальному закону. Параметрами этого закона будут:

.                     (14.5.4)

Предположим сначала, что величина  нам известна. Назначим доверительную вероятность  и найдем такой интервал ,чтобы величина  попадала в этот интервал с вероятностью :

.                       (14.5.5)

Так как величина  распределена нормально, то

,

откуда, как и в  14.3,

,

где  - функция, обратная нормальной функции распределения .

Для определения , как и в  14,3, можно обозначить

.

Тогда

,                           (14.5.6)

где  определяется из таблицы 14.3.1.

Таким образом, с вероятностью  можно утверждать, что

.                 (14.5.7)

Фактически величина  нам неизвестна; однако неравенство (14.5.7) будет иметь вероятность  независимо от того, известна нам или неизвестна вероятность . Получив из опыта конкретное значение частоты , можно, пользуясь неравенством (14.5.7), найти интервал , который с вероятностью  накрывает точку . Действительно, преобразуем это неравенство к виду

                                 (14.5.8)

и дадим ему геометрическую интерпретацию. Будем откладывать по оси абсцисс частоту , а по оси ординат - вероятность  (рис. 14.5.1).

image3

Рис. 14.5.1.

Геометрическим местом точек, координаты которых  и  удовлетворяют неравенству (14.5.8), будет внутренняя часть эллипса, проходящего через точки  и  и имеющего в этих точках касательные, параллельные оси . Так как величина  не может быть ни отрицательной, ни большей единицы, то область , соответствующую неравенству (14.5.8), нужно еще ограничить слева и справа прямыми  и . Теперь можно для любого значения , полученного из опыта, построить доверительный интервал , который с вероятностью  накроет неизвестное значение . Для этого проведем через точку  прямую, параллельную оси ординат; на этой прямой границы области  отсекут доверительный интервал . Действительно, точка  со случайной абсциссой  и неслучайной (но неизвестной) ординатой  с вероятностью  попадет внутрь эллипса, т. е. интервал  с вероятностью  накроет точку .

Размеры и конфигурация «доверительного эллипса» зависят от числа опытов . Чем больше , тем больше вытянут эллипс и тем уже доверительный интервал.

Доверительные границы  и  можно найти из соотношения (14.5.8), заменив в нем знак неравенства равенством. Решая полученное квадратное уравнение относительно , получим два корня:

                                      (14.5.9)

Доверительный интервал для вероятности  будет

.

Пример 1. Частота события  в серии из 100 опытов оказалась . Определить 90%-й доверительный интервал для вероятности  события .

Решение. Прежде всего проверяем применимость нормального закона; для этого оценим величины  и . Полагая ориентировочно , получим

.

Обе величины значительно больше четырех; нормальный закон применим. Из таблицы 14.3.1 для  находим . По формулам (14.5.9) имеем

; ; .

Заметим, что при увеличении  величины  и  в формулах (14.5.9) стремятся к нулю; в пределе формулы принимают вид

                           (14.5.10)

Эти формулы могут быть получены и непосредственно, если воспользоваться приближенным способом построения доверительного интервала для математического ожидания, данным в  14.3. Формулами (14.5.10) можно пользоваться при больших  (порядка сотен), ёсли только вероятность  не слишком велика и не слишком мала (например, когда обе величины  и  порядка 10 или более).

Пример 2. Произведено 200 опытов; частота события  оказалась . Построить 85%-й доверительный интервал для вероятности события приближенно (по формулам (14.5.10)). Сравнить результат с точным, соответствующим формулам (14.5.9).

Решение. ; по таблице 14.3.1 находим . Умножая его на

,

получим

,

откуда находим приближенно доверительный интервал

.

По формулам (14.5.9) найдем более точные значения ; , которые почти не отличаются от приближенных.

Выше мы рассмотрели вопрос о построении доверительного интервала для случая достаточно большого числа опытов, когда частоту можно считать распределенной нормально. При малом числе опытов (а также если вероятность  очень велика или очень мала) таким допущением пользоваться нельзя. В этом случае доверительный интервал строят, исходя не из приближенного, а из точного закона распределения частоты. Нетрудно убедиться, что это есть биномиальное распределение, рассмотренное в главах 3 и 4. Действительно, число появлений события  в  опытах распределено по биномиальному закону: вероятность того, что событие  появится ровно  раз, равна

,                           (14.5.11)

а частота  есть не что иное, как число появлений события, деленное на число опытов.

Исходя из этого распределения, можно построить доверительный интервал  аналогично тому, как мы строили его, исходя из нормального закона для больших  (стр. 331).

Предположим сначала, что вероятность  нам известна, и найдем интервал частот , , в который с вероятностью  попадет частота события .

Для случая большого  мы пользовались нормальным законом распределения и брали интервал симметричным относительно математического ожидания. Биномиальное распределение (14.5.11) не обладает симметрией. К тому же (в связи с тем, что частота - прерывная случайная величина) интервала, вероятность попадания в который в точности равна , может и не существовать. Поэтому выберем в качестве интервала ,  самый малый интервал, вероятность попадания левее которого и правее которого будет больше .

Аналогично тому, как мы строили область  для нормального закона (рис. 14.5.1), можно будет для каждого  и заданного  построить область, внутри которой значение вероятности  совместимо с наблюденным в опыте значением частоты р*.

На рис. 14.5.2 изображены кривые, ограничивающие такие области для различных  при доверительной вероятности . По оси абсцисс откладывается частота , по оси ординат - вероятность . Каждая пара кривых, соответствующая данному , определяет доверительный интервал вероятностей, отвечающий данному значению частоты. Строго говоря, границы областей должны быть ступенчатыми (ввиду прерывности частоты), но для удобства они изображены в виде плавных кривых.

Для того чтобы, пользуясь такими кривыми, найти доверительный интервал  нужно произвести следующее построение (см. рис. 14.5.2): по оси абсцисс отложить наблюденное в опыте значение частоты , провести через эту точку прямую, параллельную оси ординат, и отметить точки пересечения прямой с парой кривых, соответствующих данному числу опытов ; проекции этих точек на ось ординат и дадут границы ,  доверительного интервала

Рис. 14.5.2.

При заданном  кривые, ограничивающие «доверительную область», определяются уравнениями:

;               (14.5.12)

                 (14.5.13)

где  - число появлений события:

.

Разрешая уравнение (14.5.12) относительно , можно найти нижнюю границу  «доверительной области»; аналогично из (14.5.13) можно найти .

Чтобы не решать эти уравнения каждый раз заново, удобно заранее затабулировать (или представить графически) решения для нескольких типичных значений доверительной вероятности . Например, в книге И. В. Дунина-Барковского и Н. В. Смирнова «Теория вероятностей и математическая статистика в технике» имеются таблицы  и  для  и . Из той же книги заимствован график рис. 14.5.2.

Пример 3. Найти доверительные границы  и  для вероятности события, если в 50 опытах частота его оказалась . Доверительная вероятность .

Решение. Построением (см. пунктир на рис. 14.5.2) для  и  находим: ; .

Пользуясь методом доверительных интервалов, можно приближенно решить и другой важный для практики вопрос: каково должно быть число опытов  для того, чтобы с доверительной вероятностью 3 ожидать, что ошибка от замены вероятности частотой не превзойдет заданного значения?

При решении подобных задач удобнее не пользоваться непосредственно графиками типа рис. 14.5.2, а перестроить их, представив доверительные границы как функции от числа опытов .

Пример 4. Проведено 25 опытов, в которых событие  произошло 12 раз. Найти ориентировочно число опытов , которое понадобится для того, чтобы с вероятностью  ошибка от замены вероятности частотой не превзошла 20%.

Решение. Определяем предельно допустимую ошибку:

.

Пользуясь кривыми рис. 14.5.2, построим новый график: по оси абсцисс отложим число опытов , по оси ординат - доверительные границы для вероятности (рис. 14.5.3).

image5

Рис. 14.5.3.

Средняя прямая, параллельная оси абсцисс, соответствует наблюденной частоте события . Выше и ниже прямой  проведены кривые  и , изображающие нижнюю и верхнюю доверительные границы в зависимости от . Область между кривыми, определяющая доверительный интервал, заштрихована. В непосредственной близости от прямой  двойной штриховкой показана более узкая область 20%-й допустимой ошибки. Из рис. 14.5.3 видно, что ошибка падает до допустимой величины при числе опытов  порядка 100.

Заметим, что после выполнения потребного числа опытов может понадобиться новая проверка точности определения вероятности по частоте, так как будет получено в общем случае уже другое значение частоты отличное от наблюденного в ранее проведенных опытах. При этом может оказаться, что число опытов все еще недостаточно для обеспечения необходимой точности, и его придется несколько увеличить. Однако первое приближение, полученное описанным выше методом, может служить для ориентировочного предварительного планирования серии опытов с точки зрения требуемого на них времени, денежных затрат и т. д.

На практике иногда приходится встречаться со своеобразной задачей определения доверительного интервала для вероятности события, когда полученная из опыта частота равна нулю. Такая задача обычно связана с опытами, в которых вероятность интересующего нас события очень мала (или, наоборот, очень велика - тогда мала вероятность противоположного события).

Пусть, например, проводятся испытания какого-то изделия на безотказность работы. В результате испытаний изделие не отказало ни разу. Требуется найти максимальную практически возможную вероятность отказа.

Поставим эту задачу в общем виде. Произведено  независимых опытов, ни в одном из которых событие  не произошло. Задана доверительная вероятность ; требуется построить доверительный интервал для вероятности  события , точнее - найти его верхнюю границу  так как нижняя , естественно, равна нулю.

Поставленная задача является частным случаем общей задачи о доверительном интервале для вероятности, но ввиду своих особенностей заслуживает отдельного рассмотрения. Прежде всего, приближенный метод построения доверительного интервала (на основе замены закона распределения частоты нормальным), изложенный в начале данного , здесь неприменим, так как вероятность  очень мала. Точный метод построения доверительного интервала на основе биномиального распределения в данном случае применим, но может быть существенно упрощен.

Будем рассуждать следующим образом. В результате  опытов наблюдено событие , состоящее в том, что  не появилось ни разу. Требуется найти максимальное значение , которое «совместимо» с наблюденным в опыте событием , если считать «несовместимыми» с  те значения , для которых вероятность события  меньше, чем .

Очевидно, для любой вероятности  события  вероятность наблюденного события  равна

.

Полагая , получим уравнение для :

,                               (14.5.14)

откуда

.                                 (14.5.15)

Пример 5. Вероятность  самопроизвольного срабатывания взрывателя при падении снаряда с высоты  неизвестна, но предположительно весьма мала. Произведено 100 опытов, в каждом из которых снаряд роняли с высоты , но ни в одном опыте взрыватель не сработал. Определить верхнюю границу  90%-го доверительного интервала для вероятности .

Решение. По формуле (14.5.15)

,

;

; .

Рассмотрим еще одну задачу, связанную с предыдущей. Событие  с малой вероятностью  не наблюдалось в серии из  опытов ни разу. Задана доверительная вероятность . Каково должно быть число опытов  для того, чтобы верхняя доверительная граница для вероятности события была равна заданному значению ?

Решение сразу получается из формулы (14.5.14):

.                                   (14.5.16)

Пример 6. Сколько раз нужно убедиться в безотказной работе изделия для того, чтобы с гарантией 95% утверждать, что в практическом применении оно будет отказывать не более чем в 5% всех случаев?

Решение. По формуле (14.5.16) при ,  имеем:

.

Округляя в большую сторону, получим:

.

Имея в виду ориентировочный характер всех расчетов подобного рода, можно предложить вместо формул (14.5.15) и (14.5.16) более простые приближенные формулы. Их можно получить, предполагая, что число появлений события  при  опытах распределено по закону Пуассона с математическим ожиданием . Это предположение приближенно справедливо в случае, когда вероятность  очень мала (см. гл. 5.  5.9). Тогда

,

и вместо формулы (14.5.15) получим:

,                                (14.5.17)

а вместо формулы (14.5.16)

.                                  (14.5.18)

Пример 7. Найти приближенно значение  для условий примера 5.

Решение. По формуле (14.5.14) имеем:

,

т. е. тот же результат, который получен по точной формуле в примере 5.

Пример 8. Найти приближенно значение  для условий примера 6.

Решение. По формуле (14.5.18) имеем:

.

Округляя в большую сторону, находим , что мало отличается от результата , полученного в примере 6.

 



<< ПредыдущаяОглавлениеСледующая >>