Оценка вероятности события по частоте его появления

Обсуждается связь между вероятностью появления события и эмпирической частотой события, метод максимального правдоподобия, понятия интервал рассеяния и доверительный интервал, простейшая задача планирования эксперимента

 

Оценка вероятности события по частоте его появления.

Оценка доли объектов в генеральной совокупности по их доле в выборке.

Оценка параметра биномиального распределения.

 

Пятницкий А.М.

Российский Государственный Медицинский Университет 

 

Вопросы, обсуждаемые ниже, являются фундаментальными. Речь пойдет о том, как связаны вероятность появления события и эмпирическая частота события, что такое вероятность и правдоподобие, интервал рассеяния и доверительный интервал. Наконец мы столкнемся с практически важным понятием регрессии. Сложность будет заключена не в формулах, а в их интерпретации. Необходимые математические результаты просты и были известны с конца 18 столетия. Это интегральная формула Муавра-Лапласа, которая аппроксимирует (приближает) дискретное биномиальное распределения с помощью непрерывного (нормального). Тем не менее, на формирование понятия доверительного интервала потребовалось больше 100 лет.

Рассмотрим следующие три, на первый взгляд разные задачи, которые окажутся эквивалентными.

1.Сделано n независимых опытов, в которых K раз произошло событие A. Таким образом, известна частота события . В следующей серии из n опытов значение частоты будет, вообще говоря, другим. Частота события случайная величина, так как случаен числитель дроби – величина K – количество успехов. Что можно сказать о величине p – вероятности события A? Нельзя ограничиться тем, что просто приравнять вероятность одному конкретному значению частоты. Вероятность события не случайна и неизвестна. Частота – случайна, и нам известна одна ее реализация. Поэтому следует как-то оценить погрешность равенства.

2.Имеется “генеральная совокупность” – некое множество объектов, из которого можно делать выборки – брать n объектов для исследования. Для наглядности представим себе ящик, в котором имеются шары разных цветов. Внутрь ящика заглянуть нельзя – его состав нам неизвестен. Мы можем лишь делать “выборки”. Методика построения суждений о генеральной совокупности на основе изучения выборки называется “статистическим выводом” (statistical inference). Пусть извлечены 100 (=n) шаров и 24 (=k) из них оказались белого цвета. Доля белых шаров в выборке . Требуется оценить неизвестную долю p белых шаров в генеральной совокупности. Заметим, что выбор шаров при составлении выборки производится “случайным образом”. Если число шаров в генеральной совокупности конечно, то будем считать, что их выбор производится “с возвращением”. Тогда при каждом извлечении мы имеем дело с одной и той же генеральной совокупностью – результаты предыдущих извлечений никак не влияют на результат данного. Если в качестве события A рассмотреть событие “извлекаемый шар – белого цвета”, то мы приходим к задаче №1. Доля объектов в генеральной совокупности (неизвестна и неслучайна) совпадает с вероятностью события, а доля объектов в выборке – с частотой события (известна и случайна, точнее известна одна из реализаций этой случайной величины).

 

Пример. При исследовании 100 лейкоцитов в мазке крови (выборка) найдено 3 эозинофила (выборочная доля ν=3/100). Что можно сказать о доле эозинофилов p в периферической крови пациента (генеральная совокупность)?

 

3.На математическом языке задачи 1 и 2 сводятся к задаче оценки неизвестного параметра в распределении вероятности. Действительно, все n опытов независимы и производятся в постоянных условиях. Поэтому величина K имеет биномиальное распределение: Kобщее число успехов в серии из n испытаний Бернулли. Итак,

1)задан закон распределения

2)известно одно значение (реализация) случайной величины k. Требуется оценить неизвестный параметр распределения p.

Принято говорить, что это задача математической статистики. В теории вероятности величина параметра p известна, а значение k – не фиксировано, его можно считать любым от 0 до n. Теперь, наоборот, известно значение k и требуется оценить p. Рассмотрим качественно, какой ответ оказался бы приемлемым. Пусть в серии из 10 опытов событие не произошло ни разу: K=0, . Было бы неразумно считать, что вероятность события p=0. Отсутствие успехов в первых десяти опытах не означает, что их не будет вообще. Но значение случайной величины K=0, по-видимому, также несовместимо и с большими значениями вероятности успеха. Например, если p=1/2, то появление подряд 10 неудач встречалось бы в среднем лишь в одном случае из 1024. Итак, в качестве ответа мы хотели бы получить некий интервал [0; ], в который неизвестный нам параметр p попадал бы “почти всегда”. Если число опытов будет увеличиваться, то данный интервал должен уменьшаться. Подобный интервал будет назван “доверительным интервалом” (confidence interval, CI). Найдем так, чтобы построенный интервал накрывал число p с вероятностью (близкой к единице). С увеличением p гистограмма вероятностей для биномиального распределения сдвигается вправо, и вероятность получить 0 успехов уменьшается. Мы выберем настолько большую величину p, чтобы этой вероятностью можно было пренебречь (она станет меньше малой величины). Тогда можно считать, что параметр p заключен в интервале: . Уравнение для определения :

Для =0.05 получаем =0.26. Что означает полученный ответ: доверительный интервал для p равен [0; 0.26]? При таком способе рассуждения только в одном случае из 20 (=0.05=1/20) неизвестный нам параметр p мог бы оказаться вне этого интервала. Поэтому после наблюдения события K=0 при n=10 мы можем считать, что p заключено от p1 =0 до p2 =0.26. Строя интервалы, накрывающие p таким образом, мы будем ошибаться в 100%=5% случаев. Если бы мы захотели большей надежности вывода и выбрали =0.01, то доверительный интервал расширился бы [0; 0.37].

Итак, предлагается способ построения интервала, который в большинстве случаев накрывает неизвестный параметр p. Надежность вывода равна . С ростом числа опытов ширина доверительного интервала уменьшается. В следующем разделе обсудим точный метод, а далее приближенный, который обычно вполне достаточен и что самое важное – дает качественное понимание сути дела.

 

Построение доверительного интервала – точные формулы.

Рассмотрим общий случай: пусть в серии из n испытаний произошло k успехов.

Как построить левую и правую границы интервала , так, чтобы вероятность того, что этот интервал накроет параметр p, была равна :

Рассмотрим обратное событие, которое состоит из двух несовместных: p оказывается меньшим или p оказывается большим . Припишем каждому из них малую вероятность . При поиске левой границы интервала p1 мы ищем распределение с настолько малой вероятностью успеха p1, чтобы вероятность получить при этом число успехов большее или равное k была мала :

Аналогично при поиске правой границы интервала находим распределение с такой большой величиной p2, чтобы малой оказывалась вероятность получить значения меньшие либо равные k:

Полученные уравнения, решениями которых являются границы доверительного интервала можно решать численно или пользоваться таблицами.

 

Метод максимального правдоподобия.

Частота является естественной оценкой для вероятности. Однако в других случаях может быть неясно:

1)как выбрать оценку для неизвестного параметра распределения,

2)как оценить точность этой оценки (найти доверительный интервал), и

3)как, если не вся информация, содержащаяся в данных, использована, проверить гипотезу о типе распределения. Универсальный метод решения этой задачи – метод максимального правдоподобия разработан Фишером. Фишер предложил называть выражение для вероятности P (Probability) правдоподобием L (Likelihood), если фиксированы значения, принятые случайной величиной, а параметры распределения произвольны. То есть параметры и аргументы поменялись местами. В нашем случае известно k, а вероятность p – изменяется.

Заметим, что биномиальный коэффициент не зависит от p и обозначен константой.

Принцип максимального правдоподобия состоит в том, что в качестве оценки параметра выбирается такое значение, при котором правдоподобие максимально.

Сложное событие - появление k успехов в испытаниях с определенными номерами есть произведение n событий, из которых k соответствуют успехам, а (n-k) –неудачам. Поэтому вероятность это произведение k множителей p и (n-k) множителей (1-p). Произведение удобно перевести в сумму, рассматривая задачу о наибольшем значении не самого правдоподобия, а его логарифма:

Для p->0+0 ln p стремится к минус бесконечности, а для p->1–0 к минус бесконечности стремится ln(1-p). Поэтому с увеличением p от 0 до 1 логарифм правдоподобия вначале возрастает, а потом убывает. Максимум достигается при таком значении p, которое и будет принято в качестве его оценки. Ясно, что чем острее максимум, тем с большей точностью можно будет локализовать неизвестный параметр. Поэтому величина второй производной в точке максимума существенна. Итак, приравнивая первую производную нулю, найдем оценку вероятности, а, вычисляя в точке максимума вторую производную, – найдем точность полученной оценки.

В качестве оценки для параметра p мы получили очевидный ответ – частоту. С ростом числа опытов кривизна в точке максимума увеличивается пропорционально n, и отклонения p oт значения в точке максимума (k/n) становятся все менее правдоподобными.

 

Построение интервала рассеяния и доверительного интервала на основе нормальной аппроксимации биномиального распределения.

Согласно формуле Муавра-Лапласа случайная величина K как правило (то есть в (1-)100% случаев) заключена в интервале: .

Иными словами с вероятностью близкой к единице выполнено неравенство. Запишем это утверждение, используя частоту.

Это чрезвычайно важный результат и все дальнейшее обсуждение будет посвящено уяснению его смысла и наглядной интерпретации (см. рис). Величина называется надежностью (или коэффициентом доверия), а - точностью. Уравнение y=(p(1-p))1/2 соответствует верхней полуокружности с центром в точке (0;1/2) и радиусом ½. Если умножить это выражение на коэффициент , то полуокружность сожмется по оси ординат и превратится в верхнюю половину эллипса. Касательная к этому эллипсу в верхней точке горизонтальна и проходит на расстоянии. Рассмотрим на плоскости квадрат . На его диагонали частота равна вероятности. Согласно формуле (***) область, в которую точка попадает, как правило (точнее с вероятностью 1-α), представляет собой внутренность наклонного эллипса, который получится, если к линейной функцииприбавить и вычесть функцию, описывающую половину сжатого эллипса:

C увеличением n эллипс приближается к отрезку диагонали. Эллипс не целиком вписан в квадрат: на верхней и нижней его сторонах для он частично выходит из него, касаясь оси ординат (p=0) и прямой p=1. Часть эллипса заключенная в квадрате содержится в вытянутом шестиугольнике OABCDE, образованном пересечением двух касательных к эллипсуи квадратом.

Подпись: )Подпись: )

 

Построение интервала рассеяния и доверительного интервала происходит при решении двух задач (“прямой” и “обратной”), из которых первая относится к теории вероятности, а вторая - к статистике.

1.Задача теории вероятности. Если известна вероятность события p, то неравенство () дает интервал на оси ν, в который случайная величина K/n попадает с вероятностью 1- α. Это “интервал рассеяния”. Границы его неслучайны, так как зависят от трех неслучайных величин p,n,α и симметричны относительно центра p, если исключить случаи, когда границы выходят за пределы интервала [0;1]. Длина интервала рассеяния обратно пропорциональна квадратному корню из числа опытов. Итак, решая задачу теории вероятности для всех возможных значений p, мы двигаемся по “вертикальным” отрезкам формируя эллипс из этих “интервалов рассеивания”. Эллипс заключен между двумя касательными, проведенными в точке p=1/2, где длина интервала рассеяния максимальна: . При фиксированной вероятности частота имеет нормальное распределение с математическим ожиданием M[ν]=p, и среднеквадратическим отклонением σ[ν]=(p(1-p)/n)1/2. Разброс оказывается зависимым от среднего значения. Максимальный абсолютный разброс частоты относительно вероятности имеет место при p=1/2: σmax=1/(2n1/2). Зависимость математического ожидания случайной величины от неслучайного параметра называют регрессией. В данном случае это линейная, нормальная, гетероскедастическая регрессия. Имеется преобразование, которое делает разброс почти постоянным, но регрессию нелинейной – это так называемое арксинус преобразование Фишера.

2.Задача статистики. Теперь p - неизвестно, однако известна реализация случайной величины ν. Поэтому в старину говорили о задаче “обращения вероятности”. Рассмотрим отрезок горизонтальной прямой y=ν, заключенный внутри эллипса. Неизвестный нам параметр p с вероятностью 1-α находится между абсциссами точек пересечения прямой y=ν и эллипса. Для того чтобы их найти нужно решить квадратное уравнение. Полученный интервал называется “доверительным интервалом”. В отличие от интервала рассеяния его границы случайны, так как зависят от случайной величины ν, а также от n и α. Эти границы несимметричны, особенно если частота близка к нулю или единице. Ширина интервала для 0<ν<1 обратно пропорциональна корню из числа наблюдений n. Однако для ν=0 и ν=1 его длина обратно пропорциональна уже первой(!) степени n. На рис.1 отрезок ON соответствует этому случаю при ν=0:

В американских учебниках принято сравнивать построение доверительного интервала с набрасыванием подковы на вбитый гвоздь. Гвоздь символизирует неизвестное и неслучайное (неподвижное) значение параметра p, а подкова – случайные (подвижные) концы доверительного интервала. Принятый способ игры (метод построения доверительного интервала) гарантирует, что в 100(1-α)% случаев подкова будет наброшена на гвоздь, но каждый раз по-разному. В 100α% случаев мы промахиваемся – интервал не накрывает параметр. Это неизбежно, так как уменьшение α приводит к расширению доверительного интервала - подкова становится слишком большой. Принято формулировать это так: выигрывая в надежности вывода, проигрываешь в его точности.

Часто подчеркивается, что нельзя говорить “параметр p попадает внутрь доверительного интервала”, но следует ”доверительный интервал накрывает параметр p”. Первое высказывание в форме “параметр p попадает внутрь интервала доверия (НЕ путать с доверительным интервалом!)” характерно для “байесовского подхода”, в котором параметр считается случайной величиной с некоторым априорным законом распределения. В общепринятом “частотном подходе” параметр неподвижен. Однако методика построения доверительного интервала одинакова(!) и не зависит от того, постоянен ли параметр p или он меняется от одной выборки к другой. Так или иначе, но гарантируется, что в среднем вывод будет справедлив в 100(1-α)% случаев. Даже если неподвижный ранее гвоздь начнет случайно двигаться (байесовский подход), доля успешных набрасываний на него подковы останется прежней.

Итак, следует запомнить рисунок, изображающий эллипс “проклевывающийся” через скорлупу единичного квадрата. Ось вероятностей – горизонтальна, ось частот – вертикальна. Составляя эллипс из вертикальных отрезков прямых x=p, мы получаем неслучайные и симметричные интервалы рассеивания. Двигаясь горизонтально, пересекая эллипс прямой y= ν, получаем доверительный интервал со случайными и несимметричными границами.

 

Вычислительные формулы для построения доверительного интервала.

Следует рассмотреть 4 варианта.

1)Упрощенный метод. Если эллипс сильно вытянут, а частота ν не слишком близка к 0 или 1, то участки границы эллипса вблизи точки пересечения с прямой y=ν похожи на участки двух прямых параллельных диагонали квадрата. При этом расстояния от точки M (см. рис.) на диагонали ν=p до эллипса по вертикали и по горизонтали почти одинаковы. Но для расстояний по вертикали (соответствующих интервалу рассеяния) у нас есть точная формула . Поэтому мы ошибемся незначительно, приравняв расстояние по горизонтали расстоянию по вертикали, то есть, поменяв местами p и v. Итак, вот простейшая приближенная формула:

 

Если v близко к 0 или 1 ей нельзя пользоваться. Это проявляется в том, что границы для p могут оказаться бессмысленными (стать <0 или >1).

2)Решение квадратного уравнения.

Этот метод был бы точным, если бы точной была нормальная аппроксимация биномиального распределения. Условие ее применимости – достаточно большое среднеквадратическое отклонение K по сравнению с единицей: .

Если это не так см.пп.3,4.

На рис.1 изображены два доверительных интервала – приближенный (см. п.1) симметричный (его границы отмечены круглыми скобками) и более точный несимметричный (границы отмечены квадратными скобками).

3)Арксинус преобразование Фишера позволяет строить доверительный интервал для значений p близких к 0 или 1.

4)Точные границы можно найти, воспользовавшись таблицами или компьютерной программой, в которой имеется алгоритм вычисления неполной бета функции.

 

Простейшая задача планирования эксперимента.

Каков необходимый объем выборки n, чтобы с заданной точностью и надежностью произвести оценку p? Напомним, что надежность (=1-α) – это доля случаев, в которой вывод является правильным - доверительный интервал накрывает параметр распределения, а точность (=δ) – максимально возможное отклонение оценки вероятности (частоты) от ее истинного значения: . Тут можно различить два случая:

а) Информация о величине p отсутствует. Тогда можно воспользоваться верхней оценкой: .

Геометрически эллипс при этом заменяется на содержащий его вытянутый шестиугольник, вероятность попасть в который заведомо больше, чем 1-α. Надежность при этом только увеличивается. Если α=0.05 (надежность = 0.95), то:

Это простое выражение полезно запомнить. Так, для обеспечения точности в 1% во всем возможном диапазоне значений p необходимо 10000 наблюдений.

б) Есть предварительная информация о величине p. При этом необходимый объем выборки n уменьшается:

Если p существенно меньше или больше ½, то сокращение объема выборки n будет значительным. Так если считать, что p<0.05 и требовать прежней точности в 1%, то вместо 10000 достаточно провести всего(!?) 1000 наблюдений. Напомним, что точность определена как абсолютное, а не относительное отклонение оценки от истинного значения.

Комментарии   

 
0 #3 Chau 05.07.2017 11:59
Hello guys! Who wants to meet me? I have profile at HotBabesCams.co m, we can chat,
you can watch me live for free, my nickname is Anemonalove: https://3.bp.blogspot.com/-u5pGYuGNsSo/WVixiO8RBUI/AAAAAAAAAFA/JWa2LHHFI2AkHParQa3fwwHhVijolmq8QCLcBGAs/s1600/hottest%2Bwebcam%2Bgirl%2B-%2BAnemonalove.jpg ,
here is my pic:

https://3.bp.blogspot.com/-u5pGYuGNsSo/WVixiO8RBUI/AAAAAAAAAFA/JWa2LHHFI2AkHParQa3fwwHhVijolmq8QCLcBGAs/s1600/hottest%2Bwebcam%2Bgirl%2B-%2BAnemonalove.jpg
Цитировать
 
 
0 #2 Артем 05.02.2016 15:03
Можно пояснить фразу
"3)Арксинус преобразование Фишера позволяет строить доверительный интервал для значений p близких к 0 или 1."
Цитировать
 
 
-1 #1 Kotokrab 10.04.2011 01:05
Не совсем понятно что такое tальфа/2.

В простейшей задаче планирования эксперимента вы расчитываете квадрат этой величины. Но как именно рассчитываете мне непонятно.
Пожалуйста, объясните по возможности
мой e-mail:
Заранее спасибо.
Цитировать
 

Добавить комментарий


Защитный код
Обновить