Оценка генеральной дисперсии.
Теорема. Выборочная
дисперсия σв2
повторной и бесповторной выборок
является смещенной и состоятельной
оценкой генеральной дисперсия .
Замечание.В процессе
доказательства теоремы получено, что,
т.е. выборочная дисперсия уменьшает
генеральную дисперсию. При заменена
допускается систематическая погрешность
в сторону уменьшения. В связи с этим
вводится «исправленная дисперсия»,
которая является несмещенной оценкой.
Пример.Предельная
нагрузка на стальной болтХі,
которая измерялась в лабораторных
условиях, задана как интервальное
статистическое распределение:
Xi, кг/мм2 |
4,5-5,5 |
5,5-6,5 |
6,5-7,5 |
7,5-8,5 |
8,5-9,5 |
10,5-11,5 |
11,5-12,5 |
12,5-13,5 |
|
40 |
32 |
28 |
24 |
20 |
16 |
12 |
8 |
Определить точечные несмещенные и
состоятельные оценки для
и
.
6. Понятие интервального оценивания. Доверительная вероятность и предельная погрешность выборки
Точечная оценка
n
является приближенным значением
неизвестного параметра
и в том случае, когда она несмещенная
(в среднем совпадает с),
состоятельная (приближается кс ростомn)
и эффективная (характеризуется наименьшей
степенью отклонений от)
и при выборке малого объема возможная
значительная разность между оценкой
параметра и параметром, т.е. привести к
грубым ошибкам.
По этой причине, для получения более
точной и достоверной оценки
nпараметра
,
используют интервальную оценку параметра.
Интервальной оценкой параметра
называется числовой интервал
, который с заданной вероятностью
накрывает неизвестное значение параметра
.
Границы интервала
его длина, определяются по выборочным
данным и потому являются случайными
величинами, в отличие от параметра— величины неслучайной и в связи с этим
правильнее говорить, что интервал
«накрывает», а не «содержит» значение.
Интервальная оценка определяется двумя
числами — концами интервала.
Интервал
называютдоверительным (его
концы – доверительными границами),
а вероятность
–доверительной вероятностью
или надежностью оценки.
Длина доверительного интервала
значительно зависит от объема выборки
n (уменьшается
с ростомn)
и от значения доверительной вероятности(увеличивается с приближением
к единице). В большинстве, но не всегда,
доверительный интервал выбирается
симметричным относительно параметра,
т.е..
Метод доверительных интервалов разработал
американский статистик Ю. Нейман на
основании идей Р.Фишера.
Предельной ошибкой выборки
называется наибольшее отклонение ∆
выборочной средней (доли) от генеральной
средней (доли), которое возможно с
заданной доверительной вероятностью
.
Ошибка
является ошибкойрепрезентативностивыборки. Она возникает только вследствие
того, что исследуется не вся генеральная
совокупность, а только ее часть.
Нахождение доверительного интервала для генеральной средней и генеральной доли по большим выборкам.
Построение доверительных интервалов
для параметров генеральных совокупностей
можно осуществить с помощью прямогометода (если исходить из генерального
распределения, откуда как следствие
получать выборочное распределение и
из него распределение статистик), иликосвенногометода, который позволяет
при некоторых общих предположениях
получить асимптотические (приn→∞)
распределения статистик. Рассмотрим
второй метод.
Теорема. Вероятность
того, что отклонение выборочной средней
(доли) от генеральной средней (доли) на
величину, которая не превышает по
абсолютной величиной число ∆>0 равна:
,где
, (2.12)
,где
.
(2.13)
Доказательство.
Формулы (2.12) и (2.13) называются формулами
доверительной вероятности для средней
и доли.
Средней квадратической ошибкой
называется среднее квадратическое
отклонение выборочной средней и
выборочной доли собственно случайной
выборки.
Формулы для вычисления
для разных статистик и разных выборок
можно получить из формул 2.14, 2.15, 2.18, 2.19
и они имеют вид:
а) выборка собственно случайная повторная:
для средней –
(2.14)
для доли –
(2.15)
б) выборка собственно случайная без
повторная:
для средней –
(2.16)
для доли –
(2.17)
Замечание.Из рассмотренной
теоремы следует, что доверительные
интервалы для генеральной средней и
генеральной доли находятся по формулам:
,
(2.18)
,
.
(2.19)
Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
В статистике имеются два подхода к оцениванию неизвестных параметров распределений: точечный и интервальный. В соответствии с точечным оцениванием, которое рассмотрено в предыдущем разделе, указывается лишь точка, около которой находится оцениваемый параметр. Желательно, однако, знать, как далеко может отстоять в действительности этот параметр от возможных реализаций оценок в разных сериях наблюдений.
Ответ на этот вопрос – тоже приближенный – дает другой способ оценивания параметров – интервальный. В соответствии с этим способом оценивания находят интервал, который с вероятностью, близкой к единице, накрывает неизвестное числовое значение параметра.
Понятие интервальной оценки
Точечная оценка является случайной величиной и для возможных реализаций выборки принимает значения лишь приближенно равные истинному значению параметра
. Чем меньше разность
, тем точнее оценка. Таким образом, положительное число
, для которого
, характеризует точность оценки и называется Ошибкой оценки (или предельной ошибкой).
Доверительной вероятностью (или надежностью) называется вероятность β, с которой осуществляется неравенство , т. е.
. (3.20)
Заменив неравенство равносильным ему двойным неравенством
, или
, получим
. (3.21)
Интервал , накрывающий с вероятностью β,
, неизвестный параметр
, называется Доверительным интервалом (или интервальной оценкой), соответствующим доверительной вероятности β.
Случайной величиной является не только оценка , но и ошибка
: ее значение зависит от вероятности β и, как правило, от выборки. Поэтому доверительный интервал случаен и выражение (3.21) следует читать так: “Интервал
накроет параметр
с вероятностью β ”, а не так: “Параметр
попадет в интервал
с вероятностью β ”.
Смысл доверительного интервала состоит в том, что при многократном повторении выборки объема в относительной доле случаев, равной β, доверительный интервал, соответствующий доверительной вероятности β, накрывает истинное значение оцениваемого параметра. Таким образом, доверительная вероятность β характеризует Надежность доверительного оценивания: чем больше β, тем вероятнее, что реализация доверительного интервала содержит неизвестный параметр.
Следует, однако, иметь в виду, что с ростом доверительной вероятности β в среднем растет длина доверительного интервала, то есть уменьшается точность доверительного оценивания. Выбор доверительной вероятности определяется конкретными условиями; обычно используются значения β, равные 0,90; 0,95; 0,99.
Вероятность (3.22)
называется Уровнем значимости и характеризует относительное число ошибочных заключений в общем числе заключений.
В формуле (3.21) границы доверительного интервала симметричны относительно точечной оценки. Однако не всегда удается построить интервал, обладающий таким свойством. Более общим является следующее определение.
Доверительным интервалом (или Интервальной оценкой) параметра с доверительной вероятностью β, 0< β <1, называется интервал со случайными границами
,
, накрывающий с вероятностью β неизвестный параметр
, т. е.
. (3.23)
Иногда вместо двусторонних доверительных интервалов рассматривают односторонние доверительные интервалы, полагая или
.
Построение интервальных оценок
Доверительный интервал задается своими концами и
. Однако найти функции
и
из условия (3.23) невозможно, поскольку закон распределения этих функций зависит от закона распределения ξ и, следовательно, зависит от неизвестного параметра
. Используют следующий прием, позволяющий в ряде случаев построить доверительный интервал. Подбирается такая функция
, чтобы:
— ее закон распределения был известен и не зависел от неизвестного параметра ;
— функция Была непрерывной и строго монотонной по
.
Тогда для любого β можно выбрать два числа и
так, чтобы выполнялось равенство
. (3.24)
Отсюда находят и
как квантили функции распределения
. Границы искомого доверительного интервала выражают через найденные квантили и выборочные данные, используя для этого соотношения, связывающие новую и старую случайные величины.
Если плотность распределения случайной величины Симметрична, то доверительный интервал симметричен относительно точечной оценки
, и для нахождения границ доверительного интервала вместо условия (3.23) можно использовать соотношение (3.21).
Основные статистические распределения
Построение разного рода оценок и статистических критериев часто основывается на использовании ряда специальных распределений случайных величин.
Нормальное распределение. Случайная величина имеет нормальное распределение с параметрами
и
, что обозначается как
, если плотность вероятности этой случайной величины имеет вид
. (3 .25)
График плотности вероятности случайной величины, имеющей нормальное распределение, представлен на рисунке 3.5, на котором видно, что максимум функции находится в точке .
Поскольку нормальное распределение подробно изучается в курсе теории вероятностей, напомним свойства нормальной случайной величины, которые будут использоваться в дальнейшем.
Рис. 3.5
1) ,
.
2) Случайная величина называется Центрированной, если ее математическое ожидание равно нулю. Для того чтобы центрировать случайную величину, надо вычесть из нее математическое ожидание:
.
3) Случайная величина называется Нормированной, если ее дисперсия равна единице, а математическое ожидание равно нулю.
Для того чтобы нормировать случайную величину, надо ее поделить на среднее квадратическое отклонение:
.
Центрированная и нормированная нормальная случайная величина называется стандартной. Таким образом, стандартной будет случайная величина
~
. (3.26)
Вероятность попадания случайной величины в интервал (α,β) вычисляется по формуле
, (3.27)
Где — интеграл вероятности, представляющий собой функцию распределения стандартной нормально распределенной случайной величины. Интеграл вероятности табулирован. Его значения приведены в таблице В Приложения.
Для стандартной нормальной случайной величины и симметричного промежутка формула (3.27) принимает следующий вид:
. (3.28)
Распределение (хи-квадрат). Если
,
независимые стандартные нормальные случайные величины, то говорят, что случайная величина
(3.29)
Имеет распределение хи-квадрат с степенями свободы, что обозначается как
. Графики плотности вероятности для двух значений степени свободы приведены на рис.3.6.
Рис. 3.6
С увеличением числа степеней свободы плотность вероятности стремится к нормальной. При
плотность вероятности постоянно убывает, а при
имеет единственный максимум
,
,
.
Распределение Стьюдента. Пусть ,
,
,
— независимые стандартные нормальные случайные величины. Тогда случайная величина
(3.30)
Имеет распределение Стьюдента с степенями свободы, что обозначается как
, при этом
,
.
На рис.3.7 приведены кривые стандартного нормального распределения (кривая 1) и плотности распределения Стьюдента (кривая 2).
Рис. 3.7
При плотность распределения Стьюдента стремится к плотности стандартной нормальной случайной величины.
На практике, как правило, используется не плотность вероятности, а Квантиль Распределения. Напомним, что квантилью порядка (или уровня) непрерывной случайной величины
называется такое ее значение
, которое удовлетворяет равенству
,
Где — функция распределения, а
— заданное значение вероятности. Рис.3.8 поясняет понятие квантили порядка
.
Рис. 3.8
Следующая теорема устанавливает свойства основных выборочных характеристик, вычисленных по выборке, соответствующих нормальному распределению.
Теорема Фишера. Пусть — случайная выборка из генеральной совокупности
, тогда выборочное среднее
и несмещенная выборочная дисперсия
независимы, и при этом
1) случайная величина имеет распределение
;
2) случайная величина имеет распределение
;
3) случайная величина имеет распределение
.
Доказательство теоремы приведено в [2].
Интервальные оценки математического ожидания нормального распределения
Интервальная оценка математического ожидания при известной дисперсии. Построим доверительный интервал для математического ожидания наблюдаемой случайной величины при известной дисперсии
по выборке
.
Образуем вспомогательную случайную величину , где
— точечная оценка математического ожидания
. Согласно утверждению 1 теоремы Фишера, случайная величина
имеет нормальное распределение
и ее функция распределения
не зависит от неизвестного параметра.
Доверительный интервал, соответствующий надежности β, определяется из условия (3.20), которое в нашем случае имеет вид
. (3.31)
Неравенства и
являются равносильными, то есть для любой выборки
они выполняются или не выполняются одновременно, поэтому соотношение (3.31) можно записать в виде
. (3.32)
Поскольку случайная величина имеет стандартное нормальное распределение, вероятность в левой части формулы (3.32) можно выразить через нормальную стандартную функцию распределения по формуле (3.7):
. (3.33)
Приравняв правую часть формулы (3.33) заданной доверительной вероятности β, получим уравнение . Решение этого уравнения
является квантилью порядка
стандартного нормального распределения и определяется по таблице значений стандартной нормальной функции распределения (см. табл. В Приложения). Предельная ошибка
вычисляется по формуле
. Таким образом, доверительным интервалом математического ожидания, соответствующим надежности β, является интервал
. (3.34)
Интервальная оценка математического ожидания при неизвестной дисперсии. По выборке из нормального распределения
требуется построить доверительный интервал для неизвестного математического ожидания
при неизвестной дисперсии D=σ2.
Введем новую случайную величину , где
— несмещенная выборочная дисперсия.
Статистика согласно утверждению 3 теоремы Фишера имеет распределение Стьюдента с
степенями свободы. Рассуждая аналогично случаю, когда дисперсия известна, получим следующий доверительный интервал для математического ожидания:
, (3.35)
Где — квантиль порядка
распределения Стьюдента. В отличие от доверительного интервала (3.34) длина интервала (3.35) случайна и зависит от случайной величины
. Поскольку с увеличением числа степеней свободы распределение Стьюдента быстро приближается к нормальному, то для больших выборок
интервалы (3.34) и (3.35) практически совпадают.
Пример 3.2. По результатам 9 измерений напряжения батареи получено среднее арифметическое значение 30,6В. Точность вольтметра характеризуется средним квадратическим отклонением 0,2В. Требуется найти доверительный интервал для истинного значения напряжения батареи, соответствующий доверительной вероятности β=0,95, предполагая, что контролируемый признак имеет нормальный закон распределения.
Решение. Для нахождения доверительного интервала воспользуемся формулой (3.34). Квантиль порядка 0,975 найдем по таблице А Приложения:
.
Поскольку предельная ошибка
, то доверительный интервал имеет вид
.
Интервальная оценка дисперсии нормального распределения
Построим доверительный интервал для дисперсии D=σ2 наблюдаемой случайной величины ~
по случайной выборке
при неизвестном математическом ожидании.
Введем случайную величину (статистику) , (3.36)
Которая согласно утверждению 2 теоремы Фишера имеет распределение с
степенями свободы. Поскольку плотность распределения этого закона асимметрична, доверительный интервал, соответствующий надежности β, найдем из формулы (3.31) в виде:
. (3.37)
Обычно доверительный интервал для случайной величины
выбирают так, чтобы вероятность ее попадания за пределы этого интервала влево и вправо была одинаковой ( рис. 3.9):
.
Тогда условия для определения значений и
будут иметь вид:
,
. (3.38)
По таблице квантилей — распределения ( табл. С Приложения) найдем
,
. (3.39)
Рис. 3.9.
Неравенства эквивалентны неравенствам
, поэтому
.
Следовательно, интервал
(3.40)
Является доверительным интервалом дисперсии, соответствующим доверительной вероятности β.
Пример 3.3. По данным выборочного контроля найти выборочное математическое ожидание и несмещенную оценку дисперсии нормальной случайной величины ξ. Найти доверительные интервалы для них, соответствующие доверительной вероятности β=0,98.
Таблица 3.4
|
42 |
43 |
45 |
46 |
48 |
51 |
52 |
54 |
|
1 |
2 |
3 |
6 |
4 |
3 |
1 |
1 |
Решение. Выборочное математическое ожидание найдем по формуле (3.14), используя табл.3.4
При
.
Несмещенную выборочную дисперсию вычислим по формуле (3.19):
,
.
Доверительный интервал для математического ожидания определим по формуле (3.35). При из таблицы А Приложения находим квантиль распределения Стьюдента
. Вычислив предельную ошибку
,
Получим искомый доверительный интервал для математического ожидания:
.
Границы доверительного интервала для дисперсии определим по формуле (3.20). По таблице квантилей распределения χ2 (см. табл. С Приложения) при определим квантили:
,
.
Подставив эти значения, а также и
в формулу (3.20), получим искомый доверительный интервал для дисперсии
.
Вопросы для самопроверки
2. Что называется выборкой?
3. Как произвести оценку выборочного математического ожидания и выборочной дисперсии?
4. Как найти функцию распределения для дискретной случайной величины?
5. Что такое несмещенная оценка параметра?
6. Дайте определение состоятельной оценки.
7. Что такое интервальная оценка?
< Предыдущая | Следующая > |
---|
Оценки параметров генеральной совокупности. Доверительные интервалы
- Переход от выборки к генеральной совокупности
- Способы, виды и методы отбора
- Распространение результатов выборки на генеральную совокупность при изучении альтернативного признака
- Алгоритм построения доверительного интервала для оценки генеральной доли
- Для каких величин строят доверительные интервалы?
- Примеры
п.1. Переход от выборки к генеральной совокупности
В статистическом исследовании при изучении некоторого признака (или набора признаков) проводят конечное число наблюдений (x_1,x_2,…,x_k).
Реально полученная совокупность наблюдений (left{x_iright}) называется выборкой (sample).
Как правило, при этом существует более обширная генеральная совокупность (population), на которую результаты анализа выборки планируется распространить. Например:
Выборка
Генеральная совокупность
50 посетителей магазина, заполнившие анкеты
Все будущие посетители магазина
100 опрошенных школьников
Все школьники города/области/страны
10 опытов с определением периода математического маятника
Все математические маятники
Репрезентативность выборки – способность выборки представлять исследуемый признак достаточно полно с точки зрения его свойств в генеральной совокупности.
Насколько большой должна быть выборка, чтобы надежно представлять генеральную совокупность? К концу параграфа мы получим ответ на этот вопрос для определенного класса задач.
Попутно заметим, что малой называют выборку, если при исследовании одного признака её объем (nlt 30), а при исследовании k признаков (frac{n}{k}lt 10).
п.2. Способы, виды и методы отбора
Простой случайный | Объекты случайно извлекаются из генеральной совокупности, например, с помощью генератора случайных чисел. |
Простой механический | Объекты извлекаются по тегу, например, при поиске по дате, номеру, букве алфавита и т.д. |
Стратифицированный (типический) |
Объекты извлекаются по признаку, например, по возрасту, району проживания, профессии и т.д. |
Серийный | Простым случайным или простым механическим способом отбирается группа (серия) объектов, а затем они все изучаются (сплошное исследование). Например, выбор дома и опрос всех его жильцов; или выбор партии товара и проверка каждого изделия в партии. |
Комбинированный | Сочетание нескольких предыдущих способов. |
Индивидуальный | Отбираются отдельные единицы генеральной совокупности |
Групповой | Отбираются однородные по некоторому признаку группы |
Комбинированный | Сочетание индивидуального и группового |
Повторная выборка | Единицу генеральной совокупности отбирают, показания регистрируют, а затем возвращают обратно (т.е. могут опять выбрать). |
Бесповторная выборка | Единицу генеральной совокупности отбирают, показания регистрируют, и обратно не возвращают. |
п.3. Распространение результатов выборки на генеральную совокупность при изучении альтернативного признака
Альтернативным называют признак, который имеет только два варианта значений.
Например:
1) орел или решка;
2) 0 или 1;
3) качественный или бракованный и т.п.
Мы уже знаем, что конечное число экспериментов с таким признаком описывается биномиальным распределением (см. §40 справочника для 9 класса), а при (nrightarrow infty) биномиальное распределение приближается к нормальному (см. §64 данного справочника).
При исследовании альтернативного признака x генеральной совокупности с помощью выборки будем использовать следующие обозначения:
Генеральная совокупность |
Выборка | |
Объем | $$ N $$ | $$ n $$ |
Число единиц с признаком x | $$ N_x $$ | $$ n_x $$ |
Доля единиц с признаком x | $$ p=frac{N_x}{N} $$ | $$ w=frac{n_x}{n} $$ |
Дисперсия | $$ sigma^2=p(1-p) $$ | $$ sigma^2=w(1-w) $$ |
CKO | $$ sigma=sqrt{p(1-p)} $$ | $$ sigma=sqrt{w(1-w)} $$ |
Например:
Из партии товара в 1000 изделий было случайным образом выбрано 100 изделий, и среди них обнаружено 8 бракованных. Для этой выборки можем записать: begin{gather*} N=1000, n=100, n_x=8, w=frac{8}{100}=0,08\ sigma^2=w(1-w)=frac{8}{100}cdotfrac{92}{100}=frac{736}{10000}=0,0736; sigma=sqrt{frac{736}{10000}}approx 0,2713 end{gather*}
Средняя ошибка выборки равна среднему квадратичному отклонению выборочной средней от математического ожидания генеральной совокупности: $$ m=frac{sigma}{sqrt{n}} $$ Для альтернативного признака с бесповторной выборкой: $$ m=sqrt{frac{w(1-w)}{n}left(1-frac nNright)} $$ Для альтернативного признака с повторной выборкой: $$ m=sqrt{frac{w(1-w)}{n}} $$
В партии товара из предыдущего примера (w=0,005) — доля брака.
Средняя ошибка при определении доли брака в генеральной совокупности зависит от способа отбора партии. Пусть выборка бесповторная (при выборе 100 изделий из 1000 мы откладывали их в сторону).
Тогда: begin{gather*} m=sqrt{frac{w(1-w)}{n}left(1-frac nNright)}=sqrt{frac{0,0736}{1000}left(1-frac{100}{1000}right)}approx 0,0257 end{gather*}
Предельная ошибка выборки при изучении альтернативного признака равна произведению средней ошибки выборки на Z-коэффициент, который зависит от заданного уровня значимости α: $$ triangle=Z_alpha m $$
Доверительным интервалом оценки неизвестного параметра генеральной совокупности называют вычисленный на основе данных выборки интервал, в котором генеральный параметр содержится с известной вероятностью.
Доверительный интервал для оценки среднего значения доли в генеральной совокупности: $$ p=wpmtriangle text{или} w-triangleleq pleq 2+triangle $$
(Z_alpha) – это квантиль нормального распределения, который появляется потому, что генеральная совокупность считается нормально распределенной.
Величина (P=1-alpha) называется уровнем доверия (доверительной вероятностью), это вероятность того, что при измерении доли в генеральной совокупности её значение попадет в заданный интервал.
Соответственно (alpha) – уровень значимости — это вероятность промаха.
Существуют таблицы со значениями (Z_alpha).
Для расчета также можно пользоваться MS Excel функцией НОРМСТОБР(1-α/2).
Например:
Найдем (Z_alpha) для доверительной вероятности 95%.
(P=0,95Rightarrowalpha=1-P=0,05)
Теперь найдем предельную ошибку выборки для нашего примера с точностью до тысячных: $$ triangle =1,9600cdot 0,0257approx 0,050 $$ Заметим, что расчеты в данном случае ведутся в Excel, и мы просто записываем результаты округлений, в то время как в сам Excel хранит результаты и выполняет вычисления точностью до 15 значащих цифр.
Если вы ведете расчеты на калькуляторе с промежуточными округлениями, то для того, чтобы получить результат с точностью до тысячных, нужно иметь «про запас» еще одну цифру после запятой (т.е. до 4х знаков).
95% доверительный интервал имеет вид: begin{gather*} 0,08-0,050leq pleq 0,08+0,050\ 0,030leq pleq 0,130 end{gather*} Вывод: с вероятностью 95% можно утверждать, что доля брака в генеральной совокупности (всей партии) составляет от 3,0% до 13,0%.
п.4. Минимальный объем выборки
Минимальный необходимый объем выборки для построения доверительного интервала для среднего значения с заданной точностью (triangle) и уровнем значимости α равен:
— для повторной выборки (n_{мин}=left(frac{Z_alpha sigma}{triangle}right)^2)
— для бесповторной выборки (n_{мин}=frac{1}{left(frac{triangle}{Z_alpha sigma}right)^2+frac1N})
Например:
Пусть «целевая» предельная ошибка выборки равна (triangle =0,01), доверительная вероятность равна 95%.
Для нашего примера с партией товара получаем (бесповторная выборка): $$ n_{мин}=frac{1}{left(frac{0,01}{1,96cdot 0,271}right)^2+frac{1}{1000}}approx 738,7approx uparrow 739 $$ Нам необходимо проверить не менее 739 изделий из 1000, чтобы записать для средней доли в генеральной совокупности (p=wpm 0,01).
п.4. Алгоритм построения доверительного интервала для оценки генеральной доли
На входе: объем выборки n, число повторений признака (n_x), доверительная вероятность (P)
Шаг 1. Найти выборочную долю (w=frac{n_x}{n}), дисперсию (sigma=sqrt{w(1-w)})
Шаг 2. Найти среднюю ошибку выборки (m=frac{sigma}{sqrt{n}})
Шаг 3. Найти уровень значимости (alpha=1-P), рассчитать (Z_alpha) (если в Excel, то НОРМСТОБР(1-α/2))
Шаг 4. Найти предельную ошибку выборки (triangle =Z_alpha m)
На выходе: интервал для генеральной доли (p=wpmtriangle)
Бесповторная выборка
На входе: объем генеральной совокупности N, объем выборки n, число повторений признака (n_x), доверительная вероятность (P)
Шаг 1. Найти выборочную долю (w=frac{n_x}{n}), дисперсию (sigma=sqrt{w(1-w)})
Шаг 2. Найти среднюю ошибку выборки (m=frac{sigma}{sqrt{n}}sqrt{1-frac nN})
Шаг 3. Найти уровень значимости (alpha=1-P), рассчитать (Z_alpha) (если в Excel, то НОРМСТОБР(1-α/2))
Шаг 4. Найти предельную ошибку выборки (triangle =Z_alpha m)
На выходе: интервал для генеральной доли (p=wpmtriangle)
п.5. Для каких величин строят доверительные интервалы?
В этом параграфе мы научились строить доверительный интервал для оценки биномиальной доли в генеральной совокупности.
На практике в статистических исследованиях доверительные интервалы строят для:
— оценки математического ожидания в генеральной совокупности, если выборка образует вариационный ряд (дискретный или непрерывный). Здесь разделяют два случая: а) генеральная дисперсия известна или б) она неизвестна;
— оценки дисперсии генеральной совокупности, если выборка образует вариационный ряд (дискретный или непрерывный). Здесь также разделяют два случая: а) генеральная средняя известна или б) она неизвестна.
Алгоритмы для поиска доверительных интервалов отличаются использованием различных распределений (Z-распределения, t-распределения Стьюдента, χ2-распределения), но, если обобщить, то логика такова: опираясь на результаты выборки и гипотезу о распределении средней или дисперсии, получаем оценку для соответствующей генеральной величины.
Подробней о построении различных доверительных интервалов вы можете узнать из вузовских курсов теории вероятностей и статистики.
п.6. Примеры
Пример 1. Перед выборами мера в городе был проведен опрос 1000 человек (2% бесповторная выборка). В результате опроса оказалось, что за кандидата Y готовы проголосовать 423 человека из опрошенных. Определите с уровнем значимости 3% долю сторонников кандидата Y в городе.
По условию: $$ n=1000; frac nN=2text{%}=0,02; n_x=423; alpha=3text{%}=0,03 $$ Находим выборочную долю и дисперсию: begin{gather*} w=frac{n_x}{n}=frac{423}{1000}=0,423\ sigma^2=w(1-w)=0,423cdot 0,577approx 0,2441 end{gather*} Средняя ошибка выборки: $$ m=sqrt{frac{sigma^2}{n}left(1-frac nNright)}=sqrt{frac{0,2441}{1000}cdot (1-0,02)}approx 0,0155 $$ Находим (Z_alpha)
Предельная ошибка выборки с точностью до тысячных: $$ triangle=Z_alpha m=2,1701cdot 0,0155approx 0,034 $$ 97% доверительный интервал имеет вид: begin{gather*} 0,423-0,034leq pleq 0,423+0,034\ 0,389leq pleq 0,457 end{gather*}
Вывод: с вероятностью 97% (уровнем значимости 3%) можно утверждать, что доля сторонников кандидата Y в городе составляет от 38,9% до 45,7%.
Пример 2. Какое минимальное число людей нужно опросить в городе из предыдущего примера, чтобы можно было с уровнем значимости 3% получить предельную ошибку для генеральной доли (triangle=)1%. Выборка бесповторная.
По условию предыдущего примера общее число жителей в городе: (N=frac{n}{0,02}=50000).
Оценка минимального объема бесповторной выборки: $$ n_{мин}=frac{1}{left(frac{triangle}{Z_alpha sigma}right)^2+frac1N} $$ Нужно подставить: begin{gather*} triangle=1text{%}=0,01; Z_alpha=2,170; sigma=sqrt{0,2441}; N=50000 end{gather*} Получаем: $$ n_{мин}=frac{1}{left(frac{0,01}{2,170cdotsqrt{0,2441}}right)^2+frac{1}{50000}} $$ Таким образом, чтобы снизить предельную ошибку определения генеральной доли до 1%, нужно опросить не менее 9346 человек или почти что каждого пятого жителя города.