Интервальное оценивание доверительная вероятность предельная ошибка выборки

Оценка генеральной дисперсии.

Теорема. Выборочная
дисперсия σ
в2
повторной и бесповторной выборок
является смещенной и состоятельной
оценкой генеральной дисперсия
.

Замечание.В процессе
доказательства теоремы получено, что,
т.е. выборочная дисперсия уменьшает
генеральную дисперсию. При замененадопускается систематическая погрешность
в сторону уменьшения. В связи с этим
вводится «исправленная дисперсия»,
которая является несмещенной оценкой.

Пример.Предельная
нагрузка на стальной болтХі,
которая измерялась в лабораторных
условиях, задана как интервальное
статистическое распределение:

Xi,

кг/мм2

4,5-5,5

5,5-6,5

6,5-7,5

7,5-8,5

8,5-9,5

10,5-11,5

11,5-12,5

12,5-13,5

40

32

28

24

20

16

12

8

Определить точечные несмещенные и
состоятельные оценки для
и.

6. Понятие интервального оценивания. Доверительная вероятность и предельная погрешность выборки

Точечная оценка
n
является приближенным значением
неизвестного параметра
и в том случае, когда она несмещенная
(в среднем совпадает с),
состоятельная (приближается кс ростомn)
и эффективная (характеризуется наименьшей
степенью отклонений от)
и при выборке малого объема возможная
значительная разность между оценкой
параметра и параметром, т.е. привести к
грубым ошибкам.

По этой причине, для получения более
точной и достоверной оценки
nпараметра,
используют интервальную оценку параметра.

Интервальной оценкой параметра
называется числовой интервал, который с заданной вероятностьюнакрывает неизвестное значение параметра
.

Границы интервала
его длина, определяются по выборочным
данным и потому являются случайными
величинами, в отличие от параметра— величины неслучайной и в связи с этим
правильнее говорить, что интервал
«накрывает», а не «содержит» значение.

Интервальная оценка определяется двумя
числами — концами интервала.

Интервал
называют
доверительным (его
концы –
доверительными границами),
а вероятность
доверительной вероятностью
или
надежностью оценки.

Длина доверительного интервала
значительно зависит от объема выборки
n (уменьшается
с ростомn)
и от значения доверительной вероятности(увеличивается с приближениемк единице). В большинстве, но не всегда,
доверительный интервал выбирается
симметричным относительно параметра,
т.е..
Метод доверительных интервалов разработал
американский статистик Ю. Нейман на
основании идей Р.Фишера.

Предельной ошибкой выборки
называется наибольшее отклонение ∆
выборочной средней (доли) от генеральной
средней (доли), которое возможно с
заданной доверительной вероятностью
.

Ошибка
является ошибкойрепрезентативностивыборки. Она возникает только вследствие
того, что исследуется не вся генеральная
совокупность, а только ее часть.

Нахождение доверительного интервала для генеральной средней и генеральной доли по большим выборкам.

Построение доверительных интервалов
для параметров генеральных совокупностей
можно осуществить с помощью прямогометода (если исходить из генерального
распределения, откуда как следствие
получать выборочное распределение и
из него распределение статистик), иликосвенногометода, который позволяет
при некоторых общих предположениях
получить асимптотические (приn→∞)
распределения статистик. Рассмотрим
второй метод.

Теорема. Вероятность
того, что отклонение выборочной средней
(доли) от генеральной средней (доли) на
величину, которая не превышает по
абсолютной величиной число ∆>0 равна
:

,где, (2.12)

,где.
(2.13)

Доказательство.

Формулы (2.12) и (2.13) называются формулами
доверительной вероятности для средней
и доли.

Средней квадратической ошибкой
называется среднее квадратическое
отклонение выборочной средней и
выборочной доли собственно случайной
выборки.

Формулы для вычисления
для разных статистик и разных выборок
можно получить из формул 2.14, 2.15, 2.18, 2.19
и они имеют вид:

а) выборка собственно случайная повторная:

для средней –
(2.14)

для доли –
(2.15)

б) выборка собственно случайная без
повторная:

для средней –
(2.16)

для доли –
(2.17)

Замечание.Из рассмотренной
теоремы следует, что доверительные
интервалы для генеральной средней и
генеральной доли находятся по формулам:

,(2.18)

,.
(2.19)

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

В статистике имеются два подхода к оцениванию неизвестных параметров распределений: точечный и интервальный. В соответствии с точечным оцениванием, которое рассмотрено в предыдущем разделе, указывается лишь точка, около которой находится оцениваемый параметр. Желательно, однако, знать, как далеко может отстоять в действительности этот параметр от возможных реализаций оценок в разных сериях наблюдений.

Ответ на этот вопрос – тоже приближенный – дает другой способ оценивания параметров – интервальный. В соответствии с этим способом оценивания находят интервал, который с вероятностью, близкой к единице, накрывает неизвестное числовое значение параметра.

Понятие интервальной оценки

Точечная оценка является случайной величиной и для возможных реализаций выборки принимает значения лишь приближенно равные истинному значению параметра . Чем меньше разность , тем точнее оценка. Таким образом, положительное число , для которого , характеризует точность оценки и называется Ошибкой оценки (или предельной ошибкой).

Доверительной вероятностью (или надежностью) называется вероятность β, с которой осуществляется неравенство , т. е.

. (3.20)

Заменив неравенство равносильным ему двойным неравенством , или , получим

. (3.21)

Интервал , накрывающий с вероятностью β, , неизвестный параметр , называется Доверительным интервалом (или интервальной оценкой), соответствующим доверительной вероятности β.

Случайной величиной является не только оценка , но и ошибка : ее значение зависит от вероятности β и, как правило, от выборки. Поэтому доверительный интервал случаен и выражение (3.21) следует читать так: “Интервал накроет параметр с вероятностью β ”, а не так: “Параметр попадет в интервал с вероятностью β ”.

Смысл доверительного интервала состоит в том, что при многократном повторении выборки объема в относительной доле случаев, равной β, доверительный интервал, соответствующий доверительной вероятности β, накрывает истинное значение оцениваемого параметра. Таким образом, доверительная вероятность β характеризует Надежность доверительного оценивания: чем больше β, тем вероятнее, что реализация доверительного интервала содержит неизвестный параметр.

Следует, однако, иметь в виду, что с ростом доверительной вероятности β в среднем растет длина доверительного интервала, то есть уменьшается точность доверительного оценивания. Выбор доверительной вероятности определяется конкретными условиями; обычно используются значения β, равные 0,90; 0,95; 0,99.

Вероятность (3.22)

называется Уровнем значимости и характеризует относительное число ошибочных заключений в общем числе заключений.

В формуле (3.21) границы доверительного интервала симметричны относительно точечной оценки. Однако не всегда удается построить интервал, обладающий таким свойством. Более общим является следующее определение.

Доверительным интервалом (или Интервальной оценкой) параметра с доверительной вероятностью β, 0< β <1, называется интервал со случайными границами , , накрывающий с вероятностью β неизвестный параметр , т. е.

. (3.23)

Иногда вместо двусторонних доверительных интервалов рассматривают односторонние доверительные интервалы, полагая или .

Построение интервальных оценок

Доверительный интервал задается своими концами и . Однако найти функции и из условия (3.23) невозможно, поскольку закон распределения этих функций зависит от закона распределения ξ и, следовательно, зависит от неизвестного параметра . Используют следующий прием, позволяющий в ряде случаев построить доверительный интервал. Подбирается такая функция , чтобы:

— ее закон распределения был известен и не зависел от неизвестного параметра ;

— функция Была непрерывной и строго монотонной по .

Тогда для любого β можно выбрать два числа и так, чтобы выполнялось равенство

. (3.24)

Отсюда находят и как квантили функции распределения . Границы искомого доверительного интервала выражают через найденные квантили и выборочные данные, используя для этого соотношения, связывающие новую и старую случайные величины.

Если плотность распределения случайной величины Симметрична, то доверительный интервал симметричен относительно точечной оценки , и для нахождения границ доверительного интервала вместо условия (3.23) можно использовать соотношение (3.21).

Основные статистические распределения

Построение разного рода оценок и статистических критериев часто основывается на использовании ряда специальных распределений случайных величин.

Нормальное распределение. Случайная величина имеет нормальное распределение с параметрами и , что обозначается как , если плотность вероятности этой случайной величины имеет вид

. (3 .25)

График плотности вероятности случайной величины, имеющей нормальное распределение, представлен на рисунке 3.5, на котором видно, что максимум функции находится в точке .

Поскольку нормальное распределение подробно изучается в курсе теории вероятностей, напомним свойства нормальной случайной величины, которые будут использоваться в дальнейшем.

Рис. 3.5

1) , .

2) Случайная величина называется Центрированной, если ее математическое ожидание равно нулю. Для того чтобы центрировать случайную величину, надо вычесть из нее математическое ожидание:

.

3) Случайная величина называется Нормированной, если ее дисперсия равна единице, а математическое ожидание равно нулю.

Для того чтобы нормировать случайную величину, надо ее поделить на среднее квадратическое отклонение:

.

Центрированная и нормированная нормальная случайная величина называется стандартной. Таким образом, стандартной будет случайная величина

~ . (3.26)

Вероятность попадания случайной величины в интервал (α,β) вычисляется по формуле

, (3.27)

Где — интеграл вероятности, представляющий собой функцию распределения стандартной нормально распределенной случайной величины. Интеграл вероятности табулирован. Его значения приведены в таблице В Приложения.

Для стандартной нормальной случайной величины и симметричного промежутка формула (3.27) принимает следующий вид:

. (3.28)

Распределение (хи-квадрат). Если , независимые стандартные нормальные случайные величины, то говорят, что случайная величина

(3.29)

Имеет распределение хи-квадрат с степенями свободы, что обозначается как . Графики плотности вероятности для двух значений степени свободы приведены на рис.3.6.

Рис. 3.6

С увеличением числа степеней свободы плотность вероятности стремится к нормальной. При плотность вероятности постоянно убывает, а при имеет единственный максимум , , .

Распределение Стьюдента. Пусть , , , — независимые стандартные нормальные случайные величины. Тогда случайная величина

(3.30)

Имеет распределение Стьюдента с степенями свободы, что обозначается как , при этом

, .

На рис.3.7 приведены кривые стандартного нормального распределения (кривая 1) и плотности распределения Стьюдента (кривая 2).

Рис. 3.7

При плотность распределения Стьюдента стремится к плотности стандартной нормальной случайной величины.

На практике, как правило, используется не плотность вероятности, а Квантиль Распределения. Напомним, что квантилью порядка (или уровня) непрерывной случайной величины называется такое ее значение , которое удовлетворяет равенству ,

Где — функция распределения, а — заданное значение вероятности. Рис.3.8 поясняет понятие квантили порядка .

Рис. 3.8

Следующая теорема устанавливает свойства основных выборочных характеристик, вычисленных по выборке, соответствующих нормальному распределению.

Теорема Фишера. Пусть — случайная выборка из генеральной совокупности , тогда выборочное среднее и несмещенная выборочная дисперсия независимы, и при этом

1) случайная величина имеет распределение ;

2) случайная величина имеет распределение ;

3) случайная величина имеет распределение .

Доказательство теоремы приведено в [2].

Интервальные оценки математического ожидания нормального распределения

Интервальная оценка математического ожидания при известной дисперсии. Построим доверительный интервал для математического ожидания наблюдаемой случайной величины при известной дисперсии по выборке .

Образуем вспомогательную случайную величину , где — точечная оценка математического ожидания . Согласно утверждению 1 теоремы Фишера, случайная величина имеет нормальное распределение и ее функция распределения не зависит от неизвестного параметра.

Доверительный интервал, соответствующий надежности β, определяется из условия (3.20), которое в нашем случае имеет вид

. (3.31)

Неравенства и являются равносильными, то есть для любой выборки они выполняются или не выполняются одновременно, поэтому соотношение (3.31) можно записать в виде

. (3.32)

Поскольку случайная величина имеет стандартное нормальное распределение, вероятность в левой части формулы (3.32) можно выразить через нормальную стандартную функцию распределения по формуле (3.7):

. (3.33)

Приравняв правую часть формулы (3.33) заданной доверительной вероятности β, получим уравнение . Решение этого уравнения является квантилью порядка стандартного нормального распределения и определяется по таблице значений стандартной нормальной функции распределения (см. табл. В Приложения). Предельная ошибка вычисляется по формуле . Таким образом, доверительным интервалом математического ожидания, соответствующим надежности β, является интервал

. (3.34)

Интервальная оценка математического ожидания при неизвестной дисперсии. По выборке из нормального распределения требуется построить доверительный интервал для неизвестного математического ожидания при неизвестной дисперсии D=σ2.

Введем новую случайную величину , где — несмещенная выборочная дисперсия.

Статистика согласно утверждению 3 теоремы Фишера имеет распределение Стьюдента с степенями свободы. Рассуждая аналогично случаю, когда дисперсия известна, получим следующий доверительный интервал для математического ожидания:

, (3.35)

Где — квантиль порядка распределения Стьюдента. В отличие от доверительного интервала (3.34) длина интервала (3.35) случайна и зависит от случайной величины . Поскольку с увеличением числа степеней свободы распределение Стьюдента быстро приближается к нормальному, то для больших выборок интервалы (3.34) и (3.35) практически совпадают.

Пример 3.2. По результатам 9 измерений напряжения батареи получено среднее арифметическое значение 30,6В. Точность вольтметра характеризуется средним квадратическим отклонением 0,2В. Требуется найти доверительный интервал для истинного значения напряжения батареи, соответствующий доверительной вероятности β=0,95, предполагая, что контролируемый признак имеет нормальный закон распределения.

Решение. Для нахождения доверительного интервала воспользуемся формулой (3.34). Квантиль порядка 0,975 найдем по таблице А Приложения: .Поскольку предельная ошибка , то доверительный интервал имеет вид

.

Интервальная оценка дисперсии нормального распределения

Построим доверительный интервал для дисперсии D=σ2 наблюдаемой случайной величины ~ по случайной выборке при неизвестном математическом ожидании.

Введем случайную величину (статистику) , (3.36)

Которая согласно утверждению 2 теоремы Фишера имеет распределение с степенями свободы. Поскольку плотность распределения этого закона асимметрична, доверительный интервал, соответствующий надежности β, найдем из формулы (3.31) в виде:

. (3.37)

Обычно доверительный интервал для случайной величины выбирают так, чтобы вероятность ее попадания за пределы этого интервала влево и вправо была одинаковой ( рис. 3.9):

.

Тогда условия для определения значений и будут иметь вид:

, . (3.38)

По таблице квантилей — распределения ( табл. С Приложения) найдем

, . (3.39)

Рис. 3.9.

Неравенства эквивалентны неравенствам , поэтому

.

Следовательно, интервал

(3.40)

Является доверительным интервалом дисперсии, соответствующим доверительной вероятности β.

Пример 3.3. По данным выборочного контроля найти выборочное математическое ожидание и несмещенную оценку дисперсии нормальной случайной величины ξ. Найти доверительные интервалы для них, соответствующие доверительной вероятности β=0,98.

Таблица 3.4

42

43

45

46

48

51

52

54

1

2

3

6

4

3

1

1

Решение. Выборочное математическое ожидание найдем по формуле (3.14), используя табл.3.4

При .

Несмещенную выборочную дисперсию вычислим по формуле (3.19):

, .

Доверительный интервал для математического ожидания определим по формуле (3.35). При из таблицы А Приложения находим квантиль распределения Стьюдента . Вычислив предельную ошибку ,

Получим искомый доверительный интервал для математического ожидания:

.

Границы доверительного интервала для дисперсии определим по формуле (3.20). По таблице квантилей распределения χ2 (см. табл. С Приложения) при определим квантили:

, .

Подставив эти значения, а также и в формулу (3.20), получим искомый доверительный интервал для дисперсии

.

Вопросы для самопроверки

2. Что называется выборкой?

3. Как произвести оценку выборочного математического ожидания и выборочной дисперсии?

4. Как найти функцию распределения для дискретной случайной величины?

5. Что такое несмещенная оценка параметра?

6. Дайте определение состоятельной оценки.

7. Что такое интервальная оценка?

< Предыдущая   Следующая >

Оценки параметров генеральной совокупности. Доверительные интервалы

  1. Переход от выборки к генеральной совокупности
  2. Способы, виды и методы отбора
  3. Распространение результатов выборки на генеральную совокупность при изучении альтернативного признака
  4. Алгоритм построения доверительного интервала для оценки генеральной доли
  5. Для каких величин строят доверительные интервалы?
  6. Примеры

п.1. Переход от выборки к генеральной совокупности

В статистическом исследовании при изучении некоторого признака (или набора признаков) проводят конечное число наблюдений (x_1,x_2,…,x_k).
Реально полученная совокупность наблюдений (left{x_iright}) называется выборкой (sample).
Как правило, при этом существует более обширная генеральная совокупность (population), на которую результаты анализа выборки планируется распространить. Например:

Выборка

Генеральная совокупность

50 посетителей магазина, заполнившие анкеты

Все будущие посетители магазина

100 опрошенных школьников

Все школьники города/области/страны

10 опытов с определением периода математического маятника

Все математические маятники

Репрезентативность выборки – способность выборки представлять исследуемый признак достаточно полно с точки зрения его свойств в генеральной совокупности.

Насколько большой должна быть выборка, чтобы надежно представлять генеральную совокупность? К концу параграфа мы получим ответ на этот вопрос для определенного класса задач.

Попутно заметим, что малой называют выборку, если при исследовании одного признака её объем (nlt 30), а при исследовании k признаков (frac{n}{k}lt 10).

п.2. Способы, виды и методы отбора

Простой случайный Объекты случайно извлекаются из генеральной совокупности, например, с помощью генератора случайных чисел.
Простой механический Объекты извлекаются по тегу, например, при поиске по дате, номеру, букве алфавита и т.д.
Стратифицированный
(типический)
Объекты извлекаются по признаку, например, по возрасту, району проживания, профессии и т.д.
Серийный Простым случайным или простым механическим способом отбирается группа (серия) объектов, а затем они все изучаются (сплошное исследование). Например, выбор дома и опрос всех его жильцов; или выбор партии товара и проверка каждого изделия в партии.
Комбинированный Сочетание нескольких предыдущих способов.

Индивидуальный Отбираются отдельные единицы генеральной совокупности
Групповой Отбираются однородные по некоторому признаку группы
Комбинированный Сочетание индивидуального и группового

Повторная выборка Единицу генеральной совокупности отбирают, показания регистрируют, а затем возвращают обратно (т.е. могут опять выбрать).
Бесповторная выборка Единицу генеральной совокупности отбирают, показания регистрируют, и обратно не возвращают.

п.3. Распространение результатов выборки на генеральную совокупность при изучении альтернативного признака

Альтернативным называют признак, который имеет только два варианта значений.

Например:
1) орел или решка;
2) 0 или 1;
3) качественный или бракованный и т.п.

Мы уже знаем, что конечное число экспериментов с таким признаком описывается биномиальным распределением (см. §40 справочника для 9 класса), а при (nrightarrow infty) биномиальное распределение приближается к нормальному (см. §64 данного справочника).

При исследовании альтернативного признака x генеральной совокупности с помощью выборки будем использовать следующие обозначения:

Генеральная
совокупность
Выборка
Объем $$ N $$ $$ n $$
Число единиц с признаком x $$ N_x $$ $$ n_x $$
Доля единиц с признаком x $$ p=frac{N_x}{N} $$ $$ w=frac{n_x}{n} $$
Дисперсия $$ sigma^2=p(1-p) $$ $$ sigma^2=w(1-w) $$
CKO $$ sigma=sqrt{p(1-p)} $$ $$ sigma=sqrt{w(1-w)} $$

Например:
Из партии товара в 1000 изделий было случайным образом выбрано 100 изделий, и среди них обнаружено 8 бракованных. Для этой выборки можем записать: begin{gather*} N=1000, n=100, n_x=8, w=frac{8}{100}=0,08\ sigma^2=w(1-w)=frac{8}{100}cdotfrac{92}{100}=frac{736}{10000}=0,0736; sigma=sqrt{frac{736}{10000}}approx 0,2713 end{gather*}

Средняя ошибка выборки равна среднему квадратичному отклонению выборочной средней от математического ожидания генеральной совокупности: $$ m=frac{sigma}{sqrt{n}} $$ Для альтернативного признака с бесповторной выборкой: $$ m=sqrt{frac{w(1-w)}{n}left(1-frac nNright)} $$ Для альтернативного признака с повторной выборкой: $$ m=sqrt{frac{w(1-w)}{n}} $$

В партии товара из предыдущего примера (w=0,005) — доля брака.
Средняя ошибка при определении доли брака в генеральной совокупности зависит от способа отбора партии. Пусть выборка бесповторная (при выборе 100 изделий из 1000 мы откладывали их в сторону).
Тогда: begin{gather*} m=sqrt{frac{w(1-w)}{n}left(1-frac nNright)}=sqrt{frac{0,0736}{1000}left(1-frac{100}{1000}right)}approx 0,0257 end{gather*}

Предельная ошибка выборки при изучении альтернативного признака равна произведению средней ошибки выборки на Z-коэффициент, который зависит от заданного уровня значимости α: $$ triangle=Z_alpha m $$

Доверительным интервалом оценки неизвестного параметра генеральной совокупности называют вычисленный на основе данных выборки интервал, в котором генеральный параметр содержится с известной вероятностью.

Доверительный интервал для оценки среднего значения доли в генеральной совокупности: $$ p=wpmtriangle text{или} w-triangleleq pleq 2+triangle $$

(Z_alpha) – это квантиль нормального распределения, который появляется потому, что генеральная совокупность считается нормально распределенной.
Величина (P=1-alpha) называется уровнем доверия (доверительной вероятностью), это вероятность того, что при измерении доли в генеральной совокупности её значение попадет в заданный интервал.
Соответственно (alpha) – уровень значимости — это вероятность промаха.
Существуют таблицы со значениями (Z_alpha).
Для расчета также можно пользоваться MS Excel функцией НОРМСТОБР(1-α/2).

Например:
Найдем (Z_alpha) для доверительной вероятности 95%.
(P=0,95Rightarrowalpha=1-P=0,05)
Распространение результатов выборки на генеральную совокупность при изучении альтернативного признака
Теперь найдем предельную ошибку выборки для нашего примера с точностью до тысячных: $$ triangle =1,9600cdot 0,0257approx 0,050 $$ Заметим, что расчеты в данном случае ведутся в Excel, и мы просто записываем результаты округлений, в то время как в сам Excel хранит результаты и выполняет вычисления точностью до 15 значащих цифр.
Если вы ведете расчеты на калькуляторе с промежуточными округлениями, то для того, чтобы получить результат с точностью до тысячных, нужно иметь «про запас» еще одну цифру после запятой (т.е. до 4х знаков).
95% доверительный интервал имеет вид: begin{gather*} 0,08-0,050leq pleq 0,08+0,050\ 0,030leq pleq 0,130 end{gather*} Вывод: с вероятностью 95% можно утверждать, что доля брака в генеральной совокупности (всей партии) составляет от 3,0% до 13,0%.

п.4. Минимальный объем выборки

Минимальный необходимый объем выборки для построения доверительного интервала для среднего значения с заданной точностью (triangle) и уровнем значимости α равен:
— для повторной выборки (n_{мин}=left(frac{Z_alpha sigma}{triangle}right)^2)
— для бесповторной выборки (n_{мин}=frac{1}{left(frac{triangle}{Z_alpha sigma}right)^2+frac1N})

Например:
Пусть «целевая» предельная ошибка выборки равна (triangle =0,01), доверительная вероятность равна 95%.
Для нашего примера с партией товара получаем (бесповторная выборка): $$ n_{мин}=frac{1}{left(frac{0,01}{1,96cdot 0,271}right)^2+frac{1}{1000}}approx 738,7approx uparrow 739 $$ Нам необходимо проверить не менее 739 изделий из 1000, чтобы записать для средней доли в генеральной совокупности (p=wpm 0,01).

п.4. Алгоритм построения доверительного интервала для оценки генеральной доли

Повторная выборка

На входе: объем выборки n, число повторений признака (n_x), доверительная вероятность (P)
Шаг 1. Найти выборочную долю (w=frac{n_x}{n}), дисперсию (sigma=sqrt{w(1-w)})
Шаг 2. Найти среднюю ошибку выборки (m=frac{sigma}{sqrt{n}})
Шаг 3. Найти уровень значимости (alpha=1-P), рассчитать (Z_alpha) (если в Excel, то НОРМСТОБР(1-α/2))
Шаг 4. Найти предельную ошибку выборки (triangle =Z_alpha m)
На выходе: интервал для генеральной доли (p=wpmtriangle)

Бесповторная выборка

На входе: объем генеральной совокупности N, объем выборки n, число повторений признака (n_x), доверительная вероятность (P)
Шаг 1. Найти выборочную долю (w=frac{n_x}{n}), дисперсию (sigma=sqrt{w(1-w)})
Шаг 2. Найти среднюю ошибку выборки (m=frac{sigma}{sqrt{n}}sqrt{1-frac nN})
Шаг 3. Найти уровень значимости (alpha=1-P), рассчитать (Z_alpha) (если в Excel, то НОРМСТОБР(1-α/2))
Шаг 4. Найти предельную ошибку выборки (triangle =Z_alpha m)
На выходе: интервал для генеральной доли (p=wpmtriangle)

п.5. Для каких величин строят доверительные интервалы?

В этом параграфе мы научились строить доверительный интервал для оценки биномиальной доли в генеральной совокупности.

На практике в статистических исследованиях доверительные интервалы строят для:
— оценки математического ожидания в генеральной совокупности, если выборка образует вариационный ряд (дискретный или непрерывный). Здесь разделяют два случая: а) генеральная дисперсия известна или б) она неизвестна;
— оценки дисперсии генеральной совокупности, если выборка образует вариационный ряд (дискретный или непрерывный). Здесь также разделяют два случая: а) генеральная средняя известна или б) она неизвестна.

Алгоритмы для поиска доверительных интервалов отличаются использованием различных распределений (Z-распределения, t-распределения Стьюдента, χ2-распределения), но, если обобщить, то логика такова: опираясь на результаты выборки и гипотезу о распределении средней или дисперсии, получаем оценку для соответствующей генеральной величины.

Подробней о построении различных доверительных интервалов вы можете узнать из вузовских курсов теории вероятностей и статистики.

п.6. Примеры

Пример 1. Перед выборами мера в городе был проведен опрос 1000 человек (2% бесповторная выборка). В результате опроса оказалось, что за кандидата Y готовы проголосовать 423 человека из опрошенных. Определите с уровнем значимости 3% долю сторонников кандидата Y в городе.

По условию: $$ n=1000; frac nN=2text{%}=0,02; n_x=423; alpha=3text{%}=0,03 $$ Находим выборочную долю и дисперсию: begin{gather*} w=frac{n_x}{n}=frac{423}{1000}=0,423\ sigma^2=w(1-w)=0,423cdot 0,577approx 0,2441 end{gather*} Средняя ошибка выборки: $$ m=sqrt{frac{sigma^2}{n}left(1-frac nNright)}=sqrt{frac{0,2441}{1000}cdot (1-0,02)}approx 0,0155 $$ Находим (Z_alpha)
Пример 1
Предельная ошибка выборки с точностью до тысячных: $$ triangle=Z_alpha m=2,1701cdot 0,0155approx 0,034 $$ 97% доверительный интервал имеет вид: begin{gather*} 0,423-0,034leq pleq 0,423+0,034\ 0,389leq pleq 0,457 end{gather*}
Вывод: с вероятностью 97% (уровнем значимости 3%) можно утверждать, что доля сторонников кандидата Y в городе составляет от 38,9% до 45,7%.

Пример 2. Какое минимальное число людей нужно опросить в городе из предыдущего примера, чтобы можно было с уровнем значимости 3% получить предельную ошибку для генеральной доли (triangle=)1%. Выборка бесповторная.

По условию предыдущего примера общее число жителей в городе: (N=frac{n}{0,02}=50000).
Оценка минимального объема бесповторной выборки: $$ n_{мин}=frac{1}{left(frac{triangle}{Z_alpha sigma}right)^2+frac1N} $$ Нужно подставить: begin{gather*} triangle=1text{%}=0,01; Z_alpha=2,170; sigma=sqrt{0,2441}; N=50000 end{gather*} Получаем: $$ n_{мин}=frac{1}{left(frac{0,01}{2,170cdotsqrt{0,2441}}right)^2+frac{1}{50000}} $$ Таким образом, чтобы снизить предельную ошибку определения генеральной доли до 1%, нужно опросить не менее 9346 человек или почти что каждого пятого жителя города.

Понравилась статья? Поделить с друзьями:
  • Интерактивное телевидение ростелеком ошибка при воспроизведении
  • Интеграл ошибок это
  • Интерактивная игра огонь ошибок не прощает
  • Интеграл ошибок таблица значений
  • Интеграл ошибок от бесконечности