В
статистике выделяют два основных метода
исследования — сплошной и выборочный.
При проведении выборочного исследования
обязательным является соблюдение
следующих требований: репрезентативность
выборочной совокупности и достаточное
число единиц наблюдений. При выборе
единиц наблюдения возможны ошибки
смещения,
т.е. такие события, появление которых
не может быть точно предсказуемым. Эти
ошибки являются объективными и
закономерными. При определении степени
точности выборочного исследования
оценивается величина ошибки, которая
может произойти в процессе выборки
— случайная
ошибка репрезентативности (m)
— является
фактической разностью между средними
или относительными величинами, полученными
при проведении выборочного исследования
и аналогичными величинами, которые были
бы получены при проведении исследования
на генеральной совокупности.
Оценка
достоверности результатов исследования
предусматривает определение:
1.
ошибки репрезентативности
2.
доверительных границ средних (или
относительных) величин в генеральной
совокупности
3.
достоверности разности средних (или
относительных) величин (по критерию t)
Расчет
ошибки репрезентативности
(mм)
средней арифметической величины
(М):
,
где σ
— среднее квадратическое отклонение; n
— численность выборки (>30).
Расчет
ошибки репрезентативности (mР)
относительной величины (Р):
,
где Р — соответствующая относительная
величина (рассчитанная, например, в %);
q
=100 — Ρ%
— величина, обратная Р; n
— численность выборки (n>30)
В
клинических и экспериментальных работах
довольно часто приходится использовать
малую
выборку, когда
число наблюдений меньше или равно 30.
При малой выборке для расчета ошибок
репрезентативности, как средних, так
и относительных величин,
число
наблюдений уменьшается на единицу,
т.е.
;
.
Величина
ошибки репрезентативности зависит от
объема выборки: чем больше число
наблюдений, тем меньше ошибка. Для оценки
достоверности выборочного показателя
принят следующий подход: показатель
(или средняя величина) должен в 3 раза
превышать свою ошибку, в этом случае он
считается достоверным.
83. Определение доверительных границ средних и относительных величин.
Знание
величины ошибки недостаточно для того,
чтобы быть уверенным в результатах
выборочного исследования, так как
конкретная ошибка выборочного
исследования может быть значительно
больше (или меньше) величины средней
ошибки репрезентативности. Для
определения точности, с которой
исследователь желает получить результат,
в статистике используется такое понятие,
как вероятность безошибочного
прогноза, которая является характеристикой
надежности результатов выборочных
медико-биологических статистических
исследований. Обычно, при проведении
медико-биологических статистических
исследований используют вероятность
безошибочного прогноза 95% или 99%. В
наиболее ответственных случаях, когда
необходимо сделать особенно важные
выводы в теоретическом или практическом
отношении, используют вероятность
безошибочного прогноза 99,7%
Определенной
степени вероятности безошибочного
прогноза соответствует определенная
величина предельной
ошибки случайной выборки (Δ
— дельта),
которая определяется по формуле:
Δ=t
* m
, где t
— доверительный коэффициент, который
при большой выборке при вероятности
безошибочного прогноза 95% равен 2,6;
при вероятности безошибочного
прогноза 99% — 3,0; при вероятности
безошибочного прогноза 99,7% — 3,3, а при
малой выборке определяется по специальной
таблице значений t
Стьюдента.
Используя
предельную ошибку выборки (Δ),
можно определить доверительные
границы,
в которых с определенной вероятностью
безошибочного прогноза заключено
действительное значение статистической
величины,
характеризующей
всю генеральную совокупность (средней
или относительной).
Для
определения доверительных границ
используются следующие формулы:
Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
Справочник /
Лекторий Справочник /
Лекционные и методические материалы по статистике /
Ошибка репрезентативности и доверительный интервал для
генерального параметра
Конспект лекции по дисциплине «Ошибка репрезентативности и доверительный интервал для
генерального параметра»,
pdf
Файл загружается
Благодарим за ожидание, осталось немного.
Конспект лекции по дисциплине «Ошибка репрезентативности и доверительный интервал для
генерального параметра».
pdf
txt
Конспект лекции по дисциплине «Ошибка репрезентативности и доверительный интервал для
генерального параметра», текстовый формат
Лекция 2. Ошибка репрезентативности и доверительный интервал для
генерального параметра
Выборочные характеристики, представляющие собой числа (точки на
шкале) называют точечными оценками (существуют также и интервальные
оценки). Оценки должны удовлетворять следующим требованиям: быть
состоятельными, эффективными, несмещенными. Только при удовлетворении
этих требований оценки хорошо представляют соответствующие параметры.
В математической статистике введено понятие статистической ошибки
или ошибки репрезентативности; она связана с точностью, с которой
выборочная оценка представляет, репрезентирует свой параметр.
Когда ошибка оценивания генерального параметра стремится к нулю при
возрастании объема выборки, т.е. значение оценки стремится к значению
параметра, то такая оценка называется состоятельной. Оценка называется
эффективной,
если
она
имеет
наименьшую
дисперсию
выборочного
распределения по сравнению с другими аналогичными оценками.
К примеру,
из трех показателей, описывающих положение центра
нормального распределения (средняя, медиана, мода), наиболее эффективной
является средняя арифметическая, наименее эффективной — мода.
Оценка
ожидание)
называется
ее
несмещенной,
выборочного
если
распределения
среднее
совпадает
(математическое
со
значением
генерального параметра. Выборочная средняя является несмещенной оценкой
генеральной средней, а тогда как выборочная дисперсия представляет собой
смещенную оценку.
Например, чтобы получить несмещенную оценку, надо при вычислении
выборочной дисперсии использовать формулу, где в знаменателе (N — 1):
D=S2=
1
2
( Xi X )
N 1
Для понимания смысла этих требований нужно рассмотреть понятие
выборочного распределения оценок какого-либо параметра.
Рассмотрим
условный
пример
для
такого
понятия,
как
арифметическое среднее: пусть ГС представляет собой 5 результатов
выполнения некоторого психологического теста: 8 16 20 24 32:
=
8 16 20 24 32
= 20
5
Таким образом, 20 — это значение генерального параметра.
Заменим изучение генеральной совокупности изучением выборок объемом
n = 4. Рассмотрим все возможные варианты таких выборок:
1) 8
16 20 24
= 17
2) 16 20 24 32
= 23
3) 8
16 24 32
= 20
4) 8
16 20 32
= 19
Из нашего примера видно, что из 5 оценок средних лишь одна совпала
с параметром. Заранее мы не можем знать, как составить (отобрать) выборку,
чтобы оценка параметра по ней была близка к параметру.
Однако очевидно, что чем больше объем выборки, тем меньше вероятность
того, что , определяемое по выборке, будет значительно отличаться от
генерального среднего (крайние случаи n=N-1 и n=2 ,т.е. N>>n) .
Когда
генеральная совокупность велика и, соответственно, число
возможных выборок велико, то совокупность выборочных оценок средних для
каждой
из
этих
концентрирующееся
выборок
вокруг
«концентрация» (дисперсия)
Дисперсия
образует
генерального
тем
выше,
нормальное
среднего,
чем
больше
распределение,
причем
эта
объемы выборок.
распределения средних имеет особое название, она именуется
ошибкой репрезентативности.
Выше речь шла о распределении выборочных средних.
Это же
рассуждение можно повторить для оценок дисперсии, моды, коэффициентов
корреляции и т.д.
В теории математической статистики доказано, что нормального
распределения при достаточном объеме выборки (на практике n 30),
стандартное отклонение среднего арифметического равно:
Sx =
S
N
; где
S — стандартное отклонение
N — объем выборки.
Эту величину называют также статистической ошибкой или ошибкой
репрезентативности, т.е. это средняя ошибка, которая допускается, когда
рассматривается как генеральный параметр.
Для других параметров ошиб ки репрезентативности таковы:
Ошибка репрезентативности дисперсии:
Ss2=S2/ 2N
Ошибка репрезентативности стандартного отклонения
Ss=S/ 2N
Ошибка репрезентативности показателя асимметрии:
Sa= 6 / N
Ошибка репрезентативности показателя эксцесса:
Se= 24 / N
Теперь перейдем к понятию доверительного интервала, которое применяется
для любого параметра. Мы рассмотрим его для генеральной средней. По
известным выборочным характеристикам можно построить интервал, в котором
с той или иной степенью вероятности находится генеральное среднее. Понятие
доверительного интервала связано с понятием доверительной вероятности.
Согласно этому принципу, маловероятные события считаются практически
невозможными,
а
события,
вероятность
которых
близка
к
единице,
принимаются за почти достоверные. Обычно в психологии в качестве
доверительных используют вероятности р = 0,95 и р = 0,99. Это означает, что
при оценивании генерального параметра по известной выборочной оценке риск
ошибиться в первом случае — один раз на 20 испытаний, во втором случае 1 раз
на 100 испытаний.
С доверительной вероятностью связано понятие уровня значимости
= 1- р
Геометрически — это площадь под нормальной кривой выборочного
распределения, выходящая за пределы той его части, которая соответствует
Р%, поскольку в сумме они соответствуют всей площади под кривой. Иначе
говоря,
означает площадь двух хвостов под кривой нормального
распределения. При при р = 0,95 и = 0, 05 на каждый «хвост» приходится
по 2,5 % площади.
Вероятность того, что будет находиться в пределах
доверительного интервала x — t SX + t SX,
описывается
особой функцией, которая сведена в таблице (обычно это таблица 1 в
приложении учебников по математической статистике)
для р= 0,95
t=1,96
для р=0,99
t = 2,58
для p=0, 999 t =3,29
График нормальной кривой
Выбор того или иного уровня доверительной вероятности зависит от
исследователя, от его оценки ответственности за ошибочность выводов
относительно генерального параметра .
Пример: При измерении объема памяти у 100 испытуемых
получено среднее значение числа запоминаемых сигналов
было
= 9 и
стандартное отклонение S = 3. 27. Построить доверительный
интервал для генеральной средней .
Вычисления проводятся по формуле:
x — t SX + t SX
9 — 1,96
3271
.
327
.
92+1,96
100
100
или 9+ 0.196 3,27 9 + 1..96 3,27 или 8. 36 9.64.
Таким образом, с вероятностью р = 0.95 генеральный параметр
находится в интервале 8.36 — 9.64.
95%
Статистика
Статистика
Курс : Статистика
Статистика В.М. Гусаров Москва, Юнити , 2003г
Статистика В.С. Мхиторян , Москва, Экономист, 2005г.
Статистика И.И. Елисеева
Статисти…
Смотреть все
Поделись лекцией и получи скидку!
Заполни поля, отправь лекцию и мы вышлем тебе скидку-промокод на Автор24
Предмет
Название лекции
Авторы
Описание
Другие Экономические предметы
-
Экономика
-
Менеджмент
-
Бухгалтерский учет и аудит
-
Управление персоналом
-
Статистика
-
Маркетинг
-
Экономика предприятия
-
Государственное и муниципальное управление
-
Финансовый менеджмент
-
Эконометрика
-
Финансы
-
Менеджмент организации
-
Бизнес-планирование
-
Управление проектами
-
Экономический анализ
-
Экономическая теория
-
Микро-, макроэкономика
-
Инновационный менеджмент
-
Логистика
-
Анализ хозяйственной деятельности
Доверительный интервал за 15 минут
Добрый день, уважаемые читатели!
Меня зовут Кирилл Мильчаков. Сегодня мы продолжаем наш разговор о биостатистике. Тема сегодняшней нашей беседы будет «Доверительный интервал». Что такое доверительный интервал? Вы наверняка встречались с ним в научной литературе. Доверительный интервал 95 %, либо сочетание символов ДИ и CI (confidence interval) 95 %. Что же означают эти 95 %? Какие он еще может принимать значения? И как его рассчитывать самостоятельно? Об этом обо всем сегодня мы и поговорим в этой статье.
Видео-версия статьи о доверительном интервале
Генеральная совокупность и выборочная совокупность
Прежде чем углубляться в тайны доверительного интервала, хотел бы вспомнить с вами 2 основных понятия статистической совокупности, с которыми чаще всего работают – это генеральная совокупность или выборочная совокупность или выборка.
Генеральная совокупность – это тот массив данных, о которых вы хотите сделать выводы.
Выборка является частью генеральной совокупности, которая участвует непосредственно в вашем эксперименте. Есть такое понятие как репрезентативность, сегодня мы не будем его касаться, главное запомнить, что выборка должна быть репрезентативной.
Если привести небольшой пример относительно генеральной совокупности и выборки, то можно вспомнить о простом случае из вашей жизни. Когда вы хотите узнать, достаточно ли посолен суп, вы берете ложку супа и пробуете его. Вам необязательно есть весь суп, чтобы понять, насколько он посолен. Ложка в данном случае является выборкой, по которой вы делаете вывод обо всей кастрюле супа. В данном случае кастрюля супа является генеральной совокупностью, а ложка супа является выборкой.
Итак, мы вспомнили с вами о 2 ключевых статистических совокупностях – о генеральной совокупности и выборочной совокупности. Теперь нужно вспомнить, что типы исследования, которые проводятся над генеральной совокупностью и выборочной совокупностью, называют по-разному. Над генеральной совокупностью проводятся так называемые сплошные исследования, над выборочной совокупностью – выборочные.
Теперь вспомним небольшие отличия между параметрами этих 2 совокупностей. Сегодня для того, чтобы понять, что такое доверительный интервал, нам понадобятся следующие вещи: во-первых, отличие средней арифметической в генеральной совокупности и в выборочной совокупности. В генеральной совокупности она имеет значок µ (мю), в выборочной – это x̅ (х с чертой) — это средние арифметические по каждому виду совокупности.
Далее нужно знать, что стандартное отклонение имеет значок выборочной – либо S, либо SD (standard deviation), а в случае генеральной совокупности оно носит название среднеквадратичного отклонения и обозначается буквой σ (сигма).
Приведем пример расчета доврительного интервала
Представьте чисто гипотетическую ситуацию, когда перед нами стоит задача исследований среднего роста марсианина. Для того, чтобы его узнать, было отправлено 3 экспедиции. Первой из них повезло больше всего: они смогли поймать каждого из 200 марсианин и померить его рост.
Как мы помним, по закону нормального распределения по оси Х находится величина изучаемого признака, либо варианта (в данном случае это рост в сантиметрах), а по оси Y – частота встречаемости какого-то признака (мы его обозначаем буквой П.
Итак, оказалось, что у всех 200 марсиан средний рост составил 40 сантиметров. Таким образом, первая экспедиция смогла провести так называемое сплошное исследование, так как поработала со всеми единицами наблюдения генеральной совокупности. Поэтому мы имеем право назвать этот параметр µ.
Однако, второй и третьей экспедиции повезло гораздо меньше. Они попали в самые плохо населенные участки Марса и смогли отобрать только 10 марсиан. В данном случае оказалось, что средний рост по их выборке составил всего 38 сантиметров в первом случае и 41 сантиметр во втором случае.
Что же делать? Да, у нас есть данные из самого полного исследования, которое относится к первой экспедиции. Но представьте, что ни одна бы из них не смогла бы поработать со всей совокупностью полностью, и у нас были бы данные только от второй и третьей экспедиции. Что же в этой ситуации делать? Видно, что никто 40 сантиметров в действительности не достиг: во второй экспедиции Б она равна 38 сантиметрам, а в экспедиции В – 41 сантиметр. То есть в реальности никто не достиг 40 сантиметров. Что же делать в данном случае?
И вот здесь на помощь к нам приходит доверительный интервал, точнее оценка параметра. Доверительный интервал является вторым этапом оценки параметра. Прежде чем строить доверительный интервал, нам нужно понять, насколько в принципе этот параметр наша средняя (x̅б, x̅в) может отличаться, ошибаться от реального параметра в генеральной совокупности. Насколько?
И тут нам помогает оценка параметра или нахождение ошибки репрезентативности. Ошибка репрезентативности обозначается mr или mx. Чаще я использую mr. Что же это значит? mr по-английски обозначается как standard error, по-русски она часто называется стандартная ошибка средней или ошибка репрезентативности. Как же она находится? А находится она следующим образом? Она учитывает стандартное квадратичное отклонение в генеральной совокупности и размер в выборке. От чего же зависит ошибка репрезентативности? А зависит она от 2 вещей: от среднеквадратичного отклонения в генеральной совокупности (я напоминаю, это насколько каждая варианта отличается от средней, о законе нормального распределения мы с вами поговорим в следующий раз) и от размера выборки или . То есть, таким образом, чем менее разбросан признак генеральной совокупности, и чем больше у нас размер выборки, тем меньше наша ошибка репрезентативности.
Итак, предположим, мы нашли нашу ошибку репрезентативности mr. В данном случае она составила 2,7 сантиметра. Но что же это нам дает? А дает нам это уже достаточно много. Теперь мы, зная, насколько в принципе наша выборка может ошибаться относительно генеральной совокупности, можем составить определенное предположение о том, где же находится реальный параметр – реальные 40 сантиметров генеральной совокупности на основании данных лишь нашей выборки.
Каким же образом это происходит? Мы провели точечную оценку нашего параметра. Дальше происходит второй этап построения доверительного интервала – это интервальная оценка параметра. Каким же образом строится этот интервал? А складывается он из 2 вещей: так называемой предельной ошибки +∆ и -∆. Формула нахождения предельной ошибки достаточно проста и составляет:
±∆ = t*mr
Для того, чтобы не залезать в критерий Стьюдента сегодня, я скажу лишь, что:
для доверительного интервала 95 % используется t=2,
для доверительного интервала 99 % используется t=3
и для доверительного интервала 68 % используется t=1.
Итак, после того, как мы нашли нашу предельную ошибку, мы можем построить доверительный интервал. Но для этого нам нужно самим задать тот доверительный интервал, который для нас подходит больше всего. Чаще всего в медицине используется вероятность ошибки 5 %, то есть доверительный интервал 95 % или вероятность ошибки 5 % (р=0,05, р=5 %).
Что же значат эти 95 %? А значат они следующее, что с 95%-ной вероятностью в нашем интервале лежит реальное значение, и лишь в 5 % случаев мы ошибаемся. То есть в нашем конкретном случае наша ошибка репрезентативности составила 2,7 сантиметра. Предельная ошибка отсюда будет равна чему? Именно 5,4 сантиметра, то есть доверительный интервал, так как здесь и плюс, и минус, то есть нам нужно ошибку умножить на 2, составил 10,8 сантиметров. А именно наши 38 см±5,4 см. Ширина всего доверительного интервала составляет 10,8 см. Напомню, что он складывается из положительной и отрицательной предельных ошибок вокруг нашей выборочной средней.
Итак, говоря о доверительном интервале, нужно сделать ряд важных выводов.
- Во-первых, доверительный интервал относится к выборочной совокупности. Он показывает, насколько параметры из выборочной совокупности могут отличаться от реально существующих данных в генеральной совокупности. Насколько мы ошибаемся при формировании той или иной выборки, мы закладываем в так называемую ошибку репрезентативности, в ошибку средней и вокруг нее собственно и строим доверительный интервал.
- Ширину доверительного интервала задает собственно сам исследователь, варьируя тот критерий t, который он принимает в качестве необходимого. Чаще всего применяется t=2, которое и соответствует ширине доверительного интервала 95 %. 95 % означает, что с 95%-ной вероятностью действительно вокруг выборочной средней существует определенный доверительный интервал, в который и попадает реально существующая средняя из генеральной совокупности. Этот доверительный интервал может быть либо уже, если t=1; либо шире, если t=3.
- Доверительный интервал задается самостоятельно исследователем. Чаще всего он равен 95 %.
Если это видео оказалось Вам полезным, оно хотя бы немного раскрыло тайны доверительного интервала, ставьте лайки, подписывайтесь на наши рассылки и в комментариях пишите, какие темы по биостатистике вам бы были интересны для следующих выпусков. На этом я с вами прощаюсь. Меня зовут Кирилл. Пока!
Если Вам понравилась статья и оказалась полезной, Вы можете поделиться ею с коллегами и друзьями в социальных сетях:
Ошибка репрезентативности выборочных параметров
По
части никогда не удается полностью
охарактеризовать целое, всегда остается
вероятность того, что выборочная оценка
недостаточна близка к значению параметра
генеральной совокупности, имеет
некоторую ошибку. Отличия
значений выборочных параметров от
генеральных называются ошибкой
репрезентативности данного параметра,
или просто (статистической) ошибкой.
При увеличении объема выборки ошибки
репрезентативности стремятся к нулю
(следствие закона больших чисел). Численно
выраженные статистические ошибки служат
мерой тех пределов, в которых выборочные
параметры могут отклоняться от значений
генеральных параметров. Например, если
для нескольких выборок, полученных из
одной и той же генеральной совокупности,
посчитать средние, а затем оценить
изменчивость этих средних, то стандартное
отклонение средних (SM)
и будет численной мерой ошибки
репрезентативности выборочной средней.
Она обозначается буквой m.
Величина
ошибки тем больше, чем больше
варьирование признака (S)
и чем меньше выборка (n).
Ошибку репрезентативности имеют все
статистические параметры, рассчитанные
по выборке. Для практики статистического
оценивания разработаны специальные
формулы. Для нормального распределения
они имеют следующий вид. Ошибка средней:
,
ошибка
стандартного отклонения:
,
ошибка
коэффициента вариации:
.
Вычисленные
значения ошибок подставляют к
соответствующим параметрам со знаками
плюс-минус (параметр ± ошибка) и в такой
форме представляют в научных отчетах
и публикациях. В примере с бурозубками
для разных параметров имеем:
,
M = 9.3 ± 0.11 г,
,
S = 0.89 ± 0.079 г,
,
CV = 9.6 ± 0.9%.
Не
следует путать статистическую ошибку
с методическими ошибками и ошибками
точности (точности измерений, анализов,
подсчетов и т. д.), хотя методические
погрешности и увеличивают ошибку
репрезентативности, но другим путем –
методические огрехи увеличивают
изменчивость признака, стандартное
отклонение.
При
всей неизбежности статистической
ошибки она может быть сведена к минимуму
отбором достаточного числа особей
(вариант). С ростом объема выборки оценки
параметров стабилизируются, а их ошибки
репрезентативности уменьшаются.
Доверительный интервал
Параметры
генеральной совокупности практически
всегда остаются неизвестными, о них
судят по выборочным оценкам, используя
для этого значения ошибок репрезентативности.
Теоретические исследования поведения
выборочных средних (как случайных
величин) показали, что они подчиняются
нормальному закону, большинство из них
(95%) находится поблизости от генеральной
средней – в диапа-зонеMген. ± 1.96m
(приближенно ±2m).
Это обстоятельство позво-ляет делать
обратное заключение – генеральная
средняя находится в диапазоне
Mвыбор. ± 1.96m,
т. е. предсказывать ширину интервала,
в котором заключен генеральный параметр,
давать интервальную
оценку генеральному
параметру.
В
соответствии с законом нормального
распределения можно ожидать, что
генеральный параметр (истинное значение)
окажется в интервале
от
М − tm
до М + tm,
где
m
– ошибка средней арифметической,
t
– квантиль распределения Стьюдента
(табл. 6П)
при данном числе степеней свободы (df)и
уровне значимости (обычно α = 0.05).
Сказанное
можно перефразировать так: с вероятностью
P
можно
ожидать, что генеральная средняя
находится в доверительном интервале
М ± tm,
построенном вокруг выборочной средней
арифметической M.
Доверительный
интервал – интервал значений изучаемого
признака, в котором с той или иной
вероятностью P
находится значение генерального
параметра.
Возвращаясь
к примеру о весе землероек-бурозубок,
мы теперь можем записать доверительные
интервалы при разных уровнях вероятности
(граничные значения t
взяты для случая n = ∞):
для
Р = 0.95
М ± tт
= 9.3 ± 1.96 ∙ 0.11
= 9.3 ± 0.21 г;
для
Р = 0.99
М ± tт
= 9.3 ± 2.58 ∙ 0.11
= 9.3 ± 0.28 г.
Здесь
искомая генеральная средняя величина
веса землероек с вероятностью P = 95%
находится в пределах 9.11-9.53 г,
а при P = 99%
– 9.04-9.6 г.
Если
объем выборки, для которой были получены
параметры и ошибка репрезентативности
m,
был невелик (n < 50),
то необходимо вводить поправки на объем
выборки, расширяя область возможного
пребывания генерального параметра. Это
понятно, поскольку при дефиците информации
любые заключения не могут быть очень
точными. Так, для выборки объемом n = 20
экз. ошибка средней составит
г,
а доверительный интервал: М ± tт
= 9.3 ± 2.09∙0.2
= 9.3 ± 0.41
г – от 8.9 до 9.7 г (при уровне значимости
α = 0.05
и числе степеней свободы df = n − 1
= 20 − 1
= 19 табличная величина статистики
Стьюдента равна t
= 2.09).
Аналогичным
образом можно построить доверительный
интервал для стандартного отклонения
(S ± tmS),
коэффициента вариации (CV ± tmCV),
а также других статистических параметров
(коэффициентов асимметрии, эксцесса,
регрессии, корреляции).
Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
Лекция 2. Ошибка репрезентативности и доверительный интервал для
генерального параметра
Выборочные характеристики, представляющие собой числа (точки на
шкале) называют точечными оценками (существуют также и интервальные
оценки). Оценки должны удовлетворять следующим требованиям: быть
состоятельными, эффективными, несмещенными. Только при удовлетворении
этих требований оценки хорошо представляют соответствующие параметры.
В математической статистике введено понятие статистической ошибки
или ошибки репрезентативности; она связана с точностью, с которой
выборочная оценка представляет, репрезентирует свой параметр.
Когда ошибка оценивания генерального параметра стремится к нулю при
возрастании объема выборки, т.е. значение оценки стремится к значению
параметра, то такая оценка называется состоятельной. Оценка называется
эффективной,
если
она
имеет
наименьшую
дисперсию
выборочного
распределения по сравнению с другими аналогичными оценками.
К примеру,
из трех показателей, описывающих положение центра
нормального распределения (средняя, медиана, мода), наиболее эффективной
является средняя арифметическая, наименее эффективной — мода.
Оценка
ожидание)
называется
ее
несмещенной,
выборочного
если
распределения
среднее
совпадает
(математическое
со
значением
генерального параметра. Выборочная средняя является несмещенной оценкой
генеральной средней, а тогда как выборочная дисперсия представляет собой
смещенную оценку.
Например, чтобы получить несмещенную оценку, надо при вычислении
выборочной дисперсии использовать формулу, где в знаменателе (N — 1):
D=S2=
1
2
( Xi X )
N 1
Для понимания смысла этих требований нужно рассмотреть понятие
выборочного распределения оценок какого-либо параметра.
Рассмотрим
условный
пример
для
такого
понятия,
как
арифметическое среднее: пусть ГС представляет собой 5 результатов
выполнения некоторого психологического теста: 8 16 20 24 32:
=
8 16 20 24 32
= 20
5
Таким образом, 20 — это значение генерального параметра.
Заменим изучение генеральной совокупности изучением выборок объемом
n = 4. Рассмотрим все возможные варианты таких выборок:
1) 8
16 20 24
= 17
2) 16 20 24 32
= 23
3) 8
16 24 32
= 20
4) 8
16 20 32
= 19
Из нашего примера видно, что из 5 оценок средних лишь одна совпала
с параметром. Заранее мы не можем знать, как составить (отобрать) выборку,
чтобы оценка параметра по ней была близка к параметру.
Однако очевидно, что чем больше объем выборки, тем меньше вероятность
того, что , определяемое по выборке, будет значительно отличаться от
генерального среднего (крайние случаи n=N-1 и n=2 ,т.е. N>>n) .
Когда
генеральная совокупность велика и, соответственно, число
возможных выборок велико, то совокупность выборочных оценок средних для
каждой
из
этих
концентрирующееся
выборок
вокруг
«концентрация» (дисперсия)
Дисперсия
образует
генерального
тем
выше,
нормальное
среднего,
чем
больше
распределение,
причем
эта
объемы выборок.
распределения средних имеет особое название, она именуется
ошибкой репрезентативности.
Выше речь шла о распределении выборочных средних.
Это же
рассуждение можно повторить для оценок дисперсии, моды, коэффициентов
корреляции и т.д.
В теории математической статистики доказано, что нормального
распределения при достаточном объеме выборки (на практике n 30),
стандартное отклонение среднего арифметического равно:
Sx =
S
N
; где
S — стандартное отклонение
N — объем выборки.
Эту величину называют также статистической ошибкой или ошибкой
репрезентативности, т.е. это средняя ошибка, которая допускается, когда
рассматривается как генеральный параметр.
Для других параметров ошиб ки репрезентативности таковы:
Ошибка репрезентативности дисперсии:
Ss2=S2/ 2N
Ошибка репрезентативности стандартного отклонения
Ss=S/ 2N
Ошибка репрезентативности показателя асимметрии:
Sa= 6 / N
Ошибка репрезентативности показателя эксцесса:
Se= 24 / N
Теперь перейдем к понятию доверительного интервала, которое применяется
для любого параметра. Мы рассмотрим его для генеральной средней. По
известным выборочным характеристикам можно построить интервал, в котором
с той или иной степенью вероятности находится генеральное среднее. Понятие
доверительного интервала связано с понятием доверительной вероятности.
Согласно этому принципу, маловероятные события считаются практически
невозможными,
а
события,
вероятность
которых
близка
к
единице,
принимаются за почти достоверные. Обычно в психологии в качестве
доверительных используют вероятности р = 0,95 и р = 0,99. Это означает, что
при оценивании генерального параметра по известной выборочной оценке риск
ошибиться в первом случае — один раз на 20 испытаний, во втором случае 1 раз
на 100 испытаний.
С доверительной вероятностью связано понятие уровня значимости
= 1- р
Геометрически — это площадь под нормальной кривой выборочного
распределения, выходящая за пределы той его части, которая соответствует
Р%, поскольку в сумме они соответствуют всей площади под кривой. Иначе
говоря,
означает площадь двух хвостов под кривой нормального
распределения. При при р = 0,95 и = 0, 05 на каждый «хвост» приходится
по 2,5 % площади.
Вероятность того, что будет находиться в пределах
доверительного интервала x — t SX + t SX,
описывается
особой функцией, которая сведена в таблице (обычно это таблица 1 в
приложении учебников по математической статистике)
для р= 0,95
t=1,96
для р=0,99
t = 2,58
для p=0, 999 t =3,29
График нормальной кривой
Выбор того или иного уровня доверительной вероятности зависит от
исследователя, от его оценки ответственности за ошибочность выводов
относительно генерального параметра .
Пример: При измерении объема памяти у 100 испытуемых
получено среднее значение числа запоминаемых сигналов
было
= 9 и
стандартное отклонение S = 3. 27. Построить доверительный
интервал для генеральной средней .
Вычисления проводятся по формуле:
x — t SX + t SX
9 — 1,96
3271
.
327
.
92+1,96
100
100
или 9+ 0.196 3,27 9 + 1..96 3,27 или 8. 36 9.64.
Таким образом, с вероятностью р = 0.95 генеральный параметр
находится в интервале 8.36 — 9.64.
95%
Доверительный интервал за 15 минут
Добрый день, уважаемые читатели!
Меня зовут Кирилл Мильчаков. Сегодня мы продолжаем наш разговор о биостатистике. Тема сегодняшней нашей беседы будет «Доверительный интервал». Что такое доверительный интервал? Вы наверняка встречались с ним в научной литературе. Доверительный интервал 95 %, либо сочетание символов ДИ и CI (confidence interval) 95 %. Что же означают эти 95 %? Какие он еще может принимать значения? И как его рассчитывать самостоятельно? Об этом обо всем сегодня мы и поговорим в этой статье.
Видео-версия статьи о доверительном интервале
Генеральная совокупность и выборочная совокупность
Прежде чем углубляться в тайны доверительного интервала, хотел бы вспомнить с вами 2 основных понятия статистической совокупности, с которыми чаще всего работают – это генеральная совокупность или выборочная совокупность или выборка.
Генеральная совокупность – это тот массив данных, о которых вы хотите сделать выводы.
Выборка является частью генеральной совокупности, которая участвует непосредственно в вашем эксперименте. Есть такое понятие как репрезентативность, сегодня мы не будем его касаться, главное запомнить, что выборка должна быть репрезентативной.
Если привести небольшой пример относительно генеральной совокупности и выборки, то можно вспомнить о простом случае из вашей жизни. Когда вы хотите узнать, достаточно ли посолен суп, вы берете ложку супа и пробуете его. Вам необязательно есть весь суп, чтобы понять, насколько он посолен. Ложка в данном случае является выборкой, по которой вы делаете вывод обо всей кастрюле супа. В данном случае кастрюля супа является генеральной совокупностью, а ложка супа является выборкой.
Итак, мы вспомнили с вами о 2 ключевых статистических совокупностях – о генеральной совокупности и выборочной совокупности. Теперь нужно вспомнить, что типы исследования, которые проводятся над генеральной совокупностью и выборочной совокупностью, называют по-разному. Над генеральной совокупностью проводятся так называемые сплошные исследования, над выборочной совокупностью – выборочные.
Теперь вспомним небольшие отличия между параметрами этих 2 совокупностей. Сегодня для того, чтобы понять, что такое доверительный интервал, нам понадобятся следующие вещи: во-первых, отличие средней арифметической в генеральной совокупности и в выборочной совокупности. В генеральной совокупности она имеет значок µ (мю), в выборочной – это x̅ (х с чертой) — это средние арифметические по каждому виду совокупности.
Далее нужно знать, что стандартное отклонение имеет значок выборочной – либо S, либо SD (standard deviation), а в случае генеральной совокупности оно носит название среднеквадратичного отклонения и обозначается буквой σ (сигма).
Приведем пример расчета доврительного интервала
Представьте чисто гипотетическую ситуацию, когда перед нами стоит задача исследований среднего роста марсианина. Для того, чтобы его узнать, было отправлено 3 экспедиции. Первой из них повезло больше всего: они смогли поймать каждого из 200 марсианин и померить его рост.
Как мы помним, по закону нормального распределения по оси Х находится величина изучаемого признака, либо варианта (в данном случае это рост в сантиметрах), а по оси Y – частота встречаемости какого-то признака (мы его обозначаем буквой П.
Итак, оказалось, что у всех 200 марсиан средний рост составил 40 сантиметров. Таким образом, первая экспедиция смогла провести так называемое сплошное исследование, так как поработала со всеми единицами наблюдения генеральной совокупности. Поэтому мы имеем право назвать этот параметр µ.
Однако, второй и третьей экспедиции повезло гораздо меньше. Они попали в самые плохо населенные участки Марса и смогли отобрать только 10 марсиан. В данном случае оказалось, что средний рост по их выборке составил всего 38 сантиметров в первом случае и 41 сантиметр во втором случае.
Что же делать? Да, у нас есть данные из самого полного исследования, которое относится к первой экспедиции. Но представьте, что ни одна бы из них не смогла бы поработать со всей совокупностью полностью, и у нас были бы данные только от второй и третьей экспедиции. Что же в этой ситуации делать? Видно, что никто 40 сантиметров в действительности не достиг: во второй экспедиции Б она равна 38 сантиметрам, а в экспедиции В – 41 сантиметр. То есть в реальности никто не достиг 40 сантиметров. Что же делать в данном случае?
И вот здесь на помощь к нам приходит доверительный интервал, точнее оценка параметра. Доверительный интервал является вторым этапом оценки параметра. Прежде чем строить доверительный интервал, нам нужно понять, насколько в принципе этот параметр наша средняя (x̅б, x̅в) может отличаться, ошибаться от реального параметра в генеральной совокупности. Насколько?
И тут нам помогает оценка параметра или нахождение ошибки репрезентативности. Ошибка репрезентативности обозначается mr или mx. Чаще я использую mr. Что же это значит? mr по-английски обозначается как standard error, по-русски она часто называется стандартная ошибка средней или ошибка репрезентативности. Как же она находится? А находится она следующим образом? Она учитывает стандартное квадратичное отклонение в генеральной совокупности и размер в выборке. От чего же зависит ошибка репрезентативности? А зависит она от 2 вещей: от среднеквадратичного отклонения в генеральной совокупности (я напоминаю, это насколько каждая варианта отличается от средней, о законе нормального распределения мы с вами поговорим в следующий раз) и от размера выборки или . То есть, таким образом, чем менее разбросан признак генеральной совокупности, и чем больше у нас размер выборки, тем меньше наша ошибка репрезентативности.
Итак, предположим, мы нашли нашу ошибку репрезентативности mr. В данном случае она составила 2,7 сантиметра. Но что же это нам дает? А дает нам это уже достаточно много. Теперь мы, зная, насколько в принципе наша выборка может ошибаться относительно генеральной совокупности, можем составить определенное предположение о том, где же находится реальный параметр – реальные 40 сантиметров генеральной совокупности на основании данных лишь нашей выборки.
Каким же образом это происходит? Мы провели точечную оценку нашего параметра. Дальше происходит второй этап построения доверительного интервала – это интервальная оценка параметра. Каким же образом строится этот интервал? А складывается он из 2 вещей: так называемой предельной ошибки +∆ и -∆. Формула нахождения предельной ошибки достаточно проста и составляет:
±∆ = t*mr
Для того, чтобы не залезать в критерий Стьюдента сегодня, я скажу лишь, что:
для доверительного интервала 95 % используется t=2,
для доверительного интервала 99 % используется t=3
и для доверительного интервала 68 % используется t=1.
Итак, после того, как мы нашли нашу предельную ошибку, мы можем построить доверительный интервал. Но для этого нам нужно самим задать тот доверительный интервал, который для нас подходит больше всего. Чаще всего в медицине используется вероятность ошибки 5 %, то есть доверительный интервал 95 % или вероятность ошибки 5 % (р=0,05, р=5 %).
Что же значат эти 95 %? А значат они следующее, что с 95%-ной вероятностью в нашем интервале лежит реальное значение, и лишь в 5 % случаев мы ошибаемся. То есть в нашем конкретном случае наша ошибка репрезентативности составила 2,7 сантиметра. Предельная ошибка отсюда будет равна чему? Именно 5,4 сантиметра, то есть доверительный интервал, так как здесь и плюс, и минус, то есть нам нужно ошибку умножить на 2, составил 10,8 сантиметров. А именно наши 38 см±5,4 см. Ширина всего доверительного интервала составляет 10,8 см. Напомню, что он складывается из положительной и отрицательной предельных ошибок вокруг нашей выборочной средней.
Итак, говоря о доверительном интервале, нужно сделать ряд важных выводов.
- Во-первых, доверительный интервал относится к выборочной совокупности. Он показывает, насколько параметры из выборочной совокупности могут отличаться от реально существующих данных в генеральной совокупности. Насколько мы ошибаемся при формировании той или иной выборки, мы закладываем в так называемую ошибку репрезентативности, в ошибку средней и вокруг нее собственно и строим доверительный интервал.
- Ширину доверительного интервала задает собственно сам исследователь, варьируя тот критерий t, который он принимает в качестве необходимого. Чаще всего применяется t=2, которое и соответствует ширине доверительного интервала 95 %. 95 % означает, что с 95%-ной вероятностью действительно вокруг выборочной средней существует определенный доверительный интервал, в который и попадает реально существующая средняя из генеральной совокупности. Этот доверительный интервал может быть либо уже, если t=1; либо шире, если t=3.
- Доверительный интервал задается самостоятельно исследователем. Чаще всего он равен 95 %.
Если это видео оказалось Вам полезным, оно хотя бы немного раскрыло тайны доверительного интервала, ставьте лайки, подписывайтесь на наши рассылки и в комментариях пишите, какие темы по биостатистике вам бы были интересны для следующих выпусков. На этом я с вами прощаюсь. Меня зовут Кирилл. Пока!
Если Вам понравилась статья и оказалась полезной, Вы можете поделиться ею с коллегами и друзьями в социальных сетях:
Согласно теории выборочного метода, неоднократно подтвержденной практикой, опрашивать всех нет необходимости, а можно опросить лишь часть группы, которая может быть в тысячи раз меньше. Эта маленькая часть называется выборкой (или выборочной совокупностью), а большая группа, которую она представляет, называется генеральной совокупностью.
При этом если выборка сформирована правильно, выводы, полученные на основе изучения выборки, могут быть перенесены и на генеральную совокупность. Например, если в выборке женщины значимо чаще, чем мужчины, пользуются дезодорантами, то делается вывод, что и в генеральной совокупности (например, в исследованном городе) присутствует такая закономерность.
Процесс переноса выводов с выборки на генеральную совокупность называется генерализацией. А свойство выборки отражать характеристики генеральной совокупности называется репрезентативностью. Для более комфортного запоминания термина на рис.1.
приведены иллюстрации, когда выборка отражает свойства генеральной совокупности и когда свойства выборки отличаются от свойств генеральной совокупности.
Рис.1. Иллюстративные примеры соответствия (несоответствия) свойств генеральной совокупности и выборки
Не стоит путать понятие репрезентативности с такими понятиями как валидность и релевантность, хотя они тоже относятся к характеристикам качества исследования. В социальных науках валидность понимается довольно широко, но чаще всего – как обоснованность.
Понятие валидности относится не к выборке, а к исследовательской методике. Методика или измерение (анкета, блок вопросов, тест) считается валидным, если фиксирует именно то понятие или свойство, которое планируется измерить.
Например, если мы захотим оценить уровень лояльности клиента к магазину и выберем для этого лишь показатель частоты посещения магазина, валидность этого подхода будет неполной: возможно, респондент часто заходит в магазин только из-за банкомата, который там установлен.
Валидная методика в данном примере должна включать и другие показатели: предпочтение магазина, суммы покупок в этом и других магазинах, готовность переключиться на другие магазины, готовность рекомендовать магазин и др.
При установлении валидности решающую роль играет обоснование и последующая проверка гипотезы релевантности, то есть соответствия измеряемых параметров характеристикам исследуемого объекта.
Житейский пример нерелевантности – измерять уровень счастья человека количеством денег у него (хотя, наверное, не все с этим согласятся).
Очевидный пример нерелевантности – попытка измерить массу тела по его температуре.
Но вернемся к понятию репрезентативности. В то время как точность измерений зависит от размера выборки, размер выборки не гарантирует ее репрезентативности.
Репрезентативность выборки главным образом обеспечивается способом отбора ее участников (респондентов).
Примером явного нарушения репрезентативности может послужить шутка о том, что интернет-опрос показал, что 100% людей пользуется интернетом.
Можно выделить несколько вариантов нарушения репрезентативности выборки: когда опрошены не те люди и когда опрошено слишком много (или мало) определенных людей (например, женщин намного больше, чем мужчин). Кроме того, чем меньше размер выборки, тем меньше вероятность того, что она будет репрезентативной. Например, допустим, 1% населения мог бы заинтересоваться новой услугой.
Это 1 из 100 людей. Если размер выборки составляет всего 60 человек, то в вашей выборке может отсутствовать человек, который, скорее всего, будет заинтересован в услуге. Ваша выборка менее репрезентативна, потому что она меньше. Ваши результаты будут разными в зависимости от того, содержит ли ваша выборка одного из этих людей или нет.
Пример репрезентативной и нерепрезентативной выборки показан на рис.2.
Рис.2. Пример репрезентативной и нерепрезентативной выборки
На рис.3 показана та же по составу генеральная совокупность, но с другим расположением объектов внутри круга.
Рис.3. Пример репрезентативной и нерепрезентативной выборки при другом расположении объектов генеральной совокупности
Говоря простым языком, репрезентативная выборка – это такая выборка, в которой представлены все подгруппы, важные для исследования. Помимо этого, характер распределения рассматриваемых параметров в выборке должен быть таким же, как в генеральной совокупности.
Простой случайный отбор респондентов представляется оптимальным способом формирования репрезентативной выборки.
Поскольку в этом случае у любого представителя генеральной совокупности одинаковая вероятность попасть в выборку, в нее попадут люди с разными характеристиками пропорционально их долям в генеральной совокупности.
В итоге выборка будет представлять собой нечто вроде уменьшенной копии генеральной совокупности.
Случайность отбора респондентов в выборку обеспечивается разными способами.
Например, для телефонного опроса жителей города берется база данных всех телефонных номеров, и номера респондентов случайным образом выбираются компьютером (с использованием генератора случайных чисел).
При уличном опросе интервьюеров распределяют по случайно выбранным точкам и инструктируют опрашивать каждого N-ного прохожего.
Наглядным примером репрезентативной выборки может служить пицца. Если целая пицца – это генеральная совокупность, которую мы хотим изучить, то кусок пиццы – это выборка.
Как правило, достаточно одного куска пиццы, чтобы судить обо всей пицце (при условии, что ингредиенты равномерно распределены по ее поверхности). Таким образом, кусок пиццы пиццы на рис.
4 – это репрезентативная выборка из пиццы.
Рис.4. Наглядный пример репрезентативной выборки (пицца)
Важно отметить, что не любой кусок пиццы будет репрезентативной выборкой. Разные способы получения куска пиццы могут принципиально повлиять на качество исследования и выводы, которые будут получены при анализе каждого варианта выборки (рис.4)
(рисунок в сушильной камере, готовится к публикации)
Рис.5. Наглядный пример формирования репрезентативной и нерепрезентативной выборки.
Еще один показательный пример формирования репрезентативной выборки – кастрюля, содержимое которой мы должны узнать (допустим, там скрывается борщ). Мы только один раз можем зачерпнуть из кастрюли ложкой (провести исследование). В нашем примере ложка – это выборка, а содержимое кастрюли – генеральная совокупность.
Если мы зачерпнем сверху, то придем к выводу, что в кастрюле бульон. Если снизу – решим, что в кастрюле мясо. Зачерпнув где-то посередине, мы получим картошку или капусту. В любом из трех случаев выводы будут неверны.
Чтобы получить достоверный результат, нам стоит хорошенько перемешать содержимое кастрюли, перед тем как пробовать его.
Перемешивание в данном случае – аналог процедуры простого случайного отбора, поскольку оно предоставляет всем ингредиентам примерно равную вероятность попадания в ложку-выборку (или тарелку-выборку).
Рис.6. Борщ как модель, демонстрирующая репрезентативность выборки.
В реальности применить простой случайный отбор респондентов не всегда удается в полной мере. Например, мы можем абсолютно корректно отобрать в выборку нужное количество номеров домашних телефонов случайным образом, но при их прозвоне выяснится, что дозвониться и поговорить удается преимущественно с пенсионерами, а «поймать» дома молодежь и работающих людей получается плохо.
Возвращаясь к примеру с борщом, если у нас вместо кастрюли – огромный ресторанный котел, а в руках все та же обычная ложка, перемешивание будет неэффективным. Чтобы решить задачу, потребуются иные подходы.
Например, мы можем теоретически разделить глубину котла на несколько слоев и постараться зачерпнуть содержимое из каждого слоя (из случайного места слоя: не только в центре, но и по краям). Таким образом, наша итоговая выборка будет состоять уже из нескольких выборок и при этом адекватно отражать содержимое всех слоев котла.
Подобные альтернативные подходы называются типами выборки, которых придумано достаточно много для того, чтобы максимизировать репрезентативность выборки в сложных условиях реального мира.
Последствия нарушения репрезентативности выборки: некорректные выводы исследования, выброшенный на ветер бюджет исследования, финансовые потери вследствие применения неправильных выводов.
Вы можете выбрать валидную исследовательскую методику, рассчитать объем выборки, обеспечивающий приемлемую точность измерений, но, если выборка исследования нерепрезентативна, получить достоверную информацию не удастся.
- ПРИМЕРЫ НАРУШЕНИЯ РЕПРЕЗЕНТАТИВНОСТИ ВЫБОРКИ
- ПРЕДВЫБОРНЫЙ ОПРОС
- Самым известным примером нарушения репрезентативности выборки является история провала американского журнала «Литературный дайджест».
В 1936 году журнал в очередной раз провел почтовый опрос общественного мнения о вероятных результатах грядущих президентских выборов в США. До 1936 года опрос всегда правильно предсказывал победителя. Опрос 1936 года показал, что победителем с большим отрывом станет кандидат от республиканцев, но в итоге победителем оказался представитель демократов.
Таким образом, гигантская выборка (около 2,4 млн. человек) не обеспечила достоверных результатов. В чем же заключалась причина ошибки?
Называются две основные причины провала: смещение при формировании выборки и смещение вследствие отказа респондентов от участия в опросе.
Прежде всего, журнал включил своих подписчиков в список для рассылки анкет и, желая расширить выборку, использовал два других доступных тогда списка граждан: зарегистрированных автовладельцев и пользователей телефонов.
Во времена Великой Депрессии представители этих групп отличались от остального населения более высоким доходом, как и подписчики самого журнала.
Таким образом, полученная база для рассылки не являлась корректным отражением структуры населения США.
Вторая проблема с опросом заключалась в том, что из 10 миллионов человек, чьи имена были в первоначальном списке рассылки, только 2,4 миллиона ответили на опрос. Вероятно, высокий процент отказов был связан с тем, что опрос проводился по почте.
Уже в те времена американцы относились к почтовым рассылкам как к спаму. Таким образом, размер выборки составил примерно одну четверть от того, что первоначально планировалось.
Когда доля ответивших низка (как это было в данном случае), считается, что исследование страдает от необъективности ответов.
У этой истории две морали: Большая, но неправильно сформированная выборка гораздо хуже маленькой, но правильно сформированной выборки. При проведении опроса не упускайте из внимания смещение отбора и смещение в результате отказов.
СИСТЕМАТИЧЕСКАЯ ОШИБКА ВЫЖИВШЕГО
Пример из военной практики. Во Вторую мировую войну американские военные столкнулись со следующей проблемой. Не все американские бомбардировщики после задания возвращались на базу.
На вернувшихся самолетах оставалось множество пробоин от выстрелов противника, но распределены они были неравномерно: больше всего на фюзеляже и прочих частях, меньше в топливной системе и гораздо меньше — в двигателе.
Командованию казалось логичным, что в наиболее поврежденных местах нужно установить больше брони. Привлеченный к решению задачи математик возразил: данные как раз показывают, что самолет, получивший пробоины в этих местах, еще может вернуться на базу.
А самолет, которому попали в бензобак или двигатель, выходит из строя и не возвращается. Поэтому укреплять следует те места, которые у вернувшихся самолетов повреждены меньше всего.
Рис .7. Пробоины на вернувшихся самолётах. Получившие повреждения в других местах не смогли вернуться на базу
Эта задача служит примером нарушения репрезентативности выборки, когда в нее включены не те респонденты: в данном случае, вернувшиеся самолеты, в то время как не вернувшиеся проигнорированы.
Применительно к маркетинговым исследованиям, эта ситуация подобна следующей. При опросе клиентов бизнеса будет ошибкой опрашивать только текущих клиентов и не опрашивать потерянных клиентов (а какие «пробоины» получили они?).
НЕПРАВИЛЬНЫЕ МЕСТА ОПРОСА
При опросе посетителей ТРЦ важно правильно расставить интервьюеров. Например, если поставить интервьюеров только у главного входа, в выборку не попадут посетители, приехавшие в ТРЦ на автомобиле и попавшие в него через парковку.
Как следствие, выводы, полученные на собранных данных, будут корректны только для той части посетителей, которые приходят в ТРЦ пешком, а значит, делают меньше покупок, не покупают габаритные товары, живут ближе к ТРЦ, чем приезжающие на автомобиле.
ОТСУТСТВИЕ КВОТИРОВАНИЯ
Другой пример. Бывает, что в разных районах города сбор анкет идет с разной скоростью: где-то (например, в центре города) большой пешеходный поток и у людей есть время на участие в опросе (отдыхающие, в отпуске, офисные сотрудники на обеде), а на окраинах либо мало людей на улицах, либо все спешат на работу и отказываются участвовать.
В результате, если не ограничивать доли районов, в выборке будут преобладать люди из центрального района, которые могут значимо отличаться от остальных людей родом занятий, уровнем дохода и образования, уровнем осведомленности о магазинах и др.
Таким образом, собранная выборка уже не будет репрезентативной по отношению к населению всего города.
ОНЛАЙН-ОПРОСЫ (ОНЛАЙН-ПАНЕЛИ)
Несмотря на многие положительные стороны онлайн-опросов, такие как экономичность, оперативность сбора информации, удобство ее обработки и т. д., некоторые их особенности напрямую угрожают репрезентативности исследования:
- Во-первых, участники онлайн-опросов – это, как правило, активные пользователи интернета, хорошо в нем разбирающиеся и больше подверженные влиянию интернет-культуры, чем обычные люди.
- Во-вторых, люди, у которых есть время и желание регулярно участвовать в онлайн-опросах за небольшое вознаграждение, скорее всего, значительно отличаются от остальных людей как по социально-демографическим, так и по психографическим характеристикам.
- В-третьих, профессиональное участие в опросах приводит к так называемой профессиональной деформации, когда ответы респондентов на вопросы новых исследований обусловлены предыдущим опытом, но не жизненным, а опытом участия в других опросах.
- Таким образом, в данном случае возникает та ситуация, когда опрашиваются не те люди, хотя по формальным характеристикам они подходят под описание целевой аудитории.
- ВЫВОДЫ
- Итак, чтобы получить достаточно точные данные об интересующей нас группе людей, необязательно опрашивать их всех, благодаря свойству репрезентативности выборки.
- «Чем больше, тем лучше» – неправильный подход к формированию выборки.
Небольшая репрезентативная выборка лучше большой, но нерепрезентативной выборки. Применительно к выборке не стоит пугаться слова «случайная». Это вовсе не значит, что в исследовании будут получены случайные результаты. Напротив, случайный подход к формированию выборки делает ее максимально похожей на генеральную совокупность, а значит, репрезентативной.
При проектировании выборки следует учитывать опасность смещения структуры выборки вследствие особенностей сбора информации и других условий.
Источник: https://scanmarket.ru/blog/reprezentativnost-vyborki
Ошибки выборки
Чтобы оценить степень точности выборочного наблюдения, необходимо оценить величину ошибок, которые могут возникнуть в процессе проведения выборочного наблюдения.
Статистическое исследование может осуществляться по данным несплошного наблюдения, основная цель которого состоит в получении характеристик изучаемой совокупности по обследованной ее части. Одним из наиболее распространенных в статистике методов, применяющих несплошное наблюдение, является выборочный метод.
Под выборочным понимается метод статистического исследования, при котором обобщающие показатели изучаемой совокупности устанавливаются по некоторой ее части на основе положений случайного отбора.
При выборочном методе обследованию подвергается сравнительно небольшая часть всей изучаемой совокупности (обычно до 5 — 10%, реже до 15 — 25%). При этом подлежащая изучению статистическая совокупность, из которой производится отбор части единиц, называется генеральной совокупностью.
Отобранная из генеральной совокупности некоторая часть единиц, подвергающаяся обследованию, называется выборочной совокупностью
или просто выборкой.
Значение выборочного метода состоит в том, что при минимальной численности обследуемых единиц проведение исследования осуществляется в более короткие сроки и с минимальными затратами труда и средств. Это повышает оперативность статистической информации, уменьшает ошибки регистрации.
В проведении ряда исследований выборочный метод является единственно возможным, например, при контроле качества продукции (товара), если проверка сопровождается уничтожением или разложением на составные части обследуемых образцов (определение сахаристости фруктов, клейковины печеного хлеба, установление носкости обуви, прочности тканей на разрыв и т.д.).
- Проведение исследования социально — экономических явлений выборочным методом складывается из ряда последовательных этапов:
- 1) обоснование (в соответствии с задачами исследования) целесообразности применения выборочного метода;
- 2) составление программы проведения статистического исследования выборочным методом;
- 3) решение организационных вопросов сбора и обработки исходной информации;
4) установление доли выборки, т.е. части подлежащих обследованию единиц генеральной совокупности;
- 5) обоснование способов формирования выборочной совокупности;
- 6) осуществление отбора единиц из генеральной совокупности для их обследования;
- 7) фиксация в отобранных единицах (пробах) изучаемых признаков;
- статистическая обработка полученной в выборке информации с определением обобщающих характеристик изучаемых признаков;
- 9) определение количественной оценки ошибки выборки;
- 10) распространение обобщающих выборочных характеристик на генеральную совокупность.
- В генеральной совокупности доля единиц, обладающих изучаемым признаком, называется генеральной долей (обозначается р), а средняя величина изучаемого варьирующего признака — генеральной средней (обозначается ).
- В выборочной совокупности долю изучаемого признака называют выборочной долей, или частостью (обозначается ), а среднюю величину в выборке — выборочной средней (обозначается ).
- Пример.
При контрольной проверке качества хлебобулочных изделий проведено 5%-ное выборочное обследование партии нарезных батонов из муки высшего сорта. При этом из 100 отобранных в выборку батонов 90 шт. соответствовали требованиям стандарта. Средний вес одного батона в выборке составлял 500,5 г при среднем квадратическом отклонении г.
- На основе полученных в выборке данных нужно установить возможные значения доли стандартных изделий и среднего веса одного изделия во всей партии.
- Прежде всего устанавливаются характеристики выборочной совокупности. Выборочная доля, или частость, определяется из отношения единиц, обладающих изучаемым признаком m, к общей численности единиц выборочной совокупности n:
Поскольку из 100 изделий, попавших в выборку n, 90 ед. оказались стандартными m, то показатель частости равен: = 90:100=0,9.
Средний вес изделия в выборке х = 500,5 г определен взвешиванием. Но полученные показатели частости (0,9) и средней величины (500,5 г) характеризуют долю стандартной продукции и средний вес одного изделия лишь в выборке. Дляопределения соответствующих показателей для всей партии товара надо установить возможные при этом значения ошибки выборки.
Ошибка выборки — это объективно возникающее расхождение между характеристиками выборки и генеральной совокупности. Она зависит от ряда факторов: степени вариации изучаемого признака, численности выборки, методом отбора единиц в выборочную совокупность, принятого уровня достоверности результата исследования.
- Определение ошибки выборочной средней.
- При случайном повторном отборе средняя ошибка выборочной средней рассчитывается по формуле:
- ,
- где — средняя ошибка выборочной средней;
- — дисперсия выборочной совокупности;
- n — численность выборки.
- При бесповторном отборе она рассчитывается по формуле:
- ,
- где N — численность генеральной совокупности.
- Определение ошибки выборочной доли.
- При повторном отборе средняя ошибка выборочной доли рассчитывается по формуле:
- где — выборочная доля единиц, обладающих изучаемым признаком;
- — число единиц, обладающих изучаемым признаком;
- — численность выборки.
- При бесповторном способе отбора средняя ошибка выборочной доли определяется по формулам:
- Предельная ошибка выборки связана со средней ошибкой выборки отношением:
- .
- При этом t как коэффициент кратности средней ошибки выборки зависит от значения вероятности Р, с которой гарантируется величина предельной ошибки выборки.
- Предельная ошибка выборки при бесповторном отборе определяется по следующим формулам:
Предельная ошибка выборки при повторном отборе определяется по формуле:
.
Источник: https://www.ekonomstat.ru/lektsii-po-distsipline-statistika/36-obshhaja-teorija-statistiki-lekcii/834-oshibki-vyborki.html
116. Ошибка репрезентативности, методика вычисления ошибки средней и относительной величины
В статистике выделяют два основных метода исследования – сплошной и выборочный. При проведении выборочного исследования обязательным является соблюдение следующих требований: репрезентативность выборочной совокупности и достаточное число единиц наблюдений.
При выборе единиц наблюдения возможны Ошибки смещения, т. е. такие события, появление которых не может быть точно предсказуемым. Эти ошибки являются объективными и закономерными.
При определении степени точности выборочного исследования оценивается величина ошибки, которая может произойти в процессе выборки – Случайная ошибка репрезентативности (M) – Является фактической разностью между средними или относительными величинами, полученными при проведении выборочного исследования и аналогичными величинами, которые были бы получены при проведении исследования на генеральной совокупности.
- Оценка достоверности результатов исследования предусматривает определение:
- 1. ошибки репрезентативности
- 2. доверительных границ средних (или относительных) величин в генеральной совокупности
- 3. достоверности разности средних (или относительных) величин (по критерию t)
- Расчет ошибки репрезентативности (mм) средней арифметической величины (М):
- , где σ – среднее квадратическое отклонение; n – численность выборки (>30).
- Расчет ошибки репрезентативности (mР) относительной величины (Р):
- , где Р – соответствующая относительная величина (рассчитанная, например, в %);
- Q =100 – Ρ% – величина, обратная Р; n – численность выборки (n>30)
В клинических и экспериментальных работах довольно часто приходится использовать Малую выборку, Когда число наблюдений меньше или равно 30. При малой выборке для расчета ошибок репрезентативности, как средних, так и относительных величин, Число наблюдений уменьшается на единицу, т. е.
Величина ошибки репрезентативности зависит от объема выборки: чем больше число наблюдений, тем меньше ошибка. Для оценки достоверности выборочного показателя принят следующий подход: показатель (или средняя величина) должен в 3 раза превышать свою ошибку, в этом случае он считается достоверным.
Знание величины ошибки недостаточно для того, чтобы быть уверенным в результатах выборочного исследования, так как конкретная ошибка выборочного исследования может быть значительно больше (или меньше) величины средней ошибки репрезентативности.
Для определения точности, с которой исследователь желает получить результат, в статистике используется такое понятие, как вероятность безошибочного прогноза, которая является характеристикой надежности результатов выборочных медико-биологических статистических исследований.
Обычно, при проведении медико-биологических статистических исследований используют вероятность безошибочного прогноза 95% или 99%.
В наиболее ответственных случаях, когда необходимо сделать особенно важные выводы в теоретическом или практическом отношении, используют вероятность безошибочного прогноза 99,7%
- Определенной степени вероятности безошибочного прогноза соответствует определенная величина Предельной ошибки случайной выборки (Δ – дельта), которая определяется по формуле:
- Δ=t * m, где t – доверительный коэффициент, который при большой выборке при вероятности безошибочного прогноза 95% равен 2,6; при вероятности безошибочного прогноза 99% – 3,0; при вероятности безошибочного прогноза 99,7% – 3,3, а при малой выборке определяется по специальной таблице значений t Стьюдента.
- Используя предельную ошибку выборки (Δ), можно определить Доверительные границы, в которых с определенной вероятностью безошибочного прогноза заключено действительное значение статистической величины, Характеризующей всю генеральную совокупность (средней или относительной).
- Для определения доверительных границ используются следующие формулы:
- 1) для средних величин:
Мвыб – средняя величина, Полученная при проведении исследования на выборочной совокупности; t – доверительный коэффициент, значение которого определяется степенью вероятности безошибочного прогноза, с которой исследователь желает получить результат; mM – ошибка репрезентативности средней величины.
2) для относительных величин:
Доверительные границы показывают, в каких пределах может колебаться размер выборочного показателя в зависимости от причин случайного характера.
При малом числе наблюдений (n
Источник: https://uchenie.net/116-oshibka-reprezentativnosti-metodika-vychisleniya-oshibki-srednej-i-otnositelnoj-velichiny/
Ошибки репрезентативности. Ошибки выборки
Любое выборочное наблюдение ставит своей задачей определение среднего размера признака или доли единиц, обладающих данным признаком, и распространение полученных характеристик выборочной совокупности на генеральную совокупность.
Ошибки репрезентативности возникают вследствие различия структуры выборочной и генеральной совокупности.
Структура генеральной совокупности вполне однозначна, и ей соответствует вполне определенное значение среднего размера (или доли) изучаемого признака. Выборочная же совокупность формируется на основе случайного отбора, в силу этого ее состав отличается от состава генеральной совокупности, отличается, естественно, и значение среднего размера (или доли) изучаемого признака.
Если из одной и той же генеральной совокупности производится несколько выборок, то в каждую из них попадут разные единицы и, следовательно, каждой выборочной совокупности будет соответствовать своя средняя. Отсюда следует важный вывод: выборочная средняя, в отличие от генеральной, – величина переменная. Переменной или случайной величиной будет и ошибка репрезентативности.
В практических статистических работах выборочное наблюдение проводится один раз, поэтому фактически приходится иметь дело с одной из множества выборочных средних, но с какой именно – сказать невозможно.
Чтобы получить суждение о точности результатов выборочного наблюдения, математическая статистика дает формулу средней ошибки, т.е.
средней величины из всех возможных ошибок при бесчисленном множестве случайных выборок.
При бесконечно большом числе выборок получится кривая частот, которая представляет кривую выборочного распределения.
Рассмотрим выборочное распределение средней величины.
Такое распределение будет являться нормальным или приближаться к нему по мере увеличения объема выборки независимо от того, имеет или не имеет нормальное распределение та генеральная совокупность, из которой взяты выборки.
С увеличением числа выборок средняя для всех выборок будет приближаться к генеральной средней. По выборочному распределению может быть рассчитана средняя квадратическая ошибка репрезентативности:
Среднее квадратическое отклонение выборочных средних от генеральной средней называется средней ошибкой выборочной средней (средней ошибкой выборки для средней величины признака):
Поскольку, как правило, генеральная средняя неизвестна, этой формулой нельзя воспользоваться. Кроме того, в социально-экономических исследованиях выборки из одной и той же совокупности не производятся многократно. Поэтому используют нижеприведенную формулу, исходя из того, что средняя ошибка выборки зависит от колеблемости признака в генеральной совокупности и числа отобранных единиц.
Средняя ошибка выборки для средней величины признака определяется по формуле:
где s2г – дисперсия количественного признака в генеральной совокупности.
Следовательно, средняя ошибка выборки тем больше, чем больше вариация в генеральной совокупности, и тем меньше, чем больше объем выборки.
Т.о. можно утверждать, что отклонение выборочной средней от генеральной средней в среднем равно . Ошибка конкретной выборки может принимать различные значения, но ее отношение к средней ошибке практически не превышает , если величина объема выборки достаточно большая .
- Отношение ошибки конкретной выборки к средней квадратической ошибке называется нормированным отклонением :
- .
- Распределение нормированного отклонения выборочной средней от генеральной средней при численности выборки определяется следующим уравнением:
- (1)
Данное уравнение называют стандартным уравнением нормальной кривой. Величина достигает максимума при , в этом случае .
На рис. приведен график кривой распределения нормированных отклонений ошибок выборочных средних .
Рис.
Ординаты соответствуют плотностям вероятности при том или ином значении . Для того, чтобы определить вероятность значений в интервале от до , следует найти отношение части площади кривой, заключенной между ординатами, соответствующими и ко всей площади кривой. Вся площадь под кривой нормального распределения вероятностей принимается за единицу.
- Площадь нормальной кривой, заключенную между ординатами и , определяют, интегрируя функцию (1) – интеграл Лапласа.
- Имеются таблицы интеграла Лапласа, которые содержат значения вероятностей для нормированных отклонений . Значения функции Ф(t) табулированы при разных значениях, например:
- при t=1 P(D£ m) = Ф(1) = 0,683;
- при t=2 P(D£2m) = Ф(2) = 0,9545;
при t=3 P(D£3m) = Ф(3) = 0,9973 и т.д.
- Это вероятность того, что ошибка попадет в заданные пределы.
- В общем виде
- D=tm
характеризует предельную ошибку выборки, показывающую максимально возможное расхождение выборочной и генеральной характеристик при заданной вероятности этого утверждения. Т.о. о величине ошибки можно судить с определенной вероятностью.
- Так, при t=2 возможная ошибка D не превысит 2m, что гарантируется с вероятностью 0,9545. Это значит, что в 9545 выборках из 10000 подобных максимальная ошибка не выйдет за пределы ±2m,
- где – это коэффициент доверия.
- При проведении выборочного учета массовых социально-экономических явлений считается достаточным максимальный размах ошибки выборки ±3m.
- На практике наиболее часто пользуются значениями вероятности Р=0,95 (t=1,96), Р=0,99 (t=2,58) и Р=0,999 (t=3,28), гарантирующими репрезентативность выборки соответственно с ошибкой 5; 1; 0,1%.
Предельная ошибка выборки позволяет определять предельные значения характеристик генеральной совокупности при заданной вероятности, т.е. их доверительные интервалы.
Поэтому вероятность Р называется доверительной, она представляет собой вероятность того, что ошибка выборки не превысит некоторую заданную величину D, т.е. генеральная средняя находится где-то в пределах
- (от до ),
- генеральная доля – в пределах
- (от w–D до w+D).
- Как мы определили выше, средняя ошибка выборки для средней величины признака определяется по формуле:
- ,
- где s2г – дисперсия количественного признака в генеральной совокупности.
- Если при выборочном наблюдении изучению подлежит альтернативный признак, то средняя ошибка выборки для доли единиц, обладающих данным признаком, определяется по теореме Я. Бернулли:
- ,
- где p – доля единиц, обладающих данным качеством, в генеральной совокупности; p(1-p) – дисперсия альтернативного признака в генеральной совокупности.
Приведенные формулы средних ошибок выборки практически непригодны для расчета. В них фигурирует дисперсия признака в генеральной совокупности, которая неизвестна, как неизвестна и генеральная доля, генеральная средняя. Поскольку в теории вероятности доказано, что
,
то при большом объеме выборки дисперсии генеральной s2г и выборочной s2 совокупностей равны. ( ). Это дает основание исчислять среднюю ошибку выборки по значениям выборочной дисперсии s2 для средней и w(1–w) для доли признака:
- , ,
- где w – доля признака в выборочной совокупности.
- Наряду с абсолютной величиной предельной ошибки выборки рассчитывается и относительная ошибка выборки, которая определяется отношением предельной ошибки средней или доли к соответствующей характеристике выборочной совокупности:
- ; .
При проведении выборочного наблюдения в экономических исследованиях преимущественно стремятся к тому, чтобы относительная ошибка репрезентативности выборки не превышала 5 … 10%.
Вывод формул , ,
исходит из схемы повторной выборки. На практике повторная выборка, при которой численность генеральной совокупности остается неизменной (т.е.отобранная единица возвращается в генеральную совокупность и снова может быть отобрана), встречается редко (например, при изучении населения в качестве пользователей, пациентов, избирателей).
- Обычно отбор организуется по схеме бесповторной выборки, при которой отобранная единица после обследования в генеральную совокупность не возвращается и в дальнейшей выборке не участвует.
- При бесповторной выборке численность генеральной совокупности в процессе отбора сокращается на
- 1–n/N, где n/N – доля отобранных единиц.
- В связи с этим формулы ошибки выборки приобретают следующий вид:
- ; .
- Так как доля единиц генеральной совокупности, не попавших в выборку (1–n/N), всегда меньше единицы, то ошибка выборки при бесповторном отборе при прочих равных условиях меньше, чем при повторном отборе.
Источник: https://infopedia.su/10x41a.html
2.2.2. Стихийная выборка
Исследователь при
применении данного метода в некоторой
степени контролирует выборку (например,
публикуя анкету в журнале, он обращается
только к читателям этого журнала), но
решение о включении в выборку принимает
сам респондент.
То есть, её размер заранее
часто не известен, а определяется
конкретным условием — активностью
респондентов. Значит, нельзя и заранее
определить структуру массива респондентов,
которые заполнят и вернут анкеты.
Поэтому
этот метод не претендует на репрезентативность
выборки, а выводы исследования очень
часто распространяются только на
опрошенную совокупность.
Сферы применения
стихийной выборки:
-
анкеты, публикуемые в газетах и журналах;
-
почтовые опросы1;
-
опросы покупателей в залах супермаркетов;
-
опрос пассажиров на остановках и в общественном транспорте2.
2.3. Многоступенчатая и одноступенчатая выборки
Выборка делится
на одноступенчатую и многоступенчатую
по количеству ступеней в отборе.
Одноступенчатая выборка предполагает,
что из генеральной совокупности сразу
осуществляется отбор респондентов для
опроса.
Процедура же многоступенчатой
выборки включает несколько ступеней,
при этом на каждой из них единица отбора
меняется. «Различают единицы отбора
первой ступени (первичные единицы),
единицы отбора вторичной ступени
(вторичные единицы) и так далее.
Объекты
самой нижней ступени, с которых ведется
непосредственный сбор информации,
называются единицами наблюдения»3.
Например, задача исследования – изучение
свободного времени студентов всей
страны.
Процедура будет
строиться следующим образом:
-
отбор регионов;
-
отбор города в них, где есть вузы;
-
отбор учебных заведений, в которых будет проводиться исследование;
-
выбор академических групп;
-
отбор студентов.
Многоступенчатая
выборка осуществляется не в локальных
масштабах, а в региональных, общенациональных,
международных. Использовать одноступенчатую
выборку в таких масштабах нерационально,
да и очень дорого обойдётся такое
исследование. Многоступенчатая выборка
в этом плане экономична и упрощает
подход к выбору объекта.
- Но нужно
учитывать, что чем больше ступеней в
выборке, тем больше будет ошибка
репрезентативности, возрастёт вероятность
погрешностей, что приведёт к искажению
результатов исследования4. - Рассмотрев
некоторые типы выборок, необходимо
также уяснить, что такое объем выборки
и какие бывают ошибки выборки и как их
избежать. - В
формировании выборочной совокупности
важную роль играет определение ее объема
и обеспечение репрезентативности.
«Если тип выборки
говорит о том, как попадают люди в
выборочную совокупность, то объём
выборки сообщает о том, какое их
количество попало сюда»2. То есть объем выборки – это количество
единиц попавших в выборочную совокупность.
И очень важно, чтобы выборка была
репрезентативной, то есть не искажала
представлений о генеральной совокупности
вцелом3.
«Требования репрезентативности выборки
означают, что по выделенным параметрам
(критериям) состав обследуемых должен
приближаться к соответствующим пропорциям
в генеральной совокупности»4.
Одна из ключевых
проблем, встающих, как правило, перед
социологом, решающим: доверять полученным
в ходе него данным или нет, это то, сколько
же человек должно быть опрошено для
того, чтобы получить действительно
репрезентативную информацию.
К сожалению,
единой и четкой формулы, используя
которую можно было бы рассчитать
оптимальный объем выборочной совокупности,
не существует в природе. И объясняется
это весьма просто.
Дело в том, что
определение объема выборочной совокупности
– это проблема не столько статистическая,
сколько содержательная.
Иными словами,
объем выборочной совокупности зависит
от множества факторов, основные из них
следующие:
-
затраты на сбор информации, включая временные;
-
стремление к определённой статистической достоверности результатов, которую надеется получить исследователь;
-
ценность и новизна информации, получаемой в результате опроса5.
Объем
выборки обусловлен степенью однородности
или неоднородности, генеральной
совокупности, количеством характеризующих
ее признаков.
Однородной считается совокупность,
в которой контролируемый признак,
например уровень грамотности, распределён
равномерно, то есть не образует пустот
и сгущений, тогда опросив лишь несколько
человек, можно сделать вывод о том, что
большинство людей грамотны.
Чем более
однородна генеральная совокупность,
тем меньше объем выборки. Например,
«допустим, мы осуществляем отбор из
генеральной совокупности в 2000 человек,
контролируя состав выборочной совокупности
по признаку «пол»»: 70% мужчин и 30% женщин.
Согласно теории вероятности, можно
предположить, что примерно среди каждых
десяти отбираемых респондентов встретятся
три женщины. Если мы хотим опросить по
крайней мерее 90 женщин, то исходя из
вышеупомянутого соотношения, нам
необходимо отобрать не менее 300 человек.
А теперь предположим, что в генеральной
совокупности 90% мужчин и 10% женщин. В
этом случае, чтобы в выборочную
совокупность попало 90 женщин, необходимо
отобрать уже не менее 900 человек»1.
Из примера видно, что объем выборки
зависит от разброса признака (дисперсии),
и его нужно вычислять по признаку,
дисперсия значений которого наибольшая.
«Степень
однородности социального объекта
зависит, в сущности, от того, насколько
детально мы намерены его исследовать.
Практически любой, самый «элементарный»
объект оказывается чрезвычайно сложным.
Лишь в анализе мы представляем его как
относительно простой, выделяя те или
иные его свойства.
Чем более основательным
и детальным будет анализ, чем больше
свойств данного объекта мы намерены
принять во внимание в их сочетании, а
не изолированно, тем больше должен быть
объем выборки»2.
Существуют, так
называемые «правила левой руки» для
определения размера выборки (таблица
1)»3:
Размер выборки растёт | Размер выборки уменьшается |
— при необходимости опубликовать данные для отдельных подгрупп (размеры подвыборок при этом суммируются, и выборка в целом растёт пропорционально числу подгрупп); | — при исследовании организаций, институтов и прочих «первичных единиц отбора», если сравнительно невелика величина генеральной совокупности, из которой производится отбор(например, совокупности сотрудников рекламных агентств, школьников, пациентов и т.п.); |
— при проведении общенациональных обследований, когда велика генеральная совокупность; | — при проведении локальных и региональных исследований; |
Источник: https://studfile.net/preview/5996791/page:7/
Ошибки выборки
Расхождения между величиной какого-либо показателя, найденного посредством статистического наблюдения, и действительными его размерами называются ошибками наблюдения. В зависимости от причин возникновения различают ошибки регистрации и ошибки ре- пр ез ентативн о сти.
Ошибки регистрации возникают в результате неправильного установления фактов или ошибочной записи в процессе наблюдения или опроса. Они бывают случайными или систематическими.
Случайные ошибки регистрации могут быть допущены как опрашиваемыми в их ответах, так и регистраторами. Систематические ошибки могут быть и преднамеренными, и непреднамеренными. Преднамеренные — сознательные, тенденциозные искажения действительного положения дела.
Непреднамеренные вызываются различными случайными причинами (небрежность, невнимательность).
Ошибки репрезентативности (представительности) возникают в результате неполного обследования и в случае, если обследуемая совокупность недостаточно полно воспроизводит генеральную совокупность. Они могут быть случайными и систематическими.
Случайные ошибки репрезентативности — это отклонения, возникающие при несплошном наблюдении из-за того, что совокупность отобранных единиц наблюдения (выборка) неполно воспроизводит всю совокупность в целом. Систематические ошибки репрезентативности — это отклонения, возникающие вследствие нарушения принципов случайного отбора единиц.
Ошибки репрезентативности органически присущи выборочному наблюдению и возникают в силу того, что выборочная совокупность не полностью воспроизводит генеральную.
Избежать ошибок репрезентативности нельзя, однако, пользуясь методами теории вероятностей, основанными на использовании предельных теорем закона больших чисел, эти ошибки можно свести к минимальным значениям, границы которых устанавливаются с достаточно большой точностью.
Ошибки выборки — разность между характеристиками выборочной и генеральной совокупности. Для среднего значения ошибка будет определяться по формуле
Величина называется предельной ошибкой выборки.
Предельная ошибка выборки — величина случайная. Исследованию закономерностей случайных ошибок выборки посвящены предельные теоремы закона больших чисел. Наиболее полно эти закономерности раскрыты в теоремах П.Л. Чебышева и А.М. Ляпунова.
Теорему П.Л. Чебышева применительно к рассматриваемому методу можно сформулировать следующим образом: при достаточно большом числе независимых наблюдений можно с вероятностью, близкой к единице (т.е.
почти с достоверностью), утверждать, что отклонение выборочной средней от генеральной будет сколько угодно малым. В теореме П.Л. Чебышева доказано, что величина ошибки не должна превышать tp .
В свою очередь величина Р, выражающая среднее квадратическое отклонение выборочной средней от генеральной средней, зависит от колеблемости признака в генеральной совокупности о- и числа отобранных единиц п. Эта зависимость выражается формулой
- где Р зависит также от способа производства выборки.
- Величину М = о2 называют средней ошибкой выборки. В этом V п
- выражении а2 — генеральная дисперсия, п — объем выборочной совокупности.
Рассмотрим, как влияет на величину средней ошибки число отбираемых единиц п. Логически нетрудно убедиться, что при отборе большого числа единиц расхождения между средними будут меньше, т.е.
существует обратная связь между средней ошибкой выборки и числом отобранных единиц.
При этом здесь образуется не просто обратная математическая зависимость, а такая зависимость, которая показывает, что квадрат расхождения между средними обратно пропорционален числу отобранных единиц.
Увеличение колеблемости признака влечет за собой увеличение среднего квадратического отклонения, а, следовательно, и ошибки. Если предположить, что все единицы будут иметь одинаковую величину признака, то среднее квадратическое отклонение станет равно нулю и ошибка выборки также исчезнет.
Тогда нет необходимости применять выборку. Однако следует иметь в виду, что величина колеблемости признака в генеральной совокупности не известна, поскольку не известны размеры единиц в ней. Можно рассчитать лишь колеблемость признака в выборочной совокупности.
Соотношение между дисперсиями генеральной и выборочной совокупности выражается формулой
Поскольку величина п при достаточно больших п близка к 1, п — 1
можно приближенно считать, что выборочная дисперсия равна генеральной дисперсии, т.е. Орен ж •
Следовательно, средняя ошибка выборки показывает, какие возможны отклонения характеристик выборочной совокупности от соответствующих характеристик генеральной совокупности. Однако о величине этой ошибки можно судить с определенной вероятностью. На величину вероятности указывает множитель t.
Теорема А.М. Ляпунова. А.М. Ляпунов доказал, что распределение выборочных средних (следовательно, и их отклонений от генеральной средней) при достаточно большом числе независимых наблюдений приближенно нормально при условии, что генеральная совокупность обладает конечной средней и ограниченной дисперсией.
Математически теорему Ляпунова можно записать так:
- Где
- где я = 3,14 — математическая постоянная;
- — предельная ошибка выборки, которая дает возможность выяснить, в каких пределах находится величина генеральной средней.
- Значения этого интеграла для различных значений коэффициента доверия t вычислены и приводятся в специальных математических таблицах. В частности, при:
Поскольку t указывает на вероятность расхождения х — х , т.е.
на вероятность того, на какую величину генеральная средняя будет отличаться от выборочной средней, то это может быть прочитано так: с вероятностью 0,683 можно утверждать, что разность между выборочной и генеральной средними не превышает одной величины средней ошибки выборки.
Другими словами, в 68,3% случаев ошибка репрезентативности не выйдет за пределы ±Ц. С вероятностью 0,954 можно утверждать, что ошибка репрезентативности не превышает ± 2р (т.е. в 95% случаев). С вероятностью 0,997, т.е.
довольно близкой к единице, можно ожидать, что разность между выборочной и генеральной средней не превзойдет трехкратной средней ошибки выборки и т.д.
- Логически связь здесь выглядит довольно ясно: чем больше пределы, в которых допускается возможная ошибка, тем с большей вероятностью судят о ее величине.
- Зная выборочную среднюю величину признака (х) и предельную ошибку выборки можно определить границы (пределы), в
- которых заключена генеральная средняя
Источник: https://bstudy.net/710108/ekonomika/oshibki_vyborki