Размер
выборки
– это количество элементов, которые
необходимо отобрать из генеральной
совокупности для проведения выборочного
исследования.
Определение
размера выборки для вероятностного
метода отбора представляет собой сложный
процесс, включающий ряд этапов: 1) оценка
факторов, влияющих на объем выборки; 2)
выбор метода расчета размера выборки;
3) расчет размера выборки; 4) оценка
стандартного отклонения среднего в
выборочной совокупности; 5) расчет
предельной ошибки выборки; 6) оценка
среднего значения признака в генеральной
совокупности (см. рис. 4.8).
В
случае применения детерминированного
метода отбора используются только
приблизительные методы расчета размера
выборки и оценить объективно точность
результатов исследования не представляется
возможным.
1.
Оценка факторов, влияющих на размер
выборки.
К наиболее важным факторам, определяющим
объем выборки, относятся следующие:
важность принимаемого решения, характер
исследования, бюджет исследования,
стоимость сбора информации, число групп
и подгрупп в генеральной совокупности,
коэффициенты охвата и завершенности,
размер генеральной совокупности и
требуемая точность исследования (см.
рис. 4.9). На размер ошибки выборки и,
соответственно, точность результатов
исследования влияют применяемая
процедура отбора и степень вариации
признака в совокупности.
Как
правило, для
принятия важных решений
необходима детальная, максимально
точная информация. Ее получение
предусматривает создание больших
выборок, но при увеличении объема выборки
возрастает и стоимость каждой
дополнительной единицы информации.
На
величину объема выборки влияет также
характер
исследования.
В поисковых исследованиях, изучающих
качественные характеристики, объем
выборки, как правило, невелик. Для
исследований, предусматривающих
статистическое заключение, таких как
дескриптивные, необходим больший объем
выборки. Кроме того, большие выборки
нужны, когда информация собирается
с учетом большого количества переменных.
Большой объем выборки позволяет снизить
общий эффект от ошибок выборки по всем
переменным.
Принимая
решения об объеме выборки, нужно учитывать
фактор ограниченности ресурсов или
располагаемый
бюджет исследования.
В любом исследовательском проекте
существуют временные и финансовые
ограничения. При жестких бюджетных
ограничениях исследователь будет стоять
перед выбором: использовать более
дешевые методы сбора информации или
ограничить размер выборки, допуская
снижение точности результатов.
Р
исунок
4.8.
Этапы расчета необходимого размера
выборки и оценки значения признака в
генеральной совокупности
Р
исунок
4.9.
Факторы, учитываемые при определении
размера выборки и взаимосвязи между
ними
Чем
больше размер выборки
(чем
он ближе к размерам генеральной
совокупности в целом), тем надежнее и
достовернее полученные данные, однако
стоимость
сбора информации
(включающая в себя расходы на размножение
инструментария, оплату труда интервьюеров,
супервайзеров и операторов компьютерного
набора данных) при этом значительно
возрастает;
При
проведении углубленного анализа данных
с использованием разнообразных
методов многомерного статистического
анализа необходим большой объем выборки.
Это же касается данных, которые
анализируются с особой точностью. Таким
образом, для
анализа данных на уровне группы или
подгруппы
потребуется больший объем выборки, чем
для анализа общей или генеральной
совокупности.
К примеру, мы хотим
исследовать потребительское поведение
населения города. Перед нами – структура
генеральной совокупности, которая
представляет распределение в целом
населения города и по трем квотным
признакам: район города, пол, возраст.
Совершенно очевидно, что если в
исследовании ставится задача изучить
мнения населения города в целом — это
одна ситуация; если в том числе и по
возрастным группам – это другая (здесь
мы имеем 3 группы); если необходимо
выявить распределения мнений по
возрастным и половым группам — это третья
ситуация (здесь мы имеем уже шесть
групп); наконец, если в исследовании нас
интересует распределение информации
по возрастным, половым группам и районам
города (к примеру, мы хотим определить,
как к покупкам того или иного товара
относятся молодые женщины, проживающие
во Фрунзенском районе г. Минска), то
здесь мы имеем дело уже с четвертой
ситуацией (54 группы). Для получения
репрезентативной информации в последним
случае необходимо обеспечить
представительство в минимальной из
этих пятидесяти четырех групп 25-30 чел.
Следовательно, минимальный объем
выборочной совокупности здесь будет
находиться в пределах 1600 чел.
Статистически
определенный объем выборки представляет
собой конечный, или чистый объем выборки,
который необходимо получить, чтобы
обеспечить расчет параметров с желательной
степенью точности и заданным уровнем
достоверности. При проведении опросов
он выражается в количестве завершенных
интервью. Для получения конечного объема
выборки необходимо связаться с большим
количеством потенциальных респондентов.
Другими словами, начальный объем выборки
должен намного превышать конечный,
поскольку коэффициенты охвата и
завершенности обычно составляют меньше
100%.
Коэффициентом
охвата
называется степень наличия или процент
людей, подходящих для участия в
исследовании. Коэффициент охвата
определяет, какое количество контактов
с людьми необходимо осуществить, чтобы
в итоге получить объем выборки,
соответствующий заданным критериям.
Предположим,
что для исследования характеристик
моющих средств необходимо создать
выборку из женщин – глав семьи в возрасте
от 25 до 55 лет. Приблизительно 75% женщин
в возрасте от 20 до 60 лет, к которым можно
обратиться, – это женщины – главы семьи
в возрасте от 25 до 55 лет. Это означает,
что, в среднем, необходимо обратиться
к 1,33 женщин, чтобы получить одного
подходящего респондента. Дополнительные
критерии для отбора респондентов
(например, каким образом использовался
продукт) увеличивают необходимое
количество контактов. Предположим, что
дополнительным критерием является
использование женщиной моющего средства
для пола в течение последних двух
месяцев. Предполагается, что 60% женщин,
к которым обратятся исследователи,
будут соответствовать этому критерию.
Тогда коэффициент охвата составит 0,75
х 0,60 = 0,45. Таким образом, конечный объем
выборки следует увеличить на 2,22 (1/0,45).
Точно
так же при определении объема выборки
необходимо учитывать ожидаемые отказы
людей, соответствующих критериям
исследования. Коэффициент
завершенности
указывает на процент респондентов,
соответствующих критериям отбора,
которые полностью прошли интервью.
Например, если исследователь предполагает,
что коэффициент завершенности интервью
составит 80% от числа подходящих
респондентов, необходимое количество
контактов следует умножить на коэффициент
1,25. Применение коэффициентов охвата и
завершенности означает, что число
контактов с потенциальными респондентами,
т.е. начальный объем выборки, должно
быть в 2,22 х 1,25 (или 2,77) раз больше
необходимого объема выборки.
Заранее
заданная точность
результатов исследования или допустимая
ошибка выборки
позволяют рассчитать необходимый размер
выборочной совокупности, используя
статистические методы, которые будут
рассмотрены далее.
Ошибкой
выборочного исследования
называется
любая ошибка, возникающая в результате
опроса или наблюдения и являющаяся
следствием использования выборки, а не
всей генеральной совокупности. Ошибки
выборочного исследования обусловлены
процедурой формирования выборки и
объемом выборки. Крупные выборки
порождают меньшую ошибку выборочного
исследования, чем малые.
Чтобы
извлечь выборку, как уже отмечалось в
предыдущем параграфе, сначала необходимо
определит: основу
выборки,
представляющую собой сводный список
все членов генеральной совокупности.
Как известно, списки не всегда полно
представляют генеральную совокупность,
поскольку в ней постоянно происходят
изменения: одни члены появляются, другие
– уходят. Кроме того, списки не застрахованы
от ошибок и опечаток. Таким образом,
ошибка
основы выборки
выражается
в неправильном описании всей генеральной
совокупности. Независимо от способа
формирования выборки, исследователь
должен учитывать ошибку основы. Иногда
в распоряжении исследователя оказывается
основа, лишь приблизительно описывающая
всю генеральную совокупность, однако,
если альтернативы нет, приходится
использовать и такие списки. Исследователь
должен тщательно выбирать основу
выборки, стремясь минимизировать
ошибки. Кроме того, исследователь должен
предупредить клиента о том, что
используемая основа выборки может
содержать ошибки.
Далее
будет идти речь только о случайных
ошибках выборочного
исследования, которые не связанны с
основой выборки и могут быть оценены
статистически. Иначе говоря, будем
предполагать, что основа выборки является
достаточно качественной и обеспечивает
низкий уровень ошибок, так что мы можем
извлечь из нее репрезентативную выборку.
Ошибка
выборки
зависит
не
только от ее величины, но и от
степени различий между отдельными
единицами внутри данной генеральной
совокупности.
Например, если нужно узнать, средний
размер потребления пива молодежью г.
Минска в возрасте 18-25 лет, то обнаружится,
что внутри имеющейся генеральной
совокупности нормы потребления у
различных людей существенно различны
(гетерогенная
генеральная
совокупность). Если же необходимо узнать
размер потребления хлеба в той же
генеральной совокупности, то он будет
различаться значительно меньше
(гомогенная
генеральная
совокупность). Чем больше различия
(гетерогенность) внутри генеральной
совокупности, тем больше возможная
ошибка выборки.
Некоторые
методы выборочного исследования
минимизируют ошибку выборки, другие –
никак на нее не влияют.
Например, использование стратифицированного
отбора может дать выигрыш в точности
при оценивании характеристик всей
совокупности. Часто неоднородную
совокупность удается расслоить на
подсовокупности (страты), каждая из
которых внутренне однородна. Если каждая
страта однородна в том смысле, что
результаты измерений в ней мало изменяются
от единицы к единице, то можно получить
точную оценку среднего значения для
любой страты по небольшой выборке в
этой страте. Затем эти оценки можно
объединить в одну точную оценку для
всей совокупности.
2. Выбор метода
расчета размера выборки.
Если специалист из опыта знает, какой
размер выборки следует использовать,
или же существуют различные ограничения
(например, связанные с бюджетом),
используют приблизительные
методы расчета размера выборки,
к которым относятся следующие:
— произвольный
метод расчета.
В этом случае объем выборки определяется
на уровне 5-10 % от генеральной совокупности.
— по
эмпирическим правилам.
Рекомендуется
выбирать размер выборки таким образом,
чтобы при ее разделении на группы в
каждой группе было не меньше 100 элементов.
Кроме сопоставления основных групп
анализ часто может потребовать
использования подгрупп. Размеры таких
подгрупп должны составлять от 20 до 50
человек. Это основано на том, что для
подгрупп требуется меньшая точность.
Если
одна из групп или подгрупп составляет
сравнительно небольшой процент
совокупности, то будет разумно использовать
непропорциональную выборку. Допустим,
что только 10% совокупности смотрит
образовательные телепередачи, и мнения
представителей этой группы требуется
сопоставить с мнениями других членов
совокупности. Если используются
телефонные интервью, контакты с жителями
могут устанавливаться случайно до тех
пор, пока не будут набраны 100 человек,
которые не смотрят образовательные
телепередачи. Далее опрос продолжается,
однако уже опрашиваются лишь те
респонденты, кто образовательные
телепередачи смотрит. В результате
будет получена выборка из 200 человек,
половина из которых смотрят образовательные
телепередачи.
— традиционный
метод расчета
связан с проведением периодических
ежегодных исследований, охватывающих,
например, 500, 1000 или 1500 респондентов.
— на
основе опыта сопоставимых исследований.
Таблица
4.7 дает представление об объемах выборок,
используемых в различных маркетинговых
исследованиях. Эти величины установлены
опытным путем и могут использоваться
в качестве ориентировочных данных,
особенно при детерминированных методах
формирования выборки.
— затратный
метод основан
на размере расходов, которые допустимо
затратить на проведение исследования.
Статистический
метод определения объема выборки
основан на традиционном статистическом
заключении. В соответствии с этим методом
заранее определяется уровень (степень)
точности.
Рассмотрение
данного метода начнем с краткой
характеристики базовых
понятий математической статистики.
Наиболее
важным понятием, позволяющим делать
заключения о свойствах генеральной
совокупности на основе выборочных
методов является кривая нормального
распределения.
Таблица
4.7.
Объемы выборок, используемых в
маркетинговых исследованиях
Вид исследования |
Минимальный объем |
Обычный диапазон |
Исследование, цель которого |
500 |
1000-2500 |
Исследование, цель которого |
200 |
300-500 |
Тестирование товара |
200 |
300-500 |
Пробный маркетинг |
200 |
300-500 |
Теле- радио- и печатная |
150 |
200-300 |
Аудит на пробном рынке |
10 магазинов |
10-20 магазинов |
Фокус-группы |
2 группы |
10-15 групп |
Кривая нормального
распределения
– это теоретическая модель, представляющая
собой абсолютно симметричный и гладкий
вид полигона частот. Она имеет форму
колокола и одну вершину, а ее концы
уходят в бесконечность в обоих
направлениях. Важнейшим свойством,
которым обладает кривая нормального
распределения, является то, что расстояние
по абсциссе (горизонтальная ось)
распределения, измеренное в единицах
стандартного отклонения от среднего
арифметического распределения, всегда
дает одинаковую общую площадь под
кривой: между ±1 стандартным отклонением
находится 68,3% площади; между ±2 стандартными
отклонениями – 95,4% площади; между ±3
стандартными отклонениями – 99,7% площади
(см. рис. 4.10).
Рисунок
4.10. Области
под теоретической кривой нормального
распределения
C
понятием кривой нормального распределения
связана центральная
предельная теорема, которая
гласит:
«Если
из генеральной совокупности, имеющей
любое распределение со средним μ
и
стандартным отклонением σ,
многократно извлекать случайные выборки
объема n,
то
при большом n
распределение всех возможных выборочных
средних будет стремиться к нормальному
распределению со средним μ
и
стандартным
отклонением σ
/
».
Таким
образом, центральная предельная теорема
позволяет распространять данные,
полученные в результате выборочного
исследования на всю генеральную
совокупность с определенной степенью
допущения при условии достаточно
большого объема выборки.
Конечно,
остается вопрос о том, что же такое
большой объем выборки. Полезное
эмпирическое правило гласит: если объем
выборки (n)
равен
100 или более, то применима центральная
предельная теорема и вы можете принять
допущение о нормальности распределения
всех возможных выборочных средних. Если
же n
меньше
100, то вы должны иметь веские доказательства
нормальности распределения генеральной
совокупности, и только после этого вы
можете полагать, что распределение,
которому подчиняются выборочные
статистики, является нормальным.
Следовательно, нормальность распределения
выборочных статистик гарантируется
путем использования довольно больших
выборок.
3.
Выбор требуемой степени точности и
достоверности результатов исследования.
При проведении любого выборочного
опроса или наблюдения перед исследователем
ставится задача оценить, каково истинное
значение во всей генеральной совокупности
либо среднего
значения
абсолютного
признака (доход
потребителей, размер потребления
конкретного товара), либо доли
единиц в совокупности, обладающих
каким-либо
признаком
(доля постоянных потребителей конкретного
товара; доля потребителей, удовлетворенных
уровнем обслуживания). Точность
выборки
в первом случае будет представлена в
виде абсолютной величины со знаком ±
(например, ±100 тыс. руб.; ±1 кг), или в виде
процента, во втором случае – только в
виде процента с тем же знаком (например,
±1% или ±5%).
Интерпретация
точности выборки подчиняется следующей
логике: если объем выборки обеспечивает
точность ±5%, то результаты опроса или
наблюдения, полученные с помощью выборки,
отличаются от результатов полной
переписи не более чем на 5%.
Еще одним фактором,
влияющим на объем выборки является
заданная исследователем степень
достоверности
(надежности)
оценки,
то есть степень
уверенности в том, что оценка близка к
истинному значению.
Для выборки
фиксированного объема степень точности
и степень достоверности являются
связанными величинами. На деле определение
объема выборки предполагает достижение
известного баланса между двумя этими
принципами.
Зависимость
точности выборки от ее объема для 95,4% и
99,7% уровня надежности представлена на
рисунке 4.11. Объем выборок на графике
колеблется от 50 до 2000. График демонстрирует,
что при увеличении объема выборки
ее ошибка уменьшается. Однако, как видим,
зависимость ошибки выборки от ее объема
не является прямолинейной. Иначе говоря,
удвоение объема выборки, не приводит к
существенному уменьшению ошибки.
Р
исунок
4.11. Зависимость
точности и достоверности от объема
выборки
Если
объем выборки превышает 500, ошибка
выборки для 95,4% надежности падает ниже
±4% и продолжает очень медленно снижаться.
С другой стороны, анализ графика в
области малых выборок показывает, что
относительно небольшое изменение объема
выборки позволяет значительно повысить
их точность. Например, если объем выборки
равен 50, то ее уровень точности равен
±13,9%, а увеличение их объема до 250 позволяет
уменьшить ошибку выборки до ±6,2%. Иными
словами, точность выборки, объем которой
равен 25 примерно вдвое выше, чем точность
выборки, объем которой равен 50. Однако
в области крупных выборок это правило
не выполняется.
4. Определение
t
параметра, связанного с уровнем
надежности.
Определить значение t,
связанное с уровнем надежности можно
воспользовавшись таблицей 1 приложения.
Как видно по данным таблицы, при объеме
выборки больше 100 для 95,4% надежности
t≈2,
для 99,7% надежности t≈3.
5. Поиск информации
об уровне стандартного отклонения
среднего значения признака в генеральной
совокупности.
Здесь возможны
две различные ситуации: 1) стандартное
отклонение среднего значения признака
(σ)
в генеральной совокупности известно и
2) стандартное отклонение среднего
значения признака в генеральной
совокупности неизвестно.
В
первом случае можно приступить к расчету
объема
выборки с помощью формулы стандартной
ошибки выборки.
6.
Определение
объема выборки с помощью формулы
стандартной ошибки с учетом корректировки
на охват и завершенность.
Принято различать
среднюю и предельную ошибки выборки.
Предельная ошибка выборки определяется
следующим образом:
где
∆
— предельная ошибка выборки;
t
– параметр, связанный с уровнем
надежности;
μ
– средняя ошибка выборки.
Формулы расчета
средней ошибки
выборки для средней и для доли с учетом
способа отбора приведены в таблице 4.8.
Доверительные
интервалы для генеральной средней
можно установить на основе соотношений
Доверительные
интервалы для генеральной доли
устанавливаются на основе соотношений
Далее
для вычисления объема выборки применяется
формула
вычисление объема выборки по заданному
доверительному интервалу.
Формулы
расчета численности выборки
для определения средней и доли с учетом
способа отбора приведены в таблице 4.9.
Например,
для обследования, преследующего цель
выявить мнение потребителей о новом
товаре, в регионе, насчитывающем 10 тыс.
семей, необходимо провести анкетирование.
Условно принимается, что в каждой
квартире проживает одна семья и на нее
будет выделена одна анкета. Предварительные
исследования установили, что дисперсия
среднего размера покупки составляет
24 тыс. руб.; σ2
= 2; предельная ошибка не должна превышать
0,5 тыс. руб. Отсюда численность выборки
(п)
составит:
Эта
величина округляется до 400 семей
(квартир), т.е. установлена 4%-я выборка.
Однако практика показывает, что некоторая
часть анкет не возвращается (предположим
каждая пятая), поэтому увеличиваем число
анкет до 500. Следовательно, необходимо
включить в выборку каждую 20-ю квартиру
(10000 : 500).
Все
вышеприведенные формулы применимы для
большой выборки.
Кроме большой выборки используются так
называемые малые
выборки (n
< 30), которые могут иметь место в случаях
нецелесообразности использования
больших выборок.
При
расчете ошибок малой
выборки
необходимо учесть два момента:
1) формула средней
ошибки имеет вид
2)
при определении доверительных интервалов
исследуемого показателя в генеральной
совокупности или при нахождении
вероятности допуска той или иной ошибки
необходимо использовать таблицы
вероятности Стьюдента. При этом
вероятность
определяется
в зависимости от объема выборки и t
(см. табл.
прил. 1).
Таблица 4.8.
Формулы определения стандартной ошибки
выборки при различных способах отбора
Виды выборки Способы отбора |
Повторная выборка |
Бесповторная выборка |
Для средней |
||
Простая случайная выборка |
|
|
Стратифицированная |
|
|
Кластерная, |
— |
|
Для доли |
||
Простая случайная выборка |
|
|
Стратифицированная |
|
|
Кластерная, |
— |
— |
В
таблице используются следующие условные
обозначения:
N
– объем генеральной совокупности;
п
– объем выборочной совокупности;
– средняя в
генеральной совокупности;
–
средняя в выборочной
совокупности;
р
– доля единиц в генеральной совокупности;
w
– доля единиц в выборочной совокупности;
– генеральная
дисперсия (заменяется на выборочную
(S2) в случае, если она
не известна);
– межсерийная
дисперсия
;
r
— число отобранных серий;
R—
число серий в генеральной совокупности.
Таблица 4.9.
Формулы определения численности выборки
(n)
при различных способах отбора
Виды выборки Способы отбора |
Повторная выборка |
Бесповторная выборка |
Для средней |
||
Простая случайная выборка |
|
|
Стратифицированная |
|
|
Кластерная, |
— |
|
Для доли |
||
Простая случайная выборка |
|
|
Стратифицированная |
|
|
Кластерная, |
— |
— |
Например, для
разработки бизнес-плана нового ресторана,
который открывается в центральной части
г. Минска необходимо узнать ожидаемый
диапазон расходов одного посетителя в
вечернее время. Удалось получить
информацию о том, что стандартное
отклонение расходов посетителей близкого
по уровню и месту расположения ресторана
составляет 30$. Существует возможность
опросить около 26 посетителей ресторана.
С какой достоверностью можно получить
результат при заданной точности ±10$?
Рассчитаем среднюю
ошибку выборки:
Тогда
Из
таблицы приложения 1 для n=26
и t=1,66
можно определить, что при допуске ошибки
±10$ достоверность
результатов составит менее 90%. Более
точное значение достоверности для тех
же параметров можно получить, например,
при помощи функции СТЬЮДРАСП в Microsoft
Excel
— 89,2%.
С 95,4% надежностью
будет обеспечена меньшая точность:
7. Отбор
произвольной пробной выборки.
В случае если стандартное
отклонение среднего значения признака
в генеральной совокупности неизвестно,
необходимо сформировать произвольную
пробную выборку.
8. Расчет
стандартного отклонения средней в
выборочной совокупности.
На основе полученных данных рассчитывается
стандартное отклонение признака в
выборочной совокупности и, затем –
необходимый размер выборки по приведенным
выше формулам.
9. Расчет точности
полученных результатов по формуле
предельной ошибки выборки.По
данным, собранным в ходе проведенного
выборочного исследования, рассчитывается
точность результатов. Если полученная
точность не устраивает исследователя,
может возникнуть необходимость увеличить
размер выборки с учетом рассчитанного
стандартного отклонения и коэффициентов
отклика и завершенности.
Предположим, что
в предыдущем примере не было возможности
узнать стандартное отклонение расходов
посетителей ресторана. По данным опроса
30 случайно отобранных респондентов
получены следующие данные: 25$ – 2 чел.;
30$ – 3 чел.; 45$ – 7 чел.; 55$ – 6 чел.; 70$ – 3
чел.; 85$ – 5 чел.; 110$ – 2 чел.; 150$ – 2 чел.
Определяем среднее
значение по формуле средней взвешенной:
Далее
рассчитываем дисперсию (квадрат
стандартного отклонения) расходов
посетителей ресторана по выборочной
совокупности.
Тогда
точность полученных результатов с
достоверностью 95,4%:
Для
того, чтобы обеспечить заданную точность
(±10$) рассчитываем
необходимый размер выборки:
В
целом, для принятия взвешенного решения
по размеру выборки наряду со статистическими
методами расчета следует применить
рассмотренные ранее приблизительные
методы и сравнить полученные результаты.
10. Оценка значения
признака в генеральной совокупности.
Основными
методами распространения выборочного
наблюдения на генеральную совокупность
являются прямой пересчет и способ
коэффициентов.
Прямой
пересчет есть
произведение среднего значения признака
на объем генеральной совокупности.
Однако большое число факторов не
позволяет в полной мере использовать
точечную оценку прямого пересчета при
распространении результатов выборки
на генеральную совокупность. На практике
чаще пользуются интервальной оценкой,
которая дает возможность учитывать
размер предельной ошибки выборки,
которая рассчитана для средней или для
доли признака.
Оценка
среднего по совокупности при использовании
стратифицированной выборки является
взвешенным средним средних значений
по каждой страте выборки.
Например,
производителю пива для оценки емкости
внутреннего рынка в частности необходимо
определить долю потребителей пива в
общей численности населения региона в
возрасте от 20 до 60 лет с точностью ±5%.
Можно предположить, что данный показатель
будет варьировать по полу и возрасту.
В таблице 4.10 представлена информация
о численности и структуре населения
региона в возрасте от 20 до 60 лет.
Таблица
4.10. Численность
населения региона в возрасте от 20 до 60
лет
Возрастные категории населения |
Всего, тыс. чел. |
В том числе |
|
мужчины |
женщины |
||
20-29 |
1576,0 |
802,0 |
774,0 |
30-39 |
1357,3 |
671,4 |
685,9 |
40-49 |
1559,6 |
751,9 |
807,7 |
50-59 |
1276,1 |
582,7 |
693,4 |
Всего |
5769,0 |
2807,9 |
2961,1 |
Ранее
проведенный опрос 200 респондентов в
возрасте от 20 до 60 лет показал, что доля
потребителей пива в общей численности
населения региона составляет 83%. По
имеющейся информации был рассчитан
необходимый объем выборки:
С
учетом необходимости обеспечить
необходимый минимальный размер подгрупп
округляем полученный результат до 300
человек и рассчитываем объем выборки
для каждой из страт по полу и возрасту
пропорционально соответствующей
численности населения. Результаты
расчета представлены в таблице 4.11.
Таблица
4.11. Структура
населения региона в возрасте от 20 до 60
лет и численность выборки.
Возрастные категории населения |
В % к общей численности населения |
Численность выборки |
|||
всего |
мужчины |
женщины |
мужчины |
женщины |
|
20-29 |
27,3 |
13,9 |
13,4 |
42 |
40 |
30-39 |
23,6 |
11,7 |
11,9 |
35 |
36 |
40-49 |
27,0 |
13,0 |
14,0 |
39 |
42 |
50-59 |
22,1 |
10,1 |
12,0 |
30 |
36 |
Всего |
100,0 |
48,7 |
51,3 |
146 |
154 |
В
результате опроса получены данные,
представленные в таблице 4.12.
Таблица
4.12. Доля
потребителей пива в общей численности
населения в разрезе возрастных категорий
по данным выборочного опроса.
Возрастные категории населения |
Доля потребителей пива |
|
мужчины |
женщины |
|
20-29 |
0,812 |
0,795 |
30-39 |
0,855 |
0,743 |
40-49 |
0,848 |
0,683 |
50-59 |
0,867 |
0,542 |
Определяем долю
потребителей пива по формуле средней
взвешенной:
Средняя
ошибка выборки:
Предельная ошибка
выборки для 95,4% надежности составит:
Таким
образом, с 95,4% надежностью можно
утверждать, что доля потребителей пива
в общей численности населения региона
в возрасте от 20 до 60 лет находится в
интервале от 71,8% (76,6% — 4,8%) до 81,4% (76,6% +
4,8%).
Опрос
обычно не ограничивается одним вопросом
–
иногда их сотни. Поэтому повторять
подобный процесс для каждого вопроса
смысла не имеет. Разумный подход –
выбрать несколько репрезентативных
вопросов и по ним определить размер. В
этот набор следует включить наиболее
критичные вопросы с максимальным уровнем
ожидаемой дисперсии.
В таком случае
может оказаться полезным подход
к расчету объема выборки, основанный
на сценарии максимально возможной
вариации признака в совокупности. Как
видно на рисунке 6, вариант,
когда w=
0,5 (50%) является наиболее консервативным,
поскольку он порождает максимальный
размер ошибки и, соответственно,
максимальный объем выборки. Следовательно,
его следует выбирать, когда изменчивость
не известна. Тогда формула размера
выборки упрощается:
Для 95% уровня
надежности и 5% уровня точности:
Р
исунок
4.12.
График
Использование
номограмм для
расчета
объема выборки. Стремление
упростить процедуру расчета объема
выборки приводит к созданию таблиц,
шкал или программ, которые ориентированы
на обеспечение статистической
надежности информации, но при этом не
обременяют пользователя знаниями
специальных формул из области статистики.
Например, существует калькулятор выборки
(www.
shortway.
to/few/calculator,
htm).
Номограмма является
графическим способом определения
размера выборки. Номограмма включает
три шкалы (рис. 7). На шкале слева
устанавливается разметка показателя
среднеквадратического отклонения
или распределения доли признака. На
правой шкале наносится разметка точности
измерения в виде допустимой ошибки при
заданной доверительной вероятности
95,4% или 99,7%. На средней шкале делается
разметка, соответствующая требуемому
объему выборки. На правой и левой
шкалах делаются отметки на уровне
желаемых значений показателей (доли
признака и допустимой ошибки). Линейкой
эти две отметки соединяются, на пересечении
линейки со средней шкалой делается
отметка, соответствующая тому объему
выборки, который отвечает пожеланиям
исследователя.
Предельная ошибка выборки
Предельная ошибка — максимально возможное расхождение средних или максимум ошибок при заданной вероятности ее появления.
1. Предельную ошибку выборки для средней при повторном отборе в контрольных по статистике в ВУЗах рассчитывают по формуле:
где t — нормированное отклонение — «коэффициент доверия», который зависит от вероятности, гарантирующей предельную ошибку выборки;
мю х — средняя ошибка выборки.
2. Предельная ошибка выборки для доли при повторном отборе определяется по формуле:
3. Предельная ошибка выборки для средней при бесповторном отборе:
4. Предельная ошибка выборки для доли при бесповторном отборе:
Предельная относительная ошибка выборки
Предельную относительную ошибку выборки определяют как процентное соотношение предельной ошибки выборки к соответствующей характеристике выборочной совокупности. Она определяется таким образом:
Малая выборка
Теория малых выборок была разработана английским статистиком Стьюдентом в начале 20 века. В 1908 г. он выявил специальное распределение, которое позволяет и при малых выборках соотносить t и доверительную вероятность F(t). При n больше 100 дают такие же результаты, что и таблицы интеграла вероятностей Лапласа, при 30 < n < 100 различия получаются незначительные. Поэтому на практике к малым выборкам относятся выборки объемом менее 30 единиц.
Средняя и предельная ошибки для малой выборки
В малой выборке средняя ошибка рассчитывается по формуле:
Предельная ошибка малой выборки рассчитывается по формуле:
где t — отношение Стьюдента
Источник: Балинова B.C. Статистика в вопросах и ответах: Учеб. пособие. — М.: ТК. Велби, Изд-во Проспект, 2004. — 344 с.
Материалы сайта
Обращаем Ваше внимание на то, что все материалы опубликованы для образовательных целей.
From Wikipedia, the free encyclopedia
In statistics, sampling errors are incurred when the statistical characteristics of a population are estimated from a subset, or sample, of that population. Since the sample does not include all members of the population, statistics of the sample (often known as estimators), such as means and quartiles, generally differ from the statistics of the entire population (known as parameters). The difference between the sample statistic and population parameter is considered the sampling error.[1] For example, if one measures the height of a thousand individuals from a population of one million, the average height of the thousand is typically not the same as the average height of all one million people in the country.
Since sampling is almost always done to estimate population parameters that are unknown, by definition exact measurement of the sampling errors will not be possible; however they can often be estimated, either by general methods such as bootstrapping, or by specific methods incorporating some assumptions (or guesses) regarding the true population distribution and parameters thereof.
Description[edit]
Sampling Error[edit]
The sampling error is the error caused by observing a sample instead of the whole population.[1] The sampling error is the difference between a sample statistic used to estimate a population parameter and the actual but unknown value of the parameter.[2]
Effective Sampling[edit]
In statistics, a truly random sample means selecting individuals from a population with an equivalent probability; in other words, picking individuals from a group without bias. Failing to do this correctly will result in a sampling bias, which can dramatically increase the sample error in a systematic way. For example, attempting to measure the average height of the entire human population of the Earth, but measuring a sample only from one country, could result in a large over- or under-estimation. In reality, obtaining an unbiased sample can be difficult as many parameters (in this example, country, age, gender, and so on) may strongly bias the estimator and it must be ensured that none of these factors play a part in the selection process.
Even in a perfectly non-biased sample, the sample error will still exist due to the remaining statistical component; consider that measuring only two or three individuals and taking the average would produce a wildly varying result each time. The likely size of the sampling error can generally be reduced by taking a larger sample.[3]
Sample Size Determination[edit]
The cost of increasing a sample size may be prohibitive in reality. Since the sample error can often be estimated beforehand as a function of the sample size, various methods of sample size determination are used to weigh the predicted accuracy of an estimator against the predicted cost of taking a larger sample.
Bootstrapping and Standard Error[edit]
As discussed, a sample statistic, such as an average or percentage, will generally be subject to sample-to-sample variation.[1] By comparing many samples, or splitting a larger sample up into smaller ones (potentially with overlap), the spread of the resulting sample statistics can be used to estimate the standard error on the sample.
In Genetics[edit]
The term «sampling error» has also been used in a related but fundamentally different sense in the field of genetics; for example in the bottleneck effect or founder effect, when natural disasters or migrations dramatically reduce the size of a population, resulting in a smaller population that may or may not fairly represent the original one. This is a source of genetic drift, as certain alleles become more or less common), and has been referred to as «sampling error»,[4] despite not being an «error» in the statistical sense.
See also[edit]
- Margin of error
- Propagation of uncertainty
- Ratio estimator
- Sampling (statistics)
References[edit]
- ^ a b c Sarndal, Swenson, and Wretman (1992), Model Assisted Survey Sampling, Springer-Verlag, ISBN 0-387-40620-4
- ^ Burns, N.; Grove, S. K. (2009). The Practice of Nursing Research: Appraisal, Synthesis, and Generation of Evidence (6th ed.). St. Louis, MO: Saunders Elsevier. ISBN 978-1-4557-0736-2.
- ^ Scheuren, Fritz (2005). «What is a Margin of Error?». What is a Survey? (PDF). Washington, D.C.: American Statistical Association. Archived from the original (PDF) on 2013-03-12. Retrieved 2008-01-08.
- ^ Campbell, Neil A.; Reece, Jane B. (2002). Biology. Benjamin Cummings. pp. 450–451. ISBN 0-536-68045-0.
Простая случайная выборка
заключается в отборе единиц из генеральной совокупности в целом, без разделения ее на группы, подгруппы или серии отдельных единиц. При этом единицы отбираются в случайном порядке, не зависящем ни от последовательности расположения единиц в совокупности, ни от значений их признаков. Прежде чем производить собственно-случайный отбор, необходимо убедиться, что все без исключения единицы генеральной совокупности имеют абсолютно равные шансы попадания в выборку, в списках или перечне отсутствуют пропуски, игнорирования отдельных единиц и т.п.
Упрощенным вариантом метода прямой реализации является отбор единиц в выборочную совокупность на основе таблицы случайных чисел. Для проведения отбора могут быть использованы цифры любого столбца данной таблицы, при этом необходимо учитывать объем генеральной совокупности.
При проведении бесповторного отбора повторяющиеся номера следует учитывать только один раз. При повторном отборе, если тот или иной номер случайно встретится еще один или более раз, соответствующая этому номеру единица в каждом случае повторно включается в выборочную совокупность.
После проведения отбора с использованием какого-либо алгоритма, реализующего принцип случайности, или на основе таблицы случайных чисел, необходимо определить границы генеральных характеристик. Для этого рассчитываются средняя и предельная ошибки выборки.
Между признаками выборочной совокупности и признаками генеральной совокупности, как правило, существует некоторое расхождение, которое называют ошибкой статистического наблюдения. При массовом наблюдении ошибки неизбежны, но возникают они в результате действия различных причин. Величина возможной ошибки выборочного признака слагается из ошибок регистрации и ошибок репрезентативности. Ошибки регистрации, или технические ошибки, связаны с недостаточной квалификацией наблюдателей, неточностью подсчетов, несовершенством приборов и т. п.
Под ошибкой репрезентативности (представительства) понимают расхождение между выборочной характеристикой и предполагаемой характеристикой генеральной совокупности.
Ошибки репрезентативности бывают случайными и систематическими.
Систематические ошибки связаны с нарушением установленных правил отбора.
Случайные ошибки объясняются недостаточно равномерным представлением в выборочной совокупности различных категорий единиц генеральной совокупности.
В результате первой причины (систематические ошибки) выборка легко может оказаться смещенной, так как при отборе каждой единицы допускается ошибка, всегда направленная в одну и ту же сторону. Эта ошибка получила название ошибки смещения. Ее размер может превышать величину случайной ошибки. Особенность ошибки смещения состоит в том, что, представляя собой постоянную часть ошибки репрезентативности, она увеличивается с увеличением объема выборки. Случайная же ошибка с увеличением объема выборки уменьшается. Кроме того, величину случайной ошибки можно определить, в то время как размер ошибки смещения непосредственно практически определить очень сложно, а иногда и невозможно. Поэтому важно знать причины, вызывающие ошибку смещения, и предусмотреть мероприятия по ее устранению.
Ошибки смещения бывают преднамеренными и непреднамеренными. Причиной возникновения преднамеренной ошибки является тенденциозный подход к выбору единиц из генеральной совокупности. Чтобы не допустить появления такой ошибки, необходимо соблюдать принцип случайности отбора единиц.
Непреднамеренные ошибки могут возникать на стадии подготовки выборочного наблюдения, формирования выборочной совокупности и анализа ее данных. Чтобы не допустить появления таких ошибок, необходима хорошая основа выборки, т. е. та генеральная совокупность, из которой предполагается производить отбор, например список единиц отбора. Основа выборки должна быть достоверной, полной и соответствовать цели исследования, а единицы отбора и их характеристики должны соответствовать действительному их состоянию на момент подготовки выборочного наблюдения. Нередки случаи, когда в отношении некоторых единиц, попавших в выборку, трудно собрать сведения из-за их отсутствия на момент наблюдения, нежелания дать сведения и т. п. В таких случаях эти единицы приходится заменять другими. Необходимо следить, чтобы замена осуществлялась равноценными единицами.
Случайная ошибка выборки возникает в результате случайных различий между единицами, попавшими в выборку, и единицами генеральной совокупности, т. е. она связана со случайным отбором. Теоретическим обоснованием появления случайных ошибок выборки являются теория вероятностей и ее предельные теоремы.
Сущность предельных теорем состоит в том, что в массовых явлениях совокупное влияние различных случайных причин на формирование закономерностей и обобщающих характеристик будет сколь угодно малой величиной или практически не зависит от случая. Так как случайная ошибка выборки возникает в результате случайных различий между единицами выборочной и генеральной совокупностей, то при достаточно большом объеме выборки она будет сколь угодно мала.
Предельные теоремы теории вероятностей позволяют определять размер случайных ошибок выборки. Различают среднюю (стандартную) и предельную ошибку выборки. Под средней (стандартной) ошибкой выборки понимают расхождение между средней выборочной и генеральной совокупностей. Предельной ошибкой выборки принято считать максимально возможное расхождение, т. е. максимум ошибки при заданной вероятности ее появления.
Внимание!
Если вам нужна помощь в написании работы, то рекомендуем обратиться к
профессионалам. Более 70 000 авторов готовы помочь вам прямо сейчас. Бесплатные
корректировки и доработки. Узнайте стоимость своей работы.
В математической теории выборочного метода сравниваются средние характеристики признаков выборочной и генеральной совокупностей и доказывается, что с увеличением объема выборки вероятность появления больших ошибок и пределы максимально возможной ошибки уменьшаются. Чем больше обследуется единиц, тем меньше будет величина расхождений выборочных и генеральных характеристик. На основании теоремы, доказанной П. Л. Чебышевым, величину средней (стандартной) ошибки повторной простой случайной выборки при достаточно большом объеме выборки (n) можно определить по формуле:
где — стандартная ошибка.
Из этой формулы средней (стандартной) ошибки повторной простой случайной выборки видно, что величина зависит от изменчивости признака в генеральной совокупности (чем больше вариация признака, тем больше ошибка выборки) и от объема выборки n чем больше обследуется единиц, тем меньше будет величина расхождений выборочных и генеральных характеристик).
В математической статистике употребляют коэффициент доверия t, и значения функции F(t) табулированы при разных его значениях, при этом получают соответствующие уровни доверительной вероятности.
Коэффициент доверия или коэффициент кратности ошибки репрезентативности, (t-критерий Стьюдента) позволяет вычислить предельную ошибку простой случайной выборки. С учетом выбранного уровня вероятности и соответствующего ему значения t
предельная ошибка повторной простой случайной выборки составит:
Из формулы вытекает, что предельная ошибка выборки равна кратному числу средних ошибок выборки.
Таким образом, величина предельной ошибки выборки может быть установлена с определенной вероятностью.
Выборочное наблюдение дает возможность определить среднюю арифметическую выборочной совокупности и величину предельной ошибки этой средней
которая показывает с определенной вероятностью, насколько выборочная может отличаться от генеральной средней в большую или меньшую сторону.
Тогда величина генеральной средней будет представлена интервальной оценкой. Интервал, в который с данной степенью вероятности будет заключена неизвестная величина оцениваемого параметра, называю доверительным, а вероятность Р – доверительной вероятностью. Чаще всего доверительную вероятность принимают равной 0,95 или 0,99. Это означает, что доверительный интервал с заданной вероятностью заключает в себе генеральную среднюю.
Тогда можно утверждать, что при заданной вероятности генеральная средняя будет находиться в следующих границах:
Чем больше величина средней ошибки выборки, тем больше величина доверительного интервала и тем, следовательно, ниже точность оценки. Средняя (стандартная) ошибка выборки зависит от объема выборки и степени вариации признака в генеральной совокупности.
Пример.
Предположим, в результате выборочного обследования доходов домохозяйств региона, осуществленного на основе собственно-случайной повторной выборки, получен следующий ряд распределения.
Рассмотрим определение границ генеральной средней, в данном примере – среднего дохода домохозяйства в целом по данному региону, опираясь только на результаты выборочного обследования. Для определения средней ошибки выборки нам необходимо прежде всего рассчитать выборочную среднюю величину и дисперсию изучаемого признака.
Средняя ошибка выборки составит:
Определим предельную ошибку выборки с вероятностью 0,954 (t=2):
Установим границы генеральной средней (тыс.руб.):
или
Таким образом, на основании проведенного выборочного обследования с вероятностью 0,954 можно заключить, что средний доход домохозяйства в целом по региону лежит в пределах от 11,3 до 11,9 тыс.руб.
При расчете средней ошибки простой случайной бесповторной выборки необходимо учитывать поправку на бесповторность отбора:
Если предположить, что представленные в таблице данные являются результатом 5%-ного бесповторного отбора (следовательно, генеральная совокупность включает 22000 домохозяйств), то средняя ошибка выборки будет несколько меньше:
Соответственно уменьшится и предельная ошибка выборки, что вызовет сужение границ генеральной средней. Особенно ощутимо влияние поправки на бесповторность отбора при относительно большом проценте выборки.
Получить выполненную работу или консультацию специалиста по вашему
учебному проекту
Узнать стоимость