Калькулятор для расчета достаточного объема выборки
Калькулятор ошибки выборки для доли признака
Калькулятор ошибки выборки для среднего значения
Калькулятор значимости различий долей
Калькулятор значимости различий средних
1. Формула (даже две)
Бытует заблуждение, что чем больше объем генеральной совокупности, тем больше должен быть объем выборки маркетингового исследования. Это отчасти так, когда объем выборки сопоставим с размером генеральной совокупности. Например, при опросах организаций (B2B).
Если речь идет об исследовании жителей городов, то не важно, Москва это или Рязань – оптимальный объем выборки будет одинаков в обоих городах. Этот принцип следует из закона больших чисел и применим, только если выборка простая случайная.
На рис.1. пример выборки 15000 человек (!) при опросе в муниципальном районе. Возможно, от численности населения взяли 10%?
Размер выборки никогда не рассчитывается как процент от генеральной совокупности!
Рис.1. Размер выборки 15000 человек, как реальный пример некомпетентности (или хуже).
В таких случаях для расчета объема выборки используется следующая формула:
где
n – объем выборки,
Z – коэффициент, зависящий от выбранного исследователем доверительного уровня,
p – доля респондентов с наличием исследуемого признака,
q = 1 – p – доля респондентов, у которых исследуемый признак отсутствует,
∆ – предельная ошибка выборки.
Доверительный уровень – это вероятность того, что реальная доля лежит в границах полученного доверительного интервала: выборочная доля (p) ± ошибка выборки (Δ). Доверительный уровень устанавливает сам исследователь в соответствии со своими требованиями к надежности полученных результатов. Чаще всего применяются доверительные уровни, равные 0,95 или 0,99. В маркетинговых исследованиях, как правило, выбирается доверительный уровень, равный 0,95. При этом уровне коэффициент Z равен 1,96.
Значения p и q чаще всего неизвестны до проведения исследования и принимаются за 0,5. При этом значении размер ошибки выборки максимален.
Допустимая предельная ошибка выборки выбирается исследователем в зависимости от целей исследования. Считается, что для принятия бизнес-решений ошибка выборки должна быть не больше 4%. Этому значению соответствует объем выборки 500-600 респондентов. Для важных стратегических решений целесообразно минимизировать ошибку выборки.
Рассмотрим кривую зависимости ошибки выборки от ее объема (Рис.2).
Рис.2. Зависимость ошибки выборки от ее объема при 95% доверительном уровне
Как видно из диаграммы, с ростом объема выборки значение ошибки уменьшается все медленнее. Так, при объеме выборки 1500 человек предельная ошибка выборки составит ±2,5%, а при объеме 2000 человек – ±2,2%. То есть, при определенном объеме выборки дальнейшее его увеличение не дает значительного выигрыша в ее точности.
Подходы к решению проблемы:
Случай 1. Генеральная совокупность значительно больше выборки:
Случай 2. Генеральная совокупность сопоставима с объемом выборки: (см. раздел исследований B2B)
где
n – объем выборки,
N – объем генеральной совокупности,
Z – коэффициент, зависящий от выбранного исследователем доверительного уровня,
p – доля респондентов с наличием исследуемого признака,
q = 1 – p – доля респондентов, у которых исследуемый признак отсутствует, (значения p и q обычно принимаются за 0,5, поскольку точно неизвестны до проведения исследования)
∆ – предельная ошибка выборки.
Например,
рассчитаем ошибку выборки объемом 1000 человек при 95% доверительном уровне, если генеральная совокупность значительно больше объема выборки:
Ошибка выборки = 1,96 * КОРЕНЬ(0,5*0,5/1000) = 0,031 = ±3,1%
При расчете объема выборки следует также учитывать стоимость проведения исследования. Например, при цене за 1 анкету 200 рублей стоимость опроса 1000 человек составит 200 000 рублей, а опрос 1500 человек будет стоить 300 000 рублей. Увеличение затрат в полтора раза сократит ошибку выборки всего на 0,6%, что обычно неоправданно экономически.
2. Причины «раздувать» выборку
Анализ полученных данных обычно включает в себя и анализ подвыборок, объемы которых меньше основной выборки. Поэтому ошибка для выводов по подвыборкам больше, чем ошибка по выборке в целом. Если планируется анализ подгрупп / сегментов, объем выборки должен быть увеличен (в разумных пределах).
Рис.3 демонстрирует данную ситуацию. Если для исследования авиапассажиров используется выборка численностью 500 человек, то для выводов по выборке в целом ошибка составляет 4,4%, что вполне приемлемо для принятия бизнес-решений. Но при делении выборки на подгруппы в зависимости от цели поездки, выводы по каждой подгруппе уже недостаточно точны. Если мы захотим узнать какие-либо количественные характеристики группы пассажиров, совершающих бизнес-поездку и покупавших билет самостоятельно, ошибка полученных показателей будет достаточно велика. Даже увеличение выборки до 2000 человек не обеспечит приемлемой точности выводов по этой подвыборке.
Рис.3. Проектирование объема выборки с учетом необходимости анализа подвыборок
Другой пример – анализ подгрупп потребителей услуг торгово-развлекательного центра (Рис.4).
Рис.4. Потенциальный спрос на услуги торгово-развлекательного центра
При объеме выборки в 1000 человек выводы по каждой отдельной услуге (например, социально-демографический профиль, частота пользования, средний чек и др.) будут недостаточно точными для использования в бизнес планировании. Особенно это касается наименее популярных услуг (Таблица 1).
Таблица 1. Ошибка по подвыборкам потенциальных потребителей услуг торгово-развлекательного центра при выборке 1000 чел.
Чтобы ошибка в самой малочисленной подвыборке «Ночной клуб» составила меньше 5%, объем выборки исследования должен составлять около 4000 человек. Но это будет означать 4-кратное удорожание проекта. В таких случаях возможно компромиссное решение:
- увеличение выборки до 1800 человек, что даст достаточную точность для 6 самых популярных видов услуг (от кинотеатра до парка аттракционов);
- добор 200-300 пользователей менее популярных услуг с опросом по укороченной анкете (см. Таблицу 2).
Таблица 2. Разница в ошибке выборки по подвыборкам при разных объемах выборки.
При обсуждении с исследовательским агентством точности результатов планируемого исследования рекомендуется принимать во внимание бюджет, требования к точности результатов в целом по выборке и в разрезе подгрупп. Если бюджет не позволяет получить информацию с приемлемой ошибкой, лучше пока отложить проект (или поторговаться).
КАЛЬКУЛЯТОРЫ ДЛЯ РАСЧЕТА СТАТИСТИЧЕСКИХ ПОКАЗАТЕЛЕЙ И ОПРЕДЕЛЕНИЯ ЗНАЧИМОСТИ РАЗЛИЧИЙ:
КАЛЬКУЛЯТОР ДЛЯ РАСЧЕТА
ДОСТАТОЧНОГО ОБЪЁМА ВЫБОРКИ
Доверительный уровень:
Ошибка выборки (?):
%
Объём генеральной совокупности (N):
(можно пропустить, если больше 100 000)
РЕЗУЛЬТАТ
Один из важных вопросов, на которые нужно ответить при планировании исследования, — это оптимальный объем выборки. Слишком маленькая выборка не сможет обеспечить приемлемую точность результатов опроса, а слишком большая приведет к лишним расходам.
Онлайн-калькулятор объема выборки поможет рассчитать оптимальный размер выборки, исходя из максимально приемлемого для исследователя размера ошибки выборки.
Все дальнейшие формулы и расчеты относятся только к простой случайной выборке!
Формулы для других типов выборки отличаются.
Объем выборки рассчитывается по следующим формулам
1) если объем выборки значительно меньше генеральной совокупности:
(в данной формуле не используется показатель объема генеральной совокупности N)
2) если объем выборки сопоставим с объемом генеральной совокупности:
В приведенных формулах:
Z – коэффициент, зависящий от выбранного исследователем доверительного уровня. Доверительный уровень (или доверительная вероятность) – это вероятность того, что реальное значение измеряемого показателя (по всей генеральной совокупности) находится в пределах доверительного интервала, полученного в исследовании. Доверительный уровень выбирает сам исследователь, исходя из требований к надежности результатов исследования. В маркетинговых исследованиях обычно применяется 95%-й доверительный уровень. Ему соответствует значение Z = 1,96.
N – объем генеральной совокупности. Генеральная совокупность – это все люди, которые изучаются в исследовании (например, все покупатели соков и нектаров, постоянно проживающие в Москве и Московской области). Если генеральная совокупность значительно больше объема выборки (в сотни и более раз), ее размером можно пренебречь (формула 1).
p – доля респондентов с наличием исследуемого признака. Например, если 20% опрошенных заинтересованы в новом продукте, то p = 0,2.
q = 1 — p – доля респондентов, у которых исследуемый признак отсутствует. Значения p и q обычно принимаются за 0,5, поскольку точно неизвестны до проведения исследования. При этом значении размер ошибки выборки максимален. В данном калькуляторе значения p и q по умолчанию равны 0,5.
Δ– предельная ошибка выборки (для доли признака), приемлемая для исследователя. Считается, что для принятия бизнес-решений ошибка выборки не должна превышать 4%.
n – объем выборки. Объем выборки – это количество людей, которые опрашиваются в исследовании.
ПРИМЕР РАСЧЕТА ОБЪЕМА ВЫБОРКИ:
Допустим, мы хотим рассчитать объем выборки, предельная ошибка которой составит 4%. Мы принимаем доверительный уровень, равный 95%. Генеральная совокупность значительно больше выборки. Тогда объем выборки составит:
n = 1,96 * 1,96 * 0,5 * 0,5 / (0,04 * 0,04) = 600,25 ≈ 600 человек
Таким образом, если мы хотим получить результаты с предельной ошибкой 4%, нам нужно опросить 600 человек.
КАЛЬКУЛЯТОР ОШИБКИ ВЫБОРКИ ДЛЯ ДОЛИ ПРИЗНАКА
Доверительный уровень:
Объём выборки (n):
Объём генеральной совокупности (N):
(можно пропустить, если больше 100 000)
Доля признака (p):
%
РЕЗУЛЬТАТ
Зная объем выборки исследования, можно рассчитать значение ошибки выборки (или, другими словами, погрешность выборки).
Если бы в ходе исследования мы могли опросить абсолютно всех интересующих нас людей, мы могли бы быть на 100% уверены в полученном результате. Но ввиду экономической нецелесообразности сплошного опроса применяют выборочный подход, когда опрашивается только часть генеральной совокупности. Выборочный метод не гарантирует 100%-й точности измерения, но, тем не менее, вероятность ошибки может быть сведена к приемлемому минимуму.
Все дальнейшие формулы и расчеты относятся только к простой случайной выборке! Формулы для других типов выборки отличаются.
Ошибка выборки для доли признака рассчитывается по следующим формулам.
1) если объем выборки значительно меньше генеральной совокупности:
(в данной формуле не используется показатель объема генеральной совокупности N)
2) если объем выборки сопоставим с объемом генеральной совокупности:
В приведенных формулах:
Z – коэффициент, зависящий от выбранного исследователем доверительного уровня. Доверительный уровень (или доверительная вероятность) – это вероятность того, что реальное значение измеряемого показателя (по всей генеральной совокупности) находится в пределах доверительного интервала, полученного в исследовании. Доверительный уровень выбирает сам исследователь, исходя из требований к надежности результатов исследования. В маркетинговых исследованиях обычно применяется 95%-й доверительный уровень. Ему соответствует значение Z = 1,96.
N – объем генеральной совокупности. Генеральная совокупность – это все люди, которые изучаются в исследовании (например, все покупатели шоколада, постоянно проживающие в Москве). Если генеральная совокупность значительно больше объема выборки (в сотни и более раз), ее размером можно пренебречь (формула 1).
n – объем выборки. Объем выборки – это количество людей, которые опрашиваются в исследовании. Существует заблуждение, что чем больше объем генеральной совокупности, тем больше должен быть и объем выборки маркетингового исследования. Это отчасти так, когда объем выборки сопоставим с объемом генеральной совокупности. Например, при опросах организаций (B2B). Если же речь идет об исследовании жителей городов, то не важно, Москва это или Рязань – оптимальный объем выборки будет одинаков в обоих городах. Этот принцип следует из закона больших чисел и применим, только если выборка простая случайная. ВАЖНО: если предполагается сравнивать какие-то группы внутри города, например, жителей разных районов, то выборку следует рассчитывать для каждой такой группы.
p – доля респондентов с наличием исследуемого признака. Например, если 20% опрошенных заинтересованы в новом продукте, то p = 0,2.
q = 1 — p – доля респондентов, у которых исследуемый признак отсутствует. Значения p и q обычно принимаются за 0,5, поскольку точно неизвестны до проведения исследования. При этом значении размер ошибки выборки максимален.
Δ– предельная ошибка выборки.
Таким образом, зная объем выборки исследования, мы можем заранее оценить показатель ее ошибки.
А получив значение p, мы можем рассчитать доверительный интервал для доли признака: (p — ∆; p + ∆)
ПРИМЕР РАСЧЕТА ОШИБКИ ВЫБОРКИ ДЛЯ ДОЛИ ПРИЗНАКА:
Например, в ходе исследования были опрошены 1000 человек (n=1000). 20% из них заинтересовались новым продуктом (p=0,2). Рассчитаем показатель ошибки выборки по формуле 1 (выберем доверительный уровень, равный 95%):
∆ = 1,96 * КОРЕНЬ (0,2*0,8/1000) = 0,0248 = ±2,48%
Рассчитаем доверительный интервал:
(p — ∆; p + ∆) = (20% — 2,48%; 20% + 2,48%) = (17,52%; 22,48%)
Таким образом, с вероятностью 95% мы можем быть уверены, что реальная доля заинтересованных в новом продукте (среди всей генеральной совокупности) находится в пределах полученного диапазона (17,52%; 22,48%).
Если бы мы выбрали доверительный уровень, равный 99%, то для тех же значений p и n ошибка выборки была бы больше, а доверительный интервал – шире. Это логично, поскольку, если мы хотим быть более уверены в том, что наш доверительный интервал «накроет» реальное значение признака, то интервал должен быть более широким.
КАЛЬКУЛЯТОР ОШИБКИ ВЫБОРКИ ДЛЯ СРЕДНЕГО ЗНАЧЕНИЯ
Доверительный уровень:
Объём выборки (n):
Объём генеральной совокупности (N):
(можно пропустить, если больше 100 000)
Среднее значение (x̄):
Стандартное отклонение (s):
РЕЗУЛЬТАТ
Зная объем выборки исследования, можно рассчитать значение ошибки выборки (или, другими словами, погрешность выборки).
Если бы в ходе исследования мы могли опросить абсолютно всех интересующих нас людей, мы могли бы быть на 100% уверены в полученном результате. Но ввиду экономической нецелесообразности сплошного опроса применяют выборочный подход, когда опрашивается только часть генеральной совокупности. Выборочный метод не гарантирует 100%-й точности измерения, но, тем не менее, вероятность ошибки может быть сведена к приемлемому минимуму.
Все дальнейшие формулы и расчеты относятся только к простой случайной выборке! Формулы для других типов выборки отличаются.
Ошибка выборки для среднего значения рассчитывается по следующим формулам.
1) если объем выборки значительно меньше генеральной совокупности:
(в данной формуле не используется показатель объема генеральной совокупности N)
2) если объем выборки сопоставим с объемом генеральной совокупности:
В приведенных формулах:
Z – коэффициент, зависящий от выбранного исследователем доверительного уровня. Доверительный уровень (или доверительная вероятность) – это вероятность того, что реальное значение измеряемого показателя (по всей генеральной совокупности) находится в пределах доверительного интервала, полученного в исследовании. Доверительный уровень выбирает сам исследователь, исходя из требований к надежности результатов исследования. В маркетинговых исследованиях обычно применяется 95%-й доверительный уровень. Ему соответствует значение Z = 1,96
N – объем генеральной совокупности. Генеральная совокупность – это все люди, которые изучаются в исследовании (например, все покупатели мороженого, постоянно проживающие в Москве). Если генеральная совокупность значительно больше объема выборки (в сотни и более раз), ее размером можно пренебречь (формула 1).
n – объем выборки. Объем выборки – это количество людей, которые опрашиваются в исследовании. Существует заблуждение, что чем больше объем генеральной совокупности, тем больше должен быть и объем выборки маркетингового исследования. Это отчасти так, когда объем выборки сопоставим с объемом генеральной совокупности. Например, при опросах организаций (B2B). Если же речь идет об исследовании жителей городов, то не важно, Москва это или Рязань – оптимальный объем выборки будет одинаков в обоих городах. Этот принцип следует из закона больших чисел и применим, только если выборка простая случайная. ВАЖНО: если предполагается сравнивать какие-то группы внутри города, например, жителей разных районов, то выборку следует рассчитывать для каждой такой группы.
s — выборочное стандартное отклонение измеряемого показателя. В идеале на месте этого аргумента должно быть стандартное отклонение показателя в генеральной совокупности (σ), но так как обычно оно неизвестно, используется выборочное стандартное отклонение, рассчитываемое по следующей формуле:
где, x ̅ – среднее арифметическое показателя, xi– значение i-го показателя, n – объем выборки
Δ– предельная ошибка выборки.
Зная среднее значение показателя x ̅ и ошибку ∆, мы можем рассчитать доверительный интервал для среднего значения:(x ̅ — ∆; x ̅ + ∆)
ПРИМЕР РАСЧЕТА ОШИБКИ ВЫБОРКИ ДЛЯ СРЕДНЕГО ЗНАЧЕНИЯ:
Например, в ходе исследования были опрошены 1000 человек (n=1000). Каждого из них попросили указать их примерную среднюю сумму покупки (средний чек) в известной сети магазинов. Среднее арифметическое всех ответов составило 500 руб. (x ̅=500), а стандартное отклонение составило 120 руб. (s=120). Рассчитаем показатель ошибки выборки по формуле 1 (выберем доверительный уровень, равный 95%):
∆ = 1,96 * 120 / КОРЕНЬ (1000) = 7,44
Рассчитаем доверительный интервал:
(x ̅ — ∆; x ̅ + ∆) = (500 – 7,44; 500 + 7,44) = (492,56; 507,44)
Таким образом, с вероятностью 95% мы можем быть уверены, что значение среднего чека по всей генеральной совокупности находится в границах полученного диапазона: от 492,56 руб. до 507,44 руб.
КАЛЬКУЛЯТОР ЗНАЧИМОСТИ РАЗЛИЧИЙ ДОЛЕЙ
Доверительный уровень:
Измерение 1 | Измерение 2 | |
Доля признака (p): | % | % |
Объём выборки (n): |
РЕЗУЛЬТАТ
Если в прошлогоднем исследовании вашу марку вспомнили 10% респондентов, а в исследовании текущего года – 15%, не спешите открывать шампанское, пока не воспользуетесь нашим онлайн-калькулятором для оценки статистической значимости различий.
Сравнивая два разных значения, полученные на двух независимых выборках, исследователь должен убедиться, что различия статистически значимы, прежде чем делать выводы.
Как известно, выборочные исследования не обеспечивают 100%-й точности измерения (для этого пришлось бы опрашивать всю целевую аудиторию поголовно, что слишком дорого). Тем не менее, благодаря методам математической статистики, мы можем оценить точность результатов любого количественного исследования и учесть ее в выводах.
В приведенном здесь калькуляторе используется двухвыборочный z-тест для долей. Для его применения должны соблюдаться следующие условия:
- Обе выборки – простые случайные
- Выборки независимы (между значениями двух выборок нет закономерной связи)
- Генеральные совокупности значительно больше выборок
- Произведения n*p и n*(1-p), где n=размер выборки а p=доля признака, – не меньше 5.
В калькуляторе используются следующие вводные данные:
Доверительный уровень (или доверительная вероятность) – это вероятность того, что реальное значение измеряемого показателя (по всей генеральной совокупности) находится в пределах доверительного интервала, полученного в исследовании. Доверительный уровень выбирает сам исследователь, исходя из требований к надежности результатов исследования. В маркетинговых исследованиях обычно применяется 95%-й доверительный уровень.
Доля признака (p) – доля респондентов с наличием исследуемого признака. Например, если 20% опрошенных заинтересованы в новом продукте, то p = 0,2.
Объем выборки (n) – это количество людей, которые опрашиваются в исследовании.
Результат расчетов – вывод о статистической значимости или незначимости различий двух измерений.
КАЛЬКУЛЯТОР ЗНАЧИМОСТИ РАЗЛИЧИЙ СРЕДНИХ
Доверительный уровень:
Измерение 1 | Измерение 2 | |
Среднее значение (x̄): | ||
Стандартное отклонение (s): | ||
Объём выборки (n): |
РЕЗУЛЬТАТ
Допустим, выборочный опрос посетителей двух разных ТРЦ показал, что средний чек в одном из них равен 1000 рублей, а в другом – 1200 рублей. Следует ли отсюда вывод, что суммы среднего чека в двух этих ТРЦ действительно отличаются?
Сравнивая два разных значения, полученные на двух независимых выборках, исследователь должен убедиться, что различия статистически значимы, прежде чем делать выводы.
Как известно, выборочные исследования не обеспечивают 100%-й точности измерения (для этого пришлось бы опрашивать всю целевую аудиторию поголовно, что слишком дорого). Тем не менее, благодаря методам математической статистики, мы можем оценить точность результатов любого количественного исследования и учесть ее в выводах.
В приведенном здесь калькуляторе используется двухвыборочный z-тест для средних значений. Для его применения должны соблюдаться следующие условия:
- Обе выборки – простые случайные
- Выборки независимы (между значениями двух выборок нет закономерной связи)
- Генеральные совокупности значительно больше выборок
- Распределения значений в выборках близки к нормальному распределению.
В калькуляторе используются следующие вводные данные:
Доверительный уровень (или доверительная вероятность) – это вероятность того, что реальное значение измеряемого показателя (по всей генеральной совокупности) находится в пределах доверительного интервала, полученного в исследовании. Доверительный уровень выбирает сам исследователь, исходя из требований к надежности результатов исследования. В маркетинговых исследованиях обычно применяется 95%-й доверительный уровень.
Среднее значение ( ̅x) – среднее арифметическое показателя.
Стандартное отклонение (s) – выборочное стандартное отклонение измеряемого показателя. В идеале на месте этого аргумента должно быть стандартное отклонение показателя в генеральной совокупности (σ), но так как обычно оно неизвестно, используется выборочное стандартное отклонение, рассчитываемое по следующей формуле:
где, x ̅ – среднее арифметическое показателя, xi– значение i-го показателя, n – объем выборки
Объем выборки (n) – это количество людей, которые опрашиваются в исследовании.
Результат расчетов – вывод о статистической значимости или незначимости различий двух измерений.
Вы можете подписаться на уведомления о новых материалах СканМаркет
Определение ошибок выборки
Разность между показателями выборочной
и генеральной совокупностей называется
ошибкой выборки:
—
генеральное среднее;
—
выборочное среднее;
—
генеральная дисперсия;
—
выборочная дисперсия;
Ошибки выборки подразделяют на ошибки
регистрации и ошибки репрезентативности.
Ошибки регистрации возникают из-за
неправильных или неточных сведений.
Источником таких ошибок могут быть
непонимание вопроса, невнимательность
регистратора, пропуск или повторный
счет некоторых единиц совокупности.
Среди ошибок регистрации выделяют
систематические, т.е. обусловленные
причинами, действующими в каком-то одном
направлении и искажающие результаты
работы (округление цифр, тяготение к
полным десяткам и сотням и т.д.), и
случайные, проявляющиеся в различных
направлениях, уравновешивающих друг
друга и лишь изредка дающих заметный
суммарный итог.
Ошибки репрезентативности также могут
быть систематическими и случайными.
Изучение и измерение случайных ошибок
репрезентативности является основной
задачей выборочного метода.
При случайном и механическом отборах
средняя ошибка выборки для средней
величины определяется по формуле:
—
при повторном отборе;
—
при бесповторном отборе,
—
объем выборки,
—
объем генеральной совокупности.
На практике значение генеральных
параметров, как правило, не известно.
Поэтому их заменяют исправленными
выборочными характеристиками:
При
Формулы для расчета средней ошибки
выборочной доли имеют следующий вид:
—
при повтор. отборе;
—
при бесповторном отборе;
—
дисперсия доли;
Это так называемые средние или стандартные
ошибки.
Предельная ошибка выборки
представляет
собой t-кратную среднюю
ошибку.
Здесь t – коэффициент
доверия, который определяется по таблице
значений интегральной функции Лапласа
при заданной доверительной вероятности.
|
0,683 |
0,954 |
0,997 |
t |
1 |
2 |
3 |
Зная предельную ошибку можно определить
доверительные интервалы, в которых
находятся значения генеральных
параметров.
Пример:
Для определения среднего срока пользования
краткосрочным кредитом в банке была
произведена 5% механическая выборка, в
которую попали 200 счетов. По результатам
выборки установлено, что средний срок
пользования кредитом составляет 60 дней
при среднеквадратичном отклонении 20
дней.
В 8 счетах срок пользования кредитом
превышал 6 месяцев. Необходимо с
вероятностью 0,99 определить пределы, в
которых находится срок пользования
краткосрочным кредитом банка и доля
краткосрочных кредитов со сроком
пользования более полугода.
Решение:
Среднюю ошибку выборки определяют по
формуле для бесповторного отбора.
Т.е. с вероятностью 0,99 можно утверждать,
что средний срок пользования краткосрочным
кредитом составляет от 56 до 64 дней.
По итогам выборки определим долю кредитов
со сроком пользования более полугода.
С вероятностью 0,99 можно гарантировать,
что доля кредитов банка со сроком
использования более полугода оставляет
общего числа кредитов.
Определение
оптимальной численности выборки
На
практике обычно расчет объема выборки
производят по формуле для повторного
отбора:
Если
полученный объем выборки превышает 5%
численности генеральной совокупности,
то расчеты корректируют на бесповторность:
В
данных формулах присутствуют значения
генеральной дисперсии, которые как
правило неизвестны. Для ее оценки можно
использовать:
1.
Выборочную дисперсию по данным прошлых
или пробных обследований.
2.
Дисперсию найденную из соотношения для
среднего квадратичного отклонения:
(если
все х >0 и х
min
0)
3.
Дисперсию, вычисленную из соотношения
для нормального распределения
4.
Дисперсию, определенную из соотношения
для асимметричного распределения
В
качестве оценки генеральной дисперсии
доли используют максимально возможную
дисперсию альтернативного признака:
Пример:
Определить численность выборки по
следующим данным. Для определения
средней цены говядины на 5000 рынках
города предполагается провести выборочную
регистрацию цен. Известно, что цены на
говядину колеблются от 40 до 70 руб/кг.
Сколько торговых точек необходимо
обследовать, чтобы с вероятностью 0,954
ошибка выборки при определении средней
цены не превышала 2 руб. за 1 кг.
Решение:
Предположим, что распределение цен
соответствует нормальному закону. Тогда
P(t)
= 0,954. Следовательно t
= 2.
Поскольку
доля отбора не превышает 5%, то к формуле
бемповторного отбора можно не переходить.
Т.е. для того, чтобы с вероятностью 0, 954
гарантировать, что ошибка при определении
функцией цены говядины не превысит 2
руб/кг необходимо исследовать 25 торговых
точек на рынках города.
Определение:
Относительная ошибка выборки– это
отношение предельной ошибки выборки к
среднему значению признака, выраженного
в %.
Расчёт
объема выборки при заданном уровне
относительной ошибки выборки осуществляется
по формулам:
—
коэффициент вариации
Пример:
В городе зарегистрировано 30000 безработных.
Для определения средней продолжительности
безработицы организуется выборочное
обследование. По данным прошлых лет
известно, что коэффициент вариации
объема продолжительности безработицы
составляет 40%. Какое число безработных
необходимо охватить выборочным
наблюдением, чтобы с вероятностью 0,997
утверждать, что полученным предельная
ошибка выборки не превышает 5% средней
продолжительности безработицы.
Решение:
P(t)
= 0,997. Следовательно t
= 3.
Объем выборки всегда округляют в большую
сторону.
Ответ: 566.
Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
Ошибка выборки = уровень достоверности × [standard deviation of population / (square root of sample size)]
Точность выборки может повлиять на результаты исследования, если исследователь выбирает выборку, не отражающую реальный состав изучаемой совокупности. Важно, чтобы выборки были точными, чтобы они могли правильно представлять статистику. Расчет ошибки выборки может помочь специалистам-исследователям определить эффективность выборки, измеряя, насколько она близка к целевому сообществу. В этой статье мы обсудим, что такое ошибка выборки и как ее рассчитать за шесть шагов.
Что такое ошибка выборки?
Ошибка выборки — это расчет, который измеряет статистическую ошибку, когда тестер использует выборку, которая не отражает должным образом рассматриваемую совокупность. Результаты исследований с перекошенными выборками могут быть неверными. Выборка — это анализ, который требует выбора нескольких наблюдений, как правило, из большей совокупности. Например, исследователь предполагает, что люди в возрасте от 30 до 45 лет едят фрукты не реже одного раза в неделю. Они могут выбрать 100 человек из своего сообщества в этом возрастном диапазоне, чтобы отразить целевую группу и наблюдать за их привычками в еде. Ошибка выборки уменьшается по мере увеличения размера выборки.
Вот формула для расчета ошибки выборки:
Ошибка выборки = уровень достоверности × [standard deviation of population / (square root of sample size)]
Уровни достоверности — это процент выборок, которые исследователи могут ожидать для отражения параметров всего населения. Стандартное отклонение совокупности измеряет, насколько данные исследователя разбросаны по сравнению со средним значением. Квадратный корень из размера выборки — это значение, которое при умножении само на себя равно значению размера выборки. Диаграммы уровней достоверности доступны в Интернете, чтобы помочь исследователям определить уровень достоверности их выборки и найти соответствующее число.
Как рассчитать ошибку выборки
Вот шесть шагов, которым вы можете следовать при расчете ошибки выборки:
1. Запишите размер выборки
Это самое простое число, которое можно найти для формулы ошибки выборки. Просмотрите свое исследование, чтобы определить размер выборки. Например, если ваша выборка включала 60 человек, используйте в формуле 60.
2. Найдите стандартное отклонение населения.
Стандартное отклонение измеряет расстояние между каждой из ваших точек данных и средним значением. Используйте параметры вашей совокупности и среднее значение ваших данных для расчета стандартного отклонения. Вы можете найти формулу для выборочного стандартного отклонения, если вы с ней не знакомы.
3. Определите свой уровень уверенности
Чтобы определить уровень достоверности, используйте доверительный интервал для размера вашей выборки. Доверительные интервалы определяют диапазон значений в выборке, которые могут содержать точное среднее значение генеральной совокупности. Возьмите половину доверительного интервала и умножьте его на квадратный корень из размера выборки. Затем разделите это значение на стандартное отклонение выборки, чтобы найти уровень достоверности. Наконец, используйте таблицу уровней достоверности, чтобы найти свой эквивалентный балл.
4. Вычислите квадратный корень из размера выборки
Найдите квадратный корень из размера вашей выборки. Размер вашей выборки может быть идеальным квадратом, если его квадратный корень — целое число. Например, четыре — это полный квадрат, потому что он имеет квадратный корень из двух, а 10 — не идеальный квадрат, потому что его квадратный корень равен 3,16.
5. Разделите значение стандартного отклонения на значение квадратного корня.
Разделите стандартное отклонение вашей совокупности на квадратный корень размера выборки. Часто проще сделать это с помощью калькулятора, чем вручную. Запишите результат, чтобы использовать его на следующем шаге.
6. Умножьте результат на уровень достоверности
Наконец, умножьте полученное число из последнего шага на оценку уровня достоверности, которую вы нашли ранее. Продолжайте использовать калькулятор для работы с этими сложными десятичными дробями. Произведение представляет ошибку выборки для вашего исследования.
Типы ошибок выборки
Вот некоторые распространенные ошибки выборки, которые вы можете обнаружить в исследовании:
-
Ошибка, связанная с популяцией: ошибка, связанная с популяцией, может произойти, когда исследователь не понимает, кого опрашивать. Вы можете избежать этой ошибки, разобравшись в вопросе исследования, прежде чем выбрать образец или создать опрос.
-
Ошибка выбора: эта ошибка возникает, когда респонденты решают участвовать в исследовании, но затем только те, кто заинтересован в опросе, отвечают на его вопросы. Исследователь может преодолеть ошибку отбора, поощряя участие выборки.
-
Ошибка основы выборки: это относится к ошибкам, которые происходят, когда исследователь выбирает выборку из неверных данных о населении. Ошибки структуры выборки также возникают, когда тестировщики случайно включают респондентов, не принадлежащих к интересующей совокупности.
-
Ошибка отсутствия ответа: ошибки отсутствия ответа возникают, когда исследователи не могут связаться с потенциальными респондентами или участники не участвуют в исследовании.
Почему важен расчет ошибки выборки?
Ошибка выборки является важным показателем для оценки степени неопределенности размера выборки. Статистики обычно используют случайные выборки, чтобы делать предположения обо всей совокупности. Выборка редко совпадает с истинной популяцией. Поскольку часто бывает сложно принять участие в исследовании всей популяции, тестировщики часто допускают некоторый уровень неточности в своих открытиях. Вычисляя ошибку выборки, исследователи могут определить, является ли размер выборки неудовлетворительным или нерепрезентативным для большей совокупности. Затем они могут провести другое исследование или включить ошибку выборки в свой отчет.
Как можно исправить ошибки выборки?
Исследователи могут предпринять несколько действий, чтобы уменьшить степень неопределенности в своих исследованиях. Они могут полагаться на вероятностную выборку, когда любой человек в популяции имеет шанс принять участие в исследовании. Это может сделать размер выборки более репрезентативным для всего населения, и исследователи смогут лучше обобщать свои результаты.
Вот еще несколько советов по минимизации и контролю ошибки выборки:
-
Знайте свою популяцию, чтобы ориентироваться на соответствующую выборку.
-
Увеличьте размер выборки, чтобы исследование приблизилось к реальной совокупности.
-
Выполните внешнюю проверку записи, чтобы убедиться, что записанные данные согласуются с письменными результатами.
-
Устраните предвзятость с помощью случайного выбора и конфиденциальных опросов.
-
Тщательно создавайте выборки, чтобы они точно отражали целевую совокупность.
-
Разделите выборку на группы и протестируйте в соответствии с их составом в фактической совокупности.
-
Обучите свою команду выполнять все процедуры и действия в исследовании одинаково.
Пример расчета ошибки выборки
Вот несколько примеров расчетов, которые вы можете использовать в качестве руководства при поиске ошибки выборки:
Выборка с более высоким уровнем достоверности
Mind Laboratories — исследовательская компания, которая хочет рассчитать ошибку выборки для одного из своих исследований. В исследовании Mind Laboratories приняли участие 100 человек. Стандартное отклонение населения составляет 0,50. Для уровня достоверности 99% оценка составляет 2,58. Mind Laboratories подставили эти значения в формулу ошибки выборки:
Ошибка выборки = 2,58 х (0,50/√100)
Ошибка выборки = 2,58 х (0,50/10)
**Ошибка выборки = 2,58 x 0,05**
**Ошибка выборки = 0,12**
Выборка с более низким уровнем достоверности
Tech Flurry — исследовательская организация, которая хочет найти ошибку выборки для одного из своих исследований с более низким уровнем достоверности. В исследовании приняли участие 324 человека и стандартное отклонение 0,30. Для уровня достоверности 80% оценка составляет 1,28. Tech Flurry использует эти числа в формуле ошибки выборки:
Ошибка выборки = 1,28 x (0,30/√324)
**Ошибка выборки = 1,28 x (0,30/18)**
Ошибка выборки = 1,28 х 0,016
*Ошибка выборки = 0,02*
What Is a Sampling Error?
A sampling error is a statistical error that occurs when an analyst does not select a sample that represents the entire population of data. As a result, the results found in the sample do not represent the results that would be obtained from the entire population.
Sampling is an analysis performed by selecting a number of observations from a larger population. The method of selection can produce both sampling errors and non-sampling errors.
Key Takeaways
- A sampling error occurs when the sample used in the study is not representative of the whole population.
- Sampling is an analysis performed by selecting a number of observations from a larger population.
- Even randomized samples will have some degree of sampling error because a sample is only an approximation of the population from which it is drawn.
- The prevalence of sampling errors can be reduced by increasing the sample size.
- In general, sampling errors can be placed into four categories: population-specific error, selection error, sample frame error, or non-response error.
Understanding Sampling Errors
A sampling error is a deviation in the sampled value versus the true population value. Sampling errors occur because the sample is not representative of the population or is biased in some way. Even randomized samples will have some degree of sampling error because a sample is only an approximation of the population from which it is drawn.
Calculating Sampling Error
The sampling error formula is used to calculate the overall sampling error in statistical analysis. The sampling error is calculated by dividing the standard deviation of the population by the square root of the size of the sample, and then multiplying the resultant with the Z-score value, which is based on the confidence interval.
Sampling Error
=
Z
×
σ
n
where:
Z
=
Z
score value based on the
confidence interval (approx
=
1.96
)
σ
=
Population standard deviation
n
=
Size of the sample
begin{aligned}&text{Sampling Error}=Ztimesfrac{sigma}{sqrt{n}}\&textbf{where:}\&Z=Ztext{ score value based on the}\&qquad text{confidence interval (approx}=1.96)\&sigma=text{Population standard deviation}\&n=text{Size of the sample}end{aligned}
Sampling Error=Z×nσwhere:Z=Z score value based on the confidence interval (approx=1.96)σ=Population standard deviationn=Size of the sample
Types of Sampling Errors
There are different categories of sampling errors.
Population-Specific Error
A population-specific error occurs when a researcher doesn’t understand who to survey.
Selection Error
Selection error occurs when the survey is self-selected, or when only those participants who are interested in the survey respond to the questions. Researchers can attempt to overcome selection error by finding ways to encourage participation.
Sample Frame Error
A sample frame error occurs when a sample is selected from the wrong population data.
Non-response Error
A non-response error occurs when a useful response is not obtained from the surveys because researchers were unable to contact potential respondents (or potential respondents refused to respond).
Eliminating Sampling Errors
The prevalence of sampling errors can be reduced by increasing the sample size. As the sample size increases, the sample gets closer to the actual population, which decreases the potential for deviations from the actual population. Consider that the average of a sample of 10 varies more than the average of a sample of 100. Steps can also be taken to ensure that the sample adequately represents the entire population.
Researchers might attempt to reduce sampling errors by replicating their study. This could be accomplished by taking the same measurements repeatedly, using more than one subject or multiple groups, or by undertaking multiple studies.
Random sampling is an additional way to minimize the occurrence of sampling errors. Random sampling establishes a systematic approach to selecting a sample. For example, rather than choosing participants to be interviewed haphazardly, a researcher might choose those whose names appear first, 10th, 20th, 30th, 40th, and so on, on the list.
Examples of Sampling Errors
Assume that XYZ Company provides a subscription-based service that allows consumers to pay a monthly fee to stream videos and other types of programming via an Internet connection.
The firm wants to survey homeowners who watch at least 10 hours of programming via the Internet per week and that pay for an existing video streaming service. XYZ wants to determine what percentage of the population is interested in a lower-priced subscription service. If XYZ does not think carefully about the sampling process, several types of sampling errors may occur.
A population specification error would occur if XYZ Company does not understand the specific types of consumers who should be included in the sample. For example, if XYZ creates a population of people between the ages of 15 and 25 years old, many of those consumers do not make the purchasing decision about a video streaming service because they may not work full-time. On the other hand, if XYZ put together a sample of working adults who make purchase decisions, the consumers in this group may not watch 10 hours of video programming each week.
Selection error also causes distortions in the results of a sample. A common example is a survey that only relies on a small portion of people who immediately respond. If XYZ makes an effort to follow up with consumers who don’t initially respond, the results of the survey may change. Furthermore, if XYZ excludes consumers who don’t respond right away, the sample results may not reflect the preferences of the entire population.
Sampling Error vs. Non-sampling Error
There are different types of errors that can occur when gathering statistical data. Sampling errors are the seemingly random differences between the characteristics of a sample population and those of the general population. Sampling errors arise because sample sizes are inevitably limited. (It is impossible to sample an entire population in a survey or a census.)
A sampling error can result even when no mistakes of any kind are made; sampling errors occur because no sample will ever perfectly match the data in the universe from which the sample is taken.
Company XYZ will also want to avoid non-sampling errors. Non-sampling errors are errors that result during data collection and cause the data to differ from the true values. Non-sampling errors are caused by human error, such as a mistake made in the survey process.
If one group of consumers only watches five hours of video programming a week and is included in the survey, that decision is a non-sampling error. Asking questions that are biased is another type of error.
What Is Sampling Error vs. Sampling Bias?
In statistics, sampling means selecting the group that you will actually collect data from in your research.
Sampling bias is the expectation, which is known in advance, that a sample won’t be representative of the true population. For instance, if the sample ends up having proportionally more women or young people than the overall population.
Sampling errors are statistical errors that arise when a sample does not represent the whole population once analyses have been undertaken.
Why Is Sampling Error Important?
Being aware of the presence of sampling errors is important because it can be an indicator of the level of confidence that can be placed in the results. Sampling error is also important in the context of a discussion about how much research results can vary.
How Do You Find the Sampling Error?
In survey research, sampling errors occur because all samples are representative samples: a smaller group that stands in for the whole of your research population. It’s impossible to survey the entire group of people you’d like to reach.
It’s not usually possible to quantify the degree of sampling error in a study since it’s impossible to collect the relevant data from the entire population you are studying. This is why researchers collect representative samples (and representative samples are the reason why there are sampling errors).
What Is Sampling Error vs. Standard Error?
Sampling error is derived from the standard error (SE) by multiplying it by a Z-score value to produce a confidence interval.
The standard error is computed by dividing the standard deviation by the square root of the sample size.
The Bottom Line
Sampling error occurs when a sample drawn from a population deviates somewhat from that true population. Large sampling errors can lead to incorrect estimates or inferences made about the population based on statistical analysis of that sample.
In general, sampling errors can be placed into four categories: population-specific error, selection error, sample frame error, or non-response error. A population-specific error occurs when the researcher does not understand who they should survey. A selection error occurs when respondents self-select their participation in the study. (This results in only those that are interested in responding, which skews the results.) A sample frame error occurs when the wrong sub-population is used to select a sample. Finally, a non-response error occurs when potential respondents are not successfully contacted or refuse to respond.
1.1. Ошибки
выборочного наблюдения
Средняя
ошибка выборки показывает, как генеральная средняя отклоняется в среднем от выборочной средней в ту или другую сторону. Формула
расчета средней ошибки выборки определяется видом исследуемого признака единиц
совокупности (количественный или альтернативный) и
способом отбора (бесповторный или повторный).
·
Если отбор повторный, а признак количественный
средняя ошибка выборки определяется по формуле
, где — дисперсия признака в выборочной совокупности
n- число единиц
в выборке
·
Если отбор бесповторный, а признак
количественный
, где N—
число единиц в генеральной совокупности
·
Если отбор повторный, а признак альтернативный
, где w-выборочная
доля
·
Если отбор бесповторный, а признак
альтернативный
Предельная ошибка выборки— показывающая с определенной степенью вероятности
отклонения средней от выборочной средней.
Предельная ошибка выборки
, где параметр t зависит
от вероятности
Некоторые значения параметра t приведены
в таблице:
Вероятность, p |
0.95 |
0.954 |
0.9876 |
0.9907 |
0.9973 |
0.9999 |
Параметр t |
1.96 |
2.0 |
2.5 |
2.6 |
3.0 |
4.0 |
·
Если отбор повторный, а признак количественный
средняя ошибка выборки определяется по формуле
, где — дисперсия признака в выборочной совокупности
n- число единиц
в выборке
·
Если отбор бесповторный, а признак
количественный
, где N—
число единиц в генеральной совокупности
·
Если отбор повторный, а признак альтернативный
, где w-выборочная
доля
·
Если отбор бесповторный, а признак
альтернативный
Доверительный интервал для генеральной средней
Доверительный интервал для
генеральной доли
Пример расчета доверительного
интервала:
При выборочном обследовании 5% продукции по методу случайного
бесповторного отбора получены данные о содержании сахара в образцах:
Сахарность, % |
Число |
16-17 17-18 18-19 19-20 20-21 |
10 158 154 50 28 |
|
На основании этих данных вычислите:
1. Средний процент сахаристости.
2. Дисперсию и среднее квадратическое
отклонение.
3. С вероятностью 0.954 возможные пределы среднего значения
сахаристости продукции для всей партии.
4. С вероятностью 0.997 возможный процент продукции высшего
сорта по всей партии, если известно, что из 400 проб, попавших в выборку , 80
ед. отнесены к продукции высшего сорта.
Решение.
1.
Средний процент сахаристости найдем по формуле средней взвешенной
, где xi–
середина i-го интервала
=18,32 %
2.
Дисперсия
=336,49
D(X)=336.49–
18.322=0.8676
Среднее квадратическое отклонение
=0,93%
5. Предельная ошибка для
среднего процента сахаристости
для вероятности 0,954 параметр t=2.0
Доверительный интервал для среднего значения процента
сахаристости
С вероятностью 0,954 можно утверждать, что в генеральной
совокупности средний процент сахаристости лежит в пределах от 18,23% до 18,41%.
5. Доля продукции высшего сорта в выборочной совокупности
Предельная ошибка для
доли продукции высшего сорта
для вероятности 0,997 параметр t=3.0
Доверительный интервал для доли продукции высшего сорта
С вероятностью 0,997 можно утверждать, что в генеральной
совокупности доля продукции высшего сорта лежит в пределах от 14,0% до 26,0%.