Радар ошибка выборки

Калькулятор ошибки выборки

Уровень значимости

Доля признака %
Объём выборки чел.
Ошибка выборки ±
%

Калькулятор значимых различий (z-тест)

Уровень значимости

Доля % %
База чел. чел.

Различия значимы

Различия незначимы

Калькулятор значимых различий NPS

Уровень значимости

Промоутеры
(Доля)
% %
Критики
(Доля)
% %
База чел. чел.

Различия значимы

Различия незначимы

Сумма промотеров и критиков не может быть более 100%

Выборка. Типы выборок. Расчет ошибки выборки

Калькуляторы

Калькулятор расчета ошибки и размера выборки
Калькулятор расчета статистической значимости различий

Генеральная совокупность

Суммарная численность объектов наблюдения (люди, домохозяйства, предприятия, населенные пункты и т.д.), обладающих
определенным набором признаков (пол, возраст, доход, численность, оборот и т.д.), ограниченная в пространстве и
времени. Примеры генеральных совокупностей

  • Все жители Москвы (10,6 млн. человек по данным переписи 2002 года)
  • Мужчины-Москвичи (4,9 млн. человек по данным переписи 2002 года) 
  • Юридические лица России (2,2 млн. на начало 2005 года)
  • Розничные торговые точки, осуществляющие продажу продуктов питания (20 тысяч на начало 2008 года) и
    т.д. 

Выборка (Выборочная совокупность)

Часть объектов из генеральной совокупности, отобранных для изучения, с тем чтобы сделать заключение обо всей
генеральной совокупности. Для того чтобы заключение, полученное путем изучения выборки, можно было распространить на
всю генеральную совокупность, выборка должна обладать свойством репрезентативности. 

Репрезентативность выборки

Свойство выборки корректно отражать генеральную совокупность. Одна и та же выборка может быть репрезентативной и
нерепрезентативной для разных генеральных совокупностей.
Пример:

  • Выборка, целиком состоящая из москвичей, владеющих автомобилем, не репрезентирует все население
    Москвы. 
  • Выборка из российских предприятий численностью до 100 человек не репрезентирует все предприятия России.
  • Выборка из москвичей, совершающих покупки на рынке, не репрезентирует покупательское поведение всех москвичей.

В то же время, указанные выборки (при соблюдении прочих условий) могут отлично репрезентировать
москвичей-автовладельцев, небольшие и средние российские предприятия и покупателей, совершающих покупки на рынках
соответственно.
Важно понимать, что репрезентативность выборки и ошибка выборки – разные явления. Репрезентативность, в отличие от
ошибки никак не зависит от размера выборки.
Пример:
Как бы мы не увеличивали количество опрошенных москвичей-автовладельцев, мы не сможем репрезентировать этой выборкой
всех москвичей.

Ошибка выборки (доверительный интервал)

Отклонение результатов, полученных с помощью выборочного наблюдения от истинных данных генеральной совокупности.
Ошибка выборки бывает двух видов – статистическая и систематическая. Статистическая ошибка зависит от размера
выборки. Чем больше размер выборки, тем она ниже.
Пример:
Для простой случайной выборки размером 400 единиц максимальная статистическая ошибка (с 95% доверительной
вероятностью) составляет 5%, для выборки в 600 единиц – 4%, для выборки в 1100 единиц – 3% Обычно, когда говорят об
ошибке выборки, подразумевают именно статистическую ошибку.
Систематическая ошибка зависит от различных факторов, оказывающих постоянное воздействие на исследование и смещающих
результаты исследования в определенную сторону.
Пример:

  • Использование любых вероятностных выборок занижает долю людей с высоким доходом, ведущих активный образ жизни.
    Происходит это в силу того, что таких людей гораздо сложней застать в каком-либо определенном месте (например,
    дома).
  • Проблема респондентов, отказывающихся отвечать на вопросы 
    анкеты (доля «отказников» в Москве, для разных опросов,
    колеблется от 50% до 80%)

В некоторых случаях, когда известны истинные распределения, систематическую ошибку можно нивелировать введением квот
или перевзвешиванием данных, но в большинстве реальных исследований даже оценить ее бывает достаточно проблематично.  

Типы выборок

Выборки делятся на два типа:

  • вероятностные
  • невероятностные 

1. Вероятностные выборки
1.1 Случайная выборка (простой случайный отбор)
Такая выборка предполагает однородность генеральной совокупности, одинаковую вероятность доступности всех элементов,
наличие полного списка всех элементов. При отборе элементов, как правило, используется таблица случайных чисел. 
1.2 Механическая (систематическая) выборка
Разновидность случайной выборки, упорядоченная по какому-либо признаку (алфавитный порядок, номер телефона, дата
рождения и т.д.). Первый элемент отбирается случайно, затем, с шагом ‘n’ отбирается каждый ‘k’-ый элемент. Размер
генеральной совокупности, при этом – N=n*k 
1.3 Стратифицированная (районированная)
Применяется в случае неоднородности генеральной совокупности. Генеральная совокупность разбивается на группы
(страты). В каждой страте отбор осуществляется случайным или механическим образом. 
1.4 Серийная (гнездовая или кластерная) выборка
При серийной выборке единицами отбора выступают не сами объекты, а группы (кластеры или гнёзда). Группы отбираются
случайным образом. Объекты внутри групп обследуются сплошняком. 

2.Невероятностные выборки
Отбор в такой выборке осуществляется не по принципам случайности, а по субъективным критериям – доступности,
типичности, равного представительства и т.д.. 
2.1. Квотная выборка
Изначально выделяется некоторое количество групп объектов (например, мужчины в возрасте 20-30 лет, 31-45 лет и 46-60
лет; лица с доходом до 30 тысяч рублей, с доходом от 30 до 60 тысяч рублей и с доходом свыше 60 тысяч рублей) Для
каждой группы задается количество объектов, которые должны быть обследованы. Количество объектов, которые должны
попасть в каждую из групп, задается, чаще всего, либо пропорционально заранее известной доле группы в генеральной
совокупности, либо одинаковым для каждой группы. Внутри групп объекты отбираются произвольно. Квотные выборки
используются в маркетинговых исследованиях достаточно
часто. 
2.2. Метод снежного кома
Выборка строится следующим образом. У каждого респондента, начиная с первого, просятся контакты его друзей, коллег,
знакомых, которые подходили бы под условия отбора и могли бы принять участие в исследовании. Таким образом, за
исключением первого шага, выборка формируется с участием самих объектов исследования. Метод часто применяется, когда
необходимо найти и опросить труднодоступные группы респондентов (например, респондентов, имеющих высокий доход,
респондентов, принадлежащих к одной профессиональной группе, респондентов, имеющих какие-либо схожие хобби/увлечения
и т.д.) 
2.3 Стихийная выборка
Опрашиваются наиболее доступные респонденты. Типичные примеры стихийных выборок – опросы в газетах/журналах, анкеты, отданные респондентам на самозаполнение, большинство
интернет-опросов. Размер и состав стихийных выборок заранее не известен, и определяется только одним параметром –
активностью респондентов. 
2.4 Выборка типичных случаев
Отбираются единицы генеральной совокупности, обладающие средним (типичным) значением признака. При этом возникает
проблема выбора признака и определения его типичного значения. 

Курс лекций по теории статистики

Более подробную информацию по выборочным наблюдениям можно получить просмотрев видеокурс по теории статистики:
Выборочное наблюдение Способы формирование выборки
Специальные виды отбора

Калькулятор расчета ошибки и размера выборки (для простой случайной выборки)

Пояснения к полям:
Доверительная вероятность
Вероятность того, что доверительный интервал накроет неизвестное истинное значение параметра, оцениваемого по
выборочным данным. В практике исследований чаще всего используют 95%-ую доверительную вероятность
Ошибка выборки (доверительный интервал)
Интервал, вычисленный по выборочным данным, который с заданной вероятностью (доверительной) накрывает неизвестное
истинное значение оцениваемого параметра распределения.
Доля признака
Ожидаемая доля признака, для которого рассчитывается ошибка. В случае, если данные о доле признака отсутствуют,
необходимо использовать значение равное 50, при котором достигается максимальная ошибка.

Калькулятор расчета статистической значимости различий

Калькулятор позволяет проверить есть ли статистически значимая разница между долями признака, полученными из
независимых выборок. 
Например, если до начала рекламной кампании марку знали 55% респондентов, а по окончании – 60% — есть ли между этими
долями статистически значимая разница, или же эта разница укладывается в ошибку выборки? 
Примечание. Эта процедура может законно использоваться, только если обе выборки удовлетворяют следующему условию:
произведения n*p и n*(1-p), где n=размер выборки а p=доля признака, должны быть не меньше 5. 

Оставить свои комментарии по затронутой теме Вы можете на наших страницах в Facebook и Вконтакте.


При перепечатке материалов ссылка на маркетинговое агентство обязательна

FDF Group © 2023
Разработка сайта — Монохром

Выборочная совокупность (выборка)

При проведении исследования в подавляющем большинстве случаев не представляется возможным опросить
генеральную совокупность, т.е. общую численность объектов наблюдения (например, всех жителей
столицы). Чтобы решить данную проблему и иметь возможность дать заключение обо всей генеральной
совокупности, используется отбор выборочной совокупности.

Выборочная совокупность – часть объектов генеральной совокупности, характеристики которой корректно
отражают характеристики генеральной совокупности (репрезентируют ее).

Приведем пример:
Выборка, состоящая из студентов московских вузов, не репрезентирует всю московскую молодежь (т.к.
как минимум не включает неучащуюся молодежь) и тем более не репрезентирует население Москвы.
Как бы мы ни увеличивали число опрошенных студентов московских вузов, данная выборка не будет
отражать характеристики населения города Москвы. В этом случае понимание того, что «мы опросили
МНОГО», не имеет никакой ценности. Важно знать, КАК отобрать корректную выборку.

Типы выборок

В зависимости от целей исследования используются различные типы выборок:

  1. вероятностные
  2. невероятностные

1. Использование вероятностной выборки предполагает, что все члены генеральной совокупности имеют
равные шансы попасть в выборку.

1.1. Простая случайная выборка

Основной вид вероятностной выборки. Респонденты выбираются СЛУЧАЙНЫМ ОБРАЗОМ из ПОЛНОГО списка
единиц генеральной совокупности. На практике сформировать данный список достаточно трудно. Например,
список всех мобильных телефонов не включает жителей, которые его не имеют, и т.д. Случайный отбор
осуществляет компьютер (генератор случайных чисел), или используется таблица случайных чисел.

Только для данного типа выборки возможно использование:

1.1.1. Калькулятор размера выборки

Доверительная вероятность


«Точность» – вероятность того, что случайный ответ попадет в доверительный интервал.

90%

95%

99%

Наиболее
распространенный


Ошибка выборки или доверительный интервал


«Погрешность» – отклонение средних характеристик выборочной совокупности от средних характеристик генеральной совокупности

5%
Наиболее
распространенный


Размер генеральной совокупности

человек


1.1.2. Калькулятор ошибки выборки

1.2. Случайная систематическая выборка

Генеральная совокупность упорядочивается (например, по алфавитному порядку, по номеру телефона и
т.д.), случайным образом выбирается первый элемент выборки, каждый последующий выбирается с равным
шагом (например, каждый 5-й, 20-й, 100-й респондент).

1.3. Стратифицированная случайная выборка

Генеральная совокупность разделяется на группы (страты). Внутри каждой страты совершается простой
случайный или систематический отбор. При этом выборка должна отражать структуру генеральной
совокупности, т.е. в выборке должны быть сохранены пропорции.

1.4. Кластерная выборка

Используется тогда, когда единицами отбора выступают кластеры (группы). Например, при исследовании
сотрудников медицинских учреждений целесообразно отобрать сначала сами учреждения. Внутри кластера
производится сплошной опрос (опрашиваются все его представители).

2. Использование невероятностных выборок обусловлено невозможностью случайного отбора. Отбор
происходит по субъективным критериям – доступности, типичности и т.д.

2.1. Квотная выборка

Генеральная структура в данном случае воспроизводится за счет квот (пропорций), которые обычно
отражают социально-демографические критерии. Например, заранее известно только число женщин и мужчин
в генеральной совокупности. В этом случае в той же пропорции они отбираются и для выборочной
совокупности. Внутри групп единицы отбора выбираются произвольно.

2.2. Метод «снежного» кома

Используется в том случае, если опросу принадлежат «труднодоступные» респонденты (например, люди с
очень высоким доходом). У всех респондентов (начиная с первого) спрашивают контакты их знакомых,
родственников, друзей, которые подходят для опроса.

2.3. Стихийная выборка

Выборка так называемого «первого встречного». Ее размер и состав достоверно не известен, он
определяется лишь активностью самих респондентов. Используется, например, в телеопросах.

2.4. Выборка типичных случаев

Выбирается типичный признак, на основании которого отбираются и другие участники исследования. Выбор
признака и его типичное значение производятся исследователем самостоятельно.

Новости отдела

Один из первых шагов при планировании количественного маркетингового исследования – определение объема выборки.

Калькулятор для расчета достаточного объема выборки
Калькулятор ошибки выборки для доли признака
Калькулятор ошибки выборки для среднего значения
Калькулятор значимости различий долей
Калькулятор значимости различий средних

1. Формула (даже две)

Бытует заблуждение, что чем больше объем генеральной совокупности, тем больше должен быть объем выборки маркетингового исследования. Это отчасти так, когда объем выборки сопоставим с размером генеральной совокупности. Например, при опросах организаций (B2B).

Если речь идет об исследовании жителей городов, то не важно, Москва это или Рязань – оптимальный объем выборки будет одинаков в обоих городах. Этот принцип следует из закона больших чисел и применим, только если выборка простая случайная.

На рис.1. пример выборки 15000 человек (!) при опросе в муниципальном районе. Возможно, от численности населения взяли 10%?
Размер выборки никогда не рассчитывается как процент от генеральной совокупности!

пример неправильного размера выборки, как опеределить размер выборки

Рис.1. Размер выборки 15000 человек, как реальный пример некомпетентности (или хуже).

В таких случаях для расчета объема выборки используется следующая формула:

SampleSize_formula_1.png

где 

n – объем выборки,
Z – коэффициент, зависящий от выбранного исследователем доверительного уровня,
p – доля респондентов с наличием исследуемого признака,
q = 1 – p – доля респондентов, у которых исследуемый признак отсутствует,
∆ – предельная ошибка выборки.

Доверительный уровень – это вероятность того, что реальная доля лежит в границах полученного доверительного интервала: выборочная доля (p) ± ошибка выборки (Δ). Доверительный уровень устанавливает сам исследователь в соответствии со своими требованиями к надежности полученных результатов. Чаще всего применяются доверительные уровни, равные 0,95 или 0,99. В маркетинговых исследованиях, как правило, выбирается доверительный уровень, равный 0,95. При этом уровне коэффициент Z равен 1,96.

Значения p и q чаще всего неизвестны до проведения исследования и принимаются за 0,5. При этом значении размер ошибки выборки максимален.

Допустимая предельная ошибка выборки выбирается исследователем в зависимости от целей исследования. Считается, что для принятия бизнес-решений ошибка выборки должна быть не больше 4%. Этому значению соответствует объем выборки 500-600 респондентов. Для важных стратегических решений целесообразно минимизировать ошибку выборки.

Рассмотрим кривую зависимости ошибки выборки от ее объема (Рис.2).

SampleSize_img1.png

Рис.2. Зависимость ошибки выборки от ее объема при 95% доверительном уровне

Как видно из диаграммы, с ростом объема выборки значение ошибки уменьшается все медленнее. Так, при объеме выборки 1500 человек предельная ошибка выборки составит ±2,5%, а при объеме 2000 человек – ±2,2%. То есть, при определенном объеме выборки дальнейшее его увеличение не дает значительного выигрыша в ее точности.

ШПАРГАЛКА (скопируйте  ссылку или текст)

Подходы к решению проблемы:


Случай 1. Генеральная совокупность значительно больше выборки:

SampleSize_formula_2.png

Случай 2. Генеральная совокупность сопоставима с объемом выборки: (см. раздел исследований B2B)

SampleSize_formula_3.png

где 
n – объем выборки,

N – объем генеральной совокупности, 


Z – коэффициент, зависящий от выбранного исследователем доверительного уровня,


p – доля респондентов с наличием исследуемого признака,


q = 1 – p – доля респондентов, у которых исследуемый признак отсутствует, (значения p и q обычно принимаются за 0,5, поскольку точно неизвестны до проведения исследования) 


∆ – предельная ошибка выборки.

Например,

рассчитаем ошибку выборки объемом 
1000 человек при 95% доверительном уровне, если генеральная совокупность значительно больше объема выборки: 

Ошибка выборки = 1,96 * КОРЕНЬ(0,5*0,5/1000) = 0,031 = ±3,1%

При расчете объема выборки следует также учитывать стоимость проведения исследования. Например, при цене за 1 анкету 200 рублей стоимость опроса 1000 человек составит 200 000 рублей, а опрос 1500 человек будет стоить 300 000 рублей. Увеличение затрат в полтора раза сократит ошибку выборки всего на 0,6%, что обычно неоправданно экономически.

2. Причины «раздувать» выборку

Анализ полученных данных обычно включает в себя и анализ подвыборок, объемы которых меньше основной выборки. Поэтому ошибка для выводов по подвыборкам больше, чем ошибка по выборке в целом. Если планируется анализ подгрупп / сегментов, объем выборки должен быть увеличен (в разумных пределах).

Рис.3 демонстрирует данную ситуацию. Если для исследования авиапассажиров используется выборка численностью 500 человек, то для выводов по выборке в целом ошибка составляет 4,4%, что вполне приемлемо для принятия бизнес-решений. Но при делении выборки на подгруппы в зависимости от цели поездки, выводы по каждой подгруппе уже недостаточно точны. Если мы захотим узнать какие-либо количественные характеристики группы пассажиров, совершающих бизнес-поездку и покупавших билет самостоятельно, ошибка полученных показателей будет достаточно велика. Даже увеличение выборки до 2000 человек не обеспечит приемлемой точности выводов по этой подвыборке.


Рис.3. Проектирование объема выборки с учетом необходимости анализа подвыборок

Другой пример – анализ подгрупп потребителей услуг торгово-развлекательного центра (Рис.4).


Рис.4. Потенциальный спрос на услуги торгово-развлекательного центра

При объеме выборки в 1000 человек выводы по каждой отдельной услуге (например, социально-демографический профиль, частота пользования, средний чек и др.) будут недостаточно точными для использования в бизнес планировании. Особенно это касается наименее популярных услуг (Таблица 1).

Таблица 1. Ошибка по подвыборкам потенциальных потребителей услуг торгово-развлекательного центра при выборке 1000 чел.

Чтобы ошибка в самой малочисленной подвыборке «Ночной клуб» составила меньше 5%, объем выборки исследования должен составлять около 4000 человек. Но это будет означать 4-кратное удорожание проекта. В таких случаях возможно компромиссное решение:

    • увеличение выборки до 1800 человек, что даст достаточную точность для 6 самых популярных видов услуг (от кинотеатра до парка аттракционов);
    • добор 200-300 пользователей менее популярных услуг с опросом по укороченной анкете (см. Таблицу 2).

Таблица 2. Разница в ошибке выборки по подвыборкам при разных объемах выборки.

При обсуждении с исследовательским агентством точности результатов планируемого исследования рекомендуется принимать во внимание бюджет, требования к точности результатов в целом по выборке и в разрезе подгрупп. Если бюджет не позволяет получить информацию с приемлемой ошибкой, лучше пока отложить проект (или поторговаться).


КАЛЬКУЛЯТОРЫ ДЛЯ РАСЧЕТА СТАТИСТИЧЕСКИХ ПОКАЗАТЕЛЕЙ И ОПРЕДЕЛЕНИЯ ЗНАЧИМОСТИ РАЗЛИЧИЙ:

КАЛЬКУЛЯТОР ДЛЯ РАСЧЕТА
ДОСТАТОЧНОГО ОБЪЁМА ВЫБОРКИ

Доверительный уровень:

Ошибка выборки (?):
%

Объём генеральной совокупности (N):
(можно пропустить, если больше 100 000)

РЕЗУЛЬТАТ

Один из важных вопросов, на которые нужно ответить при планировании исследования, — это оптимальный объем выборки. Слишком маленькая выборка не сможет обеспечить приемлемую точность результатов опроса, а слишком большая приведет к лишним расходам. 

Онлайн-калькулятор объема выборки поможет рассчитать оптимальный размер выборки, исходя из максимально приемлемого для исследователя размера ошибки выборки.

Все дальнейшие формулы и расчеты относятся только к простой случайной выборке!
Формулы для других типов выборки отличаются.

Объем выборки рассчитывается по следующим формулам

1) если объем выборки значительно меньше генеральной совокупности:

SampleSize_formula_1.png(в данной формуле не используется показатель объема генеральной совокупности N)

2) если объем выборки сопоставим с объемом генеральной совокупности:

SampleSize_formula_4.png

В приведенных формулах:

Z – коэффициент, зависящий от выбранного исследователем доверительного уровня. Доверительный уровень (или доверительная вероятность) – это вероятность того, что реальное значение измеряемого показателя (по всей генеральной совокупности) находится в пределах доверительного интервала, полученного в исследовании. Доверительный уровень выбирает сам исследователь, исходя из требований к надежности результатов исследования. В маркетинговых исследованиях обычно применяется 95%-й доверительный уровень. Ему соответствует значение Z = 1,96.

N – объем генеральной совокупности. Генеральная совокупность – это все люди, которые изучаются в исследовании (например, все покупатели соков и нектаров, постоянно проживающие в Москве и Московской области). Если генеральная совокупность значительно больше объема выборки (в сотни и более раз), ее размером можно пренебречь (формула 1).

p – доля респондентов с наличием исследуемого признака. Например, если 20% опрошенных заинтересованы в новом продукте, то p = 0,2.

q = 1 — p – доля респондентов, у которых исследуемый признак отсутствует. Значения p и q обычно принимаются за 0,5, поскольку точно неизвестны до проведения исследования. При этом значении размер ошибки выборки максимален. В данном калькуляторе значения p и q по умолчанию равны 0,5.

Δ– предельная ошибка выборки (для доли признака), приемлемая для исследователя. Считается, что для принятия бизнес-решений ошибка выборки не должна превышать 4%.

n – объем выборки. Объем выборки – это количество людей, которые опрашиваются в исследовании.

ПРИМЕР РАСЧЕТА ОБЪЕМА ВЫБОРКИ:

Допустим, мы хотим рассчитать объем выборки, предельная ошибка которой составит 4%. Мы принимаем доверительный уровень, равный 95%. Генеральная совокупность значительно больше выборки. Тогда объем выборки составит:

n = 1,96 * 1,96 * 0,5 * 0,5 / (0,04 * 0,04) = 600,25 ≈ 600 человек

Таким образом, если мы хотим получить результаты с предельной ошибкой 4%, нам нужно опросить 600 человек. 


КАЛЬКУЛЯТОР ОШИБКИ ВЫБОРКИ ДЛЯ ДОЛИ ПРИЗНАКА

Доверительный уровень:

Объём выборки (n):

Объём генеральной совокупности (N):
(можно пропустить, если больше 100 000)

Доля признака (p):
%

РЕЗУЛЬТАТ

Зная объем выборки исследования, можно рассчитать значение ошибки выборки (или, другими словами, погрешность выборки).

Если бы в ходе исследования мы могли опросить абсолютно всех интересующих нас людей, мы могли бы быть на 100% уверены в полученном результате. Но ввиду экономической нецелесообразности сплошного опроса применяют выборочный подход, когда опрашивается только часть генеральной совокупности. Выборочный метод не гарантирует 100%-й точности измерения, но, тем не менее, вероятность ошибки может быть сведена к приемлемому минимуму.

Все дальнейшие формулы и расчеты относятся только к простой случайной выборке! Формулы для других типов выборки отличаются.

Ошибка выборки для доли признака рассчитывается по следующим формулам.

1) если объем выборки значительно меньше генеральной совокупности:
SampleSize_formula_2.png

 (в данной формуле не используется показатель объема генеральной совокупности N)

2) если объем выборки сопоставим с объемом генеральной совокупности:

SampleSize_formula_3.png

В приведенных формулах:

Z – коэффициент, зависящий от выбранного исследователем доверительного уровня. Доверительный уровень (или доверительная вероятность) – это вероятность того, что реальное значение измеряемого показателя (по всей генеральной совокупности) находится в пределах доверительного интервала, полученного в исследовании. Доверительный уровень выбирает сам исследователь, исходя из требований к надежности результатов исследования. В маркетинговых исследованиях обычно применяется 95%-й доверительный уровень. Ему соответствует значение Z = 1,96.

N – объем генеральной совокупности. Генеральная совокупность – это все люди, которые изучаются в исследовании (например, все покупатели шоколада, постоянно проживающие в Москве). Если генеральная совокупность значительно больше объема выборки (в сотни и более раз), ее размером можно пренебречь (формула 1).

n – объем выборки. Объем выборки – это количество людей, которые опрашиваются в исследовании. Существует заблуждение, что чем больше объем генеральной совокупности, тем больше должен быть и объем выборки маркетингового исследования. Это отчасти так, когда объем выборки сопоставим с объемом генеральной совокупности. Например, при опросах организаций (B2B). Если же речь идет об исследовании жителей городов, то не важно, Москва это или Рязань – оптимальный объем выборки будет одинаков в обоих городах. Этот принцип следует из закона больших чисел и применим, только если выборка простая случайная. ВАЖНО: если предполагается сравнивать какие-то группы внутри города, например, жителей разных районов, то выборку следует рассчитывать для каждой такой группы.

p – доля респондентов с наличием исследуемого признака. Например, если 20% опрошенных заинтересованы в новом продукте, то p = 0,2.

q = 1 — p – доля респондентов, у которых исследуемый признак отсутствует. Значения p и q обычно принимаются за 0,5, поскольку точно неизвестны до проведения исследования. При этом значении размер ошибки выборки максимален.

Δ– предельная ошибка выборки.

Таким образом, зная объем выборки исследования, мы можем заранее оценить показатель ее ошибки.
А получив значение p, мы можем рассчитать доверительный интервал для доли признака: (p — ∆; p + ∆)

ПРИМЕР РАСЧЕТА ОШИБКИ ВЫБОРКИ ДЛЯ ДОЛИ ПРИЗНАКА:

Например, в ходе исследования были опрошены 1000 человек (n=1000). 20% из них заинтересовались новым продуктом (p=0,2). Рассчитаем показатель ошибки выборки по формуле 1 (выберем доверительный уровень, равный 95%):

∆ = 1,96 * КОРЕНЬ (0,2*0,8/1000) = 0,0248 = ±2,48%

Рассчитаем доверительный интервал:

(p — ∆; p + ∆) = (20% — 2,48%; 20% + 2,48%) = (17,52%; 22,48%)

Таким образом, с вероятностью 95% мы можем быть уверены, что реальная доля заинтересованных в новом продукте (среди всей генеральной совокупности) находится в пределах полученного диапазона (17,52%; 22,48%).

Если бы мы выбрали доверительный уровень, равный 99%, то для тех же значений p и n ошибка выборки была бы больше, а доверительный интервал – шире. Это логично, поскольку, если мы хотим быть более уверены в том, что наш доверительный интервал «накроет» реальное значение признака, то интервал должен быть более широким.


КАЛЬКУЛЯТОР ОШИБКИ ВЫБОРКИ ДЛЯ СРЕДНЕГО ЗНАЧЕНИЯ

Доверительный уровень:

Объём выборки (n):

Объём генеральной совокупности (N):
(можно пропустить, если больше 100 000)

Среднее значение (x̄):

Стандартное отклонение (s):

РЕЗУЛЬТАТ

Зная объем выборки исследования, можно рассчитать значение ошибки выборки (или, другими словами, погрешность выборки).

Если бы в ходе исследования мы могли опросить абсолютно всех интересующих нас людей, мы могли бы быть на 100% уверены в полученном результате. Но ввиду экономической нецелесообразности сплошного опроса применяют выборочный подход, когда опрашивается только часть генеральной совокупности. Выборочный метод не гарантирует 100%-й точности измерения, но, тем не менее, вероятность ошибки может быть сведена к приемлемому минимуму.

Все дальнейшие формулы и расчеты относятся только к простой случайной выборке! Формулы для других типов выборки отличаются.

Ошибка выборки для среднего значения рассчитывается по следующим формулам.

1) если объем выборки значительно меньше генеральной совокупности:

SampleSize_formula_5.png

(в данной формуле не используется показатель объема генеральной совокупности N)

2) если объем выборки сопоставим с объемом генеральной совокупности:

SampleSize_formula_6.png

В приведенных формулах:

Z – коэффициент, зависящий от выбранного исследователем доверительного уровня. Доверительный уровень (или доверительная вероятность) – это вероятность того, что реальное значение измеряемого показателя (по всей генеральной совокупности) находится в пределах доверительного интервала, полученного в исследовании. Доверительный уровень выбирает сам исследователь, исходя из требований к надежности результатов исследования. В маркетинговых исследованиях обычно применяется 95%-й доверительный уровень. Ему соответствует значение Z = 1,96

N – объем генеральной совокупности. Генеральная совокупность – это все люди, которые изучаются в исследовании (например, все покупатели мороженого, постоянно проживающие в Москве). Если генеральная совокупность значительно больше объема выборки (в сотни и более раз), ее размером можно пренебречь (формула 1).

n – объем выборки. Объем выборки – это количество людей, которые опрашиваются в исследовании. Существует заблуждение, что чем больше объем генеральной совокупности, тем больше должен быть и объем выборки маркетингового исследования. Это отчасти так, когда объем выборки сопоставим с объемом генеральной совокупности. Например, при опросах организаций (B2B). Если же речь идет об исследовании жителей городов, то не важно, Москва это или Рязань – оптимальный объем выборки будет одинаков в обоих городах. Этот принцип следует из закона больших чисел и применим, только если выборка простая случайная. ВАЖНО: если предполагается сравнивать какие-то группы внутри города, например, жителей разных районов, то выборку следует рассчитывать для каждой такой группы.

s — выборочное стандартное отклонение измеряемого показателя. В идеале на месте этого аргумента должно быть стандартное отклонение показателя в генеральной совокупности (σ), но так как обычно оно неизвестно, используется выборочное стандартное отклонение, рассчитываемое по следующей формуле:

SampleSize_formula_7.png

где, x ̅ – среднее арифметическое показателя, xi– значение i-го показателя, n – объем выборки

Δ– предельная ошибка выборки.

Зная среднее значение показателя x ̅ и ошибку ∆, мы можем рассчитать доверительный интервал для среднего значения:(x ̅ — ∆; x ̅ + ∆)

ПРИМЕР РАСЧЕТА ОШИБКИ ВЫБОРКИ ДЛЯ СРЕДНЕГО ЗНАЧЕНИЯ:

Например, в ходе исследования были опрошены 1000 человек (n=1000). Каждого из них попросили указать их примерную среднюю сумму покупки (средний чек) в известной сети магазинов. Среднее арифметическое всех ответов составило 500 руб. (x ̅=500), а стандартное отклонение составило 120 руб. (s=120). Рассчитаем показатель ошибки выборки по формуле 1 (выберем доверительный уровень, равный 95%):

∆ = 1,96 * 120 / КОРЕНЬ (1000) = 7,44

Рассчитаем доверительный интервал:

(x ̅ — ∆; x ̅ + ∆) = (500 – 7,44; 500 + 7,44) = (492,56; 507,44)

Таким образом, с вероятностью 95% мы можем быть уверены, что значение среднего чека по всей генеральной совокупности находится в границах полученного диапазона: от 492,56 руб. до 507,44 руб.


КАЛЬКУЛЯТОР ЗНАЧИМОСТИ РАЗЛИЧИЙ ДОЛЕЙ

Доверительный уровень:

Измерение 1 Измерение 2
Доля признака (p): % %
Объём выборки (n):

РЕЗУЛЬТАТ

Если в прошлогоднем исследовании вашу марку вспомнили 10% респондентов, а в исследовании текущего года – 15%, не спешите открывать шампанское, пока не воспользуетесь нашим онлайн-калькулятором для оценки статистической значимости различий.

Сравнивая два разных значения, полученные на двух независимых выборках, исследователь должен убедиться, что различия статистически значимы, прежде чем делать выводы.

Как известно, выборочные исследования не обеспечивают 100%-й точности измерения (для этого пришлось бы опрашивать всю целевую аудиторию поголовно, что слишком дорого). Тем не менее, благодаря методам математической статистики, мы можем оценить точность результатов любого количественного исследования и учесть ее в выводах.

В приведенном здесь калькуляторе используется двухвыборочный z-тест для долей. Для его применения должны соблюдаться следующие условия:

    • Обе выборки – простые случайные 
    • Выборки независимы (между значениями двух выборок нет закономерной связи) 
    • Генеральные совокупности значительно больше выборок 
    • Произведения n*p и n*(1-p), где n=размер выборки а p=доля признака, – не меньше 5.

В калькуляторе используются следующие вводные данные:

Доверительный уровень (или доверительная вероятность) – это вероятность того, что реальное значение измеряемого показателя (по всей генеральной совокупности) находится в пределах доверительного интервала, полученного в исследовании. Доверительный уровень выбирает сам исследователь, исходя из требований к надежности результатов исследования. В маркетинговых исследованиях обычно применяется 95%-й доверительный уровень.

Доля признака (p) – доля респондентов с наличием исследуемого признака. Например, если 20% опрошенных заинтересованы в новом продукте, то p = 0,2.

Объем выборки (n) – это количество людей, которые опрашиваются в исследовании.

Результат расчетов – вывод о статистической значимости или незначимости различий двух измерений.


КАЛЬКУЛЯТОР ЗНАЧИМОСТИ РАЗЛИЧИЙ СРЕДНИХ

Доверительный уровень:

Измерение 1 Измерение 2
Среднее значение (x̄):
Стандартное отклонение (s):
Объём выборки (n):

РЕЗУЛЬТАТ

Допустим, выборочный опрос посетителей двух разных ТРЦ показал, что средний чек в одном из них равен 1000 рублей, а в другом – 1200 рублей. Следует ли отсюда вывод, что суммы среднего чека в двух этих ТРЦ действительно отличаются?

Сравнивая два разных значения, полученные на двух независимых выборках, исследователь должен убедиться, что различия статистически значимы, прежде чем делать выводы.

Как известно, выборочные исследования не обеспечивают 100%-й точности измерения (для этого пришлось бы опрашивать всю целевую аудиторию поголовно, что слишком дорого). Тем не менее, благодаря методам математической статистики, мы можем оценить точность результатов любого количественного исследования и учесть ее в выводах.

В приведенном здесь калькуляторе используется двухвыборочный z-тест для средних значений. Для его применения должны соблюдаться следующие условия:

    • Обе выборки – простые случайные 
    • Выборки независимы (между значениями двух выборок нет закономерной связи)
    • Генеральные совокупности значительно больше выборок 
    • Распределения значений в выборках близки к нормальному распределению.

В калькуляторе используются следующие вводные данные:

Доверительный уровень (или доверительная вероятность) – это вероятность того, что реальное значение измеряемого показателя (по всей генеральной совокупности) находится в пределах доверительного интервала, полученного в исследовании. Доверительный уровень выбирает сам исследователь, исходя из требований к надежности результатов исследования. В маркетинговых исследованиях обычно применяется 95%-й доверительный уровень.

Среднее значение ( ̅x) – среднее арифметическое показателя.

Стандартное отклонение (s) – выборочное стандартное отклонение измеряемого показателя. В идеале на месте этого аргумента должно быть стандартное отклонение показателя в генеральной совокупности (σ), но так как обычно оно неизвестно, используется выборочное стандартное отклонение, рассчитываемое по следующей формуле:
SampleSize_formula_7.png
где, x ̅ – среднее арифметическое показателя, xi– значение i-го показателя, n – объем выборки

Объем выборки (n) – это количество людей, которые опрашиваются в исследовании.

Результат расчетов – вывод о статистической значимости или незначимости различий двух измерений.

Вы можете подписаться на уведомления о новых материалах СканМаркет

Радар с обратной синтезированной апертурой (МСУО) — это радиолокационный метод, использующий Радиолокационное изображение для создания двухмерного изображения цели с высоким разрешением. Это аналог обычного SAR, за исключением того, что технология ISAR использует движение цели, а не излучателя для создания синтетическая апертура.[1] Радары ISAR играют важную роль на борту морских патрульных самолетов, предоставляя им радиолокационное изображение достаточного качества, позволяющее использовать его для целей распознавания целей. В ситуациях, когда другие радары отображают только один неидентифицируемый яркий движущийся пиксель, изображения ISAR часто достаточно для различения различных ракет, военных самолетов и гражданских самолетов.

Радиолокационное изображение поперечного сечения (RCS)

Изображения целевой области, полученные с помощью ISAR, могут быть полезным инструментом для определения местоположения рассеивающих областей на цели. Изображения ISAR часто получаются путем вращения цели и обработки полученных результатов. Доплеровские истории центров рассеяния. Если цель вращается в азимут с постоянной скоростью через «малый» угол рассеиватели будут приближаться к радару или удаляться от него со скоростью, зависящей только от положения поперечного диапазона — расстояния по нормали к линии визирования радара с исходной точкой на оси вращения цели. Вращение приведет к генерации зависимого от диапазона доплеровского частоты которые можно отсортировать в пространстве преобразование Фурье. Эта операция эквивалентна (но противоположна) генерации большого синтетическая апертура фазированная решетка антенна формируется когерентным суммированием выходных сигналов приемника для различных геометрий цели / антенны. Для малых углов изображение ISAR представляет собой двумерное преобразование Фурье принятого сигнала как функцию частоты и целевого аспектного угла.

Если цель вращается на «большие» углы, предыстория доплеровской частоты рассеивателя становится нелинейной, следуя за синусоидальная волна траектория. Эта доплеровская история не может быть обработана напрямую с помощью преобразования Фурье из-за размытой доплеровской частотной истории, что приводит к потере разрешения между диапазонами. Максимальный угол поворота, который может быть обработан немодифицированным преобразованием Фурье, определяется ограничением, согласно которому фазовая ошибка апертуры по синтезированной апертуре должна изменяться менее чем на заданную (произвольную) величину, например на 45 градусов. Это происходит, когда синтетическая апертура до целевой дальности меньше, чем требуется для { frac {2D ^ {2}} { lambda}} предел где D — требуемая боковая протяженность цели. В этот момент синтетическая апертура находится в пределах целевой области ближнего поля и требует фокусировки. Фокусировка достигается применением фазовой коррекции к синтетической апертуре.

Приложения ISAR

ISAR используется в морском наблюдении для классификации судов и других объектов. В этих приложениях движение объекта из-за воздействия волн часто играет большую роль, чем вращение объекта. Например, элемент, который простирается далеко по поверхности корабля, такой как мачта, будет обеспечивать высокий синусоидальный отклик, который четко идентифицируется на двухмерном изображении. Изображения иногда создают сверхъестественное сходство с визуальным профилем с интересным эффектом, заключающимся в том, что по мере того, как объект качается в направлении приемника или от него, чередующиеся доплеровские сигналы вызывают циклическое изменение профиля между вертикальным и перевернутым. ISAR для морского наблюдения была впервые разработана компанией Texas Instruments в сотрудничестве с Военно-морской исследовательской лабораторией и стала важной функцией самолетов P-3 Orion и S-3B Viking ВМС США.

Исследования проводились также с использованием наземной системы ISAR. Сложность использования этой возможности заключается в том, что движение объекта намного меньше по величине и обычно менее периодично, чем в случае морского судоходства.

Возможно, наиболее ярким и убедительным с научной точки зрения приложением ISAR является получение изображений астероидов в дальнем космосе. Особенно красивым примером этого является так называемая «собачья кость». 216 Клеопатра астероид, который находится примерно на 20% дальше от Земли, чем Солнце. Ширина астероида составляет всего 60 миль в средней точке. И все же изображение четкое и «ощущается» как оптическое изображение. Это было похоже на использование телескопа Лос-Анджелеса размером с линзу человеческого глаза для изображения автомобиля в Нью-Йорке. Конечно, «хитрость» здесь в том, что астероид представлен на очень редком фоне, что дает возможность значительного устранения неоднозначности.

В феврале 2013 года испанская ведущая технологическая корпорация Indra Sistemas анонсировала первый пассивный радар ISAR. Пассивный радар характеризуется тем, что не испускает никаких форм излучения, то есть использует сигналы, присутствующие в окружающей среде. В этом случае радар использует сигналы цифрового наземного телевидения как некооперативные источники освещения в окружающей среде.[2]

Ошибки в ISAR

Ошибки в процессе визуализации ISAR обычно приводят к расфокусировке и геометрическим ошибкам на изображении. Ошибки преобразования ISAR включают:

  • Неизвестная цель или движение антенны: Немоделированное движение приведет к расфокусировке целевого изображения и его неправильному расположению. Эта ошибка контролируется подходящей механической конструкцией или использованием автофокус техники. Эту ошибку можно измерить аналитическим фаза сигнала метод измерения, описанный ранее.
  • Вертикальные ошибки ближнего поля: Если не выполняется 3D ISAR, вертикальный размер цели под прямым углом к ​​горизонтальной синтетической апертуре должен соответствовать вертикальному пределу дальнего поля. Высокие цели расфокусируются и переместятся в неправильное положение. 2D ISAR-представление целевой области — это плоская поверхность.
  • Встроенный возврат боковых лепестков: Качество изображения ISAR ухудшается на классифицировать и азимутальное сжатие боковые доли. Боковые лепестки связаны с данными усечение и может быть уменьшен применением соответствующих оконных функций. Боковые лепестки могут вызвать значительное ухудшение качества изображения. Во-первых, пики более сильных боковых лепестков могут вызвать появление цепочки все более слабых целей по обе стороны от сильной цели. Во-вторых, совокупная мощность всех боковых лепестков имеет тенденцию к запотеванию или размыванию деталей в областях с низким RCS. Уровень встроенных боковых лепестков может в плохих условиях достигать 10 дБ ниже пикового целевого дохода.
  • Ошибки выборки по частоте и азимуту: Неправильно выбранная частота или дельта сторон приведет к изображения с псевдонимами, создавая ложные цели. Программа SIM, описанная ранее, специально отслеживает ошибки отчуждения, эффективно устраняя этот источник ошибок.
  • Антенные аберрации: Аберрации в геометрии возникают, когда положение фазового центра антенны зависит от характеристик антенны или радиочастоты. Этот источник ошибок обычно контролируется с помощью небольших простых антенн в узких полосах частот на больших расстояниях. Коррекции первого порядка для частотно-дисперсионных антенн, такие как логопериодические, могут выполняться путем фазовой коррекции принятого сигнала. Полная коррекция аберраций может быть выполнена путем прямой интеграции преобразования ISAR с использованием аберрированной геометрии.
  • Разброс прицела: Дисперсные цели имеют не минимальную фазовую характеристику, кажется, смещаются в позиции с РФ частота. Примеры диспергирующих целей включают в себя РЧ-поглотители, в которых глубина поглощения является функцией частоты, и различные антенны, в которых положение фазового центра зависит от частоты. CW Визуализация ISAR или в некоторых случаях предварительная обработка перед преобразованием FMCW ISAR для устранения дисперсионной расфокусировки целевого изображения.
  • Многолучевость: Множественные отражения могут привести к искажениям изображения ISAR, таким как классические следы фантомных изображений от реактивный самолет выхлопные трубы.

Ошибки в двумерном плоском обратном преобразовании ISAR включают:

  • Ошибки моделирования блокировки изображения: Обратное преобразование ISAR в настоящее время предполагает, что рассеиватели находятся на плоской поверхности и не могут блокировать другие рассеиватели.
  • Ошибки моделирования многолучевого распространения изображения: Обратное преобразование ISAR в настоящее время не моделирует многопутевую среду. Обратите внимание, что текущие преобразования ISAR также неправильно обрабатывают многолучевость.

Смотрите также

  • Радар с синтезированной апертурой
  • Синтез апертуры
  • Формирование луча
  • Фазированная антенная решетка
  • Обнаружение оптического гетеродина
  • Поперечное сечение радара

Рекомендации

  1. ^ Скольник, Меррилл (1990). Справочник по радарам. Бостон: Макгроу Хилл. п. 12. ISBN  0-07-057913-X.
  2. ^ «Indra разрабатывает первую пассивную радарную систему с высоким разрешением». Получено 2013-02-11.

внешняя ссылка

  • Радар с обратной синтезированной апертурой, Дэн Слейтер, 1985
  • Радар с обратной синтезированной апертурой, Дэн Слейтер, 1985
  • Системы 2D и 3D СШП радиолокационных изображений, разработанные в Геозондах
  • Продвинутые радиолокационные системы

Радары обычно измеряют распределение целей в трехмерной сферической системе координат, соответствующей дальности, азимуту и ​​углам возвышения цели; соответствующий диапазон, доплеровский сдвиг и волна могут быть получены путем обработки эхо-сигнала. угол. Перед обработкой цели необходимо сначала оцифровать эхо-сигнал цели. Для цифровой системы сбора данных выбор частоты дискретизации и количества битов квантования особенно важен для радара. Он не только влияет на окончательное хранение и расчет данных, но также влияет на отношение сигнал / шум конечного сигнала.

В процессе сбора данных радара часто встречаются описания «быстрое время» и «медленное время». Как мы понимаем «быстрое время» и «медленное время» соответственно? Как показано на рисунке 1, N + 1 точка измерения расстояния на рисунке хранится в памяти данных, которая называется «быстрой выборкой времени». Время каждого измерения расстояния — это время повторения импульсов (PRT); «медленная выборка» Обычно используется для обработки последовательности импульсов, он используется для отметки «времени» различных импульсов. Импульс рассматривается как выборка некоторого «медленного времени». Время, необходимое для сбора данных, составляет (M + 1) * PRT, обычно Это называется временем когерентной обработки (CPI).

Вышеупомянутые «быстрая выборка» и «медленная выборка» относятся к выборке во временной области в дополнение к выборке в пространстве, называемой пространственной выборкой. Предположим, что в одномерном линейном массиве из L + 1 элементов массива L + 1 элементов массива дискретизируются и затем обрабатываются с помощью цифрового формирования луча (DBF) для формирования высокого углового разрешения. Пространственная выборка также может быть классифицирована как разновидность «медленной выборки».

Company

Калькулятор ошибки выборки

Рассчитать статистическую ошибку и размер выборки

Введены некорректные данные

Доля признака
Ожидаемая доля признака, для которого рассчитывается ошибка. В случае, если данные о доле признака отсутствуют, необходимо использовать значение равное 50, при котором достигается максимальная ошибка.

Объем выборки
Количество людей, которых опросили для оценки доли.

Уровень значимости
Вероятность того, что реальная доля признака лежит в границах полученного доверительного интервала. Уровень значимости выбирает сам исследователь, исходя из требований к надежности результатов исследования. В маркетинговых исследованиях обычно 95%.

125315, г. Москва, Ленинградский проспект 68, стр. 2, 3 этаж
+7 (495) 648 78 20
client@tiburon-research.ru

Понравилась статья? Поделить с друзьями:
  • Раге мультиплеер ошибка
  • Равон р2 ошибка 82 что это значит
  • Равон р2 ошибка 82 как сбросить
  • Равон р2 код ошибки 82 что значит
  • Равные половины есть лексическая ошибка