Ошибка смещения выборки - Не ошибается лишь тот, кто ничего не делает!

В статистике смещение выборки — это смещение в при котором выборка собирается таким образом, что некоторые члены предполагаемой совокупности имеют более низкую или более высокую вероятность выборки, чем другие. Это приводит к смещенной выборке, неслучайной выборке из популяции (или факторов, не связанных с человеком), в которой не все люди или экземпляры были отобраны с одинаковой вероятностью. Если это не учитывать, результаты могут быть ошибочно отнесены к изучаемому явлению, а не к методу выборки.

. Медицинские источники иногда называют систематическую ошибку выборки систематической ошибкой установления . Систематическая ошибка установления имеет в основном то же определение, но все же иногда классифицируется как отдельный тип систематической ошибки.

Содержание

1 Отличие от систематической ошибки выбора
2 Типа
- 2.1 Выборка на основе симптомов
- 2.2 Усечение отбор в племенных исследованиях
- 2.3 Эффект пещерного человека
3 Проблемы из-за систематической ошибки выборки
4 Исторические примеры
5 Статистические поправки для смещенной выборки
6 См. также
7 Ссылки

Отличие от смещения выборки

Смещение выборки обычно классифицируется как подтип смещения выборки, иногда конкретно называемое смещение выборки, но некоторые классифицируют его как отдельный тип предвзятость. Различие, хотя и не общепризнанное, смещения выборки состоит в том, что оно подрывает внешнюю валидность теста (способность его результатов быть обобщенными для всей совокупности), в то время как смещение выборки в основном касается внутренней достоверности различий или сходств, обнаруженных в данном образце. В этом смысле ошибки, возникающие в процессе сбора выборки или когорты, вызывают смещение выборки, тогда как ошибки в любом последующем процессе вызывают смещение выборки.

Однако смещение выборки и смещение выборки часто используются как синонимы.

Типы

Выбор из конкретной реальной области . Например, опрос старшеклассников для измерения употребления незаконных наркотиков подростками будет необъективной выборкой, поскольку он не включает учащихся, обучающихся на дому, или бросивших школу. Выборка также является смещенной, если одни члены недопредставлены или перепредставлены по сравнению с другими в генеральной совокупности. Например, интервью «человек с улицы», в ходе которого отбираются люди, проходящие мимо определенного места, будет иметь слишком большое количество здоровых людей, которые с большей вероятностью будут находиться вне дома, чем люди с хроническими заболеваниями. Это может быть крайним проявлением предвзятости выборки, поскольку некоторые члены совокупности полностью исключены из выборки (т. Е. Имеют нулевую вероятность быть выбранными).
Самостоятельный выбор систематическая ошибка (см. также систематическая ошибка отсутствия ответов ), что возможно в тех случаях, когда изучаемая группа людей имеет какую-либо форму контроля над тем, участвовать ли в ней (как того требуют действующие стандарты этики исследования человека и субъекта для многие формы обучения в реальном времени и некоторые продольные формы обучения). Решение участников об участии может быть коррелировано с характеристиками, которые влияют на исследование, что делает участников нерепрезентативной выборкой. Например, люди, у которых есть твердое мнение или существенные знания, могут с большей охотой тратить время на ответы на вопросы опроса, чем те, у кого их нет. Другой пример — онлайн-опросы и опросы по телефону, которые являются необъективными выборками, поскольку респонденты выбираются самостоятельно. Те люди, которые имеют высокую мотивацию к ответу, обычно люди, которые придерживаются твердого мнения, перепредставлены, а люди, которые безразличны или апатичны, с меньшей вероятностью ответят. Это часто приводит к поляризации ответов, когда крайним точкам зрения придается непропорциональный вес в резюме. В результате такие опросы считаются ненаучными.
Предварительный отбор участников испытаний или реклама волонтеров в определенных группах. Например, исследование, призванное «доказать», что курение не влияет на физическую форму, может набираться в местном фитнес-центре, но рекламироваться для курящих во время занятий по продвинутой аэробике и для некурящих во время сеансов похудания.
Исключение систематическая ошибка возникает из-за исключения определенных групп из выборки, например исключение субъектов, которые недавно мигрировали в исследуемую область (это может происходить, когда новоприбывших нет в регистре, используемом для идентификации исходной популяции). Исключение субъектов, которые покидают исследуемую зону во время последующего наблюдения, скорее эквивалентно выбыванию или отсутствию ответа, систематической ошибке выбора в том смысле, что она скорее влияет на внутреннюю валидность исследования.
систематическая ошибка здорового пользователя, когда исследуемая популяция, вероятно, более здорова, чем население в целом. Например, человек со слабым здоровьем вряд ли будет работать физическим трудом.
Заблуждение Берксона, когда исследуемая популяция выбрана из больницы и поэтому менее здорова, чем население в целом. Это может привести к ложной отрицательной корреляции между заболеваниями: больной пациент без диабета с большей вероятностью болеет другим заболеванием, таким как холецистит, поскольку у него изначально должна была быть какая-то причина для госпитализации.
Превышение соответствия, соответствие явному искажающему элементу, которое на самом деле является результатом воздействия. Контрольная группа становится более похожей на случаи в отношении воздействия, чем население в целом.
Ошибка выживаемости, в которой отбираются только «выжившие» субъекты, игнорируя тех, которые выпали из поля зрения. Например, при использовании данных о текущих компаниях в качестве индикатора делового климата или экономики игнорируются предприятия, которые потерпели неудачу и больше не существуют.
Смещение Мальмквиста, эффект в астрономии наблюдений, который приводит к предпочтительному обнаружению

Выборка на основе симптомов

Изучение медицинских состояний начинается с анекдотических сообщений. По своему характеру такие отчеты включают только те, которые направлены для диагностики и лечения. У ребенка, который не может учиться в школе, больше шансов получить диагноз дислексия, чем у ребенка, который борется, но проходит. Ребенок, обследованный на одно заболевание, с большей вероятностью будет проверен и диагностирован с другим заболеванием, что искажает статистику коморбидности. По мере того, как определенные диагнозы становятся связанными с проблемами поведения или умственной отсталостью, родители пытаются предотвратить стигматизацию своих детей с помощью этих диагнозов, что вносит дополнительную предвзятость. Исследования, тщательно отобранные из целых популяций, показывают, что многие состояния встречаются гораздо чаще и обычно намного мягче, чем считалось ранее.

Обрезать выборку в племенных исследованиях

Простой пример родословной систематической ошибки выборки

Генетики ограничены в том, как они могут получить данные из человеческих популяций. В качестве примера рассмотрим человеческую характеристику. Мы заинтересованы в том, чтобы определить, наследуется ли характеристика как простой менделевский признак. Согласно законам менделевского наследования, если родители в семье не имеют характеристики, но несут ее аллель, они являются носителями (например, невыразительная гетерозигота ). В этом случае у каждого из детей будет 25% шанс показать характеристику. Проблема возникает из-за того, что мы не можем сказать, в каких семьях есть оба родителя в качестве носителей (гетерозиготные), если в них нет ребенка, который проявляет эту характеристику. Описание следует из учебника Саттона.

На рисунке показаны родословные всех возможных семей с двумя детьми, когда родители являются носителями (Aa).

Неусекать выделение . В идеальном мире мы должны иметь возможность обнаружить все такие семьи с геном, включая тех, которые являются просто носителями. В этой ситуации анализ будет свободен от предвзятости в установлении, а родословные будут находиться в рамках «неточного отбора». На практике большинство исследований выявляют и включают семьи в исследование на основании того, что они затронули людей.
Отбор с усечением . Когда пораженные люди имеют равные шансы быть включенными в исследование, это называется усеченным отбором, означающим непреднамеренное исключение (усечение) семей, которые являются носителями гена. Поскольку отбор осуществляется на индивидуальном уровне, семьи с двумя или более затронутыми детьми будут иметь более высокую вероятность включения в исследование.
Отбор полного усечения — это особый случай, когда каждая семья с пораженным ребенком имеет равные шансы быть отобранными для исследования.

Вероятность каждой из выбранных семей представлена на рисунке, а также дана частота выборки затронутых детей. В этом простом случае исследователь будет искать для характеристики частоту ⁄ 7 или ⁄ 8, в зависимости от используемого типа усеченного выделения.

Эффект пещерного человека

Пример смещения выбора называется «эффектом пещерного человека». Большая часть нашего понимания доисторических народов происходит из пещер, таких как наскальные рисунки, сделанные почти 40 000 лет назад. Если бы существовали современные картины на деревьях, шкурах животных или склонах холмов, их бы давно смыло. Точно так же следы кострищ, мусора, захоронений и т.д., скорее всего, останутся нетронутыми до современной эпохи в пещерах. Доисторические люди ассоциируются с пещерами, потому что именно там до сих пор существуют данные, не обязательно потому, что большинство из них прожили в пещерах большую часть своей жизни.

Проблемы из-за смещения выборки

Смещение выборки проблематично, потому что возможно, что статистика, вычисленная для выборки, систематически ошибочна. Систематическая ошибка выборки может привести к систематической переоценке или занижению соответствующего параметра в генеральной совокупности. Систематическая ошибка выборки возникает на практике, поскольку практически невозможно гарантировать абсолютную случайность выборки. Если степень искажения невелика, то выборку можно рассматривать как разумное приближение к случайной выборке. Кроме того, если выборка не отличается заметно по измеряемой величине, то смещенная выборка все же может быть разумной оценкой.

Слово предвзятость имеет сильный негативный оттенок. Действительно, предубеждения иногда возникают из-за умышленного введения в заблуждение или другого научного мошенничества. В статистическом использовании систематическая ошибка представляет собой просто математическое свойство, независимо от того, является ли оно преднамеренным или бессознательным, или вызвано несовершенством инструментов, используемых для наблюдения. Хотя некоторые люди могут намеренно использовать предвзятую выборку для получения вводящих в заблуждение результатов, чаще предвзятая выборка является просто отражением трудности получения действительно репрезентативной выборки или незнания предвзятости в их процессе измерения или анализа. Примером того, как может существовать игнорирование предвзятости, является широко распространенное использование отношения (также известного как кратное изменение ) в качестве меры различия в биологии. Поскольку легче достичь большого отношения с двумя маленькими числами с заданной разницей и относительно труднее достичь большого отношения с двумя большими числами с большей разницей, при сравнении относительно больших числовых измерений могут быть упущены большие существенные различия. Некоторые называют это «предвзятостью демаркации», потому что использование соотношения (деления) вместо разницы (вычитания) переводит результаты анализа из науки в псевдонауку (см. Проблема демаркации ).

В некоторых выборках используется предвзятый статистический план, который, тем не менее, позволяет оценивать параметры. Национальный центр статистики здравоохранения США, например, намеренно увеличивает выборку среди меньшинств во многих своих общенациональных опросах, чтобы получить достаточную точность для оценок внутри этих групп. Эти обследования требуют использования весов выборки (см. Ниже) для получения правильных оценок по всем этническим группам. При соблюдении определенных условий (главным образом, при правильном вычислении и использовании весов) эти выборки позволяют точно оценить параметры совокупности.

Исторические примеры

Пример предвзятой выборки: по состоянию на июнь 2008 г. 55% используемых веб-браузеров (Internet Explorer ) не прошли тест Acid2. Из-за характера теста выборка состояла в основном из веб-разработчиков.

Классический пример предвзятой выборки и вводящих в заблуждение результатов, полученных ею, произошел в 1936 году. На заре опроса общественного мнения американская Literary Журнал Digest собрал более двух миллионов почтовых опросов и предсказал, что республиканский кандидат в США президентские выборы, Альф Лэндон, с большим отрывом победят действующего президента Франклина Рузвельта. Результат был прямо противоположным. Обзор «Литературный дайджест» представляет собой выборку, собранную среди читателей журнала, дополненную записями зарегистрированных владельцев автомобилей и пользователей телефонов. Эта выборка включала чрезмерное представительство людей, которые были богатыми, которые как группа с большей вероятностью проголосовали бы за кандидата от республиканцев. Напротив, опрос только 50 тысяч граждан, выбранных организацией Джорджа Гэллапа, успешно предсказал результат, что привело к популярности опроса Гэллапа.

Другой классический пример произошел в Выборы президента 1948 года. В ночь выборов Chicago Tribune напечатала заголовок ДЬЮИ ПОБЕДАЕТ ТРУМЭНА, который оказался ошибочным. Утром ухмыляющийся избранный президент, Гарри С. Трумэн был сфотографирован с газетой с таким заголовком. Причина ошибки Tribune заключается в том, что их редактор доверял результатам. Опросные исследования были тогда в зачаточном состоянии, и лишь немногие ученые осознавали, что выборка пользователей телефонов не является репрезентативной для населения в целом. Телефоны еще не получили широкого распространения, а те, у кого они были, были зажиточными и имели стабильные адреса. (Во многих городах телефонный справочник Bell System содержал те же имена, что и Социальный регистр ). Кроме того, опрос Gallup, на котором Tribune основал свой заголовок, проводился более двух недель на момент публикации.

Более недавним примером является пандемия COVID-19, где есть вариации в смещении выборки в тестировании на COVID-19, как было показано, объясняются широкие различия как в коэффициентах летальности, так и в возрастном распределении случаев в разных странах.

Статистические поправки для смещенной выборки

Если из выборки исключаются целые сегменты генеральной совокупности, то корректировки, которые могут дать оценки, репрезентативные для всей генеральной совокупности, отсутствуют. Но если некоторые группы недопредставлены и степень недопредставленности может быть определена количественно, то веса выборки могут исправить смещение. Однако успех исправления ограничен выбранной моделью выбора. Если некоторые переменные отсутствуют, методы, используемые для исправления смещения, могут быть неточными.

Например, гипотетическая совокупность может включать 10 миллионов мужчин и 10 миллионов женщин. Предположим, что необъективная выборка из 100 пациентов включала 20 мужчин и 80 женщин. Исследователь может исправить этот дисбаланс, добавив гирю 2,5 для каждого мужчины и 0,625 для каждой женщины. Это приведет к корректировке любых оценок для достижения того же ожидаемого значения, что и для выборки, включающей ровно 50 мужчин и 50 женщин, если только мужчины и женщины не различаются по вероятности участия в опросе.

См. Также

Портал математики

Ссылки

Источник

См. начало:

CFA — Выборочный метод и простая случайная выборка
CFA — Стратифицированная случайная выборка
CFA — Временные ряды и перекрестные данные
CFA — Центральная предельная теорема и распределение выборочного среднего
CFA — Точечные оценки среднего значения совокупности
CFA — Доверительные интервалы для среднего значения совокупности
CFA — Определение размера выборки для доверительного интервала
CFA — Систематическая ошибка добычи данных (дата-майнинга)

Когда исследователи рассматривают вопросы, представляющие интерес для аналитиков или портфельных менеджеров, они могут исключить из анализа определенные акции, облигации, портфели, или периоды времени, по разным причинам — возможно, из-за недоступности данных.

Когда недоступность данных приводит к исключению из анализа определенных активов, мы называем эту проблему систематической ошибкой или смещением выборки (англ. ‘sample selection bias’ или ‘sampling bias’).

Например, вы можете сделать выборку из базы данных, которая отслеживает только компании, существующие в настоящее время. Например, многие базы данных взаимных фондов предоставляют историческую информацию только о тех фондах, которые существуют в настоящее время.

Базы данных, в которых хранятся балансовые отчеты и отчеты о прибылях и убытках страдают от той же систематической ошибки, что и базы данных фондов: в них нет фондов или компаний, которые прекратили деятельность.

Исследование, которое использует подобные базы данных, подвержено разновидности систематической ошибки выборки, известной как систематическая ошибка выжившего (англ. ‘survivorship bias’).

Исследователи Димсон, Марш и Стонтон (Dimson, Marsh, and Staunton, 2002) подняли вопрос о систематической ошибке выжившего в международных финансовых индексах:

Известной проблемой является влияние выживания рынков на долгосрочную оценку доходности. Рынки могут испытывать не только разочаровывающие результаты, но и полную потерю стоимости за счет конфискации, гиперинфляции, национализации и кризисов.

При оценке результатов рынков, которые выживают в течение длительных интервалов времени, мы сделали выводы о том, чем обусловлено выживание. Тем не менее, как отметили в исследовании Браун, Готцман и Росс (Brown, Goetzmann, и Ross) в 1995 г. и Готцман и Джорион (Goetzmann and Jorion) в 1999 г., человек не способен заранее определить, какие рынки выживут, а какие нет. (стр. 41)

Систематическая ошибка выжившего иногда появляется, когда мы используем совместно цены акций и данные бухгалтерского учета.

Например, многие исследования в области финансов использовали соотношение рыночной стоимости компании к бухгалтерской стоимости компании на одну акцию (т.е. коэффициент котировки акций, англ. P/B, от ‘price-to-book ratio’ или ‘market-to-book ratio’) и обнаружили, что коэффициент P/B обратно пропорционален доходности компании (см. Fama and French 1992, 1993).

Коэффициент P/B также используется для многих популярных индексов стоимости и роста.

Если база данных, которую мы используем для сбора данных бухгалтерского учета, исключает обанкротившиеся компании, это может привести к систематической ошибке выжившего.

Котхари, Шанкен и Слоун (Kothari, Shanken, and Sloan) в 1995 г. исследовали именно этот вопрос, и оспорили то, что акциям обанкротившихся компаний свойственна самая низкая доходность и коэффициент P/B.

Если мы исключаем из выборки акции обанкротившихся компаний, то акции с низким P/B, которые включены в выборку, будут иметь в среднем более высокую доходность, по сравнению со средней доходностью при включении в выборку всех акций с низким P/B. Котхари, Шанкен и Слоун предположили, что эта систематическая ошибка привела к выводу об обратной связи между средней доходностью и P/B.

См. Fama and French (1996, стр. 80) о интеллектуальном анализе данных и систематической ошибке выжившего в их тестах.

Единственный совет, который мы можем предложить в этой ситуации, — это быть в курсе каких-либо смещений, потенциально присущих в выборке. Очевидно, что смещения выборки могут затуманить результаты любого исследования.

Выборка также может быть смещена из-за удаления (или делистинга) акций компании.

Делистинг (англ. ‘delisting’), т.е. исключение акций компании из котировального списка биржи, может происходить по разным причинам: слияние, банкротство, ликвидация, или переход на другую биржу.

Например, Центр исследований котировок ценных бумаг (CRSP, от англ. Center for Research in Security Prices) в Университете Чикаго является основным поставщиком данных о доходности, используемых в научных исследованиях. Когда происходит делистинг, CRSP пытается собрать данные о доходности исключенной компании, но во многих случаях он не может сделать этого из-за связанных с делистингом трудностях. CRSP вынужден просто указать значение доходности исключенной компании как отсутствующее.

Исследование, опубликованное в Финансовом журнале (см. The Journal of Finance) Шумвеем и Вортером (Shumway and Warther) в 1999 году, задокументировало смещение данных доходности NASDAQ в CRSP, вызванное делистингом.

Авторы показали, что делистинг, связанный с плохой работой компании (например, банкротством) исключается из данных чаще, чем делистинг, связанный с хорошей или нейтральной эффективностью компании (например, слиянием или перемещением на другой рынок). Кроме того, делистинг чаще происходит с небольшими компаниями.

Систематическая ошибка выборки встречается даже на рынках, где качество и согласованность данных весьма высоки. Новые классы активов, такие как хедж-фонды могут представлять еще большие проблемы смещения выборки.

Хедж-фонды (англ. ‘hedge funds’) представляют собой гетерогенную группу инвестиционных инструментов, как правило, организованных таким образом, чтобы быть свободными от регулирующего контроля. В целом, хедж-фонды не обязаны публично раскрывать свою эффективность (в отличие, скажем, от взаимных фондов). Хедж-фонды сами решают, нужно ли им включаться в какую-либо базу данных хедж-фондов.

Хедж фонды с плохой репутацией явно не желают, чтобы их результаты публиковались в базе данных, создавая проблему смещения самовыборки (англ. ‘self-selection bias’) в базах данных хедж-фондов.

Кроме того, как отметили Фанг и Хсие (Fung and Hsieh) в исследовании 2002 г., поскольку только хедж-фонды с хорошими показателями добровольно попадают в базу данных, в целом, историческая эффективность отрасли хедж-фондов имеет тенденцию казаться лучше, чем она есть на самом деле.

Кроме того, многие базы данных хедж-фондов исключают фонды, которые выходят из бизнеса, создавая в базе данных систематическую ошибку выжившего. Даже если база данных не удаляет несуществующие хедж-фонды, в попытке устранить ошибку выжившего, остается проблема хедж-фондов, которые перестают отчитываться об эффективности из-за плохих результатов.

См. Fung and Hsieh (2002) и Horst and Verbeek (2007) для более подробной информации о проблемах интерпретации эффективности хедж-фондов.

Обратите внимание, что систематическая ошибка также возможна, когда успешные фонды перестают отчитываться об эффективности, поскольку они больше не нуждаются в новых потоках денежных средств.

Систематическая ошибка опережения.

Процесс тестирования также подвержен систематической ошибке опережения (англ. ‘look-ahead bias’), если он использует информацию, которая не была доступна на момент тестирования.

Например, тесты правил биржевой торговли, которые используют ставки доходности фондового рынка и данные бухгалтерских балансов должны учитывать систематическую ошибку опережения.

В таких тестах, балансовая стоимость компании на акцию обычно используются для расчета коэффициента P/B.

Хотя рыночная цена акции доступна для всех участников рынка на заданный момент времени, балансовая стоимость на акцию на конец финансового года может стать общедоступной только в будущем — когда-то в следующем квартале.

Систематическая ошибка временного периода.

Тесты также подвержены систематической ошибке или смещению временного периода (англ. ‘time-period bias’), если они основаны на временном периоде, для которого результаты тестирования будут специфичными (т.е., характерными только для данного периода).

Ряды коротких временных периодов, скорее всего, дадут результаты, специфичные для определенного периода, которые могут не отражать более длительный период.

Ряды длительных временных периодов могут дать более точную картину истинной эффективности инвестиций. Недостаток длительных периодов заключается в потенциальных структурных изменениях, происходящих в течение периода, что приведет к двум различным распределениям доходности.

В этой ситуации, распределение, отражающее условия до изменений, будет отличаться от распределения, которые описывают условия после изменений.

Пример (7) систематических ошибок в инвестиционных исследованиях.

Финансовый аналитик рассматривает эмпирические данные об исторической доходности акций США.

Она выясняет, что недооцененные акции (то есть, акции с низким P/B) превзошли по эффективности растущие акции (то есть, акции с высоким P/B) в некоторых последних периодах времени.

После изучения американского рынка, аналитик задается вопросом, могут ли недооцененные акции быть привлекательными в Великобритании. Она исследует эффективность недооцененных и растущих акций на британском рынке за 14-летний период с января 2000 года по декабрь 2013 года.

Для проведения этого исследования, аналитик делает следующее:

Получает текущий состав компаний Индекса всех акций FTSE (Financial Times Stock Exchange All Share Index), который является взвешенным индексом рыночной капитализации;
Исключает несколько компаний, у которых финансовый год не заканчивается в декабре;
Использует балансовую и рыночную стоимость компаний на конец года, чтобы ранжировать остальные пространство компаний по коэффициенту P/B на конец года;
На основе этих рейтингов, она делит пространство ценных бумаг на 10 портфелей, каждый из которых содержит одинаковое количество акций;
Вычисляет равновзвешенную доходность каждого портфеля и доходность FTSE All Share Index за 12 месяцев после даты расчета каждого рейтинга; а также
Вычитает доходность FTSE из доходности каждого портфеля, чтобы получить избыточную доходность для каждого портфеля.

Опишите и обсудите каждую из следующих систематических ошибок, которым подвержен план исследований аналитика:

систематическую ошибку выжившего;
систематическую ошибку опережения; а также
систематическую ошибку временного периода.

Систематическая ошибка выжившего.

План тестирования подвержен систематической ошибке выжившего, если он не принимает в расчет обанкротившиеся компании, слившиеся компании, а также компании, иным образом покинувшие базу.

В этом примере, аналитик использовала текущий список акций FTSE, а не фактический список акций на начало каждого года. В той степени, в которой расчет доходности не учитывает компании, исключенные из индекса, эффективность портфелей с наименьшим P/B подвершена систематической ошибке выжившего и, соответственно, может быть завышена.

В какой-то момент периода тестирования, эти ныне не существующие компании, были исключены из тестирования. У них, вероятно, были низкие цены на акции (и низкий P/ B) и плохая доходность.

Систематическая ошибка опережения.

План тестирования подвержен систематической ошибке опережения, если он использует информацию, недоступную на момент тестирования.

В этом примере, аналитик провела тест, сделав допущение о том, что необходимая бухгалтерская информация была доступна в конце финансового года.

Например, аналитик предположила, что балансовая стоимость на акцию за 2 000 финансовый года был известна на 31 декабря 2000 года. Поскольку эта информация, как правило, не публикуется в течение нескольких месяцев после завершения финансового года, тест, возможно, содержал систематическую ошибку опережения.

Эта ошибка может привести к стратегии, которая окажется успешной, но при этом потребуется идеальная способность прогнозировать бухгалтерские результаты.

Систематическая ошибка временного периода.

План тестирования подвержен систематической ошибке временного периода, если он основан на периоде, для которого результаты будут специфичны.

Хотя тестирование охватывает период более 10 лет, этот период может оказаться слишком коротким для тестирования аномалии.

В идеале, аналитик должна протестировать рыночные аномалии в течение нескольких бизнес-циклов, чтобы гарантировать, что результаты не являются специфичными для рассматриваемого периода.

Эта систематическая ошибка может способствовать предлагаемой стратегии, если выбрать временной период, благоприятный для стратегии.

Источник

В этих статьях я попыталась собрать опыт своих ошибок и находок, связанных с малозаметными ловушками в исследованиях. Обычно при обучении исследованиям много внимания уделяется выбору методологии, технике сбора данных и статистической обработке, но почти никто не говорит об организационных нюансах, которые могут извратить результаты, или полностью провалить исследование. Многие из них при прочтении покажутся вам очевидными, но для того, чтобы их подметить и начать учитывать в собственном исследовании, иногда требуются годы. Я провожу лично, преподаю и руковожу исследованиями уже больше 15 лет. Часто встречаясь с бизнес-исследованиями в ИТ-компаниях и видя их изнутри, я уверилась, что эти ловушки редко принимаются в расчет даже опытными исследователями.

А значит, материал будет полезен тем, кто проводит исследование пользователей (клиентов, сотрудников, учеников) с помощью анкетных опросов, кто делает это сам, или заказывает такие исследования. Для профессиональных исследователей эта статья будет представлять меньший интерес, чем для любителей.

Возможно ли исследовать потребности пользователей в опросах?

Иногда у компании возникает необходимость получить мнение пользователя о продукте (или мнение сотрудника о компании), узнать его потребности и скрытые возражения. Обычно выбирается простое решение. Составляется анкета с, казалось бы, логичными и простыми вопросами и рассылается пользователям. Вернувшуюся часть анкет математическими методами обрабатывают и принимают за репрезентативную выборку (отражающую взгляды типичных пользователей), анализируют с помощью статистики, визуализируют и готовят отчет для принятия решений и выработки стратегии. Часто ошибочный и бесполезный отчет.

Одна из самых коварных проблем таких исследований: потребности очень сложно исследовать, но почти всегда кажется, что исследование прошло удачно.

В этой и следующих статьях я расскажу про несколько типичных ошибок в исследовании потребностей пользователей и способах, которыми можно уменьшить их влияние на результаты исследования.

Ошибка 1. Смещение выборки, или кто все эти люди и почему они вам отвечают?

Все, кто когда-либо встречался с анкетными опросами, знают, что из розданных анкет возвращается только малая часть. Иногда – меньше 10%.

Способам уменьшить это зло посвящено много публикаций. В том числе, с советами по статистическому «подгону» выборки. Строго или не строго, но вернувшуюся часть анкет часто признают адеватной выборкой из генеральной совокупности (всей совокупности пользователей, мнения которых исследователь хочет изучить) и работают с тем, что есть. Иногда эта «выборочность» и вовсе незаметна – когда, например, приглашение к опросу рассылается безадресно, и откликнувшиеся пользователи считаются выборкой.

Пример. В крупной ИТ-компании (штатом в несколько тысяч) проводилось исследование удовлетворенности сотрудников работой HR-службы. Нас пригласили помочь только на этапе обработки результатов. До этого сотрудники подразделения сами составили анкету и сами запустили опрос, рассылая работникам приглашения по корпоративной почте. Они не позаботились о мотивации участников опроса и об «административном рычаге» (почти самой важной части любого организационного исследования) и просто рассчитывали на хороший отклик сотрудников. В итоге, анкеты вернулись с 15% отдачей. На анкеты отвечали, в основном, новые или совсем неопытные работники (они еще почти не сталкивались с деятельностью этого подразделения, но анкеты заполняли охотно и, как правило, выставляли завышенные баллы). Самая главная группа – руководители отделов – была представлена всего тремя (из нескольких десятков) самыми лояльными участниками. Возможность привлечь внимание к опросу была упущена, провести опрос повторно тоже было невозможно (организаторов обвинили бы в спаме). В итоге, они выбрали изящное решение – представили руководству результаты в процентном соотношении по каждой группе сотрудников, не указывая количество участников. В отчете получилось, что руководители отделов крайне удовлетворены работой подразделения. Срок жизни такого отчета – до того момента, пока руководитель не узнает, сколько человек из каждой группы реально принимали участие в опросе. Но такие вопросы задаются редко, и организационные исследования, на которые никто из сотрудников не обращает внимания, процветают.

Разберем 3 причины смещения выборки:
1) неправильный выбор канала поиска участников,
2) отзывчивость,
3) меркантильность.

1. Неправильный выбор канала поиска участников

Почти во всех учебниках по статистике вы найдете предостережение о смещении выборки, которое появляется, если вы опрашиваете, скажем, участников только одного Интернет-форума (при условии, что контингент пользователей значительно шире), или если вы проводите опрос сотрудников, находящихся в столовой в рабочее время, или опрашиваете самую доступную вам группу пользователей (например, пришедших на презентацию нового продукта): согласуются ли их мнения с мнениями остальных пользователей, или это все-таки специфическая группа? Эти предостережения – классические советы для исследователей, их наверняка многие учитывают.

Но я хочу обратить внимание на другие опасности смещения выборки – отзывчивость и меркантильность.

2. Отзывчивые враги исследователя

Ответьте честно: когда вы в последний раз были рады заполнению анкеты? Чаще всего, наверное, соглашались из солидарности, пытаясь помочь коллеге. Так вот, ваши ответы стоит исключить из выборки, как нерелевантные (вы отвечали на вопросы, как лояльный друг, или сочувствующий коллега, а не как «наивный» пользователь). В классических маркетинговых исследованиях принято после первичного анализа выборки исключать всех представителей смежных специальностей, в том числе, всех рекламщиков и маркетологов, так как их мнение считается профессионально деформированным. Кто тогда останется?
Кто все эти люди, отвечающие на наши опросы и находящие на них время? Кто в потоке около супермаркета подходит к социологу, кто открывает двери квартиры, или заполняет анкету в Интернет-опросе? Очевидно те, кого опрос волнует лично, или те, у кого полно времени, развит мотив помощи и общения и, возможно, недостаточно других интересных занятий.

Помните, в советском фильме «Самая обаятельная и привлекательная» главная героиня хочет выйти замуж с помощью подруги-социолога, специалиста по семейным отношениям. Вместе они пытаются исследовать потенциальных женихов героини и сталкиваются с их занятостью и нежеланием отвечать на вопросы. Но находится отзывчивый сотрудник, с удовольствием отвечающий на любые вопросы – совершенно не интересный невесте и исследователю респондент. Так и в жизни: в ситуации массового опроса, вероятно, мы можем не заметить, что за многочисленными ответами отзывчивых и нерелевантных пользователей мы не получили ни одного ответа от наших целевых клиентов.

В старом исследовании J.M. Darley, C. D. Batson, 1973 было показано, что даже ученики семинарии, встречая просьбы о помощи, оказывали ее значимо реже, если были заняты и спешили (например, готовились выступить на тему о добром самаритянине).

Источник: Хекхаузен Х. Мотивация и деятельность: В 2 т. Т. 2. М: Педагогика, 1986. С. 234-248 / Darley, J. M., and Batson, C.D., «From Jerusalem to Jericho»: A study of Situational and Dispositional Variables in Helping Behavior». JPSP, 1973, 27, 100-108.

А нужны нам ответы таких отзывчивых и незанятых людей? И будут ли их ответы отражать мнение типичных пользователей о нашем продукте? Они будут хвалить продукт, желая показаться хорошими, или, наоборот, критиковать его, желая привлечь к себе внимание?

Пример. Исследуя несколько лет назад лояльность сотрудников средней по размеру компании, мы обратили внимание на подозрительно позитивные, «монотонные», ответы нескольких ее сотрудников. Они первыми прислали полностью заполненные анкеты, высказывались о компании хорошо и полно, предлагали идеи и, в общем, представляли собой просто идеальных участников опроса. У нас это вызвало подозрения, которые мы смогли прояснить во время глубинных интервью. Оказалось, что сверх-отзывчивость к опросу проявили только продавцы, чувствовавшие свое шаткое положение перед приближающимся отчетным периодом. Они же и давали исключительно положительные отзывы о компании и руководстве (если бы мы взялись анализировать средние, эти отзывы существенно сместили бы общую картину результатов исследования). Один из продавцы и во время интервью расхваливал компанию и искренне признавался, что понимает, что задолжал ей, потому что не показывал результаты в течение года. Когда мы принесли отчет с предостережением для руководства, мы узнали, что «лояльный» сотрудник опередил нас, за день до этого подав заявление об увольнении.
Если портрет вашего пользователя «человек с большим количеством свободного времени, с развитой потребностью в помощи и общении», то да, можно смело использовать результаты таких опросов. Если ваш пользователь – человек занятой и рациональный, нужно дополнительно подумать, как привлечь его к исследованию. Чуть ниже я расскажу про свои находки для такого привлечения.

3. Меркантильные враги исследователя
Вторая проблема смещения выборки и получения ошибочных данных – это участие в опросах «искателей наживы».

Проблема внешней и внутренней мотивации участников опросов тоже обсуждается часто: стоит ли платить за труд, предлагать дополнительные награды и приятные бонусы клиентам, которые ответят на вопросы анкеты? В таких спорах есть четкая позиция: не вводите внешнюю мотивацию (деньги, бесплатный доступ, подарки, отгулы и др.) до тех пор, пока возможно работать с внутренней. И дело тут не в жадности. Внешняя мотивация почти всегда необратима, ее стоит считать последним отчаянным шагом.

Но смещение выборки среди реальных пользователей или потенциальных клиентов в сторону тех, кто заинтересован в оплате своего участия, – это еще малое зло. Большее зло, крайне актуальное сейчас на рынке исследований, – это когда с целью заработка люди выдают себя за ваших реальных или потенциальных клиентов, не являясь таковыми.

Сейчас многие сервисы on-line опросов предлагают услугу доступа к панели платных респондентов. Они привлекают и оплачивают труд участников исследования разными методами и остается догадываться, насколько щепетильно они относятся к таргетингу, и насколько такой удаленный таргетинг вообще выполним.

На рисунке: скриншот одного из сайтов, приглашающих активно участвовать в разных опросах.

Сомнения в чистоте таргетинга подкрепляются параллельно развивающейся волной активности со стороны участников таких опросов, размещающих советы о том, как заработать на онлайн-опросах и повысить вероятность получения приглашения (попадания в выборку). Например, советуют при заполнении анкеты написать, что у вас средний возраст, средний или выше среднего доход, вы состоите в браке, у вас есть водительские права, ребенок, вы являетесь постоянным потребителем определенных продуктов (о каких спросят в анкете – с такими и соглашайтесь) и не являетесь представителем определенной профессии (о какой спросят в анкете – ту и отрицайте). Все эти советы помогают сойти за типичного пользователя, попасть в исследование и получить деньги за участие. Представьте, какие люди зарабатывают на таких исследованиях, и какие ответы они будут давать на ваши вопросы.

На русскоязычных сайтах искателям наживы советуют выдавать себя за средних европейцев или американцев, а дальше – отвечать, как получится, даже без знания иностранного языка. Не нашими ли безработными соотечественниками и их случайными ответами определяются продуктовые стратегии западных брендов?

Мы можем игнорировать смещение выборки только в том редком случае, если для нас совершенно не важно, о каком пользователе идет речь, и нужны, например, какие-то его психофизические показатели, свойственные каждому нормально развивающемуся человеку без учета возраста и пола, или в том случае, если мы только начали тестирование продукта, и на этом этапе нам важны совершенно любые отзывы и идеи, независимо от портрета типичного пользователя. В последнем варианте имеет смысл только сбор «сырых данных» для подготовки более основательного опроса на релевантной выборке.

Как привлечь подходящих?

Чтобы не работать с «хорошей» выборкой неподходящих респондентов, мы время от времени используем такие психологические способы привлечения релевантной выборки.

Способ 1. Нужны деловые и рациональные? Мы находим для них смысл.

Чтобы человек выделил время на заполнение анкеты, ему нужно найти в этом смысл. В таких случаях мы формулируем «легенду», приглашение к исследованию так, чтобы занятой человек, не испытывающий желания нам помогать, проникся идеей важности опроса и согласился, что на него стоит потратить время.

1. Важно для него. Иногда характер исследования позволяет подобрать мотивирующие стимулы, которые касаются лично респондента.

Пример 1. Несколько лет назад нам нужно было апробировать большой психологический опросник. По нему запрещено было сообщать результаты, пока опросник не пройдет проверку. Чтобы привлечь людей, мы присоединили к нему два авторитетных психологических теста, служивших для валидизации опросника. Каждому участнику после опроса давалась подробная индивидуальная расшифровка по этим тестам, что было для них хорошим стимулом участвовать в исследовании. Некоторым региональным участникам мы приносили распечатанные результаты или даже присылала бумажные письма, потому что у них не было e-mail. Однажды на Новый год я даже получила от одной участницы открытку с поздравлением и благодарностью за результаты.

Пример 2. Мы разрабатывали методологию и автоматизировали внутреннюю ежегодную оценку персонала в одной из компаний наших клиентов. Перед тем, как предложить методологию оценки, мы провели краткий опрос и узнали у сотрудников, что больше всего в предыдущих оценках их расстраивало отсутствие обратной связи о результатах. Им сообщался общий рейтинг, или начислялись премии, но развернутый результат никто не предлагал. Автоматизация помогла нам сделать процесс предоставления обратной связи мгновенным, развернутым и направленным на развитие каждого сотрудника.

Во-первых, после ответа на вопросы анкеты о себе и о своих сотрудниках (один из этапов оценки по принципу 360 градусов) каждый участник мог посмотреть, как его оценили сотрудники и руководство (оценки были визуализированы в паутинковой диаграмме и представляли вполне наглядные результаты) – см. рисунок.

Во-вторых, после получения итоговых баллов оценки личностных качеств сотрудник мог просмотреть расшифровку качества, узнать, что значит именно его оценка, и прочитать личные рекомендации для развития компетенций – в зависимости от полученных баллов, ему предлагались советы по поведению с сотрудниками и руководсвом, или специальные тренинги и семинары (см. рисунок).

В-третьих, после прочтения рекомендаций участник мог посмотреть, какую литературу он может прочитать для развития тех качеств, которые у него были оценены недостаточно высоко. Ссылки на литературу вели в корпоративную on-line библиотеку, где сотрудники могли оценивать прочитанные книги и оставлять комментарии (см. рисунок).

Так нам удалось вовлечь сотрудников в процесс оценки, добиться быстрого заполнения on-line анкет и существенно расцветить формальный процесс оценки.

2. Важно для общества. Когда лично респондента заинтересовать не получается, мы рассказываем в приглашении, почему возникла необходимость исследования, что угрожает обществу (природе, культуре, науке и др.) и почему важно получить ответы именно такого человека, чтобы понять, как изменить ситуацию. Конечно, такие объяснения подходят только для глобальных исследований, или социально-значимых проектов.

3. Важно для вас. Пожалуй, самый слабый аргумент. Часто эгоизм исследователей вызывает раздражение. Но бывают и удачные примеры, когда исследователь объясняет свое затруднительное положение и вызывает сочувствие.

Пример 1: Я встречала похожие призывы. Обычно они срабатывают: «Я устроился на работу своей мечты. Но могу не пройти испытательный срок, если не проведу хорошее исследование клиентов. (Пишу дипломную работу / Стараюсь выиграть грант на обучение). Я очень стараюсь, чтобы исследование получилось качественным. Только никак не могу собрать нужное количество экспертов для участия в опросе. Пожалуйста, помогите мне получить работу мечты. Вам нужно ответить всего на пару вопросов, а мне это даст огромный шанс сделать что-то стоящее».

Пример 2: Однажды меня по-настоящему подкупил звонок из известной МЛМ-компании, распространяющей косметику. Девушка начала разговор такими словами: «Мы заметили, что в последнее время репутация нашей компании стала падать, и мы решили провести опрос общественного мнения, чтобы понять, что именно не нравится нашим клиентам. Не могли бы вы помочь нам и ответить на несколько вопросов, чтобы мы смогли улучшить свою репутацию и снова радовать клиентов?» Я прониклась их проблемой, готова была подробно ответить на ее вопросы. К сожалению, после этой вводной фразы девушка снова вернулась к обычным шагам телефонных продаж, и я быстро прекратила разговор.

Способ 2. Рассказываем, к чему это приведет.

Одно из самых неприятных переживаний для человека – переживание тщетности усилий. Вероятность заполнения анкет в наших исследованиях обычно повышается, если мы объясняем участникам, как будут использованы их ответы. Иногда мы честно рассказываем, что сейчас выбираем стратегию развития продукта, и будем основывать выбор на решении клиентов. Или сообщаем, что в результате исследования будет опубликован отчет с рекомендациями для всех производителей подобных товаров. Участники исследования имеют право знать, где будут использованы результаты их работы, чтобы решить, стоит ли принимать в этом участие.

Способ 3. Угадываем «внутренний» мотив.

Какие личностные мотивы клиентов могут повлиять на заполнение анкеты? Какую радость мы можем им принести?

Приведу неполный список потребностей, которые можно учитывать в приглашениях и благодарностях для участников опросов. Мы никогда не задействуем все варианты сразу. Тип опроса и особенности целевой аудитории задают и варианты привлечения респондентов. Некоторые ходы требуют от нас дополнительных усилий, но одни из них помогают привлечь участников, а другие помогают сделать их лояльными и возвратить, когда их мнение снова нам понадобится.

Потребность в развитии и самопознании – в этом случае мы гарантируем каждому участнику отчет с результатами исследования, или ссылку на его публикацию в прессе. Если у нас есть ресурсы и участники нам очень дороги, каждому из них мы составляем сравнительный отчет: как его ответы отличались от ответов большинства других участников опроса. Аппаратно организовать это не так сложно, но эффект получается хорошим.

Пример. Однажды такой ход помог нам привлечь к исследованию директоров государственных предприятий. Их желание узнать, как их мнение отличается от мнений других директоров в отрасли, стало единственным мотиватором для участия в нашем опросе. Мы получили богатую специализированную выборку, а затратили на это всего лишь дополнительный день работы недорогого ассистента и немного бумаги для отчета каждому участнику.

Потребность во власти – в этом варианте мы подчеркиваем, что ответы участника будут специально рассматриваться при принятии решения об изменении продукта, или политики компании. И обязательно обещаем выслать отчет о таких изменениях. Самое главное в таких обещаниях – потратить дополнительные усилия, чтобы выдержать их. Так мы повышаем лояльность к продукту и обеспечиваем себе участников для следующего исследования.

Потребность в принадлежности – в этом случае можно создать сообщество тестеров/ друзей / евангелистов продукта, сделать площадку для их общения, давать им привилегии в виде эксклюзивной информации, тестового доступа, тестирования новых функций. Здесь важно выбрать признак, по которому участника можно отнести в небольшую группу подобных ему пользователей: сообщить в приглашении, что этот человек был отобран в группу самых активных (или самых молодых, столичных, владеющих минивэнами, и т.д.) пользователей продукта.

Потребность в получении новых знаний (любопытство) – с этой потребностью работать просто, если в опросе принимают участие эксперты, или фанаты продукта. Опрос можно сделать развивающим, предложить уникальное тестирование новых функций продукта, сообщать в вопросах факты о продукте, или другие важные детали, скомбинировать итоговый отчет с тематической статьей, или пообещать выслать развернутый материал по этой теме, когда закончится исследование. Здесь важно избегать смещения выборки: статья, или обещание эксклюзивного материала привлечет только экспертов в этой области. Если вам нужны мнения неопытных пользователей, нужно обещать им что-то неспециализированное и развлекательное.

Потребность в восхищении (тщеславие) – эту потребность мы задействуем, когда исследуем ограниченное число экспертов. В таких случаях мы обещаем упоминание компании участника, или его имени (если это уместно) в публикации результатов отчета, включение в клуб евангелистов, или клуб рецензентов, и др. Если участников много, мы можем потратить время на именные благодарственные письма каждому из них через несколько дней после исследования, в которых еще раз подчеркиваем, как важно было именно его участие в исследовании.

Потребность оказывать помощь – довольно сильный мотиватор, его можно применять почти во всех опросах. Когда мы его используем, мы подчеркиваем сложное положение, в котором оказались разработчики, рассказываем подробнее о затруднениях (увеличилось число отказов, пользователи недовольны продуктом, но мы не можем понять, что их не устраивает, или не знаем, как сделать лучше, и потому очень нуждаемся в совете). Здесь важно не стесняться показаться в слабой позиции. Иногда компании выдумывают затруднения, чтобы вовлечь в бесплатную работу сочувствующих пользователей. Участникам исследования приятнее чувствовать себя экспертами, чем подопытными, поэтому позиция “просящего о помощи” не ослабит вас, но привлечет более мотивированных участников.

Способ 4. Придумываем нематериальный «внешний» мотив.

Предоставление скидки, эксклюзивных условий использования продукта для пользователей, часа отгула для сотрудников, и т.д. – все еще рискованные стимулы, они могут сместить интерес от заполнения анкеты на получение награды. Нематериальной наградой станет подарок в виде ссылки на интересное видео, анекдот в конце анкеты, неожиданный сувенир.

Если нужно привлечь экспертов для получения профессиональной обратной связи, в таких случаях часто используют предоставление уникального доступа к новой версии продукта, авторы книг и приложений рассылают их бесплатные версии для тестирования и рецензий. Проводятся целые кампании по привлечению ранних тестировщиков продукта. Все это служит еще и маркетинговым целям продвижения.

Способ 5. Стараемся не заигрывать с анонимностью.

Часто я слышу жалобы от сотрудников разных компаний на проводимые внутриорганизационные опросы: «Они заверяют, что опрос анонимный, но просят прислать ответы по e-mail и спрашивают мою должность, пол и возраст! Как только я это увидел, я отказался заполнять их лживый опросник».

Пример:

Источник: pikabu

Часто эта «ложь» у организаторов исследования появляется не со зла, а от желания насытить данные, сегментировать участников и сделать исследование более детальным. Так что, лучше не обещать анонимность, если респондентов можно вычислить по ответам.

В таких случаях мы либо используем максимально защищенные способы сбора ответов (конвертные исследования, анонимный опрос по ссылке), либо обещаем только такую защиту данных, которую можем выполнить сами.

Пример: Наша компания недавно стала партнером в проведении исследования лучших работодателей в Беларуси. Наш партнер, известный Интернет-ресурс о работе в ИТ, проводит это исследование среди ИТ-компаний уже несколько лет. Они выбрали такой вариант обеспечения анонимности: в исследуемую компанию приезжают сотрудницы с коробкой конвертов. Внешне конверты одинаковые, но внутри каждого находится уникальная ссылка на on-line анкету. Конверты раздаются участникам рандомно, имена участников не фиксируются и не сопоставляются с определенными конвертами. Так удается снять тревогу участников по поводу соотнесения ответов с определенным сотрудником. Уникальные ссылки на опрос нужны для того, чтобы защитить исследование от искусственных накруток со стороны руководителей компании-участника и снять подозрения сотрудников на этот счет. Конечно, остается проблема возврата анкет (здесь можно вернуться к вопросу об отзывчивости) и проблема узкого таргетирования, за которым особенно тревожные сотрудники могут заподозрить попытки их вычислить (эта проблема увеличивается по мере уменьшения размера компании, где вычислить сотрудника по полу, возрасту и должности становится просто, и для ее снижения авторы анкеты избегают слишком точных вопросов о возрасте и должности сотрудника).

На фото: коробка с анонимными конвертами для участников исследования.

Когда добиться анонимности совсем сложно, можно гарантировать сохранение данных и доступ к ним только исследовательской команды.

Пример формулировки в приглашении: «Мы гарантируем, что ваши ответы будут анализироваться совокупно с ответами остальных участников исследования, не будут рассматриваться отдельно, разглашаться или передаваться третьим лицам, не участвующим в проведении данного исследования».

Способ 6. По возможности снимаем тревогу по поводу времени.

Анкета становится более привлекательной, если она маленькая, а в введении сразу видна информация о количестве вопросов и ожидаемом времени заполнения. Если присмотреться к анкете придирчиво и переформулировать вопросы, обычно можно сократить ее в 2 раза. И еще треть вопросов – почти всю «паспортичку» – заполнить самостоятельно (если исследование не анонимное, и вы знаете данные об участнике), или дать сразу подготовленную анкету (разделить бланки / ссылки для женщин и мужчин, разных возрастных и статусных групп, и т.д.). Все это уменьшит возражения респондентов против участия в опросе.

1. Обещаем простоту сразу во введении.
Пример: «Анкета содержит 10 простых вопросов, и ее заполнение не займет у вас больше 5 минут».

2. Если вопросы требуют перехода, и участник не видит сразу, где кончается анкета, мы показываем прогресс выполнения – это увеличивает вероятность заполнения анкеты до конца.
Пример: «Вопрос 1 из 19, Вопрос 2 из 19 и т.д.», если анкета моделируется в зависимости от предыдущих ответов, пишите в заглавии вопросов: «Часть 1 из 4, Часть 2 из 4».

3. Маленькая хитрость. Если участник уже заполнил большую часть анкеты, ему жалко потерянного времени, и он, скорее всего, пройдет анкету до конца. Поэтому, в начале анкеты мы обычно помещаем легкие вопросы, которые могут максимально завлечь участника (это вопросы о самом участнике, его вкусах, но не личные вопросы и не сложные сравнения, которые могут сразу отпугнуть).

Способ 7. Устанавливаем временные границы.

Заполнение анкеты люди часто относят «на потом» и вовсе забывают. Мы считаем удачей, если получается сразу вовлечь участников в заполнение анкеты. Это хорошо проходит в организационных исследованиях, когда есть возможность пригласить участников в отдельную комнату для исследования в рабочее время, или когда руководитель выделяет сотрудникам время для заполнения анкеты.

В on-line опросах быстрого заполнения анкеты удается добиться, когда это импульсивное участие в кратком опросе. В других случаях мы дополнительно ограничиваем время и просим прислать заполненную анкету, например, до 22:00 этого дня, или до пятницы, и т.д. Иногда, если участники достаточно лояльны, ближе к истечению срока мы присылаем напоминания.

Способ 8. Развлекаем и удерживаем внимание.

Если анкета все-таки получилась большой (больше 10 вопросов), можно добавить к некоторым вопросам картинки, видео или забавные факты. Мы стараемся чередовать сложные и простые вопросы, убираем по возможности таблицы, сравнения, сложные списки, вопросы с ранжированием: их очень любят исследователи и очень не любят респонденты.

Когда у нас есть больше ресурсов, мы стараемся сделать опрос игровым и максимально визуальным. Это уже отдельная тема геймификации опросов, здесь я приведу только пару примеров из своего опыта.

Пример 1: Сейчас мы заканчиваем проект по внедрению on-line обратной связи для крупной торговой компании. Клиентов обычно очень сложно мотивировать на предоставление обратной связи, особенно, если дело касается быстрой купли-продажи. Для вовлечения клиентов в такой опрос и удержания их лояльности, мы с помощью профессионального иллюстратора визуализировали каждое правило обслуживания клиентов в положительном и негативном ключе. Получился красочный, местами шутливый, комикс с примерами хорошего и плохого обслуживания и приглашением поставить галочку по 6-балльной шкале по каждому пункту. От картинки к картинке в комиксе начинают узнаваться персонажи, поневоле клиент начинает за ними следить, у него усиливается любопытство и ожидание следующей картинки. Это вовлекает участников и страхует нас от не до конца заполненных анкет. Кроме того, для компании это – дополнительная возможность напомнить о своих стандартах обслуживания и показать заботу о клиенте.
Официальный релиз проекта состоится уже совсем скоро, поэтому, я смогу показать примеры и рассказать о результатах внедрения только в следующих статьях.

Пример 2: В компании с автоматизированной оценкой персонала, о которой я писала выше, вопрос первичного вовлечения участников мы также решили за счет визуализации. При опросе сотрудников о том, что они хотели бы поменять в оценке, мы услышали такие мнения: «Вот в Одноклассниках мне интересно ставить оценки, там я сразу вижу, кого оцениваю». Шутка шуткой, а мы решили использовать набиравший тогда силу интерес к Одноклассникам у более взрослых сотрудников компании для вовлечения их в нашу on-line оценку. При оценивании каждого сотрудника перед участником в системе появлялась карточка с его фотографией, возможностью дать быструю, или развернутую оценку, и написать личное пожелание. Эти пожелания никак не учитывались при подведении результатов оценки, но служили для вовлечения сотрудников за счет создания дополнительного канала коммуникации.

Итак, в этой статье я рассказала, какие методы мы применяем в исследованиях, чтобы вовлечь максимально релевантных участников, и не допустить смещения выборки.

Подытожу эту часть в виде краткой памятки по составлению анкеты:
1. Определите портрет целевого респондента и подумайте, что может привлечь такого человека к участию в опросе.
2. В приглашении к исследованию, вводной и заключительной части анкеты сделайте участникам предложение, значимое для их личностных потребностей (потребности во власти, любопытстве, самопознании, принадлежности, помощи, восхищении).
3. Не используйте внешнюю мотивацию на участие в опросе, если можно использовать внутреннюю.
4. Обещайте только тот уровень анонимности, который можете обеспечить.
5. Сократите анкету, насколько это возможно. Оставьте участникам на заполнение только те поля, которые вы не можете заполнить за них.
6. Старайтесь не включать в анкету сложные задания и сравнения. Расскажите участникам про простоту анкеты во введении.
7. Задайте четкие временные рамки.
8. Продумайте развлечение для участников во время и после заполнения анкеты.

В следующих частях:

Ошибка 2. Формулировки вопросов: почему вы решили, что вас понимают?
Ошибка 3. Виды лжи в опросах: почему вы верите ответам?
Ошибка 4. Мнение не равно поведению: вы действительно спрашиваете о том, что хотите узнать?
Ошибка 5. Виды опросов: вам нужно узнать, или подтвердить?
Ошибка 6. Разделяйте и насыщайте выборку: среднее ничего не помогает понять.
Ошибка 7. Пресловутый «Net Promouter Score» – это НЕ изящное решение.

Автор: TamaraK

Источник

Источник

Что такое смещение выборки?

Систематическая ошибка выборки — это тип ошибки, вызванный выбором неслучайных данных для статистического анализа. Смещение существует из-за недостатка в процессе выбора выборки, когда подмножество данных систематически исключается из-за определенного атрибута. Исключение подмножества может повлиять на статистическую значимость теста и может привести к смещению оценок параметров статистической модели.

Понимание смещения выборки

Систематическая ошибка выживаемости — это распространенный тип ошибки при выборе выборки. Например, при тестировании инвестиционной стратегии на большой группе акций может быть удобно искать ценные бумаги, по которым есть данные за весь период выборки. Если бы мы собирались протестировать стратегию на данных по запасам за 15 лет, мы могли бы быть склонны искать акции, которые имеют полную информацию за весь 15-летний период. Однако исключение акций, которые прекратили торговаться или вскоре покинули рынок, внесет в нашу выборку данных смещение. Поскольку мы включаем только те акции, которые просуществовали 15 лет, наши окончательные результаты будут ошибочными, поскольку они показали себя достаточно хорошо, чтобы выжить на рынке.

Индексы эффективности хедж-фондов являются одним из примеров смещения выборки, обусловленного смещением выживаемости. Поскольку хедж-фонды, которые не выживают, перестают сообщать о своей деятельности агрегаторам индексов, результирующие индексы, естественно, склоняются к фондам и стратегиям, которые остаются, а значит, «выживают». Это также может быть проблемой для популярных служб отчетности паевых инвестиционных фондов.

Аналитики могут скорректироваться с учетом этих предубеждений, но могут внести новые предубеждения в процесс.

Источник

Ошибку выборочного
наблюдения называют
ошибкой репрезентативности
(представительности).

Ошибкой
репрезентативности называют
расхождение между выборочной
характеристикой и предполагаемой
характеристикой генеральной совокупности.

Ошибка
репрезентативности может возникнуть
по двум причинам:

1) из-за нарушения
научных принципов отбора (систематическая
ошибка);

2) в результате
случайности отбора (случайная
ошибка).

1) Систематическая
ошибка (ошибка смещения)
возникает как результат смещения
выборки, поскольку при нарушении научных
принципов отбора при отборе каждой
единицы допускается ошибка, всегда
направленная в одну и ту же сторону.

Ее особенность
заключается в том, что, представляя
собой постоянную часть ошибки
репрезентативности, ошибка
смещения
увеличивается
вместе с увеличением объема выборки.

Ошибки смещения
делят на преднамеренные
и
непреднамеренные.

Преднамеренные
ошибки возникают при тенденциозном
подходе к выбору единиц из генеральной
совокупности, и устранить их можно
только путем проведения повторного
отбора с обязательным соблюдением
принципа случайности.

Непреднамеренные
ошибки могут
возникать на стадии подготовки выборочного
наблюдения, формирования выборочной
совокупности и анализа ее данных.
Устранить их можно на стадии подготовки
выборочного наблюдения.

2) Случайная
ошибка
возникает в результате случайных
различий между единицами, попавшими в
выборку и единицами генеральной
совокупности, т.е. связана со случайным
отбором.

Ее особенность
состоит в том, что случайная
ошибка уменьшается с увеличением объема
выборки и ее величину можно определить.

Определение
размера случайной ошибки выборки.

При определении
размера случайной ошибки выборки
различают:

а) среднюю
(стандартную) ошибку выборки
– расхождение между средней выборочной
и генеральной совокупностей, которое
не превышает величины среднего
квадратического отклонения [()<];

б) предельная
ошибка выборки
– максимально возможное расхождение
между средней выборочной и генеральной
совокупностей при заданной вероятности
ее появления.

На основании
теоремы, доказанной П.Л. Чебышевым,
величину стандартной ошибки
собственно-случайной выборки можно
определить по формуле:

,
(1.1)

где

— дисперсия выборочной совокупности;

n —
объем выборочной совокупности.

Предельная ошибка
выборки определяется по следующей
формуле:

,
(1.2)

где t
– заданный
коэффициент доверия, величина которого
зависит от заданной вероятности.

t	1	2	3
P(t),%	68,3	95,4	99,7

Предельная ошибка
выборки позволяет определить предельные
значения характеристик генеральной
совокупности при заданной вероятности
и их доверительные интервалы:

.
(1.3)

Если при выборочном
наблюдении изучению подлежит альтернативный
признак, то случайная ошибка выборки
определяется по формуле:

.
(1.4)

Предельная ошибка
при этом определяется по формуле (1.2).

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

Источник

Содержание

Отличие от смещения выборки

Типы

Выборка на основе симптомов

Обрезать выборку в племенных исследованиях

Эффект пещерного человека

Проблемы из-за смещения выборки

Исторические примеры

Статистические поправки для смещенной выборки

См. Также

Ссылки

Систематическая ошибка опережения.

Систематическая ошибка временного периода.

Пример (7) систематических ошибок в инвестиционных исследованиях.

Систематическая ошибка выжившего.

Систематическая ошибка опережения.

Систематическая ошибка временного периода.

Что такое смещение выборки?

Понимание смещения выборки

Не пропустите эти материалы по теме: