Теория нулевой ошибки

Эта статья посвящена ошибочным результатам статистических тестов. О тесно связанных концепциях двоичной классификации и тестирования в целом см. ложные срабатывания и ложные отрицания.

В статистическая проверка гипотез, а ошибка типа I это отказ от истинного нулевая гипотеза (также известный как «ложноположительный» вывод или заключение; пример: «невиновный осужден»), а ошибка типа II — это неотверженность ложной нулевой гипотезы (также известной как «ложноотрицательный» вывод или вывод; пример: «виновный не признан виновным»).[1] Большая часть статистической теории вращается вокруг минимизации одной или обеих этих ошибок, хотя полное исключение любой из них статистически невозможно для недетерминированные алгоритмы.Путем выбора низкого порогового значения (порогового значения) и изменения уровня альфа (p) можно повысить качество проверки гипотезы.[2] Знание ошибок типа I и ошибок типа II широко используется в медицинская наука, биометрия и Информатика.

Интуитивно ошибки типа I можно рассматривать как ошибки комиссия, т.е. исследователь заключает, что что-то является фактом, хотя на самом деле это не подтверждается исследованием. Например, рассмотрим исследование, в котором исследователи сравнивают лекарство с плацебо. Если пациенты, которым вводили лекарство, выздоравливали случайно, чем пациенты, получившие плацебо, может показаться, что препарат эффективен, но на самом деле вывод неверен. И наоборот, ошибки типа II как ошибки упущение. В приведенном выше примере, если пациенты, получившие лекарство, не поправлялись быстрее, чем пациенты, получавшие плацебо, но это была случайная случайность, это будет ошибкой типа II.

Определение

Статистическая справка

В теория статистических тестов, понятие статистическая ошибка является неотъемлемой частью проверка гипотезы. Тест заключается в выборе двух конкурирующих предложений, называемых нулевая гипотеза, обозначаемый H0 и Альтернативная гипотеза, обозначаемый H1 . Это концептуально похоже на приговор в суде. Нулевая гипотеза соответствует позиции обвиняемого: так же, как он считается невиновным до тех пор, пока его вина не будет доказана, нулевая гипотеза считается верной до тех пор, пока данные не предоставят убедительные доказательства против нее. Альтернативная гипотеза соответствует позиции против подсудимого. В частности, нулевая гипотеза также предполагает отсутствие различия или отсутствие связи. Таким образом, нулевая гипотеза никогда не может заключаться в том, что существует различие или связь.

Если результат теста соответствует действительности, значит, решение принято. Однако если результат теста не соответствует действительности, значит, произошла ошибка. Есть две ситуации, в которых решение неверно. Нулевая гипотеза может быть верной, тогда как мы отвергаем H0. С другой стороны, альтернативная гипотеза H1 может быть правдой, тогда как мы не отвергаем H0. Различают два типа ошибок: ошибка типа I и ошибка типа II.[3]

Ошибка типа I

Первый вид ошибок — это отклонение истинной нулевой гипотезы в результате процедуры проверки. Этот вид ошибки называется ошибкой типа I (ложное срабатывание) и иногда называется ошибкой первого типа.

Что касается примера зала суда, ошибка типа I соответствует осуждению невиновного ответчика.

Ошибка типа II

Второй вид ошибок — это неспособность отвергнуть ложную нулевую гипотезу в результате процедуры тестирования. Этот вид ошибок называется ошибкой типа II (ложноотрицательный), а также ошибкой второго типа.

В случае с судом ошибка типа II соответствует оправданию преступника.[4]

Частота ошибок кроссовера

Коэффициент перекрестных ошибок (CER) — это точка, в которой ошибки типа I и ошибки типа II равны, и представляет собой лучший способ измерения эффективности биометрии. Система с более низким значением CER обеспечивает большую точность, чем система с более высоким значением CER.

Ложноположительный и ложноотрицательный

См. Дополнительную информацию в: Ложноположительный и ложноотрицательный

Что касается ложноположительных и ложноотрицательных результатов, положительный результат соответствует отклонению нулевой гипотезы, а отрицательный результат соответствует неспособности отклонить нулевую гипотезу; «false» означает, что сделанный вывод неверен. Таким образом, ошибка типа I эквивалентна ложноположительному результату, а ошибка типа II эквивалентна ложноотрицательному результату.

Таблица типов ошибок

Табличные отношения между истинностью / ложностью нулевой гипотезы и результатами теста:[5]

Таблица типов ошибок Нулевая гипотеза (ЧАС0) является
 
Истинный Ложь
Решение
о нуле
гипотеза (ЧАС0)
Не надо
отклонять
Правильный вывод
(истинно отрицательный)

(вероятность = 1−α)

Ошибка типа II
(ложноотрицательный)
(вероятность = β
Отклонять Ошибка типа I
(ложный положительный результат)
(вероятность = α
Правильный вывод
(истинно положительный)

(вероятность = 1−β)
 

Частота ошибок

Результаты, полученные для отрицательного образца (левая кривая), перекрываются с результатами, полученными для положительного образца (правая кривая). Перемещая значение отсечения результата (вертикальная полоса), можно уменьшить количество ложных срабатываний (FP) за счет увеличения количества ложноотрицательных результатов (FN) или наоборот.

Идеальный тест будет иметь ноль ложных срабатываний и ноль ложноотрицательных результатов. Однако статистические методы являются вероятностными, и нельзя с уверенностью сказать, верны ли статистические выводы. Всякий раз, когда есть неуверенность, есть вероятность ошибки. Учитывая такую ​​природу статистической науки, все проверки статистических гипотез имеют вероятность сделать ошибки типа I и типа II.[6]

  • Частота ошибок типа I или уровень значимости — это вероятность отклонения нулевой гипотезы при условии, что она верна. Он обозначается греческой буквой α (альфа) и также называется альфа-уровнем. Обычно уровень значимости устанавливается равным 0,05 (5%), что означает приемлемость 5% вероятности ошибочного отклонения истинной нулевой гипотезы.[7]
  • Скорость ошибки типа II обозначается греческой буквой β (бета) и связана с сила теста, что равно 1 − β.[8]

Эти два типа коэффициентов ошибок противопоставляются друг другу: для любого заданного набора выборок попытка уменьшить один тип ошибки обычно приводит к увеличению другого типа ошибки.[9]

Качество проверки гипотез

Та же идея может быть выражена в терминах скорости получения правильных результатов и, следовательно, использована для минимизации количества ошибок и повышения качества проверки гипотез. Чтобы снизить вероятность совершения ошибки типа I, сделать значение альфа (p) более строгим довольно просто и эффективно. Чтобы уменьшить вероятность совершения ошибки типа II, которая тесно связана с мощностью анализа, либо увеличение размера выборки теста, либо ослабление альфа-уровня может повысить мощность анализа.[10] Статистика теста является устойчивой, если контролируется частота появления ошибок типа I.

Можно также использовать различные пороговые значения (пороговые значения), чтобы сделать тест более специфичным или более чувствительным, что, в свою очередь, повысит качество теста. Например, представьте себе медицинский тест, в котором экспериментатор может измерить концентрацию определенного белка в образце крови. Экспериментатор может отрегулировать порог (черная вертикальная линия на рисунке), и люди будут диагностированы как больные, если будет обнаружено какое-либо число, превышающее этот определенный порог. Согласно изображению, изменение порога приведет к изменению количества ложных срабатываний и ложных отрицательных результатов, соответствующих движению по кривой.[11]

Пример

Поскольку в реальном эксперименте невозможно избежать всех ошибок типа I и типа II, поэтому важно учитывать величину риска, на который можно пойти, чтобы ложно отклонить H0 или примите H0. Решением этого вопроса было бы сообщить p-значение или же уровень значимости α статистики. Например, если мы говорим, что p-значение результата статистической проверки составляет 0,0596, тогда существует вероятность 5,96%, что мы ошибочно отклоняем H0. Или, если мы говорим, что статистика выполняется на уровне α, например 0,05, то мы позволяем ложно отклонить H0 в 5%. Обычно уровень значимости α устанавливается равным 0,05, но общего правила нет.

Измерение скорости автомобиля

Ограничение скорости на автостраде в США составляет 120 километров в час. Установлен прибор для измерения скорости проезжающих автомобилей. Предположим, что устройство будет проводить три измерения скорости проезжающего транспортного средства, записывая как случайную выборку X1, ИКС2, ИКС3. В зависимости от средней скорости дорожная полиция оштрафует водителей. {ar {X}}. То есть тестовая статистика

{displaystyle T = {frac {X_ {1} + X_ {2} + X_ {3}} {3}} = {ar {X}}}

Кроме того, мы предполагаем, что измерения X1, ИКС2, ИКС3 моделируются как нормальное распределение N (μ, 4). Затем следует N (μ, 4/3), а параметр μ представляет истинную скорость проезжающего транспортного средства. В этом эксперименте нулевая гипотеза H0 и альтернативная гипотеза H1 должно быть

ЧАС0: μ = 120 против H1: μ1>120.

Если мы выполним статистический уровень при α = 0,05, то критическое значение c следует вычислить для решения

{displaystyle P = (Zgeqslant {frac {c-120} {frac {2} {sqrt {3}}}}) = 0,05}

Согласно правилу смены единиц для нормального распределения. Ссылаясь на Z-таблица, мы можем получить

{displaystyle {frac {c-120} {frac {2} {sqrt {3}}}} = 1,645Rightarrow c = 121,9}

Здесь критическая область. То есть, если записанная скорость транспортного средства превышает критическое значение 121,9, водитель будет оштрафован. Тем не менее, 5% водителей по-прежнему подвергаются ложному штрафу, так как зарегистрированная средняя скорость превышает 121,9, но истинная скорость не превышает 120, что мы называем ошибкой типа I.

Ошибка типа II соответствует случаю, когда истинная скорость транспортного средства превышает 120 километров в час, но водитель не оштрафован. Например, если истинная скорость транспортного средства μ = 125, вероятность того, что водитель не оштрафован, можно рассчитать как

{displaystyle P = (T <121.9 | mu = 125) = P ({frac {T-125} {frac {2} {sqrt {3}}}} <{frac {121.9-125} {frac {2} { sqrt {3}}}}) = phi (-2,68) = 0,0036}

это означает, что если истинная скорость транспортного средства составляет 125, привод имеет вероятность 0,36% избежать штрафа, когда статистика выполняется на уровне 125, поскольку зарегистрированная средняя скорость ниже 121,9. Если истинная скорость ближе к 121,9, чем к 125, то вероятность избежания штрафа также будет выше.

Также следует учитывать компромисс между ошибкой типа I и ошибкой типа II. То есть в этом случае, если дорожная полиция не хочет ложно штрафовать невиновных водителей, уровень α может быть установлен на меньшее значение, например 0,01. Однако в этом случае больше водителей, чья истинная скорость превышает 120 километров в час, например 125, с большей вероятностью избежит штрафа.

Этимология

В 1928 г. Ежи Нейман (1894–1981) и Эгон Пирсон (1895–1980), оба выдающихся статистика, обсуждали проблемы, связанные с «принятием решения о том, может ли определенная выборка считаться вероятной случайно выбранной из определенной совокупности»:[12] и, как Флоренс Найтингейл Дэвид отметил, что «необходимо помнить, что прилагательное« случайный »[в термине« случайная выборка »] должно применяться к методу составления выборки, а не к самой выборке».[13]

Они определили «два источника ошибок», а именно:

(а) ошибка отклонения гипотезы, которую не следовало отвергать, и
(б) ошибка отказа отвергнуть гипотезу, которую следовало отвергнуть.

В 1930 году они подробно остановились на этих двух источниках ошибок, отметив, что:

… при проверке гипотез необходимо учитывать два соображения: мы должны иметь возможность снизить вероятность отклонения истинной гипотезы до желаемого минимального значения; тест должен быть разработан таким образом, чтобы он отклонял проверяемую гипотезу, когда она, вероятно, окажется ложной.

В 1933 году они заметили, что эти «проблемы редко представлены в такой форме, что мы можем с уверенностью отличить истинную гипотезу от ложной». Они также отметили, что при принятии решения о том, не отклонить или отклонить конкретную гипотезу среди «набора альтернативных гипотез», H1, H2…, ошибиться было легко:

… [и] эти ошибки будут двух видов:

(I) мы отвергаем H0 [т.е. гипотеза, которую нужно проверить], когда она верна,[14]
(II) мы не можем отказаться от H0 когда некоторая альтернативная гипотеза HА или H1 правда. (Есть разные обозначения для альтернативы).

Во всех статьях, написанных совместно Нейманом и Пирсоном, выражение H0 всегда означает «гипотезу для проверки».

В той же статье они называют эти два источника ошибок: ошибки типа I и ошибки типа II соответственно.[15]

Нулевая гипотеза

Статистики обычно проводят тесты чтобы определить, является ли «спекулятивный гипотеза «относительно наблюдаемых явлений мира (или его обитателей) могут быть поддержаны. Результаты такого тестирования определяют, согласуется ли конкретный набор результатов разумно (или не согласуется) с предполагаемой гипотезой.

Исходя из того, что это всегда предполагается, статистическая конвенция, что выдвинутая гипотеза неверна, и так называемая «нулевая гипотеза«что наблюдаемые явления просто происходят случайно (и что, как следствие, предполагаемый агент не имеет никакого эффекта) — тест определит, верна эта гипотеза или нет. Вот почему проверяемая гипотеза часто называется нулевой гипотезой. (скорее всего, придуман Фишером (1935, с. 19)), потому что это это гипотеза, которая должна быть либо аннулированный или же не аннулирован по тесту. Когда нулевая гипотеза аннулируется, можно сделать вывод, что данные подтверждают «Альтернативная гипотеза«(что является первоначальным предположением).

Последовательное применение статистиками конвенции Неймана и Пирсона о представлении «гипотеза для проверки» (или же «гипотеза должна быть аннулирована«) с выражением ЧАС0 привело к обстоятельствам, когда многие понимают термин «нулевая гипотеза«как значение»то ноль гипотеза«- заявление о том, что рассматриваемые результаты возникли случайно. Это не обязательно так — ключевое ограничение, согласно Фишеру (1966), заключается в том, что»нулевая гипотеза должна быть точной, свободной от расплывчатости и двусмысленности, поскольку она должна служить основой «проблемы распределения», решением которой является проверка значимости.«[16] Как следствие этого, в экспериментальной науке нулевая гипотеза обычно является утверждением, что конкретное лечение имеет нет эффекта; в науке о наблюдениях это то, что нет разницы между значением конкретной измеряемой переменной и значением экспериментального предсказания.

Статистическая значимость

Если вероятность получения такого же экстремального результата, как полученный, при условии, что нулевая гипотеза верна, ниже, чем заранее заданная вероятность отсечения (например, 5%), то результат считается равным статистически значимый и нулевая гипотеза отклоняется.

Британский статистик Сэр Рональд Эйлмер Фишер (1890–1962) подчеркнул, что «нулевая гипотеза»:

… никогда не доказывается и не устанавливается, но, возможно, опровергается в ходе экспериментов. Можно сказать, что каждый эксперимент существует только для того, чтобы дать фактам шанс опровергнуть нулевую гипотезу.

— Фишер, 1935, стр.19.

Домены приложений

Лекарство

В практике медицины различия между применениями скрининг и тестирование значительны.

Медицинский осмотр

Скрининг включает относительно дешевые тесты, которые проводятся среди больших групп населения, ни у одного из которых нет клинических признаков заболевания (например, Пап-мазки ).

Тестирование включает в себя гораздо более дорогие, часто инвазивные процедуры, которые назначаются только тем, у кого есть некоторые клинические признаки заболевания, и чаще всего применяются для подтверждения подозреваемого диагноза.

Например, в большинстве штатов США требуется обследование новорожденных на предмет: фенилкетонурия и гипотиреоз, среди прочего врожденные нарушения.

Гипотеза: «У новорожденных фенилкетонурия и гипотиреоз».

Нулевая гипотеза (H0): «У новорожденных нет фенилкетонурии и гипотиреоза»,

Ошибка I типа (ложноположительный результат). Верный факт заключается в том, что у новорожденных нет фенилкетонурии и гипотиреоза, но мы считаем, что у них есть нарушения в соответствии с данными.

Ошибка II типа (ложноотрицательный): Верный факт, что у новорожденных фенилкетонурия и гипотиреоз, но мы считаем, что у них нет нарушений согласно данным.

Несмотря на то, что они показывают высокий уровень ложноположительных результатов, скрининговые тесты считаются ценными, поскольку они значительно увеличивают вероятность выявления этих нарушений на гораздо более ранней стадии.

Простой анализы крови используется для скрининга возможно доноры крови за ВИЧ и гепатит иметь значительный процент ложных срабатываний; однако врачи используют гораздо более дорогие и гораздо более точные тесты, чтобы определить, действительно ли человек инфицирован каким-либо из этих вирусов.

Возможно, наиболее широко обсуждаемые ложноположительные результаты медицинского обследования связаны с процедурой скрининга на рак груди. маммография. Уровень ложноположительных результатов маммографии в США достигает 15%, это самый высокий показатель в мире. Одним из следствий высокого уровня ложноположительных результатов в США является то, что в течение любого 10-летнего периода половина обследованных американских женщин получает ложноположительную маммографию. Ложноположительные маммограммы обходятся дорого: в США ежегодно тратится более 100 миллионов долларов на последующее тестирование и лечение. Они также вызывают у женщин ненужное беспокойство. В результате высокого уровня ложноположительных результатов в США до 90–95% женщин, получивших положительную маммограмму, не страдают этим заболеванием. Самый низкий показатель в мире — в Нидерландах — 1%. Самые низкие показатели обычно в Северной Европе, где маммографические пленки читают дважды и устанавливают высокий порог для дополнительного тестирования (высокий порог снижает мощность теста).

Идеальный скрининговый тест для населения был бы дешевым, простым в применении и по возможности давал бы нулевые ложноотрицательные результаты. Такие тесты обычно дают больше ложноположительных результатов, которые впоследствии могут быть устранены более сложным (и дорогостоящим) тестированием.

Медицинское обследование

Ложноотрицательные и ложные срабатывания являются серьезными проблемами в медицинское обследование.

Гипотеза: «У пациентов конкретное заболевание».

Нулевая гипотеза (H0): «У пациентов нет конкретного заболевания».

Ошибка типа I (ложноположительный результат): «Истинный факт заключается в том, что пациенты не страдают каким-либо конкретным заболеванием, но врачи судят, что пациенты были больны, согласно протоколам испытаний».

Ложные срабатывания могут также вызывать серьезные и противоречащие интуиции проблемы, когда ищущееся заболевание встречается редко, как при скрининге. Если показатель ложноположительных результатов теста составляет один из десяти тысяч, но только один из миллиона образцов (или людей) является истинно положительным, большинство положительных результатов, обнаруженных этим тестом, будут ложными. Вероятность того, что наблюдаемый положительный результат является ложноположительным, можно рассчитать с помощью Теорема Байеса.

Ошибка типа II (ложноотрицательный): «Истинный факт состоит в том, что болезнь действительно присутствует, но отчеты об испытаниях дают ложно обнадеживающее сообщение для пациентов и врачей о том, что болезнь отсутствует».

Ложноотрицательные результаты приводят к серьезным и нелогичным проблемам, особенно когда искомое состояние является обычным явлением. Если тест с ложноотрицательной частотой всего 10% используется для тестирования популяции с истинной частотой встречаемости 70%, многие из отрицательных результатов, обнаруженных тестом, будут ложными.

Иногда это приводит к ненадлежащему или неадекватному лечению как пациента, так и его болезни. Распространенный пример — использование кардиологических стресс-тестов для выявления коронарного атеросклероза, хотя сердечное напряжение известно, что тесты обнаруживают только ограничения Коронарная артерия кровоток из-за расширенного стеноз.

Биометрия

Биометрическое сопоставление, например, для распознавание отпечатков пальцев, распознавание лиц или же распознавание радужной оболочки глаза, подвержен ошибкам типа I и типа II.

Гипотеза: «Входные данные не идентифицируют кого-то в списке искомых людей»

Нулевая гипотеза: «Входные данные действительно идентифицируют кого-то в списке искомых людей»

Ошибка типа I (ложное отклонение): «Истинный факт состоит в том, что человек входит в список найденных, но система приходит к выводу, что это лицо не соответствует данным».

Ошибка типа II (коэффициент ложного совпадения): «Истинный факт заключается в том, что человек не входит в список поиска, но система приходит к выводу, что это человек, которого мы ищем в соответствии с данными».

Вероятность ошибок типа I называется «коэффициентом ложного отклонения» (FRR) или коэффициентом ложного несоответствия (FNMR), а вероятность ошибок типа II называется «коэффициентом ложного принятия» (FAR) или коэффициентом ложного совпадения FMR).

Если система разработана таким образом, чтобы редко сопоставлять подозреваемых, то вероятность ошибок типа II можно назвать «ложная тревога скорость ». С другой стороны, если система используется для проверки (и принятие является нормой), то FAR является мерой безопасности системы, а FRR — уровнем неудобства пользователя.

Проверка безопасности

Основные статьи: обнаружение взрывчатых веществ и металлоискатель

Ложные срабатывания обычно обнаруживаются каждый день в проверка безопасности в аэропорту, которые в конечном итоге визуальный осмотр системы. Установленная охранная сигнализация предназначена для предотвращения попадания оружия на самолет; тем не менее, они часто настроены на такую ​​высокую чувствительность, что они тревожатся много раз в день о незначительных предметах, таких как ключи, пряжки ремня, мелочь, мобильные телефоны и гвоздики на обуви.

Здесь гипотеза: «Предмет — это оружие».

Нулевая гипотеза: «Предмет не является оружием».

Ошибка типа I (ложное срабатывание): «Истинный факт заключается в том, что предмет не является оружием, но система по-прежнему подает сигнал тревоги».

Ошибка типа II (ложноотрицательный) «Истинный факт заключается в том, что предмет является оружием, но в настоящее время система хранит молчание».

Соотношение ложных срабатываний (идентификация невинного путешественника как террориста) к истинным срабатываниям (обнаружение потенциального террориста) очень велико; и поскольку почти каждый сигнал тревоги является ложным срабатыванием, положительная прогностическая ценность этих скрининговых тестов очень мало.

Относительная стоимость ложных результатов определяет вероятность того, что создатели тестов допустят эти события. Поскольку стоимость ложноотрицательного результата в этом сценарии чрезвычайно высока (не обнаружение бомбы, которая была принесена в самолет, может привести к сотням смертей), в то время как стоимость ложного срабатывания относительно невысока (достаточно простая дополнительная проверка), наиболее подходящий тест — это тест с низкой статистической специфичностью, но с высокой статистической чувствительностью (тот, который допускает высокий уровень ложноположительных результатов в обмен на минимальное количество ложноотрицательных результатов).

Компьютеры

Представления о ложных срабатываниях и ложных отрицаниях получили широкое распространение в сфере компьютеров и компьютерных приложений, включая компьютерная безопасность, фильтрация спама, Вредоносное ПО, Оптическое распознавание символов и много других.

Например, в случае фильтрации спама гипотеза состоит в том, что сообщение является спамом.

Таким образом, нулевая гипотеза: «Сообщение не является спамом».

Ошибка типа I (ложное срабатывание): «Методы фильтрации спама или блокировки спама ошибочно классифицируют законное сообщение электронной почты как спам и, как следствие, препятствуют его доставке».

Хотя большинство тактик защиты от спама могут блокировать или фильтровать большой процент нежелательных писем, сделать это без значительных ложноположительных результатов — гораздо более сложная задача.

Ошибка типа II (ложноотрицательный): «Спам не определяется как спам, но классифицируется как не спам». Низкое количество ложноотрицательных результатов — показатель эффективности фильтрации спама.

Смотрите также

  • Бинарная классификация
  • Теория обнаружения
  • Эгон Пирсон
  • Этика в математике
  • Ложноположительный парадокс
  • Уровень ошибок в семье
  • Показатели эффективности поиска информации
  • Лемма Неймана – Пирсона.
  • Нулевая гипотеза
  • Вероятность гипотезы для байесовского вывода
  • Точность и отзыв
  • Ошибка прокурора
  • Феномен прозоны
  • Рабочая характеристика приемника
  • Чувствительность и специфичность
  • Перекрестные ссылки статистиков и инженеров статистических терминов
  • Проверка гипотез на основе данных
  • Ошибка III типа

Рекомендации

  1. ^ «Ошибка типа I и ошибка типа II». explorable.com. Получено 14 декабря 2019.
  2. ^ Чоу, Ю. В .; Pietranico, R .; Мукерджи, А. (27 октября 1975 г.). «Исследования энергии связи кислорода с молекулой гемоглобина». Сообщения о биохимических и биофизических исследованиях. 66 (4): 1424–1431. Дои:10.1016 / 0006-291x (75) 90518-5. ISSN  0006-291X. PMID  6.
  3. ^ Современное введение в вероятность и статистику: понимание, почему и как. Деккинг, Мишель, 1946-. Лондон: Спрингер. 2005 г. ISBN  978-1-85233-896-1. OCLC  262680588.CS1 maint: другие (связь)
  4. ^ Современное введение в вероятность и статистику: понимание, почему и как. Деккинг, Мишель, 1946-. Лондон: Спрингер. 2005 г. ISBN  978-1-85233-896-1. OCLC  262680588.CS1 maint: другие (связь)
  5. ^ Шескин, Дэвид (2004). Справочник по параметрическим и непараметрическим статистическим процедурам. CRC Press. п.54. ISBN  1584884401.
  6. ^ Smith, R.J .; Брайант, Р. Г. (27 октября 1975 г.). «Замещения металлов в карбоновой ангидразе: исследование зонда галогенидных ионов». Сообщения о биохимических и биофизических исследованиях. 66 (4): 1281–1286. Дои:10.1016 / 0006-291x (75) 90498-2. ISSN  0006-291X. PMID  3.
  7. ^ Линденмайер, Дэвид. (2005). Практическая биология сохранения. Бургман, Марк А. Коллингвуд, Vic: CSIRO Pub. ISBN  0-643-09310-9. OCLC  65216357.
  8. ^ Чоу, Ю. В .; Pietranico, R .; Мукерджи, А. (27 октября 1975 г.). «Исследования энергии связи кислорода с молекулой гемоглобина». Сообщения о биохимических и биофизических исследованиях. 66 (4): 1424–1431. Дои:10.1016 / 0006-291x (75) 90518-5. ISSN  0006-291X. PMID  6.
  9. ^ Smith, R.J .; Брайант, Р. Г. (27 октября 1975 г.). «Замещения металлов в карбоновой ангидразе: исследование зонда галогенидных ионов». Сообщения о биохимических и биофизических исследованиях. 66 (4): 1281–1286. Дои:10.1016 / 0006-291x (75) 90498-2. ISSN  0006-291X. PMID  3.
  10. ^ Smith, R.J .; Брайант, Р. Г. (27 октября 1975 г.). «Замещения металлов в карбоновой ангидразе: исследование зонда галогенидных ионов». Сообщения о биохимических и биофизических исследованиях. 66 (4): 1281–1286. Дои:10.1016 / 0006-291x (75) 90498-2. ISSN  0006-291X. PMID  3.
  11. ^ Морой, К .; Сато, Т. (15 августа 1975 г.). «Сравнение метаболизма прокаина и изокарбоксазида in vitro с помощью микросомальной амидазы-эстеразы печени». Биохимическая фармакология. 24 (16): 1517–1521. Дои:10.1016/0006-2952(75)90029-5. ISSN  1873-2968. PMID  8.
  12. ^ NEYMAN, J .; ПИРСОН, Э. С. (1928). «Об использовании и интерпретации определенных критериев тестирования для целей статистического вывода, часть I». Биометрика. 20А (1–2): 175–240. Дои:10.1093 / biomet / 20a.1-2.175. ISSN  0006-3444.
  13. ^ C.I.K.F. (Июль 1951 г.). «Теория вероятностей для статистических методов. Ф. Н. Дэвид. [Стр. Ix + 230. Cambridge University Press. 1949. Цена 155.]». Журнал актуарного общества Staple Inn. 10 (3): 243–244. Дои:10,1017 / с0020269×00004564. ISSN  0020-269X.
  14. ^ Обратите внимание, что нижний индекс в выражении ЧАС0 это ноль (указывающий ноль) и не является «O» (что означает оригинал).
  15. ^ Neyman, J .; Пирсон, Э. С. (30 октября 1933 г.). «Проверка статистических гипотез относительно априорных вероятностей». Математические труды Кембриджского философского общества. 29 (4): 492–510. Bibcode:1933PCPS … 29..492N. Дои:10,1017 / с030500410001152x. ISSN  0305-0041.
  16. ^ Фишер, Р.А. (1966). Дизайн экспериментов. 8-е издание. Хафнер: Эдинбург.

Библиография

  • Бец, М.А. и Габриэль, К., «Ошибки IV типа и анализ простых эффектов», Журнал образовательной статистики, Том 3, № 2, (лето 1978 г.), стр. 121–144.
  • Дэвид, Ф.Н., «Степенная функция для тестов на случайность в последовательности альтернатив», Биометрика, Vol.34, Nos.3 / 4, (декабрь 1947), стр. 335–339.
  • Фишер, Р.А., План экспериментов, Оливер и Бойд (Эдинбург), 1935 г.
  • Гэмбрилл, У., «Ложные срабатывания тестов на заболевания новорожденных беспокоят родителей», День здоровья, (5 июня 2006 г.). [1]
  • Кайзер, Х.Ф., «Направленные статистические решения», Психологический обзор, Vol.67, No. 3, (May 1960), pp. 160–167.
  • Кимбалл, A.W., «Ошибки третьего рода в статистическом консультировании», Журнал Американской статистической ассоциации, Том 52, № 278, (июнь 1957 г.), стр. 133–142.
  • Любин, А., «Интерпретация значимого взаимодействия», Образовательные и психологические измерения, Том 21, № 4, (зима 1961 г.), стр. 807–817.
  • Мараскуило, Л.А., Левин, Дж. Р., «Соответствующие постфактуальные сравнения для взаимодействия и вложенных гипотез в анализе вариационных схем: устранение ошибок типа IV», Американский журнал исследований в области образования, Том 7., №3, (май 1970 г.), стр. 397–421.
  • Митрофф, И. И Фезерингем, T.R., «О решении системных проблем и ошибках третьего рода», Поведенческая наука, Vol.19, No. 6, (ноябрь 1974 г.), стр. 383–393.
  • Мостеллер, Ф., «А k— Образец теста на проскальзывание для экстремальной популяции », Анналы математической статистики, Том 19, № 1, (март 1948 г.), стр. 58–65.
  • Моултон, Р.Т., «Сетевая безопасность», Датамация, Vol.29, No. 7, (июль 1983 г.), стр. 121–127.
  • Райффа, Х., Анализ решений: вводные лекции о выборе в условиях неопределенности, Эддисон – Уэсли, (чтение), 1968.

внешняя ссылка

  • Предвзятость и смешение — презентация Найджела Панета, Высшая школа общественного здравоохранения, Университет Питтсбурга.

Статистика — сложная наука об измерении и анализе различных данных. Как и во многих других дисциплинах, в этой отрасли существует понятие гипотезы. Так, гипотеза в статистике — это какое-либо положение, которое нужно принять или отвергнуть. Причём в данной отрасли есть несколько видов таких допущений, схожих между собой по определению, но отличающихся на практике. Нулевая гипотеза — сегодняшний предмет изучения.

От общего к частному: гипотезы в статистике

От основного определения предположений отходит ещё одно, не менее важное, — статистическая гипотеза есть изучение генеральной совокупности важных для науки объектов, относительно коих учёными делаются выводы. Ее можно проверить с помощью выборки (части генеральной совокупности). Приведём несколько примеров статистических гипотез:

нулевая гипотеза1. Успеваемость всего класса, возможно, зависит от уровня образования каждого учащегося.

2. Начальный курс математики в равной степени усваивается как детьми, пришедшими в школу в 6 лет, так и детьми, пришедшими в 7.

Простой гипотезой в статистике называют такое предположение, которое однозначно характеризует определённый параметр величины, взятой учёным.

Сложная состоит из нескольких или бесконечного множества простых. Указывается некоторая область или нет точного ответа.

Полезно понимать несколько определений гипотез в статистике, чтобы не путать их на практике.

Концепция нулевой гипотезы

Нулевая гипотеза — это теория о том, что есть некие две совокупности, которые не различаются между собой. Однако на научном уровне нет понятия «не различаются», но есть «их сходство равно нулю». От этого определения и было образовано понятие. В статистике нулевая гипотеза обозначается как Н0. Причём крайним значением невозможного (маловероятного) считается от 0.01 до 0.05 или менее.

Лучше разобрать, что такое нулевая гипотеза, пример из жизни поможет. Педагог в университете предположил, что различный уровень подготовки учащихся двух групп к зачётной работе вызван незначительными параметрами, случайными причинами, не влияющими на общий уровень образования (разница в подготовке двух групп студентов равна нулю).

Однако встречно стоит привести пример альтернативной гипотезы — допущения, опровергающего утверждение нулевой теории (Н1). Например: директор университета предположил, что различный уровень в подготовке к зачётной работе у учащихся двух групп вызван применением педагогами разных методик обучения (разница в подготовке двух групп существенна и на то есть объяснение).

нулевая гипотеза примерТеперь сразу видна разница между понятиями «нулевая гипотеза» и «альтернативная гипотеза». Примеры иллюстрируют эти понятия.

Проверка нулевой гипотезы

Создать предположение — это ещё полбеды. Настоящей проблемой для новичков считается проверка нулевой гипотезы. Именно тут многих и ожидают трудности.

Используя метод альтернативной гипотезы, утверждающей нечто обратное нулевой теории, можно сравнить оба варианта и выбрать верный. Так действует статистика.

Пусть нулевая гипотеза Н0, а альтернативная Н1, тогда:

Н0: c = c0;
Н1: c ≠ c0.

Здесь c — это некое среднее значение генеральной совокупности, которое предстоит найти, а c0 — данное изначально значение, по отношению к которому проверяется гипотеза. Также есть некоторое число Х — среднее значение выборки, по которому определяется c0.

Итак, проверка заключается в сравнении Х и c0, если Х=c0 ,то принимается нулевая гипотеза. Если же Х≠c0, то по условию верной считается альтернативная.

«Доверительный» способ проверки

Существует наиболее действенный способ, с помощью которого нулевая статистическая гипотеза легко проверяется на практике. Он заключается в построении диапазона значений до 95% точности.

Для начала понадобится знать формулу расчёта доверительного интервала:
X — t*Sx ≤ c ≤ X + t*Sx,

где Х — данное изначально число на основе альтернативной гипотезы;
t — табличные величины (коэффициент Стьюдента);
Sx — стандартная средняя ошибка, которая рассчитывается как Sx = σ/√n, где в числителе стандартное отклонение, а в знаменателе — объём выборки.

Итак, предположим ситуацию. До ремонта конвейер в день выпускал 32.1 кг конечной продукции, а после ремонта, как утверждает предприниматель, коэффициент полезного действия вырос, и конвейер, по недельной проверке, начал выпускать 39.6 кг в среднем.

нулевая гипотеза в статистикеНулевая гипотеза будет утверждать, что ремонт никак не повлиял на КПД конвейера. Альтернативная гипотеза скажет, что ремонт коренным образом изменил КПД конвейера, поэтому производительность его повысилась.

По таблице находим n=7, t = 2,447, откуда формула примет следующий вид:

39,6 – 2,447*4,2 ≤ с ≤ 39,6 + 2,447*4,2;

29,3 ≤ с ≤ 49,9.

Получается, что значение 32.1 входит в диапазон, а следовательно, значение, предложенное альтернативой — 39.6 — не принимается автоматически. Помните, что сначала проверяется на правильность нулевая гипотеза, а потом — противоположная.

Разновидности отрицания

До этого рассматривался такой вариант построения гипотезы, где Н0 утверждает что-либо, а Н1 это опровергает. Откуда можно было составить подобную систему:

Н0: с = с0;
Н1: с ≠ с0.

Но существует ещё два родственных способа опровержения. К примеру, нулевая гипотеза утверждает, что средняя оценка успеваемости класса больше 4.54, а альтернативная тогда скажет, что средняя успеваемость того же класса менее 4.54. И выглядеть в виде системы это будет так:

Н0: с ⩾ 4.54;
Н1: с < 4.54.

Обратите внимание, что нулевая гипотеза утверждает, что значение больше или равно, а статистическая — что строго меньше. Строгость знака неравенства имеет большое значение!

Статистическая проверка

Статистическая проверка нулевых гипотез заключается в использовании статистического критерия. Такие критерии подчиняются различным законам распределения.

статистическая проверка нулевых гипотезК примеру, существует F-критерий, который рассчитывается по распределению Фишера. Есть T-критерий, чаще всего используемый на практике, зависящий от распределения Стьюдента. Квадратный критерий согласия Пирсона и т. д.

Область принятия нулевой гипотезы

В алгебре есть понятие «область допустимых значений». Это такой отрезок или точка на оси Х, на котором находится множество значений статистики, при которых нулевая гипотеза верна. Крайние точки отрезка — критические значения. Лучи по правую и левую сторону отрезка — критические области. Если найденное значение входит в них, то нулевая теория опровергается и принимается альтернативная.

Опровержение нулевой гипотезы

Нулевая гипотеза в статистике временами очень изворотливое понятие. Во время проверки её можно допустить ошибки двух типов:

статистика нулевая гипотеза1. Отвержение верной нулевой гипотезы. Обозначим первый тип как а=1.
2. Принятие ложной нулевой гипотезы. Второй тип обозначим как а=2.

Стоит понимать, что это не одинаковые параметры, исходы ошибок могут существенно различаться между собой и иметь разные выборки.

Пример ошибок двух типов

Со сложными понятиями легче разобраться на примере.

Во время производства некоего лекарства от учёных требуется чрезвычайная осторожность, так как превышение дозы одного из компонентов провоцирует высокий уровень токсичности готового препарата, от которого пациенты, принимающие его, могут умереть. Однако на химическом уровне выявить передозировку невозможно.
Из-за этого перед тем как выпустить лекарство в продажу, небольшую его дозу проверяют на крысах или кроликах, вводя им препарат. Если большая часть испытуемых умирает, то лекарство в продажу не допускается, если подопытные живы, то лекарство разрешают продавать в аптеках.

проверка нулевой гипотезыПервый случай: на самом деле лекарство было не токсично, но во время эксперимента была допущена оплошность и препарат классифицировали как токсичный и не допустили в продажу. А=1.

Второй случай: в ходе другого эксперимента при проверке другой партии лекарства решено, что препарат не токсичен, и в продажу его допустили, хотя на самом деле препарат был ядовит. А=2.

Первый вариант повлечёт за собой крупные финансовые затраты поставщика-предпринимателя, так как придётся уничтожить всю партию лекарства и начинать с нуля.

Вторая ситуация спровоцирует смерть пациентов, купивших и употреблявших это лекарство.

Теория вероятности

Не только нулевые, но все гипотезы в статистике и экономике разделяют по уровню значимости.

Уровень значимости — процент появления ошибок первого рода (отклонение верной нулевой гипотезы).

• первый уровень — 5% или 0.05, т. е. вероятность ошибиться 5 к 100 или 1 к 20.
• второй уровень — 1% или 0.01, т. е. вероятность 1 к 100.
• третий уровень — 0.1% или 0.001, вероятность 1 к 1000.

Критерии проверки гипотезы

Если учёным уже был сделан вывод о правильности нулевой гипотезы, то её необходимо подвергнуть проверке. Это необходимо, чтобы исключить ошибку. Существует основной критерий проверки нулевой гипотезы, состоящий из нескольких этапов:

1. Берётся допустимая ошибочная вероятность P=0.05.
2. Подбирается статистика для критерия 1.
3. По известному методу находится область допустимых значений.
4. Теперь вычисляется значение статистики Т.
5. Если Т (статистика) принадлежит области принятия нулевой гипотезы (как в «доверительном» методе), то предположения считаются верными, а значит, и сама нулевая гипотеза остаётся верной.

критерий проверки нулевых гипотез

Именно так действует статистика. Нулевая гипотеза при грамотной проверке будет принята или отвергнута.

Стоит заметить, что для обычных предпринимателей и пользователей первые три этапа бывает очень сложно выполнить безошибочно, поэтому их доверяют профессиональным математикам. Зато 4 и 5 этапы может выполнить любой человек, в достаточной мере знающий статистические методы проверки.

 Принцип нулевой ошибки

Сегодня расскажу о таком методе, как Poka-yoke (принцип нулевой ошибки или «защита от дурака»).  Poka-yoke расшифровывается, как: poka-случайная, непреднамеренная ошибка; yoka- избежание, сокращение количества ошибок. Этот метод позволяет сделать работу только одним правильным способом.  

В ходе работы все исключительные ситуации (перестановка, перепутывание, неправильное считывание, незнание) должны быть разобраны и не замолчаны. Метод предполагает, что требуется найти не виновного, а базовую причину.

Причины дефектов расследуются путем разделения следующих понятий: причина – промах и заблуждение – сотрудник – действие – дефект. Так определяется механизм предотвращения ошибок, основными моментами которого являются:

  • создание предпосылок для бездефектной работы,
  • внедрение методов бездефектной работы,
  • систематическое устранение возникших ошибок,
  • принятие мер предосторожности и внедрение простых технических систем, позволяющих сотрудникам предотвратить совершение промаха.

Применение метода Poka Yoke

  • При определение ошибок в области входного контроля– в таком случае дефект выявится до того, как будут совершены те или иные операции.
  • При контроле завершенного процесса.
  • При проверке в ходе выполнения процесса самим работником.
  • При передаче изделия на последующие процессы.
  • Для предотвращения ошибок необходимо отнести проверку качества в структуру выполняемых процессов в качестве их рабочего этапа. 

Сегодня для предотвращения ошибочных действий применяются жесткие и мягкие мероприятия. К жестким относятся: установка проверок при выполнении задач, блокирование пользователя. Часто применяются более мягкие мероприятия, как например, использование окрашивания разными цветами, свечение, сигналы, указания.

Выдвинутый доктором Схинго производственный принцип нулевой ошибки базируется на 3 компонентах:

  • Анализ причины: Проверка и нахождение возможных ошибочных действий происходит не только после завершения процесса. Распознанные ошибочные действия могут предотвращаться так еще в ходе их возникновения, прежде чем их результатом станет изготовление брака. Вследствие этого возможно полное предотвращение дефектов.
  • 100%-й контроль: с помощью простых и эффективных устройств ошибочные действия обнаруживаются еще в текущей стадии процесса. Благодаря простоте и экономичности устройств возможно не только выборочная проверка, но и каждая отдельной детаи.
  • Немедленные меры по исправлению: возможно очень короткое время реакции от обнаружения ошибки до введения необходимого корректирующего мероприятия.

👆От теории к практике. Давайте вспомним типовые ситуации на складе и как мы пытаемся минимизировать ошибки:

№1 Процесс размещения товара

Сотрудник может размещать товар без сканирования этикетки ячейки. Сотруднику не требуется выдавать терминал, сотрудник не тратит время на сканирование.

👀Poka-yoke: сотрудник должен обязательно сканировать ячейку или вводить контрольный номер ячейки. Потому что, если не заставлять подтверждать сканированием ячейку склада, то сотрудник предпочтет размещать товары в близлежащие ячейки, чтобы не тратить время на перемещение по складу.

№2 Процесс размещения товара

Сотрудник в ходе размещения товара производит сканирование ячейки размещения. Но, иногда, сотрудник может набрать в ручном режиме ячейку склада и физически поставить товар в произвольную ячейку.

👀Poka-yoke: запретить возможность ручного ввода адреса ячейки. Все действия только через сканирование ячейки.

Poka-yoke всем в работу склада! 

Эта статья посвящена ошибочным результатам статистических тестов. Чтобы узнать о тесно связанных концепциях двоичной классификации и тестирования в целом, см. Ложные срабатывания и ложные отрицания.

В статистической проверке гипотез, ошибка типа I является ошибочным отклонением от нулевой гипотезы (также известной как «ложного положительными» выводы или заключение, например: «невиновный осужден»), в то время как ошибки типа II- ошибочное принятие нулевой гипотезы (также известное как «ложноотрицательный» вывод или вывод; пример: «виновный не осужден»). Большая часть статистической теории вращается вокруг минимизации одной или обеих этих ошибок, хотя полное исключение любой из них статистически невозможно, если результат не определяется известным наблюдаемым причинным процессом. Путем выбора низкого порогового значения (порогового значения) и изменения уровня альфа (p) можно повысить качество проверки гипотезы. Информация об ошибках типа I и ошибок типа II широко используется в медицине, биометрии и информатике.

Интуитивно ошибки типа I можно рассматривать как комиссионные ошибки, т. Е. Исследователь, к несчастью, приходит к выводу, что что-то является фактом. Например, рассмотрим исследование, в котором исследователи сравнивают лекарство с плацебо. Если пациенты, которым вводили препарат, выздоравливали случайно, чем пациенты, получившие плацебо, может показаться, что препарат эффективен, но на самом деле вывод неверен. И наоборот, ошибки типа II — это ошибки упущения. В приведенном выше примере, если пациенты, получившие лекарство, не поправлялись быстрее, чем пациенты, получавшие плацебо, но это была случайная случайность, это будет ошибкой типа II. Последствия ошибки типа II зависят от размера и направления пропущенного определения и обстоятельств. Дорогостоящее лекарство для одного из миллиона пациентов может оказаться несущественным, даже если это действительно лекарство.

СОДЕРЖАНИЕ

  • 1 Определение
    • 1.1 Таблица типов ошибок
  • 2 Частота ошибок
    • 2.1 Качество проверки гипотез
  • 3 Пример
  • 4 этимология
  • 5 Связанные термины
    • 5.1 Нулевая гипотеза
    • 5.2 Статистическая значимость
  • 6 доменов приложений
  • 7 См. Также
  • 8 ссылки
  • 9 Библиография
  • 10 Внешние ссылки

Определение

Статистическая справка

В теории статистических тестов понятие статистической ошибки является неотъемлемой частью проверки гипотез. Тест заключается в выборе двух конкурирующих утверждений, называемых нулевой гипотезой, обозначаемой H 0, и альтернативной гипотезой, обозначаемой H 1. Это концептуально похоже на приговор в суде. Нулевая гипотеза соответствует позиции обвиняемого: точно так же, как он считается невиновным до тех пор, пока его вина не будет доказана, нулевая гипотеза считается верной до тех пор, пока данные не предоставят убедительные доказательства против нее. Альтернативная гипотеза соответствует позиции против подсудимого. В частности, нулевая гипотеза также предполагает отсутствие различия или отсутствие связи. Таким образом, нулевая гипотеза никогда не может состоять в том, что существует различие или связь.

Если результат теста соответствует действительности, значит, решение принято. Однако если результат теста не соответствует действительности, значит, произошла ошибка. Есть две ситуации, когда решение неверно. Нулевая гипотеза может быть верной, тогда как мы отвергаем H 0. С другой стороны, альтернативная гипотеза H 1 может быть верной, но мы не отвергаем H 0. Различают два типа ошибок: ошибка типа I и ошибка типа II.

Ошибка типа I

Первый вид ошибок — это ошибочное отклонение нулевой гипотезы в результате процедуры проверки. Этот вид ошибки называется ошибкой I типа (ложное срабатывание) и иногда называется ошибкой первого типа.

Что касается примера зала суда, ошибка типа I соответствует осуждению невиновного обвиняемого.

Ошибка типа II

Второй вид ошибок — это ошибочное принятие нулевой гипотезы в результате процедуры проверки. Этот вид ошибки называется ошибкой типа II (ложноотрицательный), а также ошибкой второго типа.

Что касается примера зала суда, ошибка типа II соответствует оправданию преступника.

Частота ошибок кроссовера

Коэффициент перекрестных ошибок (CER) — это точка, в которой ошибки типа I и ошибки типа II равны, и представляет собой лучший способ измерения эффективности биометрии. Система с более низким значением CER обеспечивает большую точность, чем система с более высоким значением CER.

Ложноположительный и ложноотрицательный

См. Дополнительную информацию в: Ложноположительные и ложноотрицательные

Что касается ложноположительных и ложноотрицательных результатов, положительный результат соответствует отклонению нулевой гипотезы, а отрицательный результат соответствует неспособности отклонить нулевую гипотезу; «false» означает, что сделанный вывод неверен. Таким образом, ошибка типа I эквивалентна ложноположительному результату, а ошибка типа II эквивалентна ложноотрицательному результату.

Таблица типов ошибок

Табличные отношения между истинностью / ложностью нулевой гипотезы и результатами теста:

 Таблица типов ошибок Нулевая гипотеза ( H 0)
Правда Ложь
Решение о нулевой гипотезе ( H 0) Не отвергайте Правильный вывод (истинно отрицательный)

(вероятность = 1 — α)

Ошибка типа II (ложноотрицательный) (вероятность = β)
Отклонять Ошибка I типа (ложноположительный результат) (вероятность = α) Правильный вывод (истинно положительный)

(вероятность = 1 — β)

Частота ошибок

См. Также: Частота ложных срабатываний § Сравнение с другими коэффициентами ошибок Результаты, полученные для отрицательного образца (левая кривая), перекрываются с результатами, полученными для положительного образца (правая кривая). Перемещая значение отсечения результата (вертикальная полоса), можно уменьшить количество ложных срабатываний (FP) за счет увеличения количества ложноотрицательных результатов (FN) или наоборот. (TP = истинно положительные результаты, TN = истинно отрицательные результаты)

Идеальный тест будет иметь ноль ложных срабатываний и ноль ложноотрицательных результатов. Однако статистические методы являются вероятностными, и нельзя сказать наверняка, верны ли статистические выводы. Всякий раз, когда есть неуверенность, есть возможность сделать ошибку. Учитывая эту природу статистической науки, все проверки статистических гипотез имеют вероятность сделать ошибки типа I и типа II.

  • Частота ошибок типа I или уровень значимости — это вероятность отклонения нулевой гипотезы при условии, что она верна. Он обозначается греческой буквой α (альфа) и также называется альфа-уровнем. Обычно уровень значимости устанавливается равным 0,05 (5%), что означает, что допустимо иметь 5% вероятность ошибочного отклонения истинной нулевой гипотезы.
  • Скорость ошибки типа II обозначается греческой буквой β (бета) и связана с мощностью теста, равной 1 − β.

Эти два типа коэффициентов ошибок противопоставляются друг другу: для любого заданного набора выборок попытка уменьшить один тип ошибки обычно приводит к увеличению другого типа ошибки.

Качество проверки гипотез

Та же идея может быть выражена в терминах скорости получения правильных результатов и, следовательно, использована для минимизации количества ошибок и повышения качества проверки гипотез. Чтобы уменьшить вероятность совершения ошибки типа I, сделать значение альфа (p) более строгим довольно просто и эффективно. Чтобы уменьшить вероятность совершения ошибки типа II, которая тесно связана с мощностью анализа, либо увеличение размера выборки теста, либо ослабление альфа-уровня может повысить мощность анализа. Статистика теста является устойчивой, если контролируется частота ошибок типа I.

Можно также использовать различные пороговые значения (пороговые значения), чтобы сделать тест более специфичным или более чувствительным, что, в свою очередь, повысит качество теста. Например, представьте себе медицинский тест, в котором экспериментатор может измерить концентрацию определенного белка в образце крови. Экспериментатор может отрегулировать порог (черная вертикальная линия на рисунке), и люди будут диагностированы как больные, если будет обнаружено какое-либо число, превышающее этот определенный порог. Согласно изображению, изменение порога приведет к изменению количества ложных срабатываний и ложных отрицаний, соответствующих движению по кривой.

Пример

Поскольку в реальном эксперименте невозможно избежать всех ошибок типа I и типа II, важно учитывать степень риска, на который человек готов пойти, чтобы ложно отклонить H 0 или принять H 0. Решением этого вопроса было бы сообщить p-значение или уровень значимости α статистики. Например, если p-значение результата статистической проверки оценивается в 0,0596, то существует вероятность 5,96%, что мы ошибочно отклоняем H 0. Или, если мы говорим, что статистика выполняется на уровне α, например 0,05, тогда мы позволяем ложно отклонить H 0 на 5%. Уровень значимости 0,05 является относительно обычным, но не существует общего правила, подходящего для всех сценариев.

Измерение скорости автомобиля

Ограничение скорости на автостраде в США составляет 120 километров в час. Установлен прибор для измерения скорости проезжающих транспортных средств. Предположим, что устройство проведет три измерения скорости проезжающего транспортного средства, записывая как случайную выборку X 1, X 2, X 3. В зависимости от средней скорости дорожная полиция оштрафует водителей. То есть тестовая статистика Икс ¯ { displaystyle { bar {X}}}{ bar {X}}

Т знак равно Икс 1 + Икс 2 + Икс 3 3 знак равно Икс ¯ { displaystyle T = { frac {X_ {1} + X_ {2} + X_ {3}} {3}} = { bar {X}}}{ displaystyle T = { frac {X_ {1} + X_ {2} + X_ {3}} {3}} = { bar {X}}}

Кроме того, мы предполагаем, что измерения X 1, X 2, X 3 моделируются как нормальное распределение N (μ, 4). Затем следует N (μ, 4/3), а параметр μ представляет истинную скорость проезжающего транспортного средства. В этом эксперименте нулевая гипотеза H 0 и альтернативная гипотеза H 1 должны быть

H 0: μ = 120 против H 1: μ 1 gt; 120.

Если мы выполняем статистический уровень при α = 0,05, то необходимо вычислить критическое значение c для решения

п ( Z ⩾ c — 120 2 3 ) знак равно 0,05 { displaystyle P left (Z geqslant { frac {c-120} { frac {2} { sqrt {3}}}} right) = 0,05}{ displaystyle P  left (Z  geqslant { frac {c-120} { frac {2} { sqrt {3}}}}  right) = 0,05}

Согласно правилу смены единиц для нормального распределения. Обращаясь к Z-таблице, мы можем получить

c — 120 2 3 знак равно 1,645 ⇒ c знак равно 121,9 { displaystyle { frac {c-120} { frac {2} { sqrt {3}}}} = 1,645 Rightarrow c = 121,9}{ displaystyle { frac {c-120} { frac {2} { sqrt {3}}}} = 1,645  Rightarrow c = 121,9}

Здесь критическая область. То есть, если зарегистрированная скорость транспортного средства превышает критическое значение 121,9, водитель будет оштрафован. Тем не менее, 5% водителей по-прежнему подвергаются ложному штрафу, поскольку зарегистрированная средняя скорость превышает 121,9, но истинная скорость не превышает 120, что мы называем ошибкой типа I.

Ошибка типа II соответствует случаю, когда истинная скорость транспортного средства превышает 120 километров в час, но водитель не оштрафован. Например, если истинная скорость транспортного средства μ = 125, вероятность того, что водитель не будет оштрафован, можно рассчитать как

п знак равно ( Т lt; 121,9 | μ знак равно 125 ) знак равно п ( Т — 125 2 3 lt; 121,9 — 125 2 3 ) знак равно ϕ ( — 2,68 ) знак равно 0,0036 { displaystyle P = (T lt;121.9 | mu = 125) = P left ({ frac {T-125} { frac {2} { sqrt {3}}}} lt;{ frac {121.9- 125} { frac {2} { sqrt {3}}}} right) = phi (-2,68) = 0,0036}{ displaystyle P = (T lt;121.9 |  mu = 125) = P  left ({ frac {T-125} { frac {2} { sqrt {3}}}} lt;{ frac {121.9- 125} { frac {2} { sqrt {3}}}}  right) =  phi (-2,68) = 0,0036}

это означает, что если истинная скорость транспортного средства составляет 125, привод имеет вероятность 0,36% избежать штрафа, когда статистика выполняется на уровне 125, поскольку зарегистрированная средняя скорость ниже 121,9. Если истинная скорость ближе к 121,9, чем к 125, то вероятность избежать штрафа также будет выше.

Также следует учитывать компромисс между ошибкой типа I и ошибкой типа II. То есть в этом случае, если дорожная полиция не хочет ложно штрафовать невиновных водителей, уровень α можно установить на меньшее значение, например 0,01. Однако в этом случае больше водителей, чья истинная скорость превышает 120 километров в час, например 125, с большей вероятностью избежит штрафа.

Этимология

В 1928 году Ежи Нейман (1894–1981) и Эгон Пирсон (1895–1980), оба выдающиеся статистики, обсуждали проблемы, связанные с «принятием решения о том, может ли определенная выборка быть оценена как вероятная случайно выбранная из определенной совокупности. «: и, как заметил Дэвид Флоренс Найтингейл,« необходимо помнить, что прилагательное «случайный» [в термине «случайная выборка»] должно применяться к методу построения выборки, а не к самой выборке ».

Они определили «два источника ошибок», а именно:

(а) ошибка отклонения гипотезы, которую не следовало отвергать, и
(б) ошибка отказа отвергнуть гипотезу, которую следовало отвергнуть.

В 1930 году они подробно остановились на этих двух источниках ошибок, отметив, что:

… при проверке гипотез необходимо учитывать два соображения: мы должны иметь возможность снизить вероятность отклонения истинной гипотезы до желаемого минимального значения; тест должен быть разработан таким образом, чтобы он отклонял проверяемую гипотезу, когда она, вероятно, окажется ложной.

В 1933 году они заметили, что эти «проблемы редко представлены в такой форме, что мы можем с уверенностью отличить истинную от ложной гипотезы». Они также отметили, что, решая, не отклонить или отклонить конкретную гипотезу среди «набора альтернативных гипотез», H 1, H 2…, было легко сделать ошибку:

… [и] эти ошибки будут двух видов:

(I) мы отвергаем H 0 [т.е. гипотезу, которую нужно проверить], когда она верна,
(II) мы не можем отвергнуть H 0, если верна некоторая альтернативная гипотеза H A или H 1. (Есть разные обозначения для альтернативы).

Во всех статьях, написанных в соавторстве с Нейманом и Пирсоном, выражение H 0 всегда означает «гипотезу, подлежащую проверке».

В той же статье они называют эти два источника ошибок: ошибки типа I и ошибки типа II соответственно.

Связанные термины

См. Также: Вероятность охвата

Нулевая гипотеза

Основная статья: Нулевая гипотеза

Статистики обычно проводят тесты, чтобы определить, может ли быть подтверждена « спекулятивная гипотеза » о наблюдаемых явлениях мира (или его обитателей). Результаты такого тестирования определяют, согласуется ли конкретный набор результатов разумно (или не согласуется) с предполагаемой гипотезой.

На основании того, что по статистическому соглашению всегда предполагается, что предполагаемая гипотеза неверна, и так называемая « нулевая гипотеза », что наблюдаемые явления просто возникают случайно (и что, как следствие, предполагаемый агент не имеет эффект) — тест определит, верна эта гипотеза или нет. Вот почему проверяемая гипотеза часто называется нулевой гипотезой (скорее всего, выдуманной Фишером (1935, стр. 19)), потому что именно эта гипотеза должна быть либо аннулирована, либо не аннулирована проверкой. Когда нулевая гипотеза аннулируется, можно сделать вывод, что данные подтверждают « альтернативную гипотезу » (которая является исходной гипотезой).

Последовательное применение статистиками соглашения Неймана и Пирсона о представлении « гипотезы, подлежащей проверке » (или « гипотезы, которая должна быть аннулирована ») выражением H 0 привело к обстоятельствам, при которых многие понимают термин « нулевая гипотеза » как означающий « ноль гипотеза » — это утверждение о том, что результаты в вопросе возникли через случайно. Это не обязательно так — ключевое ограничение, согласно Фишеру (1966), состоит в том, что « нулевая гипотеза должна быть точной, свободной от нечеткости и двусмысленности, поскольку она должна служить основой« проблемы распределения », из которых проверка значимости является решением ». Как следствие этого, в экспериментальной науке нулевая гипотеза обычно является утверждением, что конкретное лечение не имеет эффекта ; в науке о наблюдениях нет разницы между значением конкретной измеряемой переменной и значением экспериментального предсказания.

Статистическая значимость

Если вероятность получения такого же экстремального результата, как полученный, при условии, что нулевая гипотеза верна, ниже, чем заранее заданная вероятность отсечения (например, 5%), то результат считается статистически значимым. и нулевая гипотеза отклоняется.

Британский статистик сэр Рональд Эйлмер Фишер (1890–1962) подчеркнул, что «нулевая гипотеза»:

… никогда не доказывается и не устанавливается, но, возможно, опровергается в ходе экспериментов. Можно сказать, что каждый эксперимент существует только для того, чтобы дать фактам шанс опровергнуть нулевую гипотезу.

-  Фишер, 1935, с.19.

Домены приложений

Медицина

В медицинской практике различия между применением скрининга и тестирования значительны.

Медицинский осмотр

Скрининг включает относительно дешевые тесты, которые проводятся среди больших групп населения, ни у одного из которых нет никаких клинических признаков заболевания (например, мазок Папаниколау ).

Тестирование включает в себя гораздо более дорогие, часто инвазивные процедуры, которые назначаются только тем, у кого есть некоторые клинические признаки заболевания, и чаще всего применяются для подтверждения подозреваемого диагноза.

Например, в большинстве штатов США требуется, чтобы новорожденные проходили скрининг на фенилкетонурию и гипотиреоз, а также на другие врожденные заболевания.

Гипотеза: «У новорожденных фенилкетонурия и гипотиреоз».

Нулевая гипотеза (H 0): «У новорожденных нет фенилкетонурии и гипотиреоза»,

Ошибка I типа (ложноположительный результат). Верный факт заключается в том, что у новорожденных нет фенилкетонурии и гипотиреоза, но мы считаем, что у них есть нарушения в соответствии с данными.

Ошибка II типа (ложноотрицательный). Верный факт, что у новорожденных фенилкетонурия и гипотиреоз, но мы считаем, что у них нет нарушений согласно данным.

Несмотря на то, что они показывают высокий уровень ложноположительных результатов, скрининговые тесты считаются ценными, поскольку они значительно повышают вероятность выявления этих нарушений на гораздо более ранней стадии.

Простые анализы крови, используемые для скрининга возможных доноров крови на ВИЧ и гепатит, имеют высокий уровень ложноположительных результатов; однако врачи используют гораздо более дорогие и гораздо более точные тесты, чтобы определить, действительно ли человек инфицирован каким-либо из этих вирусов.

Возможно, наиболее широко обсуждаемые ложноположительные результаты медицинского обследования связаны с маммографией при скрининге на рак груди. Уровень ложноположительных результатов маммографии в США достигает 15%, это самый высокий показатель в мире. Одним из следствий высокого уровня ложноположительных результатов в США является то, что за любой 10-летний период половина обследованных американских женщин получает ложноположительную маммографию. Ложноположительные маммограммы обходятся дорого: в США ежегодно тратится более 100 миллионов долларов на последующее обследование и лечение. Они также вызывают у женщин ненужное беспокойство. В результате высокого уровня ложноположительных результатов в США до 90–95% женщин, получивших положительную маммограмму, не страдают этим заболеванием. Самый низкий показатель в мире — в Нидерландах — 1%. Самые низкие показатели обычно в Северной Европе, где маммографические пленки читаются дважды и устанавливается высокий порог для дополнительного тестирования (высокий порог снижает мощность теста).

Идеальный скрининговый тест для населения был бы дешевым, простым в применении и по возможности давал бы нулевые ложноотрицательные результаты. Такие тесты обычно дают больше ложноположительных результатов, которые впоследствии могут быть отсортированы более сложным (и дорогостоящим) тестированием.

Медицинское обследование

Ложноотрицательные и ложноположительные результаты — важные проблемы при медицинском тестировании.

Гипотеза: «У пациентов конкретное заболевание».

Нулевая гипотеза (H 0): «У пациентов нет конкретного заболевания».

Ошибка типа I (ложноположительный результат): «Истинный факт заключается в том, что пациенты не страдают каким-либо конкретным заболеванием, но врачи судят, что пациенты были больны, согласно отчетам об испытаниях».

Ложные срабатывания могут также вызвать серьезные и противоречащие интуиции проблемы, когда ищущееся заболевание встречается редко, как, например, при скрининге. Если показатель ложноположительных результатов теста составляет один из десяти тысяч, но только один из миллиона образцов (или людей) является истинно положительным, большинство положительных результатов, обнаруженных этим тестом, будут ложными. Вероятность того, что наблюдаемый положительный результат является ложным, можно рассчитать с помощью теоремы Байеса.

Ошибка типа II (ложноотрицательный): «Истинный факт заключается в том, что болезнь действительно присутствует, но отчеты об испытаниях дают ложно обнадеживающее сообщение для пациентов и врачей о том, что болезнь отсутствует».

Ложноотрицательные результаты приводят к серьезным и нелогичным проблемам, особенно когда искомое состояние является обычным явлением. Если тест с ложноотрицательной частотой только 10% используется для тестирования популяции с истинной частотой встречаемости 70%, многие из отрицательных результатов, обнаруженных тестом, будут ложными.

Иногда это приводит к неправильному или неадекватному лечению как пациента, так и его болезни. Типичным примером является использование кардиологических стресс-тестов для выявления коронарного атеросклероза, хотя известно, что сердечные стресс- тесты выявляют только ограничения кровотока в коронарной артерии из-за развитого стеноза.

Биометрия

Биометрические соответствия, например, для распознавания отпечатков пальцев, распознавания лиц или распознавания радужной оболочки, чувствителен к типу I и II типа ошибок.

Гипотеза: «Входные данные не идентифицируют кого-то в списке искомых людей»

Нулевая гипотеза: «Входные данные действительно идентифицируют кого-то в списке искомых людей».

Ошибка типа I (ложное отклонение): «Истинный факт состоит в том, что человек входит в список найденных, но система приходит к выводу, что это лицо не соответствует данным».

Ошибка типа II (коэффициент ложного совпадения): «Истинный факт заключается в том, что человек не входит в список поиска, но система приходит к выводу, что это человек, которого мы ищем в соответствии с данными».

Вероятность ошибок типа I называется «коэффициентом ложного отклонения» (FRR) или коэффициентом ложного несоответствия (FNMR), а вероятность ошибок типа II называется «коэффициентом ложного принятия» (FAR) или коэффициентом ложного совпадения ( FMR).

Если система спроектирована так, чтобы редко сопоставлять подозреваемых, то вероятность ошибок типа II можно назвать « частотой ложных тревог ». С другой стороны, если система используется для проверки (и принятие является нормой), то FAR является мерой безопасности системы, а FRR измеряет уровень неудобств пользователя.

Проверка безопасности

Основные статьи: обнаружение взрывчатых веществ и металлоискатель

Ложные срабатывания обычно обнаруживаются каждый день в ходе досмотра службы безопасности в аэропортах, который в конечном итоге представляет собой системы визуального контроля. Установленная охранная сигнализация предназначена для предотвращения попадания оружия на самолет; тем не менее, они часто настроены на такую ​​высокую чувствительность, что они тревожатся много раз в день о незначительных предметах, таких как ключи, пряжки ремня, мелочь, мобильные телефоны и гвоздики на обуви.

Здесь гипотеза: «Предмет — это оружие».

Нулевая гипотеза: «Предмет не является оружием».

Ошибка типа I (ложное срабатывание): «Истинный факт заключается в том, что предмет не является оружием, но система по-прежнему подает сигнал тревоги».

Ошибка типа II (ложноотрицательный) «Истинный факт заключается в том, что предмет является оружием, но в настоящее время система хранит молчание».

Соотношение ложных срабатываний (идентификация невиновного путешественника как террориста) к истинным срабатываниям (обнаружение потенциального террориста) очень велико; и поскольку почти каждая тревога является ложноположительной, прогностическая ценность положительных результатов этих скрининговых тестов очень мала.

Относительная стоимость ложных результатов определяет вероятность того, что создатели тестов допустят эти события. Поскольку стоимость ложноотрицательного результата в этом сценарии чрезвычайно высока (невыявление бомбы, которая попадает в самолет, может привести к сотням смертей), в то время как стоимость ложного срабатывания относительно невысока (достаточно простая дополнительная проверка), наиболее подходящий Тест — это тест с низкой статистической специфичностью, но с высокой статистической чувствительностью (тот, который допускает высокий уровень ложноположительных результатов в обмен на минимальное количество ложноотрицательных результатов).

Компьютеры

Представления о ложных срабатываниях и ложных отрицаниях широко распространены в сфере компьютеров и компьютерных приложений, включая компьютерную безопасность, фильтрацию спама, вредоносное ПО, оптическое распознавание символов и многие другие.

Например, в случае фильтрации спама гипотеза состоит в том, что сообщение является спамом.

Таким образом, нулевая гипотеза: «Сообщение не является спамом».

Ошибка типа I (ложное срабатывание): «Методы фильтрации или блокировки спама ошибочно классифицируют законное сообщение электронной почты как спам и, как следствие, препятствуют его доставке».

Хотя большинство тактик защиты от спама могут блокировать или фильтровать большой процент нежелательных писем, сделать это без значительных ложноположительных результатов — гораздо более сложная задача.

Ошибка типа II (ложноотрицательный): «Спам не определяется как спам, но классифицируется как не спам». Низкое количество ложноотрицательных результатов — показатель эффективности фильтрации спама.

Смотрите также

  • Бинарная классификация
  • Теория обнаружения
  • Эгон Пирсон
  • Этика в математике
  • Ложноположительный парадокс
  • Уровень ошибок в семье
  • Показатели эффективности поиска информации
  • Лемма Неймана – Пирсона.
  • Нулевая гипотеза
  • Вероятность гипотезы байесовского вывода
  • Точность и отзыв
  • Ошибка прокурора
  • Феномен прозоны
  • Рабочая характеристика приемника
  • Чувствительность и специфичность
  • Перекрестные ссылки статистиков и инженеров статистических терминов
  • Проверка гипотез, предложенных данными
  • Ошибка III типа

использованная литература

Библиография

  • Бец, М.А., и Габриэль, К.Р., «Ошибки типа IV и анализ простых эффектов», журнал статистики образования, том 3, № 2 (лето 1978 г.), стр. 121–144.
  • Дэвид, Ф.Н., «Степенная функция для тестов на случайность в последовательности альтернатив», Biometrika, Vol.34, Nos.3 / 4, (декабрь 1947 г.), стр. 335–339.
  • Фишер Р.А., План экспериментов, Оливер и Бойд (Эдинбург), 1935.
  • Гэмбрилл, В., «Ложные срабатывания тестов на заболевания новорожденных беспокоят родителей», День здоровья (5 июня 2006 г.). [1]
  • Кайзер, Х.Ф., «Направленные статистические решения», Психологический обзор, Том 67, № 3 (май 1960 г.), стр. 160–167.
  • Кимбалл, А.В., «Ошибки третьего рода в статистическом консультировании», Журнал Американской статистической ассоциации, том 52, № 278 (июнь 1957 г.), стр. 133–142.
  • Любин А., «Интерпретация значимого взаимодействия», Образовательные и психологические измерения, Том 21, № 4 (зима 1961 г.), стр. 807–817.
  • Мараскуило, Л.А. и Левин, Дж. Р., «Соответствующие постфактумные сравнения для взаимодействия и вложенных гипотез в анализе вариативных планов: устранение ошибок типа IV», Американский журнал исследований в области образования, том 7, № 3, (май 1970 г.)), стр. 397–421.
  • Митрофф, И.И. и Фезерингем, Т.Р., «О решении системных проблем и ошибках третьего рода», Поведенческая наука, том 19, № 6, (ноябрь 1974 г.), стр. 383–393.
  • Мостеллер, Ф., » Тест на проскальзывание k- образца для экстремальной популяции», Анналы математической статистики, том 19, № 1 (март 1948 г.), стр. 58–65.
  • Моултон, RT, «Сетевая безопасность», Datamation, Том 29, № 7 (июль 1983 г.), стр. 121–127.
  • Райффа, Х., Анализ решений: вводные лекции о выборе в условиях неопределенности, Эддисон – Уэсли, (чтение), 1968.

внешние ссылки

  • Предвзятость и смешение  — презентация Найджела Панета, Высшая школа общественного здравоохранения, Университет Питтсбурга

Ошибки первого и второго рода

Выдвинутая гипотеза
может быть правильной или неправильной,
поэтому возникает необходимость её
проверки. Поскольку проверку производят
статистическими методами, её называют
статистической. В итоге статистической
проверки гипотезы в двух случаях может
быть принято неправильное решение, т.
е. могут быть допущены ошибки двух родов.

Ошибка первого
рода состоит в том, что будет отвергнута
правильная гипотеза.

Ошибка второго
рода состоит в том, что будет принята
неправильная гипотеза.

Подчеркнём, что
последствия этих ошибок могут оказаться
весьма различными. Например, если
отвергнуто правильное решение «продолжать
строительство жилого дома», то эта
ошибка первого рода повлечёт материальный
ущерб: если же принято неправильное
решение «продолжать строительство»,
несмотря на опасность обвала стройки,
то эта ошибка второго рода может повлечь
гибель людей. Можно привести примеры,
когда ошибка первого рода влечёт более
тяжёлые последствия, чем ошибка второго
рода.

Замечание 1.
Правильное решение может быть принято
также в двух случаях:

  1. гипотеза принимается,
    причём и в действительности она
    правильная;

  2. гипотеза отвергается,
    причём и в действительности она неверна.

Замечание 2.
Вероятность совершить ошибку первого
рода принято обозначать через
;
её называют уровнем значимости. Наиболее
часто уровень значимости принимают
равным 0,05 или 0,01. Если, например, принят
уровень значимости, равный 0,05, то это
означает, что в пяти случаях из ста
имеется риск допустить ошибку первого
рода (отвергнуть правильную гипотезу).

Статистический
критерий проверки нулевой гипотезы.
Наблюдаемое значение критерия

Для проверки
нулевой гипотезы используют специально
подобранную случайную величину, точное
или приближённое распределение которой
известно. Обозначим эту величину в целях
общности через
.

Статистическим
критерием

(или просто критерием) называют случайную
величину
,
которая служит для проверки нулевой
гипотезы.

Например, если
проверяют гипотезу о равенстве дисперсий
двух нормальных генеральных совокупностей,
то в качестве критерия
принимают отношение исправленных
выборочных дисперсий:.

Эта величина
случайная, потому что в различных опытах
дисперсии принимают различные, наперёд
неизвестные значения, и распределена
по закону Фишера – Снедекора.

Для проверки
гипотезы по данным выборок вычисляют
частные значения входящих в критерий
величин и таким образом получают частное
(наблюдаемое) значение критерия.

Наблюдаемым
значением
называют значение критерия, вычисленное
по выборкам. Например, если по двум
выборкам найдены исправленные выборочные
дисперсиии,
то наблюдаемое значение критерия.

Критическая
область. Область принятия гипотезы.
Критические точки

После выбора
определённого критерия множество всех
его возможных значений разбивают на
два непересекающихся подмножества:
одно из них содержит значения критерия,
при которых нулевая гипотеза отвергается,
а другая – при которых она принимается.

Критической
областью называют совокупность значений
критерия, при которых нулевую гипотезу
отвергают.

Областью принятия
гипотезы (областью допустимых значений)
называют совокупность значений критерия,
при которых гипотезу принимают.

Основной принцип
проверки статистических гипотез можно
сформулировать так: если наблюдаемое
значение критерия принадлежит критической
области – гипотезу отвергают, если
наблюдаемое значение критерия принадлежит
области принятия гипотезы – гипотезу
принимают.

Поскольку критерий
— одномерная случайная величина, все её
возможные значения принадлежат некоторому
интервалу. Поэтому критическая область
и область принятия гипотезы также
являются интервалами и, следовательно,
существуют точки, которые их разделяют.

Критическими
точками (границами)
называют точки, отделяющие критическую
область от области принятия гипотезы.

Различают
одностороннюю (правостороннюю или
левостороннюю) и двустороннюю критические
области.

Правосторонней
называют критическую область, определяемую
неравенством
>,
где— положительное число.

Левосторонней
называют критическую область, определяемую
неравенством
<,
где— отрицательное число.

Односторонней
называют правостороннюю или левостороннюю
критическую область.

Двусторонней
называют критическую область, определяемую
неравенствами
где.

В частности, если
критические точки симметричны относительно
нуля, двусторонняя критическая область
определяется неравенствами ( в
предположении, что
>0):

,
или равносильным неравенством
.

Отыскание
правосторонней критической области

Как найти критическую
область? Обоснованный ответ на этот
вопрос требует привлечения довольно
сложной теории. Ограничимся её элементами.
Для определённости начнём с нахождения
правосторонней критической области,
которая определяется неравенством
>,
где>0.
Видим, что для отыскания правосторонней
критической области достаточно найти
критическую точку. Следовательно,
возникает новый вопрос: как её найти?

Для её нахождения
задаются достаточной малой вероятностью
– уровнем значимости
.
Затем ищут критическую точку,
исходя из требования, чтобы при условии
справедливости нулевой гипотезы
вероятность того, критерийпримет значение, большее,
была равна принятому уровню значимости:
Р(>)=.

Для каждого критерия
имеются соответствующие таблицы, по
которым и находят критическую точку,
удовлетворяющую этому требованию.

Замечание 1.
Когда
критическая точка уже найдена, вычисляют
по данным выборок наблюдаемое значение
критерия и, если окажется, что
>,
то нулевую гипотезу отвергают; если же<,
то нет оснований, чтобы отвергнуть
нулевую гипотезу.

Пояснение. Почему
правосторонняя критическая область
была определена, исходя из требования,
чтобы при справедливости нулевой
гипотезы выполнялось соотношение

Р(>)=?
(*)

Поскольку вероятность
события
>мала (— малая вероятность), такое событие при
справедливости нулевой гипотезы, в силу
принципа практической невозможности
маловероятных событий, в единичном
испытании не должно наступить. Если всё
же оно произошло, т.е. наблюдаемое
значение критерия оказалось больше,
то это можно объяснить тем, что нулевая
гипотеза ложна и, следовательно, должна
быть отвергнута. Таким образом, требование
(*) определяет такие значения критерия,
при которых нулевая гипотеза отвергается,
а они и составляют правостороннюю
критическую область.

Замечание 2.
Наблюдаемое значение критерия может
оказаться большим
не потому, что нулевая гипотеза ложна,
а по другим причинам (малый объём выборки,
недостатки методики эксперимента и
др.). В этом случае, отвергнув правильную
нулевую гипотезу, совершают ошибку
первого рода. Вероятность этой ошибки
равна уровню значимости.
Итак, пользуясь требованием (*), мы с
вероятностьюрискуем совершить ошибку первого рода.

Замечание 3. Пусть
нулевая гипотеза принята; ошибочно
думать, что тем самым она доказана.
Действительно, известно, что один пример,
подтверждающий справедливость некоторого
общего утверждения, ещё не доказывает
его. Поэтому более правильно говорить,
«данные наблюдений согласуются с нулевой
гипотезой и, следовательно, не дают
оснований её отвергнуть».

На практике для
большей уверенности принятия гипотезы
её проверяют другими способами или
повторяют эксперимент, увеличив объём
выборки.

Отвергают гипотезу
более категорично, чем принимают.
Действительно, известно, что достаточно
привести один пример, противоречащий
некоторому общему утверждению, чтобы
это утверждение отвергнуть. Если
оказалось, что наблюдаемое значение
критерия принадлежит критической
области, то этот факт и служит примером,
противоречащим нулевой гипотезе, что
позволяет её отклонить.

Отыскание
левосторонней и двусторонней критических
областей***

Отыскание
левосторонней и двусторонней критических
областей сводится (так же, как и для
правосторонней) к нахождению соответствующих
критических точек. Левосторонняя
критическая область определяется
неравенством
<(<0).
Критическую точку находят, исходя из
требования, чтобы при справедливости
нулевой гипотезы вероятность того, что
критерий примет значение, меньшее,
была равна принятому уровню значимости:
Р(<)=.

Двусторонняя
критическая область определяется
неравенствами
Критические
точки находят, исходя из требования,
чтобы при справедливости нулевой
гипотезы сумма вероятностей того, что
критерий примет значение, меньшееили большее,
была равна принятому уровню значимости:

.
(*)

Ясно, что критические
точки могут быть выбраны бесчисленным
множеством способов. Если же распределение
критерия симметрично относительно нуля
и имеются основания (например, для
увеличения мощности) выбрать симметричные
относительно нуля точки (-
(>0),
то

Учитывая (*), получим
.

Это соотношение
и служит для отыскания критических
точек двусторонней критической области.
Критические точки находят по соответствующим
таблицам.

Дополнительные
сведения о выборе критической области.
Мощность критерия

Мы строили
критическую область, исходя из требования,
чтобы вероятность попадания в неё
критерия была равна
при условии, что нулевая гипотеза
справедлива. Оказывается целесообразным
ввести в рассмотрение вероятность
попадания критерия в критическую область
при условии, что нулевая гипотеза неверна
и, следовательно, справедлива конкурирующая.

Мощностью критерия
называют вероятность попадания критерия
в критическую область при условии, что
справедлива конкурирующая гипотеза.
Другими словами, мощность критерия есть
вероятность того, что нулевая гипотеза
будет отвергнута, если верна конкурирующая
гипотеза.

Пусть для проверки
гипотезы принят определённый уровень
значимости и выборка имеет фиксированный
объём. Остаётся произвол в выборе
критической области. Покажем, что её
целесообразно построить так, чтобы
мощность критерия была максимальной.
Предварительно убедимся, что если
вероятность ошибки второго рода (принять
неправильную гипотезу) равна
,
то мощность равна 1-.
Действительно, если— вероятность ошибки второго рода, т.е.
события «принята нулевая гипотеза,
причём справедливо конкурирующая», то
мощность критерия равна 1 —.

Пусть мощность 1

возрастает; следовательно, уменьшается
вероятностьсовершить ошибку второго рода. Таким
образом, чем мощность больше, тем
вероятность ошибки второго рода меньше.

Итак, если уровень
значимости уже выбран, то критическую
область следует строить так, чтобы
мощность критерия была максимальной.
Выполнение этого требования должно
обеспечить минимальную ошибку второго
рода, что, конечно, желательно.

Замечание 1.
Поскольку вероятность события «ошибка
второго рода допущена» равна
,
то вероятность противоположного события
«ошибка второго рода не допущена» равна
1 —,
т.е. мощности критерия. Отсюда следует,
что мощность критерия есть вероятность
того, что не будет допущена ошибка
второго рода.

Замечание 2. Ясно,
что чем меньше вероятности ошибок
первого и второго рода, тем критическая
область «лучше». Однако при заданном
объёме выборки уменьшить одновременно
иневозможно; если уменьшить,
тобудет возрастать. Например, если принять=0,
то будут приниматься все гипотезы, в
том числе и неправильные, т.е. возрастает
вероятностьошибки второго рода.

Как же выбрать
наиболее целесообразно? Ответ на этот
вопрос зависит от «тяжести последствий»
ошибок для каждой конкретной задачи.
Например, если ошибка первого рода
повлечёт большие потери, а второго рода
– малые, то следует принять возможно
меньшее.

Если
уже выбрано, то, пользуясь теоремой Ю.
Неймана и Э.Пирсона, можно построить
критическую область, для которойбудет минимальным и, следовательно,
мощность критерия максимальной.

Замечание 3.
Единственный способ одновременного
уменьшения вероятностей ошибок первого
и второго рода состоит в увеличении
объёма выборок.

Соседние файлы в папке Лекции 2 семестр

  • #
  • #
  • #
  • #

Понравилась статья? Поделить с друзьями:
  • Теплолюкс ошибка 2 как исправить ошибку
  • Тендер ошибка 40036
  • Теория накопления ошибок старение
  • Теплолюкс 520 ошибка hi
  • Тендер не могу удалить аккаунт выдает ошибку