Уровень значимости это вероятность ошибки при - Не ошибается лишь тот, кто ничего не делает!

Основное следствие допущения независимых выборок заключается в том, что два выборочных средних значения, будут совершенно некоррелированными для бесконечного множества пар выборок:
(*ответ*) да
нет
Оценивание статистик выборки по параметрам генеральной совокупности называется статистическим оцениванием:
(*ответ*) нет
да
При проведении оценки значений в выборке, функция от этой величины называется определителем:
(*ответ*) нет
да
Среднее арифметическое значение выборки есть оценка среднего арифметического значения генеральной совокупности:
(*ответ*) да
нет
Среднее арифметическое из оценок, которые являются выборочными средними из значений параметра, — математическое ожидание параметра:
(*ответ*) да
нет
Средний IQ Кульмана в совокупности всех детей США равен 100:
(*ответ*) нет
да
Статистические характеристики, на которых основано статистическое оценивание, — меры центральной тенденции:
(*ответ*) нет
да
Традиционный метод оценивания коэффициента корреляции р заключается в том, чтобы найти интервальную оценку r для случайной выборки:
(*ответ*) нет
да
Альтернативная гипотеза может быть
(*ответ*) ненаправленной
(*ответ*) направленной
критической
прямой
Альтернативная гипотеза Н1 p > 0 — это гипотеза
(*ответ*) направленная
ненаправленная
экспериментальная
положительная
Альтернативная гипотеза Н1 p ≠ 0, утверждающая только факт неравенства параметра нулю и не указывающая, в каком направлении возможно отклонение от 0, — это гипотеза
(*ответ*) ненаправленная
направленная
экспериментальная
положительная
Альтернативная гипотеза Н1: p ≠ 0 утверждающая только факт неравенства параметра нулю и не указывающая, в каком направлении возможно _ от 0 — это ненаправленная гипотеза
(*ответ*) отклонение
В большинстве случаев выборки будут давать величину стандартной ошибки коэффициента корреляции от
(*ответ*) —0,33 до +0,33
—0,11 до +0,11
—0,44 до +0,44
—0,22 до +0,22
В распределении Стьюдента параметрами служат
(*ответ*) число измерений
(*ответ*) дисперсия среднего арифметического выборки
количество интервалов
частота появления признака
В теории статистического вывода применяют две группы методов
(*ответ*) оценивание
(*ответ*) статистическая проверка гипотез
интерпретация
описательная статистика
Вероятность ошибки при статистическом оценивании – это
(*ответ*) уровень значимости
уровень достоверности
теория оценивания
точечное оценивание

Источник

Уровень статистической значимости

При
обосновании статистического вывода
следует решить вопрос, где же проходит
линия между принятием и отвержением
нулевой гипотезы? В силу наличия в
эксперименте случайных влияний эта
граница не может быть проведена абсолютно
точно. Она базируется на понятии уровня
значимости. Уровнем значимости называется
вероятность ошибочного отклонения
нулевой гипотезы. Или, иными словами,
уровень значимости
—
это вероятность
ошибки первого рода при принятии решения.
Для обозначения этой вероятности, как
правило, употребляют либо греческую
букву α, либо латинскую букву р.
В дальнейшем мы будем
употреблять букву р.

Исторически
сложилось так, что в прикладных науках,
использующих статистику, и в частности
в психологии, считается, что низшим
уровнем статистической значимости
является уровень р =
0,05; достаточным —
уровень р =
0,01 и высшим уровень р
= 0,001. Поэтому в
статистических таблицах, которые
приводятся в приложении к учебникам по
статистике, обычно даются табличные
значения для уровней р
= 0,05, р
= 0,01 и р
= 0,001. Иногда даются
табличные значения для уровней р
— 0,025 и р
= 0,005.

Величины
0,05, 0,01 и 0,001 — это так называемые
стандартные уровни статистической
значимости. При статистическом анализе
экспериментальных данных психолог в
зависимости от задач и гипотез исследования
должен выбрать необходимый уровень
значимости. Как видим, здесь наибольшая
величина, или нижняя граница уровня
статистической значимости, равняется
0,05 — это означает, что допускается пять
ошибок в выборке из ста элементов
(случаев, испытуемых) или одна ошибка
из двадцати элементов (случаев,
испытуемых). Считается, что ни шесть, ни
семь, ни большее количество раз из ста
мы ошибиться не можем. Цена таких ошибок
будет слишком велика.

Заметим,
что в современных статистических пакетах
на ЭВМ используются не стандартные
уровни значимости, а уровни, подсчитываемые
непосредственно в процессе работы с
соответствующим статистическим
методом. Эти уровни, обозначаемые буквой
р, могут
иметь различное числовое выражение в
интервале от 0 до 1, например, р
= 0,7, р
= 0,23 или р
= 0,012. Понятно, что в
первых двух случаях полученные уровни
значимости слишком велики и говорить
о том, что результат значим нельзя. В то
же время в последнем случае результаты
значимы на уровне 12 тысячных. Это
достоверный уровень.

Правило
принятия статистического вывода таково:
на основании полученных экспериментальных
данных психолог подсчитывает по
выбранному им статистическому методу
так называемую эмпирическую статистику,
или эмпирическое значение. Эту величину
удобно обозначить как Ч_эмп.
Затем эмпирическая
статистика Ч_эмп
сравнивается с двумя
критическими величинами, которые
соответствуют уровням значимости в 5%
и в 1% для выбранного статистического
метода и которые обозначаются как Ч_кр.
Величины Ч_кр
находятся для данного
статистического метода по соответствующим
таблицам, приведенным в приложении к
любому учебнику по статистике. Эти
величины, как правило, всегда различны
и их в дальнейшем для удобства можно
назвать как Ч_кр1и
Ч_кр2.
Найденные по таблицам
величины критических значений Ч_кр1и
Ч_кр2удобно
представлять в следующей стандартной
форме записи:

Подчеркнем,
однако, что мы использовали обозначения
Ч_эмп
и Ч_кр
как сокращение слова
«число». Во всех статистических методах
приняты свои символические обозначения
всех этих величин: как подсчитанной
по соответствующему статистическому
методу эмпирической величины, так и
найденных по соответствующим таблицам
критических величин. Например, при
подсчете рангового коэффициента
корреляции Спирмена по таблице критических
значений этого коэффициента были найдены
следующие величины критических
значений, которые для этого метода
обозначаются греческой буквой ρ («ро»).
Так для р = 0,05
по таблице найдена величина ρ_кр₁
= 0,61 и для р = 0,01
величина ρ_кр₂
= 0,76.

В
принятой в дальнейшем изложении
стандартной форме записи это выглядит
следующим образом:

Теперь
нам необходимо сравнить наше эмпирическое
значение с двумя найденными по
таблицам критическими значениями.
Лучше всего это сделать, расположив все
три числа на так называемой «оси
значимости». «Ось значимости» представляет
собой прямую, на левом конце которой
располагается 0, хотя он, как правило,
не отмечается на самой этой прямой, и
слева направо идет увеличение числового
ряда. По сути дела это привычная
школьная ось абсцисс ОХ
декартовой системы
координат. Однако особенность этой оси
в том, что на ней выделено три участка,
«зоны». Одна крайняя зона называется
зоной незначимости, вторая крайняя зона
— зоной значимости, а промежуточная —
зоной неопределенности. Границами
всех трех зон являются Ч_кр1для р
= 0,05 и Ч_кр2
для р
= 0,01, как это показано
на рисунке.

В
зависимости от правила принятия решения
(правила вывода), предписанного в данном
статистическом методе возможно два
варианта.

Первый
вариант: альтернативная гипотеза
принимается, если Ч_эмп≥Ч_кр.

Или
второй вариант: альтернативная гипотеза
принимается, если Ч_эмп≤Ч_кр.

Подсчитанное
Ч_эмп
по какому либо
статистическому методу должно обязательно
попасть в одну из трех зон.

Если
эмпирическое значение попадает в зону
незначимости, то принимается гипотеза
Н₀
об отсутствии различий.

Если
Ч_эмп
попало в зону значимости,
принимается альтернативная гипотеза
Н₁
о
наличии различий,
а гипотеза Н₀
отклоняется.

Если
Ч_эмп
попадает в зону
неопределенности, перед исследователем
стоит дилемма. Так, в зависимости от
важности решаемой задачи он может
считать полученную статистическую
оценку достоверной на уровне 5%, и принять,
тем самым гипотезу Н₁,
отклонив гипотезу Н₀,
либо — недостоверной
на уровне 1%, приняв тем самым, гипотезу
Н₀.
Подчеркнем, однако, что это именно
тот случай, когда психолог может допустить
ошибки первого или второго рода. Как
уже говорилось выше, в этих обстоятельствах
лучше всего увеличить объем выборки.

Подчеркнем
также, что величина Ч_эмп
может точно совпасть
либо с Ч_кр1 либо
Ч_кр2.
В первом случае можно
считать, что оценка достоверна точно
на уровне в 5% и принять гипотезу Н₁,
или, напротив, принять гипотезу Н₀.
Во втором случае, как правило,
принимается альтернативная гипотеза
Н₁
о наличии различий,
а гипотеза Н₀
отклоняется.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

Проверка статистических гипотез

Понятие о статистической гипотезе
Уровень значимости при проверке гипотезы
Критическая область
Простая гипотеза и критерии согласия
Критерий согласия (X^2) Пирсона
Примеры

п.1. Понятие о статистической гипотезе

Статистическая гипотеза – это предположение о виде распределения и свойствах случайной величины в наблюдаемой выборке данных.

Прежде всего, мы формулируем «рабочую» гипотезу. Желательно это делать не на основе полученных данных, а исходя из природы и свойств исследуемого явления.
Затем формулируется нулевая гипотеза (H_0), отвергающая нашу рабочую гипотезу.
Наша рабочая гипотеза при этом называется альтернативной гипотезой (H_1).
Получаем, что (H_0=overline{H_1}), т.е. нулевая и альтернативная гипотеза вместе составляют полную группу несовместных событий.

Основной принцип проверки гипотезы – доказательство «от противного», т.е. опровергнуть гипотезу (H_0) и тем самым доказать гипотезу (H_1).

В результате проверки гипотезы возможны 4 исхода:

	Верная гипотеза
(H_0)	(H_1)
Принятая гипотеза	(H_0)	True Negative (H_0) принята верно	False Negative (H_0) принята неверно Ошибка 2-го рода
(H_1)	False Positive (H_0) отвергнута неверно (H_1) принята неверно Ошибка 1-го рода	True Positive (H_0) отвергнута верно (H_1) принята верно

Ошибка 1-го рода – «ложная тревога».
Ошибка 2-го рода – «пропуск события».

Например:
К врачу обращается человек с некоторой жалобой.
Гипотеза (H_1) — человек болен, гипотеза (H_0) — человек здоров.
True Negative – здорового человека признают здоровым
True Positive – больного человека признают больным
False Positive – здорового человека признают больным – «ложная тревога»
False Negative – больного человека признают здоровым – «пропуск события»

Уровень значимости при проверке гипотезы

Статистический тест (статистический критерий) – это строгое математическое правило, по которому гипотеза принимается или отвергается.
В статистике разработано множество критериев: критерии согласия, критерии нормальности, критерии сдвига, критерии выбросов и т.д.

Уровень значимости – это пороговая (критическая) вероятность ошибки 1-го рода, т.е. непринятия гипотезы (H_0), когда она верна («ложная тревога»).
Требуемый уровень значимости α задает критическое значение для статистического теста.

Например:
Уровень значимости α=0,05 означает, что допускается не более чем 5%-ая вероятность ошибки.

В результате статистического теста на конкретных данных получают эмпирический уровень значимости p. Чем меньше значение p, тем сильнее аргументы против гипотезы (H_0).

Обобщив практический опыт, можно сформулировать следующие рекомендации для оценки p и выбора критического значения α:

Уровень значимости (p)	Решение о гипотезе (H_0)	Вывод для гипотезы (H_1)
(pgt 0,1)	(H_0) не может быть отклонена	Статистически достоверные доказательства не обнаружены
(0,5lt pleq 0,1)	Истинность (H_0) сомнительна, неопределенность	Доказательства обнаружены на уровне статистической тенденции
(0,01lt pleq 0,05)	Отклонение (H_0), значимость	Обнаружены статистически достоверные (значимые) доказательства
(pleq 0,01)	Отклонение (H_0), высокая значимость	Доказательства обнаружены на высоком уровне значимости

Здесь под «доказательствами» мы понимаем результаты наблюдений, свидетельствующие в пользу гипотезы (H_1).

Традиционно уровень значимости α=0,05 выбирается для небольших выборок, в которых велика вероятность ошибки 2-го рода. Для выборок с (ngeq 100) критический уровень снижают до α=0,01.

п.3. Критическая область

Критическая область – область выборочного пространства, при попадании в которую нулевая гипотеза отклоняется.
Требуемый уровень значимости α, который задается исследователем, определяет границу попадания в критическую область при верной нулевой гипотезе.

Различают 3 вида критических областей

Критическая область на чертежах заштрихована.
(K_{кр}=chi_{f(alpha)}) определяют границы критической области в зависимости от α.
Если эмпирическое значение критерия попадает в критическую область, гипотезу (H_0) отклоняют.
Пусть (K*) — эмпирическое значение критерия. Тогда:
(|K|gt K_{кр}) – гипотеза (H_0) отклоняется
(|K|leq K_{кр}) – гипотеза (H_0) не отклоняется

п.4. Простая гипотеза и критерии согласия

Пусть (x=left{x_1,x_2,…,x_nright}) – случайная выборка n объектов из множества (X), соответствующая неизвестной функции распределения (F(t)).
Простая гипотеза состоит в предположении, что неизвестная функция (F(t)) является совершенно конкретным вероятностным распределением на множестве (X).

Например:

Глядя на полученные данные эксперимента (синие точки), можно выдвинуть следующую простую гипотезу:
(H_0): данные являются выборкой из равномерного распределения на отрезке [-1;1]

Критерий согласия проверяет, согласуется ли заданная выборка с заданным распределением или с другой выборкой.

К критериям согласия относятся:

Критерий Колмогорова-Смирнова;
Критерий (X^2) Пирсона;
Критерий (omega^2) Смирнова-Крамера-фон Мизеса

п.5. Критерий согласия (X^2) Пирсона

Пусть (left{t_1,t_2,…,t_nright}) — независимые случайные величины, подчиняющиеся стандартному нормальному распределению N(0;1) (см. §63 данного справочника)
Тогда сумма квадратов этих величин: $$ x=t_1^2+t_2^2+⋯+t_n^2 $$ является случайной величиной, которая имеет распределение (X^2) с n степенями свободы.
График плотности распределения (X^2) при разных n имеет вид:
С увеличением n распределение (X^2) стремится к нормальному (согласно центральной предельной теореме – см. §64 данного справочника).

Если мы:
1) выдвигаем простую гипотезу (H_0) о том, что полученные данные являются выборкой из некоторого закона распределения (f(x));
2) выбираем в качестве теста проверки гипотезы (H_0) критерий Пирсона, —
тогда определение критической области будет основано на распределении (X^2).

Заметим, что выдвижение основной гипотезы в качестве (H_0) при проведении этого теста исторически сложилось.
В этом случае критическая область правосторонняя.

Мы задаем уровень значимости α и находим критическое значение
(X_{кр}^2=X^2(alpha,k-r-1)), где k — число вариант в исследуемом ряду, r – число параметров предполагаемого распределения.
Для этого есть специальные таблицы.
Или используем функцию ХИ2ОБР(α,k-r-1) в MS Excel (она сразу считает нужный нам правый хвост). Например, при r=0 (для равномерного распределения):

Пусть нам дан вариационный ряд с экспериментальными частотами (f_i, i=overline{1,k}).
Пусть наша гипотеза (H_0) –данные являются выборкой из закона распределения с известной плотностью распределения (p(x)).
Тогда соответствующие «теоретические частоты» (m_i=Ap(x_i)), где (x_i) – значения вариант данного ряда, A – коэффициент, который в общем случае зависит от ряда (дискретный или непрерывный).
Находим значение статистического теста: $$ X_e^2=sum_{j=1}^kfrac{(f_i-m_i)^2}{m_i} $$ Если эмпирическое значение (X_e^2) окажется в критической области, гипотеза (H_0) отвергается.
(X_e^2geq X_{кр}^2) — закон распределения не подходит (гипотеза (H_0) не принимается)
(X_e^2lt X_{кр}^2) — закон распределения подходит (гипотеза (H_0) принимается)

Например:
В эксперименте 60 раз подбрасывают игральный кубик и получают следующие результаты:

Очки, (x_i)	1	2	3	4	5	6
Частота, (f_i)	8	12	13	7	12	8

Не является ли кубик фальшивым?

Если кубик не фальшивый, то справедлива гипотеза (H_0) — частота выпадений очков подчиняется равномерному распределению: $$ p_i=frac16, i=overline{1,6} $$ При N=60 экспериментах каждая сторона теоретически должна выпасть: $$ m_i=p_icdot N=frac16cdot 60=10 $$ по 10 раз.
Строим расчетную таблицу:

(x_i)	1	2	3	4	5	6	∑
(f_i)	8	12	13	7	12	8	60
(m_i)	10	10	10	10	10	10	60
(f_i-m_i)	-2	2	3	-3	2	-2	—
(frac{(f_i-m_i)^2}{m_i})	0,4	0,4	0,9	0,9	0,4	0,4	3,4

Значение теста: $$ X_e^2=3,4 $$ Для уровня значимости α=0,05, k=6 и r=0 находим критическое значение:
$$ X_{кр}^2approx 11,1 $$ Получается, что: $$ X_e^2lt X_{кр}^2 $$ На уровне значимости α=0,05 принимается гипотеза (H_0) про равномерное распределение.
Значит, с вероятностью 95% кубик не фальшивый.

п.6. Примеры

Пример 1. В эксперименте 72 раза подбрасывают игральный кубик и получают следующие результаты:

Очки, (x_i)	1	2	3	4	5	6
Частота, (f_i)	8	12	13	7	10	22

Не является ли кубик фальшивым?

Если кубик не фальшивый, то справедлива гипотеза (H_0) — частота выпадений очков подчиняется равномерному распределению: $$ p_i=frac16, i=overline{1,6} $$ При N=72 экспериментах каждая сторона теоретически должна выпасть: $$ m_i=p_icdot N=frac16cdot 72=12 $$ по 12 раз.
Строим расчетную таблицу:

(x_i)	1	2	3	4	5	6	∑
(f_i)	8	12	13	7	10	22	72
(m_i)	12	12	12	12	12	12	72
(f_i-m_i)	-4	0	1	-5	-2	10	—
(frac{(f_i-m_i)^2}{m_i})	1,333	0,000	0,083	2,083	0,333	8,333	12,167

Значение теста: $$ X_e^2=12,167 $$ Для уровня значимости α=0,05, k=6 и r=0 находим критическое значение:
$$ X_{кр}^2approx 11,1 $$ Получается, что: $$ X_e^2gt X_{кр}^2 $$ На уровне значимости α=0,05 гипотеза (H_0) про равномерное распределение не принимается.
Значит, с вероятностью 95% кубик фальшивый.

Пример 2. Во время Второй мировой войны Лондон подвергался частым бомбардировкам. Чтобы улучшить организацию обороны, город разделили на 576 прямоугольных участков, 24 ряда по 24 прямоугольника.
В течение некоторого времени были получены следующие данные по количеству попаданий на участки:

Число попаданий, (x_i)	0	1	2	3	4	5	6	7
Количество участков, (f_i)	229	211	93	35	7	0	0	1

Проверялась гипотеза (H_0) — стрельба случайна.

Если стрельба случайна, то попадание на участок должно иметь распределение, подчиняющееся «закону редких событий» — закону Пуассона с плотностью вероятности: $$ p(k)=frac{lambda^k}{k!}e^{-lambda} $$ где (k) — число попаданий. Чтобы получить значение (lambda), нужно посчитать математическое ожидание данного распределения.
Составим расчетную таблицу:

(x_i)	0	1	2	3	4	5	6	7	∑
(f_i)	229	211	93	35	7	0	0	1	576
(x_if_i)	0	211	186	105	28	0	0	7	537

$$ lambdaapprox M(x)=frac{sum x_if_i}{N}=frac{537}{576}approx 0,932 $$ Тогда теоретические частоты будут равны: $$ m_i=Ncdot p(k) $$ Получаем:

(x_i)	0	1	2	3	4	5	6	7	∑
(f_i)	229	211	93	35	7	0	0	1	576
(p_i)	0,39365	0,36700	0,17107	0,05316	0,01239	0,00231	0,00036	0,00005	0,99999
(m_i)	226,7	211,4	98,5	30,6	7,1	1,3	0,2	0,0	576,0
(f_i-m_i)	2,3	-0,4	-5,5	4,4	-0,1	-1,3	-0,2	1,0	—
(frac{(f_i-m_i)^2}{m_i}) (результат)	0,02	0,00	0,31	0,63	0,00	1,33	0,21	34,34	36,84

Значение теста: (X_e^2=36,84)
Поскольку в ходе исследования мы нашли оценку для λ через подсчет выборочной средней, нужно уменьшить число степеней свободы на r=1, и критическое значение статистики искать для (X_{кр}^2=X^2(alpha,k-2)).
Для уровня значимости α=0,05 и k=8, r=1 находим:

(X_{кр}^2approx 12,59)
Получается, что: (X_e^2gt X_{кр}^2)
Гипотеза (H_0) не принимается.
Стрельба не случайна.

Пример 3. В предыдущем примере объединили события x={4;5;6;7} с редким числом попаданий:

Число попаданий, (x_i)	0	1	2	3	4-7
Количество участков, (f_i)	229	211	93	35	8

Проверялась гипотеза (H_0) — стрельба случайна.

Для последней объединенной варианты находим среднюю взвешенную: $$ x_5=frac{4cdot 7+5cdot 0+6cdot 0+7cdot 1}{7+1}=4,375 $$ Найдем оценку λ.

(x_i)	0	1	2	3	4,375	∑
(f_i)	229	211	93	35	8	576
(x_if_i)	0	211	186	105	35	537

$$ lambdaapprox M(x)=frac{sum x_if_i}{N}=frac{537}{576}approx 0,932 $$ Оценка не изменилась, что указывает на правильное определение средней для (x_5).
Строим расчетную таблицу для подсчета статистики:

(x_i)	0	1	2	3	4,375	∑
(f_i)	229	211	93	35	8	576
(p_i)	0,3937	0,3670	0,1711	0,0532	0,0121	0,9970
(m_i)	226,7	211,4	98,5	30,6	7,0	574,2
(f_i-m_i)	2,3	-0,4	-5,5	4,4	1,0	—
(frac{(f_i-m_i)^2}{m_i})	0,02	0,00	0,31	0,63	0,16	1,12

Значение теста: (X_e^2=1,12)
Критическое значение статистики ищем в виде (X_{кр}^2=X^2(alpha,k-2)), где α=0,05 и k=5, r=1

(X_{кр}^2approx 7,81)
Получается, что: (X_e^2lt X_{кр}^2)
Гипотеза (H_0) принимается.
Стрельба случайна.

И какой же ответ верный? Полученный в Примере 2 или в Примере 3?
Если посмотреть в расчетную таблицу для статистики (X_e^2) в Примере 2, основной вклад внесло слагаемое для (x_i=7). Оно равно 34,34 и поэтому сумма (X_e^2=36,84) в итоге велика. А в расчетной таблице Примера 3 такого выброса нет. Для объединенной варианты (x_i=4,375) слагаемое статистики равно 0,16 и сумма (X_e^2=1,12) в итоге мала.

Правильный ответ – в Примере 3.
Стрельба случайна.

Внимание!Критерий согласия (X^2) чувствителен к низкочастотным (редким) событиям и может ошибаться на таких выборках. Поэтому низкочастотные события нужно либо отбрасывать, либо объединять с другими событиями. Эта процедура называется коррекцией Йетса.

Материал из MachineLearning.

Перейти к: навигация, поиск

Содержание

1 Стандартная методика проверки статистических гипотез
2 Вычисление пи-величины
3 Вычисление ROC-кривой
4 Литература
5 См. также
6 Ссылки

Уровень значимости статистического теста — допустимая для данной задачи вероятность ошибки первого рода (ложноположительного решения, false positive), то есть вероятность отклонить нулевую гипотезу, когда на самом деле она верна.

Другая интерпретация:
уровень значимости — это такое (достаточно малое) значение вероятности события, при котором событие уже можно считать неслучайным.

Уровень значимости обычно обозначают греческой буквой alpha (альфа).

Стандартная методика проверки статистических гипотез

В стандартной методике проверки статистических гипотез уровень значимости фиксируется заранее, до того, как становится известной выборка
.

Чрезмерное уменьшение уровня значимости (вероятности ошибки первого рода) alpha может привести к увеличению вероятности ошибки второго рода, то есть вероятности принять нулевую гипотезу, когда на самом деле она не верна (это называется ложноотрицательным решением, false negative).
Вероятность ошибки второго рода beta связана с мощностью критерия gamma простым соотношением .
Выбор уровня значимости требует компромисса между значимостью и мощностью или
(что то же самое, но другими словами)
между вероятностями ошибок первого и второго рода.

Обычно рекомендуется выбирать уровень значимости из априорных соображений.
Однако на практике не вполне ясно, какими именно соображениями надо руководствоваться,
и выбор часто сводится к назначению одного из популярных вариантов
.
В докомпьютерную эпоху эта стандартизация позволяла сократить объём справочных статистических таблиц.
Теперь нет никаких специальных причин для выбора именно этих значений.

Существует две альтернативные методики, не требующие априорного назначения alpha .

Вычисление пи-величины

Достигаемый уровень значимости или пи-величина (p-value) — это наименьшая величина уровня значимости,
при которой нулевая гипотеза отвергается для данного значения статистики критерия .

$p(T) = min { alpha:: TinOmega_alpha },$

где
— критическая область критерия.

Другая интерпретация:
достигаемый уровень значимости или пи-величина p(T) — это вероятность, с которой (при условии истинности нулевой гипотезы) могла бы реализоваться наблюдаемая выборка, или любая другая выборка с ещё менее вероятным значением статистики .

Случайная величина имеет равномерное распределение.
Фактически, функция p(T) приводит значение статистики критерия к шкале вероятности.
Маловероятным значениям (хвостам распределения) статистики соотвествуют значения p(T) , близкие к нулю или к единице.

Вычислив значение на заданной выборке x^m ,
статистик имеет возможность решить,
является ли это значение достаточно малым, чтобы отвергнуть нулевую гипотезу.
Данная методика является более гибкой, чем стандартная.
В частности, она допускает «нестандартное решение» — продолжить наблюдения, увеличивая объём выборки, если оценка вероятности ошибки первого рода попадает в зону неуверенности, скажем, в отрезок .

Вычисление ROC-кривой

ROC-кривая (receiver operating characteristic) — это зависимость мощности от уровня значимости alpha .

Методика предполагает, что статистик укажет подходящую точку на ROC-кривой, которая соответствует компромиссу между вероятностями ошибок I и II рода.

Литература

Кобзарь А. И. Прикладная математическая статистика. Справочник для инженеров и научных работников. — М.: Физматлит, 2006.
Цейтлин Н. А. Из опыта аналитического статистика. — М.: Солар, 2006. — 905 с.
Алимов Ю. И. Альтернатива методу математической статистики. — М.: Знание, 1980.

См. также

Проверка статистических гипотез — о стандартной методике проверки статистических гипотез.
Достигаемый уровень значимости, синонимы: пи-величина, p-Value.

Ссылки

P-value — статья в англоязычной Википедии.
ROC curve — статья в англоязычной Википедии.

Уровни статистической значимости

Уровень значимости – это вероятность того, что мы сочли различия существенными, в то время как они на самом деле случайны.

Итак, уровень значимости имеет дело с вероятностью.

Уровень значимости показывает степень достоверности выявленных различий между выборками, т.е. показывает, насколько мы можем доверять тому, что различия действительно есть.

Современные научные исследования требуют обязательных расчётов уровня статистической значимости результатов.

Обычно в прикладной статистике используют 3 уровня значимости.

Уровни значимости

1. 1-й уровень значимости: р ≤ 0,05.

Это 5%-ный уровень значимости. До 5% составляет вероятность того, что мы ошибочно сделали вывод о том, что различия достоверны, в то время как они недостоверны на самом деле. Можно сказать и по-другому: мы лишь на 95% уверены в том, что различия действительно достоверны. В данном случае можно написать и так: P>0,95. Общий смысл критерия останется тем же.

2. 2-й уровень значимости: р ≤ 0,01.

Это 1%-ный уровень значимости. Вероятность ошибочного вывода о том, что различия достоверны, составляет не более 1%. Можно сказать и по-другому: мы на 99% уверены в том, что различия действительно достоверны. В данном случае можно написать и так: P>0,99. Смысл останется тем же.

3. 3-й уровень значимости: р ≤ 0,001.

Это 0,1%-ный уровень значимости. Всего 0,1% составляет вероятность того, что мы сделали ошибочный вывод о том, что различия достоверны. Это — самый надёжный вариант вывода о достоверности различий. Можно сказать и по-другому: мы на 99,9% уверены в том, что различия действительно достоверны. В данном случае можно написать и так: P>0,999. Смысл опять-таки останется тем же.

Уровень значимости – это вероятность ошибочного отклонения (отвержения) гипотезы, в то время как она на самом деле верна. Речь идёт об отклонении нулевой гипотезы Н_о.

Уровень значимости – это допустимая ошибка в нашем утверждении, в нашем выводе.

Ошибки

Возможны ошибки двух родов: первого рода (α ) и второго рода (β).

Ошибка I рода – мы отклонили нулевую гипотезу, в то время как она верна.

α – ошибка I рода.

р ≤ 0,05, уровень ошибки α ≤ 0,05

Вероятность того, что принято правильное решение: 1 – α = 0,95, или 95%.

Уровни значимости для ошибок I рода

1. α ≤ 0,05 – низший уровень

Низший уровень значимости – позволяет отклонять нулевую гипотезу, но еще не разрешает принять альтернативную.

2. α ≤ 0,01 – достаточный уровень

Достаточный уровень – позволяет отклонять нулевую гипотезу и принимать альтернативную.

Исключение:

G – критерий знаков

T – критерий Вилкоксона

U – критерий Манна – Уитни.

Для них обратное соотношение.

3. α ≤ 0,001 – высший уровень значимости.

На практике различия считают достоверными при р ≤ 0,05.

Для ненаправленной статистической гипотезы используется двусторонний критерий значимости. Он более строгий, так как проверяет различия в обе стороны: в сторону нулевой гипотезы и в сторону альтернативной. Поэтому для него используется критерий значимости 0,01.

Мощность критерия – его способность выявлять даже мелкие различия если они есть. Чем мощнее критерий, тем лучше он отвергает нулевую гипотезу и подтверждает альтернативную.

Здесь появляется понятие: ошибка II рода.

Ошибка II рода – это принятие нулевой гипотезы, хотя она не верна.

Мощность критерия: 1 – β

Чем мощнее критерий, тем он привлекательнее для исследователя. Он лучше отвергает нулевую гипотезу.

Чем привлекательны маломощные критерии?

Достоинства маломощных критериев

Простота
Широкий диапазон, по отношению к самым разным данным
Применимость к неравным по объему выборкам.
Большая информативность результатов.

Самый популярный статистический критерий в России — Т-критерий Стьюдента. Но всего в 30% статей его используют правильно, а в 70% — неправильно, т.к. не проверяют предварительно выборку на нормальность распределения.

Второй по популярности — критерий хи-квадрат, χ²

За рубежом:

Т-критерий Вилкоксона

U-критерий Манна – Уитни

χ² — хи-квадрат.

Т-критерий Стьюдента – это частный случай дисперсионного анализа для более маленькой по объёму выборки.

Источник