Ошибки первого и второго рода
Выдвинутая гипотеза
может быть правильной или неправильной,
поэтому возникает необходимость её
проверки. Поскольку проверку производят
статистическими методами, её называют
статистической. В итоге статистической
проверки гипотезы в двух случаях может
быть принято неправильное решение, т.
е. могут быть допущены ошибки двух родов.
Ошибка первого
рода состоит в том, что будет отвергнута
правильная гипотеза.
Ошибка второго
рода состоит в том, что будет принята
неправильная гипотеза.
Подчеркнём, что
последствия этих ошибок могут оказаться
весьма различными. Например, если
отвергнуто правильное решение «продолжать
строительство жилого дома», то эта
ошибка первого рода повлечёт материальный
ущерб: если же принято неправильное
решение «продолжать строительство»,
несмотря на опасность обвала стройки,
то эта ошибка второго рода может повлечь
гибель людей. Можно привести примеры,
когда ошибка первого рода влечёт более
тяжёлые последствия, чем ошибка второго
рода.
Замечание 1.
Правильное решение может быть принято
также в двух случаях:
-
гипотеза принимается,
причём и в действительности она
правильная; -
гипотеза отвергается,
причём и в действительности она неверна.
Замечание 2.
Вероятность совершить ошибку первого
рода принято обозначать через
;
её называют уровнем значимости. Наиболее
часто уровень значимости принимают
равным 0,05 или 0,01. Если, например, принят
уровень значимости, равный 0,05, то это
означает, что в пяти случаях из ста
имеется риск допустить ошибку первого
рода (отвергнуть правильную гипотезу).
Статистический
критерий проверки нулевой гипотезы.
Наблюдаемое значение критерия
Для проверки
нулевой гипотезы используют специально
подобранную случайную величину, точное
или приближённое распределение которой
известно. Обозначим эту величину в целях
общности через
.
Статистическим
критерием
(или просто критерием) называют случайную
величину
,
которая служит для проверки нулевой
гипотезы.
Например, если
проверяют гипотезу о равенстве дисперсий
двух нормальных генеральных совокупностей,
то в качестве критерия
принимают отношение исправленных
выборочных дисперсий:.
Эта величина
случайная, потому что в различных опытах
дисперсии принимают различные, наперёд
неизвестные значения, и распределена
по закону Фишера – Снедекора.
Для проверки
гипотезы по данным выборок вычисляют
частные значения входящих в критерий
величин и таким образом получают частное
(наблюдаемое) значение критерия.
Наблюдаемым
значением
называют значение критерия, вычисленное
по выборкам. Например, если по двум
выборкам найдены исправленные выборочные
дисперсиии
,
то наблюдаемое значение критерия.
Критическая
область. Область принятия гипотезы.
Критические точки
После выбора
определённого критерия множество всех
его возможных значений разбивают на
два непересекающихся подмножества:
одно из них содержит значения критерия,
при которых нулевая гипотеза отвергается,
а другая – при которых она принимается.
Критической
областью называют совокупность значений
критерия, при которых нулевую гипотезу
отвергают.
Областью принятия
гипотезы (областью допустимых значений)
называют совокупность значений критерия,
при которых гипотезу принимают.
Основной принцип
проверки статистических гипотез можно
сформулировать так: если наблюдаемое
значение критерия принадлежит критической
области – гипотезу отвергают, если
наблюдаемое значение критерия принадлежит
области принятия гипотезы – гипотезу
принимают.
Поскольку критерий
— одномерная случайная величина, все её
возможные значения принадлежат некоторому
интервалу. Поэтому критическая область
и область принятия гипотезы также
являются интервалами и, следовательно,
существуют точки, которые их разделяют.
Критическими
точками (границами)
называют точки, отделяющие критическую
область от области принятия гипотезы.
Различают
одностороннюю (правостороннюю или
левостороннюю) и двустороннюю критические
области.
Правосторонней
называют критическую область, определяемую
неравенством
>
,
где— положительное число.
Левосторонней
называют критическую область, определяемую
неравенством
<
,
где— отрицательное число.
Односторонней
называют правостороннюю или левостороннюю
критическую область.
Двусторонней
называют критическую область, определяемую
неравенствами
где
.
В частности, если
критические точки симметричны относительно
нуля, двусторонняя критическая область
определяется неравенствами ( в
предположении, что
>0):
,
или равносильным неравенством
.
Отыскание
правосторонней критической области
Как найти критическую
область? Обоснованный ответ на этот
вопрос требует привлечения довольно
сложной теории. Ограничимся её элементами.
Для определённости начнём с нахождения
правосторонней критической области,
которая определяется неравенством
>
,
где>0.
Видим, что для отыскания правосторонней
критической области достаточно найти
критическую точку. Следовательно,
возникает новый вопрос: как её найти?
Для её нахождения
задаются достаточной малой вероятностью
– уровнем значимости
.
Затем ищут критическую точку,
исходя из требования, чтобы при условии
справедливости нулевой гипотезы
вероятность того, критерийпримет значение, большее
,
была равна принятому уровню значимости:
Р(>
)=
.
Для каждого критерия
имеются соответствующие таблицы, по
которым и находят критическую точку,
удовлетворяющую этому требованию.
Замечание 1.
Когда
критическая точка уже найдена, вычисляют
по данным выборок наблюдаемое значение
критерия и, если окажется, что
>
,
то нулевую гипотезу отвергают; если же<
,
то нет оснований, чтобы отвергнуть
нулевую гипотезу.
Пояснение. Почему
правосторонняя критическая область
была определена, исходя из требования,
чтобы при справедливости нулевой
гипотезы выполнялось соотношение
Р(>
)=
?
(*)
Поскольку вероятность
события
>
мала (
— малая вероятность), такое событие при
справедливости нулевой гипотезы, в силу
принципа практической невозможности
маловероятных событий, в единичном
испытании не должно наступить. Если всё
же оно произошло, т.е. наблюдаемое
значение критерия оказалось больше,
то это можно объяснить тем, что нулевая
гипотеза ложна и, следовательно, должна
быть отвергнута. Таким образом, требование
(*) определяет такие значения критерия,
при которых нулевая гипотеза отвергается,
а они и составляют правостороннюю
критическую область.
Замечание 2.
Наблюдаемое значение критерия может
оказаться большим
не потому, что нулевая гипотеза ложна,
а по другим причинам (малый объём выборки,
недостатки методики эксперимента и
др.). В этом случае, отвергнув правильную
нулевую гипотезу, совершают ошибку
первого рода. Вероятность этой ошибки
равна уровню значимости.
Итак, пользуясь требованием (*), мы с
вероятностьюрискуем совершить ошибку первого рода.
Замечание 3. Пусть
нулевая гипотеза принята; ошибочно
думать, что тем самым она доказана.
Действительно, известно, что один пример,
подтверждающий справедливость некоторого
общего утверждения, ещё не доказывает
его. Поэтому более правильно говорить,
«данные наблюдений согласуются с нулевой
гипотезой и, следовательно, не дают
оснований её отвергнуть».
На практике для
большей уверенности принятия гипотезы
её проверяют другими способами или
повторяют эксперимент, увеличив объём
выборки.
Отвергают гипотезу
более категорично, чем принимают.
Действительно, известно, что достаточно
привести один пример, противоречащий
некоторому общему утверждению, чтобы
это утверждение отвергнуть. Если
оказалось, что наблюдаемое значение
критерия принадлежит критической
области, то этот факт и служит примером,
противоречащим нулевой гипотезе, что
позволяет её отклонить.
Отыскание
левосторонней и двусторонней критических
областей***
Отыскание
левосторонней и двусторонней критических
областей сводится (так же, как и для
правосторонней) к нахождению соответствующих
критических точек. Левосторонняя
критическая область определяется
неравенством
<
(
<0).
Критическую точку находят, исходя из
требования, чтобы при справедливости
нулевой гипотезы вероятность того, что
критерий примет значение, меньшее,
была равна принятому уровню значимости:
Р(<
)=
.
Двусторонняя
критическая область определяется
неравенствами
Критические
точки находят, исходя из требования,
чтобы при справедливости нулевой
гипотезы сумма вероятностей того, что
критерий примет значение, меньшееили большее
,
была равна принятому уровню значимости:
.
(*)
Ясно, что критические
точки могут быть выбраны бесчисленным
множеством способов. Если же распределение
критерия симметрично относительно нуля
и имеются основания (например, для
увеличения мощности) выбрать симметричные
относительно нуля точки (-
)и
(
>0),
то
Учитывая (*), получим
.
Это соотношение
и служит для отыскания критических
точек двусторонней критической области.
Критические точки находят по соответствующим
таблицам.
Дополнительные
сведения о выборе критической области.
Мощность критерия
Мы строили
критическую область, исходя из требования,
чтобы вероятность попадания в неё
критерия была равна
при условии, что нулевая гипотеза
справедлива. Оказывается целесообразным
ввести в рассмотрение вероятность
попадания критерия в критическую область
при условии, что нулевая гипотеза неверна
и, следовательно, справедлива конкурирующая.
Мощностью критерия
называют вероятность попадания критерия
в критическую область при условии, что
справедлива конкурирующая гипотеза.
Другими словами, мощность критерия есть
вероятность того, что нулевая гипотеза
будет отвергнута, если верна конкурирующая
гипотеза.
Пусть для проверки
гипотезы принят определённый уровень
значимости и выборка имеет фиксированный
объём. Остаётся произвол в выборе
критической области. Покажем, что её
целесообразно построить так, чтобы
мощность критерия была максимальной.
Предварительно убедимся, что если
вероятность ошибки второго рода (принять
неправильную гипотезу) равна
,
то мощность равна 1-.
Действительно, если— вероятность ошибки второго рода, т.е.
события «принята нулевая гипотеза,
причём справедливо конкурирующая», то
мощность критерия равна 1 —.
Пусть мощность 1
—
возрастает; следовательно, уменьшается
вероятностьсовершить ошибку второго рода. Таким
образом, чем мощность больше, тем
вероятность ошибки второго рода меньше.
Итак, если уровень
значимости уже выбран, то критическую
область следует строить так, чтобы
мощность критерия была максимальной.
Выполнение этого требования должно
обеспечить минимальную ошибку второго
рода, что, конечно, желательно.
Замечание 1.
Поскольку вероятность события «ошибка
второго рода допущена» равна
,
то вероятность противоположного события
«ошибка второго рода не допущена» равна
1 —,
т.е. мощности критерия. Отсюда следует,
что мощность критерия есть вероятность
того, что не будет допущена ошибка
второго рода.
Замечание 2. Ясно,
что чем меньше вероятности ошибок
первого и второго рода, тем критическая
область «лучше». Однако при заданном
объёме выборки уменьшить одновременно
и
невозможно; если уменьшить
,
тобудет возрастать. Например, если принять
=0,
то будут приниматься все гипотезы, в
том числе и неправильные, т.е. возрастает
вероятностьошибки второго рода.
Как же выбрать
наиболее целесообразно? Ответ на этот
вопрос зависит от «тяжести последствий»
ошибок для каждой конкретной задачи.
Например, если ошибка первого рода
повлечёт большие потери, а второго рода
– малые, то следует принять возможно
меньшее.
Если
уже выбрано, то, пользуясь теоремой Ю.
Неймана и Э.Пирсона, можно построить
критическую область, для которойбудет минимальным и, следовательно,
мощность критерия максимальной.
Замечание 3.
Единственный способ одновременного
уменьшения вероятностей ошибок первого
и второго рода состоит в увеличении
объёма выборок.
Эта работа о безопасности информационных систем, в которых принимаются серьезные информационные решения и которые можно подразделить на три типа:
- во-первых, системы извлечения информации (информационно-поисковые системы (ИПС), информационно-измерительные системы (ИИС) и другие);
- во-вторых, приемопередающие системы (системы передачи данных (СПД), запросно-ответные системы (ЗОС) и другие);
- в-третьих, системы разрушения, уничтожения информации (постановки помех, подавления сигналов, радиоглушители и другие).
Во всех системах управление — важное явление, процесс, деятельность, которые включают в себя как компоненты организацию системы, распределение ресурсов (планирование), принятие решения и связь.
Трудно назвать область деятельности, в которой не принимались бы время от времени решения. Эта ситуация и явление имеет место всегда и раньше, и теперь, и в будущем.Человек пальцем не пошевелит, не приняв решения об этом. Не всегда это осознается, но это именно так.
Здесь (в работе) основное внимание уделим теории выбора и принятия решений, которая исследует математические модели принятия решений и их свойства. Наука о принятии решений долгое время развивалась, можно сказать, однобоко. Классическая схема охватывается статистической теорией, основывающейся на функции риска, на ошибках первого и второго рода.
Этот подход к принятию решений сыграл свою положительную роль и применимость его сегодня не отрицается, но ограничивается принципами рациональности. Подход не лишен и недостатков. Известно крылатое выражение, приписываемое классику (Госсету (псевдоним Стьюдент)) от статистической теории «о трех видах лжи: преднамеренной, непреднамеренной и статистике».
Другое направление теории принятия решения — алгебраическое возникло несколько позже, но оказалось малодоступным для понимания (и как следствие, для применения). В основе подхода лежит теория отношений частичного порядка и ее частного варианта — отношений предпочтения. Я об этом недавно писал, но публикацию мягко говоря не одобрили.
Порочность такой практики вижу в том, что такое отношение к публикации, читателей, имеющих возможность выставлять минусовые оценки, подтормаживает и отвращает от знакомства с ней других читателей, полагающихся на чужое мнение.
Возможно, спустя небольшое время, горячие головы поостыли, ничего обидного в публикации не было сказано, но кто-то мои замечания принял на свой счет. Даже учебная литература второго подхода весьма ограничена, а монографии, хотя и имеются, но для восприятия сложны, что является определенным тормозом развития подхода.
Занимаясь информационной безопасностью (ИБ) желательно видеть весь спектр проблем и задач присущих ей, и, конечно, важной в полном перечне задач является задача управления ИБ, в частности, выбора и принятия решения.
В общем, здесь я возвращаюсь к теории отношений и ее приложениям, одним из которых является механизм принятия решений и результаты теории принятия решений. В этой публикации раскрою основные положения теории, а в следующей приведу пример с показом вычислительных аспектов и деталей. Вначале назову основные предметные элементы статистического подхода в теории принятия решений и далее кратко приведу их описания.
Функция риска (ФР). Ошибки, род ошибки;
Исходное множество альтернатив (ИМА);
Принцип оптимальности (ОП);
Лицо принимающее решение (ЛПР);
Функция выбора (ФВ);
Функция полезности (ФП);
Критерии принятия решения.
Принятие решений и способы минимизации риска
Решение всегда принимается в ситуации выбора, предполагающего потери, случайность и определенные риски, которые желательно минимизировать. Если же выбор отсутствует, то и решать нечего, действуй единственным образом или вообще бездействуй, как указывает альтернатива.
Смысл и цель минимизации риска состоит в том, чтобы применить эффективные меры защиты таким образом, чтобы остаточный риск в системе стал приемлемым.
Минимизация риска Предполагает решение трех вопросов: определения тех областей, где риск является недопустимо большим; выбора наиболее эффективных средств защиты; оценивания мер защиты и определения, приемлем ли остаточный риск в системе.
В научном исследовании используются гипотезы, которые выдвигаются, формулируются, проверяются, подтверждаются или опровергаются, это естественный путь исследования. Гипотезы могут быть весьма отличающимися по содержанию, способам их формулирования и методам проверки. Важный класс — статистические гипотезы, которые формулируются либо относительно вида закона распределения случайной величины, либо относительно параметров этого закона, либо относительно ранговой упорядоченности значений случайной величины.
Гипотезы сформулированные относительно вероятностно и- статистических и ранговых величин проверяются и оцениваются с помощью разного рода статистических приемов и критериев. Результаты проверки и оценивания статистических гипотез позволяют делать качественные выводы относительно исследуемых явлений. Например, степень близости эмпирического закона распределения случайной величины к теоретическому закону нормальному или Пуассона.
Нулевая и альтернативная гипотезы. Обычно нулевая гипотеза
состоит в том, что выдвигается предположение о виде закона распределения вероятностей случайной величины или о параметре такого закона, либо о ранговой последовательности. Другая гипотеза —
называется альтернативной.
Пример. Пусть гипотеза
— состоит в том, что случайная величина подчиняется Пуассоновскому закону распределения или нормальному закону распределения. Альтернативная гипотеза
— случайная величина не подчиняется ни Пуассоновскому закону распределения, ни нормальному закону распределения. Альтернативных гипотез может быть несколько. Гипотеза
выступает как отрицание.
Проверка истинности гипотез выполняется всегда на случайной выборке. Но выборка ограничена (конечна), а потому она не может идеально точно отразить закон распределения вероятности в генеральной совокупности. Всегда имеется риск сформулировать такую гипотезу, что «неудачная» выборка может дать совершенно ложную информацию о существе дела. Таким образом, всегда есть шанс прийти к ложному решению.
По результатам применения одного из критериев статистической проверки гипотез возникает одна из четырех ситуаций:
-нулевая гипотеза
принимается, и она верна (соответственно
отвергается ложная альтернативная гипотеза
);
-нулевая гипотеза
отвергается, и она ложна (соответственно
принимается верная альтернативная гипотеза
);
-нулевая гипотеза
отвергается, хотя она и верна ( соответственно принимается ложная гипотеза
);
-нулевая гипотеза
принимается, хотя она и ложна (соответственно отвергается истинная альтернативная гипотеза
);
Первые две ситуации представляют собой правильное решение, а две последние — ошибочное решение.
Ошибки первого и второго рода.
Ошибкой первого рода α1 называется решение, состоящее в отвержении правильной гипотезы
(третья ситуация, часто называемая «пропуск цели»).
Ошибкой второго рода α2 называется решение принять нулевую гипотезу
, хотя она ложна (названа «ложная тревога»).
Ошибки 1-го и 2-го рода могут иметь разную значимость и тогда выбор в качестве основной гипотезы
при решении стоящей проблемы становится важным. Ошибкой первого рода должна считаться та, из возможных ошибок, которую важнее избежать, т.е. лучше правильное доработать, чем принять в работу неправильное.
Пусть наблюдается событие, представленное вектором
в n–мерном пространстве, которое может принадлежать только одному из двух множеств V1 или V2. Интерес представляет метод, который бы на основе изучения события представленного вектором, позволил бы с минимальной вероятностью ошибки получить ответ на вопрос о том, к какому из двух V1 или V2 множеств следует отнести исследуемое событие или соответствующий ему вектор.
Другими словами, метод должен классифицировать событие и завершаться принятием решения об отнесении его к определенному классу. Теоретически, в процессе принятия такого решения возможны ошибки двоякого рода, которые как раз и называют ошибками первого и второго рода. При этом выдвигают две гипотезы:
– гипотеза, предполагающая, что событие S принадлежит множеству V1 и
– гипотеза, предполагающая, что событие S принадлежит множеству V2.
Будем полагать, что ошибка первого рода допускается тогда, когда отклоняется гипотеза
, хотя она справедлива, и допускается ошибка второго рода, если принимается гипотеза
тогда, когда справедливой оказывается гипотеза
(1).
Обычно нулевая гипотеза
состоит в том, что выдвигается предположение об изучаемом явлении. Другая гипотеза
называется альтернативной.
Альтернативных гипотез может быть несколько, и все они выступают как отрицание нулевой.
Проверка гипотез выполняется всегда на случайной выборке, но в эксперименте выборка всегда конечна, а посему она не может идеально точно отразить закон распределения вероятностей в генеральной совокупности.
Всегда имеется риск сформулировать такую гипотезу, что “неудачная” выборка может дать совершенно ложную информацию о существе дела. Всегда есть шанс прийти к ложному решению. Часто ошибку первого рода называют “пропуском цели”, а ошибку второго рода – “ложной тревогой’.
В конфликтных ситуациях принцип максимальной эффективности полностью сохраняет свою силу. Спецификой конфликта является неопределенность ситуации, которая порождает риск. Следовательно, общим принципом рационального поведения в конфликте является максимальная эффективность при допустимом риске (либо достижение эффективности не ниже заданной при минимальном оперативном риске). Риск понятие далеко неоднозначное.
Анализ различных событий и возможностей позволяет найти правило, определяющее решение для каждой точки рассматриваемого n–мерного пространства. Действительно, если наблюдаемым событием является угроза при ее проявлении в форме атаки
(2), которую следует отнести к одному из двух образов (классов) V1 или V2, то возникает ситуация, имеющая место при распознавании образов.
Пусть известна вероятность появления угрозы (атаки)
, при условии, что ее образ принадлежит классу V1. Эту вероятность, которая характеризует плотность образов (членов) класса V1, называют условной плотностью вероятности в классе V1, и обозначают
или
(3).
Аналогично вводится обозначение условной плотности распределения вероятностей в классе V2, т.е.
(4).
Вероятность “ложной тревоги”, т.е. решения о том, что имеет место атака, принадлежащая классу V1, в то время, как в действительности атака принадлежит классу V2, записывается в виде,
(5)
где
– априорная вероятность атаки объектом из класса V2.
Аналогично вероятность “пропуска цели”, можно записать в виде , (6)
где
– априорная вероятность атаки объектом из класса V1; и
– области пространства, соответствующие классам V1 и V2.
Практический интерес представляет такое решающее правило, которое минимизировало бы риск W или среднюю стоимость принятия решения, определяемую по следующей формуле
(7), где α1 – вес ошибки первого рода, α2 – вес ошибки второго рода.
Учитывая, что области
образуют все пространство возможных значений, а интеграл от плотности вероятности по всему пространству, равен единице, получаем
(8)
Интерпретация такого подхода может быть следующей. Задача выбора оптимального решения сводится к разделению пространства образов атак на две области
, так чтобы риск W оказался минимальным. Из выражения для W видим, что с этой целью область
надо выбрать так, чтобы интеграл в (8) принял бы наибольшее отрицательное значение.
Подынтегральное выражение при этом должно принимать наибольшее отрицательное значение, и вне области
не существует никакой другой, где подынтегральное выражение отрицательно, т.е.
(9)
Из соотношения (9) легко получается следующее решающее правило SєV1 если , (10)
которое состоит в сравнении отношений плотностей вероятностей с некоторым порогом θ, который является постоянным для определенных значений весов α1 и α2. Это правило относят к классу байесовских правил, и отношение плотностей вероятностей называется коэффициентом подобия.
В случае α1=α2 и
=
порог θ, очевидно, равен единице, и здесь все более, менее ясно. Проблемы возникают в левой части решающего правила (10). Условные плотности распределения вероятностей
и
предполагаются известными.
На самом деле это не так. Более того, получение их аналитического или даже численного значения предоставляет существенные трудности. Поэтому чаще всего ограничиваются приближенными значениями, определяя относительную частоту, с которой возникают атаки объекта из класса V1. Ограниченная выборка обрабатывается соответствующим образом и по результатам обработки оцениваются неизвестные распределения.
Исходное множество альтернатив (вариантов) Ω, задаваемых ситуацией, ограничениями, ресурсами и др. условиями. Множество Ω необходимо упорядочить. Определение.Нестрогим упорядочением называется бинарное отношение, рефлексивное, транзитивное и асимметричное.
Если такое БО нерефлексивное, то упорядочение называют строгим. Если в упорядочении любые две альтернативы сравнимы, то упорядочение — линейное или совершенное. Если не все альтернативы сравнимы, то упорядочение называют частичным. Отношение предпочтения — частный случай упорядочения.
Принцип оптимальности задает понятие лучших альтернатив путем отображения φ: Ω → Е1. Такое свойство альтернатив называют критерием, число φ(х)- оценкой альтернативы х по критерию, Е1 — критериальное пространство, в котором координаты точек являются количественными оценками по соответствующим критериям.
Центральной в теории является общая задача принятия решений, в которой могут быть неизвестными как множество альтернатив Ω, так и принцип оптимальности. При известных альтернативах возникает задача выбора, а дополнительно и при известном принципе оптимальности — общая задача оптимизации.
Определение. Лицо принимающее решение(ЛПР) — субъект решения, наделённый определёнными полномочиями и несущий ответственность за последствия принятого и реализованного управленческого решения.
Это человек (или группа лиц), имеющие цель, служащую мотивом постановки задачи принятия решения, и поиска ее решения.
Предпочтение ЛПР — бинарное отношение, заданное на множестве альтернатив, описывающее предпочтения ЛПР, например, на основе парных сравнений.
Определение. Функция риска описывает риск или возможные потери (ущерб) при выборе конкретной альтернативы. Риск — математическое ожидание функции потерь вследствие принятия решения. Является количественной оценкой последствий принятого решения. Минимизация риска является главным критерием оптимальности в теории принятия решений.
Согласно теории статистических решений требуется найти такое правило, которое минимизировало бы риск
, или среднюю стоимость принятия решения, определяемую по формуле
, где
— стоимость (вес) ошибки первого рода;
— стоимость ошибки второго рода.
Определение. Функция выбора С служит математическим выражением принципа оптимальности и является отображением, сопоставляющим каждому Х ⊆ Ω его подмножество С(Х) ⊆ Х [8, стр.32].
Задано множество вариантов (альтернатив) Ω = {
}.
Рассмотрим функцию выбора С на этом множестве Ω.
, где
, где
.
Эта функция может быть представлена и в логической форме таблицей.
В таблице β(Х) — предъявленное множество альтернатив, β(С(х))- результат выбора в логических (булевых) переменных
Сущность решения, его принятия состоит в выборе подходящей альтернативы.
Определение. Фу́нкция поле́зности
— функция, с помощью которой можно представить предпочтения на некотором множестве допустимых альтернатив. Функция
, определенная на упорядоченном множестве Х, называется функцией полезности, если для всех
.
Если множество альтернатив Х содержит малое их число, то определив на этом множестве бинарное отношение (БО) предпочтения, т. е. произведя упорядочение альтернатив, нетрудно выбрать подходящую.
Наличие большого множества альтернатив, которые необходимо упорядочить становится трудоемким процессом. трудность преодолима при возможности измерять предпочтения и заменять их числовыми показателями качества.
Вопросы представления предпочтений в форме числовых функций принадлежат математической теории полезности.
Если функция полезности существует, то для нахождения оптимального решения (максимальной по заданному предпочтению альтернативы) достаточно найти максимум функции U(x) на X, для чего можно использовать классический математический анализ или оптимизационные методы.
Теорема (существования функции полезности). Если на бесконечном множестве Х задано строгое предпочтение (>), то для существования функции полезности необходимо и достаточно, чтобы Х содержало плотное по упорядочению счетное множество.
Определение. Множество А называется плотным в Х по упорядочению, если для любых
существует такой
.
Пусть V — любая монотонно возрастающая функция от
, тогда
также будет функцией полезности.
Далее, если предпочтение не является совершенным (линейным) упорядочением, то и тогда можно доказать теорему существования функции полезности
), но с ограничением. Это естественно, так как любая функция порождает совершенное упорядочение, но не порождает информацию о первоначальном предпочтении.
Более простой функцией полезности является линейная,
, в которой α’ и β’ определяются как константы.
Теорема (существования линейной функции полезности). Если множество Х и упорядочение (*>) удовлетворяют условиям:
— множество альтернатив Х является выпуклым множеством векторного пространства;
— предпочтение на множестве альтернатив непрерывно;
— смеси, составленные из безразличных альтернатив, безразличны, то существует такая действительная линейная функция U(x), что для всех
На практике интерес представляет двумерный случай для переменных у и х.
Функция полезности принимает следующий вид для двумерного случая
При разных значениях параметра p можно получить частные случаи.
Если p=1, то функция является линейной и описывает совершенные заменители. В этом случае предельная норма замещения равна отношению параметров α/β,
Если p → — ∞, то получается функция Леонтьева, которая описывает совершенные дополнители. Предельная норма замещения в этом случае бесконечна.
При p → 0 получается функция Кобба-Дугласа, если наложить дополнительное условие α + β = 1
Моделирование процесса принятия решения
Понятие модели в современной науке стало привычным и необходимость выяснения содержания понятия перестала осознаваться. На практике понятие моделей, процедур, схем и методов принятия решений часто смешиваются и перестают отличать одно от другого. Возможности моделирования предпочтений многократно перекрывают таковые у человека и часто возможности модели оказываются богаче реальности.
Говорить о модели принятия решения следует лишь в связи с конкретной задачей принятия решения (ЗПР), которую предстоит решить. Это означает, что выбран класс базовых структур предпочтений, в рамках которого будет осуществляться поиск лучшего решения.
Различные модели решения одной и той же ЗПР будут различаться именно принципами, положенными в их основу. Полагаем, что рассматривается некоторое множество исходных структур предпочтений (отношений), заданных в матричной форме, например, матриц парных сравнений. На этом множестве исследуется определенная ЗПР и говорят, что на множестве исходных структур задана модель решения поставленной ЗПР.
К моделям принятия решений предъявляются достаточно жесткие требования: корректность, адекватность, полнота, универсальность и др.
Корректность в математике определяется существованием решения, единственностью решения и его устойчивостью.
Адекватность — соответствие оригиналу, т. е. правильность отражения в модели моделируемых принципов и особенностей процесса принятия решения. Существенными являются различия между нормативным (прескриптивным) и дескриптивным подходами.
В первом главенствуют априорные предположения о том, какими должны быть общие принципы, формулируемые как аксиомы, которым должны удовлетворять разрабатываемые модели принятия решения.
Во втором — особенности разрабатываемых моделей описываются не аксиоматически, а атрибутивно, при помощи системы свойств, каждое из которых содержательно интерпретируется ЛПР и представляется ему разумным и в той или иной степени желательным.
Полнота для моделей заключается в том, что основные принципы, лежащие в основе принятия решения, должны отражаться не только точно, но и в достаточном объеме.
Универсальность модели — определяется возможностью ее применения к широкому классу исходных структур предпочтений.
Методы принятия статистических решений
Задача принятия решения формулируется следующим образом.
Имеется m + 1 состояний
объекта исследования, образующих полную группу несовместных событий, априорные вероятности состояний соответственно равны
и
.
Для каждого из состояний задаются
— функции правдоподобия
;
— набор решений
;
— функции потерь
;
— критерий качества выбора решения f(П), связанный с функцией потерь.
Требуется определить наилучшее в смысле используемого в задаче принятого критерия правило
использования результатов наблюдений
для принятия решения.
Легко устанавливаются соответствия: множеству Е соответствуют выборки
, вероятностной мере Р соответствует функция правдоподобия
Задать предпочтения на множестве Р в смысле принятых критериев — это означает определить правило принятия решения при принятых критериях.
Критерии в теории статистических решений используются в зависимости от полноты исходной информации. Рассматривают следующее множество критериев:
— Байеса;
— максимума апостериорной вероятности,;
— максимального правдоподобия;
— минимаксный;
— Неймана-Пирсона;
— Вальда.
В основу метода кладется критерий выбора альтернативы. В соответствии с названными критериями в задаче формулируются правила принятия решений. Сами критерии сравниваются по качеству правил принятия решения, например, по условной функции риска
, которая представляет среднюю величину потерь для заданного состояния
.
Определение. Байесовским правилом (критерием) — называется правило принятия оптимального решения минимизирующее среднюю функцию риска. Минимальное значение средней функции риска называют байесовским риском.
Использование этого критерия предполагает наличие:
— функции потерь
;
— условных функций распределения вероятностей выборочных значений
;
— априорное распределение вероятностей состояний
.
Определение. Специальным случаем байесовского критерия называется любое минимаксное правило выбора решения в условиях наименее благоприятного априорного распределения вероятностей (
) состояний
.
При неизвестном априорном распределении состояний устанавливается специальный критерий качества принятия решения, использующий лишь условную функцию риска
.
Интерпретация следующая. Имеется множество К правил принятия решения, для каждого из которых определено значение максимальной величины условного риска по всем возможным состояниям объекта исследования
. Из этих значений далее выбирается наименьшее значение
При этом обеспечивается, что потери (в среднем) не будут больше некоторой величины r*. Это правило, вообще говоря, является очень осторожным критерием.
Определение. Максимумом апостериорной вероятности состояний
при наблюдаемой выборке
называют критерий вида
.
При этом утверждается истинной та из гипотез относительно состояний
,
j =1(1)m, для которой апостериорная вероятность максимальна.
Этот критерий используется при известном априорном распределении состояний
и отсутствии обоснований относительно величины потерь
. В этой ситуации выполняют разбиение пространства выборок. К области
относят те выборки
, для которых при всех j ≠ k
.
Критерием принятия решения выбирается максимум апостериорной вероятности.
Определение. Критерием максимального правдоподобия называют частный случай максимума апостериорной вероятности при отсутствии априорных сведений о распределении вероятностей состояний, о возможных потерях и допущении, что все состояния равновероятны, т.е.
Согласно критерию при анализе и наблюдении выборки
принимается та из гипотез относительно состояний
, для которой функция правдоподобия
больше других функций правдоподобия
Теперь будем рассматривать ситуацию с двумя альтернативами, что на практике часто встречается.
Задача принятия решения несколько упрощается и сводится при использовании любого из рассмотренных ранее критериев к вычислению отношения функций правдоподобия по наблюдаемой выборке
и сравнению полученного результата с наперед заданным порогом С* (порогами
и
), т.е.
.
При выполнении неравенства принимается решение
, свидетельствующее о том, что объект исследования находится в состоянии
. Противоположному неравенству соответствует состояние
и решение принимается другое
.
Значение порога С* определяется используемым критерием. В случае критерия Байеса , где
— соответственно априорные вероятности появления событий
;
— потери, когда имеет место событие
и соответственно принимаемые решения
;
— потери при правильных решениях.
При критерии максимум апостериорной вероятности формула упрощается
, а
для критерия максимального правдоподобия становится константой С* = 1.
При использовании минимаксного критерия порог вычисляется по формуле с неравенством, в которую вместо
подставляют значения априорных вероятностей
, при которых величина среднего риска принимает максимальное значение
Определение Критерием Неймана-Пирсона называют правило выбора альтернативы, при котором величина порога определяется исходя из заданной величины вероятности ошибки первого рода (α).
Ошибка первого рода возникает, когда выборка попадает в критическую область
, хотя изучаемое явление находится в состоянии
, т.е. верна гипотеза
, и она отвергается.
Ошибка второго рода возникает, когда выборка попадает в допустимую область
, хотя изучаемое явление находится в состоянии
, т.е. принимается ложная гипотеза —
Чтобы определить величину порога, необходимо решить следующее интегральное уравнение (для α) относительно С*
,
где
— одномерная плотность распределения отношения функции правдоподобия при гипотезе
.
В свою очередь, вероятность ошибки второго рода β определится из решения правого интегрального уравнения, где
— одномерная плотность распределения отношения функции правдоподобия при гипотезе
.
Определение. Критерием Вальда называют такое правило выбора решения, при котором отношение функций правдоподобия сравнивается с двумя порогами
Точное определение порогов
сопряжено со значительными математическими трудностями.
.
Заключение
В работе дан краткий обзор возможностей существующей теории принятия статистических решений. Названы основные элементы и составные части теории, приложений и моделей. Приводится краткая характеристика названным элементам и приведены их описания.
В образовательном плане важно знать о существовании такой теории и при возникновении и осознании потребности принимать решения обращаться к ее азам. Замечу, что в этой сфере как и в сфере воспитания все считают себя (особенно родители) вполне компетентными.
Но именно следствием воспитания является алкоголизм и процветает наркомания среди молодых, а следствием недообразованности — принимаемые решения, которые приводят нас к тому, что мы имеем в своей стране.
Не исключаю, что опять найдется кто-нибудь и скажет, что заключение не в тему.
Список используемой литературы
1. Азгальдов Г.Г., Райхман Э.П. О квалиметрии. -М.: Изд. стандартов, 1973. – 172с.
2. Грушо А.А., Тимонина Е.Е. Теоретические основы защиты информации.- М.: Яхтсмен, 1996. — 192с.
3. Девянин П.Н. Модели безопасности компьютерных систем. – М.: Изд.ц. «Академия», 2005. – 144с.
4. Теоретические основы компьютерной безопасности/Девянин.Н., Михальский О.О. и др.–М.: Радио и связь, 2000.
5. Пфанцагль И. Теория измерений. — М.: МИР, 1976. – 248с.
6. Фишберн П. Теория полезности для принятия решений. –М.: Наука, 1978. – 352 с.
7. Куратовский К., Мостовский А. Теория множеств. – М.: Мир,1976.– 416с.
8. Макаров И.М. и др.Теория выбора и принятия решений: учебное пособие для вузов / И. М. Макаров [и др.]. — М.: Наука, 1982.
9. Мейер Д. Теория реляционных баз данных.– М.: Мир,1987. –608с.
10. Гнеденко Б.В. Курс теории вероятностей. – М.: Наука,1969. – с.
11. Лоэв М. Теория вероятностей. –М.: ИЛ, 1962. – с.
12. Ярочкин В.И. Система безопасности фирмы. – М.: Ось – 89, 2003. –352с.
13. Общие критерии оценки безопасности информационных технологий CCEB-96/011. Часть 1: Введение и общая модель. Версия 1.0. 96/01/31. E/E. ИТК НАН Беларуси.
14. Дружинин В.В. и др. Введение в теорию конфликта. — М.: Радио и связь,1989. — 288с.
15. Расторгуев С.П. Информационная война. — М.: Радио и связь,1998. — 416с.
16. Большая советская энциклопедия – М.: ГНИ БСЭ,1953.-
17. Словарь иностранных слов. — М.: Гиз иностранных и национальных словарей,1950. — 806с.
18. ДёчГ. Руководство к практическому применению преобразования Лапласа и Z-преобразования. — М.: Наука, 1971.- 288с.
19. FIPS PUB 191, Руководство по анализу безопасности ЛВС. 9 ноября 1994 г. E/E.
21. Katzke, Stuart W. ,Phd., “A Framework for Computer Security Risk Management”, NIST, October, 1992.
22. Саати Т.Л. Математические модели конфликтных ситуаций. — М.: Сов радио, 1977. — 302с.
23. Крапивин В.Ф. Теоретико-игровые методы синтеза сложных систем в конфликтных ситуациях.– М.: Сов радио, 1972. — 117с.
24. Гаврилов В.М. Оптимальные процессы в конфликтных ситуациях. — М.: Сов радио, 1969. — 160с.
25. Ватель И.А., Ерешко Ф.И. Математика конфликта и сотрудничества. — М.: Знание, 1973. — 64с.
26. Нейман Дж. фон, Моргенштерн О. Теория игр и экономическое поведение. — М.: Наука,1970. 27. Нартов Б.К. и др. Конфликт сложных систем. Модели и управление. — М.: МАИ, 1995. — 120с.
28. Айзекс Р. Дифференциальные игры. — М.: Мир, 1967. —
29. Петросян Л.А. Дифференциальные игры преследования. — М.: ЛГУ, 1977. — 30. Хеллман О. Введение в теорию оптимального поиска. -М.: Наука ,1985. —
31. Ансофф И. Стратегическое управление. — М.: Прогресс, 1989. –
32. Плэтт В. Стратегическая разведка. — М.: Форум, 1997. — 376с.
Вероятности ошибок
Под ошибкой первого рода понимается
ложная тревога. Вероятность ошибки
первого рода вычисляется как:
— для непрерывной случайной величины
;
— для дискретной случайной величины
.
Под ошибкой второго рода понимается
пропуск цели. Вероятность ошибки второго
рода вычисляется как:
— для непрерывной случайной величины
;
— для дискретной случайной величины
.
Вероятность
– носит название вероятности правильного
обнаружения.
Как правило, наблюдения распределены
по нормальному закону:
На рисунке ниже показаны ошибки первого
и второго рода для случая нормального
распределения наблюдений.
Обычно, в задачах обнаружения пропуск
цели штрафуется дороже, чем ложная
тревога. Для значений функции потерь,
приведенных в таблице,
,
.
Таблица 1
С(x,d) |
d=d1 |
d=d0 |
x=x1 |
c11 |
c10 |
x=x0 |
c01 |
c00 |
Рабочая характеристика решающего правила
На рисунке ниже показаны характеристики
,
и
семейства решающих правил
.
Характеристика показывает зависимость
вероятности правильного обнаружения
объекта и вероятности ложной тревоги.
Для приведенных характеристик справедливо
следующее соотношение:
.
В качестве примера характеристики
решающего правила можно рассмотрим
отношение сигнал/шум. Тогда, в случае
нормального распределения наблюдений
и при условии, что
,
.
– функция мощности решающего правила.
Под мощностью решающего правила при
заданном значении
понимают вероятность принятия правильного
решения при заданном состоянии среды.
Байесово решающее правило
Условные риски от принятия решающего
правила
равны (здесь и далее используются
значения функции потерь из таблицы 1):
;
.
Средний риск принятия решающего правила
равен:
.
Апостериорный риск принятия решающего
правила
равен:
;
.
Байесовское решающее правило
:
.
Рассмотрим случай, когда
,
тогда
.
Выполним ряд преобразований:
;
.
С учетом того, что
,
получаем:
.
Тогда
,
где
– отношение правдоподобия;
– пороговое значение.
При равных вероятностях
обычно
и тогда
.
Пример. Пусть задана функция
правдоподобия
,
вероятности нахождения пространства
в различных состояниях одинаковые
,
пороговое значение
.
На рисунке ниже показана функция
правдоподобия и граница разбиения
множества наблюдений
.
Отношение правдоподобия показано на
рис. ниже
Если наблюдения имеют нормальное
распределение, т.е.
;
,
тогда отношение правдоподобия имеет
вид:
.
Для удобства используется логарифм
отношения правдоподобия:
.
Тогда байесовское решающее правило
имеет вид:
.
Максимум
апостериорной вероятности
Функция потерь
,
где
.
Тогда
,
и пороговое значение
.
Условный риск равен:
;
.
Средний риск равен:
.
Минимизируем вероятность принятия
неправильного решения
Максимум
правдоподобия
При
пороговое значение
.
Средний риск равен:
.
Решающее правило
Неймана-Пирсона
Решающее правило Неймана-Пирсона
представляет собой семейство решающих
правил и является пороговым:
,
где
определяется из условия:
,
где α – заданная вероятность ложной
тревоги.
Решающее правило Неймана-Пирсона принято
характеризовать с использованием
функции мощности решающего правила
.
Лемма Неймана-Пирсона
Решающее правило Неймана-Пирсона для
любого значения вероятности ложной
тревоги и для любого решающего правила
обладает наиболее мощным среди всех
решающих правил:
,
или
,
.
Следствие: Решающее правило
Неймана-Пирсона является допустимым
при простой функции потерь:
— допустимое решающее правило.
Доказательство:
;
и если
,
то
.
Доказательство (леммы):
Пусть
—
пространство наблюдений,
– область пространства наблюдений, при
попадании наблюдения в которую решающее
правило Неймана-Пирсона принимает
значение
,
– область пространства наблюдений, при
попадании наблюдения в которую
произвольное решающее правило принимает
значение
.
Введем ряд обозначений (см. рисунок
ниже):
;
;
.
=
=
При переходе (1) использовалось соотношение:
,
.
При переходе (2) учитывалось, что
,
т.к.
— порог для
,
а
=Ø.
Замечание. При
выполняется строгое равенство
.
Структура решающих
правил
Все решающие правила можно рассматривать
как правила Неймана-Пирсона
при фиксированном с помощью порога
значении
,
а это значит, что и МАВ и МП и байесовские
решающие правила дают допустимую
решающую функцию. В тоже время все
критерии можно рассматривать как
байесовские при постой функции потерь.
В таблице ниже приведены решающие
правила и соответствующие им пороги.
Решающее правило |
Порог |
Байесово решающее правило |
|
МАВ (максимум апостериорной вероятности) |
|
МП (максимум правдоподобия) |
1 |
Н-П (решающее правило Неймана-Пирсона) |
Определяется з условия
|
Рассмотрим задачу обнаружения самолета
радиолокационными средствами. На рисунке
ниже показаны функции правдоподобия
для состояний среды
и
при наличии наблюдений
.
При отражении сигнала от самолета сигнал
хорошо локализован и имеет меньшую
дисперсию, при отражении от облаков
сигнал плохо локализован.
На рисунках ниже показано множество
решающих правил
и решающие правила для МП, байесова
решающего правила и решающего правила
Неймана-Пирсона.
Решающее правило МП есть точка касания
границы множества
и прямой, проведенной под углом 135° к
оси абсцисс.
Байесово решающее правило есть точка
касания границы множества
и прямой, проходящей через точку
.
Решающее правило Неймана-Пирсона
определяется соответствующими значениями
и
.
d0
Множество точек
обладает свойством поворотной симметрии
относительно прямой
,
,
т.е. симметрией относительно вращения
на 180°. Симметричность области
следует из возможности для любого
разбиения
,
построить разбиение
,
,
тогда
;
.
Асимметрия области относительно
биссектрисы объясняется различием
функций правдоподобия
и
.
Последовательные
решения
До сих пор рассматривалась задача
принятия решения на основе анализа всех
имеющихся измерений (наблюдений). Однако,
если вектор наблюдения
можно рассматривать как последовательность
векторов
,
каждый из которых получен в момент
времени
имеет смысл рассматривать задачу
принятия решения как совокупность двух
задач:
а) принятие решения об остановке
наблюдений;
б) принятия решения по имеющимся к
моменту остановки наблюдения измерениям.
Рассмотрим простую двухальтернативную
задач. Пусть покупателю нужно принять
решение о закупке партии товара, например,
лампочек на основе закупки и исследования
пробной партии. Множество состояний
партии лампочек
,
где
— партия лампочек не является бракованной,
— партия лампочек бракованная. Множество
решений
,
где
— решение о закупке партии лампочек,
— решение об отказе о закупке партии
лампочек. Множество измерений на момент
времени
будем обозначать
,
.
Пусть измерения являются независимыми:
.
Требуется определить момент
,
после которого наблюдения дальше не
производятся и по совокупности измерений
принять решение
или
.
Рассмотрим разбиение пространства
,
где
— область продолжения наблюдений,
— область принятия решения
,
— область принятия решения
.
При этом
Ø,
.
В качестве критерия оптимальности будем
использовать среднее количество
измерений
,
необходимое для принятия решения при
заданных вероятностях ошибок I
и II рода.
Для принятия решения будем использовать
отношение правдоподобия
,
или его логарифм
,
.
Математик А. Вальд (1947 г.) показал, что
при заданных ошибках первого рода
и второго рода
наименьшим временем анализа обладает
процедура вида:
,
где
и
— некоторые пороговые значения.
На рисунке ниже показаны пороги
и
на пря мой
.
Покажем, что для порогов
и
справедливы следующие соотношения:
,
.
Действительно,
,
где при переходе (1) учтено, что
,
.
Аналогично:
,
где при переходе (1) учтено, что,
,
.
На рисунке ниже показаны пороги
и
на пря мой
с учетом полученных соотношений.
Замечание. Для того чтобы обеспечить
выполнение неравенства
достаточно, что бы
,
.
Действительно,
,
тогда
.
Из получено неравенства следует, что
и
.
Точные значения порогов вычислить
трудно, поэтому полагают, что:
,
.
Тогда решения становятся более осторожными
и увеличивается среднее время до принятия
решения, т.е. в рассматриваемом примере
увеличивается количество лампочек,
которые нужно проверить до принятия
решения.
При изменении пороговых значений
вероятности ошибок I и II
рода также изменятся:
,
.
Для новых значений вероятностей
выполняются следующие соотношения:
,
откуда
.
Сложив неравенства, получаем:
;
,
откуда
.
Примечание. На практике обычно
работают с логарифмом отношения
правдоподобия
.
Тогда
;
;
.
При работе с логарифмом отношения
правдоподобия для нормального закона
не требуется вычислять экспоненту.
На рисунке ниже показаны пороги
и
на пря мой
.
Утверждение. Количество наблюдений
до остановки наблюдений конечно, т.е.
процедура последовательного анализа
является конечной:
,
как при принятии решения
,
так и при принятии решения
.
Лемма. Пусть
– последовательность независимых
одинаково распределенных случайных
величин с математическим ожиданием
случайных величин. Тогда для всякой
последовательной процедуры со свойством
имеет место равенство:
.
Оценка количества
наблюдений
Пусть множество состояний природы
,
множество решений
.
Рассмотрим две гипотезы:
,
.
При состоянии природы
получаем
,
где
,
где
— номер последнего наблюдения, где
,
.
При состоянии природы
получаем
,
где
,
где
— номер последнего наблюдения, где
.
.
В среднем для принятия решения
необходимо выполнить
измерений, для принятия решения
необходимо в среднем
измерений.
На рисунке ниже показаны функции
апостериорной вероятности для состояний
среды
и
при наличии наблюдения
.
Значения
,
.
Если
,
тогда
.
Если
,
тогда
,
и принимается решение
.
В общем виде для принятия некоторого
решения
необходимо в среднем выполнить
измерений:
,
.
Найдем числитель этого выражения. Для
этого будем считать, что в момент
остановки
или
.
Тогда вероятности событий равны:
|
|
|
|
|
|
|
|
Откуда
,
тогда
,
.
Усеченные процедуры
Последовательная процедура имеет
минимальное среднее время анализа,
однако некоторая реализация процедуры
может оказаться непомерно длинной.
Поэтому, обычно, заранее выбирают число
,
являющееся максимальным номером
наблюдения, исходя из заданной вероятности
.
Если решение не принято последовательной
процедурой, то оно принимается, например,
по методу Неймана-Пирсона. При этом
ухудшается качество решения, т.е.
оказывается больше.
Пусть провели серию из
наблюдений. В результате был получен
вектор наблюдений
.
После
наблюдений ресурс наблюдений оказался
исчерпан. Применим классическую схему:
вычислим отношение правдоподобия
,
решение
,
где ∆ – пороговое значение.
Усеченная пороговая процедура дает
решения хуже по сравнению с классической
процедурой, поскольку при принятии
решения используется аномальная
последовательность наблюдений.
Наблюдение в форме
прогноза
Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
Материал из MachineLearning.
Перейти к: навигация, поиск
Содержание
- 1 Методика проверки статистических гипотез
- 2 Альтернативная методика на основе достигаемого уровня значимости
- 3 Типы критической области
- 4 Ошибки первого и второго рода
- 5 Свойства статистических критериев
- 6 Типы статистических гипотез
- 7 Типы статистических критериев
- 7.1 Критерии согласия
- 7.2 Критерии сдвига
- 7.3 Критерии нормальности
- 7.4 Критерии однородности
- 7.5 Критерии симметричности
- 7.6 Критерии тренда, стационарности и случайности
- 7.7 Критерии выбросов
- 7.8 Критерии дисперсионного анализа
- 7.9 Критерии корреляционного анализа
- 7.10 Критерии регрессионного анализа
- 8 Литература
- 9 Ссылки
Статистическая гипотеза (statistical hypothesys) — это определённое предположение о распределении вероятностей, лежащем в основе наблюдаемой выборки данных.
Проверка статистической гипотезы (testing statistical hypotheses) — это процесс принятия решения о том, противоречит ли рассматриваемая статистическая гипотеза наблюдаемой выборке данных.
Статистический тест или статистический критерий — строгое математическое правило, по которому принимается или отвергается статистическая гипотеза.
Методика проверки статистических гипотез
Пусть задана случайная выборка — последовательность
объектов из множества
.
Предполагается, что на множестве существует некоторая неизвестная вероятностная мера
.
Методика состоит в следующем.
- Формулируется нулевая гипотеза
о распределении вероятностей на множестве
. Гипотеза формулируется исходя из требований прикладной задачи. Чаще всего рассматриваются две гипотезы — основная или нулевая
и альтернативная
. Иногда альтернатива не формулируется в явном виде; тогда предполагается, что
означает «не
». Иногда рассматривается сразу несколько альтернатив. В математической статистике хорошо изучено несколько десятков «наиболее часто встречающихся» типов гипотез, и известны ещё сотни специальных вариантов и разновидностей. Примеры приводятся ниже.
- Задаётся некоторая статистика (функция выборки)
, для которой в условиях справедливости гипотезы
выводится функция распределения
и/или плотность распределения
. Вопрос о том, какую статистику надо взять для проверки той или иной гипотезы, часто не имеет однозначного ответа. Есть целый ряд требований, которым должна удовлетворять «хорошая» статистика
. Вывод функции распределения
при заданных
и
является строгой математической задачей, которая решается методами теории вероятностей; в справочниках приводятся готовые формулы для
; в статистических пакетах имеются готовые вычислительные процедуры.
- Фиксируется уровень значимости — допустимая для данной задачи вероятность ошибки первого рода, то есть того, что гипотеза на самом деле верна, но будет отвергнута процедурой проверки. Это должно быть достаточно малое число
. На практике часто полагают
.
- На множестве допустимых значений статистики
выделяется критическое множество
наименее вероятных значений статистики
, такое, что
. Вычисление границ критического множества как функции от уровня значимости
является строгой математической задачей, которая в большинстве практических случаев имеет готовое простое решение.
- Собственно статистический тест (статистический критерий) заключается в проверке условия:
Итак, статистический критерий определяется статистикой
и критическим множеством , которое зависит от уровня значимости
.
Замечание.
Если данные не противоречат нулевой гипотезе, это ещё не значит, что гипотеза верна.
Тому есть две причины.
Альтернативная методика на основе достигаемого уровня значимости
Широкое распространение методики фиксированного уровня значимости было вызвано сложностью вычисления многих статистических критериев в докомпьютерную эпоху. Чаще всего использовались таблицы, в которых для некоторых априорных уровней значимости были выписаны критические значения. В настоящее время результаты проверки гипотез чаще представляют с помощью достигаемого уровня значимости.
Достигаемый уровень значимости (пи-величина, англ. p-value) — это наименьшая величина уровня значимости,
при которой нулевая гипотеза отвергается для данного значения статистики критерия
где
— критическая область критерия.
Другая интерпретация:
достигаемый уровень значимости — это вероятность при справедливости нулевой гипотезы получить значение статистики, такое же или ещё более экстремальное, чем
Если достигаемый уровень значимости достаточно мал (близок к нулю), то нулевая гипотеза отвергается.
В частности, его можно сравнивать с фиксированным уровнем значимости;
тогда альтернативная методика будет эквивалентна классической.
Типы критической области
Обозначим через значение, которое находится из уравнения
, где
— функция распределения статистики
.
Если функция распределения непрерывная строго монотонная,
то есть обратная к ней функция:
-
.
Значение называется также
—квантилем распределения
.
На практике, как правило, используются статистики с унимодальной (имеющей форму пика) плотностью распределения.
Критические области (наименее вероятные значения статистики) соответствуют «хвостам» этого распределения.
Поэтому чаще всего возникают критические области одного из трёх типов:
- Левосторонняя критическая область:
-
- определяется интервалом
.
- пи-величина:
- определяется интервалом
- Правосторонняя критическая область:
-
- определяется интервалом
.
- пи-величина:
- определяется интервалом
- Двусторонняя критическая область:
-
- определяется двумя интервалами
- пи-величина:
- определяется двумя интервалами
Ошибки первого и второго рода
- Ошибка первого рода или «ложная тревога» (англ. type I error,
error, false positive) — когда нулевая гипотеза отвергается, хотя на самом деле она верна. Вероятность ошибки первого рода:
- Ошибка второго рода или «пропуск цели» (англ. type II error,
error, false negative) — когда нулевая гипотеза принимается, хотя на самом деле она не верна. Вероятность ошибки второго рода:
Верная гипотеза | |||
---|---|---|---|
|
|
||
Результат применения критерия |
|
|
(Ошибка второго рода) |
|
(Ошибка первого рода) |
|
Свойства статистических критериев
Мощность критерия:
— вероятность отклонить гипотезу
, если на самом деле верна альтернативная гипотеза
.
Мощность критерия является числовой функцией от альтернативной гипотезы .
Несмещённый критерий:
для всех альтернатив
или, что то же самое,
для всех альтернатив .
Состоятельный критерий:
при
для всех альтернатив
.
Равномерно более мощный критерий.
Говорят, что критерий с мощностью является равномерно более мощным, чем критерий с мощностью
, если выполняются два условия:
;
для всех рассматриваемых альтернатив
, причём хотя бы для одной альтернативы неравенство строгое.
Типы статистических гипотез
- Простая гипотеза однозначно определяет функцию распределения на множестве
. Простые гипотезы имеют узкую область применения, ограниченную критериями согласия (см. ниже). Для простых гипотез известен общий вид равномерно более мощного критерия (Теорема Неймана-Пирсона).
- Сложная гипотеза утверждает принадлежность распределения к некоторому множеству распределений на
. Для сложных гипотез вывести равномерно более мощный критерий удаётся лишь в некоторых специальных случаях.
Типы статистических критериев
В зависимости от проверяемой нулевой гипотезы статистические критерии делятся на группы, перечисленные ниже по разделам.
Наряду с нулевой гипотезой, которая принимается или отвергается по результату анализа выборки, статистические критерии могут опираться на дополнительные предположения, которые априори предпологаются выполненными.
- Параметрические критерии предполагают, что выборка порождена распределением из заданного параметрического семейства. В частности, существует много критериев, предназначенных для анализа выборок из нормального распределения. Преимущество этих критериев в том, что они более мощные. Если выборка действительно удовлетворяет дополнительным предположениям, то параметрические критерии дают более точные результаты. Однако если выборка им не удовлетворяет, то вероятность ошибок (как I, так и II рода) может резко возрасти. Прежде чем применять такие критерии, необходимо убедиться, что выборка удовлетворяет дополнительным предположениям. Гипотезы о виде распределения проверяются с помощью критериев согласия.
- Непараметрические критерии не опираются на дополнительные предположения о распределении. В частности, к этому типу критериев относится большинство ранговых критериев.
Критерии согласия
Критерии согласия проверяют, согласуется ли заданная выборка с заданным фиксированным распределением, с заданным параметрическим семейством распределений, или с другой выборкой.
- Критерий Колмогорова-Смирнова
- Критерий хи-квадрат (Пирсона)
- Критерий омега-квадрат (фон Мизеса)
Критерии сдвига
Специальный случай двухвыборочных критериев согласия.
Проверяется гипотеза сдвига, согласно которой распределения двух выборок имеют одинаковую форму и отличаются только сдвигом на константу.
- Критерий Стьюдента
- Критерий Уилкоксона-Манна-Уитни
Критерии нормальности
Критерии нормальности — это выделенный частный случай критериев согласия.
Нормально распределённые величины часто встречаются в прикладных задачах, что обусловлено действием закона больших чисел.
Если про выборки заранее известно, что они подчиняются нормальному распределению, то к ним становится возможно применять более мощные параметрические критерии.
Проверка нормальность часто выполняется на первом шаге анализа выборки, чтобы решить, использовать далее параметрические методы или непараметрические.
В справочнике А. И. Кобзаря приведена сравнительная таблица мощности для 21 критерия нормальности.
- Критерий Шапиро-Уилка
- Критерий асимметрии и эксцесса
Критерии однородности
Критерии однородности предназначены для проверки нулевой гипотезы о том, что
две выборки (или несколько) взяты из одного распределения,
либо их распределения имеют одинаковые значения математического ожидания, дисперсии, или других параметров.
Критерии симметричности
Критерии симметричности позволяют проверить симметричность распределения.
- Одновыборочный критерий Уилкоксона и его модификации: критерий Антилла-Кёрстинга-Цуккини, критерий Бхаттачария-Гаствирса-Райта
- Критерий знаков
- Коэффициент асимметрии
Критерии тренда, стационарности и случайности
Критерии тренда и случайности предназначены для проверки нулевой гипотезы об
отсутствии зависимости между выборочными данными и номером наблюдения в выборке.
Они часто применяются в анализе временных рядов, в частности, при анализе регрессионных остатков.
Критерии выбросов
Критерии дисперсионного анализа
Критерии корреляционного анализа
Критерии регрессионного анализа
Литература
- Вероятность и математическая статистика: Энциклопедия / Под ред. Ю.В.Прохорова. — М.: Большая российская энциклопедия, 2003. — 912 с.
- Кобзарь А. И. Прикладная математическая статистика. Справочник для инженеров и научных работников. — М.: Физматлит, 2006. — 816 с.
Ссылки
- Statistical hypothesis testing — статья в англоязычной Википедии.
Ошибки первого рода (англ. type I errors, α errors, false positives) и ошибки второго рода (англ. type II errors, β errors, false negatives) в математической статистике — это ключевые понятия задач проверки статистических гипотез. Тем не менее, данные понятия часто используются и в других областях, когда речь идёт о принятии «бинарного» решения (да/нет) на основе некоего критерия (теста, проверки, измерения), который с некоторой вероятностью может давать ложный результат.
Определения
Пусть дана выборка из неизвестного совместного распределения
, и поставлена бинарная задача проверки статистических гипотез:
где — нулевая гипотеза, а
— альтернативная гипотеза. Предположим, что задан статистический критерий
,
сопоставляющий каждой реализации выборки одну из имеющихся гипотез. Тогда возможны следующие четыре ситуации:
-
Распределение
выборки
соответствует гипотезе
, и она точно определена статистическим критерием, то есть
.
-
Распределение
выборки
соответствует гипотезе
, но она неверно отвергнута статистическим критерием, то есть
.
-
Распределение
выборки
соответствует гипотезе
, и она точно определена статистическим критерием, то есть
.
-
Распределение
выборки
соответствует гипотезе
, но она неверно отвергнута статистическим критерием, то есть
.
Во втором и четвертом случае говорят, что произошла статистическая ошибка, и её называют ошибкой первого и второго рода соответственно. 1)2)
Верная гипотеза | |||
---|---|---|---|
|
|
||
Результат
применения критерия |
|
|
(Ошибка второго рода) |
|
(Ошибка первого рода) |
|
О смысле ошибок первого и второго рода
Из определения выше видно, что ошибки первого и второго рода являются взаимно-симметричными, то есть если поменять местами гипотезы и
, то ошибки первого рода превратятся в ошибки второго рода и наоборот. Тем не менее, в большинстве практических ситуаций путаницы не происходит, поскольку принято считать, что нулевая гипотеза
соответствует состоянию «по умолчанию» (естественному, наиболее ожидаемому положению вещей) — например, что обследуемый человек здоров, или что проходящий через рамку металлодетектора пассажир не имеет запрещённых металлических предметов. Соответственно, альтернативная гипотеза
обозначает противоположную ситуацию, которая обычно трактуется как менее вероятная, неординарная, требующая какой-либо реакции.
С учётом этого ошибку первого рода часто называют ложной тревогой, ложным срабатыванием или ложноположительным срабатыванием — например, анализ крови показал наличие заболевания, хотя на самом деле человек здоров, или металлодетектор выдал сигнал тревоги, сработав на металлическую пряжку ремня. Слово «положительный» в данном случае не имеет отношения к желательности или нежелательности самого события.
Термин широко используется в медицине. Например, тесты, предназначенные для диагностики заболеваний, иногда дают положительный результат (т.е. показывают наличие заболевания у пациента), когда на самом деле пациент этим заболеванием не страдает. Такой результат называется ложноположительным.
В других областях обычно используют словосочетания со схожим смыслом, например, «ложное срабатывание», «ложная тревога» и т.п. В информационных технологиях часто используют английский термин false positive без перевода.
Из-за возможности ложных срабатываний не удаётся полностью автоматизировать борьбу со многими видами угроз. Как правило, вероятность ложного срабатывания коррелирует с вероятностью пропуска события (ошибки второго рода). То есть: чем более чувствительна система, тем больше опасных событий она детектирует и, следовательно, предотвращает. Но при повышении чувствительности неизбежно вырастает и вероятность ложных срабатываний. Поэтому чересчур чувствительно (параноидально) настроенная система защиты может выродиться в свою противоположность и привести к тому, что побочный вред от неё будет превышать пользу.
Соответственно, ошибку второго рода иногда называют пропуском события или ложноотрицательным срабатыванием — человек болен, но анализ крови этого не показал, или у пассажира имеется холодное оружие, но рамка металлодетектора его не обнаружила (например, из-за того, что чувствительность рамки отрегулирована на обнаружение только очень массивных металлических предметов).
Слово «отрицательный» в данном случае не имеет отношения к желательности или нежелательности самого события.
Термин широко используется в медицине. Например, тесты, предназначенные для диагностики заболеваний, иногда дают отрицательный результат (т.е. показывают отсутствие заболевания у пациента), когда на самом деле пациент страдает этим заболеванием. Такой результат называется ложноотрицательным.
В других областях обычно используют словосочетания со схожим смыслом, например, «пропуск события», и т.п. В информационных технологиях часто используют английский термин false negative без перевода.
Степень чувствительности системы защиты должна представлять собой компромисс между вероятностью ошибок первого и второго рода. Где именно находится точка баланса, зависит от оценки рисков обоих видов ошибок.
Вероятности ошибок (уровень значимости и мощность)
Вероятность ошибки первого рода при проверке статистических гипотез называют уровнем значимости и обычно обозначают греческой буквой (отсюда название
-errors).
Вероятность ошибки второго рода не имеет какого-то особого общепринятого названия, на письме обозначается греческой буквой (отсюда
-errors). Однако с этой величиной тесно связана другая, имеющая большое статистическое значение — мощность критерия. Она вычисляется по формуле
. Таким образом, чем выше мощность, тем меньше вероятность совершить ошибку второго рода.
Обе эти характеристики обычно вычисляются с помощью так называемой функции мощности критерия. В частности, вероятность ошибки первого рода есть функция мощности, вычисленная при нулевой гипотезе. Для критериев, основанных на выборке фиксированного объема, вероятность ошибки второго рода есть единица минус функция мощности, вычисленная в предположении, что распределение наблюдений соответствует альтернативной гипотезе. Для последовательных критериев это также верно, если критерий останавливается с вероятностью единица (при данном распределении из альтернативы).
В статистических тестах обычно приходится идти на компромисс между приемлемым уровнем ошибок первого и второго рода. Зачастую для принятия решения используется пороговое значение, которое может варьироваться с целью сделать тест более строгим или, наоборот, более мягким. Этим пороговым значением является уровень значимости, которым задаются при проверке статистических гипотез. Например, в случае металлодетектора повышение чувствительности прибора приведёт к увеличению риска ошибки первого рода (ложная тревога), а понижение чувствительности — к увеличению риска ошибки второго рода (пропуск запрещённого предмета).
Примеры использования
Радиолокация
В задаче радиолокационного обнаружения воздушных целей, прежде всего, в системе ПВО ошибки первого и второго рода, с формулировкой «ложная тревога» и «пропуск цели» являются одним из основных элементов как теории, так и практики построения радиолокационных станций. Вероятно, это первый пример последовательного применения статистических методов в целой технической области.
Компьютеры
Понятия ошибок первого и второго рода широко используются в области компьютеров и программного обеспечения.
Компьютерная безопасность
Наличие уязвимостей в вычислительных системах приводит к тому, что приходится, с одной стороны, решать задачу сохранения целостности компьютерных данных, а с другой стороны — обеспечивать нормальный доступ легальных пользователей к этим данным (см. компьютерная безопасность). Moulton (1983, с.125) отмечает, что в данном контексте возможны следующие нежелательные ситуации:
-
когда авторизованные пользователи классифицируются как нарушители (ошибки первого рода)
-
когда нарушители классифицируются как авторизованные пользователи (ошибки второго рода)
Фильтрация спама
Ошибка первого рода происходит, когда механизм блокировки/фильтрации спама ошибочно классифицирует легитимное email-сообщение как спам и препятствует его нормальной доставке. В то время как большинство «антиспам»-алгоритмов способны блокировать/фильтровать большой процент нежелательных email-сообщений, гораздо более важной задачей является минимизировать число «ложных тревог» (ошибочных блокировок нужных сообщений).
Ошибка второго рода происходит, когда антиспам-система ошибочно пропускает нежелательное сообщение, классифицируя его как «не спам». Низкий уровень таких ошибок является индикатором эффективности антиспам-алгоритма.
Пока не удалось создать антиспамовую систему без корреляции между вероятностью ошибок первого и второго рода. Вероятность пропустить спам у современных систем колеблется в пределах от 1% до 30%. Вероятность ошибочно отвергнуть валидное сообщение — от 0,001 % до 3 %. Выбор системы и её настроек зависит от условий конкретного получателя: для одних получателей риск потерять 1% хорошей почты оценивается как незначительный, для других же потеря даже 0,1% является недопустимой.
Вредоносное программное обеспечение
Понятие ошибки первого рода также используется, когда антивирусное программное обеспечение ошибочно классифицирует безвредный файл как вирус. Неверное обнаружение может быть вызвано особенностями эвристики, либо неправильной сигнатурой вируса в базе данных. Подобные проблемы могут происходить также и с антитроянскими и антишпионскими программами.
Поиск в компьютерных базах данных
При поиске в базе данных к ошибкам первого рода можно отнести документы, которые выдаются поиском, несмотря на их иррелевантность (несоответствие) поисковому запросу. Ошибочные срабатывания характерны для полнотекстового поиска, когда поисковый алгоритм анализирует полные тексты всех хранимых в базе данных документов и пытается найти соответствия одному или нескольким терминам, заданным пользователем в запросе.
Большинство ложных срабатываний обусловлены сложностью естественных языков, многозначностью слов: например, «home» может обозначать как «место проживания человека», так и «корневую страницу веб-сайта». Число подобных ошибок может быть снижено за счёт использования специального словаря. Однако это решение относительно дорогое, поскольку подобный словарь и разметка документов (индексирование) должны создаваться экспертом.
Оптическое распознавание текстов (OCR)
Разнообразные детектирующие алгоритмы нередко выдают ошибки первого рода. Программное обеспечение оптического распознавания текстов может распознать букву «a» в ситуации, когда на самом деле изображены несколько точек.
Досмотр пассажиров и багажа
Ошибки первого рода регулярно встречаются каждый день в компьютерных системах предварительного досмотра пассажиров в аэропортах. Установленные в них детекторы предназначены для предотвращения проноса оружия на борт самолёта; тем не менее, уровень чувствительности в них зачастую настраивается настолько высоко, что много раз за день они срабатывают на незначительные предметы, такие как ключи, пряжки ремней, монеты, мобильные телефоны, гвозди в подошвах обуви и т.п. (см. обнаружение взрывчатых веществ, металлодетекторы).
Таким образом, соотношение числа ложных тревог (идентифицикация благопристойного пассажира как правонарушителя) к числу правильных срабатываний (обнаружение действительно запрещённых предметов) очень велико.
Биометрия
Ошибки первого и второго рода являются большой проблемой в системах биометрического сканирования, использующих распознавание радужной оболочки или сетчатки глаза, черт лица и т.д. Такие сканирующие системы могут ошибочно отождествить кого-то с другим, «известным» системе человеком, информация о котором хранится в базе данных (к примеру, это может быть лицо, имеющее право входа в систему, или подозреваемый преступник и т.п.). Противоположной ошибкой будет неспособность системы распознать легитимного зарегистрированного пользователя, или опознать подозреваемого в преступлении.3)
Массовая медицинская диагностика (скрининг)
В медицинской практике есть существенное различие между скринингом и тестированием:
-
Скрининг включает в себя относительно дешёвые тесты, которые проводятся для большой группы людей при отсутствии каких-либо клинических признаков болезни (например, мазок Папаниколау).
-
Тестирование подразумевает гораздо более дорогие, зачастую инвазивные, процедуры, которые проводятся только для тех, у кого проявляются клинические признаки заболевания, и которые, в основном, применяются для подтверждения предполагаемого диагноза.
К примеру, в большинстве штатов в США обязательно прохождение новорожденными процедуры скрининга на оксифенилкетонурию и гипотиреоз, помимо других врождённых аномалий. Несмотря на высокий уровень ошибок первого рода, эти процедуры скрининга считаются целесообразными, поскольку они существенно увеличивают вероятность обнаружения этих расстройств на самой ранней стадии.4))
Простые анализы крови, используемые для скрининга потенциальных доноров на ВИЧ и гепатит, имеют существенный уровень ошибок первого рода; однако в арсенале врачей есть гораздо более точные (и, соответственно, дорогие) тесты для проверки, действительно ли человек инфицирован каким-либо из этих вирусов.
Возможно, наиболее широкие дискуссии вызывают ошибки первого рода в процедурах скрининга на рак груди (маммография). В США уровень ошибок первого рода в маммограммах достигает 15%, это самый высокий показатель в мире.5) Самый низкий уровень наблюдается в Нидерландах, 1%.6)
Медицинское тестирование
Ошибки второго рода являются существенной проблемой в медицинском тестировании. Они дают пациенту и врачу ложное убеждение, что заболевание отсутствует, в то время как в действительности оно есть. Это зачастую приводит к неуместному или неадекватному лечению. Типичным примером является доверие результатам кардиотестирования при выявлении коронарного атеросклероза, хотя известно, что кардиотестирование выявляет только те затруднения кровотока в коронарной артерии, которые вызваны стенозом.
Ошибки второго рода вызывают серьёзные и трудные для понимания проблемы, особенно когда искомое условие является широкораспространённым. Если тест с 10%-ным уровнем ошибок второго рода используется для обследования группы, где вероятность «истинно-положительных» случаев составляет 70%, то многие отрицательные результаты теста окажутся ложными. (См. Теорему Байеса).
Ошибки первого рода также могут вызывать серьёзные и трудные для понимания проблемы. Это происходит, когда искомое условие является редким. Если уровень ошибок первого рода у теста составляет один случай на десять тысяч, но в тестируемой группе образцов (или людей) вероятность «истинно-положительных» случаев составляет в среднем один случай на миллион, то большинство положительных результатов этого теста будут ложными.7)
Исследования сверхъестественных явлений
Термин ошибка первого рода был взят на вооружение исследователями в области паранормальных явлений и привидений для описания фотографии или записи или какого-либо другого свидетельства, которое ошибочно трактуется как имеющее паранормальное происхождение — в данном контексте ошибка первого рода — это какое-либо несостоятельное «медиасвидетельство» (изображение, видеозапись, аудиозапись и т.д.), которое имеет обычное объяснение.