Ошибка моделирования определяется отклонением выборочной статистики от

2.7. Стохастические модели

Лекция 6Точные  величины и зависимости, используемые в детерминированных моделях, представляют собой лишь некоторые средние значения (математические ожидания) реальных случайных величин (зависимостей). Так, физические константы, характеризующие материалы и рабочие тела (предел прочности материала s, теплопроводность l, плотность r и т.д.) меняются в зависимости от партии материала и условий окружающей среды. Всегда имеется определенный разброс размеров деталей l, расходов топлива в системах подачи. Все это приводит к тому, что и результирующие функции, характеризующие процесс, также носят случайный характер. Результаты, полученные с помощью детерминированной модели, представляют собой математические ожидания этих характеристик. При этом конкретные данные для конкретной системы могут существенно отличаться от этих математических ожиданий. Например, ресурс конкретного двигателя может существенно отличаться от среднего ресурса двигателей данного типа. Для учета таких отличий вводятся всевозможные «запасы прочности», призванные гарантировать работоспособность реальных объектов при неблагоприятном стечении обстоятельств.

Значительно более полные и объективные результаты можно получить при переходе от детерминированных к стохастическим моделям, то есть при переходе от точно заданных величин к соответствующим случайным величинам.

При этом константы (s, l, r, l,…) заменяются случайными величинами xs, xl, xr, xl,… , подчиненными определенным законам распределения.

Однократное исследование стохастической модели приведет к некоторой случайной величине функции отклика xW, представляющей собой, вообще говоря, ограниченную ценность. Для получения значимых результатов необходимо провести многократное исследование модели и получить распределение результирующей характеристики в интересующем исследователя диапазоне. Поверхность отклика в этом случае представляет собой некий размытый слой переменной плотности.

Такой метод исследования стохастической модели получил название метода статистических испытаний или метода Монте-Карло.

Трудоемкость исследования стохастических моделей существенно выше, чем моделей детерминированных:

1. Значительно возрастает объем исходной информации: замена констант случайными величинами, введение законов распределения этих величин усложняют модель.

2. Для получения распределения результирующей функции необходимо многократное исследование модели.

С другой стороны, полученное при статистическом моделировании распределение характеристик системы дает в руки исследователя чрезвычайно ценную информацию: Такое распределение позволяет оценить не только среднее значение изучаемой величины, но и разброс этих значений, вероятности появления тех или иных значений при конкретном испытании (например, вероятность выхода из строя ДЛА через тот или иной промежуток времени) и их зависимость от различных факторов.

Рекомендуемые материалы

Очень часто используют нормальный или гауссовский закон распределения, для которого плотность вероятности f(x) и функция распределения R(х) задаются следующими соотношениями:

            Вероятность того, что случайная величина попадет в интервал (х, x+dx):

;

Вероятность того, что случайная величина попадет в интервал (¥, х):

.

Для случайной величины x, распределенной по нормальному закону,
m = М(x),  s = s(x) (Рис. 2.13, 2.14). Случайная величина распределена в интервале m ± 3s. По нормальному закону распределены обычно характеристики материалов, размеры деталей, ресурсы элементов ДЛА.

Наряду с нормальным используются и другие законы распределения случайных величин. Например, равномерное распределение – задает равновероятностные на отрезке [a, b] случайные величины. (Рис. 2.15, 2.16). Плотность вероятности и функция распределения при равномерном распределении определяются по формулам:

     

Выбор закона распределения для конкретной случайной величины, входящей в стохастическую модель, может быть обоснован экспериментально или теоретически.

Конкретные параметры распределения (m, s,…) всегда определяются на основе экспериментальных данных. Оценка параметров нормального распределения на основе выборки {xi} из n случайных значений величины х дается соотношениями:

;      .

При использовании метода статистических испытаний характеристики изучаемой системы оцениваются на основе некоторой ограниченной выборки реализаций. Поэтому важно определить достоверность этой оценки.

Вероятность р пребывания системы в некотором состоянии (например, вероятность того, что время работы элемента ДЛА до первого отказа составит не менее t часов), определяется частотой этого события при моделировании:

,

где n+ – число реализаций, при которых наблюдалось изучаемое состояние системы (время работы ДЛА до первого отказа превысило t); n – общее число реализаций.

Эта оценка является приближенной, так как определяется на основе ограниченной выборки. Отношение  называется выборочной статистикой.

Ошибка моделирования определяется отклонением выборочной статистики от вероятности

.

Можно показать, что эта ошибка удовлетворяет неравенству

,                                                         (2.20)

Здесь р – вероятность рассматриваемого состояния; a – вероятность невыполнения оценки (2.20) (уровень риска). Доверительная вероятность выполнения этой оценки равна 1– a.

Из (2.20) следует, что погрешность стохастического моделирования обратно пропорциональна . То есть увеличение точности при стохастическом моделировании требует значительного увеличения числа реализаций. Для уменьшения погрешности в 10 раз необходимо увеличить число реализаций (а значит и время счета) в 100 раз. Поэтому метод статистических испытаний не может дать решения с очень высокой степенью точности. Считается, что допустимая ошибка может составлять 1-5% максимальной величины, полученной при моделировании.

Величина ошибки зависит также от вероятности р оцениваемого состояния и допустимого уровня риска a. Обычно a задают на одном из фиксированных уровней
(a = 0,005; 0,01; 0,025;  0,05; 0,1 …).

Контрольные вопросы к лекции 6

1. Что представляют собой величины, входящие в стохастическую модель?

2. Что представляет собой поверхность отклика моделей, исследуемых методом статистических испытаний?

3. В чем заключается метод Монте-Карло?

4. Какие трудности возникают при исследовании стохастических моделей?

5. Какую информацию дает в руки исследователя полученное при статистическом исследовании распределение характеристик системы?

6. Какие законы распределения случайной величины Вы знаете?

7. Как выглядит плотность распределения для нормального закона?

Рекомендуем посмотреть лекцию «Лекция 1».

8. Как выглядит плотность распределения для закона равной вероятности?

9. Как определяются оценки математического ожидания и дисперсии случайной величины?

10. Что такое выборочная статистика?

11. Почему она называется «выборочная»?

12. От чего зависит погрешность стохастического моделирования?

Рубежный контроль 1

  1. Где используются математические
    модели в виде обыкновенных дифференциальных
    уравнений?

  2. Что должна включать в себя
    математическая модель в виде обыкновенных
    дифференциальных уравнений?

  3. Какими методами осуществляется
    исследование моделей, заданных в виде
    обыкновенных дифференциальных уравнений?

  4. Запишите математическую
    модель движения груза
    массой m,
    закрепленного на вертикальной стенке
    с помощью пружины жесткостью С
    и совершающего колебательное движение
    вдоль оси х
    в среде с вязкостью .

  5. Какой принцип используется
    при построении этой модели?

  6. К какому типу относится
    эта модель?

  7. Где используются математические
    модели в виде дифференциальных уравнений
    в частных производных?

  8. Что является особенностью
    математических моделей в виде
    дифференциальных уравнений в частных
    производных?

  9. Что должна включать в себя
    математическая модель в виде
    дифференциальных уравнений в частных
    производных?

  10. Какого типа бывают граничные
    условия?

  11. Приведите математическую
    модель распределения температурного
    поля в металлическом
    прутке, нагреваемом с одной стороны.

2.7. Стохастические модели

Т

Лекция 6

очные величины и зависимости,
используемые в детерминированных
моделях, представляют собой лишь
некоторые средние значения (математические
ожидания) реальных случайных величин
(зависимостей). Так, физические константы,
характеризующие материалы и рабочие
тела (предел прочности материала,
теплопроводность,
плотностьи т.д.)
меняются в зависимости от партии
материала и условий окружающей среды.
Всегда имеется определенный разброс
размеров деталейl,
расходов топлива в системах подачи. Все
это приводит к тому, что и результирующие
функции, характеризующие процесс, также
носят случайный характер.

Результаты,
полученные с помощью детерминированной
модели, представляют собой математические
ожидания этих характеристик

. При этом
конкретные данные для конкретной системы
могут существенно отличаться от этих
математических ожиданий. Например,
ресурс конкретного двигателя может
существенно отличаться от среднего
ресурса двигателей данного типа. Для
учета таких отличий вводятся всевозможные
«запасы прочности», призванные
гарантировать работоспособность
реальных объектов при неблагоприятном
стечении обстоятельств.

Значительно более полные и объективные
результаты можно получить при переходе
от детерминированных к
стохастическим
моделям
, то есть при переходе от
точно заданных величин к соответствующим
случайным величинам.

При этом константы (,,,l,…) заменяются
случайными величинами,,,l,…
, подчиненными определенным законам
распределения.

Однократное исследование стохастической
модели приведет к некоторой случайной
величине функции отклика W,
представляющей собой, вообще говоря,ограниченную ценность. Для получения
значимых результатов необходимо провести
многократное исследование модели и
получить распределение результирующей
характеристики в интересующем
исследователя диапазоне. Поверхность
отклика в этом случае представляет
собой некий размытый слой переменной
плотности.

Такой метод исследования стохастической
модели получил название метода
статистических испытаний или метода
Монте-Карло.

Трудоемкость исследования стохастических
моделей существенно выше, чем моделей
детерминированных:

  1. Значительно
    возрастает объем исходной информации:
    замена констант случайными величинами,
    введение законов распределения этих
    величин усложняют модель.

  2. Для
    получения распределения результирующей
    функции необходимо многократное
    исследование модели.

С другой стороны, полученное при
статистическом моделировании распределение
характеристик системы дает в руки
исследователя чрезвычайно ценную
информацию: Такое распределение позволяет
оценить не только среднее значение
изучаемой величины, но и разброс этих
значений, вероятности появления тех
или иных значений при конкретном
испытании (например, вероятность выхода
из строя ДЛА через тот или иной промежуток
времени) и их зависимость от различных
факторов.

Очень часто используют нормальныйилигауссовскийзакон распределения,
для которого плотность вероятностиf(x)
и функция распределения(х)
задаются следующими соотношениями:

Вероятность
того, что случайная величина попадет в
интервал (х, x+dx):

;

Вероятность того, что случайная величина
попадет в интервал (,х):

.

Для
случайной величины,
распределенной по нормальному закону,=М(),=()
(Рис. 2.13, 2.14). Случайная величина
распределена в интервале3.
По нормальному закону распределены
обычно характеристики материалов,
размеры деталей, ресурсы элементов ДЛА.

Наряду с нормальным используются и
другие законы распределения случайных
величин. Например, равномерное
распределение – задает равновероятностные
на отрезке [a,b]
случайные величины. (Рис. 2.15,
2.16). Плотность вероятности
и функция распределения при равномерном
распределении определяются по формулам:

Выбор
закона распределения для конкретной
случайной величины, входящей в
стохастическую модель, может быть
обоснован экспериментально или
теоретически.

Конкретные параметры распределения
(,,…)
всегда определяются на основе
экспериментальных данных. Оценка
параметров нормального распределения
на основе выборки {xi}
изnслучайных значений
величиныхдается соотношениями:

;.

При использовании метода статистических
испытаний характеристики изучаемой
системы оцениваются на основе некоторой
ограниченной выборки реализаций. Поэтому
важно определить достоверность этой
оценки.

Вероятность рпребывания системы
в некотором состоянии (например,
вероятность того, что время работы
элемента ДЛА до первого отказа составит
не менееtчасов),
определяется частотой этого события
при моделировании:

,

где n+– число реализаций, при которых
наблюдалось изучаемое состояние системы
(время работы ДЛА до первого отказа
превысилоt);n– общее число реализаций.

Эта оценка является приближенной, так
как определяется на основе ограниченной
выборки. Отношение
называетсявыборочной статистикой.

Ошибка моделирования определяется
отклонением выборочной статистики от
вероятности

.

Можно показать, что эта ошибка удовлетворяет
неравенству

,
(2.20)

Здесь р– вероятность рассматриваемого
состояния;–
вероятность невыполнения оценки (2.20)
(уровень риска). Доверительная
вероятность выполнения этой оценки
равна 1–.

Из (2.20) следует, что погрешность
стохастического моделирования обратно
пропорциональна
.
То есть увеличение точности при
стохастическом моделировании требует
значительного увеличения числа
реализаций. Для уменьшения погрешности
в 10 раз необходимо увеличить число
реализаций (а значит и время счета) в
100 раз. Поэтому метод статистических
испытаний не может дать решения с очень
высокой степенью точности. Считается,
что допустимая ошибка может составлять
1-5% максимальной величины, полученной
при моделировании.

Величина ошибки зависит также от
вероятности роцениваемого состояния
и допустимого уровня риска.
Обычнозадают на
одном из фиксированных уровней
(= 0,005; 0,01; 0,025; 0,05; 0,1 …).

Как мы уже знаем, репрезентативность — свойство выборочной совокупности представлять характеристику генеральной. Если совпадения нет, говорят об ошибке репрезентативности — мере отклонения статистической структуры выборки от структуры соответствующей генеральной совокупности. Предположим, что средний ежемесячный семейный доход пенсионеров в генеральной совокупности составляет 2 тыс. руб., а в выборочной — 6 тыс. руб. Это означает, что социолог опрашивал только зажиточную часть пенсионеров, а в его исследование вкралась ошибка репрезентативности. Иными словами, ошибкой репрезентативности называется расхождение между двумя совокупностями — генеральной, на которую направлен теоретический интерес социолога и представление о свойствах которой он хочет получить в конечном итоге, и выборочной, на которую направлен практический интерес социолога, которая выступает одновременно как объект обследования и средство получения информации о генеральной совокупности.

Наряду с термином «ошибка репрезентативности» в отечественной литературе можно встретить другой — «ошибка выборки». Иногда они употребляются как синонимы, а иногда «ошибка выборки» используется вместо «ошибки репрезентативности» как количественно более точное понятие.

Ошибка выборки — отклонение средних характеристик выборочной совокупности от средних характеристик генеральной совокупности.

На практике ошибка выборки определяется путем сравнения известных характеристик генеральной совокупности с выборочными средними. В социологии при обследованиях взрослого населения чаще всего используют данные переписей населения, текущего статистического учета, результаты предшествующих опросов. В качестве контрольных параметров обычно применяются социально-демографические признаки. Сравнение средних генеральной и выборочной совокупностей, на основе этого определение ошибки выборки и ее уменьшение называется контролированием репрезентативности. Поскольку сравнение своих и чужих данных можно сделать по завершении исследования, такой способ контроля называется апостериорным, т.е. осуществляемым после опыта.

В опросах Института Дж. Гэллапа репрезентативность контролируется по имеющимся в национальных переписях данным о распределении населения по полу, возрасту, образованию, доходу, профессии, расовой принадлежности, месту проживания, величине населенного пункта. Всероссийский центр изучения общественного мнения (ВЦИОМ) использует для подобных целей такие показатели, как пол, возраст, образование, тип поселения, семейное положение, сфера занятости, должностной статус респондента, которые заимствуются в Государственном комитете по статистике РФ. В том и другом случае генеральная совокупность известна. Ошибку выборки невозможно установить, если неизвестны значения переменной в выборочной и генеральной совокупностях.

Специалисты ВЦИОМ обеспечивают при анализе данных тщательный ремонт выборки, чтобы минимизировать отклонения, возникшие на этапе полевых работ. Особенно сильные смещения наблюдаются по параметрам пола и возраста. Объясняется это тем, что женщины и люди с высшим образованием больше времени проводят дома и легче идут на контакт с интервьюером, т.е. являются легко достижимой группой по сравнению с мужчинами и людьми «необразованными»35.

Ошибка выборки обусловливается двумя факторами: методом формирования выборки и размером выборки.

Ошибки выборки подразделяются на два типа — случайные и систематические. Случайная ошибка — это вероятность того, что выборочная средняя выйдет (или не выйдет) за пределы заданного интервала. К случайным ошибкам относят статистические погрешности, присущие самому выборочному методу. Они уменьшаются при возрастании объема выборочной совокупности.

Второй тип ошибок выборки — систематические ошибки. Если социолог решил узнать мнение всех жителей города о проводимой местными органами власти социальной политике, а опросил только тех, у кого есть телефон, то возникает предумышленное смещение выборки в пользу зажиточных слоев, т.е. систематическая ошибка.

Таким образом, систематические ошибки — результат деятельности самого исследователя. Они наиболее опасны, поскольку приводят к довольно значительным смещениям результатов исследования. Систематические ошибки считаются страшнее случайных еще и потому, что они не поддаются контролю и измерению.

Они возникают, когда, например:

  1. выборка не соответствует задачам исследования (социолог решил изучить только работающих пенсионеров, а опросил всех подряд);
  2. налицо незнание характера генеральной совокупности (социолог думал, что 70% всех пенсионеров не работает, а оказалось, что не работает только 10%);
  3. отбираются только «выигрышные» элементы генеральной совокупности (например, только обеспеченные пенсионеры).

Внимание! В отличие от случайных ошибок систематические ошибки при возрастании объема выборки не уменьшаются.

Обобщив все случаи, когда происходят систематические ошибки, методисты составили их реестр. Они полагают, что источником неконтролируемых перекосов в распределении выборочных наблюдений могут быть следующие факторы:

  • нарушены методические и методологические правила проведения социологического исследования;
  • выбраны неадекватные способы формирования выборочной совокупности, методы сбора и расчета данных;
  • произошла замена требуемых единиц наблюдения другими, более доступными;
  • отмечен неполный охват выборочной совокупности (недополучение анкет, неполное их заполнение, труднодоступность единиц наблюдения).

Намеренные ошибки социолог допускает редко. Чаще ошибки возникают из-за того, что социологу плохо известна структура генеральной совокупности: распределение людей по возрасту, профессии, доходам и т.д.

Систематические ошибки легче предупредить (по сравнению со случайными), но их очень трудно устранить. Предупреждать систематические ошибки, точно предвидя их источники, лучше всего заранее — в самом начале исследования.

Вот некоторые способы избежать ошибок выборки:

  • каждая единица генеральной совокупности должна иметь равную вероятность попасть в выборку;
  • отбор желательно производить из однородных совокупностей;
  • надо знать характеристики генеральной совокупности;
  • при составлении выборочной совокупности надо учитывать случайные и систематические ошибки.

Если выборочная совокупность (или просто выборка) составлена правильно, то социолог получает надежные результаты, харастеризующие всю генеральную совокупность. Если она составлена неправильно, то ошибка, возникшая на этапе составления выборки, на каждом следующем этапе проведения социологического исследования приумножается и достигает в конечном счете такой величины, которая перевешивает ценность проведенного исследования. Говорят, что от такого исследования больше вреда, нежели пользы.

Подобные ошибки могут произойти только с выборочной совокупностыо. Чтобы избежать или уменьшить вероятность ошибки, самый простой способ — увеличивать размеры выборки (в идеале до объема генеральной: когда обе совокупности совпадут, ошибка выборки вообще исчезнет). Экономически такой метод невозможен. Остается другой путь — совершенствовать математические методы составления выборки. Они то и применяются на практике. Таков первый канал проникновения в социологию математики. Второй канал — математическая обработка данных.

Особенно важной проблема ошибок становится в маркетинговых исследованиях, где используются не очень большие выборки. Обычно они составляют несколько сотен, реже — тысячу респондентов. Здесь исходным пунктом расчета выборки выступает вопрос об определении размеров выборочной совокупности. Численность выборочной совокупности зависит от двух факторов:

  1. стоимости сбора информации,
  2. стремления к определенной степени статистической достоверности результатов, которую надеется получить исследователь.

Конечно, даже не искушенные в статистике и социологии люди интуитивно понимают, что чем больше размеры выборки, т.е. чем ближе они к размерам генеральной совокупности в целом, тем более надежны и достоверны полученные данные. Однако выше мы уже говорили о практической невозможности сплошных опросов в тех случаях, когда они проводятся на объектах, численность которых превышает десятки, сотни тысяч и даже миллионы. Понятно, что стоимость сбора информации (включающая оплату тиражирования инструментария, труда анкетеров, полевых менеджеров и операторов по компьютерному вводу) зависит от той суммы, которую готов выделить заказчик, и слабо зависит от исследователей. Что же касается второго фактора, то мы остановимся на нем чуть подробнее.

Итак, чем больше величина выборки, тем меньше возможная ошибка. Хотя необходимо отметить, что при желании увеличить точность вдвое вам придется увеличить выборку не в два, а в четыре раза. Например, чтобы сделать в два раза более точной оценку данных, полученных путем опроса 400 человек, вам потребуется опросить не 800, а 1600 человек. Впрочем, вряд ли маркетинговое исследование испытывает нужду в стопроцентной точности. Если пивовару необходимо узнать, какая часть потребителей пива предпочитает именно его марку, а не сорт его конкурента, — 60% или 40%, то на его планы никак не повлияет разница между 57%, 60 или 63%.

Ошибка выборки может зависеть не только от ее величины, но и от степени различий между отдельными единицами внутри генеральной совокупности, которую мы исследуем. Например, если нам нужно узнать, какое количество пива потребляется, то мы обнаружим, что внутри нашей генеральной совокупности нормы потребления у различных людей существенно различаются (гетерогенная генеральная совокупность). В другом случае мы будем изучать потребление хлеба и установим, что у разных людей оно различается гораздо менее существенно {гомогенная генеральная совокупность). Чем больше различия (или гетерогенность) внутри генеральной совокупности, тем больше величина возможной ошибки выборки. Указанная закономерность лишь подтверждает то, что нам подсказывает простой здравый смысл. Таким образом, как справедливо утверждает В. Ядов, «численность (объем) выборки зависит от уровня однородности или разнородности изучаемых объектов. Чем более они однородны, тем меньшая численность может обеспечить статистически достоверные выводы».

Определение объема выборки зависит также от уровня доверительного интервала допустимой статистической ошибки. Здесь имеются в виду так называемые случайные ошибки, которые связаны с природой любых статистических погрешностей. В.И. Паниотто приводит следующие расчеты репрезентативной выборки с допущением 5%-ной ошибки:
Это означает,что если вы, опросив, предположим, 400 человек в районном городе, где численность взрослого платежеспособного населения составляет 100 тыс. человек, выявили, что 33% опрошенных покупателей предпочитают продукцию местного мясокомбината, то с 95%-ной вероятностью можете утверждать, что постоянными покупателями этой продукции являются 33+5% (т.е. от 28 до 38%) жителей этого города.

Можно также воспользоваться расчетами института Гэллапа для оценки соотношения размеров выборки и ошибки выборки.

Понравилась статья? Поделить с друзьями:
  • Ошибка моделирования multisim
  • Ошибка модуля боковой щетки сбросьте параметры системы
  • Ошибка моделера при обновлении вида сечения
  • Ошибка модуля wifi модуль wifi не найден
  • Ошибка модального окна 1с