Систематической ошибкой репрезентативности

Ошибка
репрезентативности
 –
это отклонение значения показателя
обследований совокупности от его
величины по исходной совокупности.
Такие ошибки характерны только для не
сплошного наблюдения. Возникают потому,
что отобранная и обследованная
совокупность недостаточно точно
воспроизводит (репрезентирует) всю
исходную совокупность в целом. Также
бывают случайными и систематическими.

Систематическими
называются ошибки репрезентативности
,
которые возникают из-за нарушения
научного принципа отбора единиц в
выборочную совокупность. Они возникают
в тех случаях, когда в результате
неправильной организации отбора в
выборочную совокупность попали
преимущественно наилучшие или наихудшие
в отношении того или иного признака
единицы.

Случайные
ошибки репрезентативности
 –
это неточности, которые возникают из-за
того, что выборочная совокупность не
совсем правильно воспроизводит структуру
генеральной совокупности.

Ошибки
репрезентативности свойственны только
выборочному наблюдению. Они не могут
быть полностью устранены, но они могут
быть доведены до незначительных размеров.
Так как случайная ошибка выборки
возникает в результате случайных
различий между единицами выборочной и
генеральной совокупности, то при
достаточно большом объеме выборки она
будет сколь угодно мала. Предельные
теоремы теории вероятностей позволяют
определять размер случайных ошибок
выборки. Различают среднюю (стандартную)
ошибку выборки и предельную ошибку
выборки. Под средней ошибкой выборки
понимают такое расхождение между средней
выборочной и средней генеральной
совокупностями ,
которое не превышает.

Измерения
рассматриваются с двух точек
зрения: количественной,
выражающей числовое значение измеренной
физической величины и качественной,
характеризующей точность измерения.
Результаты измерений не являются точным
значением измеряемой величины, а
несколько отличаются (отклоняются) от
него. Отклонение измеренной величины
ℓ от ее истинного (точного) значения Х
называется истинной
ошибкой
или погрешностью измерения и обозначается
D. Ошибки всегда имеют величину и знак
плюс или минус. Величина ошибки показывает
на сколько измеренное значение отклонилось
от истинного; знак — в какую сторону
произошло отклонение. Ошибки характеризуют
точность измерения, т.е. степень близости
измеренной величины к ее истинному
значению. Чем меньше ошибка, тем точнее
измерение. На результат измерения
оказывают влияние многие факторы и
каждый из них порождает свою часть общей
ошибки. Ошибки, происходящие от отдельных
факторов, называют элементарными. Х
— ℓ = D или ℓ — Х = D (1) Ошибка (погрешность
) результата измерения является
алгебраической суммой элементарных
ошибок: [D] = D+
D2 +
D+
… + Dn (2)
Квадратные скобки означают знак суммы
( ввел Гаусс). Ошибки различают по двум
признакам: по источнику возникновения
(происхождения) и по характеру действия. По
источнику возникновения ошибки
подразделяют на приборные (инструментальные),
методические, личные и внешние. Приборные или
инструментальные ошибки обусловлены
неточным изготовлением и сборкой
отдельных деталей и узлов приборов,
неточной установкой их во время измерений
и др. причинами. Методические ошибки
возникают из-за несоблюдения методики
измерений. Личные ошибки связаны
с особенностями органов зрения человека
выполняющего измерения (наведение
зрительной трубы на удаленный предмет,
оценку доли наименьшего деления шкалы
«на глаз»каждый человек делает по-
разному). Внешние ошибки возникают
из-за воздействия внешней среды в которой
производятся измерения: температура,
давление и влажность воздуха; неравномерное
нагревание солнцем отдельных частей
приборов; степень освещенности; ветер,
турбулентность воздуха и др. По
характеру действия ошибки разделяют
на систематические и случайные.
Кроме того, результаты измерений могут
содержать грубые
ошибки. Грубыми
считают ошибки, превосходящие по
абсолютной величине некоторый
установленный предел. Они появляются
главным образом в результате промахов
и просчетов из-за невнимательности или
недостаточной квалификации (опытности)
исполнителя. Их выявляют путем повторных
(контрольных) измерений. Измерения,
содержащие грубые ошибки, не берут в
дальнейшую обработку, бракуют и заменяют
новыми. С целью выявления грубых ошибок
все геодезические измерения выполняют
с контролем, не менее двух раз: углы
измеряют при двух положениях теодолита;
длины линий — в прямом и обратном
направлениях; превышения — по двум
сторонам рейки и в прямом и обратном
ходах. Систематическими называют
ошибки, которые по знаку или величине
однообразно повторяются в многократных
измерениях какой-либо величины. Для их
выявления считают число положительных
и отрицательных ошибок и их сумму. При
отсутствии систематической части общей
ошибки число ошибок с разными знаками
примерно одинаковое и суммы их также
примерно равны между собой. Они возникают
из-за приборных, методических, личных
и внешних факторов. Например, несоответствие
фактической длины мерного прибора
указанному на нем. Систематические
ошибки различают по характеру проявления.
Они могут быть: а) переменные, прогрессивного
типа; б) односторонне действующие; в)
периодические; г) постоянные; д) смешанные.
Систематические ошибки прогрессивно
типа в процессе измерений возрастают
или убывают. Такого рода ошибки возникают,
например , при измерении линий стальной
лентой, длина которой больше или меньше
номинальной. Если ряд ошибок с переменными
абсолютными значениями искажен в одном
и том же направлении, то такой ряд ошибок
называется систематическим и
односторонним по знаку. Систематические
ошибки периодического характера
соответственно изменяют знак и величину.
Подобные ошибки возникают, например,
при измерении углов теодолитом, в котором
имеется эксцентриситет алидады. Если
при многократных измерениях ошибки
остаются неизменными как по абсолютному
значению, так и по знаку, то такие ошибки
называютсяпостоянными.
Так при многократном измерении угла
теодолитом имеет место одна и та же
ошибка за центрировку. При измерении
линий больше длины мерной ленты возникает
постоянная ошибка одинаковая на каждом
уложении ленты. Постоянная ошибка
является частным выражением систематической
ошибки.Знание причин возникновения
систематических ошибок позволяет
заранее принять меры по исключению их
из результатов измерений или уменьшению.
Систематические ошибки характерны тем,
что поддаются учету. Они могут быть
исключены или сведены к минимуму путем
тщательной проверки измерительных
приборов, изменением методики измерений,
предупреждением влияния внешних
факторов. Но несмотря на это общая ошибка
всегда содержит остаточную часть
систематической ошибки, хотя она и мала
по сравнению со случайной ошибкой. В
ряду измерений всегда имеется остаточная
часть ошибки. Случайными называют
ошибки, размер и влияние которых на
результат измерения неизвестны, величину
и знак их заранее определить нельзя.
Случайная величина – это переменная
величина, конкретное значение которой
зависит от случая, она может быть, а
может и не быть. Случайными ошибки
называют потому, что в ряду измерений
каждая последующая ошибка по абсолютной
величине может быть больше или меньше
предыдущей, иметь знак плюс или минус
и по предыдущим членам такого ряда
нельзя установить, какой именно будет
следующий за ним член ряда. Тем не менее,
случайные ошибки подчинены статистическим
закономерностям, называемых свойствами.
Чем больше число измерений войдет в ряд
их, тем резче выявится статистическая
закономерность. Знание свойств дает
возможность получить наиболее надежный
результат из ряда (нескольких) измерений,
а также оценить его точность.

33.
По данным распределения начертить
вариационную кривую. Предположим, нами
просчитано число зацепок на левом заднем
крыле у 100 экземпляров рабочих пчел
данного улья. Получены такие цифры: 21,
20, 18, 19, 24, 22 и так далее. Можно подсчитать,
сколько же раз попались пчелы с числом
зацепок 18, сколько с 19 зацепками и т. д.
Сделав это для всех 100 пчел.

Число
зацепок в крыле-18 19 20 21 22 23 24 25

Число
пчел с данным числом зацепок- 2 5 10 22 24
17 12 8

Число
зацепок в крыле-18 19 20 21 22 23 24 25, а число
пчел с данным числом зацепок- 2 5 10 22 24
17 12 8. Видно, что пчел с 18 зацепками была
две, с 19 — пять и т. д. Вариационный ряд
можно изобразить графически. На
горизонтальной оси помечено число
зацепок, а над соответственным числом
зацепок в виде вертикальной черты
изображено приходящееся сюда число
случаев. Если соединить вершины
вертикальных линий друг с другом, то
получится ломаная линия, которая носит
название вариационной кривой (см. рис.
2).


Рис.
2. Вариационная кривая числа зацепок на
заднем крыле рабочих пчел.

Первой
и основной характеристикой вариационного
ряда является среднее арифметическое.
Чтобы его получить, надо сложить все
100 чисел, характеризующих зацепки крыльев
вышеприведенной семьи пчел — +21 +20 +18 и
т. д., и сумму разделить на 100. Если наш
материал уже классифицирован в
вариационный ряд, для быстроты можно
заменить сложение умножением каждой
цифры, показывающей число случаев, на
стояющую над ней величину. Все эти
произведения надо просуммировать и
разделить на 100.

Среднее
арифметическое условно принято обозначать
буквой М.

В
нашем примере вычисление дает следующее:

М
= (2,18 + 5,19 + 10,20 + 22,21 + 24,22 + 17,23 + 12,24 +
8,25)/100=22,00

Кроме
вопроса о среднем арифметическом ряде,
его типе, ибо свойство М таково, что оно
является центром, вокруг которого налево
и направо распределяется одинаковое
количество отдельных случаев (При
так называемом «нормальном» распределении ),
может возникнуть вопрос, насколько
сильно рассеиваются вокруг типа отдельные
случаи. Раньше для учета этого явления
пользовались указанием размеров самого
мелкого и самого крупного экземпляра
вариационного ряда. В нашем примере
указали бы границы 18—25.

Теперь
же по ряду соображений принято пользоваться
так называемым стандартным отклонением
и коэффициентом изменчивости или
вариации.

Получаются
эти величины так. Возьмем в нашем примере
пчел с 18 зацепками. Каждая отклоняется
от М на 4 зацепки. Квадрат четырех 16. Так
как таких пчел две, то для них имеем
16х2=32.

Хотя
отклонение было с отрицательным знаком,
но вследствие возведения в квадрат
отрицательные знаки уничтожаются. Для
пчел с 19 зацепками имеем 3х3х5 = 45. Суммируя
все таким образом найденные произведения,
деля сумму на число всех случаев — 100,
получаем среднее квадратическое
уклонение, а извлекши из него квадратный
корень, получаем стандартное отклонение
(стандарт по-английски — тип), обозначаемое
греческой буквой σ (сигма). Для нашего
примера имеем:

σ
= ± √ (16,2 + 9,5 + 4,10 + 1,22 + 1,17 + 4,12 + 9,8)/100 = ±
√2,76 = ± 1,661 зацепок.

Сигма
— величина именованная и выражается в
тех же единицах как изучаемый признак.
Геометрический смысл сигмы таков. Если
взять много материала (например 1000 пчел)
и по вышеизложенному начертить
вариационную кривую, то она будет весьма
плавно подниматься и перегибаться над
М. Если отложить налево и направо от М
по отсеку, равному сигме, то место
перехода каждой ветви кривой из вогнутой
в выпуклую будет как раз приходиться
над наружными точками сигм (см. рис. 3).


Рис.
3. Схема, поясняющая положение перелома
ветвей нормальной кривой над точками,
лежащими на расстоянии одной сигмы от
среднего арифметического.

Ясно,
что чем больше сигма, тем дальше будут
эти точки находиться от М, тем уплощеннее
будет кривая, тем больше будет рассеянность
отдельных особей вокруг типа.

Для
возможности сравнивать изменчивость
признаков, выражаемых разными единицами
измерений и дающих ряды с различной
величиной М, придумали характеристику
отвлеченную. Ее находят, выражая сигму
ряда в процентах среднего арифметического
данного ряда по формуле

С%
= (σ•100)/М = (1,661•100)/22 = 7,54%.

Это
— коэффициент вариации или коэффициент
изменчивости.

Так
вычисляют средние арифметические и
стандартные отклонения для признаков
счетных (число зацепок, число яйцевых
трубочек и т. д.). Несколько иначе
поступают, когда приходится иметь дело
с признаками, получаемыми путем измерений,
взвешиваний и т. д. При этом признаки
особей пчел или целых семей выражаются
не целыми числами, а числами с дробями
(например 25,1 кг меда с семьи и т. д.). В
этом случае при составлении вариационного
ряда: и вариационной кривой составляют
шкалу классов и разносят по классам
измерения особей или семей. Возьмем в
качестве примера определения, времени
остановки движения 15 особей пчел,
помещенных в атмосферу паров серного
эфира. Цифры в минутах и долях минуты
таковы: 6,25; 8,5; 5,0; 8,0; 6,25; 6,5; 3,5;, 6,5; 4,25; 4,4;
4,8; 7,8; 5,25; 5,75 и 6,7. Сперва надо наметить
пределы вариации: 3,5 до 8,5 минут.
Предположим, что мы хотим создать классы
величиной в 2 минуты. Toгда шкала классов
будет такова: 3—5—7—9. Всего у нас будет
три класса. Для того чтобы на границу
класса не попал ни один случай, припишем
к каждой границе 0,01. Границы будут
обозначаться; 3,01—5,01—7,01—9,01, а весь
вариационный ряд после распределения
показателей всех 15 пчел будет таков:

Шкала
классов

3,01
— 5,01 — 7,01 — 9,01

Число
пчел в классе

       5
      7       3

Вычисление
среднего арифметического и стандартного
отклонения можно вести как для вариационных
рядов счетных признаков (см. выше пример
с зацепками), только надо принимать, что
частоты — число пчел в классе — относятся
как бы к середине класса, например пять
пчел в первом классе падают на 4,01 минуты,
7 —на 6,01.

В
биометрических сочинениях приведенная
нами характеристика типа — среднее
арифметическое — и характеристики
разбросанности отклонений вокруг типа
— стандартное отклонение и коэфициент
вариации, сопровождаются так называемыми
средними и вероятными ошибками. Значение
этих ошибок в биометрии необычайно
велико. Дело в том, что когда мы определяем
среднее число зацепок у ста пчел одной
семьи, нас не интересуют именно эти 100
пчел, а интересует среднее число зацепок
на крыльях всех пчел этой семьи, из
которой в качестве пробной группы взято
100 штук. Оказывается, что о действительной
средней величине нашего признака можно
сделать заключение на основе пробы,
причем характеристики, носящие название
средних и вероятных ошибок, дают нам
возможность сделать это заключение с
такой точностью и уверенностью, с какой
мы это пожелаем. Здесь не место выводить
применяемые формулы; укажем, что формула
для средней ошибки среднего арифметического
такова: m = σ/√N , а для вероятной — РЕ=
6,6745(σ/√N) (m есть сокращенное условное
обозначение средней ошибки, а РЕ —
вероятной), где N — число случаев пробы.

Для
нашего примера с зацепками m = 1,661/√100 =
1,661/10 = 0,17 Теория вероятности отрасль
математики, которая лежит в основе
математической статистики, учит, что
если к среднему арифметическому прибавить
тройную среднюю ошибку: 22,0 + 3х0,17 = 22,51 и
вычесть ее из него 22—3х0,17 = 21,49, то мы
получаем такие пределы: 21,49 — 22,51. В этих
пределах с уверенностью, которую
практически можно считать достоверностью
(998 шансов против 2 в пользу нашего
утверждения), лежит среднее арифметическое
всего материала, из которого мы взяли
пробу и который нас собственно и
интересует. Если пользоваться вероятной
ошибкой, т. е. величиной, равной
приблизительно семи десятым средней
ошибки (множитель 0,6745), то для получения
той же степени достоверности надо брать
не утроенную среднюю ошибку, а вероятную
ошибку, помноженную на 4,5. Наконец, ошибки
имеют большое применение, когда нам
надо сравнить две характеристики двух
пробных групп и сделать заключение о
том, отличаются ли средние тех исходных
групп, из которых мы взяли пробу.
Предположим, у нас промерены пробы пчел
из Москвы и Харькова в отношений длины
их хоботка. Первые дали среднюю длину
в 6,115±0,003 мм, а вторые 6,549±0,003 мм. Насколько
достоверны эти отличия? Находят разницу
6,549 — 6,115 = 0,434 и ее вероятную ошибку по
следующей формуле: РЕ=± PE12+PE22
которая гласит, что вероятная ошибка
разницы средних равна корню квадратному
из суммы квадратов ошибок сравниваемых
средних. Если разница превышает свою
ошибку в 4, 5 или больше раз, мы вправе
говорить о статистической достоверности
различия всех харьковских и московских
пчел. В нашем примере это так и есть, ибо
0,434 в 108 раз больше, чем РЕ = ± √0,0032+0,0032 =
0,004.

Соседние файлы в предмете Ветеринарная генетика

  • #
  • #
  • #

2.4. Точность статистического наблюдения

Под точностью статистического наблюдения понимают степень соответствия значения наблюдаемого показателя, вычисленного по материалам обследования, его действительной величине. Расхождение, или разница, между ними называется ошибкой статистического наблюдения.

Различают две группы ошибок:

  1. ошибки регистрации;
  2. ошибки репрезентативности.

Ошибки регистрации присущи любому статистическому наблюдению, как сплошному, так и несплошному. Они делятся на случайные ошибки регистрации и систематические ошибки регистрации.

Случайными ошибками регистрации называют ошибки, возникающие вследствие действия случайных факторов. К ним можно отнести различного рода непреднамеренные описки: например, вместо возраста человека «15 лет» указано «5 лет», у Ивановой Марии Петровны в графе пол отмечен «Мужской» и т. п. Такие ошибки легко выявляются методом логического анализа, например, если человеку 8 лет, но имеется высшее образование, а в графе «Семейное положение» указано «Состоит в браке», то, естественно, следует исправить возраст. Если объем исследуемой совокупности велик или велика доля отбора при выборочном наблюдении, случайные ошибки регистрации имеют тенденцию взаимопогашаться вследствие действия закона больших чисел, поскольку ошибки, как правило, разнонаправлены и искажают статистический показатель как в большую, так и в меньшую сторону. При небольшом объеме наблюдения требуется тщательная выверка его результатов — логический анализ данных.

Систематические ошибки регистрации чаще всего имеют однонаправленные искажения: они либо увеличивают, либо уменьшают статистический показатель, и, что характерно, подобная ситуация повторяется от обследования к обследованию. Так, по результатам переписей (практически всех!) число замужних женщин превышает число женатых мужчин — мужчинам приятнее ощущать себя неженатыми, а для женщины как бы «стыдно» быть не замужем. Другой пример, когда человек округляет свой возраст — вместо 32 лет говорит 30, вместо 79-80 и т. п. (это явление широко известно и даже получило свое название — «аккумуляция возрастов»). Систематические ошибки регистрации могут возникать и из-за неточностей измерительных приборов, если сбор информации проводят путем непосредственного наблюдения.

Ошибки репрезентативности присущи только несплошному обследованию. Они также делятся на случайные и систематические ошибки.

Случайные ошибки репрезентативности возникают из-за того, что обследованию подвергается не вся совокупность в целом, а только ее часть, и, следовательно, при несплошном наблюдении они присутствуют всегда. В теории статистики разработаны специальные методы для оценки величин таких ошибок, на их основе для наблюдаемых показателей строят доверительные интервалы, т.д. эти ошибки вычисляются и находятся как бы «под контролем».

Хуже обстоит дело, если наряду со случайными ошибками имеются и ошибки систематические.

Систематические ошибки репрезентативности возникают, если при несплошном наблюдении кардинально нарушаются технологии отбора единиц из генеральной совокупности объектов, но чаще — если в ходе обследования не удается получить информацию обо всех отобранных для наблюдения единицах, например, вследствие отказа отвечать на вопросы анкеты, или если человека не удалось застать дома и т. п.

Ошибки статистического наблюдения для наглядности можно изобразить в виде схемы (рис. 2.1).

Виды ошибок статистического наблюдения

Рис.
2.1.
Виды ошибок статистического наблюдения

Для повышения точности наблюдения необходимо:

  1. правильно разработать формуляр статистического наблюдения: вопросы должны быть четкими, однозначными, не допускающими двойного толкования;
  2. иметь хорошо обученный персонал для проведения обследования;
  3. строго придерживаться выбранной технологии обследования (если проводится несплошное наблюдение) и помнить, что если не удается опросить какую-то конкретную единицу, отобранную для наблюдения, замена ее на другую единицу может привести к возникновению систематической ошибки репрезентативности;
  4. провести логический анализ данных, основанный на логических взаимосвязях показателей, после сбора всей совокупности анкет или формуляров;
  5. целесообразно провести и арифметический контроль данных, т.д. заново пересчитать расчетные величины, если какие-либо показатели получаются в результате определенных арифметических действий;
  6. предпринять определенные меры по восстановлению данных при наличии незаполненных анкет или формуляров либо при получении результатов обследования сделать поправку на неответы респондентов.

Пример об ошибке репрезентативности

Лекция 4.1 Выборочный метод

К настоящему времени Вы заработали баллов: 0 из 0 возможных.

ГЕНЕРАЛЬНАЯ И ВЫБОРОЧНАЯ СОВОКУПНОСТЬ

Генеральная совокупность — вся подлежащая изучению совокупность объектов (наблюдений).

Генеральная совокупность носит гипотетический характер. Она представляет собой совокупность всех мыслимых наблюдений, которые могли бы быть произведены при данных условиях. Даже если бы у нас была возможность провести сплошное исследование всей совокупности признака, все равно в нее не попали бы объекты, которое по какой то причине отсутствуют на текущий момент, но должны были существовать при данных условиях.

Та часть объектов, которая отобрана для непосредственного изучения, называется выборочной совокупностьюили выборкой

Сущность выборочного метода

Сущность выборочного метода состоит в том, чтобы по некоторой части генеральной совокупности выносить суждение о её свойствах в целом

Чтобы по данным выборки иметь возможность судить о генеральной совокупности, она должна быть репрезентативной(представительной).

Репрезентативная выборка сохраняет и повторяет структуру генеральной совокупности.

Если две выборки взяты из одной генеральной совокупности, то разница в получаемых оценках (например, средних) будет носить случайный характер, как следствие ошибки репрезентативности

Ошибка репрезентативности возникает по причине того, что мы исследуем не всю совокупность, а только её части (выборки). Мы получаем случайную комбинацию элементов из генеральной совокупности.

Для того, чтобы минимизировать различия однородных (взятых из одной генеральной совокупности) выборок необходимо правильным образом их формировать.

Наилучшим способом формирования репрезентативной выборки является случайный отбор элементов из генеральной совокупности без расчленения на части или группы (случайная выборка).

Пример об ошибке репрезентативности

Рассмотрим следующий пример.

Исследователь задался вопросом: «существуют ли различия в эмпатических способностях между психологами и педагогами?». Для того чтобы это прояснить он набрал две группы испытуемых в соответствии с их профессиональной деятельностью и предложил им заполнить опросник на эмпатические способности. Далее, он рассчитал среднее значение в каждой группе.

В группе психологов среднее составило 23,4 балла, а в группе педагогов 21,1. Таким образом, разница в средних между группами составила2,3 балла (23,4 — 21,1 = 2,3).

Если бы представители этих профессий не отличались по изучаемому признаку, тогда разница в средних равнялась бы нулю.

Однако, можно ли считать эту разницу в 2,3 балла достаточной, чтобы судить о реальных различиях между группами? Может сложится так, что психологи и педагоги по эмпатии в реальности не отличаются (выборки однородны), а разница в 2,3 балла, полученная исследователем носит случайный характер, как ошибка репрезентативности.

Таким образом, мы можем сформулировать две гипотезы:

Гипотезы являются альтернативами по отношению к друг другу. Принятие одной из них как верной влечет за собой исключение «истинности» другой.

СТАТИСТИЧЕСКАЯ ГИПОТЕЗА

Статистическая гипотеза – это любое предположение о виде или параметрах неизвестного закона распределения (закона распределения генеральной совокупности)

В статистике принято формулировать пару гипотез. Первая гипотеза называется нулевой, а вторая – альтернативной.

Нулевая гипотеза Н Альтернативная гипотеза Н1
1. 1. Является проверяемой 2. Обычно гипотеза об отсутствии явления (например, различий или зависимости) Является логическим отрицанием нулевой
Поскольку нулевая гипотеза является проверяемой, то её можно отвергать и принимать Альтернативную гипотезу принимают как следствие отрицания нулевой гипотезы

пример:

· Н (нулевая): Женщины не отличаются от мужчин по среднему уровню развития эмпатических способностей (средние значения равны)

· Н1 (альтернативная): Средний уровень эмпатических способностей выше у женщин по сравнению с мужчинами

пример:

· Н (нулевая): Линейная корреляция между самооценкой и тревожностью равна 0

· Н1 (альтернативная): Самооценка отрицательно связана с тревожностью (линейная корреляция меньше нуля / чем выше самооценка, тем ниже тревожность и наоборот)

Вопрос:Какая из двух формулировок соответствует нулевой гипотезе Н?

· А) между психологами и педагогами нет различий по среднему уровню выраженности эмпатии

· Б) между психологами и педагогами есть различия по среднему уровню выраженности эмпатии

Статистический критерий

Правило, по которому нулевая гипотеза отвергается или принимается, называется статистическим критерием.

Статистика – это специально составленная выборочная характеристика (распределение), у которой есть критическое значение такое, что если верна нулевая гипотеза, то вероятность (α) того, что случайная величина превысит это критическое значение, мала (Кремер Н.Ш., 2004).

Критическое значение делит распределение «нулевой гипотезы» на две области: область допустимых значений и область критических значений

Таким образом, критические значения позволяют исследователю либо принять, либо отвергнуть нулевую гипотезу.

В математической статистике можно подбирать критические значение для разных альфа-уровней (уровней значимости). Чаще всего:

1. Критическое значение, которое выделяет критическую область с вероятностью α

Источник

Ошибки статистического наблюдения и основные приёмы их устранения

Всякое статистическое наблюдение должно быть полным и достоверным. Однако по ряду причин степень точности данных может быть различной.

Все ошибки наблюдения подразделяются на два вида:

Ошибки регистрации возникают вследствие неправильного установления фактов в процессе наблюдения или неправильной их записи.

Ошибки регистрации могут возникать как при сплошном наблюдении, так и при несплошном и имеют следующие виды:

Случайные ошибки – это ошибки, которые возникают в результате небрежной описки или невнимательного отношения регистратора при заполнении формуляра (ошибки в подсчёте).

Систематические ошибки – это ошибки, которые искажают сведения по каждой отдельной единице наблюдения в одном и том же направлении.

Систематические ошибки делятся на:

Преднамеренные ошибки (сознательные, тенденциозные ошибки), возникающие в результате сознательного искажения статистической информации. К ним относятся: приписки, неправильные сведения об объёме выпущенной продукции, об остатках сырья и материалов и т. д.

Непреднамеренные ошибки – это ошибки, которые возникают в результате случайных причин, т.е. неумышленно (неисправность измерительных приборов, невнимательность регистратора и т.д.).

Ошибки репрезентативности свойственны несплошному наблюдению. Они возникают в результате выборочного наблюдения, когда отобранная часть единиц совокупности недостаточно полно отражает состав всей изучаемой совокупности.

Ошибки репрезентативности (так же, как и ошибки регистрации) могут быть случайными и систематическими.

Случайные ошибки оцениваются с помощью математических методов.

Систематические ошибки – это отклонения, которые возникают в результате случайного отбора единиц изучаемой совокупности. Их размеры не поддаются количественной оценке.

Для выявления и устранения допущенных при регистрации ошибок применяются следующие методы:

а) внешний контроль;

б) логический контроль;

в) счётный контроль.

При внешнем контроле проверяется: правильность оформления документов; наличие всех необходимых записей, которые предусмотрены инструкцией и т.д.

Логический контроль заключается в проверке ответов на вопросы программы наблюдения путём сопоставления полученных данных с другими источниками.

Сущность счётного (арифметического) контроля заключается в счётной проверке всех итоговых показателей, которые содержатся в отчётности или формуляре исследования. Задачей такого контроля является исправление итогов и отдельных числовых показателей.

В ряде случаев, при счётном контроле данных статистического наблюдения применяется метод балансовой увязки показателей (наличие на начало отчётного периода плюс поступления минус расход должно быть равно наличию на конец отчётного периода). Такой метод применяют: при проверках поголовья скота, при учёте поступления и расхода сырья и материалов и т.д.

Указанные методы проверки достоверности статистического наблюдения позволяют сократить до минимального значения допуск ошибок.

Источник

Репрезентативность — что это за процесс? Ошибка репрезентативности

Понятие репрезентативности часто встречается в статистических отчетностях и при подготовке выступлений и докладов. Пожалуй, без нее трудно представить себе какой-либо из видов подачи информации на обозрение.

Репрезентативность — что это?

Репрезентативность отражает, насколько выбранные объекты или части соответствуют содержанию и смыслу совокупности данных, из которой они были выбраны.

Другие определения

Понятие репрезентативности можно раскрывать в разных контекстах. Но по своему смыслу репрезентативность – это соответствие черт и свойств выбранных единиц из общей совокупности, которые точно отражают характеристики всей генеральной базы данных в целом.

Также репрезентативность информации определяют как способность выборочных данных представить параметры и свойства совокупности, важные с точки зрения проводимого исследования.

Репрезентативная выборка

Принцип формирования выборки заключается в избрании наиболее важных и точно отображающих свойства общей совокупности данных. Для этого используются различные методы, которые позволяют получать точные результаты и общее представление о генеральной совокупности, используя только выборочные материалы, описывающие качества всех данных.

Таким образом, нет необходимости изучать весь материал, а достаточно рассмотреть выборочную репрезентативность. Что это? Это выборка отдельных данных для того, чтобы иметь понятие об общей массе информации.

Их в зависимости от способа различают как вероятностные и невероятностные. Вероятностная – это выборка, которая производится путем вычисления наиболее важных и интересных данных, являющихся в дальнейшем представителями генеральной совокупности. Это обдуманный выбор или случайная выборка, тем не менее, обоснованная своим содержанием.

Невероятностная – это одна из разновидностей случайной выборки, составляющаяся по принципу обычной лотереи. В таком случае не учитывается мнение того, кто составляет такую выборку. Используется лишь слепой жребий.

Вероятностная выборка

Вероятностные выборки также могут подразделяться на несколько видов:

  • Одна из самых простых и понятных принципов – это нерепрезентативная выборка. К примеру, такой способ часто используется при проведении социальных опросов. При этом участники опроса не выбираются из толпы по каким-либо определенным признакам, и получение информации производится у первых 50 людей, принявших участие в нём.
  • Преднамеренные выборки отличаются тем, что имеют ряд требований и условий при отборе, однако все же полагаются на случайное совпадение, не преследуя своей целью достижение хорошей статистики.
  • Выборка на основании квот – это еще одна из вариаций невероятностной выборки, которая часто используется для исследования больших совокупностей данных. Для нее используется множество условий и норм. Подбираются объекты, которые должны им соответствовать. То есть на примере социального опроса можно предположить, что опрошены будут 100 человек, но только мнение некоторого числа людей, которые будут соответствовать установленным требованиям, будут учтены при составлении статистического отчета.

Вероятностные выборки

Для вероятностных выборок исчисляется ряд параметров, которым объекты в выборке будут соответствовать, и среди них разными способами могут избираться именно те факты и данные, которые будут представлены как репрезентативность данных выборки. Такими способами вычисления нужных данных могут быть:

  • Простая случайная выборка. Заключается в том, что среди выбранного сегмента совершенно случайным методом лотереи выбирается необходимое количество данных, которые будут являться репрезентативной выборкой.
  • Систематическая и случайная выборка дает возможность составить систему вычисления необходимых данных на основе случайно выбранного сегмента. Таким образом, если первое случайное число, которое указывает на порядковый номер данных, выбранных из общей совокупности, будет 5, то последующими данными, которые будут выбраны, могут стать, например, 15, 25, 35 и так далее. Этот пример наглядно объясняет, что даже случайный выбор может основываться на систематических вычислениях необходимых исходных данных.

Выборка потребителей

Осмысленная выборка – это способ, который заключается в рассмотрении каждого отдельного сегмента, и на основании его оценки составляется совокупность, отражающая характеристики и свойства общей базы данных. Таким образом набирается большее количество данных, соответствующих требованиям репрезентативной выборки. Можно легко отобрать некоторое количество вариантов, которые не войдут в общее число, не потеряв при этом качество отобранных данных, представляющих общую совокупность. Таким способом определяется репрезентативность результатов исследования.

Размер выборки

Не последний вопрос, который необходимо решить, – это размер выборки для репрезентативного представления генеральной совокупности. Размер выборки не всегда зависит от количества исходников в генеральной совокупности. Однако репрезентативность выборочной совокупности напрямую зависит от того, на сколько сегментов должен быть в итоге разделён результат. Чем больше таких сегментов, тем больше данных попадает в результативную выборку. Если результаты требуют общего обозначения и не требуют конкретики, тогда, соответственно, выборка становится меньше, поскольку, не вдаваясь в детали, информация излагается более поверхностно, а значит, ее прочтение будет общим.

Понятие ошибки репрезентативности

Ошибка репрезентативности – это конкретные расхождения между характеристиками генеральной совокупности и выборочных данных. При проведении любого выборочного исследования невозможно получить абсолютно точные данные, как при полном исследовании генеральных совокупностей и выборки, представленной лишь частью сведений и параметров, тогда как более детальное изучение возможно только при исследовании всей совокупности. Таким образом, неизбежны некоторые погрешности и ошибки.

Виды ошибок

Различают некоторые ошибки, которые возникают при составлении репрезентативной выборки:

  • Систематические.
  • Случайные.
  • Преднамеренные.
  • Непреднамеренные.
  • Стандартные.
  • Предельные.

Основанием для появления случайных ошибок может быть несплошной характер исследования общей совокупности. Обычно случайная ошибка репрезентативности имеет незначительный размер и характер.

Систематические ошибки между тем возникают при нарушении правил отбора данных из общей совокупности.

Средняя ошибка – это разница между усредненными значениями выборки и основной совокупностью. Она не зависит от количества единиц в выборке. Она обратно пропорциональна объему выборки. Тогда чем больше объем, тем меньше значение средней ошибки.

Предельная ошибка – это наибольшая возможная разница между усредненными значениями сделанной выборки и общей совокупностью. Такая ошибка охарактеризовывается как максимум вероятных ошибок при заданных условиях их появления.

Преднамеренные и непреднамеренные ошибки репрезентативности

Ошибки смещения данных бывают преднамеренными и непреднамеренными.

Тогда причинами появления преднамеренных ошибок является подход к подбору данных по методу определения тенденций. Непреднамеренные ошибки возникают еще на стадии подготовки выборочного наблюдения, формирования репрезентативной выборки. Для недопущения подобных ошибок необходимо создать хорошую основу для выборки, составляющей списки единиц отбора. Она должна полностью соответствовать целям проведения выборки, быть достоверной, охватывающей все аспекты исследования.

Валидность, надежность, репрезентативность. Расчет ошибок

Расчет ошибки репрезентативности (Мм) средней арифметической величины (М).

Среднее квадратическое отклонение: численность выборки (>30).

Ошибка репрезентативности (Мр) и относительная величина (Р): численность выборки (n>30).

В том случае, когда приходится изучать совокупность, где количество выборки мало и составляет меньше 30 единиц, тогда число наблюдений станет меньше на одну единицу.

Величина ошибки прямо порциональна объему выборки. Репрезентативность информации и вычисление степени возможности составления точного прогноза отражает определенная величина предельной ошибки.

Репрезентативные системы

Не только в процессе оценки подачи информации используется репрезентативная выборка, но и сам человек, получающий информацию, использует репрезентативные системы. Таким образом, мозг обрабатывает некоторое количество информации, создавая репрезентативную выборку из всего потока информации, чтобы качественно и быстро оценить подаваемые данные и понять суть вопроса. Ответить на вопрос: «Репрезентативность — что это?» — в масштабах человеческого сознания довольно просто. Для этого мозг использует все подвластные органы чувств, в зависимости от того, какую именно информацию необходимо вычленить из общего потока. Таким образом, различают:

  • Визуальную репрезентативную систему, где задействуются органы зрительного восприятия глаза. Люди, часто использующие подобную систему, называются визуалами. С помощью этой системы человек обрабатывает информацию, поступающую в виде изображений.
  • Аудиальная репрезентативная система. Главный орган, который используется – это слух. Информация, подаваемая в виде звуковых файлов или речи, обрабатываются именно этой системой. Люди, лучше воспринимающие информацию на слух, называются аудиалами.
  • Кинестетическая репрезентативная система представляет собой обработку потока информации, путем восприятия его с помощью обонятельных и осязательных каналов.

  • Дигитальная репрезентативная система используется вместе с другими как средство получения информации извне. Это субъективно-логическое восприятие и осмысление полученных данных.

Итак, репрезентативность — что это? Простая выборка из множества или неотъемлемая процедура при обработке информации? Однозначно можно сказать, что репрезентативность во многом определяет наше восприятие потоков данных, помогая вычленить из него наиболее веские и значимые.

Источник

Как мы уже знаем, репрезентативность — свойство выборочной совокупности представлять характеристику генеральной. Если совпадения нет, говорят об ошибке репрезентативности — мере отклонения статистической структуры выборки от структуры соответствующей генеральной совокупности. Предположим, что средний ежемесячный семейный доход пенсионеров в генеральной совокупности составляет 2 тыс. руб., а в выборочной — 6 тыс. руб. Это означает, что социолог опрашивал только зажиточную часть пенсионеров, а в его исследование вкралась ошибка репрезентативности. Иными словами, ошибкой репрезентативности называется расхождение между двумя совокупностями — генеральной, на которую направлен теоретический интерес социолога и представление о свойствах которой он хочет получить в конечном итоге, и выборочной, на которую направлен практический интерес социолога, которая выступает одновременно как объект обследования и средство получения информации о генеральной совокупности.

Наряду с термином «ошибка репрезентативности» в отечественной литературе можно встретить другой — «ошибка выборки». Иногда они употребляются как синонимы, а иногда «ошибка выборки» используется вместо «ошибки репрезентативности» как количественно более точное понятие.

Ошибка выборки — отклонение средних характеристик выборочной совокупности от средних характеристик генеральной совокупности.

На практике ошибка выборки определяется путем сравнения известных характеристик генеральной совокупности с выборочными средними. В социологии при обследованиях взрослого населения чаще всего используют данные переписей населения, текущего статистического учета, результаты предшествующих опросов. В качестве контрольных параметров обычно применяются социально-демографические признаки. Сравнение средних генеральной и выборочной совокупностей, на основе этого определение ошибки выборки и ее уменьшение называется контролированием репрезентативности. Поскольку сравнение своих и чужих данных можно сделать по завершении исследования, такой способ контроля называется апостериорным, т.е. осуществляемым после опыта.

В опросах Института Дж. Гэллапа репрезентативность контролируется по имеющимся в национальных переписях данным о распределении населения по полу, возрасту, образованию, доходу, профессии, расовой принадлежности, месту проживания, величине населенного пункта. Всероссийский центр изучения общественного мнения (ВЦИОМ) использует для подобных целей такие показатели, как пол, возраст, образование, тип поселения, семейное положение, сфера занятости, должностной статус респондента, которые заимствуются в Государственном комитете по статистике РФ. В том и другом случае генеральная совокупность известна. Ошибку выборки невозможно установить, если неизвестны значения переменной в выборочной и генеральной совокупностях.

Специалисты ВЦИОМ обеспечивают при анализе данных тщательный ремонт выборки, чтобы минимизировать отклонения, возникшие на этапе полевых работ. Особенно сильные смещения наблюдаются по параметрам пола и возраста. Объясняется это тем, что женщины и люди с высшим образованием больше времени проводят дома и легче идут на контакт с интервьюером, т.е. являются легко достижимой группой по сравнению с мужчинами и людьми «необразованными»35.

Ошибка выборки обусловливается двумя факторами: методом формирования выборки и размером выборки.

Ошибки выборки подразделяются на два типа — случайные и систематические. Случайная ошибка — это вероятность того, что выборочная средняя выйдет (или не выйдет) за пределы заданного интервала. К случайным ошибкам относят статистические погрешности, присущие самому выборочному методу. Они уменьшаются при возрастании объема выборочной совокупности.

Второй тип ошибок выборки — систематические ошибки. Если социолог решил узнать мнение всех жителей города о проводимой местными органами власти социальной политике, а опросил только тех, у кого есть телефон, то возникает предумышленное смещение выборки в пользу зажиточных слоев, т.е. систематическая ошибка.

Таким образом, систематические ошибки — результат деятельности самого исследователя. Они наиболее опасны, поскольку приводят к довольно значительным смещениям результатов исследования. Систематические ошибки считаются страшнее случайных еще и потому, что они не поддаются контролю и измерению.

Они возникают, когда, например:

  1. выборка не соответствует задачам исследования (социолог решил изучить только работающих пенсионеров, а опросил всех подряд);
  2. налицо незнание характера генеральной совокупности (социолог думал, что 70% всех пенсионеров не работает, а оказалось, что не работает только 10%);
  3. отбираются только «выигрышные» элементы генеральной совокупности (например, только обеспеченные пенсионеры).

Внимание! В отличие от случайных ошибок систематические ошибки при возрастании объема выборки не уменьшаются.

Обобщив все случаи, когда происходят систематические ошибки, методисты составили их реестр. Они полагают, что источником неконтролируемых перекосов в распределении выборочных наблюдений могут быть следующие факторы:

  • нарушены методические и методологические правила проведения социологического исследования;
  • выбраны неадекватные способы формирования выборочной совокупности, методы сбора и расчета данных;
  • произошла замена требуемых единиц наблюдения другими, более доступными;
  • отмечен неполный охват выборочной совокупности (недополучение анкет, неполное их заполнение, труднодоступность единиц наблюдения).

Намеренные ошибки социолог допускает редко. Чаще ошибки возникают из-за того, что социологу плохо известна структура генеральной совокупности: распределение людей по возрасту, профессии, доходам и т.д.

Систематические ошибки легче предупредить (по сравнению со случайными), но их очень трудно устранить. Предупреждать систематические ошибки, точно предвидя их источники, лучше всего заранее — в самом начале исследования.

Вот некоторые способы избежать ошибок выборки:

  • каждая единица генеральной совокупности должна иметь равную вероятность попасть в выборку;
  • отбор желательно производить из однородных совокупностей;
  • надо знать характеристики генеральной совокупности;
  • при составлении выборочной совокупности надо учитывать случайные и систематические ошибки.

Если выборочная совокупность (или просто выборка) составлена правильно, то социолог получает надежные результаты, харастеризующие всю генеральную совокупность. Если она составлена неправильно, то ошибка, возникшая на этапе составления выборки, на каждом следующем этапе проведения социологического исследования приумножается и достигает в конечном счете такой величины, которая перевешивает ценность проведенного исследования. Говорят, что от такого исследования больше вреда, нежели пользы.

Подобные ошибки могут произойти только с выборочной совокупностыо. Чтобы избежать или уменьшить вероятность ошибки, самый простой способ — увеличивать размеры выборки (в идеале до объема генеральной: когда обе совокупности совпадут, ошибка выборки вообще исчезнет). Экономически такой метод невозможен. Остается другой путь — совершенствовать математические методы составления выборки. Они то и применяются на практике. Таков первый канал проникновения в социологию математики. Второй канал — математическая обработка данных.

Особенно важной проблема ошибок становится в маркетинговых исследованиях, где используются не очень большие выборки. Обычно они составляют несколько сотен, реже — тысячу респондентов. Здесь исходным пунктом расчета выборки выступает вопрос об определении размеров выборочной совокупности. Численность выборочной совокупности зависит от двух факторов:

  1. стоимости сбора информации,
  2. стремления к определенной степени статистической достоверности результатов, которую надеется получить исследователь.

Конечно, даже не искушенные в статистике и социологии люди интуитивно понимают, что чем больше размеры выборки, т.е. чем ближе они к размерам генеральной совокупности в целом, тем более надежны и достоверны полученные данные. Однако выше мы уже говорили о практической невозможности сплошных опросов в тех случаях, когда они проводятся на объектах, численность которых превышает десятки, сотни тысяч и даже миллионы. Понятно, что стоимость сбора информации (включающая оплату тиражирования инструментария, труда анкетеров, полевых менеджеров и операторов по компьютерному вводу) зависит от той суммы, которую готов выделить заказчик, и слабо зависит от исследователей. Что же касается второго фактора, то мы остановимся на нем чуть подробнее.

Итак, чем больше величина выборки, тем меньше возможная ошибка. Хотя необходимо отметить, что при желании увеличить точность вдвое вам придется увеличить выборку не в два, а в четыре раза. Например, чтобы сделать в два раза более точной оценку данных, полученных путем опроса 400 человек, вам потребуется опросить не 800, а 1600 человек. Впрочем, вряд ли маркетинговое исследование испытывает нужду в стопроцентной точности. Если пивовару необходимо узнать, какая часть потребителей пива предпочитает именно его марку, а не сорт его конкурента, — 60% или 40%, то на его планы никак не повлияет разница между 57%, 60 или 63%.

Ошибка выборки может зависеть не только от ее величины, но и от степени различий между отдельными единицами внутри генеральной совокупности, которую мы исследуем. Например, если нам нужно узнать, какое количество пива потребляется, то мы обнаружим, что внутри нашей генеральной совокупности нормы потребления у различных людей существенно различаются (гетерогенная генеральная совокупность). В другом случае мы будем изучать потребление хлеба и установим, что у разных людей оно различается гораздо менее существенно {гомогенная генеральная совокупность). Чем больше различия (или гетерогенность) внутри генеральной совокупности, тем больше величина возможной ошибки выборки. Указанная закономерность лишь подтверждает то, что нам подсказывает простой здравый смысл. Таким образом, как справедливо утверждает В. Ядов, «численность (объем) выборки зависит от уровня однородности или разнородности изучаемых объектов. Чем более они однородны, тем меньшая численность может обеспечить статистически достоверные выводы».

Определение объема выборки зависит также от уровня доверительного интервала допустимой статистической ошибки. Здесь имеются в виду так называемые случайные ошибки, которые связаны с природой любых статистических погрешностей. В.И. Паниотто приводит следующие расчеты репрезентативной выборки с допущением 5%-ной ошибки:
Это означает,что если вы, опросив, предположим, 400 человек в районном городе, где численность взрослого платежеспособного населения составляет 100 тыс. человек, выявили, что 33% опрошенных покупателей предпочитают продукцию местного мясокомбината, то с 95%-ной вероятностью можете утверждать, что постоянными покупателями этой продукции являются 33+5% (т.е. от 28 до 38%) жителей этого города.

Можно также воспользоваться расчетами института Гэллапа для оценки соотношения размеров выборки и ошибки выборки.

Понятие репрезентативности часто встречается в статистических отчетностях и при подготовке выступлений и докладов. Пожалуй, без нее трудно представить себе какой-либо из видов подачи информации на обозрение.

Репрезентативность — что это?

понятие репрезентативности

Репрезентативность отражает, насколько выбранные объекты или части соответствуют содержанию и смыслу совокупности данных, из которой они были выбраны.

Другие определения

Понятие репрезентативности можно раскрывать в разных контекстах. Но по своему смыслу репрезентативность – это соответствие черт и свойств выбранных единиц из общей совокупности, которые точно отражают характеристики всей генеральной базы данных в целом.

репрезентативность что это

Также репрезентативность информации определяют как способность выборочных данных представить параметры и свойства совокупности, важные с точки зрения проводимого исследования.

Репрезентативная выборка

Принцип формирования выборки заключается в избрании наиболее важных и точно отображающих свойства общей совокупности данных. Для этого используются различные методы, которые позволяют получать точные результаты и общее представление о генеральной совокупности, используя только выборочные материалы, описывающие качества всех данных.

Таким образом, нет необходимости изучать весь материал, а достаточно рассмотреть выборочную репрезентативность. Что это? Это выборка отдельных данных для того, чтобы иметь понятие об общей массе информации.

репрезентативность результатов

Их в зависимости от способа различают как вероятностные и невероятностные. Вероятностная – это выборка, которая производится путем вычисления наиболее важных и интересных данных, являющихся в дальнейшем представителями генеральной совокупности. Это обдуманный выбор или случайная выборка, тем не менее, обоснованная своим содержанием.

Невероятностная – это одна из разновидностей случайной выборки, составляющаяся по принципу обычной лотереи. В таком случае не учитывается мнение того, кто составляет такую выборку. Используется лишь слепой жребий.

Вероятностная выборка

Вероятностные выборки также могут подразделяться на несколько видов:

  • Одна из самых простых и понятных принципов – это нерепрезентативная выборка. К примеру, такой способ часто используется при проведении социальных опросов. При этом участники опроса не выбираются из толпы по каким-либо определенным признакам, и получение информации производится у первых 50 людей, принявших участие в нём.
  • Преднамеренные выборки отличаются тем, что имеют ряд требований и условий при отборе, однако все же полагаются на случайное совпадение, не преследуя своей целью достижение хорошей статистики.
  • Выборка на основании квот – это еще одна из вариаций невероятностной выборки, которая часто используется для исследования больших совокупностей данных. Для нее используется множество условий и норм. Подбираются объекты, которые должны им соответствовать. То есть на примере социального опроса можно предположить, что опрошены будут 100 человек, но только мнение некоторого числа людей, которые будут соответствовать установленным требованиям, будут учтены при составлении статистического отчета.

репрезентативность информации

Вероятностные выборки

Для вероятностных выборок исчисляется ряд параметров, которым объекты в выборке будут соответствовать, и среди них разными способами могут избираться именно те факты и данные, которые будут представлены как репрезентативность данных выборки. Такими способами вычисления нужных данных могут быть:

  • Простая случайная выборка. Заключается в том, что среди выбранного сегмента совершенно случайным методом лотереи выбирается необходимое количество данных, которые будут являться репрезентативной выборкой.
  • Систематическая и случайная выборка дает возможность составить систему вычисления необходимых данных на основе случайно выбранного сегмента. Таким образом, если первое случайное число, которое указывает на порядковый номер данных, выбранных из общей совокупности, будет 5, то последующими данными, которые будут выбраны, могут стать, например, 15, 25, 35 и так далее. Этот пример наглядно объясняет, что даже случайный выбор может основываться на систематических вычислениях необходимых исходных данных.

Выборка потребителей

Осмысленная выборка – это способ, который заключается в рассмотрении каждого отдельного сегмента, и на основании его оценки составляется совокупность, отражающая характеристики и свойства общей базы данных. Таким образом набирается большее количество данных, соответствующих требованиям репрезентативной выборки. Можно легко отобрать некоторое количество вариантов, которые не войдут в общее число, не потеряв при этом качество отобранных данных, представляющих общую совокупность. Таким способом определяется репрезентативность результатов исследования.

Размер выборки

Не последний вопрос, который необходимо решить, – это размер выборки для репрезентативного представления генеральной совокупности. Размер выборки не всегда зависит от количества исходников в генеральной совокупности. Однако репрезентативность выборочной совокупности напрямую зависит от того, на сколько сегментов должен быть в итоге разделён результат. Чем больше таких сегментов, тем больше данных попадает в результативную выборку. Если результаты требуют общего обозначения и не требуют конкретики, тогда, соответственно, выборка становится меньше, поскольку, не вдаваясь в детали, информация излагается более поверхностно, а значит, ее прочтение будет общим.

ошибка репрезентативности

Понятие ошибки репрезентативности

Ошибка репрезентативности – это конкретные расхождения между характеристиками генеральной совокупности и выборочных данных. При проведении любого выборочного исследования невозможно получить абсолютно точные данные, как при полном исследовании генеральных совокупностей и выборки, представленной лишь частью сведений и параметров, тогда как более детальное изучение возможно только при исследовании всей совокупности. Таким образом, неизбежны некоторые погрешности и ошибки.

Виды ошибок

Различают некоторые ошибки, которые возникают при составлении репрезентативной выборки:

  • Систематические.
  • Случайные.
  • Преднамеренные.
  • Непреднамеренные.
  • Стандартные.
  • Предельные.

Основанием для появления случайных ошибок может быть несплошной характер исследования общей совокупности. Обычно случайная ошибка репрезентативности имеет незначительный размер и характер.

Систематические ошибки между тем возникают при нарушении правил отбора данных из общей совокупности.

репрезентативность данных

Средняя ошибка – это разница между усредненными значениями выборки и основной совокупностью. Она не зависит от количества единиц в выборке. Она обратно пропорциональна объему выборки. Тогда чем больше объем, тем меньше значение средней ошибки.

Предельная ошибка – это наибольшая возможная разница между усредненными значениями сделанной выборки и общей совокупностью. Такая ошибка охарактеризовывается как максимум вероятных ошибок при заданных условиях их появления.

Преднамеренные и непреднамеренные ошибки репрезентативности

Ошибки смещения данных бывают преднамеренными и непреднамеренными.

Тогда причинами появления преднамеренных ошибок является подход к подбору данных по методу определения тенденций. Непреднамеренные ошибки возникают еще на стадии подготовки выборочного наблюдения, формирования репрезентативной выборки. Для недопущения подобных ошибок необходимо создать хорошую основу для выборки, составляющей списки единиц отбора. Она должна полностью соответствовать целям проведения выборки, быть достоверной, охватывающей все аспекты исследования.

Валидность, надежность, репрезентативность. Расчет ошибок

1

Расчет ошибки репрезентативности (Мм) средней арифметической величины (М).

Среднее квадратическое отклонение: численность выборки (>30).

Ошибка репрезентативности (Мр) и относительная величина (Р): численность выборки (n>30).

В том случае, когда приходится изучать совокупность, где количество выборки мало и составляет меньше 30 единиц, тогда число наблюдений станет меньше на одну единицу.

Величина ошибки прямо порциональна объему выборки. Репрезентативность информации и вычисление степени возможности составления точного прогноза отражает определенная величина предельной ошибки.

2

Репрезентативные системы

Не только в процессе оценки подачи информации используется репрезентативная выборка, но и сам человек, получающий информацию, использует репрезентативные системы. Таким образом, мозг обрабатывает некоторое количество информации, создавая репрезентативную выборку из всего потока информации, чтобы качественно и быстро оценить подаваемые данные и понять суть вопроса. Ответить на вопрос: «Репрезентативность — что это?» — в масштабах человеческого сознания довольно просто. Для этого мозг использует все подвластные органы чувств, в зависимости от того, какую именно информацию необходимо вычленить из общего потока. Таким образом, различают:

3

  • Визуальную репрезентативную систему, где задействуются органы зрительного восприятия глаза. Люди, часто использующие подобную систему, называются визуалами. С помощью этой системы человек обрабатывает информацию, поступающую в виде изображений.
  • Аудиальная репрезентативная система. Главный орган, который используется – это слух. Информация, подаваемая в виде звуковых файлов или речи, обрабатываются именно этой системой. Люди, лучше воспринимающие информацию на слух, называются аудиалами.
  • Кинестетическая репрезентативная система представляет собой обработку потока информации, путем восприятия его с помощью обонятельных и осязательных каналов.

4

  • Дигитальная репрезентативная система используется вместе с другими как средство получения информации извне. Это субъективно-логическое восприятие и осмысление полученных данных.

валидность надежность репрезентативность

Итак, репрезентативность — что это? Простая выборка из множества или неотъемлемая процедура при обработке информации? Однозначно можно сказать, что репрезентативность во многом определяет наше восприятие потоков данных, помогая вычленить из него наиболее веские и значимые.

Содержание курса лекций “Статистика”


Выборочное наблюдение как источник статистической информации в изучении социально-экономических явлений и процессов

Тема 10 Выборочное наблюдение

Статистическая методология исследования массовых явлений различает, как известно, два способа наблюдения в зависимости от полноты охвата объекта: сплошное и несплошное. Разновидностью несплошного наблюдения является выборочное, которое в условиях рыночных отношений в России находит все более широкое применение. Переход статистики РФ на международные стандарты системы национального счетоводства требует более широкого применения выборки для получения и анализа показателей СНС не только в промышленности, но и в других секторах экономики.

Под выборочным наблюдением понимается несплошное наблюдение, при котором статистическому обследованию (наблюдению) подвергаются единицы изучаемой совокупности, отобранные случайным способом. Выборочное наблюдение ставит перед собой задачу ‑ по обследуемой части дать характеристику всей совокупности единиц при условии соблюдения всех правил и принципов проведения статистического наблюдения и науч­но организованной работы по отбору единиц.



К выборочному наблюдению статистика прибегает по различным причинам. На современном этапе появилось множество субъектов хозяйствен­ной деятельности, которые характерны для рыночной экономики. Речь идет об акционерных обществах, малых и совместных предприятиях, фермерских хозяйствах и т.д. Сплошное обследование этих статистических совокупностей, состоящих из десятков и сотен тысяч единиц, потребовало бы огромных материальных, финансовых и иных затрат. Использование же выборочного обследования позволяет значительно сэкономить силы и средства, что имеет немаловажное значение.


Наряду с экономией ресурсов одной из причин превращения выборочного наблюдения в важнейший источник статистической информации является возможность значительно ускорить получение необходимых данных. Ведь при обследовании, скажем, 10% единиц совокупности будет затрачено гораздо меньше времени, а результаты могут быть представлены быстрее, и будут более актуальными. Фактор времени важен для статисти­ческого исследования особенно в условиях изменяющейся социально-экономической ситуации.


Реализация выборочного метода базируется на понятиях генеральной и выборочной совокупностей.

Генеральной совокупностью называется вся исходная изучаемая статистическая совокупность, из которой на основе отбора единиц или групп единиц формируется совокупность выборочная. Поэтому генеральную совокупность также называют основой выборки.

Отбор единиц в выборочную совокупность может быть повторным или беспо­вторным.

При повторном отборе попавшая в выборку единица подвергается обследованию, т.е. регистрации значений ее признаков, возвращается в генеральную совокупность и наравне с другими единицами участвует в дальнейшей процедуре отбора. Таким образом, некоторые единицы могут попадать в выборку дважды, трижды или даже большее число раз. И при изучении выборочной совокупности они будут рассматриваться как отдельные независимые наблюдения.

Отметим, что число единиц генеральной совокупности, участвующих в отборе, при таком подходе остается постоянным. Поэтому вероятность попадания в выборку для всех единиц совокупности на протяжении всего процесса отбора также не меняется.


На практике методология повторного отбора обычно используется в тех случаях, когда объем генеральной совокупности не известен и теоретически возможно повторение единиц с уже встречавшимися значениями всех регистрируемых признаков.

Например, при проведении маркетинговых исследований мы не можем сколько-нибудь точно оценить, какое число потребителей предпочитают стиральный порошок конкретной торговой марки, сколько покупателей предпочитают делать покупки именно в данном супермаркете и т.д. Поэтому возможно повторение совершенно идентичных единиц как по причине практически неограниченных объемов совокупности, так и вследствие возможной повторной регистрации. Предположим, при проведении обследования один и тот же покупатель может дважды прийти в магазин и дважды подвергнуться обследованию.



При выборочном контроле качества продукции объем генеральной совокупности также часто не определен, так как процесс производства может осуществляться постоянно, каждый день дополняя генеральную совокупность новыми единицами-изделиями. Поэтому в выборочную совокупность могут попасть два и более изделий с абсолютно одинаковыми характеристиками. Следовательно, и в этом случае при обработке результатов выборки необходимо ориентироваться на методологию, используемую при повторном отборе.


При бесповоротном отборе попавшая в выборку единица подвергается обследова­нию и в дальнейшей процедуре отбора не участвует. Такой отбор целесообразен и практически возможен в тех случаях, когда объем генеральной совокупности четко определен. Получаемые при этом результаты, как правило, являются более точными по сравнению с результатами, основанными на повторной выборке.

Как уже отмечалось выше, выборочное наблюдение всегда связано с определенны­ми ошибками получаемых характеристик. Эти ошибки называются ошибками репрезента­тивности (представительности).



Ошибки репрезентативности обусловлены тем обстоятельством, что выборочная совокупность не может по всем параметрам в точности воспроизвести совокупность генеральную. Получаемые расхождения или ошибки репрезентативности позволяют заключить, в какой степени попавшие в выборку единицы могут представлять всю генеральную совокупность. При этом следует различать систематические и случайные ошибки репре­зентативности.


Систематические ошибки репрезентативности связаны с нарушением принципов формирования выборочной совокупности. Например, вследствие каких-либо причин, связанных с организацией отбора, в выборку попали единицы, характеризующиеся несколько большими или, наоборот, несколько меньшими по сравнению с другими единицами значениями наблюдаемых признаков. В этом случае и рассчитанные выборочные характеристики будут завышенными или заниженными.


Случайные ошибки репрезентативности обусловлены действием случайных факторов, не содержащих каких-либо элементов системности в направлении воздействия на рассчитываемые выборочные характеристики. Но даже при строгом соблюдении всех принципов формирования выборочной совокупности выборочные и генеральные характе­ристики будут несколько различаться. Получаемые случайные ошибки могут быть стати­стически оценены и учтены при распространении результатов выборочного наблюдения на всю генеральную совокупность. Оценка ошибок выборочного наблюдения основана на теоремах теории вероятностей.


При дальнейшем рассмотрении теории и методов выборочного наблюдения используются следующие общепринятые условные обозначения:

    N ‑ объем (число единиц) генеральной совокупности;

    n ‑ объем (число единиц) выборочной совокупности;

генеральная средняя

 ‑ генеральная средняя, т.е. среднее значение изучаемого признака по генераль­ной совокупности (средняя прибыль, средняя величина активов, средняя численность ра­ботников предприятия и т.п.);

выбороноая средняя

‑ выборочная средняя,
т.е. среднее значение изучаемого признака по выборочной совокупности;
 

     М ‑ численность единиц генеральной совокупности, обладающих определенным вариантом или вариантами изучаемого признака (численность городского населения, численность сельского населения, количество бракованных изделий, число нерентабельных предприятий и т.п.);

     р ‑ генеральная доля, т.е. доля единиц, обладающих определенным вариантом или вариантами изучаемого признака, во всей генеральной совокупности (доля городского населения в общей численности населения, доля бракованной продукции в общем выпуске, доля нерентабельных предприятий в общей численности предприятий и т.п.); определяетcя как

     m численность единиц выборочной совокупности, обладающих определенным вариантом или вариантами изучаемого признака;

     w ‑ выборочная доля, т.е. доля единиц, обладающих определенным вариантом или вариантами изучаемого признака, в выборочной совокупности,

определяется как ;

средняя ошибка выборки

‑ средняя ошибка выборки;

предельная ошибка выборки

‑ предельная ошибка выборки;

‑ коэффициент доверия, определяемый в зависимости от уровня вероятности.



Ошибка выборки или отклонение выборочной средней от средней генеральной находится в прямой зависимости от дисперсии изучаемого признака в генеральной совокуп­ности, и в обратной зависимости ‑ от объема выборки.

Таким образом среднюю ошибку выборки можно представить как

Формула 10.1

(10.1)


При проведении выборочного наблюдения дисперсия изучаемого признака в генеральной совокупности, как правило, не известна. В то же время, между генеральной дисперсией и средней из всех возможных выборочных дисперсий существует следующее соотношение:

Формула 10.2

(10.2)


В связи с тем, что на практике в большинстве случаев из генеральной совокупности в определенный момент времени производится только одна выборка, дисперсия изучаемого признака по этой выборке и используется при расчете ошибки.

Учитывая, что при достаточно большом объеме выборки отношение отношение близко к 1, формула средней ошибки повторной выборки принимает следующий вид:

Формула 10.3

(10.3)


Где  ‑ дисперсия дисперсия изучаемого признака по выборочной совокупности.


При определении возможных границ значений характеристик генеральной сово­купности рассчитывается предельная ошибка выборки, которая зависит от величины ее средней ошибки и уровня вероятности, с которым гарантируется, что генеральная средняя не выйдет за указанные границы.

Согласно теореме А.М. Ляпунова, вероятность той или иной величины предельной ошибки, при достаточно большом объеме выборочной сово­купности, подчиняется нормальному закону распределения и может быть определена на основе интеграла Лапласа.

Значения интеграла Лапласа при различных величинах t табулированы и представ­лены в статистических справочниках.


При обобщении результатов выборочного наблюдения наиболее часто используются следующие уровни вероятности и соответствующие им значения t:

Таблица 10.1 ‑ !!!Некоторые значения t

Вероятность, рi. 0,683 0,866 0,954 0,988 0,997 0,999
Значение t 1,0 1,5 2,0 2,5 3,0 3,5

Например, если при расчете предельной ошибки выборки мы используем значение t=2, то с вероятностью 0,954 можно утверждать, что расхождение между выборочной средней и генеральной средней не превысит двукратной величины средней ошибки вы­борки.



Теоретической основой для определения границ генеральной доли, т.е. доли еди­ниц, обладающих тем или иным вариантом признака, является теорема Вернули. Согласно данной теореме вероятность получения сколь угодно малого расхождения между выборочной долей и генеральной долей при достаточно большом объеме выборки будет стремиться к единице. С учетом того, что вероятность расхождения между выборочной и генеральной долями подчиняется нормальному закону распределения, эта вероятность также определяется по функции F(t) при заданном значении t.



Процесс подготовки и проведения выборочного наблюдения включает ряд после­довательных этапов:

  1. Определение цели обследования.
  2. Установление границ генеральной совокупности.
  3. Составление программы наблюдения и программы разработки данных
  4. Определение вида выборки, процента отбора и метода отбора
  5. Отбор и регистрация наблюдаемых признаков у отобранных единиц.
  6. Насчет выборочных характеристик и их ошибок.
  7. Распространение полученных результатов на генеральную совокупность.


В зависимости от состава и структуры генеральной совокупности выбирается вид выборки или способ отбора.

К наиболее распространенным на практике видам относятся:

  • собственно-случайная (простая случайная) выборка;
  • механическая (систематическая) выборка;
  • типическая (стратифицированная, расслоенная) выборка;
  • серийная (гнездовая) выборка.


Отбор единиц из генеральной совокупности может быть комбинированным, много­ступенчатым и многофазным.

Комбинированный отбор предполагает объединение нескольких видов выборки. Так, например, можно комбинировать типическую и серийную, серийную и собственно-случайную выборки. Ошибка такой выборки определяется ступенчатостью отбора.


Многоступенчатым называется отбор, при котором из генеральной совокупности сначала извлекаются укрупненные группы, потом ‑ более мелкие и так до тех пор, пока не будут отобраны те единицы, которые подвергаются обследованию.


Многофазная выборка, в отличие от многоступенчатой, предполагает сохранение одной и той же единицы отбора на всех этапах его проведения; при этом отобранные на каждой стадии единицы подвергаются обследованию, каждый раз – по более расширенной программе.


Собственно-случайная (простая случайная) выборка заключается в отборе единиц из генеральной совокупности наугад или наудачу без каких-либо элементов системности.

Однако прежде чем производить собственно-случайный отбор, необходимо убедиться, что все без исключения единицы генеральной совокупности имеют абсолютно равные шансы попадания в выборку, в списках или перечне отсутствуют пропуски, игнорирования отдельных единиц и т.п. Следует также установить четкие границы генеральной сово­купности таким образом, чтобы включение или не включение в нее отдельных единиц не вызывало сомнений. Так, например, при обследовании студентов необходимо указать, будут ли приниматься во внимание лица, находящиеся в академическом отпуске, студенты негосударственных вузов, военных училищ и т.п.; при обследовании торговых предприятий важно определиться, включит ли генеральная совокупность торговые павильоны, коммерческие палатки и прочие подобные объекты.


Технически собственно-случайный отбор проводят методом жеребьевки или по таблице случайных чисел.


Расчет ошибок позволяет решить одну из главных проблем организации выборочного наблюдения – оценить репрезентативность (представительность) выборочной совокупности.

Различают среднюю и предельную ошибки выборки. Эти два вида связаны следующим соотношением:

Формула 10.4

(10.4)


Величина средней ошибки выборки рассчитывается дифференциро­ванно в зависимости от способа отбора и процедуры выборки.

Так, при собственно-случайном повторном отборе средняя ошибка определяется по формуле:

Формула 10.5

(10.5)


а при расчете средней ошибки  собственно-случайной бесповторной выборки:

Формула 10.6

(10.6)


Расчет средней и предельной ошибок выборки позволяет определить возможные пределы, в которых будут находиться характеристики генеральной совокупности.

Например, для выборочной средней такие пределы устанавливаются на основе следующих соотношений:

Формула 10.7

(10.7)


где  генеральная средняяи выборочная средняя‑ генеральная и выборочная средняя соответственно;

предельная ошибка выборочной средней‑ предельная ошибка выборочной средней.



Пример.

При проверке веса импортируемого груза на таможне методом случайной повторной выборки было отобрано 200 изделий. В результате был установлен средний вес изделия 30 г. при среднем квадратическом отклонении 4 г. С вероятностью 0,997 определите пределы, в которых находится средний вес изделия в генеральной совокупности.


Решение. Рассчитаем сначала предельную ошибку выборки. Так как при р = 0,997, t = 3, она равна:

Определим пределы генеральной средней:

или

Вывод: Следовательно, с вероятностью 0,997 можно утверждать, что средний вес изделий в генеральной совокупности находится в пределах от 29,16 г. до 30,84 г.



Пример 2.

В городе проживает 250 тыс. семей. Для определения среднего числа детей в семье была организована 2%-ная случайная бесповторная выборка семей. По ее результатам было получено следующее распре­деление семей по числу детей:

Таблица 10.2 ‑ Распределение семей по числу детей в городе N

Число детей в семье 0 1 2 3 4 5
Количество

семей

1000 2000 1200 400 200 200

С вероятностью 0,954 определите пределы, в которых будет находить­ся среднее число детей в генеральной совокупности.


Решение. В начале на основе имеющегося распределения семей определим выборочные среднюю и дисперсию:

Таблица 10.3 ‑ Вспомогательная таблица для расчета среднего числа детей

Число детей

в семье, х;

Количество семей,     f

0

1

2

3

4

5

1000

2000

1200

400

200

200

0

2000

2400

1200

800

1000

-1,5

-0,5

0,5

1,5

2,5

3,5

2,25

0,25

0,25

2,25

6,25

12,25

2250

500

300

900

1250

2450

 

Итого

5000 7400 7650

Вычислим теперь предельную ошибку выборки (с учетом того, что при р = 0,954 t = 2).


Следовательно, пределы генеральной средней:

Таким образом, с вероятностью 0,954 можно утверждать, что среднее число детей в семьях города практически не отличается от 1,5, т.е. в среднем на каждые две семьи приходится три ребенка.



Наряду с определением ошибок выборки и пределов для генеральной средней эти же показатели могут быть определены для доли признака.

В этом случае особенности расчета связаны с определением дисперсии доли, которая вычисляется так:

формула 10.8

(10.8)


где формула 10.8 пояснение ‑ доля единиц, обладающих данным признаком в выборочной совокупности, определяемая как отношение количества соответствующих единиц к объему выборки.


Тогда, например, при собственно-случайном повторном отборе для определения предельной ошибки выборки используется следующая формула:

формула 10.9

(10.9)


Соответственно, при бесповторном отборе:

формула 10.10

(10.10)


Пределы доли признака в генеральной совокупности p выглядят следующим образом:

формула 10.11

(10.11)


Рассмотрим пример.

С целью определения средней фактической продолжитель­ности рабочего дня в государственном учреждении с численностью слу­жащих 480 человек, в январе 2009 г. было проведена 25%-ная случайная бесповторная выборка. По результатам наблюдения оказалось, что у 10% обследованных потери времени достигали более 45 мин. в день. С вероят­ностью 0,683 установите пределы, в которых находится генеральная доля служащих с потерями рабочего времени более 45 мин. в день.

Решение. Определим объем выборочной совокупности:

n= 480 х 0,25 = 120 чел.

Выборочная доля w равна по условию 10%.

Учитывая, что при р = 0,683   t=1, вычислим предельную ошибку выборочной доли:

формула 10.10 решение


Пределы доли признака в генеральной совокупности:

формула 10.11 пример


Таким образом, с вероятностью 0,683 можно утверждать, что доля ра­ботников учреждения с потерями рабочего времени более 45 мин. в день находится в пределах от 7,6% до 12,4%.


Мы рассмотрели определение границ генеральной средней и генеральной доли по результатам уже проведенного выборочного наблюдения, при известном объеме выборки или проценте отбора. На этапе же проектирования выборочного наблюдения именно объ­ем выборочной совокупности и требует определения.



Для определения необходимого объема собственно-случайной повторной выборки применяют следующую формулу:

формула 10.12

(10.12)


Полученный на основе использования данной формулы результат всегда округляется в большую сторону. Например, если мы получили, что необходимый объем выборки составляет 493,1 единицы, то обследовав 493 единицы мы не достигнем требуемой точности. Поэтому, для достижения желаемого результата обследованием должны быть охвачены 494 единицы.

С другой стороны, рассчитанное значение необходимого объема выборки свободно может быть увеличено в большую сторону на несколько единиц. Если мы располагаем необходимыми ресурсами, если по причинам организационного порядка (компактность расположения единиц, фиксированная нагрузка на каждого регистратора и т.п.) мы вполне можем охватить больший объем, то включение в выборочную совокуп­ность 500 или, например, 550 единиц только уменьшит значения полученных случайной и предельной ошибок.


При определении необходимого объема выборки для определения границ генеральной доли задача оценки вариации решается значительно проще. Если дисперсия изучаемого альтернативного признака неизвестна, то можно использовать ее максимальное возможное значение:

формула 10.12 после 1 расчет


Например, предприятию связи с вероятностью 0,954 необходимо определить удельный вес телефонный разговоров продолжительностью менее 1 минуты с предельной ошибкой 2%. Сколько разговоров нужно обследовать в порядке собственно-случайного повторного отбора для решения этой задачи?

Для получения ответа на поставленный вопрос воспользуемся формулой (10.12) и будем ориентироваться на максимальную возможную дисперсию доли телефонных разговоров такой продолжительности. Расчет приводит к следующему результату:

формула 10.12 пример

Таким образом, обследованием должны быть охвачены не менее 2500 разговоров на предмет их продолжительности.



Необходимый объем собственно-случайной бесповторной выборки может быть определен по следующей формуле:

формула 10.13

(10.13)


Укажем на одну особенность формулы (10.13). При проведении вычислений объем генеральной совокупности должен быть выражен только в единицах, а не в тысячах или в миллионах единиц.

Например, подставив в данную формулу общую численность населения региона, выраженную в тысячах человек, мы не получим правильное значение необходимой численности выборки, также выраженное в тысячах человек, как это иногда бывает в других расчетах. Результат вычислений будет неверен.


Механическая выборка может быть применена в тех случаях, когда генеральная совокупность каким-либо образом упорядочена, т.е. имеется определенная последова­тельность в расположении единиц (табельные номера работников, списки избирателей, телефонные номера респондентов, номера домов и квартир и т.п.). Для проведения отбора желательно, чтобы все единицы также имели порядковые номера от 1 до N.

Для проведения механической выборки устанавливается пропорция отбора, которая определяется соотнесением объемов выборочной и генеральной совокупностей.

Так, если из совокупности в 500000 единиц предполагается отобрать 10000 единиц, то пропорция отбора составит

формула 10.13вставка после

Отбор единиц осуществляется в соответствии с установленной пропорцией через равные интервалы.

Например, при пропорции 1:50 (2%-ная выборка) отбирается каждая 50-я единица, при пропорции 1:20 (5%-ная выборка) – каждая 20-я единица и т.д.



Интервал отбора также можно определить как частное от деления 100% на уста­новленный процент отбора.

Так, например  при 2%-ном отборе интервал составит 50 (100%:2%), при 4%-ном отборе ‑ 25 (100%:4%). В тех случаях, когда результат деления получается дробным, сформировать выборку механическим способом при строгом соблюдении процента отбора не представляется возможным.

Например, по этой причине нельзя сформировать 3%-ную или 6%-ную выборки.



Генеральную совокупность при механическом отборе можно ранжировать или упорядочить по величине изучаемого или коррелирующего с ним признака, что позволит повысить репрезентативность выборки. Однако в этом случае возрастает опасность систе­матической ошибки, связанной с занижением значений изучаемого признака (если из каждого интервала регистрируется первое значение) или его завышением (если из каждого интервала регистрируется последнее значение). Поэтому целесообразно из каждого интервала отбирать центральную или одну из двух центральных единиц.


Например, при 5%-ной выборке интервал отбора составит 20 единиц, тогда отбор целесообразно начинать с 10-й или с 11-й единицы. В первом случае в выборку попадут 10, 30, 50, 70 и с таким же интервалом последующие единицы; во втором случае – единицы с номерами 11,31,51,71 и т.д.

При механической выборке также может появиться опасность систематической ошибки, обусловленной случайным совпадением выбранного интервала и циклических закономерностей в расположении единиц генеральной совокупности. Так, при переписи населения 1989 г. в ходе 25%-го выборочного обследования семей имела место опасность попадания в выборку квартир только одного типа (например, только однокомнатных или только трехкомнатных), так как на лестничных площадках многих типовых домов распо­лагаются именно по 4 квартиры. Чтобы избежать систематической ошибки, в каждом новом подъезде счетчик менял начало отбора.


Для определения средней ошибки механической выборки, а также необходимой ее численности, используются соответствующие формулы, применяемые при собственно-случайном бесповторном отборе(10.6 и 10.13). При этом, определив необходимую численность выборки и сопоставив ее с объемом генеральной совокупности, как правило, приходится производить соответствующее округление для получения целочисленного интервала отбора.


Например, в области зарегистрировано 12000 фермерских хозяйств. Определим, сколько из них нужно отобрать в порядке механического отбора для определения средней площади сельхозугодий с ошибкой ± 2 га. (Р=0,997). По результатам ранее проведенного обследования известно, что среднее квадратическое отклонение площади сельхозугодий составляет 8 га. Произведем расчет, воспользовавшись формулой (10.13).

формула 10.13 пример


С учетом полученного необходимого объема выборки (143 фермерских хозяйства) определим интервал отбора: 12000:143=83,9.

Определенный таким способом интервал всегда округляется в меньшую сторону, так как при округлении в большую сторону про­изведенная выборка не достигнет рассчитанного по формуле необходимого объема.

Сле­довательно, в нашем примере, из общего списка фермерских хозяйств необходимо отобрать для обследования каждое 83-е хозяйство. При этом процент отбора составит 1,2% (100% : 83).



Типический отбор целесообразно использовать в тех случаях, когда все единицы генеральной совокупности объединены в несколько крупных типических групп.. Такие группы также называют стартами или слоями, в связи с чем типический отбор также называют стратифицированным или расслоенным. При обследованиях населения в качестве типических групп могут быть выбраны области, районы, социальные, возрастные или об­разовательные группы, при обследовании предприятий – отрасли или подотрасли, формы собственности и т.п.

Рассматривать генеральную совокупность в разрезе нескольких крупных групп единиц имеет смысл только в том случае, если средние значения изучаемых признаков по группам существенно различаются. Например, с большой уверенностью можно предпо­ложить, что доходы населения крупного города будут в среднем выше доходов населения, проживающего в сельской местности; численность работников промышленного предприятия в среднем будет выше численности работников торгового или сельскохозяйственного предприятия; средний возраст студентов будет значительно меньше среднего возраста занятого населения и, тем более, пенсионеров. В то же время, нет никакого смысла при выделении типических групп ориентироваться на признак, не связанный или очень слабо связанный с изучаемым.


Отбор единиц в выборочную совокупность из каждой типической группы осущест­вляется собственно-случайным или механическим способом. Поскольку в выборочную совокупность в той или иной пропорции обязательно попадают представители всех групп, типизация генеральной совокупности позволяет исключить влияние межгрупповой дисперсии на среднюю ошибку выборки. В то же время, в выделенных типических группах обследуются далеко не все единицы, а только включенные в выборку. Следовательно, на величине полученной ошибки будет сказываться различие между единицами внутри этих групп, т.е. внутригрупповая вариация. Поэтому, ошибка типической выборки будет опре­деляться величиной не общей дисперсии, а только ее части – средней из внутригрупповых дисперсий.


При типической выборке, пропорциональной объему типических групп, число еди­ниц, подлежащих отбору из каждой группы, определяется следующим образом:

формула 10.14

 (10.14)


Где Ni объем i-ой группы. а ni ‑ объем выборки из i-ой группы.


Пример. Предположим, общая численность населения области составляет 1,5 млн. чел., в том числе городское – 900 тыс. чел. и сельское – 600 тыс. чел. Если в ходе выборочного наблюдения планируется обследовать 100 тыс. жителей, то эта численность должна быть поделена пропорционально объему типических групп следующим образом:

формула 10.14пример


Средняя ошибка типической выборки определяется по формулам:

формула 10.15

(10.15)


                                    формула 10.16               (10.16)


где формула 10.16пояснение – средняя из внутригрупповых дисперсий.


При выборке, пропорциональной дифференциации признака, число наблюдений по каждой группе рассчитывается по формуле:

формула 10.17

(10.17)


Где формула 10.17 пояснение‑ среднее отклонение признака в i-ой группе.


Cредняя ошибка такого отбора определяется следующим образом:

формула 10.18

(10.18)


формула 10.19

(10.19)


Отбор, пропорциональный дифференциации признака, дает лучшие результаты, однако на практике его применение затруднено вследствие трудности получения сведений о вариации до проведения выборочного наблюдения.

Таблица 10.4 ‑ Результаты обследования рабочих предприятия

Цех Всего рабочих, человек Обследовано, человек Число дней временной не­трудоспособности за год
средняя дисперсия
I

II

III

1000

1400

800

100

140

80

18

12

15

49

25

16

Рассмотрим оба варианта типической выборки на условном примере. Предположим, 10% бесповторный типический отбор рабочих предприятия, пропорциональный размерам цехов, проведенный с целью оценки потерь из-за временной нетрудоспособности, привел к следующим результатам (табл. 10.4)

Рассчитаем среднюю из внутригрупповых дисперсий:

пример к табл 10.4


Определим  среднюю  и  предельную  ошибки  выборки  (с  вероятностью 0,954):


Рассчитаем выборочную среднюю:

пример к табл 10.4_3


С вероятностью 0,954 можно сделать вывод, что среднее число дней временной нетрудоспособности одного рабочего в целом по предприятию находится в пределах:

пример к табл 10.4_4

Воспользуемся полученными внутригрупповыми дисперсиями для проведения отбора пропорционального дифференциации признака. Опре­делим необходимый объем выборки по каждому цеху:

пример к табл 10.4_5


пример к табл 10.4_6


С учетом полученных значений рассчитаем среднюю ошибку выборки:

пример к табл 10.4_7


В данном случае средняя, а следовательно, и предельная ошибки будут несколько меньше, что отразится и на границах генеральной средней.

Серийный отбор. Данный способ отбора удобен в тех случаях, когда единицы совокупности объединены в небольшие группы или серии. В качестве таких серий могут рассматриваться упаковки с определенным количеством готовой продукции, партии товара, студенческие группы, бригады и другие объединения. Сущность серийной выборки заключается в собственно-случайном или механическом отборе серий, внутри которых произ­водится сплошное обследование единиц.

Поскольку внутри групп (серий) обследуются все без исключения единицы, средняя ошибка серийной выборки (при отборе равновеликих серий) зависит от величины только межгрупповой (межсерийной) дисперсии и определяется по следующим формулам:

формула 10.20

(10.20)


формула 10.21

(10.21)


Где r ‑ число отобранных серий; R ‑ общее число серий.



Межгрупповую дисперсию вычисляют следующим образом:

 формула 10.22(10.22)


где формула 10.22 пояснение 1 ‑ средняя i-й серии;

формула 10.22 пояснение 2‑ общая средняя по всей выборочной совокупности.


Пример.

В области, состоящей из 20 районов, проводилось выборочное обследование урожайности на основе отбора серий (районов). Выбо­рочные средние по районам составили соответственно 14,5 ц/га; 16 ц/га; 15,5 ц/га; 15 ц/га и 14 ц/га. С вероятностью 0,954 определите пределы урожайности во всей области.

Решение. Рассчитаем общую среднюю:


Межгрупповая (межсерийная) дисперсия равна:


Определим теперь предельную ошибку серийной бесповторной выборки (t = 2 при р = 0,954):


Вывод: Следовательно, урожайность будет с вероятностью 0,954 находиться в пределах:


Определение необходимого объема выборки

При проектировании выборочного наблюдения возникает вопрос о необходимой численности выборки. Эта численность может быть определена на базе допустимой ошибки при выборочном наблюдении, исходя из вероятности, на основе которой можно гарантировать величину устанавливае­мой ошибки, и, наконец, на базе способа отбора.

Формулы необходимого объема выборки для различных способов формирования выборочной совокупности могут быть выведены из соот­ветствующих соотношений, используемых при расчете предельных ошибок выборки. Приведем наиболее часто применяемые на практике выражения необходимого объема выборки:

– собственно-случайная и механическая выборка:

Формула 10.23

(10.23)


Формула 10.24

(10.24)



– типическая выборка:

Формула 10.25

(10.25)


Формула 10.26

(10.26)


 – серийная выборка:

Формула 10.27

(10.27)


Формула 10.28

(10.28)



При этом в зависимости от целей исследования дисперсии и ошибки выборки могут быть рассчитаны для средней величины или доли признака.


Рассмотрим примеры определения необходимого объема выборки при различных способах формирования выборочной совокупности.

Пример.

В 100 туристических агентствах города предполагается провести обследование среднемесячного количества реализованных путевок методом механического отбора. Какова должна быть численность вы­борки, чтобы с вероятностью 0,683 ошибка не превышала 3 путевок, если по данным пробного обследования дисперсия составляет 225.

Решение. Рассчитаем необходимый объем выборки:

29


Пример.

С целью определения доли сотрудников коммерческих банков области в возрасте старше 40 лет предполагается организовать типическую выборку пропорциональную численности сотрудников мужского и женского пола с механическим отбором внутри групп. Общее число сотрудников банков составляет 12 тыс. чел., в том числе 7 тыс. мужчин и 5 тыс. женщин.

На основании предыдущих обследований известно, что средняя из внутригрупповых дисперсий составляет 1600. Определите необходимый объем выборки при вероятности 0,997 и ошибке 5%.

Решение. Рассчитаем общую численность типической выборки:

30


Вычислим теперь объем отдельных типических групп:

31

Вывод: Таким образом, необходимый объем выборочной совокупности сотрудников банков составляет 550 чел., в т.ч. 319 мужчин и 231 женщина.


Пример.

В акционерном обществе 200 бригад рабочих. Планируется проведение выборочного обследования с целью определения удельного ве­са рабочих, имеющих профессиональные заболевания. Известно, что межсерийная дисперсия доли равна 225. С вероятностью 0,954 рассчитайте необходимое количество бригад для обследования рабочих, если ошибка вы­борки не должна превышать 5%.

Решение. Необходимое количество бригад рассчитаем на основе формулы объема серийной бесповторной выборки:

32




Содержание курса лекций “Статистика”


Контрольные задания

Самостоятельно проведите выборочное наблюдение и произведите соответствующие расчеты.

Понравилась статья? Поделить с друзьями:
  • Систематические ошибки делятся на статистика
  • Систематические ошибки репрезентативности пример
  • Систематические ошибки выжившего
  • Систематические ошибки репрезентативности могут возникать
  • Систематические ошибки выборки это такие когда