Зачем нужны робастные ошибки

Так как гетероскедастичность не приводит к смещению оценок коэффициентов, можно по-прежнему использовать МНК. Смещены и несостоятельны оказываются не сами оценки коэффициентов, а их стандартные ошибки, поэтому формула для расчета стандартных ошибок в условиях гомоскедастичности не подходит для случая гетероскедастичности.

Естественной идеей в этой ситуации является корректировка формулы расчета стандартных ошибок, чтобы она давала «правильный» (состоятельный) результат. Тогда можно снова будет корректно проводить тесты, проверяющие, например, незначимость коэффициентов, и строить доверительные интервалы. Соответствующие «правильные» стандартные ошибки называются состоятельными в условиях гетероскедастичности стандартными ошибками (heteroskedasticity consistent (heteroskedasticity robust) standard errors)1. Первоначальная формула для их расчета была предложена Уайтом, поэтому иногда их также называют стандартными ошибками в форме Уайта (White standard errors). Предложенная Уайтом состоятельная оценка ковариационной матрицы вектора оценок коэффициентов имеет вид:

(widehat{V}{left( widehat{beta} right) = n}left( {X^{‘}X} right)^{- 1}left( {frac{1}{n}{sumlimits_{s = 1}^{n}e_{s}^{2}}x_{s}x_{s}^{‘}} right)left( {X^{‘}X} right)^{- 1},)

где (x_{s}) – это s-я строка матрицы регрессоров X. Легко видеть, что эта формула более громоздка, чем формула (widehat{V}{left( widehat{beta} right) = left( {X^{‘}X} right)^{- 1}}S^{2}), которую мы вывели в третьей главе для случая гомоскедастичности. К счастью, на практике соответствующие вычисления не представляют сложности, так как возможность автоматически рассчитывать стандартные ошибки в форме Уайта реализована во всех современных эконометрических пакетах. Общепринятое обозначение для этой версии стандартных ошибок: «HC0». В работах (MacKinnon, White,1985) и (Davidson, MacKinnon, 2004) были предложены и альтернативные версии, которые обычно обозначаются в эконометрических пакетах «HC1», «HC2» и «HC3». Их расчетные формулы несколько отличаются, однако суть остается прежней: они позволяют состоятельно оценивать стандартные отклонения МНК-оценок коэффициентов в условиях гетероскедастичности.

Для случая парной регрессии состоятельная в условиях гетероскедастичности стандартная ошибка оценки коэффициента при регрессоре имеет вид:

(mathit{se}{left( widehat{beta_{2}} right) = sqrt{frac{1}{n}frac{frac{1}{n — 2}{sumlimits_{i = 1}^{n}{left( {x_{i} — overline{x}} right)^{2}e_{i}^{2}}}}{widehat{mathit{var}}(x)^{2}}.}})

Формальное доказательство состоятельности будет приведено в следующей главе. Пока же обсудим пример, иллюстрирующий важность использования робастных стандартных ошибок.

Пример 5.1. Оценка эффективности использования удобрений

В файле Agriculture в материалах к этому учебнику содержатся следующие данные 2010 года об урожайности яровой и озимой пшеницы в Спасском районе Пензенской области:

PRODP — урожайность в денежном выражении, в тысячах рублей с 1 га,

SIZE – размер пахотного поля, га,

LABOUR – трудозатраты, руб. на 1 га,

FUNG1 – фунгициды, протравители семян, расходы на удобрение в руб. на 1 га,

FUNG2 – фунгициды, во время роста, расходы на удобрение в руб. на 1 га,

GIRB – гербициды, расходы на удобрение в руб. на 1 га,

INSEC – инсектициды, расходы на удобрение в руб. на 1 га,

YDOB1 – аммофос, во время сева, расходы на удобрение в руб. на 1 га,

YDOB2 – аммиачная селитра, во время роста, расходы на удобрение в руб. на 1 га.

Представим, что вас интересует ответ на вопрос: влияет ли использование фунгицидов на урожайность поля?

(а) Оцените зависимость урожайности в денежном выражении от константы и переменных FUNG1, FUNG2, YDOB1, YDOB2, GIRB, INSEC, LABOUR. Запишите уравнение регрессии в стандартной форме, указав коэффициент детерминации и (в скобках под соответствующими коэффициентами) стандартные ошибки для случая гомоскедастичности. Какие из переменных значимы на 5-процентном уровне значимости?

(б) Решите предыдущий пункт заново, используя теперь состоятельные в условиях гетероскедастичности стандартные ошибки. Сопоставьте выводы по поводу значимости (при пятипроцентном уровне) переменных, характеризующих использование фунгицидов.

Решение:

(а) Оценим требуемое уравнение:

Модель 1: МНК, использованы наблюдения 1-200

Зависимая переменная: PRODP

  Коэффициент Ст. ошибка t-статистика P-значение  
const -38,4019 7,5273 -5,1017 <0,00001 ***
FUNG1 0,0445755 0,0487615 0,9142 0,36178  
FUNG2 0,103625 0,049254 2,1039 0,03669 **
GIRB 0,0776059 0,0523553 1,4823 0,13990  
INSEC 0,0782521 0,0484667 1,6146 0,10805  
LABOUR 0,0415064 0,00275277 15,0781 <0,00001 ***
YDOB1 0,0492168 0,0233328 2,1093 0,03621 **
YDOB2 -0,0906824 0,025864 -3,5061 0,00057 ***
Сумма кв. остатков 150575,6   Ст. ошибка модели 28,00443
R-квадрат 0,801958   Испр. R-квадрат 0,794738
F(7, 192) 111,0701   Р-значение (F) 5,08e-64

Переменные FUNG2, LABOUR, YDOB1 и YDOB2 значимы на пятипроцентном уровне значимости (причем LABOUR и YDOB2 — ещё и на однопроцентном).

Если представить те же самые результаты в форме уравнения, то получится вот так:

({widehat{mathit{PRODP}}}_{i} = {{- underset{(7,53)}{38,40}} + {underset{(0,05)}{0,04} ast {mathit{FUNG}1}_{i}} + {underset{(0,05)}{0,10} ast {mathit{FUNG}2}_{i}} +})

({{+ underset{(0,05)}{0,08}} ast mathit{GIRB}_{i}} + {underset{(0,05)}{0,08} ast mathit{INSEC}_{i}} + {underset{(0,003)}{0,04} ast mathit{LABOUR}_{i}} + {})

({{{+ underset{(0,02)}{0,05}} ast {mathit{YDOB}1}_{i}} — {underset{(0,03)}{0,09} ast {mathit{YDOB}2}_{i}}},{R^{2} = 0,802})

(б) При использовании альтернативных стандартных ошибок получим следующий результат:

Модель 2: МНК, использованы наблюдения 1-200

Зависимая переменная: PRODP

Робастные оценки стандартных ошибок (с поправкой на гетероскедастичность),
вариант HC1

  Коэффициент Ст. ошибка t-статистика P-значение  
const -38,4019 7,40425 -5,1865 <0,00001 ***
FUNG1 0,0445755 0,0629524 0,7081 0,47975  
FUNG2 0,103625 0,0624082 1,6604 0,09846 *
GIRB 0,0776059 0,0623777 1,2441 0,21497  
INSEC 0,0782521 0,0536527 1,4585 0,14634  
LABOUR 0,0415064 0,00300121 13,8299 <0,00001 ***
YDOB1 0,0492168 0,0197491 2,4921 0,01355 **
YDOB2 -0,0906824 0,030999 -2,9253 0,00386 ***
Сумма кв. остатков 150575,6   Ст. ошибка модели 28,00443
R-квадрат 0,801958   Испр. R-квадрат 0,794738
F(7, 192) 119,2263   Р-значение (F) 2,16e-66

Оценки коэффициентов по сравнению с пунктом (а) не поменялись, что естественно: мы ведь по-прежнему используем обычный МНК. Однако стандартные ошибки теперь немного другие. В некоторых случаях это меняет выводы тестов на незначимость.

Переменные LABOUR, YDOB1 и YDOB2 значимы на пятипроцентном уровне значимости (причем LABOUR и YDOB2 — ещё и на однопроцентном).

Переменная FUNG2 перестала быть значимой на пятипроцентном уровне. Таким образом, при использовании корректных стандартных ошибок следует сделать вывод о том, что соответствующий вид удобрений не важен для урожайности. Обратите внимание, что если бы мы использовали «обычные» стандартные ошибки, то мы пришли бы к противоположному заключению (см. пункт (а)).

* * *

Важно подчеркнуть, что в реальных пространственных данных гетероскедастичность в той или иной степени наблюдается практически всегда. А даже если её и нет, то состоятельные в условиях гетероскедастичности стандартные ошибки по-прежнему будут… состоятельными (и будут близки к «обычным» стандартным ошибкам, посчитанным по формулам из третьей главы). Поэтому в современных прикладных исследованиях при оценке уравнений по умолчанию используются именно робастные стандартные ошибки, а не стандартные ошибки для случая гомоскедастичности. Мы настоятельно рекомендуем читателю поступать так же2. В нашем учебнике с этого момента и во всех последующих главах, если прямо не оговорено иное, для МНК-оценок параметров всегда используются состоятельные в условиях гетероскедастичности стандартные ошибки.


  1. Поскольку довольно утомительно каждый раз произносить это название полностью в англоязычном варианте их часто называют просто robust standard errors, что на русском языке эконометристов превратилось в «робастные стандартные ошибки». Кому-то подобный англицизм, конечно, режет слух, однако в устной речи он и правда куда удобней своей длинной альтернативы.↩︎

  2. Просто не забывайте включать соответствующую опцию в своем эконометрическом пакете.↩︎

Robust statistics are statistics with good performance for data drawn from a wide range of probability distributions, especially for distributions that are not normal. Robust statistical methods have been developed for many common problems, such as estimating location, scale, and regression parameters. One motivation is to produce statistical methods that are not unduly affected by outliers. Another motivation is to provide methods with good performance when there are small departures from a parametric distribution. For example, robust methods work well for mixtures of two normal distributions with different standard deviations; under this model, non-robust methods like a t-test work poorly.

Introduction[edit]

Robust statistics seek to provide methods that emulate popular statistical methods, but which are not unduly affected by outliers or other small departures from model assumptions. In statistics, classical estimation methods rely heavily on assumptions which are often not met in practice. In particular, it is often assumed that the data errors are normally distributed, at least approximately, or that the central limit theorem can be relied on to produce normally distributed estimates. Unfortunately, when there are outliers in the data, classical estimators often have very poor performance, when judged using the breakdown point and the influence function, described below.

The practical effect of problems seen in the influence function can be studied empirically by examining the sampling distribution of proposed estimators under a mixture model, where one mixes in a small amount (1–5% is often sufficient) of contamination. For instance, one may use a mixture of 95% a normal distribution, and 5% a normal distribution with the same mean but significantly higher standard deviation (representing outliers).

Robust parametric statistics can proceed in two ways:

  • by designing estimators so that a pre-selected behaviour of the influence function is achieved
  • by replacing estimators that are optimal under the assumption of a normal distribution with estimators that are optimal for, or at least derived for, other distributions: for example using the t-distribution with low degrees of freedom (high kurtosis; degrees of freedom between 4 and 6 have often been found to be useful in practice[citation needed]) or with a mixture of two or more distributions.

Robust estimates have been studied for the following problems:

  • estimating location parameters[citation needed]
  • estimating scale parameters[citation needed]
  • estimating regression coefficients[citation needed]
  • estimation of model-states in models expressed in state-space form, for which the standard method is equivalent to a Kalman filter.

Definition[edit]

[icon]

This section needs expansion. You can help by adding to it. (July 2008)

There are various definitions of a «robust statistic.» Strictly speaking, a robust statistic is resistant to errors in the results, produced by deviations from assumptions[1] (e.g., of normality). This means that if the assumptions are only approximately met, the robust estimator will still have a reasonable efficiency, and reasonably small bias, as well as being asymptotically unbiased, meaning having a bias tending towards 0 as the sample size tends towards infinity.

Usually the most important case is distributional robustness — robustness to breaking of the assumptions about the underlying distribution of the data.[1] Classical statistical procedures are typically sensitive to «longtailedness» (e.g., when the distribution of the data has longer tails than the assumed normal distribution). This implies that they will be strongly affected by the presence of outliers in the data, and the estimates they produce may be heavily distorted if there are extreme outliers in the data, compared to what they would be if the outliers were not included in the data.

By contrast, more robust estimators that are not so sensitive to distributional distortions such as longtailedness are also resistant to the presence of outliers. Thus, in the context of robust statistics, distributionally robust and outlier-resistant are effectively synonymous.[1] For one perspective on research in robust statistics up to 2000, see Portnoy & He (2000).

Some experts prefer the term resistant statistics for distributional robustness, and reserve ‘robustness’ for non-distributional robustness, e.g., robustness to violation of assumptions about the probability model or estimator, but this is a minority usage. Plain ‘robustness’ to mean ‘distributional robustness’ is common.

When considering how robust an estimator is to the presence of outliers, it is useful to test what happens when an extreme outlier is added to the dataset, and to test what happens when an extreme outlier replaces one of the existing datapoints, and then to consider the effect of multiple additions or replacements.

Examples[edit]

The mean is not a robust measure of central tendency. If the dataset is e.g. the values {2,3,5,6,9}, then if we add another datapoint with value -1000 or +1000 to the data, the resulting mean will be very different to the mean of the original data. Similarly, if we replace one of the values with a datapoint of value -1000 or +1000 then the resulting mean will be very different to the mean of the original data.

The median is a robust measure of central tendency. Taking the same dataset {2,3,5,6,9}, if we add another datapoint with value -1000 or +1000 then the median will change slightly, but it will still be similar to the median of the original data. If we replace one of the values with a datapoint of value -1000 or +1000 then the resulting median will still be similar to the median of the original data.

Described in terms of breakdown points, the median has a breakdown point of 50%, meaning that half the points must be outliers before the median can be moved outside the range of the non-outliers, while the mean has a breakdown point of 0, as a single large observation can throw it off.

The median absolute deviation and interquartile range are robust measures of statistical dispersion, while the standard deviation and range are not.

Trimmed estimators and Winsorised estimators are general methods to make statistics more robust. L-estimators are a general class of simple statistics, often robust, while M-estimators are a general class of robust statistics, and are now the preferred solution, though they can be quite involved to calculate.

Speed-of-light data[edit]

Gelman et al. in Bayesian Data Analysis (2004) consider a data set relating to speed-of-light measurements made by Simon Newcomb. The data sets for that book can be found via the Classic data sets page, and the book’s website contains more information on the data.

Although the bulk of the data look to be more or less normally distributed, there are two obvious outliers. These outliers have a large effect on the mean, dragging it towards them, and away from the center of the bulk of the data. Thus, if the mean is intended as a measure of the location of the center of the data, it is, in a sense, biased when outliers are present.

Also, the distribution of the mean is known to be asymptotically normal due to the central limit theorem. However, outliers can make the distribution of the mean non-normal even for fairly large data sets. Besides this non-normality, the mean is also inefficient in the presence of outliers and less variable measures of location are available.

Estimation of location[edit]

The plot below shows a density plot of the speed-of-light data, together with a rug plot (panel (a)). Also shown is a normal Q–Q plot (panel (b)). The outliers are clearly visible in these plots.

Panels (c) and (d) of the plot show the bootstrap distribution of the mean (c) and the 10% trimmed mean (d). The trimmed mean is a simple robust estimator of location that deletes a certain percentage of observations (10% here) from each end of the data, then computes the mean in the usual way. The analysis was performed in R and 10,000 bootstrap samples were used for each of the raw and trimmed means.

The distribution of the mean is clearly much wider than that of the 10% trimmed mean (the plots are on the same scale). Also whereas the distribution of the trimmed mean appears to be close to normal, the distribution of the raw mean is quite skewed to the left. So, in this sample of 66 observations, only 2 outliers cause the central limit theorem to be inapplicable.

SpeedOfLight.png

Robust statistical methods, of which the trimmed mean is a simple example, seek to outperform classical statistical methods in the presence of outliers, or, more generally, when underlying parametric assumptions are not quite correct.

Whilst the trimmed mean performs well relative to the mean in this example, better robust estimates are available. In fact, the mean, median and trimmed mean are all special cases of M-estimators. Details appear in the sections below.

Estimation of scale[edit]

The outliers in the speed-of-light data have more than just an adverse effect on the mean; the usual estimate of scale is the standard deviation, and this quantity is even more badly affected by outliers because the squares of the deviations from the mean go into the calculation, so the outliers’ effects are exacerbated.

The plots below show the bootstrap distributions of the standard deviation, the median absolute deviation (MAD) and the Rousseeuw–Croux (Qn) estimator of scale.[2] The plots are based on 10,000 bootstrap samples for each estimator, with some Gaussian noise added to the resampled data (smoothed bootstrap). Panel (a) shows the distribution of the standard deviation, (b) of the MAD and (c) of Qn.

SpeedOfLightScale.png

The distribution of standard deviation is erratic and wide, a result of the outliers. The MAD is better behaved, and Qn is a little bit more efficient than MAD. This simple example demonstrates that when outliers are present, the standard deviation cannot be recommended as an estimate of scale.

Manual screening for outliers[edit]

Traditionally, statisticians would manually screen data for outliers, and remove them, usually checking the source of the data to see whether the outliers were erroneously recorded. Indeed, in the speed-of-light example above, it is easy to see and remove the two outliers prior to proceeding with any further analysis. However, in modern times, data sets often consist of large numbers of variables being measured on large numbers of experimental units. Therefore, manual screening for outliers is often impractical.

Outliers can often interact in such a way that they mask each other. As a simple example, consider a small univariate data set containing one modest and one large outlier. The estimated standard deviation will be grossly inflated by the large outlier. The result is that the modest outlier looks relatively normal. As soon as the large outlier is removed, the estimated standard deviation shrinks, and the modest outlier now looks unusual.

This problem of masking gets worse as the complexity of the data increases. For example, in regression problems, diagnostic plots are used to identify outliers. However, it is common that once a few outliers have been removed, others become visible. The problem is even worse in higher dimensions.

Robust methods provide automatic ways of detecting, downweighting (or removing), and flagging outliers, largely removing the need for manual screening. Care must be taken; initial data showing the ozone hole first appearing over Antarctica were rejected as outliers by non-human screening.[3]

Variety of applications[edit]

Although this article deals with general principles for univariate statistical methods, robust methods also exist for regression problems, generalized linear models, and parameter estimation of various distributions.

Measures of robustness[edit]

The basic tools used to describe and measure robustness are, the breakdown point, the influence function and the sensitivity curve.

Breakdown point[edit]

Intuitively, the breakdown point of an estimator is the proportion of incorrect observations (e.g. arbitrarily large observations) an estimator can handle before giving an incorrect (e.g., arbitrarily large) result. Usually the asymptotic (infinite sample) limit is quoted as the breakdown point, although the finite-sample breakdown point may be more useful.[4] For example, given n independent random variables (X_1,dots,X_n) and the corresponding realizations x_1,dots,x_n, we can use overline{X_n}:=frac{X_1+cdots+X_n}{n} to estimate the mean. Such an estimator has a breakdown point of 0 (or finite-sample breakdown point of 1/n) because we can make {overline {x}} arbitrarily large just by changing any of x_1,dots,x_n.

The higher the breakdown point of an estimator, the more robust it is. Intuitively, we can understand that a breakdown point cannot exceed 50% because if more than half of the observations are contaminated, it is not possible to distinguish between the underlying distribution and the contaminating distribution Rousseeuw & Leroy (1986). Therefore, the maximum breakdown point is 0.5 and there are estimators which achieve such a breakdown point. For example, the median has a breakdown point of 0.5. The X% trimmed mean has breakdown point of X%, for the chosen level of X. Huber (1981) and Maronna, Martin & Yohai (2006) contain more details. The level and the power breakdown points of tests are investigated in He, Simpson & Portnoy (1990).

Statistics with high breakdown points are sometimes called resistant statistics.[5]

Example: speed-of-light data[edit]

In the speed-of-light example, removing the two lowest observations causes the mean to change from 26.2 to 27.75, a change of 1.55. The estimate of scale produced by the Qn method is 6.3. We can divide this by the square root of the sample size to get a robust standard error, and we find this quantity to be 0.78. Thus, the change in the mean resulting from removing two outliers is approximately twice the robust standard error.

The 10% trimmed mean for the speed-of-light data is 27.43. Removing the two lowest observations and recomputing gives 27.67. Clearly, the trimmed mean is less affected by the outliers and has a higher breakdown point.

If we replace the lowest observation, −44, by −1000, the mean becomes 11.73, whereas the 10% trimmed mean is still 27.43. In many areas of applied statistics, it is common for data to be log-transformed to make them near symmetrical. Very small values become large negative when log-transformed, and zeroes become negatively infinite. Therefore, this example is of practical interest.

Empirical influence function[edit]

Tukey’s biweight function

The empirical influence function is a measure of the dependence of the estimator on the value of any one of the points in the sample. It is a model-free measure in the sense that it simply relies on calculating the estimator again with a different sample. On the right is Tukey’s biweight function, which, as we will later see, is an example of what a «good» (in a sense defined later on) empirical influence function should look like.

In mathematical terms, an influence function is defined as a vector in the space of the estimator, which is in turn defined for a sample which is a subset of the population:

  1. (Omega,mathcal{A},P) is a probability space,
  2. (mathcal{X},Sigma) is a measurable space (state space),
  3. Theta is a parameter space of dimension pinmathbb{N}^*,
  4. (Gamma,S) is a measurable space,

For example,

  1. (Omega,mathcal{A},P) is any probability space,
  2. (mathcal{X},Sigma)=(mathbb{R},mathcal{B}),
  3. Theta=mathbb{R}timesmathbb{R}^+
  4. (Gamma,S)=(mathbb{R},mathcal{B}),

The empirical influence function is defined as follows.

Let ninmathbb{N}^* and X_1,dots,X_n:(Omega, mathcal{A})rightarrow(mathcal{X},Sigma) are i.i.d. and (x_1,dots,x_n) is a sample from these variables. T_n:(mathcal{X}^n,Sigma^n)rightarrow(Gamma,S) is an estimator. Let iin{1,dots,n}. The empirical influence function EIF_i at observation i is defined by:

{displaystyle EIF_{i}:xin {mathcal {X}}mapsto ncdot (T_{n}(x_{1},dots ,x_{i-1},x,x_{i+1},dots ,x_{n})-T_{n}(x_{1},dots ,x_{i-1},x_{i},x_{i+1},dots ,x_{n}))}

What this actually means is that we are replacing the i-th value in the sample by an arbitrary value and looking at the output of the estimator. Alternatively, the EIF is defined as the effect, scaled by n+1 instead of n, on the estimator of adding the point x to the sample.[citation needed]

Influence function and sensitivity curve[edit]

Instead of relying solely on the data, we could use the distribution of the random variables. The approach is quite different from that of the previous paragraph. What we are now trying to do is to see what happens to an estimator when we change the distribution of the data slightly: it assumes a distribution, and measures sensitivity to change in this distribution. By contrast, the empirical influence assumes a sample set, and measures sensitivity to change in the samples.[6]

Let A be a convex subset of the set of all finite signed measures on Sigma. We want to estimate the parameter thetainTheta of a distribution F in A. Let the functional T:ArightarrowGamma be the asymptotic value of some estimator sequence (T_n)_{ninmathbb{N}}. We will suppose that this functional is Fisher consistent, i.e. forall thetainTheta, T(F_theta)=theta. This means that at the model F, the estimator sequence asymptotically measures the correct quantity.

Let G be some distribution in A. What happens when the data doesn’t follow the model F exactly but another, slightly different, «going towards» G?

We’re looking at: dT_{G-F}(F) = lim_{trightarrow 0^+}frac{T(tG+(1-t)F) - T(F)}{t},

which is the one-sided Gateaux derivative of T at F, in the direction of G-F.

Let xinmathcal{X}. Delta_x is the probability measure which gives mass 1 to {x}. We choose G=Delta_x. The influence function is then defined by:

IF(x; T; F):=lim_{trightarrow 0^+}frac{T(tDelta_x+(1-t)F) - T(F)}{t}.

It describes the effect of an infinitesimal contamination at the point x on the estimate we are seeking, standardized by the mass t of the contamination (the asymptotic bias caused by contamination in the observations). For a robust estimator, we want a bounded influence function, that is, one which does not go to infinity as x becomes arbitrarily large.

Desirable properties[edit]

Properties of an influence function which bestow it with desirable performance are:

  1. Finite rejection point rho ^{*},
  2. Small gross-error sensitivity gamma^*,
  3. Small local-shift sensitivity lambda^*.

Rejection point[edit]

rho^*:=inf_{r>0}{r:IF(x;T;F)=0, |x|>r}

Gross-error sensitivity[edit]

gamma^*(T;F) := sup_{xinmathcal{X}}|IF(x; T ; F)|

Local-shift sensitivity[edit]

lambda^*(T;F) := sup_{(x,y)inmathcal{X}^2atop xneq y}left|frac{IF(y ; T; F) - IF(x; T ; F)}{y-x}right|

This value, which looks a lot like a Lipschitz constant, represents the effect of shifting an observation slightly from x to a neighbouring point y, i.e., add an observation at y and remove one at x.

M-estimators[edit]

(The mathematical context of this paragraph is given in the section on empirical influence functions.)

Historically, several approaches to robust estimation were proposed, including R-estimators and L-estimators. However, M-estimators now appear to dominate the field as a result of their generality, high breakdown point, and their efficiency. See Huber (1981).

M-estimators are a generalization of maximum likelihood estimators (MLEs). What we try to do with MLE’s is to maximize prod_{i=1}^n f(x_i) or, equivalently, minimize sum_{i=1}^n-log f(x_i). In 1964, Huber proposed to generalize this to the minimization of sum_{i=1}^n rho(x_i), where rho is some function. MLE are therefore a special case of M-estimators (hence the name: «Maximum likelihood type» estimators).

Minimizing sum_{i=1}^n rho(x_i) can often be done by differentiating rho and solving sum_{i=1}^n psi(x_i) = 0, where psi(x) = frac{drho(x)}{dx} (if rho has a derivative).

Several choices of rho and psi have been proposed. The two figures below show four rho functions and their corresponding psi functions.

RhoFunctions.png

For squared errors, rho (x) increases at an accelerating rate, whilst for absolute errors, it increases at a constant rate. When Winsorizing is used, a mixture of these two effects is introduced: for small values of x, rho increases at the squared rate, but once the chosen threshold is reached (1.5 in this example), the rate of increase becomes constant. This Winsorised estimator is also known as the Huber loss function.

Tukey’s biweight (also known as bisquare) function behaves in a similar way to the squared error function at first, but for larger errors, the function tapers off.

PsiFunctions.png

Properties of M-estimators[edit]

M-estimators do not necessarily relate to a probability density function. Therefore, off-the-shelf approaches to inference that arise from likelihood theory can not, in general, be used.

It can be shown that M-estimators are asymptotically normally distributed, so that as long as their standard errors can be computed, an approximate approach to inference is available.

Since M-estimators are normal only asymptotically, for small sample sizes it might be appropriate to use an alternative approach to inference, such as the bootstrap. However, M-estimates are not necessarily unique (i.e., there might be more than one solution that satisfies the equations). Also, it is possible that any particular bootstrap sample can contain more outliers than the estimator’s breakdown point. Therefore, some care is needed when designing bootstrap schemes.

Of course, as we saw with the speed-of-light example, the mean is only normally distributed asymptotically and when outliers are present the approximation can be very poor even for quite large samples. However, classical statistical tests, including those based on the mean, are typically bounded above by the nominal size of the test. The same is not true of M-estimators and the type I error rate can be substantially above the nominal level.

These considerations do not «invalidate» M-estimation in any way. They merely make clear that some care is needed in their use, as is true of any other method of estimation.

Influence function of an M-estimator[edit]

It can be shown that the influence function of an M-estimator T is proportional to psi,[7] which means we can derive the properties of such an estimator (such as its rejection point, gross-error sensitivity or local-shift sensitivity) when we know its psi function.

IF(x;T,F) = M^{-1}psi(x,T(F))

with the ptimes p given by:

{displaystyle M=-int _{mathcal {X}}left({frac {partial psi (x,theta )}{partial theta }}right)_{T(F)},dF(x).}

Choice of ψ and ρ[edit]

In many practical situations, the choice of the psi function is not critical to gaining a good robust estimate, and many choices will give similar results that offer great improvements, in terms of efficiency and bias, over classical estimates in the presence of outliers.[8]

Theoretically, psi functions are to be preferred,[clarification needed] and Tukey’s biweight (also known as bisquare) function is a popular choice. Maronna, Martin & Yohai (2006) recommend the biweight function with efficiency at the normal set to 85%.

Robust parametric approaches[edit]

M-estimators do not necessarily relate to a density function and so are not fully parametric. Fully parametric approaches to robust modeling and inference, both Bayesian and likelihood approaches, usually deal with heavy tailed distributions such as Student’s t-distribution.

For the t-distribution with nu degrees of freedom, it can be shown that

{displaystyle psi (x)={frac {x}{x^{2}+nu }}.}

For nu =1, the t-distribution is equivalent to the Cauchy distribution. The degrees of freedom is sometimes known as the kurtosis parameter. It is the parameter that controls how heavy the tails are. In principle, nu can be estimated from the data in the same way as any other parameter. In practice, it is common for there to be multiple local maxima when nu is allowed to vary. As such, it is common to fix nu at a value around 4 or 6. The figure below displays the psi-function for 4 different values of nu.

TDistPsi.png

Example: speed-of-light data[edit]

For the speed-of-light data, allowing the kurtosis parameter to vary and maximizing the likelihood, we get

hatmu = 27.40, hatsigma = 3.81, hatnu = 2.13.

Fixing nu = 4 and maximizing the likelihood gives

hatmu = 27.49, hatsigma = 4.51.

[edit]

A pivotal quantity is a function of data, whose underlying population distribution is a member of a parametric family, that is not dependent on the values of the parameters. An ancillary statistic is such a function that is also a statistic, meaning that it is computed in terms of the data alone. Such functions are robust to parameters in the sense that they are independent of the values of the parameters, but not robust to the model in the sense that they assume an underlying model (parametric family), and in fact such functions are often very sensitive to violations of the model assumptions. Thus test statistics, frequently constructed in terms of these to not be sensitive to assumptions about parameters, are still very sensitive to model assumptions.

Replacing outliers and missing values[edit]

Replacing missing data is called imputation. If there are relatively few missing points, there are some models which can be used to estimate values to complete the series, such as replacing missing values with the mean or median of the data. Simple linear regression can also be used to estimate missing values.[9][incomplete short citation] In addition, outliers can sometimes be accommodated in the data through the use of trimmed means, other scale estimators apart from standard deviation (e.g., MAD) and Winsorization.[10] In calculations of a trimmed mean, a fixed percentage of data is dropped from each end of an ordered data, thus eliminating the outliers. The mean is then calculated using the remaining data. Winsorizing involves accommodating an outlier by replacing it with the next highest or next smallest value as appropriate.[11]

However, using these types of models to predict missing values or outliers in a long time series is difficult and often unreliable, particularly if the number of values to be in-filled is relatively high in comparison with total record length. The accuracy of the estimate depends on how good and representative the model is and how long the period of missing values extends.[12] When dynamic evolution is assumed in a series, the missing data point problem becomes an exercise in multivariate analysis (rather than the univariate approach of most traditional methods of estimating missing values and outliers). In such cases, a multivariate model will be more representative than a univariate one for predicting missing values. The Kohonen self organising map (KSOM) offers a simple and robust multivariate model for data analysis, thus providing good possibilities to estimate missing values, taking into account its relationship or correlation with other pertinent variables in the data record.[11]

Standard Kalman filters are not robust to outliers. To this end Ting, Theodorou & Schaal (2007) have recently shown that a modification of Masreliez’s theorem can deal with outliers.

One common approach to handle outliers in data analysis is to perform outlier detection first, followed by an efficient estimation method (e.g., the least squares). While this approach is often useful, one must keep in mind two challenges. First, an outlier detection method that relies on a non-robust initial fit can suffer from the effect of masking, that is, a group of outliers can mask each other and escape detection.[13] Second, if a high breakdown initial fit is used for outlier detection, the follow-up analysis might inherit some of the inefficiencies of the initial estimator.[14]

See also[edit]

  • Robust confidence intervals
  • Robust regression
  • Unit-weighted regression

Notes[edit]

  1. ^ a b c Huber (1981), page 1.
  2. ^ Rousseeuw & Croux (1993).
  3. ^ Masters, Jeffrey. «When was the ozone hole discovered». Weather Underground. Archived from the original on 2016-09-15.
  4. ^ Maronna, Martin & Yohai (2006)
  5. ^ Resistant statistics, David B. Stephenson
  6. ^ von Mises (1947).
  7. ^ Huber (1981), page 45
  8. ^ Huber (1981).
  9. ^ MacDonald & Zucchini (1997); Harvey (1989).
  10. ^ McBean & Rovers (1998).
  11. ^ a b Rustum & Adeloye (2007).
  12. ^ Rosen & Lennox (2001).
  13. ^ Rousseeuw & Leroy (1987).
  14. ^ He & Portnoy (1992).

References[edit]

  • Farcomeni, A.; Greco, L. (2013), Robust methods for data reduction, Boca Raton, FL: Chapman & Hall/CRC Press, ISBN 978-1-4665-9062-5.
  • Hampel, Frank R.; Ronchetti, Elvezio M.; Rousseeuw, Peter J.; Stahel, Werner A. (1986), Robust statistics, Wiley Series in Probability and Mathematical Statistics: Probability and Mathematical Statistics, New York: John Wiley & Sons, Inc., ISBN 0-471-82921-8, MR 0829458. Republished in paperback, 2005.
  • He, Xuming; Portnoy, Stephen (1992), «Reweighted LS estimators converge at the same rate as the initial estimator», Annals of Statistics, 20 (4): 2161–2167, doi:10.1214/aos/1176348910, MR 1193333.
  • He, Xuming; Simpson, Douglas G.; Portnoy, Stephen L. (1990), «Breakdown robustness of tests», Journal of the American Statistical Association, 85 (410): 446–452, doi:10.2307/2289782, JSTOR 2289782, MR 1141746.
  • Hettmansperger, T. P.; McKean, J. W. (1998), Robust nonparametric statistical methods, Kendall’s Library of Statistics, vol. 5, New York: John Wiley & Sons, Inc., ISBN 0-340-54937-8, MR 1604954. 2nd ed., CRC Press, 2011.
  • Huber, Peter J. (1981), Robust statistics, New York: John Wiley & Sons, Inc., ISBN 0-471-41805-6, MR 0606374. Republished in paperback, 2004. 2nd ed., Wiley, 2009.
  • Maronna, Ricardo A.; Martin, R. Douglas; Yohai, Victor J.; Salibián-Barrera, Matías (2019), Robust statistics: Theory and methods (with R), Wiley Series in Probability and Statistics (2nd ed.), Chichester: John Wiley & Sons, Ltd., doi:10.1002/9781119214656, ISBN 978-1-119-21468-7.
  • McBean, Edward A.; Rovers, Frank (1998), Statistical procedures for analysis of environmental monitoring data and assessment, Prentice-Hall.
  • Portnoy, Stephen; He, Xuming (2000), «A robust journey in the new millennium», Journal of the American Statistical Association, 95 (452): 1331–1335, doi:10.2307/2669782, JSTOR 2669782, MR 1825288.
  • Press, William H.; Teukolsky, Saul A.; Vetterling, William T.; Flannery, Brian P. (2007), «Section 15.7. Robust Estimation», Numerical Recipes: The Art of Scientific Computing (3rd ed.), Cambridge University Press, ISBN 978-0-521-88068-8, MR 2371990.
  • Rosen, C.; Lennox, J.A. (October 2001), «Multivariate and multiscale monitoring of wastewater treatment operation», Water Research, 35 (14): 3402–3410, doi:10.1016/s0043-1354(01)00069-0, PMID 11547861.
  • Rousseeuw, Peter J.; Croux, Christophe (1993), «Alternatives to the median absolute deviation», Journal of the American Statistical Association, 88 (424): 1273–1283, doi:10.2307/2291267, JSTOR 2291267, MR 1245360.
  • Rousseeuw, Peter J.; Leroy, Annick M. (1987), Robust Regression and Outlier Detection, Wiley Series in Probability and Mathematical Statistics: Applied Probability and Statistics, New York: John Wiley & Sons, Inc., doi:10.1002/0471725382, ISBN 0-471-85233-3, MR 0914792. Republished in paperback, 2003.
  • Rousseeuw, Peter J.; Hubert, Mia (2011), «Robust statistics for outlier detection», Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 1 (1): 73–79, doi:10.1002/widm.2, S2CID 17448982. Preprint
  • Rustum, Rabee; Adeloye, Adebayo J. (September 2007), «Replacing outliers and missing values from activated sludge data using Kohonen self-organizing map», Journal of Environmental Engineering, 133 (9): 909–916, doi:10.1061/(asce)0733-9372(2007)133:9(909).
  • Stigler, Stephen M. (2010), «The changing history of robustness», The American Statistician, 64 (4): 277–281, doi:10.1198/tast.2010.10159, MR 2758558, S2CID 10728417.
  • Ting, Jo-anne; Theodorou, Evangelos; Schaal, Stefan (2007), «A Kalman filter for robust outlier detection», International Conference on Intelligent Robots and Systems – IROS, pp. 1514–1519.
  • von Mises, R. (1947), «On the asymptotic distribution of differentiable statistical functions», Annals of Mathematical Statistics, 18 (3): 309–348, doi:10.1214/aoms/1177730385, MR 0022330.
  • Wilcox, Rand (2012), Introduction to robust estimation and hypothesis testing, Statistical Modeling and Decision Science (3rd ed.), Amsterdam: Elsevier/Academic Press, pp. 1–22, doi:10.1016/B978-0-12-386983-8.00001-9, ISBN 978-0-12-386983-8, MR 3286430.

External links[edit]

  • Brian Ripley’s robust statistics course notes.
  • Nick Fieller’s course notes on Statistical Modelling and Computation contain material on robust regression.
  • David Olive’s site contains course notes on robust statistics and some data sets.
  • Online experiments using R and JSXGraph

Robust statistics are statistics with good performance for data drawn from a wide range of probability distributions, especially for distributions that are not normal. Robust statistical methods have been developed for many common problems, such as estimating location, scale, and regression parameters. One motivation is to produce statistical methods that are not unduly affected by outliers. Another motivation is to provide methods with good performance when there are small departures from a parametric distribution. For example, robust methods work well for mixtures of two normal distributions with different standard deviations; under this model, non-robust methods like a t-test work poorly.

Introduction[edit]

Robust statistics seek to provide methods that emulate popular statistical methods, but which are not unduly affected by outliers or other small departures from model assumptions. In statistics, classical estimation methods rely heavily on assumptions which are often not met in practice. In particular, it is often assumed that the data errors are normally distributed, at least approximately, or that the central limit theorem can be relied on to produce normally distributed estimates. Unfortunately, when there are outliers in the data, classical estimators often have very poor performance, when judged using the breakdown point and the influence function, described below.

The practical effect of problems seen in the influence function can be studied empirically by examining the sampling distribution of proposed estimators under a mixture model, where one mixes in a small amount (1–5% is often sufficient) of contamination. For instance, one may use a mixture of 95% a normal distribution, and 5% a normal distribution with the same mean but significantly higher standard deviation (representing outliers).

Robust parametric statistics can proceed in two ways:

  • by designing estimators so that a pre-selected behaviour of the influence function is achieved
  • by replacing estimators that are optimal under the assumption of a normal distribution with estimators that are optimal for, or at least derived for, other distributions: for example using the t-distribution with low degrees of freedom (high kurtosis; degrees of freedom between 4 and 6 have often been found to be useful in practice[citation needed]) or with a mixture of two or more distributions.

Robust estimates have been studied for the following problems:

  • estimating location parameters[citation needed]
  • estimating scale parameters[citation needed]
  • estimating regression coefficients[citation needed]
  • estimation of model-states in models expressed in state-space form, for which the standard method is equivalent to a Kalman filter.

Definition[edit]

[icon]

This section needs expansion. You can help by adding to it. (July 2008)

There are various definitions of a «robust statistic.» Strictly speaking, a robust statistic is resistant to errors in the results, produced by deviations from assumptions[1] (e.g., of normality). This means that if the assumptions are only approximately met, the robust estimator will still have a reasonable efficiency, and reasonably small bias, as well as being asymptotically unbiased, meaning having a bias tending towards 0 as the sample size tends towards infinity.

Usually the most important case is distributional robustness — robustness to breaking of the assumptions about the underlying distribution of the data.[1] Classical statistical procedures are typically sensitive to «longtailedness» (e.g., when the distribution of the data has longer tails than the assumed normal distribution). This implies that they will be strongly affected by the presence of outliers in the data, and the estimates they produce may be heavily distorted if there are extreme outliers in the data, compared to what they would be if the outliers were not included in the data.

By contrast, more robust estimators that are not so sensitive to distributional distortions such as longtailedness are also resistant to the presence of outliers. Thus, in the context of robust statistics, distributionally robust and outlier-resistant are effectively synonymous.[1] For one perspective on research in robust statistics up to 2000, see Portnoy & He (2000).

Some experts prefer the term resistant statistics for distributional robustness, and reserve ‘robustness’ for non-distributional robustness, e.g., robustness to violation of assumptions about the probability model or estimator, but this is a minority usage. Plain ‘robustness’ to mean ‘distributional robustness’ is common.

When considering how robust an estimator is to the presence of outliers, it is useful to test what happens when an extreme outlier is added to the dataset, and to test what happens when an extreme outlier replaces one of the existing datapoints, and then to consider the effect of multiple additions or replacements.

Examples[edit]

The mean is not a robust measure of central tendency. If the dataset is e.g. the values {2,3,5,6,9}, then if we add another datapoint with value -1000 or +1000 to the data, the resulting mean will be very different to the mean of the original data. Similarly, if we replace one of the values with a datapoint of value -1000 or +1000 then the resulting mean will be very different to the mean of the original data.

The median is a robust measure of central tendency. Taking the same dataset {2,3,5,6,9}, if we add another datapoint with value -1000 or +1000 then the median will change slightly, but it will still be similar to the median of the original data. If we replace one of the values with a datapoint of value -1000 or +1000 then the resulting median will still be similar to the median of the original data.

Described in terms of breakdown points, the median has a breakdown point of 50%, meaning that half the points must be outliers before the median can be moved outside the range of the non-outliers, while the mean has a breakdown point of 0, as a single large observation can throw it off.

The median absolute deviation and interquartile range are robust measures of statistical dispersion, while the standard deviation and range are not.

Trimmed estimators and Winsorised estimators are general methods to make statistics more robust. L-estimators are a general class of simple statistics, often robust, while M-estimators are a general class of robust statistics, and are now the preferred solution, though they can be quite involved to calculate.

Speed-of-light data[edit]

Gelman et al. in Bayesian Data Analysis (2004) consider a data set relating to speed-of-light measurements made by Simon Newcomb. The data sets for that book can be found via the Classic data sets page, and the book’s website contains more information on the data.

Although the bulk of the data look to be more or less normally distributed, there are two obvious outliers. These outliers have a large effect on the mean, dragging it towards them, and away from the center of the bulk of the data. Thus, if the mean is intended as a measure of the location of the center of the data, it is, in a sense, biased when outliers are present.

Also, the distribution of the mean is known to be asymptotically normal due to the central limit theorem. However, outliers can make the distribution of the mean non-normal even for fairly large data sets. Besides this non-normality, the mean is also inefficient in the presence of outliers and less variable measures of location are available.

Estimation of location[edit]

The plot below shows a density plot of the speed-of-light data, together with a rug plot (panel (a)). Also shown is a normal Q–Q plot (panel (b)). The outliers are clearly visible in these plots.

Panels (c) and (d) of the plot show the bootstrap distribution of the mean (c) and the 10% trimmed mean (d). The trimmed mean is a simple robust estimator of location that deletes a certain percentage of observations (10% here) from each end of the data, then computes the mean in the usual way. The analysis was performed in R and 10,000 bootstrap samples were used for each of the raw and trimmed means.

The distribution of the mean is clearly much wider than that of the 10% trimmed mean (the plots are on the same scale). Also whereas the distribution of the trimmed mean appears to be close to normal, the distribution of the raw mean is quite skewed to the left. So, in this sample of 66 observations, only 2 outliers cause the central limit theorem to be inapplicable.

SpeedOfLight.png

Robust statistical methods, of which the trimmed mean is a simple example, seek to outperform classical statistical methods in the presence of outliers, or, more generally, when underlying parametric assumptions are not quite correct.

Whilst the trimmed mean performs well relative to the mean in this example, better robust estimates are available. In fact, the mean, median and trimmed mean are all special cases of M-estimators. Details appear in the sections below.

Estimation of scale[edit]

The outliers in the speed-of-light data have more than just an adverse effect on the mean; the usual estimate of scale is the standard deviation, and this quantity is even more badly affected by outliers because the squares of the deviations from the mean go into the calculation, so the outliers’ effects are exacerbated.

The plots below show the bootstrap distributions of the standard deviation, the median absolute deviation (MAD) and the Rousseeuw–Croux (Qn) estimator of scale.[2] The plots are based on 10,000 bootstrap samples for each estimator, with some Gaussian noise added to the resampled data (smoothed bootstrap). Panel (a) shows the distribution of the standard deviation, (b) of the MAD and (c) of Qn.

SpeedOfLightScale.png

The distribution of standard deviation is erratic and wide, a result of the outliers. The MAD is better behaved, and Qn is a little bit more efficient than MAD. This simple example demonstrates that when outliers are present, the standard deviation cannot be recommended as an estimate of scale.

Manual screening for outliers[edit]

Traditionally, statisticians would manually screen data for outliers, and remove them, usually checking the source of the data to see whether the outliers were erroneously recorded. Indeed, in the speed-of-light example above, it is easy to see and remove the two outliers prior to proceeding with any further analysis. However, in modern times, data sets often consist of large numbers of variables being measured on large numbers of experimental units. Therefore, manual screening for outliers is often impractical.

Outliers can often interact in such a way that they mask each other. As a simple example, consider a small univariate data set containing one modest and one large outlier. The estimated standard deviation will be grossly inflated by the large outlier. The result is that the modest outlier looks relatively normal. As soon as the large outlier is removed, the estimated standard deviation shrinks, and the modest outlier now looks unusual.

This problem of masking gets worse as the complexity of the data increases. For example, in regression problems, diagnostic plots are used to identify outliers. However, it is common that once a few outliers have been removed, others become visible. The problem is even worse in higher dimensions.

Robust methods provide automatic ways of detecting, downweighting (or removing), and flagging outliers, largely removing the need for manual screening. Care must be taken; initial data showing the ozone hole first appearing over Antarctica were rejected as outliers by non-human screening.[3]

Variety of applications[edit]

Although this article deals with general principles for univariate statistical methods, robust methods also exist for regression problems, generalized linear models, and parameter estimation of various distributions.

Measures of robustness[edit]

The basic tools used to describe and measure robustness are, the breakdown point, the influence function and the sensitivity curve.

Breakdown point[edit]

Intuitively, the breakdown point of an estimator is the proportion of incorrect observations (e.g. arbitrarily large observations) an estimator can handle before giving an incorrect (e.g., arbitrarily large) result. Usually the asymptotic (infinite sample) limit is quoted as the breakdown point, although the finite-sample breakdown point may be more useful.[4] For example, given n independent random variables (X_1,dots,X_n) and the corresponding realizations x_1,dots,x_n, we can use overline{X_n}:=frac{X_1+cdots+X_n}{n} to estimate the mean. Such an estimator has a breakdown point of 0 (or finite-sample breakdown point of 1/n) because we can make {overline {x}} arbitrarily large just by changing any of x_1,dots,x_n.

The higher the breakdown point of an estimator, the more robust it is. Intuitively, we can understand that a breakdown point cannot exceed 50% because if more than half of the observations are contaminated, it is not possible to distinguish between the underlying distribution and the contaminating distribution Rousseeuw & Leroy (1986). Therefore, the maximum breakdown point is 0.5 and there are estimators which achieve such a breakdown point. For example, the median has a breakdown point of 0.5. The X% trimmed mean has breakdown point of X%, for the chosen level of X. Huber (1981) and Maronna, Martin & Yohai (2006) contain more details. The level and the power breakdown points of tests are investigated in He, Simpson & Portnoy (1990).

Statistics with high breakdown points are sometimes called resistant statistics.[5]

Example: speed-of-light data[edit]

In the speed-of-light example, removing the two lowest observations causes the mean to change from 26.2 to 27.75, a change of 1.55. The estimate of scale produced by the Qn method is 6.3. We can divide this by the square root of the sample size to get a robust standard error, and we find this quantity to be 0.78. Thus, the change in the mean resulting from removing two outliers is approximately twice the robust standard error.

The 10% trimmed mean for the speed-of-light data is 27.43. Removing the two lowest observations and recomputing gives 27.67. Clearly, the trimmed mean is less affected by the outliers and has a higher breakdown point.

If we replace the lowest observation, −44, by −1000, the mean becomes 11.73, whereas the 10% trimmed mean is still 27.43. In many areas of applied statistics, it is common for data to be log-transformed to make them near symmetrical. Very small values become large negative when log-transformed, and zeroes become negatively infinite. Therefore, this example is of practical interest.

Empirical influence function[edit]

Tukey’s biweight function

The empirical influence function is a measure of the dependence of the estimator on the value of any one of the points in the sample. It is a model-free measure in the sense that it simply relies on calculating the estimator again with a different sample. On the right is Tukey’s biweight function, which, as we will later see, is an example of what a «good» (in a sense defined later on) empirical influence function should look like.

In mathematical terms, an influence function is defined as a vector in the space of the estimator, which is in turn defined for a sample which is a subset of the population:

  1. (Omega,mathcal{A},P) is a probability space,
  2. (mathcal{X},Sigma) is a measurable space (state space),
  3. Theta is a parameter space of dimension pinmathbb{N}^*,
  4. (Gamma,S) is a measurable space,

For example,

  1. (Omega,mathcal{A},P) is any probability space,
  2. (mathcal{X},Sigma)=(mathbb{R},mathcal{B}),
  3. Theta=mathbb{R}timesmathbb{R}^+
  4. (Gamma,S)=(mathbb{R},mathcal{B}),

The empirical influence function is defined as follows.

Let ninmathbb{N}^* and X_1,dots,X_n:(Omega, mathcal{A})rightarrow(mathcal{X},Sigma) are i.i.d. and (x_1,dots,x_n) is a sample from these variables. T_n:(mathcal{X}^n,Sigma^n)rightarrow(Gamma,S) is an estimator. Let iin{1,dots,n}. The empirical influence function EIF_i at observation i is defined by:

{displaystyle EIF_{i}:xin {mathcal {X}}mapsto ncdot (T_{n}(x_{1},dots ,x_{i-1},x,x_{i+1},dots ,x_{n})-T_{n}(x_{1},dots ,x_{i-1},x_{i},x_{i+1},dots ,x_{n}))}

What this actually means is that we are replacing the i-th value in the sample by an arbitrary value and looking at the output of the estimator. Alternatively, the EIF is defined as the effect, scaled by n+1 instead of n, on the estimator of adding the point x to the sample.[citation needed]

Influence function and sensitivity curve[edit]

Instead of relying solely on the data, we could use the distribution of the random variables. The approach is quite different from that of the previous paragraph. What we are now trying to do is to see what happens to an estimator when we change the distribution of the data slightly: it assumes a distribution, and measures sensitivity to change in this distribution. By contrast, the empirical influence assumes a sample set, and measures sensitivity to change in the samples.[6]

Let A be a convex subset of the set of all finite signed measures on Sigma. We want to estimate the parameter thetainTheta of a distribution F in A. Let the functional T:ArightarrowGamma be the asymptotic value of some estimator sequence (T_n)_{ninmathbb{N}}. We will suppose that this functional is Fisher consistent, i.e. forall thetainTheta, T(F_theta)=theta. This means that at the model F, the estimator sequence asymptotically measures the correct quantity.

Let G be some distribution in A. What happens when the data doesn’t follow the model F exactly but another, slightly different, «going towards» G?

We’re looking at: dT_{G-F}(F) = lim_{trightarrow 0^+}frac{T(tG+(1-t)F) - T(F)}{t},

which is the one-sided Gateaux derivative of T at F, in the direction of G-F.

Let xinmathcal{X}. Delta_x is the probability measure which gives mass 1 to {x}. We choose G=Delta_x. The influence function is then defined by:

IF(x; T; F):=lim_{trightarrow 0^+}frac{T(tDelta_x+(1-t)F) - T(F)}{t}.

It describes the effect of an infinitesimal contamination at the point x on the estimate we are seeking, standardized by the mass t of the contamination (the asymptotic bias caused by contamination in the observations). For a robust estimator, we want a bounded influence function, that is, one which does not go to infinity as x becomes arbitrarily large.

Desirable properties[edit]

Properties of an influence function which bestow it with desirable performance are:

  1. Finite rejection point rho ^{*},
  2. Small gross-error sensitivity gamma^*,
  3. Small local-shift sensitivity lambda^*.

Rejection point[edit]

rho^*:=inf_{r>0}{r:IF(x;T;F)=0, |x|>r}

Gross-error sensitivity[edit]

gamma^*(T;F) := sup_{xinmathcal{X}}|IF(x; T ; F)|

Local-shift sensitivity[edit]

lambda^*(T;F) := sup_{(x,y)inmathcal{X}^2atop xneq y}left|frac{IF(y ; T; F) - IF(x; T ; F)}{y-x}right|

This value, which looks a lot like a Lipschitz constant, represents the effect of shifting an observation slightly from x to a neighbouring point y, i.e., add an observation at y and remove one at x.

M-estimators[edit]

(The mathematical context of this paragraph is given in the section on empirical influence functions.)

Historically, several approaches to robust estimation were proposed, including R-estimators and L-estimators. However, M-estimators now appear to dominate the field as a result of their generality, high breakdown point, and their efficiency. See Huber (1981).

M-estimators are a generalization of maximum likelihood estimators (MLEs). What we try to do with MLE’s is to maximize prod_{i=1}^n f(x_i) or, equivalently, minimize sum_{i=1}^n-log f(x_i). In 1964, Huber proposed to generalize this to the minimization of sum_{i=1}^n rho(x_i), where rho is some function. MLE are therefore a special case of M-estimators (hence the name: «Maximum likelihood type» estimators).

Minimizing sum_{i=1}^n rho(x_i) can often be done by differentiating rho and solving sum_{i=1}^n psi(x_i) = 0, where psi(x) = frac{drho(x)}{dx} (if rho has a derivative).

Several choices of rho and psi have been proposed. The two figures below show four rho functions and their corresponding psi functions.

RhoFunctions.png

For squared errors, rho (x) increases at an accelerating rate, whilst for absolute errors, it increases at a constant rate. When Winsorizing is used, a mixture of these two effects is introduced: for small values of x, rho increases at the squared rate, but once the chosen threshold is reached (1.5 in this example), the rate of increase becomes constant. This Winsorised estimator is also known as the Huber loss function.

Tukey’s biweight (also known as bisquare) function behaves in a similar way to the squared error function at first, but for larger errors, the function tapers off.

PsiFunctions.png

Properties of M-estimators[edit]

M-estimators do not necessarily relate to a probability density function. Therefore, off-the-shelf approaches to inference that arise from likelihood theory can not, in general, be used.

It can be shown that M-estimators are asymptotically normally distributed, so that as long as their standard errors can be computed, an approximate approach to inference is available.

Since M-estimators are normal only asymptotically, for small sample sizes it might be appropriate to use an alternative approach to inference, such as the bootstrap. However, M-estimates are not necessarily unique (i.e., there might be more than one solution that satisfies the equations). Also, it is possible that any particular bootstrap sample can contain more outliers than the estimator’s breakdown point. Therefore, some care is needed when designing bootstrap schemes.

Of course, as we saw with the speed-of-light example, the mean is only normally distributed asymptotically and when outliers are present the approximation can be very poor even for quite large samples. However, classical statistical tests, including those based on the mean, are typically bounded above by the nominal size of the test. The same is not true of M-estimators and the type I error rate can be substantially above the nominal level.

These considerations do not «invalidate» M-estimation in any way. They merely make clear that some care is needed in their use, as is true of any other method of estimation.

Influence function of an M-estimator[edit]

It can be shown that the influence function of an M-estimator T is proportional to psi,[7] which means we can derive the properties of such an estimator (such as its rejection point, gross-error sensitivity or local-shift sensitivity) when we know its psi function.

IF(x;T,F) = M^{-1}psi(x,T(F))

with the ptimes p given by:

{displaystyle M=-int _{mathcal {X}}left({frac {partial psi (x,theta )}{partial theta }}right)_{T(F)},dF(x).}

Choice of ψ and ρ[edit]

In many practical situations, the choice of the psi function is not critical to gaining a good robust estimate, and many choices will give similar results that offer great improvements, in terms of efficiency and bias, over classical estimates in the presence of outliers.[8]

Theoretically, psi functions are to be preferred,[clarification needed] and Tukey’s biweight (also known as bisquare) function is a popular choice. Maronna, Martin & Yohai (2006) recommend the biweight function with efficiency at the normal set to 85%.

Robust parametric approaches[edit]

M-estimators do not necessarily relate to a density function and so are not fully parametric. Fully parametric approaches to robust modeling and inference, both Bayesian and likelihood approaches, usually deal with heavy tailed distributions such as Student’s t-distribution.

For the t-distribution with nu degrees of freedom, it can be shown that

{displaystyle psi (x)={frac {x}{x^{2}+nu }}.}

For nu =1, the t-distribution is equivalent to the Cauchy distribution. The degrees of freedom is sometimes known as the kurtosis parameter. It is the parameter that controls how heavy the tails are. In principle, nu can be estimated from the data in the same way as any other parameter. In practice, it is common for there to be multiple local maxima when nu is allowed to vary. As such, it is common to fix nu at a value around 4 or 6. The figure below displays the psi-function for 4 different values of nu.

TDistPsi.png

Example: speed-of-light data[edit]

For the speed-of-light data, allowing the kurtosis parameter to vary and maximizing the likelihood, we get

hatmu = 27.40, hatsigma = 3.81, hatnu = 2.13.

Fixing nu = 4 and maximizing the likelihood gives

hatmu = 27.49, hatsigma = 4.51.

[edit]

A pivotal quantity is a function of data, whose underlying population distribution is a member of a parametric family, that is not dependent on the values of the parameters. An ancillary statistic is such a function that is also a statistic, meaning that it is computed in terms of the data alone. Such functions are robust to parameters in the sense that they are independent of the values of the parameters, but not robust to the model in the sense that they assume an underlying model (parametric family), and in fact such functions are often very sensitive to violations of the model assumptions. Thus test statistics, frequently constructed in terms of these to not be sensitive to assumptions about parameters, are still very sensitive to model assumptions.

Replacing outliers and missing values[edit]

Replacing missing data is called imputation. If there are relatively few missing points, there are some models which can be used to estimate values to complete the series, such as replacing missing values with the mean or median of the data. Simple linear regression can also be used to estimate missing values.[9][incomplete short citation] In addition, outliers can sometimes be accommodated in the data through the use of trimmed means, other scale estimators apart from standard deviation (e.g., MAD) and Winsorization.[10] In calculations of a trimmed mean, a fixed percentage of data is dropped from each end of an ordered data, thus eliminating the outliers. The mean is then calculated using the remaining data. Winsorizing involves accommodating an outlier by replacing it with the next highest or next smallest value as appropriate.[11]

However, using these types of models to predict missing values or outliers in a long time series is difficult and often unreliable, particularly if the number of values to be in-filled is relatively high in comparison with total record length. The accuracy of the estimate depends on how good and representative the model is and how long the period of missing values extends.[12] When dynamic evolution is assumed in a series, the missing data point problem becomes an exercise in multivariate analysis (rather than the univariate approach of most traditional methods of estimating missing values and outliers). In such cases, a multivariate model will be more representative than a univariate one for predicting missing values. The Kohonen self organising map (KSOM) offers a simple and robust multivariate model for data analysis, thus providing good possibilities to estimate missing values, taking into account its relationship or correlation with other pertinent variables in the data record.[11]

Standard Kalman filters are not robust to outliers. To this end Ting, Theodorou & Schaal (2007) have recently shown that a modification of Masreliez’s theorem can deal with outliers.

One common approach to handle outliers in data analysis is to perform outlier detection first, followed by an efficient estimation method (e.g., the least squares). While this approach is often useful, one must keep in mind two challenges. First, an outlier detection method that relies on a non-robust initial fit can suffer from the effect of masking, that is, a group of outliers can mask each other and escape detection.[13] Second, if a high breakdown initial fit is used for outlier detection, the follow-up analysis might inherit some of the inefficiencies of the initial estimator.[14]

See also[edit]

  • Robust confidence intervals
  • Robust regression
  • Unit-weighted regression

Notes[edit]

  1. ^ a b c Huber (1981), page 1.
  2. ^ Rousseeuw & Croux (1993).
  3. ^ Masters, Jeffrey. «When was the ozone hole discovered». Weather Underground. Archived from the original on 2016-09-15.
  4. ^ Maronna, Martin & Yohai (2006)
  5. ^ Resistant statistics, David B. Stephenson
  6. ^ von Mises (1947).
  7. ^ Huber (1981), page 45
  8. ^ Huber (1981).
  9. ^ MacDonald & Zucchini (1997); Harvey (1989).
  10. ^ McBean & Rovers (1998).
  11. ^ a b Rustum & Adeloye (2007).
  12. ^ Rosen & Lennox (2001).
  13. ^ Rousseeuw & Leroy (1987).
  14. ^ He & Portnoy (1992).

References[edit]

  • Farcomeni, A.; Greco, L. (2013), Robust methods for data reduction, Boca Raton, FL: Chapman & Hall/CRC Press, ISBN 978-1-4665-9062-5.
  • Hampel, Frank R.; Ronchetti, Elvezio M.; Rousseeuw, Peter J.; Stahel, Werner A. (1986), Robust statistics, Wiley Series in Probability and Mathematical Statistics: Probability and Mathematical Statistics, New York: John Wiley & Sons, Inc., ISBN 0-471-82921-8, MR 0829458. Republished in paperback, 2005.
  • He, Xuming; Portnoy, Stephen (1992), «Reweighted LS estimators converge at the same rate as the initial estimator», Annals of Statistics, 20 (4): 2161–2167, doi:10.1214/aos/1176348910, MR 1193333.
  • He, Xuming; Simpson, Douglas G.; Portnoy, Stephen L. (1990), «Breakdown robustness of tests», Journal of the American Statistical Association, 85 (410): 446–452, doi:10.2307/2289782, JSTOR 2289782, MR 1141746.
  • Hettmansperger, T. P.; McKean, J. W. (1998), Robust nonparametric statistical methods, Kendall’s Library of Statistics, vol. 5, New York: John Wiley & Sons, Inc., ISBN 0-340-54937-8, MR 1604954. 2nd ed., CRC Press, 2011.
  • Huber, Peter J. (1981), Robust statistics, New York: John Wiley & Sons, Inc., ISBN 0-471-41805-6, MR 0606374. Republished in paperback, 2004. 2nd ed., Wiley, 2009.
  • Maronna, Ricardo A.; Martin, R. Douglas; Yohai, Victor J.; Salibián-Barrera, Matías (2019), Robust statistics: Theory and methods (with R), Wiley Series in Probability and Statistics (2nd ed.), Chichester: John Wiley & Sons, Ltd., doi:10.1002/9781119214656, ISBN 978-1-119-21468-7.
  • McBean, Edward A.; Rovers, Frank (1998), Statistical procedures for analysis of environmental monitoring data and assessment, Prentice-Hall.
  • Portnoy, Stephen; He, Xuming (2000), «A robust journey in the new millennium», Journal of the American Statistical Association, 95 (452): 1331–1335, doi:10.2307/2669782, JSTOR 2669782, MR 1825288.
  • Press, William H.; Teukolsky, Saul A.; Vetterling, William T.; Flannery, Brian P. (2007), «Section 15.7. Robust Estimation», Numerical Recipes: The Art of Scientific Computing (3rd ed.), Cambridge University Press, ISBN 978-0-521-88068-8, MR 2371990.
  • Rosen, C.; Lennox, J.A. (October 2001), «Multivariate and multiscale monitoring of wastewater treatment operation», Water Research, 35 (14): 3402–3410, doi:10.1016/s0043-1354(01)00069-0, PMID 11547861.
  • Rousseeuw, Peter J.; Croux, Christophe (1993), «Alternatives to the median absolute deviation», Journal of the American Statistical Association, 88 (424): 1273–1283, doi:10.2307/2291267, JSTOR 2291267, MR 1245360.
  • Rousseeuw, Peter J.; Leroy, Annick M. (1987), Robust Regression and Outlier Detection, Wiley Series in Probability and Mathematical Statistics: Applied Probability and Statistics, New York: John Wiley & Sons, Inc., doi:10.1002/0471725382, ISBN 0-471-85233-3, MR 0914792. Republished in paperback, 2003.
  • Rousseeuw, Peter J.; Hubert, Mia (2011), «Robust statistics for outlier detection», Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery, 1 (1): 73–79, doi:10.1002/widm.2, S2CID 17448982. Preprint
  • Rustum, Rabee; Adeloye, Adebayo J. (September 2007), «Replacing outliers and missing values from activated sludge data using Kohonen self-organizing map», Journal of Environmental Engineering, 133 (9): 909–916, doi:10.1061/(asce)0733-9372(2007)133:9(909).
  • Stigler, Stephen M. (2010), «The changing history of robustness», The American Statistician, 64 (4): 277–281, doi:10.1198/tast.2010.10159, MR 2758558, S2CID 10728417.
  • Ting, Jo-anne; Theodorou, Evangelos; Schaal, Stefan (2007), «A Kalman filter for robust outlier detection», International Conference on Intelligent Robots and Systems – IROS, pp. 1514–1519.
  • von Mises, R. (1947), «On the asymptotic distribution of differentiable statistical functions», Annals of Mathematical Statistics, 18 (3): 309–348, doi:10.1214/aoms/1177730385, MR 0022330.
  • Wilcox, Rand (2012), Introduction to robust estimation and hypothesis testing, Statistical Modeling and Decision Science (3rd ed.), Amsterdam: Elsevier/Academic Press, pp. 1–22, doi:10.1016/B978-0-12-386983-8.00001-9, ISBN 978-0-12-386983-8, MR 3286430.

External links[edit]

  • Brian Ripley’s robust statistics course notes.
  • Nick Fieller’s course notes on Statistical Modelling and Computation contain material on robust regression.
  • David Olive’s site contains course notes on robust statistics and some data sets.
  • Online experiments using R and JSXGraph

Робастность (англ. robustness, от robust — «крепкий», «сильный», «твёрдый», «устойчивый») — свойство статистического метода, характеризующее независимость влияния на результат исследования различного рода выбросов, устойчивости к помехам. Робастный метод — метод, направленный на выявление выбросов, снижение их влияния или исключение их из выборки.

На практике наличие в выборках даже небольшого числа резко выделяющихся наблюдений (выбросов) способно сильно повлиять на результат исследования, например, метод наименьших квадратов и метод максимального правдоподобия подвержены такого рода искажениям и значения, получаемые в результате исследования, могут перестать нести в себе какой-либо смысл. Для исключения влияния таких помех используются различные подходы для снижения влияния «плохих» наблюдений (выбросов), либо полного их исключения. Основная задача робастных методов — отличить «плохое» наблюдение от «хорошего», притом даже самый простой из подходов — субъективный (основанный на внутренних ощущениях исследователя) — может принести значительную пользу, однако для мотивированной отбраковки все же исследователями применяются методы, имеющие в своей основе некие строгие математические обоснования. Этот процесс представляет собой весьма нетривиальную задачу для статистика и определяет собой одно из направлений статистической науки.

Понятие робастности

Под робастностью в статистике понимают нечувствительность к различным отклонениям и неоднородностям в выборке, связанным с теми или иными, в общем случае неизвестными, причинами. Это могут быть ошибки детектора, регистрирующего наблюдения, чьи-то добросовестные или намеренные попытки «подогнать» выборку до того, как она попадёт к статистику, ошибки оформления, вкравшиеся опечатки и многое другое. Например, наиболее робастной оценкой параметра сдвига закона распределения является медиана, что на интуитивном уровне вполне очевидно (для строгого доказательства следует воспользоваться тем, что медиана является усечённой М-оценкой). Помимо непосредственно «бракованных» наблюдений также может присутствовать некоторое количество наблюдений, подчиняющихся другому распределению. Ввиду условности законов распределений, а это не более, чем модели описания, сама по себе выборка может содержать некоторые расхождения с идеалом.

Тем не менее, параметрический подход настолько вжился, доказав свою простоту и целесообразность, что нелепо от него отказываться. Поэтому и возникла необходимость приспособить старые модели к новым задачам.

Стоит отдельно подчеркнуть и не забывать, что отбракованные наблюдения нуждаются в отдельном, более пристальном внимании. Наблюдения, кажущиеся «плохими» для одной гипотезы, могут вполне соответствовать другой. Наконец, отнюдь не всегда резко выделяющиеся наблюдения являются «браком». Одно такое наблюдение для генной инженерии, к примеру, стоит миллионов других, мало отличающихся друг от друга.

Основные подходы

Для того, чтобы ограничить влияние неоднородностей, либо вовсе его исключить, существует множество различных подходов. Среди них выделяются два основных направления.

  • Группировка данных без удаления отдельных наблюдений (для снижения возможности порчи выборки отдельными выпадами). После чего с достаточной степенью уверенности допустимо использование классических методов статистики.
  • Отслеживание выбросов непосредственно в процессе анализа. Например, для определения параметров закона распределения возможно использование итерационной процедуры с усечёнными или th-сниженными M-оценками.
  • Источник: Википедия

    Подробнее про робастное оценивание

    Про робастное оценивание параметров распределения

    Что такое робастный контроллер и зачем нам усложнять себе жизнь? Чем нас не устраивает стандартный, всеми узнаваемый, ПИД-регулятор?

    Ответ кроется в самом названии, с англ. «robustness» — The quality of being strong and not easy to break (Свойство быть сильным и сложно сломать). В случае с контролером это означает, что он должен быть «жестким», неподатливым к изменениям объекта управления. Например: в мат. модели DC мотора есть 3 основных параметра: сопротивление и индуктивность обмотки, и постоянные Кт Ке, которые равны между собой. Для расчета классического ПИД регулятора, смотрят в даташит, берут те 3 параметра и рассчитывают коэффициенты ПИД, вроде все просто, что еще нужно. Но мотор — это реальная система, в которой эти 3 коэффициента не постоянные, например в следствии высокочастотной динамики, которую сложно описать или потребуется высокий порядок системы.

    Например

    : Rдаташит=1 Ом, а на самом деле R находиться в интервале [0.9,1.1] Ом. Так во показатели качества в случае с ПИД регулятором могут выходить за заданные, а робастный контроллер учитывает неопределенности и способен удержать показатели качества замкнутой системы в нужном интервале.

    На этом этапе возникает логические вопрос: А как найти этот интервал? Находится он с помощью параметрической идентификации модели. На Хабре недавно описали метод МНК («Параметрическая идентификация линейной динамической системы»), однако дает одно значение идентифицируемого параметра, как в даташите. Для нахождения интервала значений мы использовали «Sparse Semidefinite Programming Relaxation of Polynomial Optimization Problems» дополнение для матлаба. Если будет интересно, могу написать отдельную статью как пользоваться данным пакетом и как произвести идентификацию.

    Надеюсь, сейчас стало хоть не много понятнее зачем робастное управление нужно.

    Не буду особо вдаваться в теорию, потому что я ее не очень понял; я покажу этапы, которые необходимо пройти, чтобы получить контроллер. Кому интересно, можно почитать «Essentials Of Robust Control, Kemin Zhou, John C. Doyle, Prentice Hall» или документацию Matlab.

    Мы будем пользоваться следующей схемой системы управления:

    image
    Рис 1: Блок схема системы управления

    Думаю, здесь все понятно (di – возмущения).

    Постановка задачи:
    Найти: Gc(s) и Gf(s) которые удовлетворяют все заданные условия.

    Дано: image – обьект управления c неопределенностями, которые заданы интервалами: image
    Для дальнейших расчетов будем использовать номинальные значения, а неопределенности учтем дальше.
    Kn=(16+9)/2=12.5,p1n=0.8,p2n=2.5, соответственно получил номинальный объект управления:
    image
    image
    Типы возмущений:

    Или другими словами это характеристики шума элементов системы.

    Рабочие характеристики (performance specifications)

    Решение

    Очень детально расписывать не буду, только основные моменты.

    Одним из ключевых шагов в H∞ методе это определение входных и выходных весовых функций. Эти весовые функции используются для нормирования входа и выхода и отражения временных и частотных зависимостей входных возмущений и рабочих характеристик выходных переменных (ошибок) [1]. Честно говоря, мне это практически ни о чем не говорит, особенно если впервые сталкиваешься с данным методом. В двух словах, весовые функции используются для задания нужный свойств системы управления. Например, в обратной связи стоит сенсор, который имеет шум, обычно высокочастотный, так вот, весовая функция будет своего рода границей, которую контролер не должен пересекать, что бы отфильтровать шум сенсора.

    Ниже будем выводить эти весовые функции на основе рабочих характеристик.

    1. image Здесь все просто
    2. В этом пункте нам нужно определить сколько полюсов в нуле необходимо иметь для контролера (обозначим µ) чтобы удовлетворить Условие 2. Для этого воспользуемся таблицей: image
      Рис 2: Ошибки по положению, скорости и ускорения

      System type или астатизм (p) – обозначает количество полюсов в нуле, объекта управления, в нашем случае p=1 (система с астатизмом первого порядка). Так как наш объект управления и есть система с астатизмом 1 порядка, в таком случае полюсов в нуле у контроллера быть не должно. Воспользуемся формулой:
      μ+p=h
      Где h – порядок входного сигнала, для ramp h=1;
      μ=h-p=1-1=0
      Теперь воспользуемся теоремой конечных значений, чтобы найти e_r∞
      image
      Где e_r – ошибка слежения,
      image
      yr – действительный выход (см. Рис 1), уd – желаемый выход
      image
      Рис 3: Определение ошибки слежения

      В итоге получим такое:
      image
      Это формула установившейся ошибки, неизвестная в данном уравнении S (Sensitivity function)
      image
      Где image – sensitivity function, L(s) – loop function. Без понятия как они переводятся на русский, оставлю английские названия. Также complementary sensitivity function image (как видно из формул, в состав S и T входят Gc – рассчитываемый контроллер, соответственно границы для S и T мы найдем из ошибок и рабочих характеристик, весовые функции определим из S и T, а матлаб из весовых функций найдёт желаемый контроллер.)
      В двух словах об S и T [1].

      image
      Рис 4: Диаграмма Боде для S,T и L

      Из графика видно что S ослабляем низкочастотные возмущения, в то время как Т ослабляет высокочастотные возмущения.

    3. Воспользуемся теоремой конечных значений для e_da
      image
      image
      Так как у нас получилось два неравенства найдем условие удовлетворяющее обоих:
      image
      Это условие говорит, где Sensitivity function должна пересекать 0 dB axis на диаграмме Боде.
      image
      Рис 5: Боде для S
    4. Dp у нас гармоническое возмущение, низкочастотное. Создадим маску для S в районе частот wp
      image
      Это значение показывает что S должен находиться ниже -32 dB для частот wp, что бы отфильровать возмущения
      image
      Рис 6: Маска для S
    5. Ds также гармоническое возмущение высоких частот, здесь свою роль будет выполнять T
      Выполним тоже самое:
      image
      image
      Рис 7: Маска для Т

      Комплексный порядок весовых функций определяется из условии маски и частоты пересечения с 0 осью. В нашем случаи от wp до w примерно одна декада, а так как у нас есть -32 dB то S должен быть минимум 2 порядка. Тоже самое касается и Т.
      В итоге схематически ограничение имеют следующий вид для S и Т соответственно:
      imageimage
      Рис 8: Все маски для S и T

    6. Для перевода временных характеристик воспользуемся графиками
      image
      Рис 9: График зависимости коеффициента демпфирования от переригулирования

      Зная переригулирование найдем коеффициент демфирования для 10% ->
      ξ=0.59
      Зная коеффициент демфирования найдем (резонансное) максимально допустимое значение для S и T
      image
      Рис 10: График зависимости S_p0 и T_p0 от коеффициента демфирования

      S_p0=1.35
      T_p0=1.05

    7. Из времени регулирования и настраивания найдем насколько быстрая должна быть система управления
      image
      Далее найдем натуральную частоту для S
      image
      image
      Натуральная частота для T находим по диаграмме Боде. По условию 5 в частоте 40 rad/s T должен находиться ниже -46 dB, а значит при наклоне в -40 dB/дек натуральная частота должна находиться ниже 4 rad/s. Строя Боде, подбираем оптимальное значение, я получил что:
      image
      image
      Рис 11: Боде T-функции

      После этого у нас есть все данные для построения S T, которые потом трансформируем в весовых функций. S T имеют следующую форму:
      image
      Обычно для построения весовых функций используют Butterworth коэффициенты
      image
      Весовые функции имеют вид:
      image
      Для image все просто, и нас есть все необходимое, что бы подставить в формулу. Для image нужно еще несколько расчетов.
      Так как рабочие характеристики дают нам граничные условия в рамках которых наш контроллер будет выполнять все условия. Весовые функции объединяют в себе все условия и потом используются как правая и левая граница в которых находиться контроллер удовлетворяющий все условия.
      Для image

    В итоге получим:
    image

    Generalized plant

    Hinf метод или метод минимизации бесконечной нормы Hinfinity относится к общей формулировке проблемы управления которая основывается на следующей схеме представления системы управления с обратной связью:

    image
    Рис 12: Обобщенный схема системы управления

    Перейдем к пункту расчета контроллера и что для этого нужно. Изучение алгоритмов расчета нам не объясняли, говорили: «делайте вот так и все получиться», но принцип вполне логичен. Контроллер получается в ходе решения оптимизационной задачи:
    image
    image – замкнутая передаточная функция от W к Z.
    Сейчас нам нужно составить generalized plant (пунктирный прямоугольник рис ниже). Gpn мы уже определили, это номинальный объект управления. Gc — контроллер который мы получим в итоге. W1 = Ws(s), W2 = max (WT(s),Wu(s)) – это весовые функции определенные ранее. Wu(s) – это весовая функция неопределенности, давайте ее определим.
    image
    Рис 13: Раскрытая схемы управления

    Wu(s)

    Предположим что имеем мультипликативные неопределенности в объекте управления, можно изобразить так:
    image
    Рис 14: Мультипликативная неопределенность

    И так для нахождения Wu воспользуемся матлаб. Нам нужно построить Bode все возможных отклонений от номинального объекта управления, и потом построить передаточную функцию которая опишет все эти неопределенности:
    image
    Сделаем примерно по 4 прохода для каждого параметра и построим bode. В итоге получим такое:
    image
    Рис 15: Диграмма Боде неопределенностей

    Wu будет лежать выше этих линий. В матлаб есть tool который позволяем мышкой указать точки и по этим точкам строит передаточную функцию.

    Kод

    mf = ginput(20);
    magg = vpck(mf(:,2),mf(:,1));
    Wa = fitmag(magg);
    [A,B,C,D]=unpck(Wa);
    [Z,P,K]=ss2zp(A,B,C,D);
    Wu = zpk(Z,P,K)

    После введения точек старится кривая и предлагается ввести степень передаточной функции, введем степень 2.
    Вот что получилось:
    image
    Теперь определим W2, для этого построим Wt и Wu:
    Из графика видно что Wt больше Wu значит W2 = Wt.
    image
    Рис 16: Опредиление W2

    Дальше нам нужно в симулинке построить generalized plant как сделано ниже:
    image
    Рис 17: Блок схема Generalized plant в simulink

    И сохранить под именем, например g_plant.mdl
    Один важный момент:
    image — not proper tf, если мы ее оставим так то нам выдаст ошибку. По этому заменяем на image и потом добавим два нуля к выходу z2 с помощью “sderiv“.

    Реализация в матаб

    p = 2; % частота нулей в районе частоты Т функции
    [Am,Bm,Cm,Dm] = linmod(‘g_plant’);
    M = ltisys(Am,Bm,Cm,Dm);
    M = sderiv(M,2,[1/p 1]);
    M = sderiv(M,2,[1/p 1]);
    [gopt,Gcmod] = hinflmi(M,[1 1],0,0.01,[0,0,0]);
    [Ac,Bc,Cc,Dc] = ltiss(Gcmod);
    [Gc_z,Gc_p,Gc_k] = ss2zp(Ac,Bc,Cc,Dc);
    Gc_op = zpk(Gc_z,Gc_p,Gc_k)

    После выполнения этого кода получаем контроллер:
    image
    В принципе можно так и оставить, но обычно удаляют низко- и высокочастотные нули и полюсы. Таким образом мы уменьшаем порядок контроллера. И получаем следующий контроллер:
    image
    получим вот такой Hichols chart:
    image
    Рис 18: Hichols chart разомкнутой системы с полученным контроллером

    И Step response:
    image
    Рис 19: Переходная характеристика замкнутой системы с контроллером

    А теперь самое сладкое. Получился ли наш контроллер робастным или нет. Для этого эксперимента просто нужно изменить наш объект управления (коэффициенты к, р1, р2) и посмотреть step response и интересующими характеристиками, в нашем случае это перерегулирование, время регулирования для 5 % и время нарастания [2].
    imageimageimage
    Рис 20: Временные характеристики для разных параметров объект управления

    Построив 20 разных переходных характеристик, я выделил максимальные значения для каждой временной характеристики:
    • Максимальное переригулирование – 7.89 %
    • Макс время нарастания – 2.94 сек
    • Макс время регелирования 5% — 5.21 сек
    И о чудо, характеристики там где нужно не только для номинального обьекта, но и для интервала параметров.
    А сейчас сравним с классичиским ПИД контролером, и посмотрим стоила игра свеч или нет.

    ПИД расчитал pidtool для номинального обьекта управления (см выше):

    image
    Рис 21: Pidtool

    Получим такой контроллер:
    image

    Теперь H-infinity vs PID:

    image
    Рис 22: H-infinity vs PID

    Видно что ПИД не справляется с такими неопределенностями и ПХ выходит за заданные ограничения, в то время как робастные контроллер «жестко» держат систему в заданных интервалах перерегулирования, времени нарастания и регулирования.

    Что бы не удлинять статью и не утомлять читателя, опущу проверку характеристики 2-5 (ошибки), скажу, что в случае робастного контроллера все ошибки находятся ниже заданных, также был проведен тест с другими параметрами объекта:

    image

    Ошибки находились ниже заданных, что означает, что данный контроллер полностью справляется с поставленной задачей. В то время как ПИД не справился только с пунктом 4 (ошибка dp).

    На этом все по расчету контроллера. Критикуйте, спрашивайте.

    Ссылка на файл матлаб: drive.google.com/open?id=0B2bwDQSqccAZTWFhN3kxcy1SY0E

    Список литературы

    1. Guidelines for the Selection of Weighting Functions for H-Infinity Control
    2. it.mathworks.com/help/robust/examples/robustness-of-servo-controller-for-dc-motor.html

    РОБАСТНЫЙ АНАЛИЗ

    C.1 Введение

    Межлабораторные сравнительные испытания представляют собой особый анализ данных. В то время как большинство межлабораторных сравнительных испытаний представляют данные, подчиняющиеся унимодальному и приблизительно симметричному распределению в задачах проверки квалификации, большая часть наборов данных включает часть результатов, неожиданно далеко отстоящих от основного набора данных. Причины появления таких данных могут быть различными: например, появление новых, менее опытных участников проверки, появление новых и, возможно, менее точных методов измерений, непонимание некоторыми участниками инструкции или неправильная обработка образцов. Такие отличающиеся результаты (выбросы) могут быть весьма изменчивы, в этом случае применение традиционных статистических методов, в том числе вычисление среднего арифметического и стандартного отклонений, может дать недостоверные результаты.

    Провайдерам рекомендуется (см. 6.5.1) использовать статистические методы, устойчивые к выбросам. Большинство таких методов предложено в книгах по математической статистике, и многие из них успешно использованы в задачах проверки квалификации. Обычно робастные методы обеспечивают дополнительную устойчивость при обработке данных из асимметричных распределений с выбросами.

    В данном приложении описано несколько простых в применении методов, используемых в задачах проверки квалификации и имеющих различные возможности в отношении определения устойчивости оценок при наличии данных из загрязненных совокупностей (например, эффективности и пороговой точки). Методы представлены в порядке возрастания сложности (первый — самый простой, последний — самый сложный), и в порядке убывания эффективности, поэтому наиболее сложные оценки требуют доработки для повышения их эффективности.

    Примечание 1 — В приложении D приведена дополнительная информация об эффективности, пороговых точках и чувствительности к небольшим модам — трем важным показателям различных робастных методов определения оценки функционирования.

    Примечание 2 — Робастность является свойством алгоритма определения оценки, а не свойством полученных оценок, поэтому не совсем корректно называть средние значения и стандартные отклонения, рассчитанные с помощью такого алгоритма, робастными. Однако, чтобы избежать использования чрезмерно громоздких терминов, в настоящем стандарте применены термины «робастное среднее» и «робастное стандартное отклонение». Следует учитывать, что это означает оценки среднего или стандартного отклонения, полученные в соответствии с робастным алгоритмом.

    C.2 Простые устойчивые к выбросам оценки для среднего и стандартного отклонений совокупности

    C.2.1 Медиана

    Медиана является наиболее простой, высоко устойчивой к выбросам оценкой среднего для симметричного распределения. Обозначим медиану med(x). Для определения med(x) по совокупности из p данных необходимо:

    i) расположить p данных в порядке неубывания:

    x{1}, x{2}, …, x{p};

    ii) вычислить

    (C.1)

    C.2.2 Абсолютное отклонение от медианы MADe

    Абсолютное отклонение от медианы MADe(x) обеспечивает определение оценки стандартного отклонения генеральной совокупности для данных из нормального распределения и является высоко устойчивым при наличии выбросов. Для определения MADe(x) вычисляют:

    i) абсолютные значения разностей di(i = 1, …, p)

    di = |ximed(x)|; (C.2)

    ii) MADe(x)

    MADe(x) = 1,483 med(d). (C.3)

    Если у половины или большего количества участников результаты совпадают, то MADe(x) = 0, и следует использовать оценку n/QR в соответствии с C.2.3, стандартное отклонение, полученное после исключения выбросов, или процедуру, описанную в C.5.2.

    C.2.3 Нормированный межквартильный размах n/QR

    Данный метод определения робастной оценки стандартного отклонения аналогичен методу определения MADe(x). Эту оценку получить немного проще, поэтому ее часто используют в программах проверки квалификации. Данную оценку определяют как разность 75-го процентиля (или 3-го квартиля) и 25-го процентиля (или 1-го квартиля) результатов участника. Данную статистику называют нормированным межквартильным размахом n/QR и вычисляют по формуле

    n/QR(x) = 0,7413(Q3(x) — Q1(x)), (C.4)

    где Q1(x) — 25-й процентиль выборки xi(i = 1, 2, …, p);

    Q3(x) — 75-й процентиль выборки xi(i = 1, 2, …, p).

    Если 75-й и 25-й процентили совпадают, то n/QR = 0 [как и MADe(x)], а для вычисления робастного стандартного отклонения следует использовать альтернативную процедуру, такую как арифметическое стандартное отклонение (после исключения выбросов), или процедуру, описанную в C.5.2.

    Примечание 1 — Для расчета n/QR требуется сортировка данных только один раз в отличие от вычисления MADe, но n/QR имеет пороговую точку в 25% (см. приложение D), в то время как у MADe пороговая точка 50%. Поэтому MADe устойчива при значительно более высокой доле содержания выбросов, чем n/QR.

    Примечание 2 — При p < 30 обе оценки обладают заметным отрицательным смещением, неблагоприятно влияющим на оценки участников при проверке квалификации.

    Примечание 3 — Различные пакеты статистических программ используют различные алгоритмы расчета квартилей и, следовательно, могут давать оценки n/QR с некоторыми различиями.

    Примечание 4 — Пример использования робастных оценок приведен в E.3 приложения E.

    C.3 Алгоритм A

    C.3.1 Алгоритм A с итеративной шкалой

    Данный алгоритм дает робастные оценки среднего и стандартного отклонения на основе используемых данных.

    Для выполнения алгоритма A p данные располагают в порядке неубывания

    x{1}, x{2}, …, x{p}.

    Полученные по этим данным робастное среднее и робастное стандартное отклонения обозначают x* и s*.

    Вычисляют начальные значения для x* и s* по формулам:

    x* = med(xi)(i = 1, 2, …, p), (C.5)

    s* = 1,483 med|xix*|, (i = 1, 2, …, p). (C.6)

    Примечание 1 — Алгоритмы A и S, приведенные в настоящем приложении, соответствуют ГОСТ Р ИСО 5725-5 с добавлением критерия остановки: при совпадении до 3-го знака после запятой среднего и стандартного отклонения вычисления прекращают.

    Примечание 2 — В некоторых случаях более половины результатов xi будут идентичны (например, количество нитей в образцах ткани или количество электролитов в образцах сыворотки крови). В этом случае начальное значение s* = 0 и робастная процедура будут некорректными. Если начальное значение s* = 0, допустимо заменить выборочное стандартное отклонение после проверки всех очевидных выбросов, которые могут сделать стандартное отклонение неоправданно большим. Такую замену проводят только для начального значения s* и после этого итеративный алгоритм применяют в соответствии с описанием.

    Вычисляют новые значения x* и s*. Для этого вычисляют

    . (C.7)

    Для каждого xi(i = 1, 2, …, p) вычисляют

    (C.8)

    Вычисляют новые значения x* и s*

    , (C.9)

    , (C.10)

    где суммирование производят по i.

    Робастные оценки x* и s* получают на основе итеративных, то есть повторных вычислений x* и s* в соответствии с (C.7) — (C.10) до тех пор, пока процесс не начнет сходиться, то есть разности предыдущих и последующих значений x* и s* не станут пренебрежимо малы. Обычно итеративные вычисления прекращают при совпадении в предыдущих и последующих значениях трех знаков после запятой.

    Альтернативные критерии сходимости могут быть определены в соответствии с требованиями к плану эксперимента и к отчету по результатам проверки квалификации.

    Примечание — Примеры использования алгоритма A приведены в E.3 и E.4 приложения E.

    C.3.2 Варианты алгоритма A

    Итеративный алгоритм A, приведенный в C.3.1, имеет скромную разбивку (примерно 25% для больших наборов данных [14]) и начальную точку для s*, предложенную в C.3.1, для наборов данных, где MADe(x) = 0 может серьезно ухудшить устойчивость при наличии нескольких выбросов в наборе данных. Если в наборе данных ожидаемая доля выбросов составляет более 20% или если начальное значение s* подвержено неблагоприятному влиянию экстремальных выбросов, то следует рассмотреть следующие варианты:

    i) замена MADe на при MADe = 0 либо использование альтернативной оценки в соответствии с C.5.1 или арифметического стандартного отклонения (после исключения выбросов);

    ii) если при оценке робастное стандартное отклонение не используют, следует применять MADe [исправленное в соответствии с i)], и не изменяют s* во время итерации. Если при оценке используют робастное стандартное отклонение, заменяют s* в соответствии с C.5 оценкой Q и не изменяют s* во время итерации.

    Примечание — Вариант, приведенный в перечислении ii), улучшает пороговую точку алгоритма A до 50% [14], что позволяет применять алгоритм при наличии высокой доли выбросов.

    C.4 Алгоритм S

    Данный алгоритм применяют к стандартным отклонениям (или размахам), которые вычисляют, если участники представляют результаты m репликаций измерений измеряемой величины образца или в исследовании используют m идентичных образцов. Алгоритм позволяет получить робастное объединенное значение стандартных отклонений или размахов.

    Имеющиеся p стандартных отклонений или размахов располагают в порядке неубывания

    w{1}, w{2}, …, w{p}.

    Обозначим робастное объединенное значение w*, а v — число степеней свободы, соответствующее каждому wi. (Если wi — размах, то v = 1. Если wi — стандартное отклонение для m результатов испытаний, то v = m — 1.) Значения и определяют в соответствии с алгоритмом, приведенным в таблице C.1.

    Вычисляют начальное значение w*:

    w* = med(wi), (i = 1, 2, …, p). (C.11)

    Примечание — Если более половины wi имеют значения, равные нулю, то начальное значение w* равно нулю, а робастный метод является некорректным. Если начальное значение w* равно нулю, то после устранения выбросов, которые могут повлиять на выборочное среднее, заменяют стандартное отклонение объединенного среднего арифметического (или размах средних арифметических). Эту замену выполняют только для начального значения w*, после чего процедуру продолжают согласно описанию.

    Значение w* вычисляют следующим образом:

    . (C.12)

    Для каждого значения wi(i = 1, 2, …, p) вычисляют

    (C.13)

    Вычисляют новое значение w*

    . (C.14)

    Робастную оценку w* получают итеративным методом, вычисляя значение w* несколько раз, пока процесс не начнет сходиться. Сходимость считают достигнутой, если значения w* в последовательных итерациях совпадают в трех знаках после запятой.

    Примечание — Алгоритм S обеспечивает оценку стандартного отклонения генеральной совокупности, если оно получено по стандартным отклонениям из того же нормального распределения (и, следовательно, обеспечивает оценку стандартного отклонения повторяемости при выполнении предположений в соответствии с ГОСТ Р ИСО 5725-2).

    Таблица C.1

    Коэффициенты, необходимые для проведения

    робастного анализа: алгоритм S

    Число степеней свободы v

    Лимитирующий коэффициент 

    Поправочный коэффициент 

    1

    1,645

    1,097

    2

    1,517

    1,054

    3

    1,444

    1,039

    4

    1,395

    1,032

    5

    1,359

    1,027

    6

    1,332

    1,024

    7

    1,310

    1,021

    8

    1,292

    1,019

    9

    1,277

    1,018

    10

    1,264

    1,017

    Примечание — Значения и приведены в ГОСТ Р ИСО 5725-5.

    C.5 Сложные для вычислений робастные оценки: Q-метод и оценка Хампеля

    C.5.1 Обоснование оценок

    Робастные оценки среднего и стандартного отклонения генеральной совокупности, описанные в C.2 и C.3, используют в тех случаях, когда вычислительные ресурсы ограничены или когда требуется краткое обоснование статистических процедур. Эти процедуры оказались полезными в самых разных ситуациях, в том числе в программах проверки квалификации в новых областях исследований или при калибровке и в тех областях экономики, где проверка квалификации раньше не была доступна. Однако эти методы являются недостоверными в тех случаях, когда количество выбросов в результатах превышает 20%, или в случае бимодального (или мультимодального) распределения данных, и некоторые из них могут стать неприемлемо изменчивыми для небольшого количества участников. Кроме того, ни один из этих методов не может работать с данными репликаций измерений участников. В соответствии с ГОСТ ISO/IEC 17043 необходимо, чтобы эти ситуации были предусмотрены до проведения расчетов или выполнены в процессе анализа до проведения оценки функционирования участника, однако это не всегда возможно.

    Кроме того, некоторые робастные методы, описанные в C.2 и C.3, имеют низкую статистическую эффективность. Если количество участников менее 50, а робастное среднее и/или стандартное отклонение используют для определения индексов, то существует значимый риск неверной классификации участников при применении неэффективных статистических методов.

    Робастные методы, объединяющие высокую эффективность (то есть сравнительно низкую изменчивость) с возможностью работы с высокой долей выбросов в данных, обычно являются достаточно сложными и требуют серьезных вычислительных ресурсов, но эти методы представлены в литературе и международных стандартах. Некоторые из них обеспечивают получение дополнительных преимуществ, когда основное распределение данных является асимметричным или определенные результаты находятся ниже предела их обнаружения.

    Ниже приведены некоторые высокоэффективные методы определения оценок стандартного отклонения и параметра положения (среднего), которые показывают более низкую изменчивость, чем простые оценки, и полезны при использовании для данных с большой долей выбросов. Одну из описанных оценок можно применять для оценки стандартного отклонения воспроизводимости, если участники сообщают о большом количестве наблюдений.

    C.5.2 Определение робастного стандартного отклонения с использованием Q-метода и Qn-метода

    C.5.2.1 Оценка Qn [15] является высокоэффективной оценкой стандартного отклонения генеральной совокупности с разбивкой, которая становится несмещенной для данных нормального распределения (при условии отсутствия выбросов).

    Qn-метод учитывает единственный результат для каждого участника (включающий среднее или медиану репликаций измерений). Расчет основан на использовании попарных различий в наборе данных и поэтому не зависит от оценки среднего или медианы.

    Выполнение этого метода включает корректировки, позволяющие обеспечить несмещенность оценки для всех фактических объемов наборов данных.

    При вычислении Qn для набора данных (x1, x2, …, xp) с p результатами:

    i) вычисляют p(p — 1)/2 абсолютных разностей

    dij = |xixj| для i = 1, 2, …, p,

    j = i + 1, i + 2, …, p; (C.15)

    ii) для разностей dij используют обозначения

    d{1}, d{2}, …, d{p(p-1)/2; (C.16)

    iii) вычисляют

    , (C.17)

    где k — количество различных пар, выбранных из h объектов,

    где

    (C.18)

    iv) вычисляют Qn

    Qn = 2,2219d(k)bp, (C.19)

    где bp определяют по таблице C.2 для конкретного количества данных, если p > 12, bp вычисляют по формуле

    , (C.20)

    где

    (C.21)

    Примечание 1 — Коэффициент 2,2219 является поправочным, обеспечивающим несмещенность оценки стандартного отклонения для больших p. Поправочные коэффициенты bp для небольших значений p определяют по таблице C.2, а при p > 12 эти коэффициенты устанавливают в соответствии с [15], используя экстенсивное моделирование и последующее применение регрессионного анализа.

    Примечание 2 — Простой алгоритм, описанный выше, для больших наборов данных, например, при p > 1000, требует значительных вычислительных ресурсов. Для быстрой обработки опубликованы программы (см. [15]) для использования с более крупными наборами данных (на момент публикации приведена обработка данных с объемом выше 8000 за приемлемое время).

    Таблица C.2

    Поправочный коэффициент bp для 2 <= p <= 12

    p

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    12

    bp

    0,9937

    0,9937

    0,5132

    0,8440

    0,6122

    0,8588

    0,6699

    0,8734

    0,7201

    0,8891

    0,7574

    C.5.2.2 Q-метод позволяет получить высокоэффективную оценку стандартного отклонения результатов проверки квалификации, представленных различными лабораториями, с разбивкой. Q-метод не является устойчивым не только при наличии выбросов, но и в той ситуации, когда большая часть результатов испытаний равны между собой, например, когда результаты представляют собой дискретные числа или при округлении данных. В такой ситуации другие подобные методы не следует применять, поскольку многие разности равны нулю.

    Q-метод можно использовать для проверки квалификации как в случае предоставления участником единственного результата (в виде среднего и медианы репликаций измерений), так и результатов репликаций. Прямое использование репликаций измерений в вычислениях повышает эффективность метода.

    Расчет основан на использовании разностей пар в наборе данных, и таким образом оценка не зависит от оценки среднего или медианы данных. Метод называют Q-методом, или методом Хампеля, если его используют вместе с алгоритмом конечных шагов для определения оценки Хампеля, описанной в C.5.3.3.

    Обозначим результаты измерений участников, сгруппированные по лабораториям

    .

    Кумулятивная функция распределения абсолютных значений разностей результатов участников имеет следующий вид:

    , (C.22)

    где — индикаторная функция.

    Обозначим точки разрыва функции H1(x):

    x1, …, xr, где x1 < x2 < … < xr.

    Значения функции в точках x1, …, xr

    (C.23)

    Пусть G1(0) = 0.

    Значения функции G1(x) для x вне интервала [0, xr] вычисляют с помощью линейной интерполяции между точками разрыва 0 <= x1 < x2 < … < xr.

    Робастное стандартное отклонение s* результатов испытаний для различных лабораторий имеет вид:

    , (C.24)

    где H1(0) вычисляют аналогично формуле (C.22) и H1(0) = 0 в случае точного совпадения данных, и — квантиль стандартного нормального распределения уровня q.

    Примечание 1 — Этот алгоритм не зависит от среднего, он может быть использован либо вместе со значением, полученным по объединенным результатам участников, или в соответствии с установленным опорным значением.

    Примечание 2 — Другие варианты Q-метода, позволяющие получить робастную оценку стандартных отклонений воспроизводимости и повторяемости, приведены в [14], [15].

    Примечание 3 — Теоретические основы Q-метода, включая его асимптотическую эффективность и разбивку на конечное число выборок, описаны в [16] и [15].

    Примечание 4 — Если исходные данные участников представлены единственным результатом измерений, полученным с помощью одного установленного метода измерений, робастное стандартное отклонение является оценкой стандартного отклонения воспроизводимости, как и в (C.21).

    Примечание 5 — Стандартное отклонение воспроизводимости не обязательно является наиболее подходящим стандартным отклонением для использования в проверке квалификации, так как это, как правило, оценка разброса единственных результатов, а не оценка разброса средних или медиан результатов репликаций каждого участника. Однако разброс средних или медиан результатов репликаций лишь немного менее разброса единственных результатов различных лабораторий, если отношение стандартного отклонения воспроизводимости к стандартному отклонению повторяемости более двух. Если это отношение менее двух, для определения оценок при проверке квалификации может быть использована замена стандартного отклонения воспроизводимости sR скорректированным значением

    ,

    где m — количество репликаций;

    — дисперсия повторяемости, вычисленная в соответствии с [17], или можно использовать среднее значение репликаций измерений участника Q-метода.

    Примечание 6 — Примечание 5 применяют только в том случае, если индексы определяют на основе средних или медиан результатов репликаций. Если репликации проводят вслепую, индексы следует рассчитывать для каждой репликации. В этом случае стандартное отклонение воспроизводимости является наиболее подходящим стандартным отклонением.

    Примечание 7 — Пример применения Q-метода приведен в E.3 приложения E.

    C.5.3 Определение робастного среднего, используемого в оценке Хампеля

    C.5.3.1 Оценка Хампеля является высокоустойчивой высокоэффективной оценкой общего среднего всех результатов различных лабораторий. Поскольку формулы вычисления оценки Хампеля не существует, ниже приведены два алгоритма получения этой оценки. Первый из них является более простым, но может привести к отклонениям результатов при выполнении. Второй алгоритм обеспечивает получение однозначных результатов, зависящих только от базового стандартного отклонения.

    C.5.3.2 Далее приведены вычисления, обеспечивающие получение итеративной взвешенной оценки Хампеля, для параметра положения.

    i) Пусть x1, x2, …, xp — данные.

    ii) Пусть x* — медиана med(x) (см. C.2.1).

    iii) Пусть s* — соответствующая робастная оценка стандартного отклонения, например, MADe, Qn или s* в соответствии с Q-методом.

    iv) Для каждой точки xi вычисляют qi

    .

    v) Вычисляют вес wi

    vi) Пересчитывают x*

    .

    vii) Повторяют действия в соответствии с перечислениями iv) — vi) до тех пор, пока значения x* не начнут сходиться. Сходимость считают достаточной, если разность x* в двух последних итерациях станет менее , что соответствует приблизительно 1% стандартной погрешности x*. Могут быть использованы и другие более точные критерии сходимости.

    Данный алгоритм получения оценки Хампеля не гарантирует получение единственной и наилучшей оценки, так как неудачный выбор начального значения x* и/или s* может привести к исключению важной части набора данных. Провайдеру следует предпринять соответствующие меры для проверки возможности получения неудачного результата или обеспечить однозначные правила выбора параметра положения. Наиболее общим правилом является выбор параметра положения, максимально близкого к медиане. Анализ результатов для подтверждения того, что большая часть данных не выходит за пределы области |q| > 4,5, может также помочь в принятии правильного решения.

    Примечание 1 — Определение оценки Хампеля для данных из нормального распределения обладает эффективностью, приблизительно равной 96%.

    Примечание 2 — Примеры выполнения этого алгоритма приведены в E.3 приложения E.

    Примечание 3 — Эффективность и устойчивость к выбросам оценки Хампеля могут быть повышены с помощью изменения весовой функции. Общая форма весовой функции имеет вид:

    где a, b и c — регулируемые параметры. Для приведенного алгоритма a = 1,5, b = 3,0 и c = 4,5. Более высокая эффективность достигается за счет увеличения области изменений q. Повышения устойчивости к выбросам или изменениям режимов достигают за счет уменьшения области изменений q.

    C.5.3.3 Ниже приведен алгоритм конечных шагов, позволяющий получить оценку Хампеля для параметра положения [14].

    Вычисляют средние арифметические y1, y2, …, yp.

    Вычисляют робастное среднее x* как корень уравнения

    , (C.25)

    где

    (C.26)

    s* — робастное стандартное отклонение, полученное Q-методом.

    Точное решение может быть получено за конечное число шагов, без итерации, используя свойство, при котором как функция x* является частично линейной, имея в виду точки интерполяции в левой стороне уравнения (C.25).

    Вычисляют все точки интерполяции:

    — для 1-го значения y1:

    d1 = y1 — 4,5·s*, d2 = y1 — 3·s*, d3 = y1 — 1,5·s*,

    d4 = y1 + 1,5·s*, d5 = y1 + 3·s*, d6 = y1 + 4,5s*;

    — для 2-го значения y2:

    d7 = y2 — 4,5·s*, d8 = y2 — 3·s*, d9 = y2 — 1,5·s*,

    d10 = y2 + 1,5·s*, d11 = y2 + 3·s*, d12 = y2 + 4,5·s*;

    — и так далее для всех y3, …, yp.

    Располагают d1, d2, d3, …, dp в порядке неубывания d{1}, d{2}, d{3}, …, d{6·p}.

    Затем для каждого m = 1, …, (6·p — 1) вычисляют

    и проверяют, являются ли следующие условия:

    (i) если pm = 0, то d{m} — решение уравнения (C.25);

    (ii) если pm+1 = 0, то, d{m+1} — решение уравнения (C.25);

    (iii) если pm·pm+1 < 0, то — решение уравнения (C.25).

    Пусть S — множество всех решений уравнения (C.25).

    Решением является ближайшая медиана, используемая в качестве параметра положения x*, то есть

    .

    Могут существовать несколько решений. Если существуют два решения, наиболее близких к медиане, или если не существует никакого решения вообще, то в качестве параметра положения x* используют медиану.

    Примечание 1 — Эта оценка Хампеля для данных из нормального распределения обладает эффективностью, приблизительно равной 96%.

    Примечание 2 — При использовании этого метода результаты лабораторий, отличающиеся от среднего более чем на 4,5 стандартных отклонений воспроизводимости, не оказывают никакого влияния на результат, то есть их рассматривают как выбросы.

    C.5.4 Метод Q/Хампеля

    Метод Q/Хампеля использует Q-метод, описанный в C.5.3.2, для вычисления робастного стандартного отклонения s* и алгоритм конечных шагов для оценки Хампеля, описанный в C.5.3.3, для вычисления параметра положения x*.

    Если участники сообщают много наблюдений для вычисления робастного стандартного отклонения воспроизводимости sR, используют Q-метод, описанный в C.5.3.2. Для вычисления робастного стандартного отклонения повторяемости sr применяют 2-й алгоритм, использующий парные разности в пределах лаборатории.

    Примечание — Веб-приложения для метода Q/Хампеля приведены в [18].

    C.6 Другие робастные методы

    Методы, описанные в настоящем приложении, не представляют собой целостную совокупность всех подходов. Ни один из них не является гарантированно оптимальным во всех ситуациях. По усмотрению провайдера могут быть использованы другие робастные методы при условии анализа их эффективности и всех остальных свойств, соответствующих определенным требованиям программы проверки квалификации.

    Приложение D

    (справочное)

    Скачать документ целиком в формате PDF

    Надежна ли ваша стандартная ошибка?


      Перевод


      Ссылка на автора

    Практическое руководство по выбору правильной спецификации

    Управляющее резюме

    • Проблема:Стандартные ошибки по умолчанию (SE), сообщаемые Stata, R и Python, являются правильными только при очень ограниченных обстоятельствах. В частности, эти программы предполагают, что ваша ошибка регрессии распределена независимо и одинаково. На самом деле это не так, что приводит к серьезным ошибкам типа 1 и типа 2 в тестах гипотез.
    • Лечение 1:если вы используете OLS, вы должны кластеризовать SE по двум параметрам: индивидуально по годам.
    • Лечение 2:если вы используете FE (фиксированный эффект), вы должны кластеризовать SE только на 1 измерение: индивидуальное.
    • коды: Вот это ссылка на коды Stata, R и SAS для реализации кластеризации SE.

    Если вам интересно об этой проблеме, пожалуйста, продолжайте читать. В противном случае, увидимся в следующий раз :)

    План на день

    В этом посте я собрал бы 69-страничный документ о здравой стандартной ошибке в чит-лист. Эта бумага Опубликованный профессором Митчеллом Петерсеном в 2009 году, на сегодняшний день собрал более 7 879 ссылок. Это остается библией для выбора правильной здравой стандартной ошибки.

    Проблема

    Обычная практика

    В любом классе Stats 101 ваш профессор мог бы научить вас набирать «reg Y X» в Stata или R:

    Где я обозначаю человека; т обозначает метку времени т

    Вы приступаете к проверке своей гипотезы с указанными точечными оценками и стандартной ошибкой. Но в 99% случаев это было бы неправильно.

    Ловушка

    Чтобы OLS давал объективные и непротиворечивые оценки, нам нужно, чтобы термин ошибки epsilon был распределен независимо и одинаково:

    Независимый означает, что никакие серийные или взаимные корреляции не допускаются:

    • Последовательные корреляции:для одного и того же человека остатки в разные периоды времени коррелируют;
    • Кросс-корреляция:различные индивидуальные остатки коррелируются внутри и / или между периодами.

    Одинаковый означает, что все остатки имеют одну и ту же дисперсию (например, гомоскедастичность).

    Визуализация проблемы

    Давайте визуализируем i.i.d. предположение в дисперсионно-ковариационной матрице.

    • Нет последовательной корреляции:все недиагональные записи в красных пузырьках должны быть 0;
    • Нет взаимной корреляции:все диагональные записи должны быть одинаковыми — все записи в зеленых прямоугольниках должны быть 0;
    • гомоскедастичность:диагональные записи должны быть одинаковыми константами.

    Что не так, если вы используете SE по умолчанию без I.I.D. Ошибки?

    Вывод выражения SE:

    Стандартная ошибка по умолчанию — последняя строка в (3). Но чтобы получить от 1-й до последней строки, нам нужно сделать дополнительные предположения:

    • Нам нужно предположение о независимости, чтобы переместить нас с 1-й строки на 2-ю в (3). Визуально все записи в зеленых прямоугольниках И все недиагональные записи в красных пузырьках должны быть 0.
    • Нам нужно одинаково распределенное предположение, чтобы переместить нас со 2-й строки на 3-ю. Визуально все диагональные элементы должны быть точно такими же.

    По умолчанию SE прав в ОЧЕНЬ ограниченных обстоятельствах!

    Цена неправильного

    Мы не знаем, будет ли заявленная SE переоценена или недооценена истинная SE. Таким образом, мы можем получить:

    • Статистически значимый результат, когда эффекта нет в реальности. В результате команде разработчиков программного обеспечения и продукта может потребоваться несколько часов работы над каким-либо прототипом, который никак не повлияет на итоговую прибыль компании.
    • Статистически незначимый результат, когда в действительности наблюдается значительный эффект. Это могло быть для тебя перерывом. Упущенная возможность Очень плохо :(

    На самом деле ложный позитив более вероятен.Там нет недостатка в новичках машинного обучения студентов, заявляющих, что они нашли какой-то шаблон / сигнал, чтобы побить рынок. Однако после развертывания их модели работают катастрофически. Частично причина в том, что они никогда не думали о последовательной или взаимной корреляции остатков.

    Когда это происходит, стандартная ошибка по умолчанию может быть в 11 раз меньше, чем истинная стандартная ошибка, что приводит к серьезной переоценке статистической значимости их сигнала.

    Надежная стандартная ошибка на помощь!

    Правильно заданная надежная стандартная ошибка избавит от смещения или, по крайней мере, улучшит его. Вооружившись серьезной стандартной ошибкой, вы можете безопасно перейти к этапу вывода.

    Есть много надежных стандартных ошибок. Выбор неправильного средства может усугубить проблему!

    Какую робастную стандартную ошибку я должен использовать?

    Это зависит от дисперсионно-ковариантной структуры. Спросите себя, страдает ли ваш остаток от взаимной корреляции, последовательной корреляции или от того и другого? Напомним, что:

    • Кросс-корреляция:в течение одного и того же периода времени разные индивидуальные остатки могут быть коррелированы;
    • Последовательная корреляция:для одного и того же лица остатки за разные периоды времени могут быть коррелированы

    Случай 1: Термин ошибки имеет отдельный конкретный компонент

    Предположим, что это истинное состояние мира:

    При условии независимости от отдельных лиц, правильная стандартная ошибка будет:

    Сравните это с (3), у нас есть дополнительный член, который обведен красным. Превышение или недооценка сообщаемой стандартной ошибки OLS истинной стандартной ошибки зависит от знака коэффициентов корреляции, который затем увеличивается на число периодов времени T.

    Где практическое руководство?

    Основываясь на большем количестве теории и результатов моделирования, Петерсен показывает, что:

    Вы не должны использовать:

    • Стандартные ошибки Fama-MacBeth:он предназначен для работы с последовательной корреляцией, а не с перекрестной корреляцией между отдельными фирмами.
    • Стандартные ошибки Ньюи-Уэста:он предназначен для учета последовательной корреляции неизвестной формы в остатках одного временного ряда.

    Вы должны использовать:

    • Стандартные кластерные ошибки:в частности, вы должны объединить вашу стандартную ошибку по фирмам. Обратитесь к концу поста для кодов.

    Случай 2: Термин ошибки имеет компонент, зависящий от времени

    Предположим, что это истинное состояние мира:

    Правильная стандартная ошибка по существу такая же, как (7), если вы поменяете N и T.

    Вы должны использовать:

    • Стандартные ошибки Fama-MacBeth:так как это то, что он создан для Обратитесь к концу поста для кода Stata.

    Случай 3: Термин «ошибка» имеет как твердое, так и временное влияние

    Предположим, что это истинное состояние мира:

    Вы должны использовать:

    • Кластерная стандартная ошибка:кластеризацию следует проводить по двум параметрам — по годам. Обратите внимание, что это не настоящие стандартные ошибки, они просто создают менее предвзятую стандартную ошибку. Смещение становится более выраженным, когда в одном измерении всего несколько кластеров.

    коды

    Подробные инструкции и тестовые данные Stata, R и SAS от Petersen можно найти Вот, Для моей собственной записи я собираю список кода Stata здесь:

    Случай 1: кластеризация по 1 измерению

    Регресс зависимая_вариантная независимая_вариабельная, надежный кластер (cluster_variable)

    Случай 2: Фама-Макбет

    tsset firm_identifier time_identifier

    fm independent_variable independent_variables, byfm (by_variable)

    Случай 3: кластеризация по двум измерениям

    cluster2 зависимая_ переменная independent_variables, fcluster (cluster_variable_one) tcluster (cluster_variable_two)

    Случай 4: фиксированный эффект + кластеризация

    xtreg variable_variable independent_variables, надежный кластер (cluster_variable_one)

    Наслаждайтесь своим недавно найденным крепким миром!

    Кредит Фотографии: Хорошие Новости Филиппины

    До следующего раза :)

    РОБАСТНЫЙ АНАЛИЗ

    C.1 Введение

    Межлабораторные сравнительные испытания представляют собой особый анализ данных. В то время как большинство межлабораторных сравнительных испытаний представляют данные, подчиняющиеся унимодальному и приблизительно симметричному распределению в задачах проверки квалификации, большая часть наборов данных включает часть результатов, неожиданно далеко отстоящих от основного набора данных. Причины появления таких данных могут быть различными: например, появление новых, менее опытных участников проверки, появление новых и, возможно, менее точных методов измерений, непонимание некоторыми участниками инструкции или неправильная обработка образцов. Такие отличающиеся результаты (выбросы) могут быть весьма изменчивы, в этом случае применение традиционных статистических методов, в том числе вычисление среднего арифметического и стандартного отклонений, может дать недостоверные результаты.

    Провайдерам рекомендуется (см. 6.5.1) использовать статистические методы, устойчивые к выбросам. Большинство таких методов предложено в книгах по математической статистике, и многие из них успешно использованы в задачах проверки квалификации. Обычно робастные методы обеспечивают дополнительную устойчивость при обработке данных из асимметричных распределений с выбросами.

    В данном приложении описано несколько простых в применении методов, используемых в задачах проверки квалификации и имеющих различные возможности в отношении определения устойчивости оценок при наличии данных из загрязненных совокупностей (например, эффективности и пороговой точки). Методы представлены в порядке возрастания сложности (первый — самый простой, последний — самый сложный), и в порядке убывания эффективности, поэтому наиболее сложные оценки требуют доработки для повышения их эффективности.

    Примечание 1 — В приложении D приведена дополнительная информация об эффективности, пороговых точках и чувствительности к небольшим модам — трем важным показателям различных робастных методов определения оценки функционирования.

    Примечание 2 — Робастность является свойством алгоритма определения оценки, а не свойством полученных оценок, поэтому не совсем корректно называть средние значения и стандартные отклонения, рассчитанные с помощью такого алгоритма, робастными. Однако, чтобы избежать использования чрезмерно громоздких терминов, в настоящем стандарте применены термины «робастное среднее» и «робастное стандартное отклонение». Следует учитывать, что это означает оценки среднего или стандартного отклонения, полученные в соответствии с робастным алгоритмом.

    C.2 Простые устойчивые к выбросам оценки для среднего и стандартного отклонений совокупности

    C.2.1 Медиана

    Медиана является наиболее простой, высоко устойчивой к выбросам оценкой среднего для симметричного распределения. Обозначим медиану med(x). Для определения med(x) по совокупности из p данных необходимо:

    i) расположить p данных в порядке неубывания:

    x{1}, x{2}, …, x{p};

    ii) вычислить

    (C.1)

    C.2.2 Абсолютное отклонение от медианы MADe

    Абсолютное отклонение от медианы MADe(x) обеспечивает определение оценки стандартного отклонения генеральной совокупности для данных из нормального распределения и является высоко устойчивым при наличии выбросов. Для определения MADe(x) вычисляют:

    i) абсолютные значения разностей di(i = 1, …, p)

    di = |ximed(x)|; (C.2)

    ii) MADe(x)

    MADe(x) = 1,483 med(d). (C.3)

    Если у половины или большего количества участников результаты совпадают, то MADe(x) = 0, и следует использовать оценку n/QR в соответствии с C.2.3, стандартное отклонение, полученное после исключения выбросов, или процедуру, описанную в C.5.2.

    C.2.3 Нормированный межквартильный размах n/QR

    Данный метод определения робастной оценки стандартного отклонения аналогичен методу определения MADe(x). Эту оценку получить немного проще, поэтому ее часто используют в программах проверки квалификации. Данную оценку определяют как разность 75-го процентиля (или 3-го квартиля) и 25-го процентиля (или 1-го квартиля) результатов участника. Данную статистику называют нормированным межквартильным размахом n/QR и вычисляют по формуле

    n/QR(x) = 0,7413(Q3(x) — Q1(x)), (C.4)

    где Q1(x) — 25-й процентиль выборки xi(i = 1, 2, …, p);

    Q3(x) — 75-й процентиль выборки xi(i = 1, 2, …, p).

    Если 75-й и 25-й процентили совпадают, то n/QR = 0 [как и MADe(x)], а для вычисления робастного стандартного отклонения следует использовать альтернативную процедуру, такую как арифметическое стандартное отклонение (после исключения выбросов), или процедуру, описанную в C.5.2.

    Примечание 1 — Для расчета n/QR требуется сортировка данных только один раз в отличие от вычисления MADe, но n/QR имеет пороговую точку в 25% (см. приложение D), в то время как у MADe пороговая точка 50%. Поэтому MADe устойчива при значительно более высокой доле содержания выбросов, чем n/QR.

    Примечание 2 — При p < 30 обе оценки обладают заметным отрицательным смещением, неблагоприятно влияющим на оценки участников при проверке квалификации.

    Примечание 3 — Различные пакеты статистических программ используют различные алгоритмы расчета квартилей и, следовательно, могут давать оценки n/QR с некоторыми различиями.

    Примечание 4 — Пример использования робастных оценок приведен в E.3 приложения E.

    C.3 Алгоритм A

    C.3.1 Алгоритм A с итеративной шкалой

    Данный алгоритм дает робастные оценки среднего и стандартного отклонения на основе используемых данных.

    Для выполнения алгоритма A p данные располагают в порядке неубывания

    x{1}, x{2}, …, x{p}.

    Полученные по этим данным робастное среднее и робастное стандартное отклонения обозначают x* и s*.

    Вычисляют начальные значения для x* и s* по формулам:

    x* = med(xi)(i = 1, 2, …, p), (C.5)

    s* = 1,483 med|xix*|, (i = 1, 2, …, p). (C.6)

    Примечание 1 — Алгоритмы A и S, приведенные в настоящем приложении, соответствуют ГОСТ Р ИСО 5725-5 с добавлением критерия остановки: при совпадении до 3-го знака после запятой среднего и стандартного отклонения вычисления прекращают.

    Примечание 2 — В некоторых случаях более половины результатов xi будут идентичны (например, количество нитей в образцах ткани или количество электролитов в образцах сыворотки крови). В этом случае начальное значение s* = 0 и робастная процедура будут некорректными. Если начальное значение s* = 0, допустимо заменить выборочное стандартное отклонение после проверки всех очевидных выбросов, которые могут сделать стандартное отклонение неоправданно большим. Такую замену проводят только для начального значения s* и после этого итеративный алгоритм применяют в соответствии с описанием.

    Вычисляют новые значения x* и s*. Для этого вычисляют

    . (C.7)

    Для каждого xi(i = 1, 2, …, p) вычисляют

    (C.8)

    Вычисляют новые значения x* и s*

    , (C.9)

    , (C.10)

    где суммирование производят по i.

    Робастные оценки x* и s* получают на основе итеративных, то есть повторных вычислений x* и s* в соответствии с (C.7) — (C.10) до тех пор, пока процесс не начнет сходиться, то есть разности предыдущих и последующих значений x* и s* не станут пренебрежимо малы. Обычно итеративные вычисления прекращают при совпадении в предыдущих и последующих значениях трех знаков после запятой.

    Альтернативные критерии сходимости могут быть определены в соответствии с требованиями к плану эксперимента и к отчету по результатам проверки квалификации.

    Примечание — Примеры использования алгоритма A приведены в E.3 и E.4 приложения E.

    C.3.2 Варианты алгоритма A

    Итеративный алгоритм A, приведенный в C.3.1, имеет скромную разбивку (примерно 25% для больших наборов данных [14]) и начальную точку для s*, предложенную в C.3.1, для наборов данных, где MADe(x) = 0 может серьезно ухудшить устойчивость при наличии нескольких выбросов в наборе данных. Если в наборе данных ожидаемая доля выбросов составляет более 20% или если начальное значение s* подвержено неблагоприятному влиянию экстремальных выбросов, то следует рассмотреть следующие варианты:

    i) замена MADe на при MADe = 0 либо использование альтернативной оценки в соответствии с C.5.1 или арифметического стандартного отклонения (после исключения выбросов);

    ii) если при оценке робастное стандартное отклонение не используют, следует применять MADe [исправленное в соответствии с i)], и не изменяют s* во время итерации. Если при оценке используют робастное стандартное отклонение, заменяют s* в соответствии с C.5 оценкой Q и не изменяют s* во время итерации.

    Примечание — Вариант, приведенный в перечислении ii), улучшает пороговую точку алгоритма A до 50% [14], что позволяет применять алгоритм при наличии высокой доли выбросов.

    C.4 Алгоритм S

    Данный алгоритм применяют к стандартным отклонениям (или размахам), которые вычисляют, если участники представляют результаты m репликаций измерений измеряемой величины образца или в исследовании используют m идентичных образцов. Алгоритм позволяет получить робастное объединенное значение стандартных отклонений или размахов.

    Имеющиеся p стандартных отклонений или размахов располагают в порядке неубывания

    w{1}, w{2}, …, w{p}.

    Обозначим робастное объединенное значение w*, а v — число степеней свободы, соответствующее каждому wi. (Если wi — размах, то v = 1. Если wi — стандартное отклонение для m результатов испытаний, то v = m — 1.) Значения и определяют в соответствии с алгоритмом, приведенным в таблице C.1.

    Вычисляют начальное значение w*:

    w* = med(wi), (i = 1, 2, …, p). (C.11)

    Примечание — Если более половины wi имеют значения, равные нулю, то начальное значение w* равно нулю, а робастный метод является некорректным. Если начальное значение w* равно нулю, то после устранения выбросов, которые могут повлиять на выборочное среднее, заменяют стандартное отклонение объединенного среднего арифметического (или размах средних арифметических). Эту замену выполняют только для начального значения w*, после чего процедуру продолжают согласно описанию.

    Значение w* вычисляют следующим образом:

    . (C.12)

    Для каждого значения wi(i = 1, 2, …, p) вычисляют

    (C.13)

    Вычисляют новое значение w*

    . (C.14)

    Робастную оценку w* получают итеративным методом, вычисляя значение w* несколько раз, пока процесс не начнет сходиться. Сходимость считают достигнутой, если значения w* в последовательных итерациях совпадают в трех знаках после запятой.

    Примечание — Алгоритм S обеспечивает оценку стандартного отклонения генеральной совокупности, если оно получено по стандартным отклонениям из того же нормального распределения (и, следовательно, обеспечивает оценку стандартного отклонения повторяемости при выполнении предположений в соответствии с ГОСТ Р ИСО 5725-2).

    Таблица C.1

    Коэффициенты, необходимые для проведения

    робастного анализа: алгоритм S

    Число степеней свободы v

    Лимитирующий коэффициент 

    Поправочный коэффициент 

    1

    1,645

    1,097

    2

    1,517

    1,054

    3

    1,444

    1,039

    4

    1,395

    1,032

    5

    1,359

    1,027

    6

    1,332

    1,024

    7

    1,310

    1,021

    8

    1,292

    1,019

    9

    1,277

    1,018

    10

    1,264

    1,017

    Примечание — Значения и приведены в ГОСТ Р ИСО 5725-5.

    C.5 Сложные для вычислений робастные оценки: Q-метод и оценка Хампеля

    C.5.1 Обоснование оценок

    Робастные оценки среднего и стандартного отклонения генеральной совокупности, описанные в C.2 и C.3, используют в тех случаях, когда вычислительные ресурсы ограничены или когда требуется краткое обоснование статистических процедур. Эти процедуры оказались полезными в самых разных ситуациях, в том числе в программах проверки квалификации в новых областях исследований или при калибровке и в тех областях экономики, где проверка квалификации раньше не была доступна. Однако эти методы являются недостоверными в тех случаях, когда количество выбросов в результатах превышает 20%, или в случае бимодального (или мультимодального) распределения данных, и некоторые из них могут стать неприемлемо изменчивыми для небольшого количества участников. Кроме того, ни один из этих методов не может работать с данными репликаций измерений участников. В соответствии с ГОСТ ISO/IEC 17043 необходимо, чтобы эти ситуации были предусмотрены до проведения расчетов или выполнены в процессе анализа до проведения оценки функционирования участника, однако это не всегда возможно.

    Кроме того, некоторые робастные методы, описанные в C.2 и C.3, имеют низкую статистическую эффективность. Если количество участников менее 50, а робастное среднее и/или стандартное отклонение используют для определения индексов, то существует значимый риск неверной классификации участников при применении неэффективных статистических методов.

    Робастные методы, объединяющие высокую эффективность (то есть сравнительно низкую изменчивость) с возможностью работы с высокой долей выбросов в данных, обычно являются достаточно сложными и требуют серьезных вычислительных ресурсов, но эти методы представлены в литературе и международных стандартах. Некоторые из них обеспечивают получение дополнительных преимуществ, когда основное распределение данных является асимметричным или определенные результаты находятся ниже предела их обнаружения.

    Ниже приведены некоторые высокоэффективные методы определения оценок стандартного отклонения и параметра положения (среднего), которые показывают более низкую изменчивость, чем простые оценки, и полезны при использовании для данных с большой долей выбросов. Одну из описанных оценок можно применять для оценки стандартного отклонения воспроизводимости, если участники сообщают о большом количестве наблюдений.

    C.5.2 Определение робастного стандартного отклонения с использованием Q-метода и Qn-метода

    C.5.2.1 Оценка Qn [15] является высокоэффективной оценкой стандартного отклонения генеральной совокупности с разбивкой, которая становится несмещенной для данных нормального распределения (при условии отсутствия выбросов).

    Qn-метод учитывает единственный результат для каждого участника (включающий среднее или медиану репликаций измерений). Расчет основан на использовании попарных различий в наборе данных и поэтому не зависит от оценки среднего или медианы.

    Выполнение этого метода включает корректировки, позволяющие обеспечить несмещенность оценки для всех фактических объемов наборов данных.

    При вычислении Qn для набора данных (x1, x2, …, xp) с p результатами:

    i) вычисляют p(p — 1)/2 абсолютных разностей

    dij = |xixj| для i = 1, 2, …, p,

    j = i + 1, i + 2, …, p; (C.15)

    ii) для разностей dij используют обозначения

    d{1}, d{2}, …, d{p(p-1)/2; (C.16)

    iii) вычисляют

    , (C.17)

    где k — количество различных пар, выбранных из h объектов,

    где

    (C.18)

    iv) вычисляют Qn

    Qn = 2,2219d(k)bp, (C.19)

    где bp определяют по таблице C.2 для конкретного количества данных, если p > 12, bp вычисляют по формуле

    , (C.20)

    где

    (C.21)

    Примечание 1 — Коэффициент 2,2219 является поправочным, обеспечивающим несмещенность оценки стандартного отклонения для больших p. Поправочные коэффициенты bp для небольших значений p определяют по таблице C.2, а при p > 12 эти коэффициенты устанавливают в соответствии с [15], используя экстенсивное моделирование и последующее применение регрессионного анализа.

    Примечание 2 — Простой алгоритм, описанный выше, для больших наборов данных, например, при p > 1000, требует значительных вычислительных ресурсов. Для быстрой обработки опубликованы программы (см. [15]) для использования с более крупными наборами данных (на момент публикации приведена обработка данных с объемом выше 8000 за приемлемое время).

    Таблица C.2

    Поправочный коэффициент bp для 2 <= p <= 12

    p

    2

    3

    4

    5

    6

    7

    8

    9

    10

    11

    12

    bp

    0,9937

    0,9937

    0,5132

    0,8440

    0,6122

    0,8588

    0,6699

    0,8734

    0,7201

    0,8891

    0,7574

    C.5.2.2 Q-метод позволяет получить высокоэффективную оценку стандартного отклонения результатов проверки квалификации, представленных различными лабораториями, с разбивкой. Q-метод не является устойчивым не только при наличии выбросов, но и в той ситуации, когда большая часть результатов испытаний равны между собой, например, когда результаты представляют собой дискретные числа или при округлении данных. В такой ситуации другие подобные методы не следует применять, поскольку многие разности равны нулю.

    Q-метод можно использовать для проверки квалификации как в случае предоставления участником единственного результата (в виде среднего и медианы репликаций измерений), так и результатов репликаций. Прямое использование репликаций измерений в вычислениях повышает эффективность метода.

    Расчет основан на использовании разностей пар в наборе данных, и таким образом оценка не зависит от оценки среднего или медианы данных. Метод называют Q-методом, или методом Хампеля, если его используют вместе с алгоритмом конечных шагов для определения оценки Хампеля, описанной в C.5.3.3.

    Обозначим результаты измерений участников, сгруппированные по лабораториям

    .

    Кумулятивная функция распределения абсолютных значений разностей результатов участников имеет следующий вид:

    , (C.22)

    где — индикаторная функция.

    Обозначим точки разрыва функции H1(x):

    x1, …, xr, где x1 < x2 < … < xr.

    Значения функции в точках x1, …, xr

    (C.23)

    Пусть G1(0) = 0.

    Значения функции G1(x) для x вне интервала [0, xr] вычисляют с помощью линейной интерполяции между точками разрыва 0 <= x1 < x2 < … < xr.

    Робастное стандартное отклонение s* результатов испытаний для различных лабораторий имеет вид:

    , (C.24)

    где H1(0) вычисляют аналогично формуле (C.22) и H1(0) = 0 в случае точного совпадения данных, и — квантиль стандартного нормального распределения уровня q.

    Примечание 1 — Этот алгоритм не зависит от среднего, он может быть использован либо вместе со значением, полученным по объединенным результатам участников, или в соответствии с установленным опорным значением.

    Примечание 2 — Другие варианты Q-метода, позволяющие получить робастную оценку стандартных отклонений воспроизводимости и повторяемости, приведены в [14], [15].

    Примечание 3 — Теоретические основы Q-метода, включая его асимптотическую эффективность и разбивку на конечное число выборок, описаны в [16] и [15].

    Примечание 4 — Если исходные данные участников представлены единственным результатом измерений, полученным с помощью одного установленного метода измерений, робастное стандартное отклонение является оценкой стандартного отклонения воспроизводимости, как и в (C.21).

    Примечание 5 — Стандартное отклонение воспроизводимости не обязательно является наиболее подходящим стандартным отклонением для использования в проверке квалификации, так как это, как правило, оценка разброса единственных результатов, а не оценка разброса средних или медиан результатов репликаций каждого участника. Однако разброс средних или медиан результатов репликаций лишь немного менее разброса единственных результатов различных лабораторий, если отношение стандартного отклонения воспроизводимости к стандартному отклонению повторяемости более двух. Если это отношение менее двух, для определения оценок при проверке квалификации может быть использована замена стандартного отклонения воспроизводимости sR скорректированным значением

    ,

    где m — количество репликаций;

    — дисперсия повторяемости, вычисленная в соответствии с [17], или можно использовать среднее значение репликаций измерений участника Q-метода.

    Примечание 6 — Примечание 5 применяют только в том случае, если индексы определяют на основе средних или медиан результатов репликаций. Если репликации проводят вслепую, индексы следует рассчитывать для каждой репликации. В этом случае стандартное отклонение воспроизводимости является наиболее подходящим стандартным отклонением.

    Примечание 7 — Пример применения Q-метода приведен в E.3 приложения E.

    C.5.3 Определение робастного среднего, используемого в оценке Хампеля

    C.5.3.1 Оценка Хампеля является высокоустойчивой высокоэффективной оценкой общего среднего всех результатов различных лабораторий. Поскольку формулы вычисления оценки Хампеля не существует, ниже приведены два алгоритма получения этой оценки. Первый из них является более простым, но может привести к отклонениям результатов при выполнении. Второй алгоритм обеспечивает получение однозначных результатов, зависящих только от базового стандартного отклонения.

    C.5.3.2 Далее приведены вычисления, обеспечивающие получение итеративной взвешенной оценки Хампеля, для параметра положения.

    i) Пусть x1, x2, …, xp — данные.

    ii) Пусть x* — медиана med(x) (см. C.2.1).

    iii) Пусть s* — соответствующая робастная оценка стандартного отклонения, например, MADe, Qn или s* в соответствии с Q-методом.

    iv) Для каждой точки xi вычисляют qi

    .

    v) Вычисляют вес wi

    vi) Пересчитывают x*

    .

    vii) Повторяют действия в соответствии с перечислениями iv) — vi) до тех пор, пока значения x* не начнут сходиться. Сходимость считают достаточной, если разность x* в двух последних итерациях станет менее , что соответствует приблизительно 1% стандартной погрешности x*. Могут быть использованы и другие более точные критерии сходимости.

    Данный алгоритм получения оценки Хампеля не гарантирует получение единственной и наилучшей оценки, так как неудачный выбор начального значения x* и/или s* может привести к исключению важной части набора данных. Провайдеру следует предпринять соответствующие меры для проверки возможности получения неудачного результата или обеспечить однозначные правила выбора параметра положения. Наиболее общим правилом является выбор параметра положения, максимально близкого к медиане. Анализ результатов для подтверждения того, что большая часть данных не выходит за пределы области |q| > 4,5, может также помочь в принятии правильного решения.

    Примечание 1 — Определение оценки Хампеля для данных из нормального распределения обладает эффективностью, приблизительно равной 96%.

    Примечание 2 — Примеры выполнения этого алгоритма приведены в E.3 приложения E.

    Примечание 3 — Эффективность и устойчивость к выбросам оценки Хампеля могут быть повышены с помощью изменения весовой функции. Общая форма весовой функции имеет вид:

    где a, b и c — регулируемые параметры. Для приведенного алгоритма a = 1,5, b = 3,0 и c = 4,5. Более высокая эффективность достигается за счет увеличения области изменений q. Повышения устойчивости к выбросам или изменениям режимов достигают за счет уменьшения области изменений q.

    C.5.3.3 Ниже приведен алгоритм конечных шагов, позволяющий получить оценку Хампеля для параметра положения [14].

    Вычисляют средние арифметические y1, y2, …, yp.

    Вычисляют робастное среднее x* как корень уравнения

    , (C.25)

    где

    (C.26)

    s* — робастное стандартное отклонение, полученное Q-методом.

    Точное решение может быть получено за конечное число шагов, без итерации, используя свойство, при котором как функция x* является частично линейной, имея в виду точки интерполяции в левой стороне уравнения (C.25).

    Вычисляют все точки интерполяции:

    — для 1-го значения y1:

    d1 = y1 — 4,5·s*, d2 = y1 — 3·s*, d3 = y1 — 1,5·s*,

    d4 = y1 + 1,5·s*, d5 = y1 + 3·s*, d6 = y1 + 4,5s*;

    — для 2-го значения y2:

    d7 = y2 — 4,5·s*, d8 = y2 — 3·s*, d9 = y2 — 1,5·s*,

    d10 = y2 + 1,5·s*, d11 = y2 + 3·s*, d12 = y2 + 4,5·s*;

    — и так далее для всех y3, …, yp.

    Располагают d1, d2, d3, …, dp в порядке неубывания d{1}, d{2}, d{3}, …, d{6·p}.

    Затем для каждого m = 1, …, (6·p — 1) вычисляют

    и проверяют, являются ли следующие условия:

    (i) если pm = 0, то d{m} — решение уравнения (C.25);

    (ii) если pm+1 = 0, то, d{m+1} — решение уравнения (C.25);

    (iii) если pm·pm+1 < 0, то — решение уравнения (C.25).

    Пусть S — множество всех решений уравнения (C.25).

    Решением является ближайшая медиана, используемая в качестве параметра положения x*, то есть

    .

    Могут существовать несколько решений. Если существуют два решения, наиболее близких к медиане, или если не существует никакого решения вообще, то в качестве параметра положения x* используют медиану.

    Примечание 1 — Эта оценка Хампеля для данных из нормального распределения обладает эффективностью, приблизительно равной 96%.

    Примечание 2 — При использовании этого метода результаты лабораторий, отличающиеся от среднего более чем на 4,5 стандартных отклонений воспроизводимости, не оказывают никакого влияния на результат, то есть их рассматривают как выбросы.

    C.5.4 Метод Q/Хампеля

    Метод Q/Хампеля использует Q-метод, описанный в C.5.3.2, для вычисления робастного стандартного отклонения s* и алгоритм конечных шагов для оценки Хампеля, описанный в C.5.3.3, для вычисления параметра положения x*.

    Если участники сообщают много наблюдений для вычисления робастного стандартного отклонения воспроизводимости sR, используют Q-метод, описанный в C.5.3.2. Для вычисления робастного стандартного отклонения повторяемости sr применяют 2-й алгоритм, использующий парные разности в пределах лаборатории.

    Примечание — Веб-приложения для метода Q/Хампеля приведены в [18].

    C.6 Другие робастные методы

    Методы, описанные в настоящем приложении, не представляют собой целостную совокупность всех подходов. Ни один из них не является гарантированно оптимальным во всех ситуациях. По усмотрению провайдера могут быть использованы другие робастные методы при условии анализа их эффективности и всех остальных свойств, соответствующих определенным требованиям программы проверки квалификации.

    Приложение D

    (справочное)

    Скачать документ целиком в формате PDF

    >РОБАСТНОЕ СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ Грубые ошибки и методы их выявления в статистической совокупности данных n
    РОБАСТНОЕ СТАТИСТИЧЕСКОЕ ОЦЕНИВАНИЕ Грубые ошибки и методы их выявления в статистической совокупности данных n

    >n При исследовании статистических совокупностей часто приходится иметь дело с данными, отклоняющимися от основного
    n При исследовании статистических совокупностей часто приходится иметь дело с данными, отклоняющимися от основного массива, т. е. с ошибками, или выбросами.

    >1 2 3 4 5 6 7 8 9 10 15, 18, 47, 12,
    1 2 3 4 5 6 7 8 9 10 15, 18, 47, 12, 16, 65, 17, 11, 12, 13, 2 4 3 1 0 3 2 4 0 9

    >n При выявлении подобных «выбросов» возникают серьезные вопросы: являются ли отклоняющиеся данные действительно ошибками
    n При выявлении подобных «выбросов» возникают серьезные вопросы: являются ли отклоняющиеся данные действительно ошибками (например, регистрации) или это реальные значения и как получить адекватные оценки для параметров изучаемой совокупности. Решением подобных вопросов занимается специальный раздел статистики — робастное (устойчивое) оценивание.

    >n Методы робастного оценивания — это статистические методы, которые позволяют получать достаточно надежные оценки
    n Методы робастного оценивания — это статистические методы, которые позволяют получать достаточно надежные оценки статистической совокупности с учетом неявности закона ее распределения и наличия существенных отклонений в значениях данных. У истоков развития методов робастного оценивания стояли американский статистик Д. Тьюки и швейцарский математик П. Хубер.

    >При решении задач робастного оценивания выделяют два типа данных, засоряющих статистическую совокупность. n данные,
    При решении задач робастного оценивания выделяют два типа данных, засоряющих статистическую совокупность. n данные, несущественно отличающиеся от значений, которые наиболее часто встречаются в изучаемой совокупности. n резко выделяющиеся на фоне изучаемой совокупности, их называют «засорением» или «грубыми ошибками» , они оказывают сильное искажающее воздействие на аналитические результаты.

    >основные причины появления грубых ошибок: • Специфические особенности отдельных элементов изучаемой совокупности. Как правило,
    основные причины появления грубых ошибок: • Специфические особенности отдельных элементов изучаемой совокупности. Как правило, они приводят к появлению случайных, или «нормальных» ( «обычных» ) отклонений. • Неправильное причисление элементов к исследуемой совокупности, например, ошибки группировки, ошибки при организации наблюдения и т. п. • Грубые ошибки при регистрации и обработке данных.

    >При обработке «грубых» ошибок (засорений) выделяют два основных подхода. n устранение из выборочной совокупности
    При обработке «грубых» ошибок (засорений) выделяют два основных подхода. n устранение из выборочной совокупности ошибок и оценку параметров по оставшимся «истинным» значениям n Усеченная выборка

    >Второй подход предполагает в каждом случае с грубой ошибкой выделение истинных значений признака и
    Второй подход предполагает в каждом случае с грубой ошибкой выделение истинных значений признака и собственно ошибки n х=хист+ξ осуществляется модификация данных таким образом, чтобы искажающий элемент ξ получил нормальное распределение с нулевым математическим ожиданием

    >Алгоритм обработки «засорений» включает последовательное выполнение шагов: 1) распознавание ошибок в данных; 2) выбор
    Алгоритм обработки «засорений» включает последовательное выполнение шагов: 1) распознавание ошибок в данных; 2) выбор метода и проведение робастного оценивания данных; 3) критериальная или логическая проверка и интерпретация результатов устойчивого оценивания.

    >Простой формальный прием для обнаружения грубых ошибок основывается на расчете Ткритерия Граббса: n n
    Простой формальный прием для обнаружения грубых ошибок основывается на расчете Ткритерия Граббса: n n где х — выборочная средняя. Ее оценка предпочтительна по истинным данным σ — выборочное среднеквадратическое отклонение случайной величины.

    >Наблюденные значения Т-критерия сравнивают с пороговыми, заданными соответствующим распределением. n Проверяемые признаковые значения относят
    Наблюденные значения Т-критерия сравнивают с пороговыми, заданными соответствующим распределением. n Проверяемые признаковые значения относят к классу выбросов, если Тн >Ткр (Ткр=Тα, h). Если Тн<Ткр, то считается, что эти значения несущественно отличаются от других данных, и не будут давать сильного искажающего эффекта.

    >n Критерий Граббса прост и легко применим в анализе, но имеет существенные недостатки. В
    n Критерий Граббса прост и легко применим в анализе, но имеет существенные недостатки. В частности, исследователи обращают внимание на его недостаточную точность (часто дает весьма грубые оценки) и, кроме того, он «нечувствителен» к маскирующим эффектам, когда выбросы группируются достаточно близко друг от друга в отдаленности от основной массы наблюдений.

    >n Более точными по сравнению со статистикой Граббса оценками грубых ошибок признаются L- и
    n Более точными по сравнению со статистикой Граббса оценками грубых ошибок признаются L- и Е-критерии, предложенные американскими статистиками Г. Титьеном и Г. Муром:

    >L-критерий исчисляется для выявления грубых ошибок в верхней части ранжированного ряда данных: число наблюдений
    L-критерий исчисляется для выявления грубых ошибок в верхней части ранжированного ряда данных: число наблюдений с резко отклоняющимися значениями признака объем выборки средняя, которую рассчитывают по п — k наблюдениям, остающимися после отбрасывания k грубых ошибок «сверху» ранжированного ряда данных

    >L'-критерий применяется для выявления грубых ошибок в данных, расположенных в нижней части ранжированного ряда
    L’-критерий применяется для выявления грубых ошибок в данных, расположенных в нижней части ранжированного ряда данных

    >E-критерий используется, когда в выборке имеются предположительно грубые ошибки с наибольшими и наименьшими значениями,
    E-критерий используется, когда в выборке имеются предположительно грубые ошибки с наибольшими и наименьшими значениями, т. е. расположенные в верхней и нижней частях ранжированного ряда данных

    >В нижней части ранжированного ряда данных – значит L'-критерий х1 х2 х3 х4 15,
    В нижней части ранжированного ряда данных – значит L’-критерий х1 х2 х3 х4 15, 4 13, 2 18, 3 47, 1 х9 х5 х10 х2 11 12 12, 9 13, 2 ранг 1 ранг 2 ранг 3 ранг 4 х5 х6 х7 х8 х9 х10 12 16, 3 65, 2 17, 4 11 12, 9 х1 х6 х8 х3 х4 х7 15, 4 16, 3 17, 4 18, 3 47, 1 65, 2 ранг 5 ранг 6 ранг 7 ранг 8 ранг 9 ранг 10

    >Усеченная выборка расчет Хк расчет Хср общая выборка х1 х2 х3 х4 15, 4
    Усеченная выборка расчет Хк расчет Хср общая выборка х1 х2 х3 х4 15, 4 13, 2 18, 3 47, 1 х9 х5 х10 х2 11 12 12, 9 13, 2 ранг 1 ранг 2 ранг 3 ранг 4 х5 х6 х7 х8 х9 х10 12 16, 3 65, 2 17, 4 11 12, 9 х1 х6 х8 х3 х4 х7 15, 4 16, 3 17, 4 18, 3 47, 1 65, 2 ранг 5 ранг 6 ранг 7 ранг 8 ранг 9 ранг 10

    >n Все три критерия L, L' и Е имеют табулированные критические значения для заданного
    n Все три критерия L, L’ и Е имеют табулированные критические значения для заданного уровня значимости α при известном объеме выборки п и предполагаемом числе ошибок k. Если наблюденные значения критериев оказываются меньше пороговых Са, k, то ошибки в данных, подвергаемые проверке, признаются грубыми, существенно отклоняющимися от основного массива данных. При L, L’, Е> Са, k данные гипотетически предполагаются типичными для изучаемой выборочной совокупности.

    >Графический метод
    Графический метод

    >Выбросы либо исключаются либо модифицируются
    Выбросы либо исключаются либо модифицируются

    >Методы исчисления устойчивых статистических оценок: Пуанкаре, Винзора, Хубера n После обнаружения выбросов в данных
    Методы исчисления устойчивых статистических оценок: Пуанкаре, Винзора, Хубера n После обнаружения выбросов в данных решается задача оценивания параметров выборочной совокупности. При этом, как выше уже сказано, используются два основных подхода: экстремальные значения (грубые ошибки) отбрасываются либо модифицируются.

    >Американский статистик Пуанкаре n предложил следующую формулу для расчета средней по усеченной совокупности (урезанную
    Американский статистик Пуанкаре n предложил следующую формулу для расчета средней по усеченной совокупности (урезанную среднюю): объем выборочной совокупности число грубых ошибок k≤ a∙n — целая часть от произведения a∙n, где п – объем выборочной совокупности, а α – некоторая функция величины засорения выборки ξ. Значения α находят по специальным таблицам. Обычно α колеблется в пределах от нуля до 0, 5.

    >Другой подход демонстрирует оценка Винзора она предполагает замену признаковых значений, засоряющих выборку, на модифицированные
    Другой подход демонстрирует оценка Винзора она предполагает замену признаковых значений, засоряющих выборку, на модифицированные (винзорированные) значения с устраненными или уменьшенными ошибками. Средняя по Винзору определяется также с известным заранее уровнем а (0< α < 1/2) по формуле:

    >n n По аналогии с оценками Т(α) и W(α), т. е. соответственно по усеченной
    n n По аналогии с оценками Т(α) и W(α), т. е. соответственно по усеченной совокупности, или винзорированным данным, могут быть найдены не только средние величины, но и другие оценки параметров статистической совокупности, например, вариации, моды, медианы и т. п. Приемы робастного оценивания Пуанкаре и Винзора дают хорошие результаты на выборках с симметричным распределением засорений, когда грубые ошибки группируются примерно на одном расстоянии от центра в нижней и верхней частях статистической совокупности.

    >n Наряду с уже названными методами робастного оценивания, широкое распространение имеет ставший классическим подход
    n Наряду с уже названными методами робастного оценивания, широкое распространение имеет ставший классическим подход Хубера. Он напоминает процедуры для последовательного «улучшения» данных по Винзору. При этом используется некоторая исходная величина k, определяемая с учетом степени «засорения» статистической совокупности ξ; и определяющая шаг модификации резко отличающихся наблюдений (см. табл. 5. 6).

    >Оценка средней величины по методу Хубера производится по формуле: где – – численность группы
    Оценка средней величины по методу Хубера производится по формуле: где – – численность группы наблюдений из совокупности, n 1 устойчивая оценка, определяется при помощи итеративных процедур; отличающихся наименьшими значениями: xi < Θ — k, или k — величина, которая допускается в качестве отклонения от значения в интервале (-∞; Θ — k); центра совокупности, принимает постоянные значения с учетом п 2 – численность группы наблюдений из совокупности, удельного веса грубых ошибок в совокупности данных ξ отличающихся наибольшими значениями: xi < Θ + k, или значения в интервале (Θ + k; ∞).

    >ВЫВОДЫ: При обнаружении «засорения» , или «грубых ошибок» , в совокупности данных, т. е.
    ВЫВОДЫ: При обнаружении «засорения» , или «грубых ошибок» , в совокупности данных, т. е. значений, резко отличающихся от медианных, используются принципы проверки статистических гипотез. Наиболее простыми и распространенными являются методы поиска ошибок Граббса, Титьена и Мура. Если в статистической совокупности действительно выявлены «грубые ошибки» , то для уменьшения их влияния на аналитические результаты рекомендуется применение специальных приемов обработки данных.

    >ВЫВОДЫ: Сущность этих приемов сводится к одному из двух решений: устранению из совокупности аномальных
    ВЫВОДЫ: Сущность этих приемов сводится к одному из двух решений: устранению из совокупности аномальных наблюдений, (усечению совокупности), или модификации резко отличающихся значений с целью уменьшения ошибок в данных. Первое решение представлено в подходе Пуанкаре, второе — в подходах Хубера и Винзора, Само изменение данных, направленное на минимизацию ошибки в них, принято называть как винзорирование.

    >ВЫВОДЫ: Проверка статистических гипотез и робастное оценивание часто используются как самостоятельные статистические приемы в
    ВЫВОДЫ: Проверка статистических гипотез и робастное оценивание часто используются как самостоятельные статистические приемы в решении задач оценки качества, оценки адекватности заданным условиям и т. п. n. Представленные методы в комплексе с другими статистическими методами позволяют предварительно анализировать наблюденные значения характерных признаков, выявить в них несоответствия и грубые ошибки, провести модификацию данных, повышающую гомогенность изучаемой совокупности. n

    Термин
    «робастность» (robustness
    — англ.) образован от robust
    — крепкий, грубый (англ.). Сравните с
    названием одного из сортов кофе — robusta.
    Имеется в виду, что робастные статистические
    процедуры должны «выдерживать»
    ошибки, которые теми или иными способами
    могут попадать в исходные данные или
    искажать предпосылки используемых
    вероятностно-статистических моделей.

    Термин
    «робастный» стал популярным в нашей
    стране в 1970-е годы. Сначала он использовался
    фактически как сужение термина
    «устойчивый» на алгоритмы
    статистического анализа данных
    классического типа (не включая теорию
    измерений, статистику нечисловых и
    интервальных данных). Затем реальная
    сфера его применения сузилась.

    Пусть
    исходные данные — это выборка, т.е.
    совокупность независимых одинаково
    распределенных случайных величин с
    одной и той же функцией распределения
    F(x).
    Наиболее простая модель изучения
    устойчивости — это модель засорения

    (1)

    Эта
    модель имеются также моделью Тьюки —
    Хубера. (Джон Тьюки — американский
    исследователь, П. Хубер, или Хьюбер —
    швейцарский ученый.) Модель (1) показывает,
    что с близкой к 1 вероятностью, а именно,
    с вероятностью
    наблюдения берутся из совокупности с
    функцией распределениякоторая предполагается обладающей
    «хорошими» свойствами. Например,
    она имеет известный статистику вид
    (хотя бы с точностью до параметров), у
    нее существуют все моменты, и т.д. Но с
    малой вероятностьюпоявляются наблюдения из совокупности
    с «плохим» распределением, например,
    взятые из распределения Коши, не имеющего
    математического ожидания, резко
    выделяющиеся аномальные наблюдения,
    выбросы.

    Актуальность
    модели (1) не вызывает сомнений. Наличие
    засорений (выбросов) может сильно
    исказить результаты эконометрического
    анализа данных. Ясно, что если функция
    распределения элементов выборки имеет
    вид (1), где первое слагаемое соответствует
    случайной величине с конечным
    математическим ожиданием, а второе —
    такой, для которого математического
    ожидания не существует (например, если
    H(x)
    — функция распределения Коши), то для
    итоговой функций распределения (1) также
    не существует математического ожидания.
    Исследователя обычно интересуют
    характеристики первого слагаемого, но
    найти их, т.е. освободиться от влияния
    засорения, не так-то просто. Например,
    среднее арифметическое результатов
    наблюдений не будет иметь никакого
    предела (это — строгое математическое
    утверждение, вытекающее из того, что
    математическое ожидание не существует
    [24]).

    Существуют
    различные способы борьбы с засорением.
    Эмпирическое правило «борьбы с
    засорениями» при подведении итогов
    работы команды судей найдено в фигурном
    катании: наибольшая и наименьшая оценки
    отбрасываются, а по остальным рассчитывается
    средняя арифметическая. Ясно, что
    единичное «засорение» окажется
    среди отброшенных оценок.

    Оценивать
    характеристики и параметры, проверять
    статистические гипотезы, вообще
    осуществлять статистический анализ
    данных все чаще рекомендуют на основе
    эмпирических квантилей (другими словами,
    порядковых статистик, членов вариационного
    ряда), отделенных от концов вариационного
    ряда. Речь идет об использовании статистик
    вида

    ,

    где
    a,
    b,
    c,
    d,
    e
    – заданные числа, x(0,1n),
    x(0,3n),
    x(0,5n),
    x(0,7n),
    x(0,9n)
    – члены вариационного ряда с номерами,
    наиболее близкими к числам, указанным
    в скобках. Так ценой небольшой потери
    в эффективности избавляемся от
    засоренности типа описанной в модели
    (1).

    Вариантом
    этого подхода является переход к
    сгруппированным данным. Отрезок прямой,
    содержащий основную часть наблюдений,
    разбивается на интервалы, и вместо
    количественных значений статистик
    подсчитывает лишь, сколько наблюдений
    попало в те или иные интервалы. Особое
    значение приобретают крайние интервалы
    — к ним относят все наблюдения, которые
    больше некоторого верхнего порога и
    меньше некоторого нижнего порога. Любым
    методам анализа сгруппированных данных
    резко выделяющиеся наблюдения не
    страшны.

    Можно
    поставить под сомнение и саму опасность
    засорения. Дело в том, что практически
    все реальные величины ограничены. Все
    они лежат на каком-то интервале — от и
    до. Это совершенно ясно, если речь идет
    о физическом измерении — все результаты
    измерений укладывается в шкалу прибора.
    По-видимому, и для иных статистических
    измерений наибольшие сложности создают
    не сверхбольшие помехи, а те засорения,
    что находятся «на грани» между
    «интуитивно возможным» и «интуитивно
    невозможным».

    Что
    же это означает для практики статистического
    анализа данных? Если элементы выборки
    по абсолютной величине не превосходят
    числа А,
    то все засорение может сдвинуть среднее
    арифметическое на величину
    Если засорение невелико, то и сдвиг мал.

    Построена
    достаточно обширная и развитая теория,
    посвященная разработке и изучению
    методов анализа данных в модели (1). С
    ней можно познакомиться по монографиям
    [25-27]. К сожалению, в теории обычно
    предполагается известной степень
    засорения
    ,
    а на практике эта величина неизвестна.
    Кроме того, теория обычно направлена
    на защиту от воздействий, якобы угрожающих
    из бесконечности (например, отсутствием
    математического ожидания), а на самом
    деле реальные данные финитны (сосредоточены
    на конечных отрезках). Все это объясняет,
    почему теория робастности, исходящая
    из модели (1), популярна среди теоретиков,
    но мало интересна тем, кто анализирует
    реальные технические, экономические,
    медицинские и иные статистические
    данные.

    Рассмотрим
    несколько более сложную модель. Пусть
    наблюдаются реализации
    независимых случайных величин с функциями
    распределениясоответственно. Эта модель соответствует
    гипотезе о том, что в процессе наблюдения
    (измерения) условия несколько менялись.
    Естественной представляется модель
    малых отклонений функций распределений
    наблюдаемых случайных величин от
    некоторой «базовой» функции
    распределения.
    Множество возможных значений функций
    распределений наблюдаемых случайных
    величин (т.е. совокупность допустимых
    отклонений согласно общей схеме
    устойчивости, рассмотренной в главе
    1.4) описывается следующим образом:

    Следующий
    тип моделей — это введение малой (т.е.
    слабой) зависимости между рассматриваемыми
    случайными величинами (см., например,
    монографию [28]). Ограничения на взаимную
    зависимость можно задать разными
    способами. Пусть
    — совместная функция распределенияn-мерного
    случайного вектора, F1(x1),
    F2(x2),
    … , Fn(xn)
    – функции распределения его координат.
    Если все координаты независимы, то
    =F1(x1)F2(x2)…Fn(xn).
    Пустькоэффициент корреляции междуi-ой
    и j-ой
    случайными величинами – координатами
    вектора. Множество возможных совместных
    функций распределения (т.е. совокупность
    допустимых отклонений согласно общей
    схеме устойчивости, рассмотренной в
    главе 1.4) описывается следующим образом:

    Таким
    образом, фиксируются функции распределения
    координат, а коэффициенты корреляции
    предполагаются малыми (по абсолютной
    величине).

    Есть
    еще целый ряд постановок задач робастности.
    Если накладывать погрешности
    непосредственно на результаты наблюдений
    (измерений) и предполагать лишь, что эти
    погрешности не превосходят (по абсолютной
    величине) заданных величин, то получаем
    постановки задач статистики интервальных
    данных (см. главу 3.5). При этом каждый
    результат наблюдения превращается в
    интервал — исходное значение плюс-минус
    максимально возможная погрешность.

    Разработано
    много вариантов робастных методов
    анализа статистических данных (см.
    монографии [5, 25-28]). Иногда говорят, что
    робастные методы позволяют использовать
    информацию о том, что реальные наблюдения
    лежат «около» тех или иных
    параметрических семейств, например,
    нормальных. В этом, дескать, их преимущество
    по сравнению с непараметрическими
    методами, которые предназначены для
    анализа данных, распределенных согласно
    произвольной непрерывной функции
    распределения. Однако количественных
    подтверждений этих уверений любителей
    робастных методов обычно не удается
    найти. В основном потому, что термин
    «около» трудно формализовать.

    На
    примере различных подходов к изучению
    робастности статистических процедур
    оценивания и проверки гипотез видны
    сложности, связанные с изучением
    устойчивости. Дело в том, что для каждой
    конкретной статистической задачи можно
    самыми разными способами задать
    совокупность допустимых отклонений.
    Так, выше кратко рассмотрены четыре
    такие совокупности, соответствующие
    модели засорения Тьюки — Хубера, модели
    малых отклонений функций распределения,
    модели слабых связей и модели интервальных
    данных.

    В
    каждой из этих моделей общая схема
    устойчивости (глава 1.4) предлагает для
    решения целый спектр задач устойчивости.
    Кроме изучения свойств робастности
    известных статистических процедур
    можно в каждой из постановок находить
    оптимальные процедуры. Однако практическая
    ценность этих оптимальных процедур,
    как правило, невелика, поскольку в других
    постановках оптимальными будут уже
    другие процедуры.

    Like this post? Please share to your friends:
  • Зачем нужно признавать свои ошибки
  • Зачем нужна стандартная ошибка среднего
  • Зачем нужна работа над ошибками
  • Зачем нужен усилитель ошибки
  • Зачем нужен куб ошибка deep rock galactic