Среднеквадратичная ошибка интерполяции

Небольшое методическое недопонимание — в расчете среднеквадратичной нормированной ошибки интерполяции, по сути производится осреднение, без направления отклонения, невязки, которая нормирована стандартными ошибками интерполяции (в формулах фигурирует как сигма). Отсюда возникает вопрос : стандартные ошибки интерполяции тождественны среднеквадратичному отклонению и в свою очередь тождественны RMSE или нет (в пространственном понимании ситуации)?
Если исходить из того, что
Среднеквадратичное отклонение — отклонение величины X от Xсреднего ( sqrt (суммы ( X — Xсреднее)^2) / n )
RMSE в учебниках по геостатистике — отклонение X измеренного от X прогнозируемого ( RMSE = sqrt (суммы ( Xизм — Xпрогн )^2) / n )

Запутался что-то. Объясните пожалуйста

Оценка погрешности интерполяционных формул

Если известно
аналитическое выражение интерполируемой
функции f,
можно применять формулы для оценки
погрешности интерполированию.

Величину
называютпогрешностью
интерполяции
или остаточным членом интерполяционной
формулы Лагранжа. Равенство
называется интерполяционной формулой
Лагранжа с остаточным членом. Ясно, что
в узлах интерполяции, погрешность
интерполяции равна нулю.

Рассмотрим вопрос
об оценке погрешности интерполяции в
точке x,
отличной от узлов интерполяции.

Для произвольной
функции f(x) постановка вопроса о
погрешности интерполяции многочленом
некорректна,
так как для одного набора из (n+1)
точек
существует единственный многочленn–ной
степени, проходящий через них, и бесконечно
много функций, проходящих через эти
точки и сколь угодно сильно отличные
от
Потому для оценки погрешностинеобходимо
налагать какие-либо условия наf(x).

Пусть
и.
Обозначим-многочлен степениn+1,


.
где c=const
— некоторый параметр. То есть, u(x)
имеет на

по крайней мере n+1
корень. Подберем число c
так, чтобы еще в одной точке
.— такое число обязательно существует.
Пусть для определенности

Таким образом,
функция U(x)
имеет
корня и эти точки составляют системуn+1
отрезков, на концах которых U(x)=0
и по теореме Роля, на каждом из них
существует точка, в которой
,
то естьn+1
ноль производной.

Эти точки образуют
систему n
отрезков, на которых можно применить
теорему Роля к производной
точкаи так далее. Нашаге получим:точкаили

Но так как
выбрано произвольно, равенство справедливо
для всех х, то

Если при этом

Пример:
Оценить погрешность интерполирования
функции
в
точкеx=116
с помощью интерполяционной формулы
Лагранжа, построенной для узлов:

,
n=2 a=min
(100,121,144) =100
b=max
(100,121,144) =144

Контрольные вопросы

  1. Как ставится
    задача интерполяции?

  2. Получите формулу
    для вычисления интерполяционного
    многочлена в форме Лагранжа.

  3. Докажите теорему
    о погрешности интерполяции. Запишите
    оценку погрешности интерполяции.

  4. Постройте
    интерполяционный многочлен для
    произвольной функции.

Литература

  1. Вержбицкий В.М.
    Основы численных методов. М.: Высшая
    школа, 2002.

  2. Бахвалов Н.С.,
    Жидков Н.П., Кобельков Г.М. Численные
    методы. -М., Наука, 1987.

  3. Вабищевич П.Н..
    Численное моделирование. М.: 1993.

  4. Заварыкин В. М.,
    Житомирский Г. В., Лапчик М. П. Численные
    методы. — М., Просвещение, 1990.

Тема 5. Наилучшее среднеквадратическое приближение

Цель: Сформировать у студентов
представление о аппроксимации функций
методом наименьших квадратов.

Вопросы:

5.1. Аппроксимация функций методом
наименьших квадратов

5.1. Аппроксимация функций методом наименьших квадратов

Пусть в результате
измерений в процессе опыта получена
таблица значений некоторой функции f:

х

x1

x2

xn

f(x)

y1

y2

yn

(1)

Задача аппроксимации
заключается в отыскании формулы,
выражающей эту зависимость аналитически,
причем должен учитываться и характер
исходной функции, т.е. нужно найти функцию
заданного вида y=F(x),
которая в точках x1,x2,…,xn
принимает значения, как можно более
близкие к табличным значениям y1,y2,…,yn.

Практически вид
приближающей функции F
можно определить следующим образом: по
таблице строится точечный график функции
f,
а затем проводится плавная кривая, по
возможности наилучшим образом отражающая
характер расположения точек. По полученной
таким образом кривой устанавливается
вид приближающей функцию

В качестве
приближающих функций в зависимости от
характера точечного графика функции f
часто используют следующие функции:

  1. y=ax+b,

  2. y=,

  3. y=a exp(mx),

  4. y=,

  5. y=a lnx+b,

  6. y=a+b,

  7. y=.

Рассмотрим один
из распространенных способов нахождения
функции F(x).
Предположим, что приближающая функция
в точках x1,x2,…,xn
имеет значения
…,
(2). Требование близости табличных
значений y1,y2,…,yn
и значений
можно истолковать следующим образом:
будем рассматривать совокупность
значений функцииf
из таблицы (1) и совокупность (2) как
координаты двух точек n-мерного
пространства. Таким образом, необходимо
найти такую функцию F
заданного вида, чтобы расстояние между
точками M(y1,y2,…,yn)
и
)
было наименьшим в пространствеRn,
т.е. чтобы была наименьшей величина:

или
.
(3)

Итак, задача
аппроксимации функции f
теперь формулируется следующим образом:
для функции f,
заданной таблицей (1), найти функцию F
определенного вида так, чтобы сумма
квадратов (3) была наименьшей.

Эта задача носит
название задачи аппрксимации функции
методом
наименьших квадратов.

Рассмотрим метод
нахождения параметров приближающей
функции в общем виде на примере
приближающей функции с тремя параметрами:
y=F(x,
a,
b,
c).
Итак, имеем
F(xi,
a,
b,
c)=,i=1,2,…,n.
Сумма (3) будет иметь вид:
.
Эта сумма Ф(a,b,c)
является функцией трех переменных.
Задача сводится к отысканию минимума
этой функции. Используем необходимое
условие экстремума функции трех
переменных:
,
т.е.

(*)

Решив эту систему
трех уравнений с тремя неизвестными
относительно a,
b,
c,
получим конкретный вид искомой функции
F(x,
a,
b,
c).

Количество
параметров в функции F
не влияет на сущность самого метода, а
влияет лишь на количество уравнений в
системе (*).

Естественно, что
значения найденной функции F(x,
a,
b,
c)
в точках x1,x2,…,xn
будут отличаться от табличных значений
y1,y2,…,yn.
Значения разностей yi
F(xi,
a,
b,
c)=(i=1,2,…,n)
называются отклонениями
измеренных
значений y
от вычисленных по формуле. Из двух разных
приближений одной и той же табличной
функции, лучшим является то, для которого
сумма квадратов отклонений
является наименьшей.

Нахождение
приближающей функции в виде линейной
функции
.

Будем искать
приближающую функцию в виде F(x,
a,
b)=ax+b.
Найдем частные производные по параметрам
a
и b:
.

Составим теперь
систему вида (*)

Разделим каждое
уравнение на n:

Введем обозначения:

(**)

Тогда система
примет вид:

,откуда
a=,b=

Коэффициенты
этой системы,
которые в каждой конкретной задаче
приближения могут быть легко вычислены
по формулам (**). Вычислив значения
параметровa
и b,
получим конкретный вид линейной функции,
осуществляющей наилучшее приближение
среди всех линейных функций.

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #

Среднеквадратичная ошибка (Mean Squared Error) – Среднее арифметическое (Mean) квадратов разностей между предсказанными и реальными значениями Модели (Model) Машинного обучения (ML):

MSE как среднее дистанций между предсказаниями и реальными наблюдениями

Рассчитывается с помощью формулы, которая будет пояснена в примере ниже:

$$MSE = frac{1}{n} × sum_{i=1}^n (y_i — widetilde{y}_i)^2$$
$$MSEspace{}{–}space{Среднеквадратическая}space{ошибка,}$$
$$nspace{}{–}space{количество}space{наблюдений,}$$
$$y_ispace{}{–}space{фактическая}space{координата}space{наблюдения,}$$
$$widetilde{y}_ispace{}{–}space{предсказанная}space{координата}space{наблюдения,}$$

MSE практически никогда не равен нулю, и происходит это из-за элемента случайности в данных или неучитывания Оценочной функцией (Estimator) всех факторов, которые могли бы улучшить предсказательную способность.

Пример. Исследуем линейную регрессию, изображенную на графике выше, и установим величину среднеквадратической Ошибки (Error). Фактические координаты точек-Наблюдений (Observation) выглядят следующим образом:

Мы имеем дело с Линейной регрессией (Linear Regression), потому уравнение, предсказывающее положение записей, можно представить с помощью формулы:

$$y = M * x + b$$
$$yspace{–}space{значение}space{координаты}space{оси}space{y,}$$
$$Mspace{–}space{уклон}space{прямой}$$
$$xspace{–}space{значение}space{координаты}space{оси}space{x,}$$
$$bspace{–}space{смещение}space{прямой}space{относительно}space{начала}space{координат}$$

Параметры M и b уравнения нам, к счастью, известны в данном обучающем примере, и потому уравнение выглядит следующим образом:

$$y = 0,5252 * x + 17,306$$

Зная координаты реальных записей и уравнение линейной регрессии, мы можем восстановить полные координаты предсказанных наблюдений, обозначенных серыми точками на графике выше. Простой подстановкой значения координаты x в уравнение мы рассчитаем значение координаты ỹ:

Рассчитаем квадрат разницы между Y и Ỹ:

Сумма таких квадратов равна 4 445. Осталось только разделить это число на количество наблюдений (9):

$$MSE = frac{1}{9} × 4445 = 493$$

Само по себе число в такой ситуации становится показательным, когда Дата-сайентист (Data Scientist) предпринимает попытки улучшить предсказательную способность модели и сравнивает MSE каждой итерации, выбирая такое уравнение, что сгенерирует наименьшую погрешность в предсказаниях.

MSE и Scikit-learn

Среднеквадратическую ошибку можно вычислить с помощью SkLearn. Для начала импортируем функцию:

import sklearn
from sklearn.metrics import mean_squared_error

Инициализируем крошечные списки, содержащие реальные и предсказанные координаты y:

y_true = [5, 41, 70, 77, 134, 68, 138, 101, 131]
y_pred = [23, 35, 55, 90, 93, 103, 118, 121, 129]

Инициируем функцию mean_squared_error(), которая рассчитает MSE тем же способом, что и формула выше:

mean_squared_error(y_true, y_pred)

Интересно, что конечный результат на 3 отличается от расчетов с помощью Apple Numbers:

496.0

Ноутбук, не требующий дополнительной настройки на момент написания статьи, можно скачать здесь.

Автор оригинальной статьи: @mmoshikoo

Фото: @tobyelliott

Доступно с лицензией Geostatistical Analyst.

Прежде чем создавать окончательную поверхность, необходимо понять, насколько точно модель позволяет интерполировать значения в неизвестных точках. Перекрестная и обычная проверки помогают принять обоснованное решение относительно выбора модели, которая обеспечит лучшую интерполяцию. Вычисление статистики служит инструментом диагностики, который показывает, приемлемы ли модель и/или значения связанных с ней параметров.

Перекрестная и обычная проверки основаны на следующем принципе: удаление одного или нескольких местоположений данных и интерполяция связанных с ними значений с использованием данных в оставшихся местоположениях. Таким образом, можно сравнить интепролируемое значение с наблюдаемым и получить полезную информацию о качестве модели кригинга (например, о параметрах вариограммы и окрестности поиска).

Перекрестная проверка

Перекрестная проверка использует все данные для оценки моделей тренда и автокорреляции. В ходе этой проверки по очереди удаляются все местоположения данных и интерполируется связанное значение. Например, на приведенной ниже схеме показаны 10 точек данных. Перекрестная проверка пропускает точку (красную точку) и рассчитывает значение в этом местоположении, используя 9 остальных точек (синие точки). Затем выполняется сравнение интерполируемого и фактического значений в месте пропущенной точки. Эта процедура повторяется для второй точки и т. д. Перекрестная проверка сравнивает измеренные и интерполируемые значения для всех точек. В некотором смысле перекрестная проверка немного «обманывает», используя все данные для оценки моделей тренда и автокорреляции. По завершении перекрестной проверки некоторые местоположения данных, если они содержат существенные ошибки, могут быть исключены как аномальные, что потребует исправления моделей тренда и автокорреляции.

Удаление точек по одной

Удаление точек по одной

Перекрестная проверка выполняется автоматически, и ее результаты отображаются в последнем шаге Мастера геостатистики. Перекрестную проверку можно также выполнить вручную с помощью инструмента геообработки Перекрестная проверка. Если у вас уже есть геостатистический слой, вы можете посмотреть статистику перекрестной проверки, щелкнув правой кнопкой мыши этот слой и выбрав Перекрестная проверка или нажав кнопку Перекрестная проверка в контекстной вкладке Данные, которая появляется для геостатистического слоя.

Проверка

Проверка сначала удаляет часть данных (назовем ее тестовым набором данных). Затем на основе оставшихся данных (учебного набора данных) разрабатываются модели тренда и автокорреляции, которые будут использоваться для интерполяции. В Geostatistical Analyst для создания тестового и учебного наборов данных применяется инструмент Поднабор пространственных объектов. В остальном типы графиков и сводной статистики, которые используются для сравнения интерполируемых и истинных значений, одинаковы для обычной и перекрестной проверок. Обычная проверка создает модель только для поднабора данных, поэтому она не позволяет проверить напрямую окончательную модель, которая должна включать все доступные данные. Обычная проверка позволяет удостоверить правильность протокола решений, например, касающихся выбора модели вариограммы, размера лага и окрестности поиска. Если протокол решений работает для проверки, то это гарантирует, что он также будет работать для всего набора данных.

Проверку модели можно выполнить с помощью инструмента геообработки Слой GA в точки.

Графики

Geostatistical Analyst предусматривает несколько диаграмм и сводок по сравнению измеренных значений с прогнозируемыми на последней странице Мастера геостатистики. Ниже приведена диаграмма рассеивания интерполируемых значений относительно истинных. Можно было бы ожидать, что точки должны рассеиваться относительно линии 1:1 (серая линия на приведенном ниже графике). Однако уклон обычно меньше 1. Это особенность кригинга, который обычно при интерполяции занижает большие значения и завышает малые, как показано на следующем рисунке:

Прогнозируемое по сравнению с измеренным

Прогнозируемое по сравнению с измеренным

Подобранная линия, проходящая через область рассеивания точек, показана синим цветом, а уравнение приведено сразу под графиком. График ошибок аналогичен графику интерполяции, только измеренные значения вычитаются из прогнозируемых значений. Для графика нормированных ошибок разность измеренных и прогнозируемых значений делится на оценку стандартных ошибок кригинга. Все эти три графика показывают точность интерполяции кригинга. Если все данные были независимыми (нет автокорреляции), все интерполированные значения будут одинаковыми (каждое из них должно быть средним от измеренных данных), и потому синяя линяя будет вертикальной. При наличии автокорреляции и хорошей модели кригинга синяя линия будет приближаться к серой линии 1:1. Уравнение регрессии под каждым из этих трех графиков вычисляется с использованием устойчивого к шумам уравнения регрессии. Эта процедура сначала помещает стандартную линию линейной регрессии на точечную диаграмму. Затем удаляются все точки, имеющие более двух стандартных отклонений выше или ниже линии регрессии, и вычисляется новое уравнение регрессии. Этот процесс гарантирует, что несколько выбросов не повлияют на целое уравнение регрессии.

Нормальный график КК показывает квантили разности между интерполируемыми и измеренными значениями, а также соответствующие квантили из стандартного нормального распределения. Если отклонения интерполируемых значений от истинных значений распределены по нормальному закону, точки должны располагаться примерно вдоль серой линии. Если ошибки распределены по нормальному закону, то можно уверенно использовать методы, основанные на этом законе (например, карты квантилей в простом кригинге).

график КК

Пример графика КК

Итоговым графиком является диаграмма распределения, которая позволяет увидеть распределение каждой статистики ошибок. Доступная статистика зависит от метода интерполяции, но все методы предоставляют, как минимум, распределение измеренных и прогнозируемых значений. Кроме того, вы можете разместить графики измеренных и прогнозируемых значений на одной диаграмме. Если распределение прогнозируемых значений близко к распределению измеренных, это подтверждает, что выбранный метод интерполяции хорошо подходит к распределению данных.

Распределение измеренных и прогнозируемых значений

Распределение измеренных и прогнозируемых значений

Статистика ошибок интерполяции

Наконец, ниже приведены некоторые сводные статистические данные по ошибкам интерполяции кригинга. Используйте эти данные для диагностики. Этот диагностический расчет можно выполнить с помощью инструмента Перекрестная проверка или Мастера геостатистики.

  • Желательно, чтобы интерполированные значения были несмещенными (центрированными относительно истинных значений). Если ошибки интерполяции несмещенные, то средняя ошибка интерполяции стремится к нулю. Однако это значение зависит от шкалы данных; для нормирования значений вычисляются нормированные ошибки кригинга, которые определяются как частное от деления ошибок интерполяции на стандартные ошибки интерполяции. Среднее этих ошибок также стремится к нулю.
  • Желательно получить приемлемую оценку неопределенности, стандартные ошибки интерполяции. Каждый из методов кригинга дает оценку стандартных ошибок интерполяции. В дополнение к интерполяции, выполняется оценка отклонений интерполируемых значений от истинных (изменчивость). Важно получить правильную изменчивость. Например, в случае ординарного, простого, универсального и эмпирического байесова кригинга (предполагающего, что данные распределены по нормальному закону) карты квантилей и вероятности зависят от стандартных ошибок кригинга столь же существенно, как от самих интерполированных значений. Если средние стандартные ошибки близки к среднеквадратическим ошибкам интерполяции, оценка изменчивости интерполяции выполнена правильно. Если средние стандартные ошибки больше, чем среднеквадратические ошибки интерполяции, оценка изменчивости интерполяции выполнена с переоценкой. Если средние стандартные ошибки меньше, чем среднеквадратические ошибки интерполяции, оценка изменчивости интерполяции выполнена с недооценкой. Другой способ определить этот параметр – разделить каждую ошибку интерполяции на соответствующую оценку стандартной ошибки интерполяции. В среднем они должны быть равны друг другу, так что среднеквадратические ошибки интерполяции стремятся к 1, если стандартные ошибки интерполяции рассчитаны правильно. Если среднеквадратические нормированные ошибки интерполяции больше 1, оценка изменчивости интерполируемых значений занижена; если среднеквадратические нормированные ошибки интерполяции меньше 1, оценка изменчивости интерполируемых значений завышена.
  • Для моделей Эмпирический байесовский кригинг, Эмпирический байесовский кригинг 3D и Прогнозирование регрессии ЭБК появились три новых операции статистики:
    • Процент в интервале 90% – процент точек, находящихся в 90-процентном доверительном интервале перекрестной проверки. Это значение должно быть близко к 90.
    • Процент в интервале 95% – процент точек, находящихся в 95-процентном доверительном интервале перекрестной проверки. Это значение должно быть близко к 95.
    • Средний CRPS – средний непрерывный ранжированный вероятностный балл (CRPS) всех точек. CRPS позволяет измерить отклонение от функции прогнозируемого совокупного распределения для каждого найденного значения данных. Это значение должно быть как можно меньше. Этот способ оценки имеет преимущества по сравнению с другими оценками перекрестной проверки, потому что он сравнивает данные с полным распределением, а не с прогнозами для конкретной точки.

    Для всех методов ЭБК, если какой-либо из поднаборов данных имеет одинаковое измеряемое значение, то средняя стандартизированная и среднеквадратичная стандартизированная статистика будет вычисляться как Not a Number, потому что вычисление этих статистических данных приводит к делению на ноль.

Сравнение геостатистических моделей

Перекрестная проверка может использоваться для оценка качества геостатистической модели, но еще одно применение перекрестной проверки – сравнение одной или нескольких геостатистических моделей для определения наилучшей. Общепринятой практикой является создание нескольких моделей, перед выбором одной, которая будет использоваться в анализе. Вы можете систематически сравнивать модели друг с другом и отказываться от менее подходящих. По завершении этого процесса у вас останется одна модель, которая является наилучшей для данного типа анализа.

Для сравнения геостатистических моделей, сначала для каждой из них с помощью Мастера операций геостатистики или инструментов геообработки группы Интерполяция, из набора Инструменты Geostatistical Analyst, создаются геостатистические слои.

В каждой модели, которую вы хотите сравнить, откройте диалоговое окно Перекрестная проверка, щелкнув слой правой кнопкой и выбрав Перекрестная проверка, или щелкнув кнопку Перекрестная проверка на вкладке контекстной ленты DATA геостатистического слоя. Открыв несколько диалоговых окон перекрестной проверки, вы можете расположить их рядом и определить, какая из моделей лучше. Менее подходящую модель следует удалить с карты. Теперь вы можете создать новую перекрестную проверку для следующей модели и повторить процесс, пока у вас не останется только одна модель.

Связанные разделы

  • Введение в методы интерполяции

Отзыв по этому разделу?

Понравилась статья? Поделить с друзьями:
  • Средняя квадратическая ошибка выборки формула
  • Среднеквадратическая ошибка формула excel
  • Средняя квадратичная ошибка измерений диаметра
  • Среднеквадратичная ошибка измерения формула
  • Средняя квадратическая ошибка арифметической средины