Расчет стандартной ошибки регрессии

  • Редакция Кодкампа

17 авг. 2022 г.
читать 2 мин


Всякий раз, когда мы подбираем модель линейной регрессии , модель принимает следующую форму:

Y = β 0 + β 1 X + … + β i X +ϵ

где ϵ — член ошибки, не зависящий от X.

Независимо от того, насколько хорошо можно использовать X для предсказания значений Y, в модели всегда будет какая-то случайная ошибка.

Одним из способов измерения дисперсии этой случайной ошибки является использование стандартной ошибки регрессионной модели , которая представляет собой способ измерения стандартного отклонения остатков ϵ.

В этом руководстве представлен пошаговый пример расчета стандартной ошибки регрессионной модели в Excel.

Шаг 1: Создайте данные

В этом примере мы создадим набор данных, содержащий следующие переменные для 12 разных учащихся:

  • Оценка экзамена
  • Часы, потраченные на учебу
  • Текущая оценка

Шаг 2: Подгонка регрессионной модели

Далее мы подгоним модель множественной линейной регрессии , используя экзаменационный балл в качестве переменной ответа и часы обучения и текущую оценку в качестве переменных-предикторов.

Для этого щелкните вкладку « Данные » на верхней ленте, а затем щелкните « Анализ данных» :

Если вы не видите эту опцию доступной, вам нужно сначала загрузить Data Analysis ToolPak .

В появившемся окне выберите Регрессия.В появившемся новом окне заполните следующую информацию:

Как только вы нажмете OK , появится результат регрессионной модели:

Шаг 3: Интерпретируйте стандартную ошибку регрессии

Стандартная ошибка модели регрессии — это число рядом со стандартной ошибкой :

Стандартная ошибка регрессии в Excel

Стандартная ошибка этой конкретной модели регрессии оказывается равной 2,790029 .

Это число представляет собой среднее расстояние между фактическими результатами экзаменов и оценками экзаменов, предсказанными моделью.

Обратите внимание, что некоторые экзаменационные баллы будут отличаться от прогнозируемого более чем на 2,79 единицы, в то время как некоторые будут ближе. Но в среднем расстояние между реальными экзаменационными баллами и прогнозируемыми составляет 2,790029 .

Также обратите внимание, что меньшая стандартная ошибка регрессии указывает на то, что модель регрессии более точно соответствует набору данных.

Таким образом, если мы подгоним новую регрессионную модель к набору данных и получим стандартную ошибку, скажем, 4,53 , эта новая модель будет хуже предсказывать результаты экзаменов, чем предыдущая модель.

Дополнительные ресурсы

Другим распространенным способом измерения точности регрессионной модели является использование R-квадрата. Прочтите эту статью , чтобы получить хорошее объяснение преимуществ использования стандартной ошибки регрессии для измерения точности по сравнению с R-квадратом.


Whenever we fit a linear regression model, the model takes on the following form:

Y = β0 + β1X + … + βiX +ϵ

where ϵ is an error term that is independent of X.

No matter how well X can be used to predict the values of Y, there will always be some random error in the model.

One way to measure the dispersion of this random error is by using the standard error of the regression model, which is a way to measure the standard deviation of the residuals ϵ.

This tutorial provides a step-by-step example of how to calculate the standard error of a regression model in Excel.

Step 1: Create the Data

For this example, we’ll create a dataset that contains the following variables for 12 different students:

  • Exam Score
  • Hours Spent Studying
  • Current Grade

Step 2: Fit the Regression Model

Next, we’ll fit a multiple linear regression model using Exam Score as the response variable and Study Hours and Current Grade as the predictor variables.

To do so, click the Data tab along the top ribbon and then click Data Analysis:

If you don’t see this option available, you need to first load the Data Analysis ToolPak.

In the window that pops up, select Regression. In the new window that appears, fill in the following information:

Once you click OK, the output of the regression model will appear:

Step 3: Interpret the Standard Error of Regression

The standard error of the regression model is the number next to Standard Error:

Standard error of regression in Excel

The standard error of this particular regression model turns out to be 2.790029.

This number represents the average distance between the actual exam scores and the exam scores predicted by the model.

Note that some of the exam scores will be further than 2.79 units away from the predicted score while some will be closer. But, on average, the distance between the actual exam scores and the predicted scores is 2.790029.

Also note that a smaller standard error of regression indicates that a regression model fits a dataset more closely.

Thus, if we fit a new regression model to the dataset and ended up with a standard error of, say, 4.53, this new model would be worse at predicting exam scores than the previous model.

Additional Resources

Another common way to measure the precision of a regression model is to use R-squared. Check out this article for a nice explanation of the benefits of using the standard error of the regression to measure precision compared to R-squared.

В
линейной регрессии обычно оценивается
значимость не только уравнения в целом,
но и отдельных его параметров. С этой
целью по каждому из параметров определяется
его стандартная ошибка: тb
и
та.

Стандартная
ошибка коэффициента регрессии параметра
b
рассчитывается
по формуле:

Где

остаточная дисперсия на одну степень
свободы.

Отношение
коэффициента регрессии к его стандартной
ошибке дает t-статистику,
которая подчиняется статистике Стьюдента
при

степенях
свободы. Эта статистика применяется
для проверки статистической значимости
коэффициента регрессии и для расчета
его доверительных интервалов.

Для
оценки значимости коэффициента регрессии

его величину сравнивают с его стандартной
ошибкой, т.е. определяют фактическое
значение t-критерия
Стьюдента:
,
которое затем сравнивают с табличным
значением при определенном уровне
значимостиα
и
числе степе­ней свободы
.

Справедливо
равенство

Доверительный
интервал для коэффициента регрессии

определяется как
.

Стандартная
ошибка параметра
а
определяется
по формуле

Процедура
оценивания значимости данного параметра
не отличается от рассмотренной выше
для коэффициента регрессии: вычисляется
t-критерий:

Его
величина сравнивается с табличным
значением при

степенях свободы.

Значимость
линейного коэффициента корреляции

проверяется на основе величины ошибки
коэффициента корреляции mr:

Фактическое
значение t-критерия
Стьюдента определяется как

Данная
формула свидетельствует, что в парной
линейной регрессии
,
ибо как уже указывалось,
.
Кроме того,,
следовательно,.

Таким
образом, проверка гипотез о значимости
коэффициентов регрессии и корреляции
равносильна проверке гипотезы о
значимости линейного уравнения регрессии.

Рассмотренную
формулу оценки коэффициента корреляции
рекомендуется применять при большом
числе наблюдений, а также если r
не близко к +1 или –1.

2.3 Интервальный прогноз на основе линейного уравнения регрессии

В
прогнозных расчетах по уравнению
регрессии определяется предсказываемое
yр
значение
как точечный прогноз
х
при
хр
= х
k
т.
е. путем подстановки в линейное уравнение
регрессии

соответствующего
значения х.
Однако
точечный прогноз явно нереален, поэтому
он дополняется расчетом стандартной
ошибки
х,
т.
е.
,
и
соответственно мы получаем интервальную
оценку прогнозного значения у*:

Считая,
что прогнозное значение фактора хр
= х
k
получим
следующую формулу расчета стандартной
ошибки предсказываемого по линии
регрессии значения, т. е.

имеет выражение:

Рассмотренная
формула стандартной ошибки предсказываемого
среднего значения у
при
заданном значении хk
характеризует
ошибку положения линии регрессии.
Величина стандартной ошибки
достигает
минимума при
и
возрастает по мере того, как «удаляется»
от
в любом направлении. Иными словами, чем
больше разность междуи,
тем больше ошибка,
с
которой предсказывается среднее значение
у
для
заданного значения
.
Можно ожидать наилучшие результаты
прогноза, если признак-фактор х находится
в центре области наблюдений х, и нельзя
ожидать хороших результатов прогноза
при удалении.
от. Если же значение.
оказывается за пределами наблюдаемых
значенийх,
используемых при построении линейной
регрессии, то результаты прогноза
ухудшаются в зависимости от того,
насколько
.
отклоняется от области наблюдаемых
значений факторах.

На
графике, приведенном на рис. 1, доверительные
границы для

представляют
собой гиперболы, расположенные по обе
стороны от линии регрессии. Рис. 1
показывает, как изменяются пределы в
зависимости от изменения
.:
две гиперболы по обе стороны от линии
регрессии определяют 95 %-ные доверительные
интервалы для среднего значенияу
при
заданном значении х.

Однако
фактические значения у
варьируют
около среднего значения
.
Индивидуальные
значения у
могут
отклоняться от


на
величину случайной ошибки ε, дисперсия
которой оценивается как остаточная
дисперсия на одну степень свободы
.
Поэтому ошибка предсказываемого
индивидуального значенияу
должна включать не только стандартную
ошибку
,
но и случайную ошибкуs.

Рис.
1. Доверительный интервал линии регрессии:

а
верхняя
доверительная граница; б
линия
регрессии;

в
доверительный
интервал для

при
;

г
нижняя
доверительная граница.

Средняя
ошибка прогнозируемого индивидуального
значения у
составит:

При
прогнозировании на основе уравнения
регрессии следует помнить, что величина
прогноза зависит не только от стандартной
ошибки индивидуального значения у,
но
и от точности прогноза значения фактора
х.
Его
величина может задаваться на основе
анализа других моделей исходя из
конкретной ситуации, а также анализа
динамики данного фактора.

Рассмотренная
формула средней ошибки индивидуального
значения признака у
может
быть использована также для оценки
существенности различия предсказываемого
значения и некоторого гипотетического
значения.

11

Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]

  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #
  • #


Загрузить PDF


Загрузить PDF

Стандартная ошибка оценки служит для того, чтобы выяснить, как линия регрессии соответствует набору данных. Если у вас есть набор данных, полученных в результате измерения, эксперимента, опроса или из другого источника, создайте линию регрессии, чтобы оценить дополнительные данные. Стандартная ошибка оценки характеризует, насколько верна линия регрессии.

  1. Изображение с названием Calculate the Standard Error of Estimate Step 1

    1

    Создайте таблицу с данными. Таблица должна состоять из пяти столбцов, и призвана облегчить вашу работу с данными. Чтобы вычислить стандартную ошибку оценки, понадобятся пять величин. Поэтому разделите таблицу на пять столбцов. Обозначьте эти столбцы так:[1]

  2. Изображение с названием Calculate the Standard Error of Estimate Step 2

    2

    Введите данные в таблицу. Когда вы проведете эксперимент или опрос, вы получите пары данных — независимую переменную обозначим как x, а зависимую или конечную переменную как y. Введите эти значения в первые два столбца таблицы.

    • Не перепутайте данные. Помните, что определенному значению независимой переменной должно соответствовать конкретное значение зависимой переменной.
    • Например, рассмотрим следующий набор пар данных:
      • (1,2)
      • (2,4)
      • (3,5)
      • (4,4)
      • (5,5)
  3. Изображение с названием Calculate the Standard Error of Estimate Step 3

    3

    Вычислите линию регрессии. Сделайте это на основе представленных данных. Эта линия также называется линией наилучшего соответствия или линией наименьших квадратов. Расчет можно сделать вручную, но это довольно утомительно. Поэтому рекомендуем воспользоваться графическим калькулятором или онлайн-сервисом, которые быстро вычислят линию регрессии по вашим данным.[2]

    • В этой статье предполагается, что уравнение линии регрессии дано (известно).
    • В нашем примере линия регрессии описывается уравнением y^{{prime }}=0,6x+2,2.
  4. Изображение с названием Calculate the Standard Error of Estimate Step 4

    4

    Вычислите прогнозируемые значения по линии регрессии. С помощью уравнения линии регрессии можно вычислить прогнозируемые значения «y» для значений «x», которые есть и которых нет в наборе данных.

    Реклама

  1. Изображение с названием Calculate the Standard Error of Estimate Step 5

    1

    Вычислите ошибку каждого прогнозируемого значения. В четвертом столбце таблицы запишите ошибку каждого прогнозируемого значения. В частности, вычтите прогнозируемое значение (y^{{prime }}) из фактического (наблюдаемого) значения (y).[3]

    • В нашем примере вычисления будут выглядеть так:
  2. Изображение с названием Calculate the Standard Error of Estimate Step 6

    2

    Вычислите квадраты ошибок. Возведите в квадрат каждое значение четвертого столбца, а результаты запишите в последнем (пятом) столбце таблицы.

    • В нашем примере вычисления будут выглядеть так:
  3. Изображение с названием Calculate the Standard Error of Estimate Step 7

    3

    Найдите сумму квадратов ошибок. Она пригодится для вычисления стандартного отклонения, дисперсии и других величин. Чтобы найти сумму квадратов ошибок, сложите все значения пятого столбца. [4]

    • В нашем примере вычисления будут выглядеть так:
      • 0,64+0,36+1,0+0,36+0,04=2,4
  4. Изображение с названием Calculate the Standard Error of Estimate Step 8

    4

    Завершите расчеты. Стандартная ошибка оценки — это квадратный корень из среднего значения суммы квадратов ошибок. Обычно ошибка оценки обозначается греческой буквой sigma . Поэтому сначала разделите сумму квадратов ошибок на число пар данных. А потом из полученного значения извлеките квадратный корень.[5]

    • Если рассматриваемые данные представляют всю совокупность, среднее значение находится так: сумму нужно разделить на N (количество пар данных). Если же рассматриваемые данные представляют некоторую выборку, вместо N подставьте N-2.
    • В нашем примере, скорее всего, имеет место выборка, потому что мы рассматриваем всего 5 пар данных. Поэтому стандартную ошибку оценки вычислите следующим образом:
  5. Изображение с названием Calculate the Standard Error of Estimate Step 9

    5

    Интерпретируйте полученный результат. Стандартная ошибка оценки — это статистический показатель, которые оценивает, насколько близко измеренные данные лежат к линии регрессии. Ошибка оценка «0» означает, что каждая точка лежит непосредственно на линии. Чем выше ошибка оценки, тем дальше от линии регрессии лежат точки.[6]

    • В нашем примере выборка достаточно маленькая, поэтому стандартная оценка ошибки 0,894 является довольно низкой и характеризует близко расположенные данные.

    Реклама

Об этой статье

Эту страницу просматривали 4719 раз.

Была ли эта статья полезной?

Понравилась статья? Поделить с друзьями:
  • Расчет стандартной ошибки модели
  • Расчет стандартной ошибки выборки
  • Расчет среднеквадратической ошибки
  • Расчет средней ошибки среднего арифметического
  • Расчет средней относительной ошибки пример