Заявление об авторских правах: эта статья является оригинальной статьей блоггера и не может быть воспроизведена без разрешения блоггера. Ориентируйтесь на качественные блоги, адрес блога: http://blog.csdn.net/zhihua_oba https://blog.csdn.net/zhihua_oba/article/details/78684257
Эмпирическая ошибка и ошибка обобщения, отклонение и дисперсия, недостаточное и избыточное соответствие, перекрестная проверка
Основное содержание
Ошибка восприятия и ошибка обобщения
Отклонение и дисперсия
Недостаточное и переобучение
перекрестная проверка
1. Ошибка опыта (ошибка обучения) и ошибка обобщения
Ошибка опыта (ошибка обучения). Ошибка модели в обучающем наборе называется «эмпирической ошибкой» или «ошибкой обучения». к
Ошибка обобщения. Ошибка модели в новом наборе образцов (тестовом наборе) называется «ошибкой обобщения».
2. Предвзятость и дисперсия
Ошибка обобщения может быть разложена на сумму отклонения, дисперсии и шума, а именно [Ошибка математической обработки] ошибка обобщения = смещение2 + дисперсия + шум. к
«Шум»: описывает нижнюю границу ожидаемой ошибки обобщения, которую может достичь любой алгоритм обучения в текущей задаче, и сразу же описывает сложность самой проблемы обучения. к
Предполагая, что ожидаемый шум равен нулю, ошибку обобщения можно разложить на сумму смещения и дисперсии, то есть [ошибка математической обработки] ошибка обобщения = смещение2 + дисперсия. к
«Смещение»: описывает степень отклонения между ожидаемым прогнозом модели (ожидаемым результатом прогноза модели) и истинным результатом. Чем больше степень отклонения, тем хуже подгонка модели, что приводит к недостаточной подгонке. к
«отклонение»: описывает изменение производительности модели, вызванное искажением данных, то есть степень стабильности модели на различных наборах данных. Чем больше дисперсия, тем хуже устойчивость модели. Если модель хорошо подходит для обучающего набора, но подходит для тестового набора плохо, дисперсия велика, что указывает на то, что модель менее устойчива. Это явление может быть связано с тем, что модель слишком подходит для обучающего набора. Комбинированное. к
Подведите итог: большие отклонения указывают на то, что модель недостаточно подогнана; большие отклонения указывают на то, что модель переоборудована. Мы всегда добивались того, как уравновесить отклонение и дисперсию модели. Если вас интересует детская обувь, вы можете прочитать «Понимание компромисса между отклонениями и отклонениями». к
Приведенный ниже рисунок может помочь читателям более интуитивно понять «смещение» и «отклонение». к
Рис. 1
3. Недостаточная и чрезмерная посадка
Как использовать кривую обучения, чтобы определить, соответствует ли модель недостаточному / избыточному соответствию? Если происходит переобучение / переоборудование, что с этим делать? к
1, по горизонтальной оси отложено количество обучающих выборок, а по вертикальной оси — ошибка:
Во-первых, давайте посмотрим, как определить, произошло ли недостаточное / переобучение в процессе обучения, как показано на рисунке 2. Когда модель недостаточно подогнана, она имеет более высокую ошибку как на обучающем наборе, так и на тестовом наборе. В это время отклонение модели велико; когда модель переоборудована, она имеет меньшую ошибку на обучающем наборе и более высокую ошибку на тестовом наборе. Высокая погрешность, в настоящее время большая дисперсия модели. Когда модель нормальная, у нее относительно низкие смещения и дисперсии на обучающем наборе и наборе тестов. к
фигура 2
Затем мы находим способ решить проблему недостаточного / переобучения. В соответствии с рисунком 2 выше мы обнаружили, что: когда модель недостаточно подогнана, мы обнаруживаем, что увеличение обучающей выборки не уменьшит отклонение и не может решить проблему недостаточной подгонки; когда модель переоборудована, мы обнаруживаем, что обучающая выборка увеличивается, а дисперсия Уменьшение, может решить проблему переоборудования. к
2, по горизонтальной оси отложена сложность модели, по вертикальной оси — ошибка:
Горизонтальная ось представляет сложность модели и методы увеличения сложности модели, такие как добавление элементов функций, добавление полиномов и т. д. к
Во-первых, давайте посмотрим, как определить, произошло ли недостаточное / переобучение в процессе обучения, как показано на рисунке 3. Модель находится в точке A, и у нее более высокая ошибка как для обучающего набора, так и для тестового набора. В это время отклонение модели велико, и модель не соответствует требованиям; модель находится в точке C и имеет меньшую ошибку на обучающем наборе. На тестовом наборе есть большая ошибка. В настоящее время дисперсия модели велика, и модель чрезмерно подогнана. Сложность модели оптимально контролируется в точке B. к
Рис. 3
Затем мы находим способ решить проблему недостаточного / переобучения. В соответствии с рисунком 3 выше мы обнаружили, что: когда модель не соответствует требованиям, сложность модели может быть увеличена; когда модель чрезмерно подогнана, сложность модели может быть уменьшена. к
3, по горизонтальной оси отложен коэффициент регулярного члена, по вертикальной оси — ошибка:
Обычно, чтобы ограничить модель от переобучения, можно добавить обычный член (штрафной срок). к
Во-первых, давайте посмотрим, как определить, произошло ли недостаточное / переобучение в процессе обучения, как показано на рисунке 4. Модель находится в точке A, она имеет меньшую ошибку на обучающем наборе и более высокую ошибку на тестовом наборе. В это время дисперсия модели велика, и модель переобучена; модель находится в точке C, в обучающем наборе и наборе тестов. В то же время в наборе есть большая ошибка, в это время отклонение модели велико, и модель недостаточно подогнана. Коэффициент регулярного члена модели контролируется в точке B, чтобы быть оптимальным. к
Рисунок 4.
Затем мы находим способ решить проблему недостаточного / переобучения. В соответствии с рисунком 4 выше мы обнаружили, что: когда модель чрезмерно подогнана, коэффициент модели может быть увеличен; когда модель недостаточно подогнана, коэффициент модели может быть уменьшен.
Выше мы рассказали, как определить недостаточное / переобучение с помощью кривой обучения и соответствующие решения. Затем мы предлагаем другие соответствующие решения для переоборудования / переоборудования. к
Как решить проблему недостаточной подгонки:
1) Добавьте другие функциональные элементы. Иногда наша модель не соответствует требованиям из-за недостаточного количества функциональных элементов. Для решения этой проблемы вы можете добавить другие функциональные элементы. Например, три типа функций: «комбинация», «обобщение» и «релевантность» являются важными средствами добавления функций. Независимо от того, что это за сцена, вы можете нарисовать тыкву с тыквой, и вы всегда получите неожиданные результаты. В дополнение к вышеупомянутым функциям в качестве предпочтений для добавления функций могут использоваться «контекстные функции», «функции платформы» и т. Д. к
2) Добавьте полиномиальные функции, которые обычно используются в алгоритмах машинного обучения, такие как добавление квадратичных или кубических членов к линейным моделям, чтобы сделать модель более общей. Например, модель FM и модель FFM на самом деле являются линейными моделями с добавлением полинома второго порядка для обеспечения определенной степени соответствия модели. к
3) Уменьшите коэффициент регуляризации, что было проанализировано в предыдущей статье. к
и т. д., существует множество других методов, вы можете выбрать решение с недостаточной подгонкой, соответствующее решению с избыточной подгонкой ниже. к
Как решить проблему переобучения:
1) Снова очистите данные. Одна из причин переобучения также может быть вызвана нечистыми данными. В случае переобучения нам нужно снова очистить данные. к
2) Увеличьте количество обучающих выборок, что было проанализировано в предыдущей статье. к
3) Уменьшите сложность модели, которая была проанализирована в предыдущей статье. к
4) Увеличьте коэффициент регулярного члена, что было проанализировано в предыдущей статье. к
5) Используйте метод исключения, который очень часто используется в нейронных сетях. С точки зрения непрофессионала, метод отсева состоит в том, чтобы нейроны не работали с определенной вероятностью во время обучения. к
6)early stoping。
7) Уменьшите количество итераций. к
Увеличьте скорость обучения. к
9) Добавьте данные шума. к
10) В древовидной структуре дерево можно обрезать. к
и т. д., существует множество методов, которые необходимо выбирать на основе реальных проблем и реальных моделей.
Четыре, перекрестная проверка
Перекрестная проверка, основная цель — оценить «ошибку обобщения» модели и получить приблизительное значение «ошибки обобщения» модели. Когда есть несколько моделей на выбор, мы обычно выбираем модель с наименьшей «ошибкой обобщения». к
Здесь мы в основном вводим «K-кратную перекрестную проверку»:
1. Разделите набор данных (фактически обучающий набор, назовем его сейчас набором данных, предполагая, что он содержит N выборок) на K частей (каждая из которых содержит N / K выборок), выберите Один из них используется в качестве тестового набора, а K-1 используется в качестве обучающего набора. В этом случае в тестовой выборке K ситуаций. к
2, в каждом случае используйте обучающий набор для обучения модели, используйте тестовый набор для тестирования модели и вычислите ошибку обобщения модели (назовем ее сейчас так). к
3. Возьмите среднее значение ошибок обобщения модели при K условиях, чтобы получить окончательную ошибку обобщения модели.
Примечание: Обычно 2 <= K <= 10. к
Количество выборок в обучающем наборе должно быть достаточно большим, обычно не менее 50% от общего количества выборок. к
Обучающий набор и набор тестов должны равномерно отбираться из полного набора данных. Цель равномерной выборки — уменьшить отклонение между обучающим набором, тестовым набором и исходным набором данных. Когда количество выборок достаточно велико, случайная выборка может обеспечить эффект однородной выборки.
———————
OF: zhihua_oba
Источник: CSDN
Исходный текст: https://blog.csdn.net/zhihua_oba/article/details/78684257
Заявление об авторских правах: эта статья является исходной статьей блоггера. Приложите ссылку на сообщение в блоге, если вы перепечатываете его!
После проведения
исследования, наступает время
интерпретировать собранные факты и
проверить, насколько они подтверждают
выдвинутую ранее гипотезу. Известно,
что люди не всегда объясняют одни и те
же факты одинаково. В научном исследовании
развития человека необходимо использовать
надежные, воспроизводимые и непротиворечивые
методики анализа, которые приводят к
одинаковым выводам. Выполнение этой
задачи начинается с того, что выполнение
этой задачи начинается с понимания
того, что точной интерпретации данных
могут помешать различные обстоятельства.
Серьезная проблема
возникает в связи с предвзятостью
наблюдателя
– присущей всем людям склонности видеть
то, что они ожидают или хотят увидеть.
(Это и есть субъективность). Человек
либо не замечает, либо отказывается
поверить во все то, что противоречит
существующим у него предпосылкам. Это
происходит из-за принадлежности к
определенному культурному слою с его
традициями, предрассудками, стереотипами
или вследствие недостатка опыта.
Например, мы можем заключить, что финны
крайне недружелюбны и избегают знакомств,
тогда как на самом деле это следствие
застенчивости и самоуглубленности,
берущей свое начало в традициях финской
культуры.
Точной интерпретации
фактов может помешать и невосприимчивость.
Наблюдая одно и то же, человек может
настолько привыкнуть к происходящему,
что становится неспособным осознать
его значение. Например, по тому, за какой
партой сидит тот или иной ученик, можно
определить, как относятся к нему
одноклассники, лидер он или отверженный,
к какой компании или группе он принадлежит.
Но если мы видим этих детей в классе
несколько дней в неделю, мы можем
проглядеть эту информацию. Другим
примером может служить наша неспособность
уловить признаки дистресса у близких
нам людей.
Еще одним препятствием
объективному изучению является тенденция
слишком широко, узко или произвольно
смотреть на изучаемое поведение. Если,
например, необходимо выявить особенности
памяти у детей и подростков, можно
воспользоваться множеством подходов
к изучению этой проблемы. Можно наблюдать
за отдельными детьми или подросткам на
протяжении обычного школьного дня,
отмечая, сколько раз они забывают
усвоенный ранее материал. Однако для
точного измерения функций памяти этот
метод слишком произволен. Такого рода
наблюдения не учитывает насколько
хорошо испытуемые выучили то, что так
легко забыли впоследствии, и знали ли
они это вообще. В этом смысле лабораторные
условия могли бы дать более точные
результаты.
Определение
границ выводов.
Исследователей, занимающихся проблемами
развития, особенно беспокоят 3 проблемы:
проблема
дефиниции, проблема обобщения, проблема
смешения понятий корреляции и причинности.
Проблема дефиниции.
В исследованиях обычно имеют дело с 2
видами определений: теоретическими и
операциональными. Теоретическое
определение какой-либо переменной
основывается на гипотетических
построениях ученого. Например,
теоретическое определение интеллекта
могло бы звучать как «способность
приспосабливаться к окружающей среде».
Операциональное же определение звучало
бы как «поведение, измеряемое шкалой
умственного развития Стэндфорд-Бине».
Исследователи с различными представлениями
об интеллекте получают различные
результаты при интерпретации одних и
тех же данных. Если ученые хотят быть
уверены, что изучают одно и то же, им
нужно договориться об определении,
которое описывает методики наблюдения
и измерения, используемые в исследованиях.
Это и есть операциональное определение.
Проиллюстрируем
сказанное выше, рассмотрев изучение
агрессии. Можно было бы согласиться с
теоретическим определением агрессии
как «поведения, имеющего намерением
принести вред или разрушение». Но как
измерить намерение? Что наблюдать? Чтобы
ответить на эти вопросы, требуется
определиться с предметом исследования.
Один исследователь может фиксировать
толчки, удары ногами и кулаками, второй
– подсчитывать словесные оскорбления,
а третий – отыскивать агрессивное
поведение в историях, придуманных
ребенком по заданию ученого. Однако,
ребенок получивший высокие баллы за
появление агрессии в своих фантазиях,
может иметь очень низкие результаты за
проявление актуальной физической
агрессии. Все перечисленные исследователи
измеряют на самом деле разные вещи.
Т.о., до тех пор
пока переменные не будут операционально
определены, е стоит ожидать воспроизводимости
результатов и на совпадение выводов у
разных исследователей, занимающихся
одной прблемой.
Проблема обобщения.
Исследование всегда проводится в
конкретной обстановке, при конкретных
обстотельствах и с конкретными людьми,
принадлежащими к конкретным социокультурным
группам. Поэтому результаты любого
исследования могут распространяться
на таких же людей, находящихся в
аналогичных условиях.
Проблема смешения
понятий корреляции и причинности.
Изучив какой-либо феномен и выявив его
связь с каким-то фактором, не всегда
можно утверждать, что мы имеем дело с
причинностью.
Для измерений
степени связи между 2 переменными
исследователи прибегают к такой
статистической процедуре, как вычисление
корреляции.
Когда 2 переменные коррелируют между
собой, возникает желание прийти к
заключению, что одна переменная выступает
в качестве причины по отношению к другой.
Например, некоторые исследователи
обнаружили зависимость между трудностью
темперамента ребенка и количеством
наказаний, которым подвергается он со
стороны родителей: чем труднее темперамент,
тем больше наказаний получает ребенок.
Заключение вполне логично, но это еще
не значит, что оно правильно. Корреляция
не подразумевает отношений причинности.
Проблема состоит в том, в каком направлении
искать причину. Действительно ли трудные
дети провоцируют более частое применение
наказаний? Или большее количество
наказаний приводит к большим трудностям
темперамента? Или существует третий
фактор, который м.б. причиной первых
двух, как, например, возможное влияние
генетики на трудность ребенка и на
тенденцию родителей к наказанию?
4
Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
Эмпирическая часть научного исследования призвана дать ответы на ключевые вопросы: что это, для чего, как действует, где используется и пр.?
Эмпирический раздел представляет собой теоретическую главу, вводную и заключительную части проекта, в которой конкретизируются цель, задачи, предмет, объект, проблема, методология и ключевые понятия, моменты и алгоритмы, результаты проведенного исследования.
Рассмотрим наиболее распространенные ошибки эмпирической части научного проекта.
- Некорректная формулировка проблемы и темы.
Данная ошибка проявляется в использовании обтекаемых и размытых форм, отсутствии конкретики. Проблема и тема ВКР должны быть четко и ясно поставлены. Автору работы следует понять, что предстоит изучать.
- Перепутаны предмет и объект.
Эта одна из самых распространенных и грубых ошибок. Исследователь должен понимать указанные категории. Объект – это конкретная единица, на примере которой исследуется поставленная ранее проблема. Предмет же призван ограничить исследование конкретными параметрами: свойства, характеристики, «ракурс» (ключевые моменты, определенные стороны) и пр.
- Неаргументированные выводы.
В конце каждого подпункта и главы автор должен изложить свою точку зрения, сформулировать выводы. Важно, чтобы все умозаключения были обоснованными, опирались на конкретные факты, научные мысли и доказанные теории и пр.
Необоснованные выводы равносильны «слухам», обычному предположению. Отсутствие доказательств «своей правоты» — грубая ошибка, которая может стоить «дисквалификации» или снижению итоговой оценки.
- Текст изложен в публицистическом стиле.
Все требования к научной работе указаны в ГОСТах и методических рекомендациях. Важно, чтобы материал был изложен в научном стиле. Никакой иной язык и манера изложения недопустимы. Использование публицистического или делового стиля приравнивается к принципу «шаг влево, шаг вправо – расстрел».
- Тема и содержание научного исследования не совпадают.
В данном случае автор пренебрег темой или неправильно ее понял и рассмотрел в проекте совершенно иные понятия, смежные вопросы и пр. Далеко не всегда исследователю удается полноценно рассмотреть проблему, изучить ее с нужного ракурса. Иногда студенты/соискатели отклоняются от утвержденного плана, делают «лирические отступления» в тексте, сбиваясь с ориентира, истинного пути.
Важно, чтобы все подпункты и главы поэтапно раскрывали тему, отражали ее суть, ключевые моменты.
Возникли сложности?
Нужна помощь преподавателя?
Мы всегда рады Вам помочь!
- Объем работы и ее отдельных частей.
Важно, чтобы работа была выполнена равномерно. Данный принцип предполагает, что каждый подпункт и глава должна быть определенного объема. Главы между собой должны быть идентичны (по количеству страниц), примерно равны. То же самое касается и подпунктов внутри разделов.
Недопустимо, чтобы одна часть была объемной, а другая – едва достигала своего минимума. По объему все части должны быть примерно равны.
- Импровизация вместо работы по определенному плану.
Импровизация – дело хорошее, но приемлемое в конкретных ситуациях. Научное исследование должно придерживаться определенного плана. Такой подход позволит рассмотреть исключительно важные моменты, ничего не упустить. Отклонение от плана чревато доработкой или недопуском до защиты (публикации).
С помощью импровизации студент может дополнить отдельные фрагменты, но не написать полноценное научное исследование.
- Оформление.
Все научные работы должны быть не просто выполнены и зафиксированы на бумаге, но и оформлены соответствующим образом. Существует общепринятые нормы (ГОСТы). К ним относят ГОСТ 7.32-2001, ГОСТ Р 7.0.5-2008, ГОСТ 7.1-2003. Также каждый ВУЗ имеет право устанавливать собственные требования к научным работам. Они отражаются в методических рекомендациях. Данный документ находится на кафедре. В нем содержатся основные критерии и примеры оформления. Важно несколько раз перепроверить оформление ссылок, сносок, библиографии и пр. Порой даже запятая или лишний пробел может стать решающим моментом в судьбе автора и его проекта.
- Ошибки в тексте и расчетах.
Наличие орфографических, пунктуационных, стилистических ошибок демонстрируют низкий уровень грамотности исследователя. Труды с подобными недочетами не заслуживают высокой оценки, даже если сама работа вносит значительный вклад в развитие отрасли, науки. Важно не только правильно организовать проект, но и грамотно зафиксировать его результаты на бумаге.
Ошибки в расчетах недопустимы, так как они фактически искажают результаты научного проекта, а значит, ставят под сомнение его эффективность и профпригодность автора.
Перед сдачей на проверку необходимо несколько раз проверить материал на наличие ошибок.
- Использование недостоверных источников.
Научный проект призван решить актуальную проблему, привнести вклад в развитие науки и отрасли. Для этого следует не только изучить все действующие теории и правила, но и аргументировать свою позицию. Для этого потребуются достоверные и обоснованные источники, свежие данные, отражающие реальную картину и необходимость реформы.
- Низкая уникальность работы.
Все научно-исследовательские проекты проходят проверку на плагиат. Автору важно, чтобы его труд соответствовал установленному минимуму (уточнить его можно в ВУЗе). Исследователям не следует увлекаться копированием чужих трудов и чрезмерным цитированием.
- Несоблюдение сроков выполнения и сдачи материала.
Данный постулат означает, что не стоит откладывать написание исследования на последний день (момент). Если студент/аспирант не вовремя предоставит работу на кафедру, у него могут возникнуть серьезные проблемы: академическая задолженность и, как следствие, отчисление.
Старайтесь вовремя выполнять все задания, проекты и предоставлять их на проверку научному руководителю.
Яна Игоревна Архипенко
Эксперт по предмету «Социология»
Задать вопрос автору статьи
Определение 1
Интерпретация понятий – это истолкование, определение содержания понятий, применяемых в исследовании, это обязательное условие эмпирического социологического исследования.
Эмпирическая интерпретация понятий исследования заключается в описании процедуры перехода от теоретических определений данных понятий, выбранных для исследования, к эмпирически наблюдаемым показателям.
Любое исследование имеет понятийный аппарат, в нем необходимо разобраться на самом первом этапе исследования, так как понятия и категории могут иметь неоднозначное толкование, соответственно исследователю сложно их понять, для этого и необходимо провести интерпретацию понятий.
Определение 2
Понятийный аппарат – это система терминов, которая позволяет единообразно толковать и понимать научные процессы и связи.
IT Профессия «Разработчик ПО»
Получишь знания, необходимые в работе, соберешь портфолио из собственных проектов и начнешь получать $$
Узнать подробнее
Главная задача эмпирической интерпретации – максимально полно описать проблему ситуацию. С практической стороны интерпретация означает процедуру построения измерительной конструкции (шкалы), которая охватит теоретическое понятие в эмпирическом исследовании.
Эмпирическая интерпретация понятий
От интерпретации понятий зависит последовательность выстраивания путей для решения проблемной ситуации, выполнить данную процедуру сложно, из-за этого интерпретация может иметь негативный характер.
Исследователи часто берут за основу самое широкое и самое простое для понимания толкование понятия, тем самым не углубляясь в его содержание.
Различные определения имеют разные уровни абстракции. Есть очень объемные понятие, толкование которых зависит от целого ряда факторов, для того чтобы грамотно их интерпретировать необходимо использовать комплексные показатели. К примеру, чтобы интерпретировать понятие «качество жизни», стоит учесть несколько факторов, ведь оно включает в себя и доход, и окружающую среду и медицину, образование и др.
«Интерпретация понятий эмпирического социологического исследования» 👇
Основное понятие может включать в себя другие подпонятия, имеющие не большой уровень абстракции.
Исходя из этого смысл интерпретации понятий, заключается в следующем:
- достигнуть нужного уровня исследования;
- обеспечить единый подход к содержанию исследовательской работы;
- обеспечить профессиональный «перевод» теоретических понятий в эмпирические и обратно;
- создать единый понятийный каркас для анализа социологических сведений.
Во время эмпирической интерпретации необходимо выделить наблюдаемые признаки элементов, которые конкретизируют содержание понятий. Выделение этих признаков происходит через их перечисление – от более общего к частному.
Этапы эмпирической интерпретации понятий
Эмпирическая интерпретация понятий состоит из нескольких этапов:
- Образ изучаемого явления.
- Уточнить основные характеристики понятия.
- Определить категории и единицы анализа.
Эмпирическими признаками могут выступать лишь те, за которыми можно наблюдать, и которые доступны измерению, те части объекта исследования, которые подлежат эмпирической интерпретации, принято называть единицами анализа, а их количественные характеристики – единицами счета.
Методологическая часть программы эмпирического исследования завершается интерпретацией понятий, после неё уже можно перейти к обоснованию методов сбора данных и их анализу. Для того, чтобы правильно провести исследование необходимо все три этапа интерпретации применять в единстве.
Уровни эмпирической интерпретации
Интерпретация состоит из нескольких уровней:
- теоретическая интерпретация,
- эмпирическая интерпретация,
- операционализация.
Теоретическая интерпретация заключается в выделении главных понятий исследования их еще принято назвать «ключевыми понятиями», необходимо дать теоретическое представление понятиям, для этого стоит обратиться к научной литературе. Результатом такого анализа должно стать сужение главного понятия в рамках конкретной теории и формирование общего представления явления.
Второй уровень — это эмпирическая интерпретация, её цель сопоставить теорию с конкретными фактами действительности. Проще говоря, происходит поиск эмпирического эквивалента данному ключевому понятию. На самом первом уровне идет обобщение целостного представления о понятии, на втором уровне напротив, идет разделение целостности понятия на отдельные элементы, которые дают более полное представление о явлении или предмете исследования. Выделяются и устанавливаются определенные признаки и свойства теоретического понятия, а точнее, предмета, объекта нашего исследования, которые и заключены в эти понятия, термины. Под признаком понимают характеристику, свойства объекта исследования.
Операционализация понятий в социологическом исследовании представляет собой процедуру установления связей между концептуальным аппаратом исследования и его методическим инструментарием, с помощью опреационализации происходит переход от теоретического знания к эмпирическому.
Любая программа исследования, в которой присутствуют методы измерения и эксперимента будет требовать операционализации не зависимо от предмета исследования, будь то социальное развитие трудовых коллективов или образ жизни молодёжи.
Помимо этого, данная процедура считается обязательным условием выстраивания системы социальных показателей — исключительно важной для исследователей задачи, которая связанна с решением практических задач планирования и прогнозирования социальных явлений и процессов.
Операционализация включает в себя экспериментальную ситуацию и не является исключительно логической процедурой, это разработка новых средств фиксирования информации — индексов и шкал, то, что можно назвать «методическим экспериментом», это поиск эмпирических показателей, а не использование их.
Есть общепринятые требования для интерпретации понятий – это терминологическая точность и целостность определений, а также точность процедуры операционализации. Таким образом, процесс разбивки понятий на разные индикаторы и переменные — это поиск количественных способов отражения, свойств объекта исследования.
Находи статьи и создавай свой список литературы по ГОСТу
Поиск по теме
Интерпретация результатов, полученных в ходе психолого-педагогических исследований, имеет свою специфику. Давайте разберем эту темы подробнее с тем, чтобы в последующем студенты не имели проблем с тем, чтобы сделать правильные выводы на основа имеющихся данных.
Понятие интерпретации
Начнем с определения.
Интерпретация результатов – это толкование, изъяснение, объяснение смысла данных, полученных в ходе исследования.
Фактически – интерпретация – это важный этап любых теоретических и эмпирических методов исследования. Она давно и плодотворно применяется в научной деятельности и позволяет:
- оценить степень воздействия на испытуемого в ходе выполнения различных тестов;
- привести к общему знаменателю ответы, полученные в ходе опросов;
- грамотно подойти к выбору испытуемых и подобрать подходящие методы исследования (для ребенка это могут быть рисуночные испытания, для взрослых целесообразно использовать документальные материалы).
Объяснение, которое исследователь дает объектам, действиям или процессам, должны учитывать соответствия между чувственными состояниями человека и его невербальными проявлениями, между содержанием рисунка и реальным отношением ребенка к окружающим людям, между условиями, в которых живет человек, и доступными способами выражения мыслей и переживаний.
Основное назначение интерпретации – это преобразование разрозненных данных в познание. При этом необходимо учитывать возможные нюансы полученной информации, оценивать ее значимость в решении задач исследования, выдвигать догадки о вероятных мотивах поступков участников педагогической ситуации.
Интерпретация результатов педагогического исследования – это процесс анализа и синтеза фактов с учетом их полезности и значимости, актуальная часть всей совокупности методологии психолого-педагогического исследования.
В ряде научных направлений интерпретация может использоваться как самостоятельный метод исследования. Без нее не обойтись в ситуациях, когда появляется множественность содержаний происходящего и множество возможных вариантов оценки полученных данных.
Психолого-педагогическая ситуация практически всегда многовариантна. В связи с этим в психолого-педагогическом исследовании интерпретация базируется на множественности ценностных установок и смыслов, готовности к свободному обмену между участниками, доктринами, парадигмами и концепциями.
Этапы интерпретации
Существует некоторая последовательность действий, которая применяется для проведения интерпретации тех или иных данных:
- выдвижение предположения;
- проверка достоверности фактов;
- определение личной позиции исследователя путем рефлексии и погружения в ситуацию;
- структурирование информации, сопоставление полученных данных с данными из других источников;
- проведение многоаспектного анализа;
- определение причин и следствий;
- формулирование заключительных выводов на основе синтеза полученной информации;
- получение обратной связи: подтверждение или опровержение выдвинутой в ходе исследования гипотезы.
Специфика интерпретации результатов исследования
Психология и педагогика – это гуманитарные дисциплины. Соответственно и направленность исследований в психологии и педагогике будет носить гуманитарный характер. И тут на первый план выходит необходимость осмысления фактов с позиции их соотношения с трудностями человека. В связи с этим научное знание необходимо многократно соотнести с эмпирическим опытом.
Гуманитарные науки, в частности психология и педагогика, в основе своей имеют установка на то, что каждый человек является ценностью сам по себе, он уникален и неповторим. И эта уникальность и ценность не могут быть постигнуты в рамках научных закономерностей. К ним можно прийти лишь опытным путем.
Какие бы новые методы исследования не внедрялись в практику педагогов, на первом месте всегда стоит понимание. На сегодняшний день это самый действенный способ постижения педагогической действительности.
Понимание – это уникальная форма освоения реальности, которая являет собой постижение и восстановление смыслового содержания явлений исторической, социальной, культурной и природной действительности.
Если говорить о понимании как о методе исследования в педагогике, то в его основе лежит постижение исследователем образовательных феноменов во всей их целостности. По этому признаку понимание значительно превосходит другие естественнонаучные приемы исследования окружающей действительности, такие как классификация, измерения, дедукция и индукция. Также понимание подразумевает явное отношение к изучаемому предмету или явлению.
Понимание не равно интерпретации. Между этими двумя понятиями существует значительная разница. Интерпретация – это более сухое и отстраненное объяснение фактов или явлений, тгда как понимание всегда затрагивает эмоциональную сферу участников пелагогического взаимодействия, их отношение к людям и миру.
В понимании больше субъективизма. Если говорить про педагогические прецеденты, по пытаясь понять, исследователь основывается на имеющемся опыте, известных ему доктринах и концепциях. Это позволяет исследователю приблизиться к постижению педагогической действительности во всей ее целостности, рассмотреть интересующую часть с позиции мыслей, чувств, интуиции, в общем, всего того, что не поддается анализу с применением точных научных методов.
Оценка полученных результатов, будь они положительными или отрицательными, позволяет прийти к выводам. Осмысление выводов проводится в системе уже известных теоретических раскладов, что позволяет прийти к обобщениям и уточнениям смыслов.
Только после интерпретации результатов и формулировки выводов есть смысл переходить к обсуждениям и литературному оформлению работы.
Кандидат педагогических наук. Кафедра методики преподавания Московского городского педагогического университета
Эмпирическая часть научного исследования призвана дать ответы на ключевые вопросы: что это, для чего, как действует, где используется и пр.?
Эмпирический раздел представляет собой теоретическую главу, вводную и заключительную части проекта, в которой конкретизируются цель, задачи, предмет, объект, проблема, методология и ключевые понятия, моменты и алгоритмы, результаты проведенного исследования.
Рассмотрим наиболее распространенные ошибки эмпирической части научного проекта.
- Некорректная формулировка проблемы и темы.
Данная ошибка проявляется в использовании обтекаемых и размытых форм, отсутствии конкретики. Проблема и тема ВКР должны быть четко и ясно поставлены. Автору работы следует понять, что предстоит изучать.
- Перепутаны предмет и объект.
Эта одна из самых распространенных и грубых ошибок. Исследователь должен понимать указанные категории. Объект – это конкретная единица, на примере которой исследуется поставленная ранее проблема. Предмет же призван ограничить исследование конкретными параметрами: свойства, характеристики, «ракурс» (ключевые моменты, определенные стороны) и пр.
- Неаргументированные выводы.
В конце каждого подпункта и главы автор должен изложить свою точку зрения, сформулировать выводы. Важно, чтобы все умозаключения были обоснованными, опирались на конкретные факты, научные мысли и доказанные теории и пр.
Необоснованные выводы равносильны «слухам», обычному предположению. Отсутствие доказательств «своей правоты» — грубая ошибка, которая может стоить «дисквалификации» или снижению итоговой оценки.
- Текст изложен в публицистическом стиле.
Все требования к научной работе указаны в ГОСТах и методических рекомендациях. Важно, чтобы материал был изложен в научном стиле. Никакой иной язык и манера изложения недопустимы. Использование публицистического или делового стиля приравнивается к принципу «шаг влево, шаг вправо – расстрел».
- Тема и содержание научного исследования не совпадают.
В данном случае автор пренебрег темой или неправильно ее понял и рассмотрел в проекте совершенно иные понятия, смежные вопросы и пр. Далеко не всегда исследователю удается полноценно рассмотреть проблему, изучить ее с нужного ракурса. Иногда студенты/соискатели отклоняются от утвержденного плана, делают «лирические отступления» в тексте, сбиваясь с ориентира, истинного пути.
Важно, чтобы все подпункты и главы поэтапно раскрывали тему, отражали ее суть, ключевые моменты.
Возникли сложности?
Нужна помощь преподавателя?
Мы всегда рады Вам помочь!
- Объем работы и ее отдельных частей.
Важно, чтобы работа была выполнена равномерно. Данный принцип предполагает, что каждый подпункт и глава должна быть определенного объема. Главы между собой должны быть идентичны (по количеству страниц), примерно равны. То же самое касается и подпунктов внутри разделов.
Недопустимо, чтобы одна часть была объемной, а другая – едва достигала своего минимума. По объему все части должны быть примерно равны.
- Импровизация вместо работы по определенному плану.
Импровизация – дело хорошее, но приемлемое в конкретных ситуациях. Научное исследование должно придерживаться определенного плана. Такой подход позволит рассмотреть исключительно важные моменты, ничего не упустить. Отклонение от плана чревато доработкой или недопуском до защиты (публикации).
С помощью импровизации студент может дополнить отдельные фрагменты, но не написать полноценное научное исследование.
- Оформление.
Все научные работы должны быть не просто выполнены и зафиксированы на бумаге, но и оформлены соответствующим образом. Существует общепринятые нормы (ГОСТы). К ним относят ГОСТ 7.32-2001, ГОСТ Р 7.0.5-2008, ГОСТ 7.1-2003. Также каждый ВУЗ имеет право устанавливать собственные требования к научным работам. Они отражаются в методических рекомендациях. Данный документ находится на кафедре. В нем содержатся основные критерии и примеры оформления. Важно несколько раз перепроверить оформление ссылок, сносок, библиографии и пр. Порой даже запятая или лишний пробел может стать решающим моментом в судьбе автора и его проекта.
- Ошибки в тексте и расчетах.
Наличие орфографических, пунктуационных, стилистических ошибок демонстрируют низкий уровень грамотности исследователя. Труды с подобными недочетами не заслуживают высокой оценки, даже если сама работа вносит значительный вклад в развитие отрасли, науки. Важно не только правильно организовать проект, но и грамотно зафиксировать его результаты на бумаге.
Ошибки в расчетах недопустимы, так как они фактически искажают результаты научного проекта, а значит, ставят под сомнение его эффективность и профпригодность автора.
Перед сдачей на проверку необходимо несколько раз проверить материал на наличие ошибок.
- Использование недостоверных источников.
Научный проект призван решить актуальную проблему, привнести вклад в развитие науки и отрасли. Для этого следует не только изучить все действующие теории и правила, но и аргументировать свою позицию. Для этого потребуются достоверные и обоснованные источники, свежие данные, отражающие реальную картину и необходимость реформы.
- Низкая уникальность работы.
Все научно-исследовательские проекты проходят проверку на плагиат. Автору важно, чтобы его труд соответствовал установленному минимуму (уточнить его можно в ВУЗе). Исследователям не следует увлекаться копированием чужих трудов и чрезмерным цитированием.
- Несоблюдение сроков выполнения и сдачи материала.
Данный постулат означает, что не стоит откладывать написание исследования на последний день (момент). Если студент/аспирант не вовремя предоставит работу на кафедру, у него могут возникнуть серьезные проблемы: академическая задолженность и, как следствие, отчисление.
Старайтесь вовремя выполнять все задания, проекты и предоставлять их на проверку научному руководителю.
Теория обучения: минимизация эмпирического риска
Перевод
Ссылка на автора
Минимизация эмпирического риска является фундаментальной концепцией в машинном обучении, но удивительно, что многие практики не знакомы с ней. Понимание ERM необходимо для понимания ограничений алгоритмов машинного обучения и формирования хорошей основы для практических навыков решения проблем. Теория, лежащая в основе ERM, — это теория, объясняющая VC-измерение, вероятно, приблизительно правильное (PAC) обучение и другие фундаментальные концепции. На мой взгляд, всем, кто серьезно относится к машинному обучению, должно быть удобно говорить об ERM. Я попытаюсь объяснить основные понятия как можно более простыми, краткими и теоретически обоснованными. Эта статья в значительной степени основана на книге Понимание машинного обучения Шварца и Бен-Дэвида, которые я очень рекомендую всем, кто интересуется основами теории обучения.
Давайте начнем с простой контролируемой задачи классификации обучения. Допустим, мы хотим классифицировать электронные письма со спамом, вероятно, наиболее часто используемый пример в машинном обучении (заметьте, это не пост наивного Байеса). Каждое письмо имеет метку 0 или 1, либо спам, либо не спам. Обозначим доменное пространство черезИкси пространство с надписьюYнам также нужна функция для отображения пространства набора доменов в пространство набора меток,f: X -> YЭто всего лишь формальное определение учебного задания.
Теперь, когда у нас есть формальное определение проблемы, нам нужна модель, которая будет делать наши прогнозы: спам или не спам. По совпадению, синониммодельэто гипотезачас, что может быть немного запутанным. Гипотеза, в данном случае, является ничем иным, как функцией, которая получает данные из нашей областиИкси производит метку 0 или 1, то есть функциюh: X -> Y,
В конце концов, мы действительно хотим найти гипотезу, которая минимизирует нашу ошибку, верно? С этим мы приходим к термину минимизация эмпирического риска. Термин эмпирический подразумевает, что мы минимизируем нашу ошибку на основе выборочного набораSиз набора доменовИкс, Глядя на это с вероятностной точки зрения, мы говорим, что мыSиз набора доменовИкс, сDбудучи распределением поИкс, Таким образом, когда мы производим выборку из домена, мы выражаем, насколько вероятно, что выборка домена из выборки из доменаИкспоD(S).
В приведенном ниже уравнении мы можем определитьистинная ошибка, который основан на всем доменеИкс:
Так как у нас есть доступ только кSподмножество входной области, которую мы изучаем на основе этого примера обучающих примеров. У нас нет доступа кистинная ошибка, но кэмпирическая ошибка:
Эмпирическую ошибку также иногда называют ошибкой обобщения. Причина в том, что на самом деле в большинстве проблем у нас нет доступа ко всему доменуИксвходов, но только наше обучение подмножествоS, Wмы хотим обобщить на основеSТакже называется индуктивным обучением. Эта ошибка также называетсяриск,отсюда термин риск в эмпирической минимизации риска. Если бы это напомнило вам о мини-градиентном спуске, вы были бы правы. Эта концепция в основном повсеместна в современном машинном обучении.
Теперь мы можем поговорить о проблемепереобучения, А именно, поскольку у нас есть только подвыбор данных, может случиться так, что мы минимизируемэмпирическая ошибкано на самом деле увеличитьистинная ошибкаЭтот результат можно наблюдать в простой задаче подгонки кривой. Давайте представим, что у нас есть какой-то робот, которым мы хотим управлять, мы хотим отобразить некоторые данные датчиковИкск крутящим моментам. Данные датчиков имеют некоторый шум, поскольку датчики никогда не бывают идеальными, в этом случае мы собираемся использовать простой гауссовский шум для данных датчиков. Для этого мы подгоняем нейронную сеть и получаем следующий результат:
Мы можем увидеть эту ошибку обобщения, глядя на другой график, заметив, как в какой-то момент истинная ошибка начинает увеличиваться, а эмпирическая ошибка уменьшается дальше. Это является следствием наложения модели на тренировочные данные.
Теперь, когда мы определили нашиэмпирический риска такжефактический рисквозникает вопрос, можем ли мы сделать что-нибудь полезное с этим? Оказывается, мы можем гарантировать, что ERM будет работать с определенной уверенностью. Другими словами, мы хотели бы с определенной достоверностью определить верхнюю границу ошибки нашей модели. Смысл верхней границы заключается просто в том, что мы можем гарантировать, что ошибка не станет больше этой границы, отсюда и слово граница.
В текущем случае мы будем работать в рамкахпредположение о реализуемости, Я не собираюсь писать формальное определение, но в двух словах, предположение гласит, что существует гипотезачасв пространстве всевозможных гипотезЧАСэто оптимально в том смысле, что он имеет реальный риск 0, это также подразумевает, что найденная гипотеза на подмножествеSдостигает эмпирической ошибки 0. Конечно, это в основном неверно в реальных сценариях использования, и существуют обучающие парадигмы, которые ослабляют это предположение, но об этом я, возможно, оставлю для другого поста.
Давайте определим набор гипотез, для которых истинная ошибка выше, чем эпсилон:
Для этого набора гипотез ясно, что либо они получили нерепрезентативный набор для обучения, что привело к низкой эмпирической ошибке (риск) и высокой истинной ошибке (риск), либо они были недостаточно хороши, чтобы чему-то научиться.
Мы хотим отделить вводящие в заблуждение обучающие наборы, которые приводят к гипотезам, которые привели к низкой эмпирической ошибке и высокой истинной ошибке (случай переобучения), что в дальнейшем будет полезно при получении верхней границы:
Вероятность выборки конкретного подмножестваSто есть нерепрезентативная выборка логически равна или ниже, чем вероятность выборкиM, потому чтоSэто подмножествоМ.Таким образом, мы можем написать следующее:
Мы применим лемму об объединенном объединении к правой части уравнения, которая гласит, что вероятность выборки из объединения двух множеств меньше, чем вероятность выборки по отдельности. Вот почему мы можем написать сумму в правой части:
Кроме того, мы предполагаем, что примеры распределены независимо и одинаково (iid), поэтому мы можем записать вероятность того, что эмпирическая ошибка равна нулю, как произведение вероятностей отдельных предсказаний на правильность:
Вероятность того, что гипотеза верна в некоторой точке данных, может быть записана как 1 минуснастоящий риск, Это следует из того факта, что мы определили риск как долю ошибочно классифицированных примеров. Неравенство вытекает из того факта, что мы предполагаем, что ошибка меньше или равна верхней границе.
Если мы объединим два предыдущих уравнения, мы получим следующий результат:
Если мы объединим верхнее уравнение с предыдущим, где мы применили объединенную границу, мы получим следующий проницательный результат:
Мы можем заменить левую часть на некоторую постоянную 1-дельту, где дельта — это степень уверенности в том, что мы хотим, чтобы ошибка не превышала эпсилон. Мы можем просто переставить уравнение, чтобы сформулировать следующее:
Окончательный результат говорит нам, сколько примеров (m) нам нужно, чтобы ERM не приводил к ошибке выше, чем epsilon с определенной долей достоверности, т.е. когда мы выбираем достаточно примеров для ERM, это, вероятно, не приведет к ошибке выше, чем эпсилон. Я использую слово, вероятно, здесь, поскольку оно зависит от нашей дельты доверительной константы, которая находится между 0 и 1. Это интуитивно понятно, но я думаю, что иногда приятно взглянуть на уравнения и понять, что это имеет смысл, математически.
В ERM сделано много предположений. Я упомянул предположение о реализуемости, которое утверждает, что в нашем пуле гипотез есть оптимальная гипотеза. Также пространство гипотез не может быть конечным, как это сделано, чтобы быть здесь. В будущем я планирую пройти через парадигмы, которые ослабят эти предположения. Тем не менее, ERM является фундаментальной концепцией в теории обучения и необходима для любого серьезного специалиста по машинному обучению.
Материал из MachineLearning.
Перейти к: навигация, поиск
Содержание
- 1 Определения
- 1.1 Задача обучения по прецедентам
- 1.2 Функция потерь и эмпирический риск
- 1.3 Разновидности функций потерь
- 2 Достоинства и недостатки метода
- 3 Разновидности моделей алгоритмов
- 4 Литература
- 5 См. также
- 6 Ссылки
Эмпирический риск (Empirical Risk) — это средняя величина ошибки алгоритма на обучающей выборке.
Метод минимизации эмпирического риска (Empirical Risk Minimization, ERM) — это общий подход к решению широкого класса задач обучения по прецедентам, в первую очередь — задач обучения с учителем, включая задачи классификации и регрессии.
Определения
Задача обучения по прецедентам
Пусть — множество описаний объектов,
— множество допустимых ответов.
Предполагается, что существует неизвестная целевая зависимость — отображение
,
значения которой известны только на объектах конечной обучающей выборки
.
Задача обучения по прецедентам состоит в том, чтобы построить алгоритм
,
который приближал бы неизвестную целевую зависимость как на элементах выборки, так и на всём множестве .
Функция потерь и эмпирический риск
Вводится функция потерь
,
характеризующая величину отклонения ответа
от правильного ответа
на произвольном объекте .
Вводится модель алгоритмов ,
в рамках которой будет вестись поиск отображения,
приближающего неизвестную целевую зависимость.
Эмпирический риск — это функционал качества, характеризующий
среднюю ошибку алгоритма на выборке :
Метод минимизация эмпирического риска заключается в том, чтобы
в заданной модели алгоритмов
найти алгоритм, доставляющий минимальное значение функционалу эмпирического риска:
Разновидности функций потерь
В задачах классификации наиболее естественным выбором является пороговая функция потерь
Когда функция потерь разрывна,
минимизация эмпирического риска оказывается сложной задачей комбинаторной оптимизации.
Во многих практически важных случаях эта сводится к поиску максимальной совместной подсистемы в системе неравенств (число неравенств совпадает с число объектов обучения ) и является NP-полной.
Наряду с пороговыми фукциями потерь используются всевозможные их непрерывные аппроксимации,
что позволяет применять достаточно эффективные классические методы непрерывной оптимизации,
в том числе градиентные методы.
Более того, оказывается, что использование некоторых аппроксимаций
способно улучшать обобщающую способность алгоритма классификации.
Более подробно непрерывные аппроксимации рассматриваются в статье «Линейный классификатор».
В задачах регрессии наиболее типичным выбором является квадратичная функция потерь
Достоинства и недостатки метода
Основное достоинство заключается в том, что это конструктивный и универсальный подход,
позволяющий сводить задачу обучения к задачам численной оптимизации.
Основной недостаток — явление переобучения, которое возникает практически всегда при использовании метода минимизации эмпирического риска.
- Ограничение сложности модели
- Метод структурной минимизации риска
- Отбор признаков
- Наложение дополнительных ограничений на параметры модели
- Регуляризация
- Байесовская регуляризация
Разновидности моделей алгоритмов
- Линейные модели классификации
- Линейные модели регрессии
- Нелинейные модели классификации
- Нелинейные модели регрессии
Литература
- Вапник В. Н., Червоненкис А. Я. Теория распознавания образов. — М.: Наука, 1974. — 416 с. (подробнее)
- Вапник В. Н. Восстановление зависимостей по эмпирическим данным. — М.: Наука, 1979. — 448 с. (подробнее)
- Hastie, T., Tibshirani, R., Friedman, J. The Elements of Statistical Learning, 2nd edition. — Springer, 2009. — 533 p. (подробнее)
См. также
- Переобучение
- Теория вычислительного обучения
- Восстановление зависимостей по эмпирическим данным
- Теория Вапника-Червоненкиса
- Линейный классификатор