Hisamova Venera Nafikovna, Sitdikova Farida Bizyanovna, Usmanov Timur Ravilevich MACHINE TRANSLATION ERRORS (ON THE BASIS OF ANALYSIS …
philological sciences -linguistics
УДК 81’32
DOI: 10.26140/bgz3-2019-0802-0079
«ПЕРЕДНЯЯ ЧАСТЬ ПРАВОГО ТЕЛЕНКА», ИЛИ ОШИБКИ МАШИННОГО ПЕРЕВОДА (НА ОСНОВЕ АНАЛИЗА АВТОМАТИЧЕСКИХ СУБТИТРОВ)
© 2019
Ситдикова Фарида Бизяновна, кандидат филологических наук, доцент
Хисамова Венера Нафиковна, доктор филологических наук, профессор Усманов Тимур Равилевич, кандидат педагогических наук, доцент Казанский федеральный университет (420008, Россия, Казань ул. Кремлевская, 18, e-mail: farida7777@yandex.ru)
Аннотация. Статья посвящена анализу ошибок, сделанных машинным переводчиком Google Translate при переводе с английского на русский. Проблема качества машинного перевода является крайне актуальной в настоящее время в связи с возрастающей интенсивностью интернет-коммуникаций. В статье рассматриваются как достоинства, так и недостатки машинного перевода. Решение поставленной задачи — оценка качества машинного перевода — проводилось на материале автоматических субтитров, переведенных машинным переводчиком. На основании большого количества языковых примеров проведен анализ наиболее характерных ошибок переводчика Google Translate. Ошибки были поделены на несколько типов. Лексико-семантические ошибки включали в себя следующие: 1) неспособность выбрать нужное по контексту значение; 2) перевод семантических конструкций; 3) перевод имен собственных; 4) перевод аббревиатур. Рассматривались также морфологические, синтаксические и стилистические ошибки. Собрана статистика по количеству ошибок каждого типа. Делается вывод по количеству ошибок каждого типа. На основании проведенного опроса делается вывод о возможности использовать машинный перевод субтитров в практических целях в качестве сигнальной версии перевода субтитров. Материалом для исследования послужили автоматические субтитры, переведенные на русский язык Google Translate, которые сравнивались с английским оригиналом. Статья может представлять интерес для исследователей, интересующихся проблемами и перспективами машинного перевода.
Ключевые слова: компьютерная лингвистика, машинный перевод (МП), MT, машинный переводчик, автоматический перевод, автоматический переводчик, статистический МП, SMT, нейронный МП, NMT, система машинного перевода (СМП), постредактирование, ошибки машинного перевода
MACHINE TRANSLATION ERRORS (ON THE BASIS OF ANALYSIS OF AUTOMATIC SUBTITLES)
© 2019
Hisamova Venera Nafikovna, Doctor of Philology, professor Sitdikova Farida Bizyanovna, Candidate of Philological Sciences, Associate Professor Usmanov Timur Ravilevich, Candidate of Pedagigics, Associate Professor Kazan Federal University (420008, Russia, Kazan, Kremlevskaya St., 18, e-mail: farida7777@yandex.ru)
Abstract. The article describes typical errors made by Google Translate in the process of translation from English into Russian. Quality of machine translation is an acute problem due to increasing intensity of Internet communication. The article discusses both advantages and disadvantages of machine translation. The work objective was to evaluate the quality of machine translation. Subtitles generated automatically served as a study material. We used a large number of language examples to perform analysis of the most characteristic mistakes made by Google Translate. The errors were divided into several types. The lexico-semantic errors included: 1) choosing a wrong contextual meaning; 2) incorrect translation of semantic constructions; 3) incorrect translation of proper names; 4) incorrect translation of bbreviations. Morphological, syntactic and stylistic mistakes were also considered. We performed statistical analysis of each type of the detected errors. Based on the obtained data, it was shown that it is possible to use automatically generated subtitles for practical purposes as a signal version of the subtitle translation. The article may be of interest to researchers studying the problems and prospects of machine translation.
Keywords: computational linguistics, machine translation (MT), MT, machine translator, automatic translation, automatic translator, statistical MP, SMT, neural MT, NMT, machine translation system (SMP), post-editing, machine translation errors
В статье исследуется проблема качества машинного перевода на основе анализа автоматических субтитров. Для начала уточним, что машинный перевод (МП, MT, Machine Translation) — это перевод текстов с одного естественного языка на другой специальной компьютерной программой. Такое же название носит направление научных исследований, связанных с построением подобных систем [1].
Актуальность статьи связана с возрастающей интенсивностью интернет-коммуникаций, соответственно возникает проблема быстрого и качественного, по возможности дешевого перевода. В настоящее время все больше людей в связи с растущими объемами информации используют системы машинного перевода. Поэтому значение автоматизированных систем перевода постоянно повышается [2]. К сожалению, на сегодняшний день переводы, сделанные машинными переводчиками, остаются несовершенными. В связи с этим исследование проблем машинного перевода представляется актуальным в целях повышения качества таких переводов [3].
Целью нашего исследования было рассмотреть возможность применения машинных переводчиков без участия переводчика-человека в практической сфере, а именно, для перевода автоматических субтитров. Для достижения данной цели были поставлены следующие задачи:
1) рассмотреть понятие МП и кратко описать различные системы МП;
2) раскрыть достоинства и недостатки МП;
3) сделать выборку переведенных предложений, содержащих ошибки того или иного рода;
4) проанализировать ошибки, провести классификацию и разбить их на группы;
5) сделать выводы относительно качества МП и возможностей практического применения.
Для начала отметим, что существуют различные типы систем машинного перевода:
1) основанные на правилах грамматики;
2) использующие в своей работе статистический анализ;
филологические науки —
языкознание
Ситдикова Фарида Бизяновна, Хисамова Венера Нафиковна, Усманов Тимур Равилевич MACHINE TRANSLATION ERRORS (ON THE BASIS OF ANALYSIS …
3) системы гибридного типа;
4) основанные на нейронных сетях и характеризующиеся способностью к обучению [4, 5].
Первый подход является традиционным и используется большинством разработчиков систем машинного перевода (например, ПРОМТ в России (год создания 1991), SYSTRAN во Франции, Linguatec в Германии и т.д.). Ко второму типу относятся такие сервисы, как Яндекс. Переводчик (2009), Переводчик Google (2003), а также новый сервис от ABBYY [6].
Особенностью статистического МП является то, что системы такого рода в своей работе используют статистический анализ. В систему загружается корпус текстов на двух языках, после этого система выдает анализ статистики языковых соответствий и различных синтаксических конструкций в двух языках. Преимущество системы в том, что она является самообучаемой, т.е. при выборе нужного варианта перевода она исходит из полученной ранее статистики. Чем больше объем словаря для языковой пары и чем выше его качество, тем лучше результаты данного виде перевода. К наиболее значительным недостаткам систем SMT можно отнести наличие многочисленных лексических и грамматических ошибок и нестабильность перевода [7].
За последние годы произошел ряд технологических прорывов и существенный рост вычислительной мощности компьютеров, благодаря чему интенсивное развитие получила технология машинного обучения. Эта концепция нашла применение и в области машинного перевода. Так, в 2016 года сразу несколько крупных компаний объявили о создании новейших технологий MT, основанных на нейронных сетях (англ. Neural MT (NMT)).
Нейронный машинный перевод (Neural Machine Translation, NMT) — это вид МП, в котором используется искусственная нейронная сеть. Этот способ принципиально отличается от использованных ранее методов [8]. Модели NMT способны обучаться во время работы и со временем их перевод становится более эффективным.
В сентябре 2016 года компания Google представила систему нейронного машинного перевода (Google Neural Machine Translation system, GNMT) [9]. Как утверждают разработчики, она превосходит по качеству все предыдущие технологии в этой области. Применение GNMT сокращает количество ошибок в машинном переводе на 55-85% [10]. В 2016 г. движок перевода был включен в обе стороны для девяти языков: английского, французского, немецкого, испанского, португальского, китайского, японского, корейского и турецкого. В марте 2017 г. были добавлены ещё три языка: русский, хинди и вьетнамский [11]. Преимуществом нейронной сети является сам подход к обработке текста. Большинство переводчиков обрабатывают каждое слово по отдельности, а нейросеть переводит фразы и предложения целиком, с учетом контекста. Это дает надежду на то, что уже в ближайшие годы мы можем ожидать улучшения качества машинного перевода.
В 2017 г. компания Yandex запустила нейросетевой перевод, главным достоинством которого была заявлена гибридность. СМП Yandex переводит предложение сразу двумя методами — статистическим и нейросетевым, а потом с помощью алгоритма CatBoost, в основе которого лежит машинное обучение, находит наиболее подходящий вариант [12].
У существующих онлайн-переводчиков есть ряд достоинств, которые нужно признать и которые способствуют повышению их популярности у пользователей Интернета:
1) бесплатный перевод;
2) доступность в любое время дня и ночи, был бы интернет;
3) скорость перевода — практически сразу после ввода;
4) большое количество языковых пар (например, раз-
работчики Гугла сообщили, что их система в настоящее время способна понимать 90% человечества [13]);
5) простой и понятный интерфейс;
6) отметим также такой важный фактор, как конфиденциальность информации;
7) наконец, онлайн переводчики могут встраиваться в различные сервисы, например, переводить страницы на сайтах [14].
С другой стороны, несмотря на то, что ежегодно вкладываются миллиарды долларов в развитие систем машинного перевода, на сегодняшний день нет машинного переводчика, который давал бы перевод, сравнимый с результатом работы переводчика-человека. В связи с этим представляет интерес анализ наиболее характерных ошибок, допускаемых машинными переводчиками, а также их классификация и сбор статистических данных.
Анализ ошибок машинного перевода проводился рядом авторов. В частности, Переходько И.В., Мячин Д.А. [15] предприняли попытку анализа текстов переводов Интернет-сайтов, выполненных с помощью систем компьютерного перевода, на основе лингвостилистического анализа и на основе автоматической обработки текстов с использованием метрики METEOR по методу N-грамм. Авторы делают вывод о том, что наибольшее количество ошибок в машинных переводах связано с переводом семантических конструкций.
Ряд авторов [16, 17], ставят целью использовать автоматическую оценку качества МП и анализ качества перевода научно-технического текста с помощью различных метрик. При этом сами авторы отмечают, что важным недостатком автоматических метрик является то, что они не могут предоставить оценку качества МП на уровне смысла.
Наше исследование по оценке качества машинного перевода представляло анализ переводов, выполненных машинным переводчиком Google Translate. Методическая новизна заключалась в материале исследования, которым послужили автоматические субтитры, сделанные этой СМП. Анализ автоматических субтитров проводился при просмотре детективного сериала «Парочка следователей» («Partners for Justice») [18], который переводился с английского на русский с использованием английских субтитров. Задолго до «человеческого» перевода выкладывались автоматические субтитры. Для этой цели использовался скрипт Translate Shell, доступный по адресу: https://github.com/soimort/ translate-shell. Субтитры в формате SRT скачивались либо с https://avistaz.to/, либо с https://subscene.com/. В результате появлялся текст, который вполне давал возможность понять большую часть содержания, за исключением некоторых моментов, на которых мы остановимся далее.
Несколько слов о том, как собирались и анализировались примеры. Просматривались серии с автоматическими субтитрами и методом сплошной выборки отбирались предложения, не соответствующие языковым нормам или не позволяющие вывести смысл.
После этого просматривалась соответствующая серия с английскими субтитрами и сравнивалась с машинным переводом, сделанным Google Translate. Другими словами, использовались метод сплошной выборки, сравнительно-сопоставительный метод и лексико-се-мантический анализ.
Google Translate — бесспорно одна из самых лучших СМП на сегодняшний день. При создании текста перевода она использует примеры из миллионов документов, чтобы выбрать правильный вариант. Тем не менее, в отличие от переводчика-человека, система может допускать ряд ошибок, которые мы разбили на следующие группы:
I. Лексико-семантические ошибки. Это, на наш взгляд, самые существенные ошибки, которые часто препятствуют пониманию смысла высказывания. Среди
Hisamova Venera Nafikovna, Sitdikova Farida Bizyanovna, Usmanov Timur Ravilevich MACHINE TRANSLATION ERRORS (ON THE BASIS OF ANALYSIS …
philological sciences -linguistics
них важнейшей ошибкой является 1) неспособность выбрать нужное по контексту значение лексической единицы — то, с чем без труда справляется переводчик-человек. Возьмем пример, использованный в заголовке. Машинный перевод приведен во втором столбце, верный перевод — в третьем.
The front of right calf, multiple skin abrasions. Передняя часть правого теленка, множественные царапины на коже. Передняя часть правой голени, множественные царапины на коже (ер.25, 0:12).
Контекстом являлись слова паталогоанатома, делающего вскрытие. Понятно, что имелась в виду передняя часть правой голени. Приведем еще один пример:
Darn it, this jerk! Оберните это, этот рывок! Черт побери, этот придурок! (ep. 29, 11:30).
Этот и другие многочисленные случаи говорят о том, что машинным переводчиком выбираются значения слова без учета контекста. Среди лексических ошибок можно также выделить 2) перевод словосочетаний с переносным значением (назовем их семантическими конструкциями), которые переводились дословно. Например:
If this becomes one more cold case, we’ll all have to retire. Если это станет еще одним холодным случаем, мы все должны уйти в отставку. Если это станет еще одним нераскрытым случаем, мы все должны уйти в отставку ^.29, 07:59).
Переносное значение выделенного словосочетания — нераскрытое дело, «глухарь». При таком переводе смысл предложения может быть не понят зрителем. Еще один пример:
The murderer’s gone out of the grid for 30 years. Убийца ушел с сетки в течение 30 лет. Убийца затаился на 30 лет. (ep. 3, 0: 22).
Ошибки такого рода свидетельствуют о том, что машинные переводчики на сегодняшний день не справляются с переводом семантических конструкций и выдают калькированный перевод, который приводит к нелепым результатам, далеким от настоящего смысла. Приведем третий пример:
You are normally this straightforward once you have set your mind on something. Ты обычно такой прямолинейный, после того, как вы установили свой ум на что-то. Вы обычно идете напролом, если что-то задумали. ^. 10, 31: 50).
Where’s So Hi? (женское имя)
Где такХи?
Где Со Хи? (ep. 22, 23:02).
I am such a bad boss. I owe Sang An so much.
Я паршивый начальник. Я должна спеть так много.
Я неблагодарный начальник. Я так многим обязан Сан Ан. (ep. 22, 27:12).
Справедливости ради надо отметить, что Гугл с годами все же улучшает качество перевода имен собственных. Вспоминается случай, когда несколько лет назад при переводе с русского на английский сочетания улица Горького выдавался перевод Bitter street, то есть имя собственное воспринималось как нарицательное bitter — горький. Но если сейчас ввести это словосочетание в переводчик Гугл, то на выходе получим верный перевод: Gorky Street. Огромная работа, проводимая разработчиками этой СПМ, позволяет надеяться на то, что в перспективе можно ожидать более качественных результатов автоматического перевода.
Наконец, следует сказать несколько слов о 5) переводе аббревиатур. Нам встретился только один подобный пример, но автоматический переводчик оставил его без перевода, в исходном виде. Возможно, это связано с тем, что это латинское выражение (modus operandi):
Она была
She was murdered Она была убита с убита тем же
with the same MO. той же МО. способом^. 23,
3:09).
2. Морфологические ошибки, связанные с переводом частей речи и их употреблением, т.е. ошибки в переводе рода, числа, склонения, падежа существительных, видо-временных форм глагола т.д. Приведем несколько примеров ошибок этого типа.
Are you kidding me? Вы меня издеваетесь? Вы надо мной издеваетесь? ^. 23, 10:12).
You can’t do an autopsy on my Dad. Вы не можете сделать вскрытие моей папе. Вы не можете сделать вскрытие моему папе. ^.24, 15:48).
Didn’t Dad go to hospital regularly? Разве папа не пошел в больницу регулярно? Разве папа не ходил в больницу регулярно? ^.24, 7:56).
Объясняя причины калькированного перевода, некоторые исследователи считают, что система МП на основе переводных соответствий не всегда может справиться с одной из принципиальных задач перевода, а именно, перехода от конструкции исходного языка к конструкции выходного языка, поэтому в тексте перевода появляются конструкции, характерные языку оригинала, но не языку перевода [19].
Таким образом, мы можем наблюдать, как при МП могут нарушаться языковые нормы того языка, на который осуществляется перевод.
Отдельным случаем лексико-семантических ошибок является 3) перевод имен собственных. Часто система переводит имена собственные (особенно короткие, в данном случае корейские) как нарицательные слова, например:
В первом случае использован неверный падеж, во втором ошибка в переводе рода существительного, в третьем примере неверный вид глагола. Но хотя перевод данных предложений не соответствует нормам русского языка, эти ошибки не являются такими серьезными, как ошибки первого типа, т.к. не препятствуют извлечению смысла.
3. Стилистические и синтаксические ошибки.
Стилистические ошибки включают нарушение сочетаемости слов, тавтология, лексическая недостаточность, частые повторы слов, смешение стилей и т.д. Сюда также относятся нарушение порядка слов в предложении, нарушение согласования с главным словом, пропуск или неверное употребление предлога, синтаксическая неоднозначность, отсутствие смысловой законченности предложения. Так же, как и морфологические, эти ошибки вполне позволяют извлечь смысл фразы или высказывания. Приведем несколько примеров:
Интересен случай, когда имя переведено с английского как глагол прошедшего времени, потому что по написанию совпадало с ним:
Thanks to your care-taking, I think I healed quickly. Благодаря вашей заботе, я быстро зажила. Благодаря вашей заботе, у меня всё быстро зажило. ^.7, 6:55).
The fridge and cabinets are bare. Холодильник и шкафы голые. Холодильник и шкафы пустые.(ер.23. 27:54).
You are to take this position after me. Вы должны забрать этот пост за мной. Ты должен занять это место после меня22, 19:34).
Подводя итоги, следует отметить, что наиболее существенными для понимания и самыми многочисленны-
филологические науки -языкознание
Ситдикова Фарида Бизяновна, Хисамова Венера Нафиковна, Усманов Тимур Равилевич MACHINE TRANSLATION ERRORS (ON THE BASIS OF ANALYSIS …
ми были лексико-семантические ошибки (около 53%). Морфологические ошибки не мешали пониманию текста, но также были довольно многочисленными (28%). Оставшуюся часть (19%) составляли стилистические и синтаксические ошибки. Наши результаты хорошо кор-релируются с выводами других исследователей, например [15], [20].
Далее был организован опрос пользователей группы в ВК, смотревших данный сериал. Было опрошено 57 пользователей с целью выяснить, насколько часто при просмотре сериала с автоматическими субтитрами им приходилось пересматривать серии с «человеческим» переводом. Полученные результаты описываются в выводах.
Выводы.
1. За последние десятилетия разработок области машинного перевода качество перевода улучшилось, и машинные переводчики вполне способны выстраивать разумные фразы. Уже сейчас системы МП оказывают большую помощь, делая для переводчиков черновую работу и оставляя человеку лишь постредактирование.
2. Наше исследование продемонстрировало, что сегодняшний день МП, хотя и является несовершенным, но вполне успешно может использоваться в практических целях. Примером того служит автоматический перевод субтитров, выполненный Google Translate, который, как показала практика, с успехом можно использовать как сигнальную версию, дающую представление о содержании текста (в данном случае содержании сериала). В 89,5% случаев (51 зрителей из 57) просмотра серий с автоматическими субтитрами не потребовался просмотр серий с переводом.
Возможно, такой высокий процент объясняется тем, что перевод субтитров — это не перевод текста в чистом виде. При просмотре фильма зритель получает также визуальную информацию и при понимании руководствуется не только текстом, но и контекстом и ситуацией.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
3. В отличие от переводчика-человека машинный переводчик Google Translate при переводе допускает ошибки, которые мы разбили на несколько групп.
Общее количество ошибок 200 100%
1) лексико-семантические 106 53
2) морфологические 56 28
3) стилистические и синтаксические 38 19
4. Говоря о статистических результатах, следует отметить, что наиболее существенными для понимания и самыми многочисленными были лексико-семантиче-ские ошибки (около 53%).
5. К досадным ошибкам приводил калькированный перевод семантических конструкций, к которым относятся фразеологические обороты, образные выражения, метафоры, фразовые глаголы английского языка и т.д. В объяснении причин такого явления мы согласны с исследователями, утверждающими, что система МП на основе переводных соответствий не может совершить переход от конструкции исходного языка к конструкции выходного языка [18], поэтому в тексте перевода появляются конструкции, характерные языку оригинала, на языке перевода звучащие нелепо.
6. Морфологические ошибки не мешали пониманию текста, но также были довольно многочисленными (примерно 28%).
7. Стилистические и синтаксические ошибки составляли оставшуюся часть (19%).
8. Пока сложно сделать прогноз, насколько может улучшиться качество машинного перевода в ближайшие десятилетия. Но даже если системы МП не смогут достичь того же уровня, что «человеческий перевод», тем не менее сложно представить будущее без машинных переводчиков, т.к. их помощь человеку сложно переоценить.
СПИСОК ЛИТЕРАТУРЫ:
1. Воронович В.В. Машинный перевод. Конспект лекций для студентов 5-го курса специальности «Современные иностранные языки». Минск, 2013 — 39 с.
2. Евдокимов А.С. Искусство машинного перевода //Hard’N’Soft.
— 2005. -№ 7. — С. 86-91.
3. Марчук Ю.Н. Компьютерная лингвистика : учеб. пособие /Ю. Н. Марчук. -М. : АСТ : Восток-Запад, 2007. — 317 с.
4. Ситдикова Ф.Б. Эволюция машинного перевода./Янбекова Г.Б., Галимзянова З.В., Ситдикова Ф.Б. // Научные революции: Сущность и роль в развитии науки и техники: Сборник статей по итогам Международной научно-практической конференции (Оренбург, 30 апреля 2018 г.). — Стерлитамак: АМИ, 2018. С. 53-58.
5. О термине «машинный перевод». [Электронный ресурс] URL: http://ru.wikipedia.org/wiki/Машинный_перевод (дата обращения: 9.04.2019).
6. Андреева А.Д., Меньшиков И.Л., Мокрушин А.А. Обзор систем машинного перевода //Молодой ученый. — 2013. — №12. — С. 64-66.
— [Электронный ресурс] URL https://moluch.ru/archive/59/8581/ (дата обращения: 9.04.2019).
7. Леонтьева Н.Н. Автоматическое понимание текстов. Системы, модели, ресурсы. — Москва: ACADEMIA, 2006. 7. Google Translate начал использовать нейроперевод. [Электронный ресурс] URL: https://www.armadaboard.com/topic59199.html (дата обращения: 9.04.2019).
8. Нейронный машинный перевод. Вводный курс. [Электронный ресурс]URL:http://datareview.info/article/neyronnyiy-mashinnyiy-perevod-s-primeneniem-gpu-vvodnyiy-kurs-chast-1/ (дата обращения: 9.04.2019).
9. Google Translate подключил русский язык к переводу с глубинным обучением. [Электронный ресурс]. URL: https://habr.com/post/370243/ (дата обращения: 9.04.2019).
10. Краткая история машинного перевода. [Электронный ресурс]. URL: http://linguisticus.com/ru/TranslationTheory/OpenFolder/ ISTORIJA_MASHINNOGO_PEREVODA (дата обращения: 9.04.2019).
11. Нейронный машинный перевод Google [Электронный ресурс]. URL: https://habr.com/ru/post/414343/ (дата обращения: 9.04.2019).
12. Яндекс запустил гибридную систему перевода. [Электронный ресурс]URL: https://yandex.ru/blog/company/kak-pobedit-mornikov-yandeks-zapustil-gibridnuyu-sistemu-perevoda (дата обращения: 9.04.2019).
13. Нейросеть Google Translate составила единую базу смыслов человеческих слов. [Электронный ресурс]URL: https://habr.com/ru/ post/369913/(дата обращения: 9.04.2019).
14. Анализ машинного перевода и сравнение онлайн-переводчиков
— новая жизнь старого проекта. [Электронный ресурс]. URL: http:// news.flarus.ru/?topic=632 (дата обращения: 9.04.2019).
15. Переходько И.В., Мячин Д.А. Оценка качества компьютерного перевода. -Вестник Оренбургского государственного университета.
— 2017. — № 2. — С. 92-96.
16. Улиткин И.А. Автоматическая оценка качества перевода научно-технического текста. [Электронный ресурс]. URL: https:// vestnik-mgou.ru/Articles/Doc/10973 (дата обращения: 9.04.2019).
17. Кедрова Г.Е., Потемкин С.Г. Автоматическая оценка качества машинного перевода на основе семантической метрики // Вiсник Луганського нащонального педагогiчногоунiверситету iменi Т. Шевченка. — № 15(95). — С. 35-41.
18. Парочка следователей | Partners for Justice. [Электронный ресурс]. URL: http://doramatv.ru/partners_forjustice (дата обращения: 9.04.2019).
19. Томин В.В. О проблемах машинного перевода научно-технического текста в информационном поле кросс-культурного взаимодействия. [Электронный ресурс]. URL: http://vestnik.osu.ru/2015_1/5.pdf (дата обращения: 9.04.2019).
20. Кочеткова Н. С., Ревина Е.В. Особенности машинного перевода // Филологические науки. Вопросы теории и практики Тамбов: Грамота, 2017. — № 6(72): в 3-х ч. Ч. 2. C. 106-109. ISSN 1997-2911
Статья поступила в редакцию 23.03.2019 Статья принята к публикации 27.05.2019
- Языкознание
- Прикладная и математическая лингвистика
автореферат диссертации по филологии, специальность ВАК РФ 10.02.21
диссертация на тему: Анализ и оценка эффективности современных систем машинного перевода
-
Год:
2000 -
Автор научной работы:
Хроменков, Павел Николаевич -
Ученая cтепень:
кандидата филологических наук -
Место защиты диссертации:
Москва -
Код cпециальности ВАК:
10.02.21
450 руб.
Полный текст автореферата диссертации по теме «Анализ и оценка эффективности современных систем машинного перевода»
МОСКОВСКИЙ ПЕДАГОГИЧЕСКИЙ УНИВЕРСИТЕТ
на правах рукописи
РГБ ОД
ХРОМЕНКОВ 2 О НОЯ ?ПП0
Павел Николаевич
АНАЛИЗ И ОЦЕНКА ЭФФЕКТИВНОСТИ СОВРЕМЕННЫХ СИСТЕМ МАШИННОГО ПЕРЕВОДА
Специальность 10.02.21 — «Структурная, прикладная и математическая лингвистика»
Автореферат
диссертации на соискание учёной степени кандидата филологических наук
МОСКВА — 2000
Диссертация выполнена на кафедре теоретической и прикладной лингвистики Московского педагогического университета.
Научный руководитель: академик МАИ,
доктор филологических наук, профессор Ю.Н.Марчук
Официальные оппоненты: доктор филологических наук,
профессор А.Л. Семенов, кандидат филологических наук, доцент Веселов П.В.
Ведущая организация: Отдел прикладного языкознания
Института языкознания РАН
17-
Защита состоится: ‘ июля 2000г. в 11 часов на заседании диссертационного совета Д. 113.11.05 в Московском педагогическом университете по адресу: 107042 Москва, Переведеновский пер., 5/7.
С диссертацией можпо ознакомится в библиотеке Московского педагогического университета по адресу: 107005, Москва, ул. Радио, д. 10а.
Автореферат диссертации разослав Йюоня 2000г.
Ученый секретарь диссертационного еовега доктор филологических наук,-профессор ——Г.Т. Хухуии
Даппая работа посвящена анализу и типологическому описанию современных систем машинного перевода.
Мы живем в мире информационных технологий, которые прочно вош;и в нашу жизнь. С каждым годом увеличивается число пользователей Интернета -Всемирной паутины, которая претендует ш роль единого информационнохо пространства в планетарном маенггабе. Единственной преградой, которая незримо присутствует во всей Сети, является языковой барьер. Эта ггробле»ма, общая как для реального, так и для «виртуального» мира сети Интернет, до настоящего момента так и не нашла своего кардинального решения. Попытки внедрения универсального языка типа Эсперанто или какого-либо другого языка не привели к их массовому использованию, и единственным способом преодоления языкового несоответствия является перевод, известный еще с древнейших времен, когда этим делом занимались толмачи.
Но нынешний век, где информация изменяется 24 часа в сутки, применяются электронные средства связи, диктует свои условия. В такой ситуации классический подход к осуществлению перевода не всегда оправдывает себя, т.к. требует больших капиталовложений и временных затрат. В некоторых случаях более целесообразным представляется использование машинного игог автоматического перевода и систем машинного перевода (СМП). Развитие таких систем позволит оперативно осуществлять перевод информации и обрабатывать большие массивы документов в предельно сжатые сроки, т.е. удовлетворять основному требованию сегодняшней жизни: оперативной обработке огромных массивов информации при мшшматьяых затратах.
Выбор данной темы исследования обусловлен в первую очередь ее новизной, недостаточной степенью исследованности и актуальпостью рассматриваемых задач. Проблема эффективности машинного перевода является одним из ключевых факторов, определяющих перспективность развития данной области науки. В настоящее время не существует единой системы оценки эффективности работы существующих СМП. В данной работе предпринимается попытка проведения сравнительного анализа современных коммерческих СМП. В исследовании участвовали системы, осуществляклцие перевод с русского языка на английский и обратно и системы перевода с английского языка на немецкий и обратно.
Целью настоящей работы является сопоставительное исследование эффективности современных СМП. В основу качественного показателя результатов перевода и эффективности систем были положены не только лингвистические, но и экстралингвистические критерий оценки СМП.
Для достижения поставленной цели потребоватось разрешение следующих
задач:
— выявление современных СМП, нашедших сюе промышленное и коммерческое применение и являющихся уже не исследовательскими прототипами, а реально действующими системами, обладающими свойствами готового продукта;
— типологическое описание современных СМП и выявление доминирующего типа СМП;
— выделение основных критериев оценки эффективности машинного перевода (МП);
— проведение сравнительного исследования результатов переводов, выполненных современными СМП;
— анализ и типология ошибок при работе с СМП;
— апробация методов оценки на действующих системах МП и оценка их эффективности.
Теоретический аспект данной работы заключается в лингвистической разработке методов оценки. Системы рассматриваются, изучаются и оцениваются по принципу «черного ящика», который подразумевает отсутствие полной информации об алгоритмах работы системы, и на входном этапе мы априорно не знаем, с какой системой работаем. В результате исследования лингвистической компоненты систем МП создается теоретическое обоснование для определения типа системы и ее лингвистического обеспечения. Теоретическая значимость данного исследования заключается в возможности определения, дальнейшего моделирования и совершенствования лшн-Биотической составляющей не только в СМП, но и в целом в системах искусственного интеллекта (ИИ), неотъемлемой частью которых собственно и является МП. В рамках исследования предлагается расширить типологию переводных соответствий, предложенную Марчуком Ю.Н. (Марчук, 1983).
Практические исследования направлены на подтверждение правильности выработанных критериев и методов оценки СМЛ, возможности их использования в качестве тестового массива не только для рассматриваемых в данной работе СМП, но и в делом для оценки эффективности существующих СМП, которые работают с указанными языковыми парами. Практическая ценность данной работы заключается в том, что потенциальный пользователь СМП при выборе программы машинного перевода может воспользоваться приводимыми в данной работе тестами для проведения первичной оценки СМП.
Материалом исследования стали более 300 текстов на русском, английском и немедком языках. Источником языкового материала послужила сеть Интернет, наиболее динамично реагирующая па языковые преобразования современности.
Методами исследования послужили принцип «черного ящика», привлечение тестовых групп конечных пользователей, типологическое, лингвистическое и экстралингвисгическое сопоставительное описание.
На защиту выносятся следующие положения:
1. Доминирующим типом современных СМП являются СМП трансферного типа, получившие достаточно широкое промышленное и коммерческое распространение. Таким образом, системы трансферного типа представляют собой единственный класс СМП, который может быть подвержен сравнительно-сопоставительному исследованию с целью выявления эффективности современных систем МП.
2. Функционирование, развитие и совершенствование систем машинного перевода в настоящее время происходит в сети Интернет, которая является источником материалов не только для тестирования систем, но и служит рабочим пространством для такого рода систем в планетарном масштабе. Дальнейшая эксплуатация и разработка новейших СМП будет осуществляться посредством Интернета.
3. При типологическом исследовании ошибок при работе систем МП следует придерживаться комплексного подхода, базирующегося на учете этапов функционирования системы. Следует выделять ошибки автоматического анализа и синтеза, которые в свою очередь подразделяются на более конкретные подклассы, отражающие работу алгоритмического аппарата системы.
4. Подавляющее большинство современных СМП основано на принципе переводных соответствий. В результате типологического исследования модели ■ переводных соответствий возникла необходимость создания расширенной классификации переводных соответствий. Предложенная типология переводных соответствий на основе лингвистического обеспечения СМП позволяет более широко рассматривать проблему ошибок при работе систем МП и может быть использована при создании новых систем, основанных на применении принципа параллельных текстов.
5. Практическая классификация современных СМП, основанная на учете экстралингвиетпческих факторов и качества переводов, выполненных данными системами, позволяет составить впечатление об эффективности и функциональных возможностях каждой системы. Указанная 1-радация СМП представляет практическую ценность при выборе конкретной системы МП.
СТРУКТУРА РАБОТЫ
Диссертация состоит из введения, трех глав, заключения, списка использованной литературы и одного приложения. Приложение содержит образцы параллельных переводов текста в различных СМП.
СОДЕРЖАНИЕ ИССЛЕДОВАНИЯ
Во введении обоснован выбор темы, ее актуальность, научная новизна, дели, задачи, теоретическая и практическая ценность диссертационно!« исследования. Сформулированы методы исследования и положения, выносимые на защиту.
Первая глава посвящена описанию современного состояния машинного перевода и типологической классификации существующих коммерческих систем МП.
За последнее десятилетие значительно возрос интерес к разрабопсс и использованию СМП. Такое положение вещей связано в первую очередь с бурным ростом и развитием вычислительной техники и постепенной интеграцией всемирного информационного пространства в единую сеть, прототипом которой
является Интернет. Уже более года на таком крупном и известном поисковом узле как AltaVista используется машинный лерепод в режиме реальною времени. На данном сервере, получившем название Babelfish, существуют различные возможности бесплатного перепода:
— можно перевести первые 250 слов любого документа, имеющегося у потенциального посетителя сайга;
— можно перевести любую страничку, задав в соответствующем окне ее адрес;
— а можно перевести и результаты поиска, полученные даяиой поисковой системой.
С 1994 года в службе CompuServe проводится эксперимент по внедрению и использованию СМП п онлайновых форумах. В настоящее время функция машинного перевода внедрена на б форумах. Компания Globalink. организовала в сети Интернет онлайновую службу машинного перевода, получившую название Comprende и являющуюся реачьной коммерческой системой, осуществляющей перевод с использованием СМП.
Российские ресурсы сети Интернет в области онлайнового перевода не сто ль обширны и разнообразны, что определяется в первую очередь ограниченным числом фирм, профессионально занимающихся созданием СМП. Перевод в режиме реального времени мозкпо полутать на сайте признанного лидера в области создания российских СМП, фирмы «ПРОМТ, Translate.ru. Перевод осуществляется с русского языка на английский, немецкий, французский и обратно, а также с английского на французский и обратно, с английскою на испанский, с немецкого на английский и с немецкого языка на французский и обратно. На сайте фирмы «Арсен&ть», занимающейся разработкой СМП, также имеется возможность осуществления онлайнового перевода. Однако в отличие от сервера фирмы «ПРОМТ», перевод осуществляется только с английског о языка на русский и обратно.
В последнее время в комплект поставок современных СМП все чаще и чаще входят программные продукты, обеспечивающие возможность перевода вебстраниц, электронной почты и онлайновых конференций.
Среди зарубежных фирм-производителей СМП, следует отметить компании SYSTRAN и Globalink. В комплект поставки SYSTRAN PRO 2.0 входит программа для перевода в Сета (WcbTrans), которая поддерживает все использующиеся в CMII рабочие языки, также существует возможность подключения модулей перевода к
почтовой программе Eudora и Интернет-браузеру Netscape Navigator. Компания Globalink- также разработала программу перевода в Интернете под названием Web Translator и создала модули перевода для программы Eudora. Фирма «ПРОМТ’ разработала Интернет-переводчик, подучивший название PROMT Internet. Он переводит с английского, немецкого, французского языков на русский и обратно. Компания «Арсеналь» также выпустила Интернет-переводчик под названием «Сократ интернег», представляющий собой браузер на основе Internet Explorer 4.0, который переводит с английского, немецкого, французского языков и обратно.
Системы машинного перевода занимают немаловажное место среди лингвистических процессоров, относясь в большей степей! к классу текстовых процессоров. Ках отмечал Пиотровский Р.Г., к лингвистическим процессорам относят автоматизированные системы обработки текстовой и речевой информации. К классу текстовых процессоров, согласно классификации, предложенной Златоустовой JI.B., Королевы« Э.И, Марчуком Ю.Н. и другими авторами, кроме СМП также относятся (ГрязнухинаТ.А., Зубов A.B., Нелюбин Л.Л., Smith P.D.):
— автоматизированные информационные системы (АИС) и системы управления базами данных (СУБД);
— автоматические словари;
— системы автоматического проектирования (САПР);
— системы машинного перевода (СМП);
— редакционвд-издательские системы;
— системы автоматической компрессии текстов;
— системы автоматической адаптации текстов;
— автоматизированные обучающие системы;
— экспертные системы;
— системы шифровки и дешифровки текстов;
— системы автоматической атрибуции текстов.
Системы машинного перевода, являясь лишь частью перечисленных выше лингвистических процессоров, тем не менее, юрагот важную роль в развитии лингвистических автоматов. Б настоящее время наибольшее развитие получит! СМП, относящиеся к классу текстовых процессоров. Несмотря на это, ведутся активные работы в области создания СМП устной речи на иностранный язык. Такие
исследования проводились в British Telecom, SLT, ATR, при создании системы Verbmobil, в университете Каряеги Меллона в рамках проектов SNAP и Janus. Таким образом, можно говорить о непосредственной снязи СМП с другими текстовыми (в частности с автоматизированными информационными системами (АИС) и автоматизированными переводными словарями) и речевыми процессорами. Особого внимания заслуживает уже состоявшийся коммерческий проект, который осуществила компания Linguatec. Суть этого проекта заключается в слиянии СМП Personal Translator и системы распознавания речи Via Voice компании IBM для преобразования речи в текст, дальнейшего его перевода и обратного преобразования в речь, что является, по сути, переводом.
Современные СМП, согласно классификации, предложенной А.Д. Бакуловым, H.H. Леонтьевой, Э.И. Королевым н другими исследователями, подразделяются на следующие типы (Капанадзе О.Г., Кулагина О.С., Bátori I., Ilutchins W.J., Meli S., Schmitz В., Trujillo А.):
— СМП прямого rana;
— Трансферные СМП;
— СМП семантического типа.
Подавляющее большинство современных коммерческих СМП относится к системам трансферного типа. Кроме этого, мм полагаем, что, учитывая степень современного теоретическою обоснования СМП, совершенно уместно говорить об одном доминирующем типе СМП, а именно о системах трансферного типа и их модификациях (системы, основанные на использовании примеров и параллельных текстов, Example-Based Machine Translation (ЕВМТ) и т.д.).
Системы прямого типа в настоящее время практически не используются, став достоянием истории развития СМП. Системы, основанные на использовании баз знаний и языка-посредника, на сегодняшний день все же являются системами будущего, находясь на этапе лабораторных исследований и являясь, по сути, экспериментальными системами.
Следует также проводить классификацию СМП по степени их разработанности. В соответствии с делением, предложенным H.H. Леонтьевой, З.М. Шаляпиной и Э.И. Королевым, мы подразделяем СМП на следующие типы:
— исследовательские прототипы (изложен принцип действия системы безотносительно к условиям ее функционирования);
— экспериментальные системы (системы, прошедшие проверку на экспериментальных тестовых массивах);
— промышленные системы, работающие с реальными текстами, имеющие определенные помехоустойчивые, качественные и скоростные характеристики и прошедшие тестовые испытания,
— коммерческие системы — системы, обладающие всеми свойствами промышленных систем, предназначенные для коммерческой продажи и представляющие собой законченный самодостаточный продукт, имеющий свойства товара.
Подавляющее большинство рассматриваемых; в данном исследовании систем МП относится к коммерческим системам.
В 1952 году при поддержке фонда Рокфеллера в Массачусетсом технологическом институте (MIT) прошла первая конференция, посвященная проблемам машинного перевода. Результатом этой конференции стало создание в Джорджтаунском университете исследовательской группы под руководством Леона Досгерта, которая занялась подготовкой первого эксперимента по машинному переводу. Публичная демонстрация МП состоялась 7 января 1954 года в Нью-Йорке, в здании вычислительного центра IBM и получила впоследствии название Джорджтаунского эксперимента. Исследования в области МП в СССР начались вскоре после проведения Джордасгаунского эксперимента в начале 1954 года. В это время начали работу 3 основные группы; две в Москве и одна в Ленинграде. В 1955 году в Институте точной механики и вычислительной техники АН СССР проходит первый эксперимент по осуществлению МП в СССР. В рамках эксперимента на компьютере БЭСМ Академии наук СССР был осуществлен перевод с английского языка на русский текстов по прикладной математике. Объем словаря составлял уже 2300 слов. В 1956 году в Москве была создана Лаборатория машинного перевода под руководством Ю.А. Моторина. К 1957 году группа Моторина обработала почти 5 млн, словоупотреблений, на основе которых были созданы частотные словари, покрывающие до 98,5% английского текста газетной тематики. В 1959 году Лаборатория машинного перевода продемонстрировала СМИ, способную
переводить любые английские тексты общественно-политической тематики. Система могла работать на любом типе ЭВМ, что обеспечивало ее мобильность. Несмотря на то, что данная СМП нуждалась в доработке, ее можно с полным правом отнести к первым промыпшешиым СМП.
Особенностью систем МП прямого типа является перевод достаточно низкого качества, используемый в основной в качестве чернового варианта. К системам прямого перевода относятся ранние версии таких прохрамм как SYSTRAN, LOGOS,
SPANAM, TRANSOFT, АМПАР-АНРЛП-СБРИНТ, СИЛОД, GERENG-GERRUS и др.
С середины 60-х годов начинается бурное развитие синтаксической теории. Для систем МП данного типа характерен развернутый синтаксический анализ и синтез, причем анализ осуществляется в категориях входного языка, а синтез в категориях выходного языка. Для того чтобы преобразовать результаты анализа в категории, используемые для синтаксического синтеза, требуется трансфер. Следует отметить, что современные трансфсрные СМП, согласно концепции переводных соответствий, предложенной Марчуком Ю.Н., все же целесообразно отнести к системам машинного перевода траясфсриого типа, основанным на переводных соответствиях.
Переводные соответствия подразделяются на:
— эквивалентные (эквиваленты, появившиеся в силу языкового тождества);
— вариантные (контекстуально-зависимые эквиваленты);
— трансформационные (требуют различных преобразований для правильной передачи смысла).
В 1984 году М. Нагао предложил принцип перевода с помощью примеров или параллельных текстов (Example-Based Machine Translation (ЕВМТ)), который во многом перекликается с концепцией переводных соответствий, выдвинутой Ю.Н. Марчуком. Принцип действия систем МП, основанных на использовании параллельных текстов, заключается в создании архива переводов, где храгоггея уже переведенные предложения, как на исходном, так и на выходном языках. Кроме этого структура предложений, которые носят наиболее общий характер, представляется в виде эталона (как во входном, так и в выходном предчожениях), по аналогии с которым строятся реальные предложения.
В последнее время стали также создаваться СМП, использующие комбинированные принципы перевода (mulii-engine machine translation, МЕМТ). В таких системах наряду с СМП травсферного типа существует архив переводов, принцип действия которого описан выше. Среди современных коммерческих СМП к этому классу относятся СМП Langenscheidt T1 Plus 3.0 и Power Translator Plus.
Оценивая состояние современных СМП трансферного типа, следует отметить доминирующую роль модели «текст-текст», предложенной Марчуком Ю.Н. и являющейся продолжением его концепции переводных соответствий.
В 80-х годах появились СМП, основанные на знаниях (КВМТ). Основным отличием данных систем от других программ машинного перевода является наличие компоненты, включающей экстралингвистические знания. К этому классу относятся системы семантического типа, иснользурщие , модель. ‘¡смысд<->текст»,
Ъ cz^^roua-bui симтф Olfr- Г Г if/
. пазраоотаннуку) А.К. Жолковским, И.А. Мельчушм. Существует достаточное ‘PlJUsuM^ КЛлЩшга^^Яи» . , h £ / crfi. rt 7 -i^ïT,
‘ количество исследовательских прототипов данного класса: ASCOF, ATLAS 11, DLT,
CONTRAST, HICATS/JE, КВМТ-89, LUTE, PIVOT, PLAIN, ROSETTA, SEMSYN,
TRANSLATOR. Данное направление, возможно, получит свое широкое
распространение лшшь после прорыва в области создания систем ИИ, когда станут
возможными формализация и представление в системе экстралингвистческих
знаний.
Следует отметить основные тенденции развития, наметившиеся в последнее
время:
— распространение номенклатуры СМП — увеличение числа рабочих языков и тематики систем;
— переход к разработке речевых СМП, связь с текстовыми СМП и другими речевыми и текстовыми ЛП в интегральных системах;
— сокращение сроков разработки СМП, распространение промышленных и коммерческих систем МП трансферного типа;
— важность этапов совершенствования и оценки эффективности СМП;
— массовое внедрение СМП в сети Интернет и дальнейшее распространение систем во Всемирной паутине.
Вторая глава посвящена типологическому описанию ошибок при работе МП и построению расширенной модели переводных соответствий.
Проблемой оценки эффективности СМП занимаются на протяжении длительного времени. Несмотря на все многообразие предлагаемых методик, в настоящий момент нет единой общепринятой методики оценки эффективности СМП.
Кроме практического подхода к оценке переводов, выполненных с помощью систем МП, существуют и: теоретические аспекты данной деятельности. Ванников Ю.В. предлагает оценивать перевод, учитывая различные типы адекватности перевода: семантико-стилистическуго, функциональную и дезидеративную. Соотнесенность перевода с оригиналом также может быть выявлена на основе их преобразований в базиспые структуры и последующего сравнения с учетом некоторого числа допустимых расхождений. Такие трансформации в глубинно-синтетические структуры предлагаются Мартемьяновым Ю.С., а Шаляпина З.М. преобразует их в глубинно-семантические структуры. А. И. Новиков предлагает сравнивать тексты оригинала и перевода на основе декотатной структуры предложений. Королев Э.И., придерживаясь традиционного подхода к оценке качества перевода, предлагает считать основными критериями эффективности перевода понятность и адекватность. Кулагина О.С. в своей работе отмечает, что для репрезентативности оценки эффективности СМП необходимо проводить их тестирование на представительных массивах информации. Проблемой понятности и адекватности перевода, выполненного СМП, занимались не только отечественные ученые, цо и их зарубежные коллега. Одним из первых результатов оценки эффективности СМП можно считать знаменитый доклад ALP АС.
Приведем пятибалльную шкалу оценки перевода, предложенную Nagao:
1. Смысл предложения понятен и не возникает никаких вопросов. Грамматика, словоупотребление и стиль соответствуют общей структуре текста и не требуют постредактирования.
2. Смысл предложения понятен, но возникают большие проблемы с грамматикой, словоупотреблением и стилем.
3. Общий смысл предложения понятен, но смысл некоторых его частей вызывает сомнение из-за неправильного грамматического строя,
словоупотребления и стилистических ошибок. Требуется обращение к оригиналу.
4. В предложении имеется большое количество грамматических, словоупотребителышх и стилистических ошибок. Смысл предложения с трудом можно понять после внимательного изучения.
5. Смысл предложения непонятен.
Критерий адекватности, наряду с критерием понятности, являются одними из важнейших элементов оценки качества перевода. Для исследования большинства коммерческих СМП независимыми экспертами применяется принцип «черного ящика», когда предположение о внутренней структуре системы МП и ее типе делается на основании выполненных ею переводов. В противовес принципу «черного ящика» используется принцип прозрачности системы, иначе именуемый «glass box». Этот принцип применяется при оценке эффективности системы ее создателями и разработчиками. Также широкое применение нашел принцип использования тестовых массивов текста. Для этой цели используются как реальные тексты, гак и искусственно созданные для проверки правильности перевода того шш иного языкового явления. Так Маргарет Кинг и Фалкедал предлагают комбинированное использование тестовых и реальных массивов текста для того, чтобы проверить функционирование системы не только в заранее заданных для нее условиях, но и в непредсказуемой обстановке реального текста, смоделировать которую практически невозможно.
При проведении оценки эффективности СМП немаловажную роль играет цель такого исследования а его непосредственные участники. Согласно градации, принятой М. Кинг, Труджилло, Хатчинсом, Сомерсом и другими исследователями, выделяются следующие группы:
Исследователи Спонсоры исследований Разработчики Покупатели Переводчики
Конечные пользователи переводов
Системы МЛ кроме лингвистической компоненты состоят также из программного обеспечения. D связи с этим в рамках проекта EAGLES/TEMAA были разработаны и созданы специальные стандарты (ISO 9126 и ISO 14000). Для этого были специально выявлены шесть основных характеристик качества программного обеспечения: функциональность, надежность, практичность, эффективность, открытость и портативность. Данные критерии применимы также ко всем остальным типам программного обеспечения.
Несмотря иа многообразие рассмотренных теоретических и практических подходов к решению данной проблемы, их объединяет одна общая тенденция: какой бы ни была методика оценки качества переводов, она так или иначе исследует, классифицирует и пытается устранить ошибки, допущенпые в процессе перевода.
Для оценки рассматриваемых нами систем применяется принцип «черного ящика», теоретически обоснованный моделью нсреводиых соответствий. Модель переводных соответствий состоит из двух компонентов: предметного и динамического. Следует сразу отметить, что динамический компонент не будет рассматриваться в рамках данной работы ввиду невозможности исследования лингвистического обеспечения и алгоритмов рассматривасмых систем. Предметный компонент также состоит из двух элементов: предметного и переводного. В состав предметного элемента входят лексика, грамматика и семантика. Перечисленные составляющие во взаимодействии образуют текст. Переводной компонент состоит из типов переводных соответствий, с учетом которых будет строиться типология ошибок при работе МП. Нами рассматриваются 3 основных типа переводных соответствий: эквивалентные, вариантные и трансформационные.
Развивая модель переводных соотвегствий, предложенную Марчуком Ю.Н., Киселев A.II. предлагает уточнить типологию переводных соответствий, сообразно условиям функционирования СМП СПРИНТ. Согласно уточненной типологии, выделяются следующие типы переводных соответствий: на уровне отдельных слов:
— однозначные (табличные);
— многозначные (схемные); на уровне словосочетаний:
— табличные;
— схемные.
на уровне грамматических конструкций (схемные); на уровне грамматических категорий (схемные).
Под табличными понимаются независимые от контекста соответствия, которые задаются в системе в виде жестко взаимосвязанных таблиц. Схемными считаются такие соответствия, выбор которых, несмотря на конечную заданиость всех возможных вариантов, зависит от контекста.
Основываясь на модели переводных соответствий и результатах эмпирических исследований современных коммерческих СМП, проведенных по принципу «черного ящика», нами были выявлены следующие типы ошибок, характерных для МП:
— ошибки автоматического анализа:
— лексического анализа
— морфологического анализа
— синтаксического анализа
— текстового анализа;
— ошибки автоматического синтеза:
— текстового
— семантического
— синтаксического
— морфологического
— лексического.
Ошибки лексического анализа наиболее гранспарентны при оценке качества МП. К таким ошибкам относится появление в выходном тексте непереведенных или неправильно переведенных слов, причинами которого являются как неполнота автоматического словаря, так и наличие орфографических ошибок во входном тексте и неправильное разрешение лексической омонимии и полисемии: Publishable translation / publishable трансляции, Types of translation / типы трансляции, Natural-language translation enigine / двигатель трансляции естественного языка / перевода естественного языка, развитие Интернета / Entwicklung Интернета, darüber
hinaus ! out of darüber, ohne deren Layouts zu verändern / without layouts to verändern, mit eingeschränktem Funktionsumfang J with United Funktionsumfang.
Приведенные выше примеры отражают наиболее общие ошибки лексического анализа, вызванные неполнотой словаря и неправильным разрешением омонимии и полисемии. Словарные ошибки, относящиеся к разряду лексикографических, moot быть достаточно легко исправлены путем дополнения словарей и создания при необходимости алгоритмов разрешения омонимии и полисемии. В настоящее время проблема многозначности решается в основном путем создания узкоспециализированных словарей, позволяющих пользователю наиболее точно задать контекст переводимого текста.
К ошибкам, вызванным конкретной работой автоматического анализа, относятся ошибки нарушения согласования и управления. Такие ошибки, как отмечает Рябцева Н.К., могут быть вызваны неправильной работой не только морфологического, но и синтаксического, а также семантического блоков. Примером таких ошибок может служить неправильно заданное падежное управление (например: to help companies expand i помочь компаниям расширять; finds useful — находит … полезный), предполагав управление (например, send invoices to а different address — посылать счета различному адресу / послать счет фактуру в другой адрес), неправильное согласование числа (company officials say-иредставители компании говорит).
К ошибкам собственно морфологического анализа относится неправильное определение грамматических планов. Проиллюстрируем данное явление на конкретных примерах: доставка заказанных товаров ¡delivery of booking goods, Gut ist die Kompatibilität / Tocap является совместимостью, ist gedacht / is imaginarily.
К ошибкам синтаксического анализа относится неправильное или неполное определение синтаксической структуры входного ¿федложения, которое в свою очередь ведет к неправильному синтезу выходного предложения: Der virtuelle Uebersetzer im Word … der sich erweitern läßt J The virtual translator … which is extend can, My newsletter is read in France … / Мое информационное письмо читать в Франция.
Среди ошибок, вызванных текстовым анализом, самыми распространенными являются неправильное распознавание антецедентов местоимений, анафорических
отношений и эллиптичных структур. К сожалению, данная проблема до настоящего момента не нашла своего кардинального решения, так как распознавание и понимание данных структур человеком основывается на использовании понятийно-категориального аппарата и широком рассмотрении контекста. Приведем примеры таких ошибок: … I received letter from a French company … I put it through the translator / … Я получил символ от Французской кампании … Я помещал это через переводчика … / Я устанавливаю этому через переводчика / Ich führte sie durch …
. По завершении автоматического анализа и необходимых трансферных. преобразований наступает этап автоматического синтеза. При такого рода преобразованиях, равно как и при автоматическом анализе, системы допускают целый ряд ошибок на уровне текстового, синтаксического, морфологического и лексического синтеза.
Ошибки текстового синтеза заключаются в неправильном синтезе связочных конструкций, антецедентов и т.д. Приведем примеры ошибок при текстовом синтезе: The explosion of interest in machine translation is not about productivity … It’s about trying to do the types of translations… / Взрыв интереса (процента) в машинном переводе не относительно производительности… Это — относительно попытки делать типы трансляций…
В процессе синтаксического синтеза наиболее распространенной ошибкой является неправильный порядок слов в выходном тексте: Siemens habe sich ehrgeizige Ziele gesetzt und werde nicht auf Etappenzielen stehen bleiben. / Siemens садился ehrgeizige цели и не будет относиться (не стоять) на цепях этапа остаются. The current Web site allows users to … / Der aktuelle Netzstandort Benutzern erlaubt…
К ошибкам морфологического синтеза относятся: неправильное употребление форм глаголов, неверное согласование составного сказуемого, некорректный синтез слов, принадлежащих к различным частям речи: Августовский кризис не привел к значительному снижению трафика / august crisis not has bringed about significant reduction of traffic …, I got the idea /Я получать идея.
К ошибкам лексического синтеза мы относим не только собственно лексические ошибки, но и ошибки управления. Такая классификация рассматривается нами уместной в связи с тем, что функции сипьноуправлязощих предлогов в подавляющем большинстве случаев включаются в информационную
ячейку слова в АС (автоматическом словаре). Приведем некоторые примеры: бизнесмены / businessmans, российский пользователи / russia users, пользователи Интернета / users Internonthal, machine translation / Maschirte-Uebersetzung.
Ошибки, допущенные на этапе лексического анализа, оказывают влияние на морфологический, синтаксический и текстовый этапы анализа и ммут повлечь за собой появление новых ошибок на указанных этапах. Неправильная работа системы на этапе анализа и некорректное разрешение неоднозначностей ведут в свою очередь к появлению ошибок на этапе синтеза. Исходя из этого, мы полагаем, что ошибки, возникающие в результате работы СМП, необходимо рассматривать системно, с учетом не только имеющейся па выходе информации, но и с привлечением дополнительных сведении о работе тех или иных алгоритмов перевода на каждом языке системы.
Таким образом, в результате наших исследований мы пришли к выводу о целесообразности рассмотрения переводных соответствий иа лексическом, морфологическом и синтаксическом уровнях. Основой предложенного деления соответствий послужил!’ результаты типологического исследования ошибок при работе СМП. Поэтому мы выделили следующие типы переводных соответствий: по программному обеспечению: табличные схемные
по лингвистическому обеспечению:
эквивалентные соответствия лексического типа; эквивалентные соответствия морфологического типа; эквивалентные соответствия синтаксического тина; вариантные соответствия лексического типа; вариантные соответствия морфологического типа; варианпше соответствия синтаксического типа; трансформационные соответствия лексического типа; трансформационные соответствия морфологического типа; трансформационные соответствия синтаксического типа; трансформационные соответствия текстового типа.
Рассмотрим переводные соответствия лексического типа с точки зрения оцешш качества работы современных. СМП и выявления ошибок перевода. Эквивалентные соответствия лексического типа представляют собой диалектическое противоречие, являясь, с одной стороны, наиболее простыми элементами для перевода, а, с другой стороны, составляя едва ли не самый обширный класс переводческих ошибок. Ввиду однозначного соответствия лексических единил входного и выходного языка их перевод осуществляется по установленной схеме, а именно путем внесения в автоматический словарь значений соответствующих единиц.
Вариантные соответствия лексического типа также составляют один из наиболее крупных классов лексических ошибок при МП. В отличие от эквивалентных соответствий, вариантные соответствия лексического типа и ошибки, вызванные их неправильным переводом, не могут быть столь оперативно устранены. Разрешение многозначности в процессе МП решается не только словарными, но и алгоритмическими методами. Тем не менее, данная проблема не имеет однозначного решения, и пополнение словарей пользователем может вызвать некорректную работу системы на других массивах текстов. Приведем примеры таких ошибок: Web Site / Selmnetz-Aufstellungsort ! участок ткани / Spinnwebe / Gewebe-Gelande, I received a letter /Я получил символ, newsletter / Mitteilungsblatt.
Трансформационные соответствия лексического типа — наиболее сложный вид соответствий для перевода посредством СМП, который в большинстве случаев переводится некорректно, так как требует коренного преобразования структуры словосочетания.
Рассмотрим функционирование переводных соответствий на морфологическом уровне. Под эквивалентными соответствиями морфологического типа мы предлагаем рассматривать такие соответствия морфологического уровня, которые остаются пеизметшми и образуют переводное единство в рамках взятого текста. В приводимом ниже примере, глагол «sein», который в исходном предложении находится в прошедшем времени и множественном числе, переводится на русский язык глаголом «быть», который также представлен во множественном числе и прошедшем времени: Die Uebersetzungen waren bei schwierigen Texten holprig / Переводы были при трудных текстах holprig. Суть данных соответствий
заключается в том, что сходные структуры, вне зависимости от контекста и прочих факторов будут иметь одинаковый перевод на уровне морфологических характеристик. Мы полагаем, что закономерности такого рода должны найти свое отражение при функционировании ЕВМТ-систем (Example-Based Machine Translation systems), позволяя осуществлять корректный перевод по аналогии с образцом, имеющимся в архиве системы.
К вариантным соответствиям морфологического типа относятся конструкции, при переводе которых существует несколько взаимоприемлемых в условиях машинного перевода вариантов отображения морфологических характеристик. Причем оба варианта считаются приемлемыми для СМП с последующим выбором доминирующего варианта на уровне постредактирования человеком: шляпа моего отца/ der Hut von meinem Vater, der Hut meines Vaters, оперение птицы /das Gefieder von dein Vogel; das Gefieder des Vogels.
Трансформационные соответствия морфологического типа встречаются довольно редко, если их рассматривать в чистом виде, как они описаны у Марчука Ю.Н., где они функционируют в основном на синтаксическом уровне.
Минимальной единицей переводных соответствий синтаксического типа является предложение. Целесообразно также отмечать эквивалентные, вариантные и трансформационные соответствия и на уровне предложений. Под эквивалентными соответствиями синтаксического типа мы предлагаем рассматривать такие предложения, структура которых на входном языке полностью соответствует структуре предложений на выходном языке: Sie läuft unter Windows 95/98 und MT4.0 sowie mit eingeschränktem Funktionsumfang auch unter Window,i3. Ix. / It runs under Window 95/98 and MT 4.0 as well as with reduced function range also under Windows 3Jx.
Трансформационные соответствия синтаксического типа подразумевают полное перестроение структуры выходного предложения rio сравнению со структурой входного предложения. Приведем для иллюстрации пример, заимствованный у Комиссарова: If the funeral had been yesterday, I could not recollect it better. Правильно это предложение переводится на русский язык следующим образом: «Я помню эти похороны так, как будто они были вчера». А вот как его перевели системы МП: Если похороны были вчера, я ne мог бы
вспоминать их лучше. Wenn das Begräbnis gestern gewesen war, könnte ich sich nicht besser erinnern. Результаты перевода свидетельствуют о том, что данные структуры, в которых необходима трансформация, не всегда правильно переводятся СМП, требуя редакторской правки.
В результате типологического исследования ошибок машинного перевода стало возможным уточнение модели переводных соответствий с вычленением новых типов соответствий, характерных дня функционирования современных СМП. Расншрецкая классификация позволяет определять соответствия и, соответственно, исправлять ошибки на всех языковых уровнях, используемых в современных системах.
Третья глава посвящена описанию действующих коммерческих систем и оценке их эффективности. Объектом исследования стали следующие СМП: PROMT 98, SYSTRAN PRO 2.0, СПРИНТ-5, Сократ 2.0, Langenscheidt T1 Standard 3.0, Personal Translator Plus 2.0, I’fnver Translator Deluxe и опНпс-переводчики (wvwv.translate.ru, Сократ онлайн).
Системы машинного перевода, рассматриваемые в нашем исследовании, тестируются по принципу «черного ящика» в соответствии с типологией ошибок, изложенной во второй главе. Каждая система оценивается по пятибальной шкале:
5 — отличный перевод (смысл нонятен, требует минимального постредактирования)
4 — хороший перевод (общий смысл понятен, требуется постредактирование)
3 — удовлетворительный перевод (общий смысл в большинстве случаев понятен, на требуется постредактирование с обращением к оригиналу)
2 — неудовлетворительный перевод (общий смысл б» обращения к оригиналу понять сложно, необходим большой объем постредактирования)
1 — неприемлемый перевод (смысл понять невозможно, обьем постредактирования сопоставим с выполнением перевода еще раз)
Оценка понятности и адекватности перевода исходному тексту осуществлялась не только самими исследователям!, к этому анализу привлекались также участники контрольных групп, в состав которых входили студенты лингвистического отделения Московского педагогического университета (МПУ). Помимо лингвистических факторов, которые легли в основу оценочной шкалы для рассматриваемых СМП, анализироватись также и экстралингвистические факторы. В результате исследования были получены следующие результаты, свидегельстауюшие об эффективности рассматриваемых систем:
Группа СМП, поддерживающая русский язык: Англо-русское направление перевода
1. CMII PROMT 98: перевод подавляющего большинства текстов удовлетворительный (3 — в скобках представляется бал по предложенной ранее оценочной шкале), встречаются тексты, которые могли бы быть отнесены к разряду хороших переводов (4). Постредактирование требуется во всех случаях. Занимает первое место среди систем, осуществляющих перевод с английского языка на русский. В процессе перевода требуется пополнение пользовательского словаря. В некоторых случаях сложно понять выходной текст без обращения к оригиналу, и ои не всегда адекватен оригиналу. По сервисным возможностям и количеству специализированных словарей данная СМП является бесспорным лидером. PROMT 98 считается самой дорогой программой среди СМП российских разработчиков.
2. СПРИНТ-5 характеризуется удовлетворительным переводом текстов (3). Выходные тексты требуют обязательного постредактирования. Система занимает второе место среди российских СМП по качеству перевода. СМП СПРИНТ-5 требует дальнейшей отладки и изменения некоторых алгоритмов перевода. Сервисные функции системы и ее цепа исследованию не подвергались, так как на настоящий момент данная СМП не является конкурентоспособной по данным показателям.
3. Сократ 2.0: данная CM1I осуществляет перевод удовлетворительного качества (3), требующий значительного постредактирования. Некоторые отрезки выходного текста невозможно понять без обращения к оригиналу. Требуется пополнение словарей и расширение их номенклатуры, которая уступает рассмотренным выше системам. Сервисные функции системы крайне отраничены. Данная СМП занимает третье место среди остальных программ Mil по качеству перевода и сервисным функциям. Соотношение цепа/качество является сбалансированным.
Русско-английское направление перевода
PROMT 98: система показала хорошее качество перевода (4) с необходимым постредактированием. Количество незнакомых слов было незначительным. Рассматриваемая СМП занимает первое место среди систем МП с русского языка на английский. Сочетание сервисных функций и количества словарей является оптимальным. Соотношение цена/качество является несколько непропорциональным с явным завышением в сторону стоимости системы.
1. SYSTRAN PRO 2.0: система выполняет переводы хорошего качества (4), требующие дальнейшего постредактирования. Требуется некоторое пополнение словарей системы. По качеству перевода и сервисным функциями СМП SYSTRAN PRO 2.0 занимает второе место. Учитывая, что русский язык не является основным языковым направлением, разрабатываемым в системе SYSTRAN, такие результаты тестирования свидетельствуют о высоком уровне всей системы. По сервисным характеристикам СМП SYSTRAN PRO 2.0 уступает СМП PROMT 98, однако количество специализированных словарей достаточно велико. Соотношение цена/качество полностью соответствует предоставляемым программой переводам и по этому показателю CMII SYSTRAN PRO 2.0 опережает СМП PROMT 98, предоставляя качественные переводы при более низких капиталовложениях. Основным достоинством системы является го, что все специализированные словари (а их насчитывается 22) поставляются в комплекте с программой и входят в ее базовую стоимость.
2. Сократ 2.0 показала удовлетворительное качество перевода (3), требующего значительного постредактирования. В протестированных текстах были обнаружены грубые ошибки анализа, и синтеза, которые свидетельствуют о
несовершенстве или ошибках в алгоритмах системы. Появление таких ошибок в различных версиях системы свидетельствует об их закономерности. Система нуждается в некоторой доработке и устранении выявленных ошибок. Сервисные функции практически полностью отсутствуют. Соотношение цена/качество является реальным.
2. Группа СМП, осуществляющая перевод с английского языка па немецкий и с немецкого на английский
1. SYSTRAN PRO 2.0 занимает лидирующее положение среди рассматриваемых СМП, показывая хорошие результата перевода (4) в целом. В отдельных случаях система продемонстрировала отличный перевод (5), практически не требующий постредактирования. Однако в подавляющем большинстве случаев все-таки требуется определенная обработка выходного текста с изменением структуры предложения и добавлением новой лексики, особенно при работе с англонемецкой языковой парой. По сервисным функциям и количеству специализированных словарей CMII SYSTRAN PRO 2.0 также занимает ведущие позиции, однако, не всегда является бесспорным лидером. Соотношение цена/качество оправданно, несмотря на более высокую, по сравнению с остальными системами, стоимость.
2. Personal Translator Plus: система показала удовлетворительное качество перевода (3), требующее значительного постредактирования с обращением к оригиналу в некоторых случаях. Общий смысл переведенных текстов ясен без обращения к оригиналу, однако требуется изменение структуры предложения и добавление новой лексики. Такого рода преобразования имеют место преимущественно при переводе с английского языка на немецкий. СМП Personal Translator Plus предоставляет расширенные сервисные функции, позволяя осуществлять перевод с помощью архива уже переведенных предложений. Соотношение цена/качество является приемлемым при переводе, продемонстрированным системой.
3. Power Translator Deluxe: система показата удовлетворительные результаты (3), заняв третье место среда тестируемых СМП. Выходной текст требует несколько большего по сравнению с рассмотренными выше системами объема
постредактирования. Во многих случаях требуется пополнение словаря новой лексикой и изменение структуры выходных предложений на немецком языке. СМП Power Translator Deluxe обладает хорошими сервисными функциями, однако, отсутствие специализированных словарей сказывается на разрешении многозначности и качестве перевода в делом. 4. Langenscheidt T1 Standard 3.0 выполняет переводы удовлетворительного качества (3). Однако объем постредактирования, добавления повой лексики и ошибки алгоритмического характера при переводе существительных на немецкий язык позволяет поставить систему только на четвертое место в ряду протестированных СМП. Система МП Langenscheidt T1 Standard 3.0 предоставляет стандартные сервисные возможности и предлагает большое количество специализированных словарей. Достоинством данной системы является возможность тематического деления добавляемой лексики. Такая функция имеется только у данной программы и не представлена больше ни в одной из рассматриваемых нами систем. Соотношение цепа/качество является оправданным, при повышении качества переводов данное соотношение станет оптимальным.
Бесспорным лидером среди российских оп1ше-переводчиков является сайг www.translate.ru фирмы «ПРОМТ». Для работы сайта используется модифицированный модуль перевода, несколько отличный от используемого в базовых системах. Качество перевода, выполненного данным опИпе-переьодчиком, сопоставимо и не уступает качеству работы базовых систем. На сайте имеется возможность подключения некоторого числа специализированных словарей, что является несомненным преимуществом по сравнению с остальными рассматриваемыми online-переводчиками (Сократ-онлайп, AltaVista), где такая опция отсутствует.
В заключении изложены общие выводы проведенного исследования.
СМП гармонично сочетаются с другими текстовыми и речевыми процессорами, образуя самодостаточный конгломерат, который может быть использован в системах искусственного интеллекта (ИИ) и прочих информационных системах. Современные СМП активно используются и интегрируются в сеть Интернет. Дальнейшее развитие СМП будет происходить с помощью Всемирной паутины.
СМГ1 трансферного типа являются единственными программами МП, голучившими свое промышленное и коммерческое распространение, и занимают [омипируюгцее положение. В основу функционирования современных сметем тина 1ВМТ, МЕМТ и других положен принцип переводных соответствий на основе юдели «текст-текст». СМП семантического типа находятся на этапе геследовательских прототипов и не в состоянии конкурировать на рынке с истемами трансферного типа.
Несмотря на многообразие методик оценки эффективности систем МП, в [астоящее время превалируют эмпирические методы тестирования СМП. 1аибольшее распространение получили статистические методы, принцип «черного гщика», учет семантической полноты и точности, а также принцип понятности и декватности. Широко попользуется метод привлечения конечных пользователей да оценки выходного текста. В исследовании применяется принцип «черного |щика» с последующей классификацией ошибок, допущенных системой в процессе 1еревода, привлечением оценки, полученной в тестовых группах и окончательным ранжированием СМП по пятибальной оценочной шкале.
Предложена новая, более развернутая классификация переводных »ответствий по лингвистическому обеспечению, отвечающая задачам описания анализа и синтеза современных СМП. Данная классификация позволяет описывать зее языковые уровни и служит прекрасным инструментарием для создания и разработки систем МП, основанных на использовании примеров (ЕВМТ).
Типологическое исследование ошибок машинного перевода целесообразно проводить не на основе грамматических явлений, а с учетом этапов работы системы.
Проблема оценки современных СМП должна решаться комплексно с учетом не только лингвистических, но и экстралингвистических факторов функционирования программы. Данная методика позволяет оценивать рассматриваемые систсмы не только с точки зрения лингвистических факторов, но и с учетом экспертного заключения от тестовых групп и привлечением экстралипгвистических факторов. Предложенная градация систем МП по эффективности их работы позволяет потенциальному пользователю более четко ориентироваться в возможностях систем и необходимых затратах па их содержание.
Результаты нашего исследования могут быть использованы при принятии решения о приобретении той или иной СМП.
Итоги работы обсуждались на научной конференции «Коммуникативные стратегии на пороге XXI века» (Москва, МГУ, январь 1999 года), на конференции «Теория н практика речевых исследований (АРСО-99)» (Москва, МГУ, сентябрь 1999 года) и были представлены в виде тезисов на Десятую сессию Российского акустического общества (Москва, Акустический институт им. акад. H.H. Андреева, май 2000 года). Основное содержание диссергациояного исследования отражено в следующих публикациях:
1. Хроменков П.Н. Виртуальный мир: миф или реальность. Вестник Московского педагогического университета, Вып. 2, Москва, 1998. — Стр. 50-55.
2. Хроменков ГШ. Системы машинного перевода в сети Интернет. Проблемы филологии, лингводидактики и межкультурной коммуникации. Москва, 1999. — Стр. 121 — 141.
3. Хроменков П.Н. Совремешюе состояние и перспективы развития систем машинного перевода (СМП). Материаш конференции «Теория и практика речевых исследований (АРСО-99)», Москва, 1999. — Стр. 56 — 57.
4. Хроменков П.Н. К вопросу об анализе ошибок в современных системах автоматического перевода. Сборник трудов X сессии Российског о акустического общества, Т.2, Российская академия естественных наук, М., 2000. — Стр. 336 -338.
5. Хроменков П.Н. СМП PROMT 98 и СМИ SYSTRAN PRO 2.0: общие черты и различия. В печати.
Оглавление научной работы автор диссертации — кандидата филологических наук Хроменков, Павел Николаевич
Введение з
Глава 1 Современное состояние разработки систем машинного перевода
1.1 Роль и место СМП среди других лингвистических процессоров
1.2 Типология современных систем МП
1.3 Системы прямого перевода
1.4 Трансферные СМП
1.5 СМП семантического типа
1.6 Выводы к главе
Глава 2 Современная методология оценки эффективности систем машинного перевода
2.1 Современные методы оценки СМП
2.2 Типология ошибок при работе МП
2.3 Выводы к главе
Глава 3 Оценка эффективности основных действующих систем машинного перевода
3.1 Краткая характеристика систем МП: PROMT 98, Systran Pro 2.0, СПРИНТ-5, Сократ 2.0, Langenscheidt Т1 Standard 3.0, Personal Translator Plus 2.0, Power Translator Deluxe
3.2 Оценка эффективности современных СМП: PROMT 98, Systran Pro 2.0, СПРИНТ-5, Сократ 2.0, Langenscheidt T1 Standard 3.0, Personal Translator Plus 2.0, Power Translator Deluxe
3.3 Выводы к главе.
Введение диссертации2000 год, автореферат по филологии, Хроменков, Павел Николаевич
Мы живем в мире информационных технологий, которые прочно вошли в нашу жизнь. На работе и дома мы пользуемся современными средствами связи; компьютер превратился в неотъемлемый элемент нашей жизни не только на рабочем месте, но и в обыденной жизни. Бурное развитие новых информационных технологий свидетельствует о всевозрастающей роли вычислительной техники в мировом информационном пространстве, о постепенной дигитализа-ции все новых и новых отраслей нашей жизни. С каждым годом увеличивается число пользователей Интернета — Всемирной паутины, которая претендует на роль единого информационного пространства в планетарном масштабе. Несмотря на противоречивость нашего мира, наличие вооруженных конфликтов и разногласий между странами, Сеть становится «виртуальной реальностью» особого типа, позволяющей осуществлять такую интеграцию между народами, которая в реальной жизни остается все еще несбыточной мечтой. Сеть Интернет — это мир без границ, где в течение нескольких секунд можно оказаться на другой части земного шара. Единственной преградой, которая незримо присутствует во всей Сети, является языковой барьер. Эта проблема, общая как для реального, так и для «виртуального» мира сети Интернет, до настоящего момента так и не нашла своего кардинального решения. Попытки внедрения универсального языка типа Эсперанто или какого-либо другого языка не привели к их массовому использованию, и единственным способом преодоления языкового несоответствия является перевод, известный еще с древнейших времен, когда этим делом занимались толмачи.
Но нынешний век, где информация изменяется 24 часа в сутки и применяются электронные средства связи, диктует свои условия. В такой ситуации классический подход к осуществлению перевода не всегда оправдывает себя, т.к. требует больших капиталовложений и временных затрат. По сравнению с прошлыми веками объем информации, предназначенной для перевода, значительно увеличился. В некоторых случаях более целесообразным представляется использование машинного или автоматического перевода и систем машинного перевода (СМП). Развитие таких систем позволит оперативно осуществлять перевод информации и обрабатывать большие массивы документов в предельно сжатые сроки, т.е. удовлетворять основному требованию сегодняшней жизни: оперативной обработке огромных массивов информации при минимальных затратах.
Выбор данной темы исследования обусловлен в первую очередь ее новизной, недостаточной степенью исследованности и актуальностью рассматриваемых задач. Проблема эффективности машинного перевода является одним из ключевых факторов, определяющих перспективность развития данной области науки. В настоящее время не существует единой системы оценки эффективности работы существующих СМП. В данной работе предпринимается попытка проведения сравнительного анализа эффективности современных коммерческих СМП. В исследовании участвовали системы, осуществляющие перевод с русского языка на английский и обратно, и системы перевода с английского языка на немецкий и обратно. Для определения степени влияния языковой интерференции на качество перевода в эксперимент были включены англонемецкая и немецко-английская языковые пары.
Целью настоящей работы является сопоставительное исследование эффективности современных СМП. В основу качественного показателя результатов перевода и эффективности систем были положены не только лингвистические, но и экстралингвистические критерии оценки СМП.
Для достижения поставленной цели потребовалось разрешение следующих задач: выявление современных СМП, нашедших свое промышленное и коммерческое применение и являющихся уже не исследовательскими прототипами, а реально действующими системами, обладающими свойствами готового продукта; типологическое описание современных СМП и выявление доминирующего типа СМП; выделение основных критериев оценки эффективности машинного перевода (МП); проведение сравнительного исследования результатов переводов, выполненных современными СМП; анализ и типология ошибок при работе с СМП; апробация методов оценки на действующих системах МП и оценка их эффективности.
Теоретический аспект данной работы заключается в лингвистической разработке методов оценки. Системы рассматриваются, изучаются и оцениваются по принципу «черного ящика», который подразумевает отсутствие полной информации об алгоритмах работы системы, и на входном этапе мы априорно не знаем, с какой системой работаем. В результате исследования лингвистической компоненты систем МП создается теоретическое обоснование для определения типа системы и ее лингвистического обеспечения. Теоретическая значимость данного исследования заключается в возможности определения, дальнейшего моделирования и совершенствования лингвистической составляющей не только в СМП, но и в целом в системах искусственного интеллекта (ИИ), неотъемлемой частью которых собственно и является МП. В рамках исследования предлагается расширить типологию переводных соответствий, предложенную МарчукомЮ.Н. (Марчук, 1983).
Практические исследования направлены на подтверждение правильности выработанных критериев и методов оценки СМП, возможности их использования в качестве тестового массива не только для рассматриваемых в данной работе СМП, но и в целом для оценки эффективности существующих СМП, которые работают с указанными языковыми парами. Практическая ценность данной работы заключается в том, что потенциальный пользователь СМП при выборе программы машинного перевода может воспользоваться приводимыми в данной работе тестами для проведения первичной оценки СМП. На основе результатов такого теста можно будет принять окончательное решение о целесообразности применения СМП в тех или иных отраслях промышленности и получить начальное представление о качестве машинного перевода и имеющихся на сегодняшний день недостатках в этой области. Такие предварительные исследования, основанные на материалах, приводимых в данной работе, позволят сэкономить капиталовложения, избежать последующих финансовых потерь и разочарований вследствие завышенных требований к СМП.
Материалом исследования послужили более 300 текстов на русском, английском и немецком языках. Источником языкового материала послужила сеть Интернет, наиболее динамично реагирующая на языковые преобразования современности.
Методами исследования послужили принцип «черного ящика», метод тестовых групп конечных пользователей, типологическое, лингвистическое и экстралингвистическое сопоставительное описание.
На защиту выносятся следующие положения: 1. Доминирующим типом современных СМП являются СМП трансферного типа, получившие достаточно широкое промышленное и коммерческое распространение. Таким образом, системы трансферного типа представляют собой единственный класс СМП, который может быть подвержен сравнительно-сопоставительному исследованию с целью выявления эффективности сож JTTT временных систем МП.
2. Функционирование, развитие и совершенствование систем машинного перевода в настоящее время происходит в сети Интернет, которая является источником материалов не только для тестирования систем, но и служит рабочим пространством для такого рода систем в планетарном масштабе. Дальнейшая эксплуатация и разработка новейших СМП будет осуществляться посредством Интернета.
3. При типологическом исследовании ошибок при работе систем МП следует придерживаться комплексного подхода, базирующегося на учете этапов функционирования системы. Следует выделять ошибки автоматического анализа и синтеза, которые в свою очередь подразделяются на более конкретные подклассы, отражающие работу алгоритмического аппарата системы.
4. Подавляющее большинство современных СМП основано на принципе переводных соответствий. В результате типологического исследования модели переводных соответствий возникла необходимость создания расширенной классификации переводных соответствий. Предложенная типология переводных соответствий на основе лингвистического обеспечения СМП позволяет более широко рассматривать проблему ошибок при работе систем МП и может быть использована при создании новых систем, основанных на применении принципа параллельных текстов.
5. Практическая классификация современных СМП, основанная на учете экстралингвистических факторов и качества переводов, выполненных данными системами, позволяет составить впечатление об эффективности и функциональных возможностях каждой системы. Указанная градация СМП представляет практическую ценность при выборе конкретной системы МП.
Результаты работы обсуждались на научной конференции «Коммуникативные стратегии на пороге XXI века» (Москва, МГУ, январь 1999 года), на конференции «Теория и практика речевых исследований (АРСО-99)» (Москва, МГУ, сентябрь 1999 года) и были представлены в виде тезисов на Десятую сессию Российского акустического общества (Москва, Акустический институт им. акад. Н.Н. Андреева, май 2000 года). Основное содержание диссертационного исследования отражено в 5 публикациях.
Заключение научной работыдиссертация на тему «Анализ и оценка эффективности современных систем машинного перевода»
3.3 Выводы к главе
В результате исследования эффективности современных СМП были выявлены системы, показавшие наилучшие результаты в ходе проведенного тестирования. Следует отметить, что за исключением некоторых систем практически все рассмотренные СМП показывают одинаковый базовый уровень перевода и обладают основными сервисными функциями.
Проведенное нами исследование и деление отражают эффективность лингвистического обеспечения и качество перевода для каждой отдельной программы. В результате исследования было выявлено, что все без исключения системы нуждаются в настройке на предметную область, в которой они будут использоваться. Без проведения такой отладки трудно говорить об успешном использовании СМП. Результаты данного исследования представляют практическую ценность при выборе той или иной СМП, т.к. системы, занявшие первые места в нашей классификации, обладают хорошим качеством перевода и значительными сервисными возможностями.
Тестирование СМП с английским и немецким языками показало, что перевод, вследствие близости данных языков, выполняется с меньшим числом ошибок, нежели в случае с русским языком. Однако такие явления, которые присущи только одному языку из рассматриваемой пары (например, рамочная конструкция в немецком языке), переводятся не всегда корректно и требуют вмешательства редактора. На основании полученных результатов можно сделать вывод, что языковая интерференция способствует повышению качества перевода и сокращает количество ошибок, т.к. все преобразования происходят на уровне эквивалентных и вариантных соответствий. Проведенный анализ результатов перевода позволяет также выдвинуть гипотезу об универсальном характере переводческих трудностей при работе систем МП. Гипотеза требует дальнейшей проверки и развития.
Данные исследования, полученные эмпирическим путем, позволяют сделать вывод, что лучшей СМП, осуществляющей перевод с русского и на русский язык, является СМП PROMT 98. Среди зарубежных систем, работающих с английским и немецким языками, следует выделить СМП SYSTRAN PRO 2.0, которая показала наилучшие результаты перевода. Указанные системы являются лидерами не только среди традиционных СМП, но и в области таких новых информационных технологий, как Интернет, предоставляя услуги бесплатного перевода в режиме реального времени. Мы полагаем, что сфера информационных технологий станет играть ключевую роль в развитии СМП.
Заключение
В результате типологического и сравнительно-сопоставительного исследования современных СМП по принципу «черного ящика» и на основе случайной выборки текстов можно сделать следующие выводы.
СМП гармонично сочетаются с другими текстовыми и речевыми процессорами, образуя самодостаточный конгломерат, который может быть использован в системах искусственного интеллекта (ИИ) и прочих информационных системах. Современные СМП активно используются и интегрируются в сеть Интернет. Дальнейшее развитие СМП будет происходить с помощью Всемирной паутины, неотъемлемой частью которой станут современные системы машинного перевода, работающие в режиме реального времени. Наблюдается тенденция к увеличению номенклатуры рабочих языков и созданию систем, работающих с редкими языками,
СМП трансферного типа являются единственными программами МП, получившими свое промышленное и коммерческое распространение, и занимают доминирующее положение. В основу функционирования современных систем типа ЕВМТ, МЕМТ и других положен принцип переводных соответствий на основе модели «текст-текст». СМП семантического типа находятся на этапе исследовательских прототипов и не в состоянии конкурировать на рынке с системами трансферного типа. Несмотря на попытки создания новой универсальной теории представления и формализации экстралингвистических знаний, данная проблема по-прежнему не решена.
Несмотря на многообразие методик оценки эффективности систем МП, в настоящее время превалируют эмпирические методы тестирования СМП. Наибольшее распространение получили статистические методы, принцип «черного ящика», учет семантической полноты и точности, а также принцип понятности и адекватности. Широко используется метод привлечения конечных пользователей для оценки выходного текста. Отсутствие единого стандарта оценки современных систем МП свидетельствует о недостаточной исследованности данной отрасли науки и наличии неразрешенных проблем и разногласий между исследователями. В нашем исследовании применяется принцип «черного ящика» с последующей классификацией ошибок, допущенных системой в процессе перевода, привлечением оценки, полученной в тестовых группах, и окончательным ранжированием СМП по пятибалльной оценочной шкале.
В результате исследования была выявлена необходимость расширенной трактовки модели переводных соответствий. Имеющаяся типология переводных соответствий не охватывает всего спектра межъязыковых отношений. Таким образом, была предложена новая, более развернутая классификация переводных соответствий по лингвистическому обеспечению, отвечающая задачам описания анализа и синтеза современных СМП. Данная классификация позволяет описывать все языковые уровни и служит прекрасным инструментарием для создания и разработки систем МП, основанных на использовании примеров (ЕВМТ).
Типологическое исследование ошибок машинного перевода целесообразно проводить не на основе грамматических явлений, а с учетом этапов работы системы. В этой связи нам представляется уместным выделять ошибки автоматического анализа и синтеза, которые в свою очередь делятся на ряд классов, соответствующих конкретным этапам работы алгоритмов системы. Основываясь на результатах исследования, мы считаем целесообразным применение системного подхода к проблеме оценки качества современных систем МП. Причины возникновения переводческих ошибок настолько взаимосвязаны, что исправление одной ошибки без учета общей ситуации может привести к снижению эффективности системы в целом.
Проблема оценки современных СМП должна решаться комплексно с учетом не только лингвистических, но и экстралингвистических факторов функционирования программы. Данная методика позволяет оценивать рассматриваемые системы не только с точки зрения лингвистических факторов, но и с учетом экспертного заключения от тестовых групп и привлечением экстралингвистических факторов. Предложенная градация систем МП по эффективности их работы позволяет потенциальному пользователю более четко ориентироваться в возможностях систем и необходимых затратах на их содержание. Результаты нашего исследования могут быть использованы при принятии решения о приобретении той или иной СМП.
Рассмотренный в данной работе круг проблем не является исчерпывающим и требует продолжения исследований в данной области. Отдельного развернутого исследования требует проблема типологии переводных соответствий. На основе переводных соответствий нового типа, описанных в данной работе, возможно построение универсальной системы оценки эффективности СМП, которая, возможно, будет находиться в корреляционной зависимости с предложенным тезисом об универсальном характере переводческих трудностей при работе СМП. Предложенная гипотеза требует отдельного изучения и проверки, т.к. в рамках данной работы была осуществлена лишь постановка проблемы и определены основные направления исследования.
Список научной литературыХроменков, Павел Николаевич, диссертация по теме «Прикладная и математическая лингвистика»
1. Андреев Н. Д. Основные направления работы экспериментальной лаборатории машинного перевода. В кн.: Hutchins W.J. Machine Translation: Past, Present, Future — New York, 1986. — 382 p.
2. Апресян Ю.Д. Идеи и методы современной структурной лингвистики. М.: Просвещение., 1966. — 302 с.
3. Бакулов А.Д., Леонтьева Н.Н., Шаляпина З.М. Отечественные системы машинного перевода. В кн.: ИИ-90: Искусственный интеллект/ Справочник/ Книга 1. Системы общения и экспертные системы. М.: Радио и связь. -1990. Стр. 248-261.
4. Боброва В .Я. Системы машинного перевода. Итоги науки и техники. Сер. Информатика. М.: ВИНИТИ. -1990. — Т.14. — Стр. 149-178.
5. Ванников Ю.В. Виды адекватности и типология перевода.— В кн.: Совершенствование перевода научно-технической литературы и документов: Тез. докл. всесоюзн. конф. М. — 1982.
6. Ванников Ю.В. Понятие адекватности текста и типы адекватности перевода.— В кн.: Уровни текста и методы его лингвистического анализа. М., 1982а.
7. Вардуль И.Ф. Об изучении семантического аспекта языка. Вопросы языкознания № 6/73. — Стр. 9-21.
8. Вольф М. Европа «проспала» интернет-торговлю? PCWeek/RE, 2 сентября 1998 г.
9. Грязнухина Т.А., Дарчук Н.П., Клименко Н.Ф. и др. Использование ЭВМ в лингвистических исследованиях. Киев: Наукова Думка. — 1990. — 266 с.
10. Искусственный интеллект/ Справочник/ Книга 1. Системы общения и экспертные системы. М.: Радио и связь. — 1990. — 458 с.
11. Капанадзе О.Г. Современные зарубежные системы машинного перевода. -М.: ВЦП.- 1989.- 102 с.
12. Каничев М. Встреча компьютерных толмачей. Мир ПК, №8 1998. — Стр. 100-102.
13. Ким Т. В 2005 году население Интернета перевалит за полмиллиарда. ZDNet UK, 18 декабря 1998 г.
14. Киселев А.Н. Элементы теории и практики переводных соответствий // НТИ / ВИНИТИ. Сер. 2, Информ. процессы и системы. М., 1993. — N 8. — Стр. 1621.
15. Комиссаров В.Н. Слово о переводе. М.: ИНО, 1973. — Стр. 237.23 .Королев Э.И. Промышленные системы машинного перевода — М.: ВЦП, 1991. — 100 с.
16. Котов Р.Г., Марчук Ю.Н., Нелюбин JI.JI. Машинный перевод в начале 80-х годов// ВЯ. 1983. — N1. — Стр. 31-38.
17. Кулагина О.С. Исследования по машинному переводу. М.: Наука. — 1979. -320 с.
18. Кулагина О.С. Машинный перевод: современное состояние // Семиотика и информатика. М., 1989. — Вып. 29. — Стр. 5-33.
19. Кулагина О.С. О семантическом анализе на основе предпочтений. Препринт Института прикладной математики АН СССР. Москва №3/90. — Стр. 1-20.
20. Кюннап Э. Автоматическое распознавание речи. Таллинн: Ин-т кибернетики АН Эстонии — 1989. — 108 с.
21. Леонтьева Н.Н. База знаний и автоматический перевод (проект многоязычной информационно-справочной системы)// Междунар. семин. по машин, переводу «ЭВМ И ПЕРЕВОД 89″/ Тбилиси, 27.11.-02.12. 1989 г./ Тезисы докладов. М.- 1989. —Стр. 178-181.
22. Леонтьева Н.Н., Шаляпина З.М. Современное состояние машинного перевода. В кн.: ИИ-90: Искусственный интеллект/ Справочник/ Книга 1. Системы общения и экспертные системы. М.: Радио и связь. 1990. — Стр.216.248.
23. ЛЭС: Лингвистический энциклопедический словарь. — М.: Советская энциклопедия, 1990. — 685 с.
24. Мартемьянов Ю. С. Эквивалентность в порождающей грамматике.— В кн.: Теория перевода и научные основы подготовки переводчиков: Тез. всесоюзн. конф. М., 1975. —Ч. II.
25. Марчук Ю.Н, Об автоматизации составления схем перевода многозначных слов. Научно-техническая информация, ВИНИТИ АН СССР, № 9, 1964. — Стр. 35-38.
26. Марчук Ю.Н., Моторин Ю.А. Основные принципы автоматизации перевода с английского языка на русский. Вопросы радиоэлектроники, серия ЭВТ, вып. 7, 1970. —Стр. 11-19.
27. Марчук Ю.Н. Синтактико-семантический анализ в системе машинного перевода АМПАР. В кн.: Международный семинар по машинному переводу (под ред. Марчука Ю.Н.). Тезисы докладов, М.: ВЦП, 1979. — Стр. 8-9.
28. Марчук Ю.Н. Проблемы машинного перевода. М.: Наука. — 1983. — 201 с.
29. Марчук Ю.Н. Методы моделирования перевода. — М,: Наука. 1985. — 233с.
30. Марчук Ю.Н. Математические методы в языкознании/ Обзор материалов конференции COLING-88. М.: ИНИОН. — 1990. — 46 с.
31. Марчук Ю.Н. Проблемы компьютерной лингвистики; Модель «текст-текст» и переводные соответствия в теории машинного перевода. Сборник научных статей. Минск 1997. — Стр. 21-29
32. Марчук Ю.Н. Основы компьютерной лингвистики. М.; Народный учитель. -2000. — 227 с.41 .Международный семинар по машинному переводу (под ред. Марчука Ю.Н.). Тезисы докладов, М.: ВЦП, 1979. — 196 с.
33. Мельчук И.А. Опыт теории лингвистических моделей «СМЫСЛ-ТЕКСТ». -М.: Наука. 1974.-314 с.
34. Мельчук И.А. Русский язык в модели «смысл-текст». Москва-Вена-Школа «Языки русской культуры», 1995. — 682 с.
35. Митин В. ПРОМТ владеет французским на 30% лучше, чем конкуренты. PC Week: 12 ноября 1999 г.
36. Молдокулова Н.В., Трунин-Донской В.Н. Лингво-акустические проблемы создания системы распознавания слитной речи на ЗВМ. Фрунзе: Илим. -1989.- 136 с.
37. Моторин Ю.А., Марчук Ю.Н. Реализация автоматического перевода на современных серийных ЭВМ общего назначения. Вопросы радиоэлектроники, серия ЭВТ, вып. 7, 1970.— Стр. 20-29.
38. Моуд Д. Машинный перевод: новое поколение технологий. Новые продукты помогают переводить основной смысл содержания глобальных интрасетей. PC Week.
39. МСМП-89: ЭВМ и перевод/ Международный семинар по машинному переводу/ Тбилиси, 27.11.-02,12. 1989 г./ Тезисы докладов. М.: ВЦП. — 1989. — Стр. 348.
40. Нелюбин Л.Л. Перевод и прикладная лингвистика. М.: Высшая школа., 1983. —207 с.
41. Методическое пособие). М.; Всесоюзный центр переводов, 1991. — 152 с.
42. Нелюбин Jl.JI., Хухуни Г.Т. История и теория зарубежного перевода. Учебник, М.: МПУ, Издательство Сигнал, 1999. — 144 с.
43. Нелюбин Л.Л., Хухуни Г.Т. История и теория перевода в России. Учебник, М.: МПУ, Издательство Сигнал, 1999а. — 151 с.
44. Новиков А. И. Применение денотатной структуры текста для перевода научно-технической литературы.— В кн.: Психолингвистические аспекты грамматики. М. — 1979.
45. Перминов С. Купля-продажа в сети Интернет. «Московская правда» №11 (23584) от 20 января 1999 г.
46. Пиотровский Р.Г. Машинный перевод в группе «Статистика речи»: результаты и перспективы. В кн.: Международный семинар по машинному переводу (под ред. Марчука Ю.Н.). Тезисы докладов, М.: ВЦП, 1979. — Стр. 5-7.
47. Пиотровский Р.Г. На путях создания интеллектуальных систем обработки текста/о лингвистическом автомате/ ЭВМ и перевод. М.: ВЦП, 1991.
48. Попов Э.В. Экспертные системы. Решение неформализованных задач в диалоге с ЭВМ. М.: Наука, 1987. — 288 с.
49. Потапова Р.К. Речевое управление роботом. М.: Радио и связь. — 1989 — 248 с.
50. Потапова Р.К. Тайны современного кентавра. М.: Радио и связь. 1992 -248с.
51. Потапова Р.К. Речь: коммуникация, информация, кибернетика. — М.: Радио и связь, 1996. —1500 с.
52. Рецкер Я.И. О закономерных соответствиях при переводе на родной язык. Теория и методика учебного перевода. М.: 1950.
53. Рябцева Н.К. Информационные процессы и машинный перевод: Лингвист, аспект / Отв. ред. Котов Р.Г.; АН СССР. Ин-т языкознания. М.: Наука, 1986.- 167 с.
54. Рябцева Н.К. Текст как объект содержательного анализа и проблемы формализации перевода // Текст и перевод. М., 1988. — Стр. 101-113.
55. Суханова М. Кто лучше переводит. Мир ПК, № 1/97.
56. Суханова М. Страна Советов. Мир ПК, № 6/98. — Стр. 95.
57. Федоров А.В. Основы общей теории перевода. -М.: Высшая школа, 1983.
58. Хауорт Р. Веб-устройства заговорили. ZDNet, 28 мая 2000 г.
59. Шаляпина З.М. К проблеме построения формальной модели процесса перевода. — В кн.: Теория перевода и научные основы подготовки переводчиков: Тез. докл. всесоюзн. конф. М., 1975. Ч. II.
60. Alshawi H. The Core Language Engine. MIT Press, Cambridge, MA, 1992.
61. Alshawi H., Carter D. Training and Scaling Preference Functions for Disambiguation. Computational Linguistics. 20(4), 1994. —pp. 635-648.
62. Arnold D., Balkan L., Humphreys R.L., Meijer S., Sadler L. Machine Translation: An Introductory Guide. Oxford: NCC and Oxford Blackwell, 1994.
63. Barnett M. E-commerce standard should enable «one-click» shopping. June 15, The Industry Standard, 1999.
64. Batori I., Weber H.J. Neue Ansatze in Maschineller Sprachubersetzung:
65. Wissensprasentation und Textbezug, Niemeyer, Tubingen, 1986.
66. Batori I. Paradigmen der Maschinellen Sprachubersetzung, In Baton I., Weber H.J. Neue Ansatze in Maschineller Sprachubersetzung: Wissensprasentation und Textbezug. Niemeyer, Tubingen, 1986, pp. 3-27.
67. Boitet K. Twelve Problems for Machine Translation // International Conference on Current Issues in Computational Linguistics University Sains Malaysia, Penang, Malaysia, 1991 Proceedings, pp. 45-47.
68. Borchers D., Huskes R. Web-TV undNetPC, c’t 8/97. — S. 14-15.
69. Bowman L.M. Open your eyes, get some cash, ZDNN, 03. 09. 1998.
70. BroersmaM. Israel set to double its Net population. ZDNetNews, 06. 07. 1998.
71. Brown R. Example-Based Machine Translation in the Pangloss System. In Proceedings of the 16th International Conference on Computational Linguistics (COLING’96), 1996.
72. Bub Т., Wahlster W., Waibel A. Verbmobil: The Combination of Deep and Shallow Processing for Spontaneous Speech Translation. In Proceedings of ICASSP-97, Munich, Germany, 1997.
73. Buschbeck-Wolf B. Resolution on Demand. Verbmobil Report 196, IMS, Universitat Stuttgart, Germany, 1997.
74. Buschbeck-Wolf В., Dorna M. Quality and Robustness in MT — A Balancing Act, in Lecture Notes in Artificial Intelligence 1529, Berlin, Heidelberg, New York: Springer-Verlag, 1998: pp. 62-72.
75. BYTE: BYTE, 1993, January, —pp. 153-186.
76. Collins В., Cunningham P. Adaptation-guided retrieval: Approaching EBMT with caution. In Proceedings of TMI-97, Santa Fe, New Mexico, 1997, pp. 119-126.
77. Das Stillworterbuch der deutschen Sprache, Bd.2 Duden, Mannheim Leipzig -Wien — Zurich: Dudenverlag, 1988, 864 p.
78. Dorna M. The ADT-Package for the Verbmobil Interface Term. Verbmobil Report 104, IMS, Universitat Stuttgart, Germany, 1996.
79. Dorr В.J. Machine Translation: A View from the Lexicon. Cambridge, MA, MIT, 1993,432р.91 .Dorr B.J. Machine Translation divergences. A formal description and proposed solution. Computational linguistics 20(4), 1994, pp. 597-633.
80. EAGLES Evaluation Group Workshop Evaluation in Natural Language Engineering: Standards and Sharing. Brussels, November 26th and 27th, 1997.
81. EAGLES and Current Evaluation Practices, Workshop ETI, University of Geneva, September 8-9,1998.
82. EAI: Encyclopedia of Artificial Intelligence. — New York: A Wiley Interscience Publication, 1990, 1200 p.
83. ELL: Encyclopedia of Language and Linguistics. — Oxford — New York — Seoul — Tokyo: 1994, 5644 p.
84. Engler T. Der Vermobil-Forschungsprototyp Report, Maschinelle Ubersetzung, DFKI, Kiinstliche Intelligent BMBF, c’t 7/97, S. 108.
85. Fourchin A.J., Harland G., Barry W. et al, eds. Speech Input and Output Assessment: Multilingual Methods and Standards. Chichester, England: Ellis Horwood. — 1989, 290 p.
86. Frederking R., Nirenburg S. Three Heads are Better than One. In Proceedings of ANLP’94, Stuttgart, Germany, 1994.
87. Frederking R. et al. Integrating Translations from Multiple Sources with the Pangloss Mark III Machine Translation System. In Proceedings of the First Conference for Machine Translation in Americas (AMTA), Columbia, Maryland, October 1994.
88. Furuse O., Iida H. Constituent boundary parsing for example-based machine translation. In Proceedings of COLING’94, Kyoto, 1994, pp. 105-111.
89. Gerwen R.P. Automatic Text-to-Speech Conversion for Spanish. -Nijmegen -1991, 115 p.
90. Goodman K., Nirenburg S. The KBMT Project: A Case Study in Knowledge-Based Machine Translation. San Mateo, CA, Morgan Kaufmann, 1991.
91. Hakkani D.Z., Tur G., Oflazer K., Mitamura Т., Nyberg E.H. An English-to-Turkish Interlingual MT System. In Lecture Notes in Artificial Intelligence 1529, Berlin, Heidelberg, New York: Springer -Verlag, 1998, p. 83
92. Harper K. Soviet research in machine translation, 1961. In: Hutchins W.J. Machine Translation: Past, Present, Future — New York, 1986, 382 p.
93. Hauenschild C., Heizmann S. Machine Translation and translation theory. Berlin; New York; Mounton de Gruyter, 1997,263 p.
94. Heizmann S. SCS-Studie: Maschinelle Ubersetzung SCS Informationstechnik
95. Hovy E., Gerber L. MT at the paragraph level: Improving English Synthesis in SYSTRAN. In Proceedings of TMI-97, Santa Fe, 1997, pp. 47-54.113 .Hutchins W.J. Machine Translation: Past, Present, Future — New York, 1986, 382 p.
96. Hutchins W.J. Recent Developments in Machine Translation. A Review of the Last Five Years. New Directions in Machine Translation/ Conference Proceedings. Budapest. — 1988, pp. 7-62.
97. Hutchins W.J. Out of the Shadows. A Retrospect of Machine Translation in the Eighties// ЭВМ и перевод. M.: ВЦП. — 1991.
98. Jordan P.W., Dorr B.J., Benoit J.W. A first-pass approach for evaluating machine translation systems. Machine Translation 8(1), Special Issue on Evaluation, 1993, pp. 49-58.
99. Kasper W., Bos J., Schiehlen M., Thielen C. Definition of Abstract Semantic Classes. Verbmobil Technical Report 61, DFKI GmbH, Saarbrucken, Germany and Universitat des Saarlandes, Saarbrucken, Germany and IMS, Universitat Stuttgart, Germany, 1997.
100. Kay M., Gawron M., Norvig P. Verbmobil: A Translation System for Face-to-Face Dialog. Number 33 in Lecture Notes, Standford, CA: CSLI, 1994.
101. King M., Falkedal К. Using test suites in evaluation of machine translation systems. In Proceedings of the 13th COLING’90, Helsinki, Finland, 1990, pp. 211-216.
102. King M. Evaluation of MT systems Panel discussion. In Proceedings of MT Summit III, Washington, DC, 1991, pp. 141-146.
103. King M., Evaluating natural language processing systems. Communications of the ACM 39(1), 1996, pp. 73-79.
104. King M. Evaluating translation. In Machine Translation and translation theory / ed. By Christa Hauenschild, Susanne Heizmann -Berlin; New York; Mounton de Gruyter, 1997, pp. 251-263.
105. Klostermeier J. Preparations for ‘Internet Strike’ in Germany running full steam ahead. ZDNet Germany, ZDNN, 29.09.1998.
106. Knowles A. Compaq readies fingerprint ID security for PCs. PC Week Online, 07.07.1998.
107. Kogure K., Kume M., Iida H. Illocutionary Act Based Translation of Dialogue. In Proceedings of the TMI-90, Austin, 1990.
108. Kroner H.J., Schwinn J. Fallbasierte Ubersetzung. DFKI GmbH, Kaiserslautern, Germany, Undocumented Software, 1997.
109. Kulagina O.S., Martynova A.I., Nikolaeva T.M. Mechanical translation at the Academy of Sciences of the USSR. 1961. In: Hutchins W.J. Machine Translation: Past, Present, Future — New York, 1986, 382 p.
110. Kulagina O.S. History and present state of machine translation. Cybernetics 6, pp. 937-944., 1976. In: Hutchins W.J. Machine Translation: Past, Present, Future — New York, 1986,382 р.
111. Laurie G., Yang J. SYSTRAN MT Dictionary Development. Machine Translation: Past, Present and Future: Proceedings of the Machine Translation Summit VI, 1997, pp. 211 -218.
112. Lawson V. A Translator’s Map of Machine Translation// ЭВМ и перевод. M.: ВЦП. — 1991.
113. Leckebusch J. Sprachwandler Ubersetzungshilfen Englisch-Deutsch Priifstand, Maschinelle Ubersetzung, Tl, Systran, Personal Translator, PT, Web-Translator, Easy Translator, c’t 8/97, S. 258.
114. Lehrberger J., Bourbeau L. Machine Translation linguistic characteristics of MT systems and general methodology of evaluation. Studies in French and general Linguistics. Amsterdam, John Benjamins, 1988, 240 p.
115. Levin В., Pinker S. Lexical and conceptual Semantics. Cognition Special Issues. Cambridge, MA, Blackwell, 1992.
116. Levitt J.R. KANT Mapper Specification. Carnegie Mellon University, Center for Machine Translation, 1993.
117. Loritz D. Voice Recognition Technology for Machine Translation// ЭВМ и перевод. M.: ВЦП. — 1991.
118. Luckhardt H.D. SUSY: capabilities and range of application. Multilingua 1(4), 1982, pp. 213-219.
119. Maas H.D. Das Saarbriicker Uebersetzungssystem SUSY. Sprache und Datenverarbeitung 2(1), 1978, pp. 43-61.
120. Maas H. D. SUSY I und SUSY II: verschiedene Analysestrategien in der Machinellen Uebersetzung. Sprache und Datenverarbeitung 5(1/2), 1981, pp. 915.
121. Madden J. Study: IT spending by small business reached $ 138B in ’97 PC Week Online, 1997.
122. Maier E. et al. Dialogue Processing in Spoken Language Systems, Volume 1236 of Lecture Notes in Artificial Intelligence, Berlin: Springer-Verlag, 1996.
123. Maxwell D., Schubert K., Witkan T. New Directions in Machine Translation. Number 4 in Distributed Language Translation. Dordrecht, The Netherlands, Foris, 1988,318 р.
124. Mayfield L., Gavalda M., Seo Y.H., Suhm В., Ward W., Waibel A. Parsing Real Input in Janus: A Concept Based Approach. In Proceedings of TMI-95,1995.
125. McTait K., Trujillo A. A language neutral sparse-data algorithm for extracting translation patterns. In Proceedings of TMI-99, Chester, UK, 1999.
126. Meli S. Informationsmarkt der Maschinellen Ubersetzung: Linguistischer Hintergrund, Typologie, Systeme, Ubersetzungshilfen, Projekte und Ubersetzungsdienste// Terminologie et Traduction. 1989. — N3., pp. 63-107.
127. Minnis S. Constructive machine translation evaluation. Machine Translation, 8, 1993, pp. 67-75.
128. Morimoto Т., Suzuki M., Takeazawa Т., Kikui G., Nagata M., Tomokiyo M. A Spoken Language Translation System: SLTRANS2E. In Actes du quinzieme colloque international en linguistque informatique, COLING’92, Nantes, 1992, pp. 1048-1052.
129. MT Summit-87: Machine Translation Summit. Hakone — 1989, 215 p.
130. Nagao M. A Framework for a mechanical translation between Japanese and English by analog principle. In Elithorn A. and Manerji R. (eds): Artificial and Human Intelligence. B.V. NATO Elsevier Publishers, 1984.
131. Nagao M., Tsujii J., Nakamura J. The Japanese government project for machinetranslation, 1988, pp. 141-186.
132. Niccolai J. AltaVista Offers Slicker Translations. June 15, 2000, IDG News Service.
133. Nirenburg S., ed. Machine Translation: Theoretical and Methodological Issues. -Cambridge, Mass. 1987, 350 p.
134. Nirenburg S., Carbonell J., Tomita M., Goodman K. Machine Translation: A Knowledge based Approach. San Mateo, CA, Morgan Kaufmann, 1992.
135. Nyberg E.H., Mitamura T. The KANT System; Fast, Accurate, High-Quality Translation in Practical Domains. In Proceedings of COLING’92, Nantes, France, July 1992.
136. Nyberg E.H., Mitamura Т., Carbonell J.G. Evaluation Metrics for Knowledge-Based Machine Translation. In Proceedings of COLING’94, 1994.158.0nyshkevich В., Nirenburg S. A lexicon for knowledge-based MT. Machine Translation 10(1/2), 1995, pp. 5-57.
137. Piggot I.M, Systemes operationnels en traduction automatique//Terminologie et Traduction. 1989. — N3., — pp. 47-53.
138. Pulman S.G. A Computational Theory of Context Dependence. In Proceedings of the Tilburg Workshop on Computational Semantics, 1994.
139. Rayner M., Bouillon P. Hybrid Transfer in an English-French Spoken Language Translator. In Proceedings of IA’95, Montpellier, 1995.
140. Reithinger N., Klesen M. Dialogue Act Classification Using Language Models. In Proceedings of EuroSpeech-97, Rhodes, Greece, 1997, pp. 2235-2238.
141. Sato S., Nagao M. Towards memory based translation. In Proceedings of COLING’90, Helsinki, Finland, 1990.
142. Sato S. MBT2: a method for combining fragments of examples in example-based translation. Artificial Intelligence 75(1), 1995, pp. 31-49.
143. Seminerio M. Survey says 21 percent of U.S. adults are online. ZDNN, 1998.
144. Schauble P., Sheridan P. Cross-Language Information Retrieval (CLIR) Track Overview. In Proceedings of the Sixth Text Retrieval Conference (TREC6). 1998.
145. Schubert K. The architecture of DLT-Interlingual or double direct. In Maxwell D., Schubert K., Witkan T. New Directions in Machine Translation. Number 4 in Distributed Language Translation. Dordrecht, The Netherlands, Foris, 1988, pp. 131-144.
146. Schmitz B. Pragmatikbasiertes Maschinelles Dolmetschen. Heidelberg: Groos, 1998, 159 p.
147. Seewald U. Markttibersicht: Kommerzielle Systeme und Werkzeuge Antibabylonisch (Systran), iX 12/95, S. 88.
148. Sinaiko H.W., Klare G.R. Further experiments in language translation: readability of computer translations. ITL (Review of Institute of Applied Linguistics, Louvain) 15, 1972, pp. 1-29.
149. Slocum J. Machine Translation Systems. Studies in Natural Language Processing. Cambridge, UK: Cambridge University Press, 1988.
150. Smith P.D. An Introduction to Text Processing. Cambridge, MA: The MIT Press. — 1990. — 300 p.
151. Sparck J.K., Galliers J.R. Evaluating Natural Language Processing Systems: An Analysis and Review, Berlin, Springer, 1995.
152. Stone MX. Web embraces language translation. ZDNN, 21.07.1998
153. Sumita E., Iida H., Experiments and prospects of example-based machine translation. In Proceedings of the 29th Annual Conference of the ACL, Berkley, CA, 1991.
154. TEMAAD16 Final Report, October 1997.
155. Thompson H. Linguistic Corpora for the Language Industry: A European Community Public Utility// Terminologie et Traduction. 1989. — N3., — pp. 55-61.181 .Toma P. SYSTRAN as a Multilingual MT System// OLB. 1977. — Vol. 1 „ -pp.569-581.
156. Trujillo A. Translation engines: Techniques for Machine Translation, Springer, 1999, 303 p.
157. Tucker A.B., Nirenburg S. Machine Translation: a contemporary view. Annual Review of Information Science and Technology 19, 1984, pp. 129-160.
158. Vasconcellous M. Machine translation at the Pan American Health Organisation. British Computer Society, Natural Language Translation Specialist Group Newsletter 14, 1984, pp. 17-34.
159. Viegas E., Mahesh K., Nirenburg S. Semantics in Action. In P. Saint-Dizier (Ed.), Forms in Natural Language and in Lexical Knowledge Bases, Kluwer Academic Press, 1999.
160. Waibel A. Interactive Translation of Conversation Speech. Computer, 29(7), 1997, pp. 41-48.
161. Watanabe H. A method for distinguishing exceptional and general examples in example-based transfer systems. In Proceedings of the 15th International Conference on Computational Linguistics COLING’94, Kyoto, 1994, pp. 39-44.
162. Whitelock P., Kilby K. Linguistic and Computational Techniques in Machine Translation Systems. Design, London, UCL Press, 1995.
-
Описание ошибок в машинном переводе
Применение
машинного перевода без настройки на
тематику (или с намеренно неверной
настройкой) служит предметом многочисленных
бродящих по Интернету шуток.
Зачастую
программы машинного перевода понимаются
как какое-то уникальное средство, которое
способно вытеснить живых, мыслящих
переводчиков. Некоторые пользователи
полагают, что, если с помощью компьютера
сегодня можно добыть любые сведения из
многочисленных информационных источников,
от него можно ожидать соответствующей
компетентности также в вопросах
качественной трансформации этих сведений
в любой возможный языковой формат.
Однако
ни для кого не секрет, что такое
преставление крайне ошибочное. Знающие
специалисты, равно как и производители
подобных программ, понимают, что в
действительности ситуация выглядит
иначе. Конечно, рекламируя свои программные
продукты, производители честно признаются,
что качество машинного перевода далеко
от идеального и что получение адекватного
перевода возможно только при вмешательстве
человека, однако не всегда раскрывается
тот факт, что человек, которому предстоит
обработать такой перевод, должен быть
квалифицированным переводчиком и ему
придется потратить массу времени на
придание машинному тексту качества,
достойного профессионального перевода.
И
как бы ни пытались производители
приукрасить достоинства своей продукции,
пользователи многочисленных
онлайн-переводчиков всегда имеют
возможность убедиться в том, что
виртуальные «толмачи» не всегда способны
достойно справляться с поставленными
перед ними задачами. Доказательством
этому служат многочисленные шутки,
переходящие с сайта на сайт и высмеивающие
недостаточную компетентность
онлайн-переводчиков в вопросах
качественного перевода. К числу любимых
развлечений скептически настроенных
пользователей онлайн-переводчиков
относится перевод коротких предложений
или текстов песен в различных направлениях
и сравнение полученного результата с
исходным вариантом. К избитым примерам
относится перевод предложения «Мама
мыла раму» на английский язык, который
звучит как “Mum washed the frame”. Если затем
снова перевести полученное предложение
на русский язык, то разные переводчики
выдают свои результаты: «мама вымыла
структуру» (перевод Translate.ru – компания
PROMT) или «мама помыла рамку» (вариант
Babelfish.yahoo.com). Всем известен также пример
с переводом предложения “My
cat has given birth to four kittens, two yellow, one white and one
black”,
выполненным онлайн-переводчиком компании
PROMT, которое в русскоязычном исполнении
звучит как «Моя
кошка родила четырех котят, два желтых
цвета, одно белое и одного афроамериканца».
Нужно отметить, что разработчики
поработали над усовершенствованием
своего продукта, так как раньше данное
предложение начиналось с абсурдного
«Мой кот родил…», однако радует, что
данный переводчик компетентен в вопросе
политкорректности. К числу подобных
примеров относятся также переводы
различных песен и литературных
произведений, доставляющие немало
веселья экспериментаторам.
Сотрудники
многих фирм на каждом шагу встречаются
с многочисленными примерами абсурдных
переводов, выполненных посредством
онлайн-переводчиков. Зарубежные клиенты,
желающие сделать запрос на перевод, или
коллеги, предлагающие свое сотрудничество
в сфере переводов, часто прибегают к
помощи онлайн-переводчиков, столкнувшись
с необходимостью перевода электронных
сообщений на русский язык.
Например,
однажды сотрудники одной из фирм получили
электронное сообщение следующего
содержания:
Привет
Уважаемые! Пожалуйста, как вы! Надеюсь,
ты штраф и в отличном состоянии health.
I пошел через ваш профиль сегодня на
www.multitran.ru
и я прочитал его и принял в ней интереса,
пожалуйста, если вы не возражаете, я
хотел, чтобы вы напишите мне по этому
ID (***@yahoo.com)
надеются услышать от вас в ближайшее
время, и я буду Жду ваших почту, потому
что я что-то очень важно, чтобы рассказать
вам. Много любви Грейс.
Автор
сообщения сопроводил данное обращение
исходным текстом на английском языке:
Hi
Dear! Please how are you! hope you are fine and in perfect condition
of health. I went through your profile today at www.multitran.ru and
i read it and took interest in it, please if you don’t mind i will
like you to write me on this ID (***@yahoo.com
) hope to hear from you soon, and I will be waiting for your
mail because i have something VERY important to tell you. Lots
of love Grace.
Не
нужно долго гадать, чтобы понять, что
сообщение на русском языке является
результатом работы онлайн-переводчика.
Кстати, путем несложного эксперимента
было установлено, что автором данного
перевода был онлайн-переводчик Google. Это
сообщение является ярким подтверждением
тому, что данный онлайн-переводчик не
особо преуспел в своем деле и вряд ли
может бросить достойный вызов
профессиональному переводчику. Не
вдаваясь в глубокий анализ, можно
отметить, что основным недостатком
онлайн-переводчика является незнание
грамматических правил (в основном это
касается согласования частей речи и
членов предложений), а также неумение
распознавать и корректно переводить
некоторые лексические единицы,
употребленные в рамках заданного
контекста, и устойчивые выражения, в
результате чего, вместо «надеюсь, у Вас
все хорошо», переводчик выдал нелепое
и искажающее смысл предложения выражение
«надеюсь, ты штраф» (слово «fine» было
употреблено в значении «штраф»). Истинная
причина получения таких низкосортных
переводов кроется в том, что программы
машинного перевода не способны учитывать
экстралингвистические факторы. Именно
поэтому многие переводчики дословно
переводят те или иные термины и, кроме
того, не всегда отличают имена собственные
от знаменательных слов.
Ярким
примером этому может послужить перевод
статьи, посвященной Лоре Буш, супруге
бывшего президента Америки, выполненный
с помощью программы-переводчика. Ее
полное имя зазвучало на французском
языке как «le buisson de Laura», то есть «кустарник
Лоры». Программа не распознала фамилию
«Bush» как имя собственное и дословно
перевела ее на французский как «кустарник».
Но вся нелепость этой ситуации заключается
в том, что на французском сленге слово
«buisson» имеет сексуальную коннотацию.
Данные
примеры свидетельствуют о том, что
научить самый современный компьютер
языковой логике значительно сложнее,
чем математическим алгоритмам и логике
статистического анализа. Чтобы создать
в той или иной степени связный машинный
текст, программа может лишь использовать
ограниченный набор определенных
лингвистических алгоритмов, заложенных
в ее базу. Сначала система подвергает
анализу структурные элементы исходного
предложения, затем изменяет его в
соответствии правилами языка и выдает
конечный вариант. Однако как бы ни
пытались производители программ
машинного перевода усовершенствовать
свои разработки, еще ни одна технология
не выдерживала сравнения с теми
алгоритмами перевода и многочисленными
трансформациями, которым учат живых
переводчиков в школах и вузах. Безусловно,
для получения связного текста программу
можно снабдить богатой словарной базой,
включающей устойчивые выражения, а
также подключить специализированные
словари, чтобы переводчик смог перевести
тематические тексты. Но, как показывает
реальный опыт работы с онлайн-переводчиками,
это лишь малая часть того, что необходимо
для обеспечения приемлемого качества.
Основной проблемой таких переводчиков,
равно как и других систем машинного
перевода, является отсутствие фоновых
знаний. Компьютер знает только языковые
соответствия, а ведь переводчику очень
часто приходится выходить за рамки
формального текста и обращаться не к
языковым знаниям, а к экстралингвистическим
факторам, включающим знания о реальном
мире, культуре, истории, технике.
Профессиональные переводчики, особенно
технические, – это очень образованные
люди, и все их знания непосредственно
задействованы в процессе перевода.
Только в таком случае может быть
гарантировано действительно первоклассное
качество переводов. Поэтому если
разработчики сервисов онлайн-перевода
стремятся к предоставлению адекватных,
качественных переводов, они должны
снабдить своих машинных переводчиков
такими же фоновыми знаниями и, главное,
научить их правильно обращаться с
заложенным багажом знаний. Проще говоря,
программа должна понять, что возникла
какая-то проблема, для решения которой
необходимо прибегнуть к дополнительным
знаниям, и правильно сформулировать
запрос к имеющейся базе. Показательным
примером служит перевод на западноевропейские
языки предложений, в которых упоминаются
известные правители или их дети. В таких
предложениях артикль, категория которого
характерна для языков данной языковой
семьи, должен ставиться в зависимости
от общего количества детей. Например,
при переводе выражения «сын царя Федора»
артикль необходимо выбирать в зависимости
от того, сколько сыновей было у царя
Федора.
В
качестве аналогичного примера можно
привести перевод надписи на постаменте
памятника, открытого во Франции в честь
Анны Ярославны, дочери князя Киевского
Ярослава Мудрого. Перевод надписи на
французском языке звучал как «Anne de
Kiev la reine de la France», и все бы ничего, если
бы не лишний артикль. В случае с Францией
«la France» звучит как «единая
Франция», что не искажает смысл. Что
же касается дочери князя, «la reine»
означает, что она единственная за всю
историю королева Франции. Переводчик,
знакомый со всеми нюансами французской
грамматики, не допустил бы такую нелепую
ошибку, а вот для электронного переводчика
– это довольно типичная ошибка.
Чаще
всего подобные шутки связаны с тем, что
программа не распознаёт контекст фразы
и переводит термины дословно, к тому же
не отличая собственных имён от обычных
слов. Тот же переводчик ПРОМТ превращает
«bra-ket
notation» в «примечание Кети лифчика»,
«Lie
algebra» — в «алгебру Лжи», «eccentricity
vector» — в «вектор оригинальности»,
«Shawnee
Smith» в «индеец племени шони Смит» и
т. п. Переводчик
Google, наоборот, слово «rice»
часто принимал за фамилию госсекретаря
США.
А
теперь рассмотрим примеры машинного
перевода отрывков из художественных и
научных текстов.
Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
-
Описание ошибок в машинном переводе
Применение
машинного перевода без настройки на
тематику (или с намеренно неверной
настройкой) служит предметом многочисленных
бродящих по Интернету шуток.
Зачастую
программы машинного перевода понимаются
как какое-то уникальное средство, которое
способно вытеснить живых, мыслящих
переводчиков. Некоторые пользователи
полагают, что, если с помощью компьютера
сегодня можно добыть любые сведения из
многочисленных информационных источников,
от него можно ожидать соответствующей
компетентности также в вопросах
качественной трансформации этих сведений
в любой возможный языковой формат.
Однако
ни для кого не секрет, что такое
преставление крайне ошибочное. Знающие
специалисты, равно как и производители
подобных программ, понимают, что в
действительности ситуация выглядит
иначе. Конечно, рекламируя свои программные
продукты, производители честно признаются,
что качество машинного перевода далеко
от идеального и что получение адекватного
перевода возможно только при вмешательстве
человека, однако не всегда раскрывается
тот факт, что человек, которому предстоит
обработать такой перевод, должен быть
квалифицированным переводчиком и ему
придется потратить массу времени на
придание машинному тексту качества,
достойного профессионального перевода.
И
как бы ни пытались производители
приукрасить достоинства своей продукции,
пользователи многочисленных
онлайн-переводчиков всегда имеют
возможность убедиться в том, что
виртуальные «толмачи» не всегда способны
достойно справляться с поставленными
перед ними задачами. Доказательством
этому служат многочисленные шутки,
переходящие с сайта на сайт и высмеивающие
недостаточную компетентность
онлайн-переводчиков в вопросах
качественного перевода. К числу любимых
развлечений скептически настроенных
пользователей онлайн-переводчиков
относится перевод коротких предложений
или текстов песен в различных направлениях
и сравнение полученного результата с
исходным вариантом. К избитым примерам
относится перевод предложения «Мама
мыла раму» на английский язык, который
звучит как “Mum washed the frame”. Если затем
снова перевести полученное предложение
на русский язык, то разные переводчики
выдают свои результаты: «мама вымыла
структуру» (перевод Translate.ru – компания
PROMT) или «мама помыла рамку» (вариант
Babelfish.yahoo.com). Всем известен также пример
с переводом предложения “My
cat has given birth to four kittens, two yellow, one white and one
black”,
выполненным онлайн-переводчиком компании
PROMT, которое в русскоязычном исполнении
звучит как «Моя
кошка родила четырех котят, два желтых
цвета, одно белое и одного афроамериканца».
Нужно отметить, что разработчики
поработали над усовершенствованием
своего продукта, так как раньше данное
предложение начиналось с абсурдного
«Мой кот родил…», однако радует, что
данный переводчик компетентен в вопросе
политкорректности. К числу подобных
примеров относятся также переводы
различных песен и литературных
произведений, доставляющие немало
веселья экспериментаторам.
Сотрудники
многих фирм на каждом шагу встречаются
с многочисленными примерами абсурдных
переводов, выполненных посредством
онлайн-переводчиков. Зарубежные клиенты,
желающие сделать запрос на перевод, или
коллеги, предлагающие свое сотрудничество
в сфере переводов, часто прибегают к
помощи онлайн-переводчиков, столкнувшись
с необходимостью перевода электронных
сообщений на русский язык.
Например,
однажды сотрудники одной из фирм получили
электронное сообщение следующего
содержания:
Привет
Уважаемые! Пожалуйста, как вы! Надеюсь,
ты штраф и в отличном состоянии health.
I пошел через ваш профиль сегодня на
www.multitran.ru
и я прочитал его и принял в ней интереса,
пожалуйста, если вы не возражаете, я
хотел, чтобы вы напишите мне по этому
ID (***@yahoo.com)
надеются услышать от вас в ближайшее
время, и я буду Жду ваших почту, потому
что я что-то очень важно, чтобы рассказать
вам. Много любви Грейс.
Автор
сообщения сопроводил данное обращение
исходным текстом на английском языке:
Hi
Dear! Please how are you! hope you are fine and in perfect condition
of health. I went through your profile today at www.multitran.ru and
i read it and took interest in it, please if you don’t mind i will
like you to write me on this ID (***@yahoo.com
) hope to hear from you soon, and I will be waiting for your
mail because i have something VERY important to tell you. Lots
of love Grace.
Не
нужно долго гадать, чтобы понять, что
сообщение на русском языке является
результатом работы онлайн-переводчика.
Кстати, путем несложного эксперимента
было установлено, что автором данного
перевода был онлайн-переводчик Google. Это
сообщение является ярким подтверждением
тому, что данный онлайн-переводчик не
особо преуспел в своем деле и вряд ли
может бросить достойный вызов
профессиональному переводчику. Не
вдаваясь в глубокий анализ, можно
отметить, что основным недостатком
онлайн-переводчика является незнание
грамматических правил (в основном это
касается согласования частей речи и
членов предложений), а также неумение
распознавать и корректно переводить
некоторые лексические единицы,
употребленные в рамках заданного
контекста, и устойчивые выражения, в
результате чего, вместо «надеюсь, у Вас
все хорошо», переводчик выдал нелепое
и искажающее смысл предложения выражение
«надеюсь, ты штраф» (слово «fine» было
употреблено в значении «штраф»). Истинная
причина получения таких низкосортных
переводов кроется в том, что программы
машинного перевода не способны учитывать
экстралингвистические факторы. Именно
поэтому многие переводчики дословно
переводят те или иные термины и, кроме
того, не всегда отличают имена собственные
от знаменательных слов.
Ярким
примером этому может послужить перевод
статьи, посвященной Лоре Буш, супруге
бывшего президента Америки, выполненный
с помощью программы-переводчика. Ее
полное имя зазвучало на французском
языке как «le buisson de Laura», то есть «кустарник
Лоры». Программа не распознала фамилию
«Bush» как имя собственное и дословно
перевела ее на французский как «кустарник».
Но вся нелепость этой ситуации заключается
в том, что на французском сленге слово
«buisson» имеет сексуальную коннотацию.
Данные
примеры свидетельствуют о том, что
научить самый современный компьютер
языковой логике значительно сложнее,
чем математическим алгоритмам и логике
статистического анализа. Чтобы создать
в той или иной степени связный машинный
текст, программа может лишь использовать
ограниченный набор определенных
лингвистических алгоритмов, заложенных
в ее базу. Сначала система подвергает
анализу структурные элементы исходного
предложения, затем изменяет его в
соответствии правилами языка и выдает
конечный вариант. Однако как бы ни
пытались производители программ
машинного перевода усовершенствовать
свои разработки, еще ни одна технология
не выдерживала сравнения с теми
алгоритмами перевода и многочисленными
трансформациями, которым учат живых
переводчиков в школах и вузах. Безусловно,
для получения связного текста программу
можно снабдить богатой словарной базой,
включающей устойчивые выражения, а
также подключить специализированные
словари, чтобы переводчик смог перевести
тематические тексты. Но, как показывает
реальный опыт работы с онлайн-переводчиками,
это лишь малая часть того, что необходимо
для обеспечения приемлемого качества.
Основной проблемой таких переводчиков,
равно как и других систем машинного
перевода, является отсутствие фоновых
знаний. Компьютер знает только языковые
соответствия, а ведь переводчику очень
часто приходится выходить за рамки
формального текста и обращаться не к
языковым знаниям, а к экстралингвистическим
факторам, включающим знания о реальном
мире, культуре, истории, технике.
Профессиональные переводчики, особенно
технические, – это очень образованные
люди, и все их знания непосредственно
задействованы в процессе перевода.
Только в таком случае может быть
гарантировано действительно первоклассное
качество переводов. Поэтому если
разработчики сервисов онлайн-перевода
стремятся к предоставлению адекватных,
качественных переводов, они должны
снабдить своих машинных переводчиков
такими же фоновыми знаниями и, главное,
научить их правильно обращаться с
заложенным багажом знаний. Проще говоря,
программа должна понять, что возникла
какая-то проблема, для решения которой
необходимо прибегнуть к дополнительным
знаниям, и правильно сформулировать
запрос к имеющейся базе. Показательным
примером служит перевод на западноевропейские
языки предложений, в которых упоминаются
известные правители или их дети. В таких
предложениях артикль, категория которого
характерна для языков данной языковой
семьи, должен ставиться в зависимости
от общего количества детей. Например,
при переводе выражения «сын царя Федора»
артикль необходимо выбирать в зависимости
от того, сколько сыновей было у царя
Федора.
В
качестве аналогичного примера можно
привести перевод надписи на постаменте
памятника, открытого во Франции в честь
Анны Ярославны, дочери князя Киевского
Ярослава Мудрого. Перевод надписи на
французском языке звучал как «Anne de
Kiev la reine de la France», и все бы ничего, если
бы не лишний артикль. В случае с Францией
«la France» звучит как «единая
Франция», что не искажает смысл. Что
же касается дочери князя, «la reine»
означает, что она единственная за всю
историю королева Франции. Переводчик,
знакомый со всеми нюансами французской
грамматики, не допустил бы такую нелепую
ошибку, а вот для электронного переводчика
– это довольно типичная ошибка.
Чаще
всего подобные шутки связаны с тем, что
программа не распознаёт контекст фразы
и переводит термины дословно, к тому же
не отличая собственных имён от обычных
слов. Тот же переводчик ПРОМТ превращает
«bra-ket
notation» в «примечание Кети лифчика»,
«Lie
algebra» — в «алгебру Лжи», «eccentricity
vector» — в «вектор оригинальности»,
«Shawnee
Smith» в «индеец племени шони Смит» и
т. п. Переводчик
Google, наоборот, слово «rice»
часто принимал за фамилию госсекретаря
США.
А
теперь рассмотрим примеры машинного
перевода отрывков из художественных и
научных текстов.
Соседние файлы в предмете [НЕСОРТИРОВАННОЕ]
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
- #
Hisamova Venera Nafikovna, Sitdikova Farida Bizyanovna, Usmanov Timur Ravilevich MACHINE TRANSLATION ERRORS (ON THE BASIS OF ANALYSIS …
philological sciences -linguistics
УДК 81’32
DOI: 10.26140/bgz3-2019-0802-0079
«ПЕРЕДНЯЯ ЧАСТЬ ПРАВОГО ТЕЛЕНКА», ИЛИ ОШИБКИ МАШИННОГО ПЕРЕВОДА (НА ОСНОВЕ АНАЛИЗА АВТОМАТИЧЕСКИХ СУБТИТРОВ)
© 2019
Ситдикова Фарида Бизяновна, кандидат филологических наук, доцент
Хисамова Венера Нафиковна, доктор филологических наук, профессор Усманов Тимур Равилевич, кандидат педагогических наук, доцент Казанский федеральный университет (420008, Россия, Казань ул. Кремлевская, 18, e-mail: farida7777@yandex.ru)
Аннотация. Статья посвящена анализу ошибок, сделанных машинным переводчиком Google Translate при переводе с английского на русский. Проблема качества машинного перевода является крайне актуальной в настоящее время в связи с возрастающей интенсивностью интернет-коммуникаций. В статье рассматриваются как достоинства, так и недостатки машинного перевода. Решение поставленной задачи — оценка качества машинного перевода — проводилось на материале автоматических субтитров, переведенных машинным переводчиком. На основании большого количества языковых примеров проведен анализ наиболее характерных ошибок переводчика Google Translate. Ошибки были поделены на несколько типов. Лексико-семантические ошибки включали в себя следующие: 1) неспособность выбрать нужное по контексту значение; 2) перевод семантических конструкций; 3) перевод имен собственных; 4) перевод аббревиатур. Рассматривались также морфологические, синтаксические и стилистические ошибки. Собрана статистика по количеству ошибок каждого типа. Делается вывод по количеству ошибок каждого типа. На основании проведенного опроса делается вывод о возможности использовать машинный перевод субтитров в практических целях в качестве сигнальной версии перевода субтитров. Материалом для исследования послужили автоматические субтитры, переведенные на русский язык Google Translate, которые сравнивались с английским оригиналом. Статья может представлять интерес для исследователей, интересующихся проблемами и перспективами машинного перевода.
Ключевые слова: компьютерная лингвистика, машинный перевод (МП), MT, машинный переводчик, автоматический перевод, автоматический переводчик, статистический МП, SMT, нейронный МП, NMT, система машинного перевода (СМП), постредактирование, ошибки машинного перевода
MACHINE TRANSLATION ERRORS (ON THE BASIS OF ANALYSIS OF AUTOMATIC SUBTITLES)
© 2019
Hisamova Venera Nafikovna, Doctor of Philology, professor Sitdikova Farida Bizyanovna, Candidate of Philological Sciences, Associate Professor Usmanov Timur Ravilevich, Candidate of Pedagigics, Associate Professor Kazan Federal University (420008, Russia, Kazan, Kremlevskaya St., 18, e-mail: farida7777@yandex.ru)
Abstract. The article describes typical errors made by Google Translate in the process of translation from English into Russian. Quality of machine translation is an acute problem due to increasing intensity of Internet communication. The article discusses both advantages and disadvantages of machine translation. The work objective was to evaluate the quality of machine translation. Subtitles generated automatically served as a study material. We used a large number of language examples to perform analysis of the most characteristic mistakes made by Google Translate. The errors were divided into several types. The lexico-semantic errors included: 1) choosing a wrong contextual meaning; 2) incorrect translation of semantic constructions; 3) incorrect translation of proper names; 4) incorrect translation of bbreviations. Morphological, syntactic and stylistic mistakes were also considered. We performed statistical analysis of each type of the detected errors. Based on the obtained data, it was shown that it is possible to use automatically generated subtitles for practical purposes as a signal version of the subtitle translation. The article may be of interest to researchers studying the problems and prospects of machine translation.
Keywords: computational linguistics, machine translation (MT), MT, machine translator, automatic translation, automatic translator, statistical MP, SMT, neural MT, NMT, machine translation system (SMP), post-editing, machine translation errors
В статье исследуется проблема качества машинного перевода на основе анализа автоматических субтитров. Для начала уточним, что машинный перевод (МП, MT, Machine Translation) — это перевод текстов с одного естественного языка на другой специальной компьютерной программой. Такое же название носит направление научных исследований, связанных с построением подобных систем [1].
Актуальность статьи связана с возрастающей интенсивностью интернет-коммуникаций, соответственно возникает проблема быстрого и качественного, по возможности дешевого перевода. В настоящее время все больше людей в связи с растущими объемами информации используют системы машинного перевода. Поэтому значение автоматизированных систем перевода постоянно повышается [2]. К сожалению, на сегодняшний день переводы, сделанные машинными переводчиками, остаются несовершенными. В связи с этим исследование проблем машинного перевода представляется актуальным в целях повышения качества таких переводов [3].
Целью нашего исследования было рассмотреть возможность применения машинных переводчиков без участия переводчика-человека в практической сфере, а именно, для перевода автоматических субтитров. Для достижения данной цели были поставлены следующие задачи:
1) рассмотреть понятие МП и кратко описать различные системы МП;
2) раскрыть достоинства и недостатки МП;
3) сделать выборку переведенных предложений, содержащих ошибки того или иного рода;
4) проанализировать ошибки, провести классификацию и разбить их на группы;
5) сделать выводы относительно качества МП и возможностей практического применения.
Для начала отметим, что существуют различные типы систем машинного перевода:
1) основанные на правилах грамматики;
2) использующие в своей работе статистический анализ;
филологические науки —
языкознание
Ситдикова Фарида Бизяновна, Хисамова Венера Нафиковна, Усманов Тимур Равилевич MACHINE TRANSLATION ERRORS (ON THE BASIS OF ANALYSIS …
3) системы гибридного типа;
4) основанные на нейронных сетях и характеризующиеся способностью к обучению [4, 5].
Первый подход является традиционным и используется большинством разработчиков систем машинного перевода (например, ПРОМТ в России (год создания 1991), SYSTRAN во Франции, Linguatec в Германии и т.д.). Ко второму типу относятся такие сервисы, как Яндекс. Переводчик (2009), Переводчик Google (2003), а также новый сервис от ABBYY [6].
Особенностью статистического МП является то, что системы такого рода в своей работе используют статистический анализ. В систему загружается корпус текстов на двух языках, после этого система выдает анализ статистики языковых соответствий и различных синтаксических конструкций в двух языках. Преимущество системы в том, что она является самообучаемой, т.е. при выборе нужного варианта перевода она исходит из полученной ранее статистики. Чем больше объем словаря для языковой пары и чем выше его качество, тем лучше результаты данного виде перевода. К наиболее значительным недостаткам систем SMT можно отнести наличие многочисленных лексических и грамматических ошибок и нестабильность перевода [7].
За последние годы произошел ряд технологических прорывов и существенный рост вычислительной мощности компьютеров, благодаря чему интенсивное развитие получила технология машинного обучения. Эта концепция нашла применение и в области машинного перевода. Так, в 2016 года сразу несколько крупных компаний объявили о создании новейших технологий MT, основанных на нейронных сетях (англ. Neural MT (NMT)).
Нейронный машинный перевод (Neural Machine Translation, NMT) — это вид МП, в котором используется искусственная нейронная сеть. Этот способ принципиально отличается от использованных ранее методов [8]. Модели NMT способны обучаться во время работы и со временем их перевод становится более эффективным.
В сентябре 2016 года компания Google представила систему нейронного машинного перевода (Google Neural Machine Translation system, GNMT) [9]. Как утверждают разработчики, она превосходит по качеству все предыдущие технологии в этой области. Применение GNMT сокращает количество ошибок в машинном переводе на 55-85% [10]. В 2016 г. движок перевода был включен в обе стороны для девяти языков: английского, французского, немецкого, испанского, португальского, китайского, японского, корейского и турецкого. В марте 2017 г. были добавлены ещё три языка: русский, хинди и вьетнамский [11]. Преимуществом нейронной сети является сам подход к обработке текста. Большинство переводчиков обрабатывают каждое слово по отдельности, а нейросеть переводит фразы и предложения целиком, с учетом контекста. Это дает надежду на то, что уже в ближайшие годы мы можем ожидать улучшения качества машинного перевода.
В 2017 г. компания Yandex запустила нейросетевой перевод, главным достоинством которого была заявлена гибридность. СМП Yandex переводит предложение сразу двумя методами — статистическим и нейросетевым, а потом с помощью алгоритма CatBoost, в основе которого лежит машинное обучение, находит наиболее подходящий вариант [12].
У существующих онлайн-переводчиков есть ряд достоинств, которые нужно признать и которые способствуют повышению их популярности у пользователей Интернета:
1) бесплатный перевод;
2) доступность в любое время дня и ночи, был бы интернет;
3) скорость перевода — практически сразу после ввода;
4) большое количество языковых пар (например, раз-
работчики Гугла сообщили, что их система в настоящее время способна понимать 90% человечества [13]);
5) простой и понятный интерфейс;
6) отметим также такой важный фактор, как конфиденциальность информации;
7) наконец, онлайн переводчики могут встраиваться в различные сервисы, например, переводить страницы на сайтах [14].
С другой стороны, несмотря на то, что ежегодно вкладываются миллиарды долларов в развитие систем машинного перевода, на сегодняшний день нет машинного переводчика, который давал бы перевод, сравнимый с результатом работы переводчика-человека. В связи с этим представляет интерес анализ наиболее характерных ошибок, допускаемых машинными переводчиками, а также их классификация и сбор статистических данных.
Анализ ошибок машинного перевода проводился рядом авторов. В частности, Переходько И.В., Мячин Д.А. [15] предприняли попытку анализа текстов переводов Интернет-сайтов, выполненных с помощью систем компьютерного перевода, на основе лингвостилистического анализа и на основе автоматической обработки текстов с использованием метрики METEOR по методу N-грамм. Авторы делают вывод о том, что наибольшее количество ошибок в машинных переводах связано с переводом семантических конструкций.
Ряд авторов [16, 17], ставят целью использовать автоматическую оценку качества МП и анализ качества перевода научно-технического текста с помощью различных метрик. При этом сами авторы отмечают, что важным недостатком автоматических метрик является то, что они не могут предоставить оценку качества МП на уровне смысла.
Наше исследование по оценке качества машинного перевода представляло анализ переводов, выполненных машинным переводчиком Google Translate. Методическая новизна заключалась в материале исследования, которым послужили автоматические субтитры, сделанные этой СМП. Анализ автоматических субтитров проводился при просмотре детективного сериала «Парочка следователей» («Partners for Justice») [18], который переводился с английского на русский с использованием английских субтитров. Задолго до «человеческого» перевода выкладывались автоматические субтитры. Для этой цели использовался скрипт Translate Shell, доступный по адресу: https://github.com/soimort/ translate-shell. Субтитры в формате SRT скачивались либо с https://avistaz.to/, либо с https://subscene.com/. В результате появлялся текст, который вполне давал возможность понять большую часть содержания, за исключением некоторых моментов, на которых мы остановимся далее.
Несколько слов о том, как собирались и анализировались примеры. Просматривались серии с автоматическими субтитрами и методом сплошной выборки отбирались предложения, не соответствующие языковым нормам или не позволяющие вывести смысл.
После этого просматривалась соответствующая серия с английскими субтитрами и сравнивалась с машинным переводом, сделанным Google Translate. Другими словами, использовались метод сплошной выборки, сравнительно-сопоставительный метод и лексико-се-мантический анализ.
Google Translate — бесспорно одна из самых лучших СМП на сегодняшний день. При создании текста перевода она использует примеры из миллионов документов, чтобы выбрать правильный вариант. Тем не менее, в отличие от переводчика-человека, система может допускать ряд ошибок, которые мы разбили на следующие группы:
I. Лексико-семантические ошибки. Это, на наш взгляд, самые существенные ошибки, которые часто препятствуют пониманию смысла высказывания. Среди
Hisamova Venera Nafikovna, Sitdikova Farida Bizyanovna, Usmanov Timur Ravilevich MACHINE TRANSLATION ERRORS (ON THE BASIS OF ANALYSIS …
philological sciences -linguistics
них важнейшей ошибкой является 1) неспособность выбрать нужное по контексту значение лексической единицы — то, с чем без труда справляется переводчик-человек. Возьмем пример, использованный в заголовке. Машинный перевод приведен во втором столбце, верный перевод — в третьем.
The front of right calf, multiple skin abrasions. Передняя часть правого теленка, множественные царапины на коже. Передняя часть правой голени, множественные царапины на коже (ер.25, 0:12).
Контекстом являлись слова паталогоанатома, делающего вскрытие. Понятно, что имелась в виду передняя часть правой голени. Приведем еще один пример:
Darn it, this jerk! Оберните это, этот рывок! Черт побери, этот придурок! (ep. 29, 11:30).
Этот и другие многочисленные случаи говорят о том, что машинным переводчиком выбираются значения слова без учета контекста. Среди лексических ошибок можно также выделить 2) перевод словосочетаний с переносным значением (назовем их семантическими конструкциями), которые переводились дословно. Например:
If this becomes one more cold case, we’ll all have to retire. Если это станет еще одним холодным случаем, мы все должны уйти в отставку. Если это станет еще одним нераскрытым случаем, мы все должны уйти в отставку ^.29, 07:59).
Переносное значение выделенного словосочетания — нераскрытое дело, «глухарь». При таком переводе смысл предложения может быть не понят зрителем. Еще один пример:
The murderer’s gone out of the grid for 30 years. Убийца ушел с сетки в течение 30 лет. Убийца затаился на 30 лет. (ep. 3, 0: 22).
Ошибки такого рода свидетельствуют о том, что машинные переводчики на сегодняшний день не справляются с переводом семантических конструкций и выдают калькированный перевод, который приводит к нелепым результатам, далеким от настоящего смысла. Приведем третий пример:
You are normally this straightforward once you have set your mind on something. Ты обычно такой прямолинейный, после того, как вы установили свой ум на что-то. Вы обычно идете напролом, если что-то задумали. ^. 10, 31: 50).
Where’s So Hi? (женское имя)
Где такХи?
Где Со Хи? (ep. 22, 23:02).
I am such a bad boss. I owe Sang An so much.
Я паршивый начальник. Я должна спеть так много.
Я неблагодарный начальник. Я так многим обязан Сан Ан. (ep. 22, 27:12).
Справедливости ради надо отметить, что Гугл с годами все же улучшает качество перевода имен собственных. Вспоминается случай, когда несколько лет назад при переводе с русского на английский сочетания улица Горького выдавался перевод Bitter street, то есть имя собственное воспринималось как нарицательное bitter — горький. Но если сейчас ввести это словосочетание в переводчик Гугл, то на выходе получим верный перевод: Gorky Street. Огромная работа, проводимая разработчиками этой СПМ, позволяет надеяться на то, что в перспективе можно ожидать более качественных результатов автоматического перевода.
Наконец, следует сказать несколько слов о 5) переводе аббревиатур. Нам встретился только один подобный пример, но автоматический переводчик оставил его без перевода, в исходном виде. Возможно, это связано с тем, что это латинское выражение (modus operandi):
Она была
She was murdered Она была убита с убита тем же
with the same MO. той же МО. способом^. 23,
3:09).
2. Морфологические ошибки, связанные с переводом частей речи и их употреблением, т.е. ошибки в переводе рода, числа, склонения, падежа существительных, видо-временных форм глагола т.д. Приведем несколько примеров ошибок этого типа.
Are you kidding me? Вы меня издеваетесь? Вы надо мной издеваетесь? ^. 23, 10:12).
You can’t do an autopsy on my Dad. Вы не можете сделать вскрытие моей папе. Вы не можете сделать вскрытие моему папе. ^.24, 15:48).
Didn’t Dad go to hospital regularly? Разве папа не пошел в больницу регулярно? Разве папа не ходил в больницу регулярно? ^.24, 7:56).
Объясняя причины калькированного перевода, некоторые исследователи считают, что система МП на основе переводных соответствий не всегда может справиться с одной из принципиальных задач перевода, а именно, перехода от конструкции исходного языка к конструкции выходного языка, поэтому в тексте перевода появляются конструкции, характерные языку оригинала, но не языку перевода [19].
Таким образом, мы можем наблюдать, как при МП могут нарушаться языковые нормы того языка, на который осуществляется перевод.
Отдельным случаем лексико-семантических ошибок является 3) перевод имен собственных. Часто система переводит имена собственные (особенно короткие, в данном случае корейские) как нарицательные слова, например:
В первом случае использован неверный падеж, во втором ошибка в переводе рода существительного, в третьем примере неверный вид глагола. Но хотя перевод данных предложений не соответствует нормам русского языка, эти ошибки не являются такими серьезными, как ошибки первого типа, т.к. не препятствуют извлечению смысла.
3. Стилистические и синтаксические ошибки.
Стилистические ошибки включают нарушение сочетаемости слов, тавтология, лексическая недостаточность, частые повторы слов, смешение стилей и т.д. Сюда также относятся нарушение порядка слов в предложении, нарушение согласования с главным словом, пропуск или неверное употребление предлога, синтаксическая неоднозначность, отсутствие смысловой законченности предложения. Так же, как и морфологические, эти ошибки вполне позволяют извлечь смысл фразы или высказывания. Приведем несколько примеров:
Интересен случай, когда имя переведено с английского как глагол прошедшего времени, потому что по написанию совпадало с ним:
Thanks to your care-taking, I think I healed quickly. Благодаря вашей заботе, я быстро зажила. Благодаря вашей заботе, у меня всё быстро зажило. ^.7, 6:55).
The fridge and cabinets are bare. Холодильник и шкафы голые. Холодильник и шкафы пустые.(ер.23. 27:54).
You are to take this position after me. Вы должны забрать этот пост за мной. Ты должен занять это место после меня22, 19:34).
Подводя итоги, следует отметить, что наиболее существенными для понимания и самыми многочисленны-
филологические науки -языкознание
Ситдикова Фарида Бизяновна, Хисамова Венера Нафиковна, Усманов Тимур Равилевич MACHINE TRANSLATION ERRORS (ON THE BASIS OF ANALYSIS …
ми были лексико-семантические ошибки (около 53%). Морфологические ошибки не мешали пониманию текста, но также были довольно многочисленными (28%). Оставшуюся часть (19%) составляли стилистические и синтаксические ошибки. Наши результаты хорошо кор-релируются с выводами других исследователей, например [15], [20].
Далее был организован опрос пользователей группы в ВК, смотревших данный сериал. Было опрошено 57 пользователей с целью выяснить, насколько часто при просмотре сериала с автоматическими субтитрами им приходилось пересматривать серии с «человеческим» переводом. Полученные результаты описываются в выводах.
Выводы.
1. За последние десятилетия разработок области машинного перевода качество перевода улучшилось, и машинные переводчики вполне способны выстраивать разумные фразы. Уже сейчас системы МП оказывают большую помощь, делая для переводчиков черновую работу и оставляя человеку лишь постредактирование.
2. Наше исследование продемонстрировало, что сегодняшний день МП, хотя и является несовершенным, но вполне успешно может использоваться в практических целях. Примером того служит автоматический перевод субтитров, выполненный Google Translate, который, как показала практика, с успехом можно использовать как сигнальную версию, дающую представление о содержании текста (в данном случае содержании сериала). В 89,5% случаев (51 зрителей из 57) просмотра серий с автоматическими субтитрами не потребовался просмотр серий с переводом.
Возможно, такой высокий процент объясняется тем, что перевод субтитров — это не перевод текста в чистом виде. При просмотре фильма зритель получает также визуальную информацию и при понимании руководствуется не только текстом, но и контекстом и ситуацией.
iНе можете найти то, что вам нужно? Попробуйте сервис подбора литературы.
3. В отличие от переводчика-человека машинный переводчик Google Translate при переводе допускает ошибки, которые мы разбили на несколько групп.
Общее количество ошибок 200 100%
1) лексико-семантические 106 53
2) морфологические 56 28
3) стилистические и синтаксические 38 19
4. Говоря о статистических результатах, следует отметить, что наиболее существенными для понимания и самыми многочисленными были лексико-семантиче-ские ошибки (около 53%).
5. К досадным ошибкам приводил калькированный перевод семантических конструкций, к которым относятся фразеологические обороты, образные выражения, метафоры, фразовые глаголы английского языка и т.д. В объяснении причин такого явления мы согласны с исследователями, утверждающими, что система МП на основе переводных соответствий не может совершить переход от конструкции исходного языка к конструкции выходного языка [18], поэтому в тексте перевода появляются конструкции, характерные языку оригинала, на языке перевода звучащие нелепо.
6. Морфологические ошибки не мешали пониманию текста, но также были довольно многочисленными (примерно 28%).
7. Стилистические и синтаксические ошибки составляли оставшуюся часть (19%).
8. Пока сложно сделать прогноз, насколько может улучшиться качество машинного перевода в ближайшие десятилетия. Но даже если системы МП не смогут достичь того же уровня, что «человеческий перевод», тем не менее сложно представить будущее без машинных переводчиков, т.к. их помощь человеку сложно переоценить.
СПИСОК ЛИТЕРАТУРЫ:
1. Воронович В.В. Машинный перевод. Конспект лекций для студентов 5-го курса специальности «Современные иностранные языки». Минск, 2013 — 39 с.
2. Евдокимов А.С. Искусство машинного перевода //Hard’N’Soft.
— 2005. -№ 7. — С. 86-91.
3. Марчук Ю.Н. Компьютерная лингвистика : учеб. пособие /Ю. Н. Марчук. -М. : АСТ : Восток-Запад, 2007. — 317 с.
4. Ситдикова Ф.Б. Эволюция машинного перевода./Янбекова Г.Б., Галимзянова З.В., Ситдикова Ф.Б. // Научные революции: Сущность и роль в развитии науки и техники: Сборник статей по итогам Международной научно-практической конференции (Оренбург, 30 апреля 2018 г.). — Стерлитамак: АМИ, 2018. С. 53-58.
5. О термине «машинный перевод». [Электронный ресурс] URL: http://ru.wikipedia.org/wiki/Машинный_перевод (дата обращения: 9.04.2019).
6. Андреева А.Д., Меньшиков И.Л., Мокрушин А.А. Обзор систем машинного перевода //Молодой ученый. — 2013. — №12. — С. 64-66.
— [Электронный ресурс] URL https://moluch.ru/archive/59/8581/ (дата обращения: 9.04.2019).
7. Леонтьева Н.Н. Автоматическое понимание текстов. Системы, модели, ресурсы. — Москва: ACADEMIA, 2006. 7. Google Translate начал использовать нейроперевод. [Электронный ресурс] URL: https://www.armadaboard.com/topic59199.html (дата обращения: 9.04.2019).
8. Нейронный машинный перевод. Вводный курс. [Электронный ресурс]URL:http://datareview.info/article/neyronnyiy-mashinnyiy-perevod-s-primeneniem-gpu-vvodnyiy-kurs-chast-1/ (дата обращения: 9.04.2019).
9. Google Translate подключил русский язык к переводу с глубинным обучением. [Электронный ресурс]. URL: https://habr.com/post/370243/ (дата обращения: 9.04.2019).
10. Краткая история машинного перевода. [Электронный ресурс]. URL: http://linguisticus.com/ru/TranslationTheory/OpenFolder/ ISTORIJA_MASHINNOGO_PEREVODA (дата обращения: 9.04.2019).
11. Нейронный машинный перевод Google [Электронный ресурс]. URL: https://habr.com/ru/post/414343/ (дата обращения: 9.04.2019).
12. Яндекс запустил гибридную систему перевода. [Электронный ресурс]URL: https://yandex.ru/blog/company/kak-pobedit-mornikov-yandeks-zapustil-gibridnuyu-sistemu-perevoda (дата обращения: 9.04.2019).
13. Нейросеть Google Translate составила единую базу смыслов человеческих слов. [Электронный ресурс]URL: https://habr.com/ru/ post/369913/(дата обращения: 9.04.2019).
14. Анализ машинного перевода и сравнение онлайн-переводчиков
— новая жизнь старого проекта. [Электронный ресурс]. URL: http:// news.flarus.ru/?topic=632 (дата обращения: 9.04.2019).
15. Переходько И.В., Мячин Д.А. Оценка качества компьютерного перевода. -Вестник Оренбургского государственного университета.
— 2017. — № 2. — С. 92-96.
16. Улиткин И.А. Автоматическая оценка качества перевода научно-технического текста. [Электронный ресурс]. URL: https:// vestnik-mgou.ru/Articles/Doc/10973 (дата обращения: 9.04.2019).
17. Кедрова Г.Е., Потемкин С.Г. Автоматическая оценка качества машинного перевода на основе семантической метрики // Вiсник Луганського нащонального педагогiчногоунiверситету iменi Т. Шевченка. — № 15(95). — С. 35-41.
18. Парочка следователей | Partners for Justice. [Электронный ресурс]. URL: http://doramatv.ru/partners_forjustice (дата обращения: 9.04.2019).
19. Томин В.В. О проблемах машинного перевода научно-технического текста в информационном поле кросс-культурного взаимодействия. [Электронный ресурс]. URL: http://vestnik.osu.ru/2015_1/5.pdf (дата обращения: 9.04.2019).
20. Кочеткова Н. С., Ревина Е.В. Особенности машинного перевода // Филологические науки. Вопросы теории и практики Тамбов: Грамота, 2017. — № 6(72): в 3-х ч. Ч. 2. C. 106-109. ISSN 1997-2911
Статья поступила в редакцию 23.03.2019 Статья принята к публикации 27.05.2019
Библиографическое описание:
Красильникова, В. Г. Анализ качества машинного перевода системами Google Translate и Яндекс.Переводчик (на материале отрывка из научно-популярного издания по медицине) / В. Г. Красильникова, А. Д. Сафронова. — Текст : непосредственный // Молодой ученый. — 2021. — № 23 (365). — С. 492-494. — URL: https://moluch.ru/archive/365/81991/ (дата обращения: 31.01.2023).
В рамках данного исследования был проведён анализ ошибочно переведённых фрагментов машинного перевода на материале отрывка из научно-популярного издания о деменции.Мы выделили массив ошибок, допущенных системами Google Translate и Яндекс.Переводчик, и классифицировали их по трём группам ошибок, связанных с денотативным и жанрово-стилистическим содержанием оригинала, а также с оформлением текста на языке перевода, и постарались объяснить причины их возникновения.
Ключевые слова:
машинный перевод, переводческие ошибки, постредактирование, научно-популярная литература, медицинский дискурс.
Книгоиздание является одним из процессов, подлежащих возможной автоматизации в будущем. На сегодняшний день количество книг, переведённых системами машинного перевода и отредактированных далее человеком слишком мало, чтобы делать выводы об эффективности машинных переводчиков в этой области, однако и разработчики, и представители книжного рынка, и постредакторы машинного перевода позитивно относятся к тому, чтобы делегировать часть переводческих задач автоматизированным системам, тем самым осуществить переквалификацию действующих переводчиков [1, 3, 4, 5, 6].
Мы проанализировали ошибки, допущенные двумя популярными системами машинного перевода. Ошибками в переводе считаются неоправданные переводческие трансформации, нарушение логики изложения на языке перевода и несоблюдение узуса и норм переводящего языка. Для данной работы в качестве основы была выбрана классификация ошибок по Д. М. Бузаджи и соавт. [2]. В ней выделяется четыре крупные группы переводческих ошибок, но поскольку в исследуемом материале не была представлена группа, связанная с нарушениями передачи авторской оценки, было принято решение не учитывать её при демонстрации полученных результатов. Несмотря на тот факт, что в научно-популярной литературе оценочная лексика встречается гораздо чаще, чем в специализированных текстах [2, с. 60], конкретно в анализируемом отрывке изложение материала близится к объективному с нейтральным уровнем экспрессии. Авторы не говорят о себе и не выражают свою позицию по тому или иному вопросу, лишь популяризуют знание. Таким образом, мы ограничились тремя группами переводческих ошибок, а именно:
1) нарушения при передаче денотативного содержания текста;
2) нарушения при передаче стилистических характеристик оригинала;
3) нарушения нормы и узуса ПЯ.
Материалом исследования послужил отрывок из англоязычной научно-популярной книги о деменции [7]: разделы, описывающие деменцию как заболевание, её симптомы и четыре основных вида. Перевод осуществлялся системами Google Translate и Яндекс.Переводчик, которые различаются в своём подходе к данному процессу. Первая система использует нейронный машинный перевод, изредка обращаясь к статистическому подходу; вторая переводит по гибридному типу, выбирая один из вариантов статистического или нейронного перевода для каждого исходного сегмента. Обе системы постоянно обучаются за счёт пополнения учебных корпусов (как правило, это web-тексты) и активного участия пользовательского сообщества в развитии данных систем. Переведённый машинными переводчиками текст подлежал сравнению с опубликованным на русском языке переводом данного произведения [8]. Для удобства сравнения анализируемый текст был разбит на смысловые единства согласно опубликованному переводу. Каждый такой блок, содержащий заголовок, абзац или группу абзацев помещался в поле для исходного текста в интерфейсе машинных переводчиков. Выведенный в поле с переводом текст подлежал дальнейшему количественно-качественному анализу содержащихся в нём ошибок. Текст машинного перевода нами не редактировался.
Всего в переводе от Google Translate было зафиксировано 405 случаев переводческих ошибок (100 %), из которых наибольшую частотность имеет такой вид ошибок, как неточная передача информации: 139 случаев (34.3 %). Далее следуют нарушения при передаче жанрово-стилистических особенностей текста оригинала: 82 случая (20.2 %). Третье место по частотности разделяют калькирование и нарушения узуса ПЯ: по 40 случаев каждого вида (9.9 %). Общее число случаев переводческих ошибок в рамках исследованного материала от Яндекс.Переводчика составило 439 единиц (100 %). Распределение ошибок по частотности аналогично тому, что было у зарубежной системы машинного перевода. Неточная передача информации представлена наиболее часто: 143 случая (32.6 %). Вторыми по частотности являются нарушения при передаче жанрово-стилистических особенностей текста оригинала: 91 случай (20.7 %). Далее следует калькирование: 56 случаев (12.8 %).
Табличное отображение ошибок по видам внутри групп для каждой системы машинного перевода выглядит следующим образом:
Таблица 1
Частотность ошибок, допущенных системами машинного перевода
Google
Translate
и
Яндекс.Переводчик
|
|
||||
|
|
|
|
|
|
|
|
|
|
|
|
1.1 |
опущение информации |
17 |
4.2 % |
12 |
2.7 % |
1.2 |
добавление информации |
10 |
2.5 % |
3 |
0.7 % |
1.3 |
замена информации |
23 |
5.7 % |
30 |
6.8 % |
1.4 |
неточная передача информации |
139 |
34.3 % |
143 |
32.6 % |
|
|
|
|
|
|
2.1. |
нарушения при передаче жанрово-стилистических особенностей текста оригинала |
82 |
20.2 % |
91 |
20.7 % |
2.2. |
калькирование |
40 |
9.9 % |
56 |
12.8 % |
2.3. |
нарушения узуса ПЯ |
40 |
9.9 % |
39 |
8.9 % |
|
|
|
|
|
|
3.1. |
ошибки в орфографии и пунктуации |
2 |
0.5 % |
4 |
0.9 % |
3.2. |
ошибки при передаче имен собственных при наличии или отсутствии традиционного варианта |
3 |
0.7 % |
4 |
0.9 % |
3.3. |
нарушения стилистических норм ПЯ |
37 |
9.1 % |
29 |
6.6 % |
3.4. |
ошибки при передаче некоторых цифровых данных |
3 |
0.7 % |
2 |
0.5 % |
3.5. |
нарушения требований к оформлению данного типа текстов |
9 |
2.2 % |
26 |
5.9 % |
|
|
|
|
|
|
Так как Яндекс.Переводчик обучается на корпусах русских текстов, ожидалось, что перевод от данной системы будет содержать меньшее количество ошибок, однако обе системы выдают переводы одинакового уровня качества, которые безусловно нуждаются в постредактуре. По результатам исследования, 89–92 % текста, генерируемого машинными переводчиками, содержало переводческие ошибки.
Чаще всего допускались ошибки по типу неточной передачи информации из оригинального текста, для избегания которых необходимо владеть таким приёмом переводческих трансформаций как модуляция. Именно распознавание тонких смысловых оттенков значений и логическое развитие оригинальной мысли на переводящем языке недоступно для нейросетей на настоящем этапе их развития. Кроме того, векторное представление слов для текстов научно-популярного медицинского дискурса у нейросетей развито недостаточно, поэтому наблюдаются проблемы с актуальным членением предложения в тексте переводов, что тоже относится к неточной передаче информации. Ошибки дискурсивного характера могут быть связаны с тем, что машинные переводчики, в отличие от реальных, не работают с коммуникативной целью исходного текста. В связи с этим в тексте перевода не соблюдается единая терминология, происходит неуместный переход от научной лексики к разговорно-бытовой, термины претерпевают генерализацию или же идентификация терминов вовсе не осуществляется, и машинный переводчик переходит на лексическое или синтаксическое калькирование. Аналогичные переводческие ошибки наблюдались в терминосодержащих словосочетаниях. Наконец, третья группа ошибок представляла собой нарушения нормы и узуса переводящего языка, но не с точки зрения смыслов, авторских сем, а графического и стилистического оформления текстов на русском языке. Данные переводческие ошибки возникали несистематично, спонтанно. Они обусловлены «шумами», «мусором» в учебных корпусах текстов. Так, в тексте перевода наблюдались лишние пробелы и символы, изменение регистра и нарушения стилистических норм. Такой вид ошибок, как сбои в передаче цифровых данных, в нашем случае объясняется отсутствием в базе корпусов системы синонимов и эквивалентов мер времени, которые, как известно, различаются в англоязычной и русскоязычной культурах.
Системы машинного перевода постепенно набирают популярность среди профессиональных переводчиков благодаря тому, что они способны в значительной степени упростить процесс перевода. Владение навыком работы в таких системах и постредактирования найденных ошибок определяет востребованность современного переводчика и его конкурентоспособность. Это одна из новейших задач в переводческой индустрии. Стоит отметить, что абсолютная замена реальных переводчиков компьютерными программами перевода не предвидится, по крайней мере, в ближайшем будущем. Несмотря на то, что переводчик теперь склонен выбирать и редактировать наиболее оптимальный из предложенных его «коллегой» вариантов, условием качественного машинного перевода остаётся человеческая экспертиза и авторство перевода, в любом случае, принадлежит людям.
Литература:
- Бенюмов, К. «Как думаете, какой запрос самый распространенный?» Глава Google Translate Барак Туровски — о том, как сервис переходит на нейросети [Интервью] / К. Бенюмов — Текст: электронный // Meduza. — 07.03.2017. — URL: https://meduza.io/feature/2017/03/07/kak-dumaete-kakoy-zapros-samyy-rasprostranennyy (дата обращения: 20.03.2021).
- Бузаджи, Д. М. Новый взгляд на классификацию переводческих ошибок / Д. М. Бузаджи, В. В. Гусев, В. К. Ланчиков, Д. В. Псурцев. — Москва: Всероссийский центр переводов, 2009. — 121 c. — Текст: непосредственный.
- Воронович, В. В. Машинный перевод / В. В. Воронович. — Текст: непосредственный // Конспект лекций для студентов 5-го курса специальности «Современные иностранные языки». — Минск: Белорусский государственный университет, 2013.
- Сандалов, Ф. Редакторские тяготы — часть вторая: переводы / Ф. Сандалов. — Текст: электронный // Facebook: [сайт]. — URL: https://www.facebook.com/from.depot/posts/10224120155289932 (дата обращения: 20.03.2021).
- Тарарак, Е. Машина vs Человек. Отберет ли искусственный интеллект хлеб у переводчиков? [Интервью] / Е. Тарарак. — Текст: электронный // Новая газета: [сайт]. — URL: https://novayagazeta.ru/articles/2020/12/13/88357-mashina-vs-chelovek (дата обращения: 20.03.2021).
- Zaretskaya, A. Integration of Machine Translation in CAT Tools: State of the Art, Evaluation and User Attitudes / A. Zaretskaya, P. G. Corpas, M. Seghiri. — Текст: непосредственный // SKASE Journal of Translation and Interpretation. — 2015. — № 8. — С. 76–88.
- Warner, J. A Pocket Guide to Understanding Alzheimer’s Disease and Other Dementias / J. Warner, N. Graham. — Second Edition. — London : Jessica Kingsley Publishers, 2018. — 160 c.
- Грэм, Н. Поговорим о болезни Альцгеймера. Карманный справочник для ухаживающих за близким с деменцией / Н. Грэм, Дж Уорнер. — Москва : Олимп-Бизнес, 2018. — 121 c. — (Как жить (Олимп-Бизнес)
Основные термины (генерируются автоматически): машинный перевод, ошибка, неточная передача информации, переводчик, система, жанрово-стилистическая особенность текста оригинала, нарушение, нарушение нормы, переводящий язык, передача.