Современный взгляд на технологию машинного перевода

Машинный перевод

Машинный перевод (МП) для нас, как для переводческой компании, долгое время был синонимом плохо выполненной работы, халтуры, низкого качества. МП упоминался в аргументации как нечто табуированное и почти ругательное, когда заказчику предлагался перевод, выполняемый человеком. Никогда МП не рассматривался как инструмент, тем более – самостоятельная услуга. Но времена меняются, технологии развиваются, и мы понимаем, что смотреть на МП по-старому невозможно.

Технологии нейронного МП – те самые, которыми мы можем пользоваться на сайтах Гугла и Яндекса, — стремительно развиваются и уже показывают невиданные уровни качества при переводе текстов без ярко выраженной специализации. Технология нейросетей позволяет машине обучаться на двуязычных корпусах текстов, которых достаточно в открытом доступе, чтобы машина могла показывать приемлемые результаты при переводе большинства документов. Действительно, вы можете поместить текст в Google Translate и с большой вероятностью получить связный перевод без формальных языковых ошибок (орфография, грамматика, пунктуация), вы как минимум сможете понять общее содержание написанного.

По нашему опыту, в некоторых случаях этого достаточно. МП хорошо справляется с общими и техническими текстами с простой структурой предложений. Машина не всегда угадывает правильный перевод терминов или устойчивые языковые обороты, но если цель перевода – ознакомление с общим содержанием документа или просто «наличие» перевода, то машина – идеальное решение в такой ситуации. Но эти выводы были сформулированы не сразу. 

Тестирование технологии МП мы проводили организованно с целью подтвердить или опровергнуть две поставленные гипотезы. Первая – по качеству МП «как есть», без дополнительных модификаций. Мы сравнили 5 различных движков нейронного МП на различных тематиках при наличии эталонного перевода текста человеком. Какой-то движок справился хуже, какой-то лучше, в переводе отдельных оборотов и терминов (читать – совершили разные ошибки), но в целом все движки показали сравнимую читаемость перевода и обеспечили общее понимание смысла оригинала в большинстве случаев.

Вместе с этим мы выявили, что МП совершенно не пригоден, по крайней мере на текущем этапе развития технологии, при переводе:

  1. Юридических документов, где любая ошибка в переводе неприемлема, а выдержанность строгого юридического стиля является одним из ключевых критериев адекватности перевода. Машина не владеет стилем.
  2. Маркетинговых и художественных текстов, где, опять же, стилистика зачастую имеет определяющее значение, а проявление творческих способностей переводчика и способности мыслить не по правилам машина пока имитировать не может.
  3. Научных текстов, когда для использования перевода особенно важна точность передачи терминологии, а с этим у современного МП больше всего проблем. Также машина не справляется с научным стилем и может искажать смысл перевода, особенно в предложениях со сложным синтаксисом.

Исключая названные пункты и все узкоспециальные документы (по которым нет достаточного количества двуязычных текстов в открытом доступе), мы пришли к выводу, что машина справляется с переводом на достаточном уровне, если качество перевода и стопроцентная точность не являются значимыми критериями при переводе. Необходимо также сделать оговорку, что эти результаты могут не быть применимы ко всем языковым парам, т.к. в рамках исследования мы рассматривали только пару «английский-русский» как наиболее востребованную в нашей компании.

Из этих наблюдений мы вывели услугу «Машинный перевод», которую предлагаем заказчикам для документов, не предназначенных для публикации, заключения договорных отношений, чтения большой аудиторией, а также которые не будут применяться как инструкции или руководства. Услуга стоит значительно меньше, чем самый дешевый переводчик, и от бесплатных вариантов, предлагаемых в Гугле или Яндексе, отличается возможностью сохранять форматирование документов, поддержанием конфиденциальности информации, а также возможностью подгрузить накопленные аналогичные переводы в формате Translation Memory к текущему переводу для сохранения единообразия перевода и улучшения качества.

Вторая гипотеза, которую мы рассматривали, это ответ на вопрос: а можно ли каким-то образом улучшить качество базовой модели МП? Решения этой проблемы на текущий момент мы видим два.

1. Новая переводческая специализация – постредактор.

Многими текстами, переведенными машиной, уже можно пользоваться, но в ограниченной мере. В этих переводах мы наблюдаем, как упоминали ранее, неточности в употреблении терминологии, использование неверных формулировок, которые отличаются от общепринятых, иногда ошибки, связанные с неверным истолкованием смысла текста. Это делает перевод некачественным. Вместе с тем исправить эти ошибки и довести перевод до состояния точности может быть быстрее, чем перевести текст с нуля.

Переводчики и редакторы, которые занимаются редактированием машинного перевода и устраняют имеющиеся в нем неточности, называются в отрасли постредакторами. Постредактирование подразумевает владение комплексом навыков и знаний, которые включают понимание особенностей МП, знание ситуаций, где конкретный движок допускает больше всего ошибок, умение править только действительно ошибочные места, а не переписывать текст заново, скорость принятия решений. Постредактированию обучают отдельные лингвистические компании, а навыки вырабатываются в ходе практики. Немаловажен выбор оригинала и движка МП, поскольку, как мы уже установили, не все тексты подлежат постредактуре.

Постредактура позволяет, в сравнении с переводом человеком с нуля, в среднем увеличить скорость получения перевода в полтора-два раза, в зависимости от качества исходного материала и навыков постредактора. Похожим образом снижается стоимость конечного продукта. Качество при этом будет сравнимо с переводом человеком, но эталонный человеческий перевод почти всегда будет лучше, поскольку машина еще не может полностью имитировать письменную речь человека, а постредактор правит ошибки перевода, но не переписывает предложения заново.

2. Обучение движков МП.

Основная причина, по которой МП не может корректно переводить узкоспециализированные тексты, — это отсутствие достаточного массива двуязычных корпусов подобных текстов в открытом доступе. Тем не менее, такие тексты в виде баз Тranslation Memory имеются у переводческих компаний в результате многолетнего выполнения заказов на перевод, и подобные базы, при условии, что перевод в них корректен, а базы достаточно объемные, можно использовать для обучения движков МП. В результате обучения создается «настроенная» версия движка МП, обученная на массиве двуязычных текстов определенной тематики. Этот движок будет показывать улучшенные результаты при переводе текстов аналогичной тематики и, как следствие, сокращать время, требуемое на постредактуру, в теории – убирать необходимость постредактуры вовсе.

Машинный перевод – передовая и перспективная переводческая технология. В умелых руках МП может послужить средством, которое значительно экономит время и расходы на перевод. Понимание выгод и сферы применения МП облегчит жизнь заказчикам и переводческим компаниям, которые идут в ногу со временем.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *