Влияние нейронных сетей на развитие машинного перевода. Искусственный интеллект в Яндекс.Браузере. Гибридный перевод фраз и слов

Сервис «Яндекс.Переводчик» стал использовать технологии нейронных сетей при переводе текстов, что позволяет повысить качество перевода, сообщили сайт в «Яндексе».

В закладки

Сервис работает по гибридной системе, объясняли в «Яндексе»: к статистической модели, которая работает в «Переводчике» с момента запуска, была добавлена технология перевода с помощью нейросети.

«В отличие от статистического переводчика, нейронная сеть не разбивает тексты на отдельные слова и фразы. Она получает на вход предложение целиком и выдаёт его перевод», - объяснил представитель компании. По его словам, такой подход позволяет учесть контекст и лучше передать смысл переводимого текста.

Статистическая модель, в свою очередь, лучше справляется с редкими словами и фразами, подчеркнули в «Яндексе». «Если смысл предложения непонятен, она не фантазирует, как это может делать нейросеть», - отметили в компании.

При переводе сервис использует обе модели, затем алгоритм машинного обучения сравнивает результаты и предлагает лучший, на его взгляд, вариант. «Гибридная система позволяет взять лучшее от каждого метода и повысить качество перевода», - говорят в «Яндексе».

В течение дня 14 сентября в веб-версии «Переводчика» должен появиться переключатель, с помощью которого можно будет сравнить переводы, выполненные гибридной и статистической моделями. При этом иногда сервис может не изменять тексты, отметили в компании: «Это значит, что гибридная модель решила, что статистический перевод лучше».

Яндекс.Переводчик научился дружить с нейросетью и отдавать пользователям более качественные тексты. В Яндексе стали использовать гибридную систему перевода: изначально работала статистическая, а теперь её дополняет технология машинного обучения CatBoost. Правда есть одно но. Пока что лишь для перевода с английского на русский.

В Яндексе утверждают, что это самое популярное направление переводов, которое занимает 80% от общего числа.

CatBoost - умная штука, которая, получив две версии перевода сравнивает их, выбирая наиболее человекоподобную.

В статистической версии обычно перевод разбивается на отдельные фразы и слова. Нейроесть этого не делает, анализирую предложение в целом, учитывая по возможности контекст. Отсюда большая похожесть на человеческий перевод, ведь нейросеть может учесть согласования слов. Однако, у статистического подхода тоже есть свои преимущества, когда он не фантазирует, если видит редкое или непонятное слово. нейросеть же может проявить попытку креатива.

После сегодняшнего анонса должно сократить количество грамматических ошибок в автоматических переводах. Теперь они проходят через модель языка. Теперь не должны попадаться моменты в духе «папа пошла» или «сильный боль».

В веб-версии в данный момент пользователи могут выбрать ту версию перевода, которая им кажется наиболее правильной и удачно, для этого есть отдельный триггер.

Если вам интересны новости мира ИТ также сильно, как нам, подписывайтесь на наш Telegram-канал . Там все материалы появляются максимально оперативно. Или, может быть, вам удобнее ? Мы есть даже в .

Понравилась статья?

Или хотя бы оставить довольный комментарий, чтобы мы знали, какие темы наиболее интересны читателям. Кроме того, нас это вдохновляет. Форма комментариев ниже.

Что с ней так? Своё негодование вы можете высказать на [email protected] Мы постараемся учесть ваше пожелание в будущем, чтобы улучшить качество материалов сайта. А сейчас проведём воспитательную работу с автором.

Эта заметка - большой комментарий к новости про Google Translate подключил русский язык к переводу с глубинным обучением . На первый взгляд, звучит и выглядит всё очень круто. Однако поясню, почему не стоит торопиться с выводами про «переводчики больше не нужны».


Трюк в том, что на сегодня технология способна заменить… да никого она не способна заменить.
Переводчик - это не тот, кто знает иностранный язык, так же как фотограф - это не тот, кто купил большую чёрную зеркалку. Это необходимое условие, но далеко не достаточное.

Переводчик - это тот, кто отлично знает свой язык, хорошо понимает чужой и может точно передать оттенки смысла.

Все три условия важные.

Пока мы не видим даже первую часть (в плане «знает свой язык»). Ну, по крайней мере для русского, пока всё очень и очень плохо. Вот уж что-то, а расстановка запятых отлично алгоритмизуется (Word справился году так в 1994, лицензировав алгоритм у местных), да и для нейросети имеющегося корпуса текстов ООН просто выше крыши.

Кто не в курсе, все официальные документы ООН выпускаются на пяти языках постоянных членов СовБеза, включая русский, и это самая крупная база очень качественных переводов одних и тех же текстов для данных пяти языков. В отличие от переводов художественных произведений, где «переводчика Остапа может понести», база ООН отличается точнейшей передачей тончайших оттенков смысла и идеальным соответствием литературным нормам.

Этот факт, плюс абсолютная бесплатность, делает её идеальным набором текстов (корпусом) для тренировок искусственных переводчиков, хотя она и покрывает только сугубо официально-бюрократическое подмножество языков.


Вернёмся к нашим баранам переводчикам. По закону Парето, 80% профессиональных переводчиков - плохие. Это люди, которые закончили курсы иностранного языка или, в лучшем случае, какой-нибудь региональный пединститут по специальности «учитель иностранного языка младших классов для сельской местности». И никаких других знаний у них нет. Иначе не сидели бы на одной из самых низкооплачиваемых работ.

Знаете, на чём они зарабатывают? Нет, не на переводах. Как правило, заказчики этих переводов понимают текст на иностранном языке лучше переводчика.

Они сидят на требованиях законодательства и/или местных обычаев.

Ну вот у нас положено, чтобы инструкция к товару была на русском. Поэтому импортёр находит человека, который немножечко знает «импортный» язык, и тот эту инструкцию переводит. Этот человек не знает товара, не имеет никаких знаний в данной области, у него было «три с минусом» по русскому, но - переводит. Результат всем известен.

Ещё хуже, если он переводит «в обратную сторону», т.е. на чужой язык (привет китайцам). Тогда его труд с большой вероятностью попадает в «баннизмы» Экслера или их местный аналог.

Или вот вам более тяжелый случай. При обращении в гос. органы с иностранными документами нужно представить перевод этих документов. Причём перевод должен быть не от дяди Васи, а от юридически уважаемой конторы, с «мокрыми» печатями и т.д. Ну вот скажите, насколько сложно «перевести» водительское удостоверение или там свидетельство о рождении? Все поля стандартизированны и пронумерованы. «Переводчику» нужно, в худшем случае, просто транслитерировать имена собственные с одного алфавита на другой. Но нет, «дядя Вася» отдыхает, причём, чаще всего, благодаря даже не закону, а просто внутренним инструкциям местных чиновных начальничков.

Обратите внимание, 80% переводческих контор живут при нотариусах. Угадайте с трёх раз, почему?

Как на этих переводчиков повлияет появление хорошего машинного перевода? Да никак. Ну т.е. есть надежда, что качество их переводов всё-таки улучшится в каких-то мелких аспектах, где есть что переводить. Ну и всё. Рабочее время здесь существенно не уменьшится, потому что они и сейчас бОльшую часть времени копируют текст из графы в графу. «В этом сыре столько-то белков, столько-то углеводов...» Национальные формы в разных странах разные, поэтому работы им меньше не станет. Особенно если не прилагать усилий.

Промежуточный вывод: для нижних 80% не изменится ничего. Они и так зарабатывают не потому что переводчики, а потому что бюрократы самого нижнего уровня.

Теперь посмотрим на противоположную часть спектра, ну пусть это будут верхние 3%.

Самый ответственный, хотя и не самый технически сложный 1%: синхронный перевод очень важных переговоров. Обычно между крупными корпорациями, но в пределе - в ООН или похожих верхах. Одна ошибка переводчика при передаче даже не смысла - эмоций, может привести, в самом худшем случае, к атомной войне. При этом, как вы понимаете, эмоциональный окрас даже совпадающих буквально фраз в разных языках может очень отличаться. Т.е. переводчик должен идеально знать оба культурных контекста своих рабочих языков. Банальные примеры - слова «негр» и «инвалид». Они почти нейтральны в русском и ярко эмоционально окрашены, вплоть до обсценности, в современном английском.

Такие переводчики могут не бояться ИИ: никто никогда не доверит такую ответственность машине.

Следующий 1% - это художественные переводчики. Ну вот у меня, например, целая полка выделена под тщательно собираемые оригинальные англоязычные издания Конана Дойля, Льюиса Кэролла, Хью Лори - в оригинале, без всяких там адаптаций и наших местных перепечаток. Чтение этих книг отлично развивает словарный запас, знаете ли, ну помимо огромного эстетического удовольствия. Я, дипломированный переводчик, могу пересказать очень близко к тексту любое предложение из этих книг. Но взяться за перевод? Увы, нет.

Я даже не заикаюсь о переводах поэзии.

Наконец, самый технически сложный (для нейросети - вообще невозможный) 1% это научно-технический перевод. Обычно, если какая-то команда в какой-то стране вырвалась вперёд в своей области, они называют свои открытия и изобретения на своём языке. Может так оказаться, что в другой стране другая команда независимо изобрела/открыла то же самое. Так появились, например, законы Бойля-Мариотта, Менделеева-Пуассона и споры на тему Попов / Маркони, Можайский / братья Райт / Сантос-Дюмон.

Но если иностранная команда «совсем ускакала» вперёд, у «догоняющих» учёных есть два варианта в лингвистическом смысле: калькировать или переводить.

Калькировать названия новых технологий, конечно, проще. Именно так в русском появились алгебра , медицина и компьютер , во французском - bistro , datcha и vodka ; в английском - sputnik , tokamak и perestroika .

Но иногда всё-таки переводят. Голос гуманитария в моей голове дико прётся от термина тачсота для обозначения аргумента преобразования Фурье от преобразования Фурье, как перевод для querquency . Шутки в сторону, таких терминов нет в гугле - но у меня есть бумажный учебник по цифровой обработке сигналов, одобренный и освящённый минобром, в котором эти термины есть.

И да, анализ тачсоты - это единственный (известный мне) способ отличить мужской голос от женского. Варианты?

Я к чему клоню: этим людям нечего бояться, потому что они сами формируют язык, вводят в него новые слова и термины. Нейросети всего лишь учатся на их решениях. Ну, не забывая тот факт, что эти учёные и инженеры не на переводах зарабатывают.

Ну и, наконец, «средний класс», хорошие профессиональные переводчики, но не топы. С одной стороны, они ещё защищены бюрократией - переводят, например, инструкции, но уже не к гомеопатическим бадам, а, допустим, к нормальным лекарствам или там станкам. С другой стороны - это уже сегодня современные работники с высокой автоматизацией труда. Их работа уже сейчас начинается с составления «словарика» терминов, чтобы перевод был единообразен, а дальше, по сути, состоит в редактировании текста в специализированном софте типа trados. Нейросети уменьшат количество необходимых правок и увеличат производительность труда, но принципиально ничего не изменят.

Итого, слухи о скорой смерти профессии обычного переводчика немного преувеличены. На всех уровнях немного ускорится работа и немного увеличится конкуренция, но - ничего необычного.

А вот кому достанется - так это переводчикам-журналистам. Ещё 10 лет назад они могли спокойно сослаться на англоязычную статью, из которой ничего не поняли, и написать полный бред. Сегодня тоже пытаются, но знающие английский читатели их раз за разом макают в… ну вы поняли.

В-общем, их время прошло. С универсальным машинным переводчиком среднего уровня, пусть и немного корявым, «журналисты» типа

или Перерастает ли количество в качество

Статья по мотивам выступления на конференции РИФ+КИБ 2017.

Neural Machine Translation: почему только сейчас?

Про нейронные сети говорят уже давно, и, казалось бы, что одна из классических задач искусственного интеллекта – машинный перевод – просто напрашивается на то, чтобы решаться на базе этой технологии.

Тем не менее, вот динамика популярности в поиске запросов про нейронные сети вообще и про нейронный машинный перевод в частности:

Прекрасно видно, что на радарах вплоть до недавнего времени нет ничего про нейронный машинный перевод – и вот в конце 2016 года свои новые технологии и системы машинного перевода, построенные на базе нейронных сетей, продемонстрировали сразу несколько компаний, среди которых Google, Microsoft и SYSTRAN. Они появились почти одновременно, с разницей в несколько недель или даже дней. Почему так?

Для того, чтобы ответить на этот вопрос, необходимо понять, что такое машинный перевод на базе нейронных сетей и в чем его ключевое отличие от классических статистических систем или аналитических систем, которые используются сегодня для машинного перевода.

В основе нейронного переводчика механизм двунаправленных рекуррентных нейронных сетей (Bidirectional Recurrent Neural Networks), построенный на матричных вычислениях, который позволяет строить существенно более сложные вероятностные модели, чем статистические машинные переводчики.


Как и статистический перевод, нейронный перевод требует для обучения параллельные корпуса, позволяющие сравнить автоматический перевод с эталонным «человеческим», только в процессе обучения оперирует не отдельными фразами и словосочетаниями, а целыми предложениями. Основная проблема в том, что для тренировки такой системы требуется существенно больше вычислительных мощностей.

Для ускорения процесса разработчики используют GPU от NVIDIA, а Google также и Tensor Processing Unit (TPU) – чипы собственной разработки, адаптированные специально для технологий машинного обучения. Графические чипы изначально оптимизированы под алгоритмы матричных вычислений, и поэтому выигрыш в производительности составляет 7-15 раз в сравнении с CPU.

Даже при всем этом тренировка одной нейронной модели требует от 1 до 3 недель, тогда как статистическая модель примерно того же размера настраивается за 1-3 дня, и с увеличением размера эта разница увеличивается.

Однако не только технологические проблемы были тормозом для развития нейронных сетей в контексте задачи машинного перевода. В конце концов, обучать языковые модели можно было и раньше, пусть и медленнее, но принципиальных препятствий не было.

Свою роль сыграла в том числе и мода на нейронные сети. Разработки внутри себя вели многие, но заявлять об этом не спешили, опасаясь, возможно, что не получат того прироста качества, которое общество ожидает от словосочетания Neural Networks. Этим можно объяснить тот факт, что сразу несколько нейронных переводчиков были анонсированы один за другим.

Качество перевода: чей BLEU score толще?

Попробуем понять, соответствует ли рост качества перевода накопленным ожиданиям и тому росту затрат, которые сопровождают разработку и поддержку нейронных сетей для перевода.
Google в своем исследования демонстрирует, что нейронный машинный перевод дает Relative Improvement от 58% до 87%, в зависимости от языковой пары, по сравнению с классическим статистическим подходом (или Phrase Based Machine Translation, PBMT, как его еще называют).


SYSTRAN проводит исследование, в котором качество перевода оценивается путем выбора из нескольких представленных вариантов, сделанных различными системами, а также «человеческого» перевода. И заявляет, что его нейронный перевод предпочитают в 46% случаев переводу, сделанному человеком.

Качество перевода: есть ли прорыв?

Несмотря на то, что Google заявляет об улучшении на 60% и даже выше, в этом показателе есть небольшой подвох. Представители компании говорят о «Relative Improvement», то есть насколько им удалось с нейронным подходом приблизится к качеству Human Translation по отношению к тому, что было в классическом статистическом переводчике.


Эксперты отрасли, анализирующие результаты, представленные Google в статье «Google"s Neural Machine Translation System: Bridging the Gap between Human and Machine Translation», достаточно скептически относятся к представленным результатам и говорят, что фактически BLEU score удалось улучшить только на 10%, а существенный прогресс заметен именно на достаточно простых тестах из Wikipedia, которые, скорее всего, были использованы и в процессе обучения сети.

Внутри PROMT мы регулярно проводим сравнение перевода на различных текстах наших систем с конкурентами, и поэтому под рукой всегда есть примеры, на которых мы можем проверить, действительно ли нейронный перевод так превосходит предыдущее поколение, как заявляют производители.

Исходный текст (EN): Worrying never did anyone any good.
Перевод Google PBMT: Не беспокоясь не делал никому ничего хорошего.
Перевод Google NMT: Беспокойство никогда никому не помогало.

Кстати, перевод той же фразы на Translate.Ru: «Волнение никогда не приносило никому пользы», можно заметить, что он был и остался таким же и без использования нейронных сетей.

Microsoft Translator в этом вопросе тоже не отстает. В отличие от коллег из Google они даже сделали сайт , на котором можно сделать перевод и сравнить два результата: нейронный и донейронный, чтобы убедиться, что утверждения о росте в качестве не голословны.


На этом примере мы видим, что прогресс есть, и он действительно заметный. На первый взгляд, похоже, что заявление разработчиков о том, что машинный перевод практически догнал «человеческий» - правда. Но так ли это на самом деле, и что это значит с точки зрения практического применения технологии для бизнеса?

В общем случае перевод с применением нейронных сетей превосходит перевод статистический, и у этой технологии есть огромный потенциал для развития. Но если внимательно подойти к вопросу, то мы сможем убедиться, что прогресс не во всем, и не для всех задач можно применять нейронные сети без оглядки на саму задачу.

Машинный перевод: в чем задачи

От автоматического переводчика всю историю его существования – а это уже более 60 лет! – ждали некой магии, представляя его как машинку из фантастических фильмов, которая мгновенно переводит любую речь в инопланетный свист и обратно.

На самом деле, задачи бывают разного уровня, один из которых подразумевает «универсальный» или, если можно так выразится, «бытовой» перевод для повседневных задач и облегчения понимания. С задачами этого уровня прекрасно справляются онлайн-сервисы по переводу и множество мобильных продуктов.

К таким задачам можно отнести:

Быстрый перевод слов и коротких текстов для различных целей;
автоматический перевод в процессе общения на форумах, в социальных сетях, мессенджерах;
автоматический перевод при чтении новостей, статей Wikipedia;
переводчик в путешествиях (mobile).

Все те примеры роста качества перевода с использованием нейронных сетей, которые мы рассматривали выше, как раз и относятся к этим задачам.

Однако с целями и задачами бизнеса в отношении машинного перевода все обстоит несколько иначе. Вот, например, некоторые требования, которые предъявляются к корпоративным системам машинного перевода:

Перевод деловой переписки с клиентами, партнерами, инвесторами, иностранными сотрудниками;
локализация сайтов, интернет-магазинов, описаний продуктов, инструкций;
перевод пользовательского контента (отзывы, форумы, блоги);
возможность интеграции перевода в бизнес-процессы и программные продукты и сервисы;
точность перевода с соблюдением терминологии, конфиденциальность и безопасность.

Попробуем понять на примерах, решаемы ли любые задачи бизнеса по переводу с помощью нейронных сетей и как именно.

Кейс: Amadeus

Amadeus - одна из крупнейших в мире глобальных систем дистрибуции авиабилетов. С одной стороны к ней подключены авиаперевозчики, с другой – агентства, которые должны получать всю информацию об изменениях в режиме реального времени и доносить до своих клиентов.

Задача - локализация условий применения тарифов (Fare Rules), формирующихся в системе бронирования автоматически из разных источников. Эти правила формируются всегда на английском языке. Ручной перевод здесь практически невозможен, ввиду того, что информации много и она часто меняется. Агент по продаже авиабилета хотел бы читать Fare Rules на русском языке, чтобы оперативно и квалифицированно консультировать своих клиентов.

Требуется понятный перевод, передающий смысл тарифных правил, с учетом типичных терминов и аббревиатур. И требуется, чтобы автоматический перевод был интегрирован непосредственно в систему бронирования Amadeus.

→ Подробно задача и реализация проекта расписаны в документе .

Попробуем сравнить перевод, сделанный через PROMT Cloud API, интегрированный в Amadeus Fare Rules Translator, и «нейронный» перевод от Google.

Оригинал: ROUND TRIP INSTANT PURCHASE FARES

PROMT (Аналитический подход): ТАРИФЫ МГНОВЕННОЙ ПОКУПКИ РЕЙСА ТУДА И ОБРАТНО

GNMT: КРУГЛЫЕ ПОКУПКИ

Очевидно, что тут нейронный переводчик не справляется, и чуть дальше станет понятно, почему.

Кейс: TripAdvisor

TripAdvisor один из крупнейших в мире туристических сервисов, который не нуждается в представлении. По данным статьи, опубликованной The Telegraph, ежедневно на сайте появляется 165,600 новых отзывов о различных туристических объектах на разных языках.

Задача перевод отзывов туристов с английского на русский язык с качеством перевода, достаточным для того, чтобы понять смысл этого отзыва. Основная сложность: типичные особенности user generated content (тексты с ошибками, опечатками, пропусками слов).

Также частью задачи была автоматическая оценка качества перевода перед публикацией на сайте TripAdvisor. Так как ручная оценка всего переводимого контента невозможна, решение по машинному переводу должно предоставить автоматический механизм оценки качества переведенных текстов - confidence score, чтобы дать возможность TripAdvisor публиковать переведенные отзывы только высокого качества.

Для решения была использована технология PROMT DeepHybrid, позволяющая получить более качественный и понятный конечному читателю перевод в том числе и за счет статистического постредактирования результатов перевода.

Посмотрим на примеры:

Оригинал: We ate there last night on a whim and it was a lovely meal. The service was attentive without being over bearing.

PROMT (Гибридный перевод): Мы ели там в последний вечер случайно, и это была прекрасная еда. Персонал был внимательным, но не властным.

GNMT: Мы ели там прошлой ночью по прихоти, и это была прекрасная еда. Обслуживание было внимательным, не будучи более подшипников.

Здесь все не так удручающе с точки зрения качества, как в предыдущем примере. И вообще, по своим параметрам эта задача потенциально может быть решена с применением нейронных сетей, и это может еще повысить качество перевода.

Проблемы использования NMT для бизнеса

Как уже говорилось ранее, «универсальный» переводчик не всегда дает приемлемое качество и не может поддерживать специфическую терминологию. Чтобы интегрировать в свои процессы и применять нейронные сети для перевода, нужно выполнить основные требования:

Наличие достаточных объемов параллельных текстов для того, чтобы иметь возможность обучать нейронную сеть. Часто у заказчика их просто мало или вообще текстов по данной тематике не существует в природе. Они могут быть засекречены или находится в состоянии не очень пригодном для автоматической обработки.

Для создания модели нужна база, где содержится минимум 100 млн. токенов (словоупотреблений), а чтобы получить перевод более-менее приемлемого качества – 500 млн. токенов. Далеко не каждая компания обладает таким объемом материалов.

Наличие механизма или алгоритмов автоматической оценки качества получаемого результата.

Достаточные вычислительные мощности.
«Универсальный» нейронный переводчик чаще всего не подходит по качеству, а чтобы развернуть свою частную нейронную сеть, способную обеспечить приемлемое качество и скорость работы, требуется «маленькое облако».

Непонятно, что делать с конфиденциальностью.
Не каждый заказчик готов отдавать свой контент для перевода в облако по соображениям безопасности, а NMT – это история в первую очередь облачная.

Выводы

В общем случае нейронный автоматический перевод дает результат более высокого качества, чем «чисто» статистический подход;
Автоматический перевод через нейронную сеть – лучше подходит для решения задачи «универсального перевода»;
Ни один из подходов к МП сам по себе не является идеальным универсальным инструментом для решения любой задачи перевода;
Для решения задач по переводу в бизнесе только специализированные решения могут гарантировать соответствие всем требованиям.

Мы приходим к абсолютно очевидному и логичному решению, что для своих задач по переводу нужно использовать тот переводчик, который максимально для этого подходит. Не важно, есть внутри нейронная сеть или нет. Понимание самой задачи – важнее.

Теги: Добавить метки


Top