Facebook* AI научила машинный перевод обходиться без английского
Facebook AI представила M2M-100 — первый мультиязыковой переводчик, который не использует дополнительный шаг с переводом исходного текста на английский. Для обучения алгоритма ученые автоматически собрали 7,5 миллиарда предложений на 100 языках, для каждого из которых доступен перевод как с исходного языка, так и на целевой. Подробнее о проекте рассказывается на сайте компании.
Во многих случаях машинный перевод с одного языка на другой проходит через один обязательный этап — перевод исходного текста на английский, а затем — перевод уже этого текста на язык целевой. Этот шаг значительно облегчает задачу, в особенности — когда дело касается статистического перевода, основанного на параллельных корпусах: текстов на английском языке значительно больше, чем на любом другом языке, и вероятность того, что какой-то текст будет переведен на английский язык и это можно будет использовать для перевода, также значительно выше.
При этом переход через английский, разумеется, необязателен, а иногда может быть и лишним: например, смысла в том, чтобы использовать английский в автоматическом переводе с русского на чувашский, нет совсем, так как параллельных корпусов английский-чувашский меньше, чем русский-чувашский. Кроме того, в процессе могут появляться лишние грамматические ошибки или семантически неправильно использованные слова.
Избавиться от перевода на английский частично позволили переводчики, основанные на нейросетях. Тем не менее, мультиязыковых переводчиков, которые бы не использовали дополнительный шаг с переводом на английский, до сих пор не было.
Чтобы обучить систему переводить с одного языка на другой без использования английского, разработчики Facebook собрали корпус из предложений: для этого использовали доступные программы-кроулеры, в том числе — представленную в прошлом году CCAligned (разновидность Common Crawl). Разработчики сосредоточились на 100 языках (это чуть меньше, чем у Google Переводчика, который поддерживает 108 языков), которые разбили на 14 групп на основе принадлежности к лингвистическим семьям, культурным особенностям носителей и странах, в которых носители проживают.
Далее все возможные пары перевода с каждого из 100 языков отсортировали на основе того, насколько часто они используются — самым популярным парам уделяли больше места в получившемся фразовом словаре. Всего разработчикам удалось собрать 7,5 миллиарда фраз — для определения языка использовали разработанный в Facebook сервис FastText. Дополнительно разработчики использовали автоматически переведенные предложения — этот шаг необходим для языков, параллельных корпусов с которыми в принципе очень мало.
Собранные данные использовали для обучения модели на основе XLM-R — алгоритма перевода, который Facebook представил в прошлом году, а количество учтенных грамматических, морфологических и семантических параметров достигает 12 миллиардов.
По словам разработчиков, качество перевода M2M-100 превышает системы, основанные на переходе через английский язык: система набрала на 10 очков BLEU (стандартных алгоритм для оценки качества машинного перехода: обычно он выдает коэффициент от 0 до 1, но в работе разработчики, по-видимому, использовали другую шкалу) больше, чем другие протестированные системы.
Пока что Facebook не планирует использовать M2M-100 в своих сервисах: проект реализуется в первую очередь в исследовательских целях. Модель и датасет для обучения исследователи также выложили в открытый доступ.
Другой переводчик от Facebook, представленный два года назад, и вовсе обходится без параллельных корпусов: в нем для перевода используется векторная репрезентация отдельных слов.
*Facebook принадлежит компании Meta, деятельность которой в России запрещена.
Елизавета Ивтушок
Нашли опечатку? Выделите фрагмент и нажмите Ctrl+Enter.
Facebook извинился за перевод имени Си Цзиньпина как «гадюшник» — РБК
adv.rbc.ru
adv.rbc.ru
adv.rbc.ru
Скрыть баннеры
Ваше местоположение ?
ДаВыбрать другое
Рубрики
Курс евро на 12 апреля
EUR ЦБ: 89,73
(+0,55)
Инвестиции, 16:08
Курс доллара на 12 апреля
USD ЦБ: 82,18
(+0,44)
Инвестиции, 16:08
Военная операция на Украине.
Путин заявил о «затоваривании» рынка недвижимости Экономика, 18:28
ФАС разрешила владельцу «Пятерочки» купить «Покупочку» Бизнес, 18:19
adv.rbc.ru
adv.rbc.ru
«Роскосмос» показал кадры после извержения вулкана на Камчатке Общество, 18:14
Одноклубник Головина получил условный срок за неуплату налогов Спорт, 18:11
Клуб РПЛ подшутил над Карпиным после жалоб на размер поля в Оренбурге Спорт, 18:11
Центробанк ограничит ипотеку с «экстремально низкими» ставками Недвижимость, 18:05
Скидки на РБК Pro
В период Марафона эффективной коммуникации. Успейте купить!
Купить со скидкой
Ликсутов рассказал о внедрении сетей 5G на станциях БКЛ Город, 18:03
Трутнев сообщил о неудаче в пропаганде привлекательности Дальнего Востока Политика, 18:02
Криптопроект Sei привлек $30 млн при оценке в $800 млн Крипто, 17:53
Как помочь подростку подготовиться к экзаменам: чек-лист Pro, 17:30
На край света или инвестиции: на что потратить годовой бонус РБК и Цифра брокер, 17:27
Пригожин заявил о контроле над Артемовском на 80% Политика, 17:23
Уклонистам приостановят сделки с недвижимостью. Что это значит
Недвижимость, 17:16
adv.rbc.ru
adv.rbc.ru
adv.rbc.ru
В компании пообещали решить проблемы с автоматическим переводом и разобраться в причинах случившегося
Фото: Nyein Chan Naing / AP
Компания Facebook извинилась за перевод имени китайского лидера Си Цзиньпина, который проявился в официальном аккаунте Государственного секретаря Мьянмы Аун Сан Су Чжи, сообщает агентство Reuters.
Последняя написала на бирманском языке сообщение о встрече с китайским лидером. При автоматическом переводе записи на английский язык вместо имени Си Цзиньпина читатели могли увидеть слово «гадюшник».
Перевод заголовка местной газеты Irrawaddy на английский язык в результате звучал как «Обед приветствует президента гадюшника».
В Facebook заявили, что не знают, как это произошло, и пытаются разобраться в причинах случившегося. Там указали, что в данный момент перевод с бирманского на английский работает корректно. «Мы искренне извиняемся за то, что эта ошибка привела к оскорблению», — заявили в компании.
Facebook уже сталкивался с проблемами перевода с бирманского на английский в 2018 году, сообщал Reuters. Сначала компанию обвиняли в том, что она не смогла предотвратить распространение постов, разжигающих ненависть к исповедующим ислам представителям народа рохинджа, потому что модераторы не знали ряда терминов на бирманском языке. Затем радикальные высказывания стали переводить с ошибками. Например, призыв убивать мусульман на английский перевели фразой «Мне не следовало бы иметь радугу в Мьянме». Закончилось все тем, что Facebook временно исключил функцию перевода с бирманского.
Авторы
Теги
Представляем первую модель ИИ, которая переводит на 100 языков, не полагаясь на английский
- Facebook AI представляет M2M-100, первую модель многоязычного машинного перевода (MMT), которая может переводить между любой парой 100 языков, не полагаясь на данные английского языка.
Это с открытым исходным кодом здесь.
- При переводе, скажем, с китайского на французский, большинство англо-ориентированных многоязычных моделей тренируются с китайского на английский и с английского на французский, поскольку данные для обучения на английском языке являются наиболее широко доступными. Наша модель напрямую обучает данные с китайского на французский, чтобы лучше сохранить смысл. Он превосходит англо-ориентированные системы на 10 баллов по широко используемой метрике BLEU для оценки машинных переводов.
- M2M-100 обучается в общей сложности 2200 языковым направлениям — или в 10 раз больше, чем предыдущие лучшие многоязычные модели, ориентированные на английский язык. Развертывание M2M-100 улучшит качество переводов для миллиардов людей, особенно для тех, кто говорит на малоресурсных языках.
- Эта веха является кульминацией многолетней фундаментальной работы искусственного интеллекта Facebook в области машинного перевода. Сегодня мы делимся подробностями о том, как мы создали более разнообразный набор данных для обучения MMT и модель для 100 языков.
Мы также выпускаем модель, систему обучения и оценки, чтобы помочь другим исследователям воспроизвести и усовершенствовать многоязычные модели.
Преодоление языковых барьеров с помощью машинного перевода (MT) — один из наиболее важных способов объединить людей, предоставить достоверную информацию о COVID-19 и защитить их от вредоносного контента. Сегодня мы ежедневно выполняем в среднем 20 миллиардов переводов в ленте новостей Facebook благодаря нашим последним разработкам в области машинного перевода с низким уровнем ресурсов и недавним достижениям в области оценки качества перевода.
Типичные системы машинного перевода требуют создания отдельных моделей ИИ для каждого языка и каждой задачи, но этот подход неэффективно масштабируется на Facebook, где люди размещают контент на более чем 160 языках в миллиардах сообщений. Усовершенствованные многоязычные системы могут обрабатывать несколько языков одновременно, но снижают точность, полагаясь на данные на английском языке для преодоления разрыва между исходным и целевым языками. Нам нужна одна модель многоязычного машинного перевода (MMT), которая может переводить любой язык, чтобы лучше обслуживать наше сообщество, почти две трети которого используют язык, отличный от английского.
В результате многолетних исследований машинного перевода в Facebook мы рады объявить об важной вехе: первой единой массовой модели MMT, которая может напрямую переводить 100 × 100 языков в любом направлении, не полагаясь только на англо-ориентированные данные. Наша единая многоязычная модель работает так же хорошо, как и традиционные двуязычные модели, и добилась улучшения на 10 баллов по BLEU по сравнению с англоязычными многоязычными моделями.
Используя новые стратегии интеллектуального анализа данных для создания данных перевода, мы создали первый набор данных «многие ко многим» с 7,5 миллиардами предложений для 100 языков. Мы использовали несколько методов масштабирования, чтобы построить универсальную модель с 15 миллиардами параметров, которая собирает информацию из родственных языков и отражает более разнообразный сценарий языков и морфологию. Мы открываем исходный код этой работы здесь.
Извлечение сотен миллионов предложений для тысяч языковых направлений
Одним из самых больших препятствий при построении модели MMT «многие ко многим» является курирование больших объемов качественных пар предложений (также известных как параллельные предложения) для произвольных направлений перевода, а не с участием английского языка. Гораздо проще найти переводы с китайского на английский и с английского на французский, чем, скажем, с французского на китайский. Более того, объем данных, необходимых для обучения, растет квадратично с количеством поддерживаемых языков. Например, если нам нужно 10 миллионов пар предложений для каждого направления, нам нужно добыть 1 миллиард пар предложений для 10 языков и 100 миллиардов пар предложений для 100 языков.
Мы взяли на себя эту амбициозную задачу по созданию самого разнообразного набора данных MMT «многие ко многим» на сегодняшний день: 7,5 миллиардов пар предложений на 100 языках. Это стало возможным благодаря объединению дополнительных ресурсов интеллектуального анализа данных, которые разрабатывались годами, включая ccAligned, ccMatrix и LASER. В рамках этих усилий мы создали новый LASER 2.0 и улучшили идентификацию языка fastText, что повышает качество майнинга и включает сценарии обучения и оценки с открытым исходным кодом. Все наши ресурсы интеллектуального анализа данных используют общедоступные данные и имеют открытый исходный код.
Новая многоязычная модель Facebook AI «многие ко многим» является кульминацией нескольких лет новаторской работы в области машинного перевода с использованием революционных моделей, ресурсов интеллектуального анализа данных и методов оптимизации. На этой временной шкале отмечены несколько заслуживающих внимания достижений. Кроме того, мы создали наш массивный набор данных для обучения путем майнинга ccNET, основанного на fastText , нашей новаторской работе по обработке представлений слов; наша библиотека LASER для CCMatrix, которая встраивает предложения в многоязычное пространство для встраивания; и CCAligned, наш метод выравнивания документов на основе совпадений URL-адресов. В рамках этих усилий мы создали LASER 2.0, который улучшает предыдущие результаты.
Тем не менее, даже с передовыми базовыми технологиями, такими как LASER 2.0, сбор крупномасштабных обучающих данных для произвольных пар 100 различных языков (или 4450 возможных языковых пар) требует больших вычислительных ресурсов. Чтобы сделать этот тип масштабирования майнинга более управляемым, мы сначала сосредоточились на языках с наибольшим количеством запросов на перевод. Следовательно, мы отдали предпочтение направлениям майнинга с данными самого высокого качества и наибольшим количеством данных. Мы избегали направлений, для которых потребность в переводе статистически редка, таких как исландский-непальский или сингальский-яванский.
Затем мы представили новую стратегию поиска мостов, в которой мы группируем языки в 14 языковых групп на основе лингвистической классификации, географии и культурных сходств. Люди, живущие в странах с языками одной семьи, как правило, общаются чаще, и им нужны качественные переводы. Например, одна группа будет включать языки, на которых говорят в Индии, такие как бенгальский, хинди, маратхи, непальский, тамильский и урду. Мы систематически изучили все возможные языковые пары внутри каждой группы.
Чтобы соединить языки разных групп, мы определили небольшое количество промежуточных языков, которые обычно представляют собой от одного до трех основных языков каждой группы. В приведенном выше примере хинди, бенгальский и тамильский языки были бы промежуточными языками для индоарийских языков. Затем мы изучили данные параллельного обучения для всех возможных комбинаций этих промежуточных языков. Используя эту технику, наш обучающий набор данных получил 7,5 миллиардов параллельных предложений данных, соответствующих 2200 направлениям. Поскольку добытые данные можно использовать для обучения двух направлений заданной языковой пары (например, en->fr и fr->en), наша стратегия добычи помогает нам эффективно разреженно добывать данные, чтобы наилучшим образом охватить все 100×100 (всего 9 языков). ,900) направлений в одной модели.
Чтобы дополнить параллельные данные для малоресурсных языков с низким качеством перевода, мы использовали популярный метод обратного перевода, который помог нам занять первые места на конкурсах WMT International Machine Translation 2018 и 2019 годов. Например, если наша цель — обучить модель перевода с китайского на французский, мы сначала обучим модель для французского на китайский и переведем все одноязычные французские данные для создания синтетического китайского с обратным переводом. Мы обнаружили, что этот метод особенно эффективен в больших масштабах при переводе сотен миллионов одноязычных предложений в параллельные наборы данных. В наших условиях исследования мы использовали обратный перевод, чтобы дополнить обучение направлений, которые мы уже изучили, добавив синтетические данные обратного перевода к добытым параллельным данным. И мы использовали обратный перевод для создания данных для ранее неконтролируемых направлений.
В целом, сочетание нашей стратегии моста и данных с обратным переводом улучшило производительность по 100 направлениям с обратным переводом в среднем на 1,7 BLEU по сравнению с обучением только на добытых данных. Благодаря более надежному, эффективному и высококачественному обучающему набору у нас была хорошая основа для построения и масштабирования нашей модели «многие ко многим».
Мы также получили впечатляющие результаты при нулевых настройках, в которых отсутствуют обучающие данные для пары языков. Например, если модель обучена французско-английскому и немецко-шведскому языкам, мы можем выполнить нулевой перевод между французским и шведским языками. В условиях, когда наша модель «многие ко многим» должна обнулить перевод между направлениями, не относящимися к английскому языку, она была значительно лучше, чем многоязычные модели, ориентированные на английский язык.
Масштабирование нашей модели MMT до 15 миллиардов параметров с высокой скоростью и качеством
Одной из проблем многоязычного перевода является то, что единая модель должна фиксировать информацию на многих разных языках и в различных сценариях. Чтобы решить эту проблему, мы увидели явное преимущество в масштабировании возможностей нашей модели и добавлении параметров, зависящих от языка. Масштабирование размера модели полезно, в частности, для языковых пар с высоким уровнем ресурсов, поскольку они содержат больше всего данных для обучения дополнительной мощности модели. В конечном итоге мы увидели среднее улучшение в 1,2 BLEU, усредненное по всем языковым направлениям, при плотном масштабировании размера модели до 12 миллиардов параметров, после чего наблюдалось уменьшение отдачи от дальнейшего плотного масштабирования. Сочетание плотного масштабирования и разреженных параметров для конкретного языка (3,2 миллиарда) позволило нам создать еще лучшую модель с 15 миллиардами параметров.
Чтобы увеличить размер нашей модели, мы увеличили количество слоев в наших сетях Transformer, а также ширину каждого слоя. Мы обнаружили, что большие модели быстро сходятся и обучаются с высокой эффективностью данных. Примечательно, что эта система «многие ко многим» является первой, использующей Fairscale, новую библиотеку PyTorch, специально разработанную для поддержки конвейерного и тензорного параллелизма. Мы построили эту общую инфраструктуру для размещения крупномасштабных моделей, которые не помещаются на одном графическом процессоре, за счет параллелизма моделей в Fairscale. Мы создали оптимизатор ZeRO, внутриуровневый параллелизм моделей и параллелизм конвейерных моделей для обучения крупномасштабных моделей.
Но недостаточно просто масштабировать модели до миллиардов параметров. Чтобы иметь возможность производить эту модель в будущем, нам необходимо максимально эффективно масштабировать модели с помощью высокоскоростного обучения. Например, во многих существующих работах используется мультимодельный ансамбль, когда несколько моделей обучаются и применяются к одному и тому же исходному предложению для получения перевода. Чтобы уменьшить сложность и объем вычислений, необходимых для обучения нескольких моделей, мы изучили самостоятельную сборку из нескольких источников, которая переводит исходное предложение на несколько языков для повышения качества перевода. Кроме того, мы опирались на нашу работу с LayerDrop и Depth-Adaptive для совместного обучения модели с общим стволом и различными наборами языковых параметров. Этот подход отлично подходит для моделей «многие ко многим», поскольку он предлагает естественный способ разделения частей модели по языковым парам или языковым семьям. Комбинируя плотное масштабирование емкости модели с параметрами, зависящими от языка (всего 3 миллиарда), мы предоставляем преимущества больших моделей, а также возможность изучения специализированных слоев для разных языков.
В течение многих лет исследователи искусственного интеллекта работали над созданием единой универсальной модели, способной понимать все языки при выполнении различных задач. Единая модель, поддерживающая все языки, диалекты и модальности, поможет нам лучше обслуживать больше людей, обновлять переводы и в равной степени создавать новые впечатления для миллиардов людей. Эта работа приближает нас к этой цели.
В рамках этих усилий мы наблюдаем невероятно быстрый прогресс в предварительно обученных языковых моделях, тонкой настройке и методах самоконтроля. Это коллективное исследование может еще больше улучшить то, как наша система понимает текст для языков с низким уровнем ресурсов, используя немаркированные данные. Например, XLM-R — это наша мощная многоязычная модель, которая может обучаться на основе данных на одном языке, а затем выполнять задачу на 100 языках с высочайшей точностью. mBART — это один из первых методов предварительной подготовки полной модели для выполнения задач BART на многих языках. А совсем недавно наш новый подход с самоконтролем, CRISS, использует немаркированные данные из множества разных языков для анализа параллельных предложений на разных языках и обучения новых, более совершенных многоязычных моделей итеративным способом.
Мы продолжим улучшать нашу модель, используя передовые исследования, изучая способы ответственного развертывания систем машинного перевода и создавая более специализированные вычислительные архитектуры, необходимые для внедрения этого в производство.
Facebook автоматически переводит сообщения вашей Страницы и Группы
Рената Экине
19.6.2018
Сегодня большой день для администраторов Страницы Facebook и группы! Facebook запустил новую функцию, которая будет автоматически переводить ваши сообщения в Facebook.
Еще в 2016 году Facebook выпустил функцию, с помощью которой менеджеры страниц могли писать несколько версий поста на разных языках и отображать наиболее актуальные для своих поклонников на основе настроек своего приложения Facebook. Это новое «обновление» автоматически переведет обновления статуса вашей Страницы или группы для вас на любое количество языков, чтобы помочь вашей аудитории общаться на их родном языке.
Чтобы использовать эту функцию, перейдите на свою страницу Facebook и создайте новую публикацию (текст, фото или ссылку) на своем родном языке и нажмите «Написать публикацию на другом языке».
Затем нажмите «Выбрать» и выберите язык, на который вы хотите перевести сообщение. Имейте в виду, что вы можете выбрать не более трех языков!
Хотя Facebook предоставляет пользователям функцию автоматического перевода для просмотра обновлений статуса на их родном языке, они, как правило, не очень точны и в большинстве случаев вызывают у читателя ощущение «плохого» (авто)перевод. Вот почему Facebook позволяет вам редактировать их, чтобы вы могли сделать их более точными или добавить любую дополнительную информацию.
После того, как сообщение было опубликовано, вы даже можете вернуться и задним числом добавить другой язык.
У вас есть эта новая функция на вашей странице и/или в группе Facebook?
Renata Ekine
В Business Factory я работаю специалистом по маркетингу Facebook, помогая чешским и международным клиентам повышать эффективность их рекламы в Facebook.