Как работает гугл переводчик
Перейти к содержимому

Как работает гугл переводчик

  • автор:

Как пользоваться гугл переводчиком в мобильных приложениях

Большая часть приложений, доступных в магазине Google Play, ориентированы на международную аудиторию и имеют функцию, обеспечивающую поддержку самых разнообразных языков. Благодаря этому пользователи имеют возможность пользоваться разнообразными приложениями, даже когда появляется необходимость перевести слово или текст с одного языка на другой.

Как пользоваться гугл переводчиком в Android-приложениях?

Основная причина использования специализированных программ для перевода – это языковой барьер. Всякий раз, когда попадается незнакомое иностранное слово, его можно набрать в электронном переводчике и понять его смысл. Также с помощью электронного переводчика можно донести смысл до собеседника из другой страны, который общается с вами на иностранном языке. А еще можно увидеть русский перевод всех надписей в англоязычной программе, но есть определенные ограничения.

У обновленного Google Translate уже имеется встроенный функционал для перевода, в любых имеющихся приложениях. Эта функция называется «Tap to translate». Чтобы включить ее необходимо сделать следующее:

  • Установить Google-переводчик;
  • Запустить его;
  • Перейти в меню «Настройки»;
  • Выбрать пункт «Быстрый перевод» и включить;
  • Дать разрешение на то, чтобы приложение могло появляться поверх других окон;
  • Зайти в любое Android-приложение;
  • Выделить иностранный текст и кликнуть по появившейся кнопке, на которой будет написано: «Google-переводчик».

После выполнения этих действий должно появиться окно, в котором будет продемонстрирован перевод.

На приведенных ниже картинках показано как включить эту возможность, и как осуществляется перевод.

Как пользоваться гугл переводчиком в Android-приложениях?

Как пользоваться гугл переводчиком в Android-приложениях? - 2

Внимание! Здесь имеются некоторые ограничения. Дело в том, что описанным выше способом, можно осуществить только перевод текста, который можно выделить и скопировать. Но иногда бывают случаи, например, в играх, когда слова не выделяются, так как они нарисованные. Новые настройки позволяют осуществить перевод сразу же, без необходимости копирования исходного текста, достаточно задействовать опцию «Перевести».

Другие методы перевода в Google Translate

Google-переводчик может работать не только со вставленным текстом и словами, вводимыми с клавиатуры. Есть и другие способы, позволяющие узнать значение незнакомых иностранных слов.

Ввод прописного текста

Для того чтобы воспользоваться данной функцией, необходимо кликнуть по иконке «Карандаш», которая располагается в нижней части окна. Далее при помощи мышки, зажав ее левую кнопку, необходимо написать слово, которое нужно перевести. В мобильном приложении Google Translate надо нажать на «карандаш» или «ручку», а затем написать нужное слово или фразу пальцем на экране. На приведенном ниже скриншоте показано как работает эта функция.

Ввод прописного текста

При помощи камеры

Некоторые мобильные приложения включают в себя функционал, позволяющий осуществить перевод при помощи камеры. Для этого нужно навести ее на надпись и в режиме реального времени на экране мобильного устройства отобразиться уже готовый перевод. Этот способ особенно полезен в тех случаях, когда путешественникам встречаются непонятные вывески и знаки.

На скриншотах, приведенных ниже, продемонстрирован принцип действия этого метода

Вот исходный вариант

При помощи камеры

При помощи камеры - 2

Голосовой ввод

Google-переводчик предоставляет полезную функцию, позволяющую перевести фразу, которая была произнесена. Она использует режим синхронного перевода. Приложение сначала слушает речь, а затем воспроизводит ее в текстовом и аудио формате. Для того чтобы воспользоваться этой опцией необходимо кликнуть по значку «Микрофон» и выбрать то с какого языка будет восприниматься речь и на какой язык ее нужно будет перевести.

Работа в режиме Offline

Для того чтобы программа-переводчик работала действительно хорошо нужно иметь стабильный скоростной интернет. Однако приложение Google Translate может работать и в режиме offline, что очень удобно. Для задействования этой функции необходимо сделать следующее:

  • Зайти в меню «Настройки»;
  • Кликнуть по пункту «оффлайн-языки»;
  • После открытия окна поставить галочки напротив необходимых языков;
  • Дождаться когда словарь будет загружен.

Важно! Перевод, осуществляемый в режиме offline, имеет недостаток. Дело в том, что соответствующая база данных обновляется гораздо реже, чем при использовании словаря в режиме Online. Кроме того при работе в режиме offline не будет доступна функция, которая переводит слова при их произношении

Требования к системным параметрам мобильного устройства

Чтобы Google-переводчик действительно быстро и эффективно необходимы следующие параметры:

Название Технические параметры
Процессор 2 ядра и более
Разрешение камеры Не менее 5 Мп
Диагональ экрана От 4 дюймов
Ёмкость аккумулятора От 1800 мАч
Объем оперативной памяти От 512 Мб
Интернет-соединение 3G, Wi-Fi

Применение Google-переводчика в мобильных приложениях имеет следующие преимущества:

  • Удобный интерфейс;
  • Простая в использовании система перевода;
  • Поддержка более 100 языков;
  • Двухсторонний голосовой перевод;
  • Возможность понять смысл иностранных слов и надписей при помощи камеры мобильного устройства;
  • Альтернативные методы ввода слов, которые необходимо перевести.

Это действительно замечательная возможность, которая позволяет пользователям преодолеть языковый барьер и непонимание в туристических поездках или на важных встречах с иностранцами.

Пожалуйста, опубликуйте ваши комментарии по текущей теме материала. Мы крайне благодарны вам за ваши комментарии, лайки, подписки, отклики, дизлайки!

Почему Google Переводчик и аналоги работают неидеально: как устроены их алгоритмы

Почему Google Переводчик и аналоги работают неидеально: как устроены их алгоритмы

Над автоматическими переводчиками начали работать ещё в середине XX века. После одного из успешных экспериментов в газетах писали, что скоро ручной перевод будет не нужен — переводчиков-людей заменят машины. С тех пор прошло 70 лет, но автоматический перевод всё ещё делает глупые и грубые ошибки. Что с ним не так?

Почему раньше онлайн-переводчиками было невозможно пользоваться без смеха

Ещё 5-7 лет назад любой онлайн-переводчик выдавал наборы фраз, в которых с трудом можно было уловить смысл текста. Если вы переводили с иностранного языка на родной, то это можно было исправить. Но при переводе с родного языка на иностранный сразу было видно, что поработал Google Translate или другой переводчик. Виной всему была сама технология — статистический машинный перевод.

Чтобы лучше понимать, почему переводчики раньше были такими топорными, давайте коротко пройдёмся по основным технологиям, которые использовались для обработки текстов на разных языках. Работа над автоматизированными системами перевода начались ещё в середине XX века. Сначала в них использовали правила, которые составляли лингвисты. Их количество было огромным, а результат работы всё равно провальным. Переводчики не справлялись с многозначными словами и не понимали устойчивые выражения.

Разочарование от первых систем перевода было таким большим, что почти 30 лет никто не вкладывал в эту сферу большие деньги. Всё изменилось в начале 1990-х годов, когда одна из исследовательских групп компании IBM разработала новую переводную модель. Ключевая идея технологии — концепция канала с ошибками, которая рассматривает текст на языке A как зашифрованный текст на языке Б. Задача переводчика — расшифровать фрагмент.

Основой для модели IBM стали документы канадского правительства, написанные на английском и французском языках. Именно эта пара стала первой, над которой стали работать специалисты. Они собрали вероятности для всех сочетаний слов определённой длины на одном языке и вероятности для соответствия каждого из таких сочетаний сочетанию на другом языке. Фактически алгоритм пытается найти самую частотную фразу на языке А, которая имеет хоть какое-то отношение к фразе на языке Б.

Система статистического машинного перевода IBM стала прорывной. С появлением интернета у специалистов появился доступ к огромному количеству данных на разных языках. Исследователи сконцентрировались на сборе корпуса параллельных текстов — одинаковых документов, написанных на разных языках. Это протоколы международных организаций, научные материалы, публицистика. При их изучении устанавливалось соответствие предложений и слов. Например, при сравнении текстов на разных языках система понимает, что «cat» и «кошка» — вероятные переводы друг друга.

В статистической модели машинного перевода каждому слову и фразе соответствует числовой идентификатор, который определяет частоту использования в языке. При переводе предложение разбивается на независимые части. Для каждого элемента этого массива подбирается потенциальный перевод. Затем система собирает несколько вариантов предложения на другом языке и выбирает из них оптимальный с точки зрения сочетаемости слов.

Но машинный перевод всё равно работал неидеально. Главная проблема состояла в том, что слова и фразы переводились независимо. Переводчики не учитывали контекст и даже не согласовывали части предложения. Другая проблема — нехватка параллельных текстов. Из-за этого сложно установить соответствие. В качестве универсального связующего языка в статистическом машинном переводе используется английский.

Результат получается близким к натуральным, но даже в такой короткой цепочке могут возникнуть ошибки из-за многозначных слов.

Нейросети сделали перевод заметно лучше — иногда его сложно отличить от человеческого

Нейросети тоже анализируют массив параллельных текстов — в этом смысле ничего не изменилось. Но вместо простых идентификаторов при нейросетевом подходе используется векторное представление. Каждый вектор состоит из чисел, которые характеризуют слово по лексическим и семантическим признакам.

При статистическом машинном переводе исходное предложение разбивается на слова и фразы, после чего система ищет для них соответствие в другом языке. При нейросетевом переводе предложение переводится целиком. Оно превращается в векторное пространство, где у каждого слова есть вектор длиной в несколько сотен чисел. Нейросеть определяет взаимосвязь между словами, даже если они находятся в разных концах предложения. Поэтому перевод получается более натуральным.

Почему Google Переводчик и аналоги работают неидеально: как устроены их алгоритмы

Несмотря на появление нейросетевого подхода, от статистического машинного анализа пока полностью не отказались. Например, в Яндекс.Переводчике используется гибридная модель перевода, которая включает статистический и нейросетевой подходы. После обработки текста двумя моделями в работу включается алгоритм, который выбирает лучший вариант.

Перевод стал лучше, но всё ещё очень много ошибок. Нейросети не справляются?

Количество ошибок в переводе зависит от многих факторов. Среди них — родство языков и объём данных, на которых была обучена нейросеть.

Например, алгоритмы Google Translate обучали на языковых парах «английский — испанский» и «английский — французский». Судя по результатам исследования, профессиональные переводчики оценили качество обработки текста в этих парах почти на уровне человеческого перевода.

Почему Google Переводчик и аналоги работают неидеально: как устроены их алгоритмы

Чем ближе языки друг к другу по структуре, тем выше точность перевода. Но если взять языки из разных систем — например, русский и японский, то здесь универсальные переводчики начинают хромать.

При нейросетевом переводе тоже используется корпус параллельных текстов. Соответственно, сохраняется проблема с нехваткой данных. Если параллельных текстов не хватает для перевода, в ход идёт язык-посредник — английский. Из-за этого возникают неточности. Вы можете сами это легко проверить, если переведёте предложение последовательно на несколько языков.

Например, вот перевод одного из абзацев из этой статьи: русский — английский — монгольский — венгерский — русский. Было так:

«Количество ошибок в переводе зависит от многих факторов. Среди них — родство языков и объём данных, на которых была обучена нейросеть».

Почему Google Переводчик и аналоги работают неидеально: как устроены их алгоритмы

Перевод получился корявым. С другой стороны, это абсолютно бессмысленный эксперимент. Вряд ли в реальной жизни кому-то требуется такая цепочка. Но результаты проверки как раз показывают, что происходит с переводом, когда между языками не хватает параллельных текстов.

Как можно улучшить работу онлайн-переводчиков

По словам разработчиков из команды Яндекса по машинному переводу, один из перспективных путей улучшения качества переводчиков — усиление роли контекста. Он может включать предыдущее предложение, информацию о сущностях и лицах, упомянутых в тексте, сведения о том, из какого места на веб-странице взят фрагмент.

Любой специалист по переводу скажет, что чем больше контекста или справочной информации, тем проще обрабатывать текст. Это легко проверить. Когда вы учите язык и начинаете на нём читать книги или смотреть фильмы, то часть слов понимаете просто из контекста.

Как это работает на примере онлайн-переводчика? Самая очевидная ситуация — система при переводе обращает внимание на предыдущее предложение. Как минимум это позволяет решить проблему с местоимениями. Учитывая контекст предыдущего предложения, переводчик выбирает правильный род для подлежащего или дополнения.

Почему Google Переводчик и аналоги работают неидеально: как устроены их алгоритмы

Улучшить качество перевода помогает также добавление в обучающий массив аудио и видео. Сейчас разработчики собирают данные. Например, если в приложении Google Translate запустить режим «Преобразование речи в текст», то появится предупреждение о том, что сделанная вами аудиозапись будет отправлена на обработку в Google. Компания может хранить расшифровку аудио в течение определённого времени в целях улучшения «Переводчика».

Сложность обработки аудиозаписей в том, что в них часто нет контекста. Когда люди разговаривают друг с другом, даже через переводчика, они используют и другие способы коммуникации — например, жестикулируют. Однако добавление аудио всё равно приносит пользу — чем больше данных, тем точнее перевод.

Помогают сделать сервисы лучше и люди. Например, в Яндексе работает группа лингвистической экспертизы, в которую входят редакторы-эксперты и переводчики. Они передают тексты в выборку для машинного обучения.

Google предлагает пользователям стать участниками сообщества «Переводчика», чтобы улучшать качество переводов и добавлять новые языки. Участники сообщества проверяют переводы. Варианты с высокими оценками от специалистов показываются со специальным значком — вы наверняка его видели.

Почему Google Переводчик и аналоги работают неидеально: как устроены их алгоритмы

Внести свою лепту в развитие «Google Переводчика» может каждый. Например, можно нажать на кнопку «Редактировать перевод» и предложить свой вариант. Он будет отправлен на рассмотрение участникам сообщества. Если они проголосуют за ваш вариант как за корректный, то он станет основным в переводчике.

Чтобы голосовать за варианты перевода и добавлять свои фразы, нажмите на кнопку «Сообщество» на главной странице Google Translate. Система предложит выбрать два языка. После этого вы сможете выбирать корректные варианты и делать онлайн-переводчик лучше.

Почему Google Переводчик и аналоги работают неидеально: как устроены их алгоритмы

Сейчас работа Google Translate, Яндекс.Переводчика и других подобных сервисов всё ещё кажется неидеальной. Но если оглянуться назад, то они стали переводить тексты намного точнее. По крайней мере, их возможностей уже сейчас достаточно для того, чтобы свободно общаться с носителями разных языков.

Принцип работы онлайн-переводчика Google Translate

inteeu-comprintsip-raboty-onlajn-perevodchika-google-translate

Основными типами современного машинного текстового перевода являются статистический уникальный машинный перевод текста ( Statistical Machine Translation или SMT ) и перевод « по правилам » ( Rule — Based Machine Translation или RBMT ).

Переводчик Google Translate использует SMT . Особенностью Google Translate является метод перевода : он не основан на анализе правил грамматики , а основан на поиске соответствий языка между переводимым текстом и гигантским массивом сервиса , который состоит из слов , вносимых пользователем ранее во время их перевода . Данные блоки текста составляются из всех возможных достоверных источников . В качестве примера можно привести документы государственных организаций . Они являются одними из наиболее проверенных источников для базы данных . Преимущество заключается в том , что такие документы содержат информацию , доступную на многих языках .

Также для развития Google Translate важны книги . В настоящий момент известно , что « корпус » Google Translate обладает более чем триллионом слов . Так сервис активно использует пользовательский уникальный перевод для повышения качественных характеристик машинного текстового перевода путем занесения пользовательских варианций фраз в базу данных . Таким образом , такое сочетание способствует увеличению уровня качества генерации уникального текста .

Статистическому современный переводу необходим анализ параллельных языковых пар для осуществления генерации текста . Он самостоятельно приспосабливается к новой лексике . Система самостоятельно заносит в свою совершенную базу данных новые вариации перевода слов или словосочетаний , если они отличаются . Она хранит в памяти новые варианты возможного перевода и может использовать эти версии в будущем . Одним из главных достоинств SMT является то , что он обновляется и развивается параллельно с языком . То есть , если появляется новое слово или меняется его лексическое значение , то система распознает это и обновляет свою базу данных . И , как следствие , ускоряется « обучение » системы и совершенствуется качество генерации текста .

Но есть и значительный недостаток SMT . Этой системе необходимо высокопроизводительное аппаратное обеспечение . Для совершенствования программы требуется огромное число вычислений . Также для перевода SMT характерно то , что качество генерации текста полностью зависит от количества данных в корпусе сервиса . Чаще генерируемые сервисом вариации перевода текста оправдывает возложенные ожидания современного человека . Хотя предсказать заранее текстовое содержание , которое сгенерирует Google Translate , сложно .

Как работает нейросеть Google Translate

Как работает нейросеть Google Translate

Google Translate по праву считается машинным переводчиком № 1 в мире. Сервис поддерживает работу со 103 языками и каждый день обрабатывает около 500 миллионов запросов.

В 2016 году Google представила систему нейронного машинного перевода (GNMT), которая использует искусственную нейронную сеть для улучшения качества перевода.

Действительно ли перевод стал лучше с её помощью? Давайте узнаем!

Тонкости нейронного перевода: как это работает

Нейронная модель машинного перевода использует иные принципы работы с текстом, чем стандартный статистический метод перевода.

До появления нейронных сетей перевод проводился пословно — система переводила отдельные слова и фразы с учётом грамматики. Поэтому при сложных оборотах или длинных предложениях качество перевода оставляло желать лучшего.

GNMT же переводит предложение целиком, учитывая контекст. Система не запоминает сотни вариантов перевода фраз — она оперирует семантикой текста.

При переводе предложение разбивается на словарные сегменты. Затем с помощью специальных декодеров система определяет «вес» каждого сегмента в тексте. Далее вычисляется максимально вероятные значения и перевод сегментов. Последний этап — соединить переведённые сегменты с учётом грамматики.

Начните размещать официальную рекламу в Telegram Ads через click.ru

Бюджет от 12 000 ₽. Это гораздо дешевле, чем работать напрямую.

Для юрлиц и физлиц. Юрлица могут получить закрывающие документы, возместить НДС. Физлица — запустить рекламу без общения с менеджерами.

3 способа оплаты. Оплачивайте рекламу картой физического лица, с расчётного счета организации, электронными деньгами.

Отрывок из презентации GNMT, в котором показано, как нейронная сеть переводит предложение с китайского языка, разбивая его на смысловые сегменты

Как действует алгоритм переводчика

Чтобы понять принципы работы нейронного перевода от Google, давайте немного углубимся в технические детали.

В основе Google Neural Machine Translation лежит принцип работы рекуррентных двунаправленных нейронных сетей (Bidirectional Recurrent Neural Networks), работающих с матричными вычислениями вероятности.

Разберём подробнее, что всё это значит.

«Рекуррентный» говорит, что система вычисляет значение слова или фразы на основе предыдущих значений в последовательности. Именно это позволяет системе учитывать контекст и правильно выбирать среди разных вариантов перевода.

К примеру, в словосочетании «лук из красного дерева» слово «лук» система переведёт как «bow», а не «onion».

Двунаправленность означает, что нейросеть разделена на два потока — анализирующий и синтезирующий. Каждый поток состоит из восьми слоёв, которые и проводят векторный анализ.

Первый поток разбивает предложение на смысловые элементы и анализирует их, а второй высчитывает наиболее вероятный вариант перевода, исходя из контекста и модулей внимания.

Обратите внимание, что анализирующая сеть «читает» предложение не только слева направо, но и справа налево — это позволяет в полной мере понять контекст. Отдельно она формирует модуль внимания, с помощью которого второй поток понимает ценность отдельных смысловых фрагментов.

В нейронной системе наименьшим элементом является не слово, а фрагменты слова. Это позволяет сосредоточить вычислительные мощности не на словоформах, а на контексте и смыслах предложения. GNMT использует около 32 000 таких фрагментов. По словам разработчиков, это позволяет обеспечить высокую скорость и точность перевода без потребления чрезмерных вычислительных мощностей.

Анализ фрагментов сильно уменьшает риски неточного перевода слов и словосочетаний с различными суффиксами, префиксами и окончаниями.

Система самообучения позволяет нейронной сети с высокой точностью переводить даже те понятия, которые отсутствуют в общепринятых словарях — сленг, жаргонизмы или неологизмы.

Но это ещё не всё. Нейросеть может работать и побуквенно. К примеру, при транслитерации имен собственных с одного алфавита на другой.

Статистика: действительно ли стало лучше?

С момента запуска системы GNMT прошло 2 года, поэтому можно оценить результаты.

Почему именно сейчас? Дело в том, что нейронная система работает без установленной базы данных, и ей требуется время, чтобы построить и скорректировать методы перевода.

К примеру, настройка машинной модели перевода, которая использует статистические методы, занимает от 1 до 3 дней. При этом построение нейронной модели такого же размера займёт больше 3 недель.

Примечательно, что при увеличении базы время на обработку статистической модели растёт в арифметической прогрессии, а для нейронной сети — в геометрической. Чем больше база, тем больше разрыв во времени.

А если учесть, что Google Translate работает с 10 000 языковых пар (103 языка), то понятно, что адекватные итоги можно подводить только сейчас.

В ноябре 2016 года после полного окончания обучения системы и официального запуска аналитики Google представили подробный анализ результатов GNMT. Из него следует, что улучшения в точности перевода несущественные — в среднем 10%.

Наибольший прирост дали самые популярные языковые пары вроде испанский-английский или французский-английский — с результатом точности в 85–87%.

В 2017 компания Google проводила масштабные опросы пользователей Google Translate: их просили оценить 3 варианта переводов: машинный статистический, нейронный и человеческий. Здесь результаты оказались более интересными. Перевод с помощью нейросетей в некоторых языковых парах оказался очень приближён к человеческому.

Статистическая модель Нейронная сеть Человеческий перевод
Английский — Испанский 4,885 5,428 5,550
Английский — Французский 4,932 5,295 5,496
Английский — Китайский 4,035 4,594 4,987
Испанский — Английский 4,872 5,187 5,372
Французский — Английский 5,046 5,343 5,404
Китайский — Английский 3,694 4,263 4,636

За основу взята 6-балльная система оценивания качества перевода. 6 — максимальная оценка, 0 — минимальная

Как видите, качество перевода в языковых парах «английский-испанский» и «французский-английский» практически соответствует человеческому. Но это и не странно, ведь именно на этих языковых парах происходило глубокое обучение алгоритмов.

Вот те же результаты в графическом отображении, чтобы вы наглядно увидели разницу со стандартным машинным переводом.

С другими языковыми парами ситуация не такая радужная, но масштабного исследования по ним нет. Тем не менее, если со схожими по структуре языками нейронный перевод работает вполне хорошо, то с кардинально разными языковыми системами (например, японский и русский) перевод заметно уступает человеческому.

При этом стоит заметить, что разработчики при запуске нейронной сети не пытались достичь максимальной точности перевода. Всё потому, что он потребовал бы сложных эвристических конструкций, а это сильно снизило бы скорость работы системы. Разработчики постарались найти баланс между точностью и скоростью работы. На наше субъективное мнение, это у них получилось.

И небольшой бонус напоследок

Специалисты утверждают, что если нейронная система Google Translate научится оперировать не только текстами, но также и аудио- и видеофайлами, то в таком случае нужно ожидать резкий скачок в развитии машинного перевода. Первые шаги в этих сферах уже сделаны, активно ведутся разработки новых алгоритмов для анализа видео и аудио. Поэтому пользователи могут уже в ближайшие несколько лет ожидать новых сюрпризов от Google.

Добавить комментарий

Ваш адрес email не будет опубликован.