«Яндекс» перешёл на гибридную систему перевода с помощью нейросетей
Приложения для перевода текста сделали жизнь многих людей проще, позволяя им общаться с жителями других стран и читать информацию на разных языках без необходимости их изучения. Но не секрет, что качество такого перевода зачастую оставляет желать лучшего. Поэтому компания «Яндекс» запустила в фирменном сервисе «Яндекс.Переводчик» гибридную систему перевода. К статистическому переводчику была добавлена технология перевода на основе нейронной сети. Таким образом, перевод выполняется сразу двумя системами, а затем алгоритм на основе метода машинного обучения CatBoost сравнивает результаты и предлагает лучший.
Статистический переводчик переводит каждое слово и фразы по отдельности, поэтому в результате получается несвязанный текст. Нейросети же наоборот обрабатывают целые предложения. За счёт этого переведённый текст более точен и понятен. Статистический переводчик так не умеет, но зато он хорошо запоминает и переводит редкие и сложные слова и фразы. Работая вместе, обе системы компенсируют недостатки друг друга.
Статистический перевод
Сотрудники «Яндекс» отмечают, что существует много способов обучить машину переводу с одного языка на другой. Например, можно дать ей словари, из которых она освоит правила. Также можно показать ей много параллельных текстов. Сравнивая их, машина научится находить соответствия — например, так она поймёт что слова «dog» и «собака» являются вероятными переводами друг друга. В основе такого подхода лежат не правила, а статистика, откуда и пошло название этого метода.
С момента запуска «Яндекс.Переводчик» использовал только статистическую систему. При переводе она разделяет предложения на отдельные части и для каждой подбирает все возможные переводы с указанием их вероятности. Затем система составляет из переведённых фрагментов разные варианты нового предложения. Пользователю выводится тот, который содержит переводы с высокими вероятностями и в котором фрагменты хорошо сочетаются друг с другом.
Нейросетевой перевод
Как и статистический переводчик, нейронная сеть анализирует массив параллельных текстов и учится находить в них закономерности. При этом процесс самого перевода устроен несколько по-другому. Нейросеть работает не со словами и фразами, а сразу с целыми предложениями. Она получает на вход предложение на одном языке, а на выходе выдаёт предложение на другом языке. Такой подход позволяет учесть смысловые связи внутри предложения. Нейросеть улавливает суть предложения даже в том случае, когда слова, которые её передают, находятся в разных частях предложения.
Гибридная система
У нейросетевого перевода также есть ряд недостатков. Если нейронная сеть не может по какой-то причине перевести то или иное предложение, то она попросту начнёт предлагать что-то максимально подходящее, пытаясь угадать правильный ответ. Также нейросетевой перевод не всегда хорошо справляется с переводом мало распространённых имён, топонимов и других редких слов.
Комбинация преимуществ статистического нейросетевого методов позволяет существенно повысить качество перевода.
«Алиса» — российский голосовой помощник от «Яндекса»
Компания «Яндекс» запустила фирменного голосового помощника под названием «Алиса», который стал аналогом Google Assistant и Siri. По заверениям разработчиков, это первый ассистент, который не ограничен набором заранее записанных ответов. В его основе лежит нейронная сеть, обученная на огромном массиве текстов. За счёт этого с «Алисой» можно разговаривать как с обычным человеком. Например, спросить ассистента «Где поблизости выпить кофе?», чтобы увидеть список подходящих мест, а затем на запрос «Отлично, а как туда пройти?» получить построенный маршрут в Яндекс.Картах.
«Мы хотели, чтобы "Алиса" говорила с людьми на их языке, а не приучала к своему, как это делали компьютерные интерфейсы в прошлом. Для этого в первую очередь необходимо, чтобы она понимала настоящую человеческую речь, а не только идеально произнесённые запросы. Это было одним из приоритетов при разработке "Алисы", и сейчас, согласно нашим измерениям, она — лучшая из голосовых помощников по распознаванию русской речи. По метрике WER "Алиса" распознаёт речь с точностью, близкой к человеческой», — рассказал Денис Филиппов, руководитель направления речевых технологий Яндекса.
«Алиса» умеет обрабатывать неполные фразы, учитывает контекст ранее сказанного и даже способна импровизировать, отвечая на неожиданные вопросы. Для распознания речи, определения значения сказанного и синтеза голоса «Алиса» использует технологию SpeechKit.
Помощник разговаривает голосом актрисы Татьяны Шитовой, известной по озвучке персонажей Скарлетт Йоханссон в российском прокате. «Алису» обучали на записях Шитовой с помощью нейросети, которая склеивает звуки в слова и подбирает интонацию. В результате речь ассистента получилась более живой и естественной.
На данный момент «Алиса» умеет работать с несколькими продуктами Яндекса, включая «Поиск», «Карты», «Музыку» и «Погоду». В будущем помощник сможет взаимодействовать с другими сервисами. А в перспективе и прочие компании смогут дать «Алисе» доступ к своим сервисам. Уже сейчас помощник умеет запускать сторонние приложения.
Поговорить с «Алисой» можно в мобильном приложении Яндекс и бета-версии «Голосового помощника для Windows». В скором времени она появится в Яндекс.Браузере, а затем и в других продуктах компании.
В рамках специального мероприятия компания «Яндекс» представила обновлённый поиск, получивший название «Андромеда». По словам разработчиков, он включает более тысячи изменений: переработанный алгоритм поиска, быстрые ответы, выбор источников, коллекции. Также были показаны новые устройства с поддержкой голосового помощника «Алиса».
«С момента предыдущего обновления поиска, когда мы запустили алгоритм "Королёв", наша доля постоянно растёт — на десктопе она выросла на 2,5%, на мобильных — на 6%. Качество поиска — один из важных факторов роста доли. И сегодня мы представляем новое масштабное обновление, в которое вошло более тысячи улучшений. Над ними наша команда поиска работала больше года», — рассказал Андрей Стыскин, руководитель «Поиска Яндекса».
В обновлённом поиске быстрые ответы стали разнообразнее. Теперь с их помощью можно узнать не только факты, но и где поесть, чем известна та или иная знаменитость, о чём пишут медиа и что происходит в хоккее или футболе. Например, по запросу «чемпионат испании» прямо в результатах поиска появится турнирная таблица, расписание матчей, новости и видео — человеку не придётся искать всё это по разным сайтам. А по запросу «кафе» будет предложена целая подборка — с рейтингом, ценами и отзывами.
Также в результатах поиска появились ответы знатоков — это новый сервис «Яндекса», где эксперты в разных областях отвечают на вопросы. Например, они подскажут, «почему электроны не падают на ядро». Если человек не найдёт ответ на вопрос, он может задать его знатокам прямо в поиске.
Чтобы люди видели в результатах поиска сайты, которые лучше всего ответят на их вопрос, компания обновила формулу ранжирования. Она стала в большей степени учитывать качество ресурса: насколько хорошо он решает задачи пользователей, часто ли они туда возвращаются и есть ли раздражающая реклама. В поиске теперь доступны также отзывы на фильмы, игры, рестораны и другие заведения.
Кроме того, в выдаче появились метки, которые помогают выбрать сайт. Самые посещаемые ресурсы теперь отмечены значком «Популярный сайт», а сайты с высокой степенью вовлечённости и лояльности посетителей — значком «Выбор пользователей». Особую отметку получили официальные порталы — сайты банков из реестра ЦБ РФ и государственные ресурсы вроде gosuslugi.ru или гибдд.рф.
Обновлённый поиск позволяет в один клик сохранить любой понравившийся контент: ссылки, фильмы, видео, места или картинки. Всё это попадает в новый сервис «Яндекс.Коллекции» и будет доступно на любом устройстве с приложением «Яндекс». Например, человек сможет собрать там коллекцию видеоклипов или фото свадебных платьев.
В «Яндекс.Коллекциях» можно не только собирать коллекции, но и подписываться на чужие по интересующим темам прямо через поиск: например, можно легко найти подборку причёсок или интерьеров квартир.
Помимо презентации обновлённого поиска компания «Яндекс» показала новые устройства с поддержкой голосового помощника «Алиса»: смарт-колонки Irbis A и DEXP Smartbox.
В отличие от «Яндекс.Станции», Irbis A и Dexp Smartbox гораздо компактнее и не имеют разъёма HDMI для подключения к телевизору, а значит взаимодействовать с «Алисой» можно только с помощью голосовых команд. По заверениям «Яндекс», новые колонки без проблем услышат владельца с другого конца комнаты. Оба устройства работают от электрической сети. Их также можно подключать к внешней акустике: DEXP Smartbox — по Bluetooth, а IRBIS A — проводом.
«Умные помощники — это уже не будущее, они прочно входят в нашу жизнь. Например, пользователи "Яндекс.Станции" уже сейчас обращаются к ней в среднем 20 раз в день, — говорит директор по экспериментальным продуктам Яндекса Константин Круглов. — Чтобы таких помощников стало больше, мы создали платформу Yandex.IO, которая позволяет производителю самому сделать свой продукт "умным". Сегодня мы рады представить первые устройства, созданные нашими партнёрами на этой платформе».
Смарт-колонки Irbis A и Dexp Smartbox с поддержкой голосового помощника «Алиса» в скором времени поступят в продажу в «М.Видео» и DNS по цене 3290 рублей. Первые покупатели получат полгода бесплатной подписки на сервис «Яндекс.Плюс».
Компания «Яндекс» объявила о расширении функциональности сервиса «Яндекс.Эфир». Теперь пользователи площадки могут не только просматривать телепередачи, фильмы, сериалы и мультфильмы, но и принимать участие в создании и размещении контента. Разработчики предусмотрели для авторов возможность заработка на качественных и интересных видеороликах посредством монетизации.
Сейчас в «Яндекс.Эфире» доступно более 200 тематических каналов. Благодаря внедрению возможности публиковать видеоролики, компания планирует существенно расширить аудиторию площадки. Представители «Яндекса» отметили, что размещать видео могут не только популярные видеоблогеры, но и рядовые пользователи. Главным требованием со стороны сервиса остаётся загрузка контента высокого качества.
Цензоры «Яндекс.Эфира» будут регулярно оценивать новые видеоролики, а лучшие из них появятся на тематических каналах платформы и главной странице «Яндекса». Контент от блогеров «Яндекс.Дзена» будет автоматически доступен в «Яндекс.Эфире».
В качестве способов монетизации «Яндекс.Эфир» предложит показ мультироллов и нативную интеграцию брендов в контент. Талантливые авторы могут рассчитывать на финансовую поддержку со стороны «Яндекса», а также помощь при создании и продвижении видеороликов.