
Современные нейросети добились впечатляющей точности в переводе текстов, однако их стиль часто бывает излишне формальным. Например, в разговорной ситуации фраза "sorry, my bad" может переводиться как "приношу извинения, это моя вина" вместо естественного "извини, ошиблась". Хотя пользователь легко заметит такую неестественность, существующие метрики оценки качества перевода не улавливают этих нюансов. Новейшая разработка помогает устранить это упущение.
Представляем RATE: Метрика нового поколения
Ответом Яндекса на этот вызов стала система RATE (Refined Assessment for Translation Evaluation), предлагающая принципиально новый подход к оценке. Ее главная ценность — способность с высокой точностью указывать на конкретные недостатки в работе современных моделей машинного перевода. Это знание показывают путь к тому, чтобы сделать переводы не только точнее, но и неизмеримо естественнее для пользователя.
Признание на EMNLP 2025
Значимость разработки получила мировое подтверждение: представленный на престижнейшей конференции EMNLP 2025 доклад о RATE был замечен и оценён академическим сообществом. Форум собрал ведущие исследовательские центры планеты, включая Microsoft Research, Google Research, OpenAI, Anthropic, Amazon, Baidu, Alibaba, Huawei, Samsung Research, NVIDIA Research, Intel Labs, IBM Research, Bloomberg, Adobe Research и Qualcomm Research.
Три кита идеального перевода
Чем RATE принципиально лучше? Метрика оценивает перевод комплексно по трем ключевым критериям: точность передачи смысла, естественность языка и сохранение стиля оригинала. Эта универсальность делает RATE применимой к любым текстам: она проверяет точность фактов в новостях, выявляет неуместный официоз в соцсетях и строго оценивает стиль и плавность речи в литературе. Важно, что система не просто фиксирует погрешность, но и определяет ее критичность — от незначительной неточности до существенного искажения.
Глубина анализа против существующих решений
При создании RATE учитывались недостатки альтернативных метрик. Предыдущие методы, включая MQM (Multidimensional Quality Metrics) и ESA (Error Span Annotation), либо слишком громоздки, либо выявляют лишь самые грубые ошибки. Их главный пробел — невозможность оценить естественность перевода, что является ключевым фактором для восприятия со стороны человека.
Лидерство доказано сравнением
Тестирование на данных мирового эталонного конкурса WMT продемонстрировало впечатляющее превосходство RATE: она выявила в семь раз больше погрешностей, чем MQM и ESA! Авторитетные ИИ-тренеры, оценивавшие результаты эксперимента, подтвердили: множество нюансов, замеченных рядовыми пользователями, традиционные метрики просто игнорируют.
Путь к совершенству языка
Тесты также показали огромный прогресс в точности современных моделей машинного перевода. Лидерство в естественности и плавности по-прежнему удерживает человеческий перевод, однако языковые модели Яндекса уже существенно приблизились к эталону, опережая такие известные решения, как Claude-3.5 и GPT-4.
Система RATE активно используется Яндексом для совершенствования своих алгоритмов, адаптируя переводы под задачи от деловой корреспонденции до дружеского обсуждения. Она открывает новые горизонты для исследователей в создании алгоритмов, которые точно воспроизводят живую человеческую речь.
Источник: naked-science.ru





