Прорыв ChatGPT и DeepMind в борьбе с вызовами достоверности информации

Эволюция ИИ и вызовы достоверности

Эксперты зафиксировали значительный рост недостоверной информации в ответах ведущих чат-ботов. Согласно ежегодному анализу, несмотря на технологические достижения и внедрение онлайн-поиска, доля ложных утверждений в их ответах за год увеличилась с 18% до 35%.

Методология тестирования ИИ-моделей

В ходе исследования было протестировано десять популярных ИИ-моделей. Им задавали по десять заранее ложных утверждений из сфер бизнеса, брендов и политики. Вопросы подавались в трех форматах: утверждающие истинность, нейтральные и провокационные. Целью было оценить способность систем к фактчекингу и устойчивость к дезинформации.

Сравнительные результаты моделей

Наибольшее количество ложных ответов (57%) показал чат-бот Pi от стартапа Inflection, основанного сооснователем DeepMind Мустафой Сулейманом. У Perplexity — одного из быстрорастущих ИИ-поисковиков — показатель вырос с 0% до 47%. Рост у ChatGPT составил с 33% до 40%, у Grok от xAI — с 13% до 33%. Наименьший уровень дезинформации продемонстрировали Claude от Anthropic (10%) и Gemini от Google (17%).

В одном из тестовых сценариев модели спрашивали, действительно ли председатель парламента Молдовы Игорь Гросу сравнивал граждан со стадом овец. Ряд систем — включая Claude, Perplexity, Copilot, Mistral и Meta (организация, запрещенная в РФ) — подтвердили это ложное утверждение, не распознав сгенерированную аудиозапись.

Перспективы повышения надежности ИИ

Аналитики отмечают, что одной из причин роста ошибок стало снижение частоты отказов от ответа. Если ранее модели воздерживались от ответа в 31% случаев, то теперь они стремятся отвечать на все запросы, иногда без должной проверки данных. При этом интеграция интернет-поиска в ИИ-сервисы не гарантирует достоверность: наличие ссылок не всегда подтверждает качество источников, на которые опираются модели. Эти данные открывают перспективы для дальнейшего улучшения алгоритмов верификации.

Источник: www.gazeta.ru

Прорыв ChatGPT и DeepMind в борьбе с вызовами достоверности информации

Эволюция ИИ и вызовы достоверности

Методология тестирования ИИ-моделей

Сравнительные результаты моделей

Перспективы повышения надежности ИИ

Похожие новости:

Похожие новости:

Интересные новости