Технология обеспечит повышенную безопасность при обучении искусственного интеллекта
На международном симпозиуме по распознаванию образов SPRA 2024, состоявшемся в середине ноября в Стамбуле, отечественные специалисты презентовали революционную технологию создания синтетических данных. Инновация призвана оптимизировать процесс обучения искусственного интеллекта, сделав его максимально эффективным и безопасным.
SPRA, проводимый с 2020 года, традиционно собирает ведущих экспертов в области компьютерного зрения, технологий распознавания и глубокого обучения. На юбилейной встрече участники обменялись опытом и обсудили последние достижения в этих перспективных направлениях.
Отечественная команда представила восемь научных разработок, включая инновационные методы борьбы с артефактами при томографической реконструкции и усовершенствованные алгоритмы распознавания поврежденных QR-кодов. Особое внимание привлек уникальный метод создания полусинтетических двумерных штрихкодов, не требующий использования реальных персональных данных. Эта технология позволяет формировать безопасные датасеты, идентичные реальным образцам.
Новый метод открывает широкие возможности для создания практически неограниченного количества обучающих данных, что критически важно для развития действительно эффективных нейросетей. При этом генерируемые штрихкоды могут содержать различные особенности — блики, засветы, заломы, что делает их максимально приближенными к реальным условиям использования.
Особую ценность разработка представляет с точки зрения информационной безопасности. При обучении искусственного интеллекта традиционным способом существует риск утечки конфиденциальных данных в случае взлома системы. Новый метод минимизирует эти риски, используя синтетические данные вместо реальных.
Созданный на основе инновационной технологии датасет уже успешно применяется в практических разработках. Он включает штрихкоды всех существующих типов в различных условиях считывания, что делает его наиболее полным и эффективным среди аналогичных баз данных.
Использование синтетических данных в машинном обучении становится общемировым трендом, позволяющим оптимизировать временные и ресурсные затраты при сохранении высокого уровня безопасности. Особенно актуально это в сфере распознавания документов, где конфиденциальность информации играет критическую роль.
Представленная технология демонстрирует значительный прогресс в развитии безопасных методов обучения искусственного интеллекта и открывает новые перспективы в области компьютерного зрения и распознавания данных.
Источник:www.kommersant.ru