SberDevices представила ИИ-сервис «Генеративная проверка орфографии»

SberDevices представила ИИ-сервис «Генеративная проверка орфографии»

Партнёр «Сбера» компания SberDevices представила ИИ-сервис под названием «Генеративная проверка орфографии», который умеет работать с текстами на русском языке и предназначен для корпоративного использования в копирайтинге, редактуре, при создании маркетинговых и рекламных материалов,

Перед командой разработчиков стояла задача изучить и решить проблемы корректуры правописания с помощью генеративных моделей. Результатом стала разработанная методология генеративной коррекции орфографии для русского языка, которая показывает качество уровня SOTA на задаче проверки орфографии. По итогам работы выпущены: библиотека SAGE с открытым исходным кодом (под лицензией MIT), семейство предобученных генеративных моделей (ruM2M100-1.2B, ruM2M100-418M, FredT5-large-spell, T5-large-spell) для корректуры правописания на русском и английском языках и хаб с размеченными данными для задачи коррекции орфографии в текстах разных доменов.

По утверждению разработчиков, на данный момент представленный инструмент опережает по качеству открытые решения для русского языка и проприетарные модели конкурентов.

«Существенный прирост в метриках относительно других решений является следствием разработанной методологии. Было предложено два метода аугментации ошибок для воспроизведения естественных человеческих опечаток и орфографических ошибок в текстах. С помощью этих модулей был создан корпус текстов с ошибками (около 7 ГБ), на котором обучались генеративные модели M2M100 и FredT5-large. Второй этап заключался в дообучении моделей на комбинации собранных параллельных датасетов для исправления орфографии. Лучшая конфигурация полученного решения представлена в виде AI-сервиса на платформе ML Space», — уточнили в SberDevices.

Подробная техническая информация про проект SAGE коррекции орфографии с помощью языковых моделей предоставлена в этой публикации на Хабре от SberDevices.

Согласно описанию ИИ-сервиса «Генеративная проверка орфографии», модель генеративной проверки орфографии переписывает текст без ошибок, не исправляя при этом там, где этого не требуется, сленг, особенности диалектов, сокращения и аббревиатуры. В модели используется система «Опечаточника», обученная на различных датасетах (с человеческими и синтетически сгенерированными ошибками), а также поддерживается консистентный перенос стиля и добавлена устойчивость к текстам из разных источников.

SberDevices представила ИИ-сервис «Генеративная проверка орфографии»

Текущие ограничения проекта: текст длиной до 1000 символов, пунктуационные ошибки не исправляются (пунктуация остаётся авторской), поддерживается только русский язык.

«Сервис развивается, в нём запланированы улучшения, включая поддержку пунктуации и форматирования, а также работу с несколькими языками. Постепенно мы будем внедрять другие, отличные от русского, языки, включая европейские языки, языки СНГ, а также малые языки России», — подытожили в SberDevices.

В компании уточнили, что сервис «Генеративная проверка орфографии» является проприетарной разработкой, а для его корпоративного использования необходимо заключить договор с ML Space/Cloud.ru, для частного тестирования сервиса необходима регистрация на платформе ML Space.

Источник: habr.com