Искусственный интеллект сегодня развивается стремительными темпами. В России, где насчитывается более 50 языков коренных народов, открывается уникальная возможность сохранить и развить это языковое разнообразие с помощью технологий ИИ. Именно об этом шла речь на панельной сессии «Сохранение языкового разнообразия с технологиями искусственного интеллекта» федерального форума «Цифровой алмаз», проходящем в г. Якутске 27-28 ноября.
Проекты СВФУ по цифровизации языка саха
Молодежная лаборатория «Вычислительные технологии и искусственный интеллект» ИМИ СВФУ им. М.К. Аммосова ведет масштабные работы по цифровизации языка саха, создавая инструменты для распознавания и синтеза речи, а также обработки естественного языка. Об этом рассказал руководитель лаборатории Сергей Степанов.
— Первоочередная задача — это распознавание книжных текстов на якутском языке. Это необходимо для оцифровки обширного книжного фонда, облегчения работы научных учреждений, таких как институт якутского языка, и обеспечения доступа к архивным материалам без нарушения авторских прав.
Второе важное направление — синтез речи. Разрабатываемый инструмент позволит компьютеру «говорить» на якутском языке, что необходимо для создания виртуальных ассистентов и других интеллектуальных систем, способных понимать и воспроизводить якутскую речь. Цель — добиться более чистого и естественного звучания, чем у существующих аналогов.
Наконец, лаборатория занимается распознаванием речи на якутском языке, что сталкивается с проблемой нехватки данных и аудиофайлов. Несмотря на это, команда активно собирает необходимые ресурсы для обучения моделей машинного обучения, надеясь на улучшение качества распознавания в будущем. Кроме того, лаборатория работает с большими языковыми моделями, планируя сделать свои разработки общедоступными. Уже сейчас можно найти датасеты для обучения моделей, а также ознакомиться с результатами работы лаборатории в «сыром» виде, — поделился с разработками лаборатории СВФУ Сергей.

Цифровые решения для поддержки родных языков
Ферида Арония, начальник отдела поддержки и реализации языковых проектов ФГБУ «Дом народов России«, рассказала о ключевых проектах в сфере поддержки языкового многообразия в стране. ФГБУ «Дом народов России» активно участвует в мероприятиях международного десятилетия языков, координатором которых выступает федеральное агентство.
Основные направления деятельности организации — культура, образование и цифровизация родных языков. Особый акцент делается на цифровизации, также оказывается информационная поддержка и реализуются социально-просветительские проекты. Кроме того, организация занимается поддержкой и продвижением русского языка за рубежом.
В рамках работы по цифровизации родных языков, в 2023 году был инициирован проект с компанией «Яндекс» по включению языков народов России в сервис «Яндекс Переводчик». На сегодняшний день в работе задействовано более 30 языков из около 20 субъектов РФ. Благодаря этому проекту в 2024 году в «Яндекс Переводчике» появились осетинский, тувинский, коми, мокшанский и эрзянский языки. В текущем году добавлены кабардино-черкесский, карачаево-балкарский и бурятский языки. До конца года планируется добавление еще трех языков. Также улучшен перевод для чувашского, удмуртского и марийского языков, и добавлены технологии синтеза и распознавания речи для башкирского, марийского, чувашского и удмуртского языков.
С прошлого года «Дом народов России» совместно с «Яндексом» проводит стратегическую сессию «Информационные технологии и языки народов России», которая станет традиционной.
— В 2025 году инициирован проект по обучению нейросетей языкам народов России совместно с компанией «Сбербанк» при поддержке Федерального агентства по делам национальностей. В проекте участвуют 16 субъектов и около 20 языков. Кроме того, организация активно участвует в вопросах информационной поддержки родных языков, организовывая секции и обсуждения на крупных площадках, таких как ПМЭФ, ВЭФ и Международный муниципальный форум БРИКС. Поддерживаются социально-просветительские проекты, такие как конкурсы «Ключевое слово». В 2024 году был поддержан Всероссийский диктант, организованный Ассоциацией коренных малочисленных народов Севера, Сибири и Дальнего Востока, с подключением русского и других языков народов России. В 2023 году была направлена заявка в международный стандарт Юникод на включение символов языков народов России, отсутствующих в кириллической зоне. Вопрос о сроках внесения пока остается открытым в связи с геополитической обстановкой, но рабочее взаимодействие продолжается, — рассказала федеральный спикер.
Проект «Аяна»: цифровое сохранение языков КМН
В 2021 году стартовал проект «Аяна», цель которого – сохранение языкового наследия коренных малочисленных народов Севера посредством инновационных технологий. Ключевым результатом стала разработка роботизированного переводчика «Аяна», доступного в приложениях для iOS и Android. Проект охватывает шесть языков КМН, а также якутский, для которых создаются специальные лингвистические базы данных (корпуса). Идет активное внедрение переводчика в «умные» устройства, формируя цифровую среду родного языка.
Разработчик проекта, Николай Апросимов (Красноярский край), подчеркивает проблему оттока молодежи из мест традиционного проживания: «Дети уезжают учиться в города и, к сожалению, часто не возвращаются. Язык исчезает из их жизни». Решением он видит создание полноценной цифровой среды, где родной язык будет органично интегрирован в повседневные технологии.
«Аяна» уже интегрирована в голосовых помощников «Алиса», «Маруся» и современные телевизоры, обеспечивая перевод и распознавание речи. Технология имитирует естественный диалог, преобразуя естественный язык в цифровой формат и обратно.
Сейчас проект сосредоточен на создании корпусов для нганасанского, ненецкого, долганского и якутского языков в Красноярском крае. В планах реализация амбициозного проекта «Умный чум», реализуемый в Красноярске.

Языковые проекты Национальной библиотеки Якутии: Сохраняя наследие в цифровом формате
Василий Борисов, ведущий библиотекарь Национальной библиотеки РС (Я), рассказал о ключевых проектах, направленных на сохранение и популяризацию якутского языка с использованием современных технологий.
Электронная библиотека. Фонд библиотеки постоянно пополняется благодаря работе Лаборатории оцифровки, которая ежедневно преобразует книги, 3D-модели и аудиоматериалы в цифровой формат. Ежегодная книговыдача составляет около миллиона. Интегрированный модуль «Текст в речь» позволяет пользователям не только читать, но и слушать книги на якутском языке.
Телеграм-бот и электронное издательство. Библиотека активно использует технологии для облегчения работы с материалами, в том числе с аудиозаписями. Разработан Телеграм-бот Саҥа-сурук nlrs_stt_bot, который распознает якутскую речь. Электронное издательство библиотеки пользуется большим спросом, помогая переводить, расшифровывать аудиоматериалы в текст.
Проект Text.nlrs. Республиканская разработка, созданная на якутском языке, позволяет собирать аудиозаписи для обучения моделей искусственного интеллекта. Проект разработан с учетом требований Роскомнадзора и не предполагает идентификации пользователей. Пользователи могут записывать и оценивать тексты, помогая улучшать качество моделей. В настоящее время собрано более 13 тыс. записей.
Проект Term.nlrs. Портал для сбора народных терминов, предлагающий пользователям добавлять термины, определения и примеры использования. Собранные данные могут быть использованы для обучения моделей искусственного интеллекта.
Сегодняшняя встреча позволила узнать больше о командах и проектах, объединенных общей целью — сохранением и развитием языкового наследия. Обмен контактами и налаживание связей станет залогом дальнейшего плодотворного сотрудничества.
keskil14.ru
