Softline помогла запустить русско-татарский нейросетевой машинный переводчик Института прикладной семиотики АН Татарстана
Ситуация
Институт прикладной семиотики Академии наук Татарстана занимается изучением широкого круга вопросов, связанных с применением технологии искусственного интеллекта. Для популяризации, сохранения и развития татарского языка и культуры организация разрабатывает и выпускает широкий спектр программных продуктов, среди которых — синтезатор татарской речи, приложения для мобильных устройств, электронный корпус татарского языка, общественно-политический тезаурус и электронный атлас народных говоров. Для реализации более масштабных проектов и задач, таких как машинный перевод, системы синтеза и анализа речи на основе искусственных нейронных сетей, требовались существенные вычислительные ресурсы, позволяющие эффективно обрабатывать большие массивы данных и оперативно получать результаты.
Предложенный Softline суперкомпьютер для искусственного интеллекта NVIDIA DGX-1 стал лучшим решением данного вопроса. Этот программно-аппаратный комплекс позволяет значительно сократить сроки реализации проектов в области искусственного интеллекта. Благодаря наличию готового к использованию программного стека NVIDIA для глубокого обучения, заказчик может начать работу с алгоритмами глубокого обучения всего за один день и при этом не расходовать временные ресурсы на интеграцию и настройку необходимой инфраструктуры.
Решение
Используя систему NVIDIA DGX-1, ученые Института прикладной семиотики АН РТ при участии специалистов машинного обучения Университета Иннополис и в партнерстве с АО «СМП-Нефтегаз» разработали и запустили общедоступный сервис translate.tatar, предназначенный для машинного перевода с русского языка на татарский и наоборот. В основе подхода лежит архитектура нейросети encoder-decoder-attention. Сама система постоянно развивается. Для ее совершенствования недавно были построены модели на базе архитектуры Transformer, применялись алгоритмы внедрения языковых моделей в нейросеть. Впервые для русско-татарской пары были проведены эксперименты по использованию параллельных данных для других языков с целью переноса знаний (transfer learning).
В качестве основных обучающих данных использовался созданный в институте параллельный корпус общим объемом 983 319 пар русско-татарских предложений, включающий тексты новостной тематики, литературу, переводы законов и нормативных актов. Проведенные эксперименты показали, что система превосходит по качеству существующие на данный момент аналоги.
Стремясь предложить клиентам оптимальное решение любой ИТ-задачи, Softline постоянно развивает отраслевую экспертизу. С 2018 года компания активно формирует портфель решений на базе AI, ML и IoT. За менее чем два года профессионалам Softline удалось реализовать для корпоративных клиентов большое число проектов, начиная с самых простых и заканчивая комплексными, технически сложными. Не так давно Softline и Сколковский институт науки и технологий создали совместную лабораторию «Искусственный интеллект, машинное обучение и системы интернета вещей». Открытие лаборатории позволит компании Softline сформировать мощную и сплоченную команду профессионалов в области Data Science. Именно ей предстоит воплотить в жизнь масштабные задачи: значительно расширить портфель консалтинговых услуг и решений Softline, необходимых для анализа данных. Нацеленная на постоянное развитие, компания готова соответствовать запросам самых требовательных корпоративных клиентов в России и за рубежом.
Результаты
«Результаты работы превзошли самые смелые ожидания. Возможности портала позволяют переводить тексты в русско-татарском и татарско-русском направлениях, озвучивать результаты перевода на обоих языках и оценивать его качество. Кроме того, сервис снабжен двуязычным интерфейсом, благодаря чему круг пользователей постоянно расширяется. У нас много проектов и планов, поэтому мы приглашаем Softline к участию в наших проектах», – рассказал о результатах проекта заместитель директора Института прикладной семиотики Академии наук Татарстана Ринат Гильмуллин.
«Softline начинает сотрудничество с Институтом прикладной семиотики Академии наук РТ, который специализируется на исследованиях в области компьютерной обработки естественного языка и речи с использованием современных технологий искусственного интеллекта. Это партнерство очень важно для нас, потому что, находясь в авангарде ИТ-трендов, мы активно развиваем у себя ИИ-направление. Для успешной реализации проектов у нас есть все необходимое: обширная материально-техническая база, высококлассные специалисты, лаборатория в одном из передовых технических вузов страны, выстроенная система коммуникаций с вендорами. Компания Softline обладает глубокой экспертизой в реализации проектов, связанных с искусственным интеллектом, и является авторизованным партнером NVIDIA по системам NVIDIA DGX-1», – подчеркнул готовность компании к реализации проектов в области искусственного интеллекта менеджер по продаже решений Softline Антон Юдин.
«Получив первоначальный запрос от Института прикладной семиотики АН Татарстана, мы, прежде всего, должны были определить круг тех задач, которые можно решить с помощью оборудования и программного обеспечения, предлагаемого компанией Softline. Выяснив, что ученым предстоит заниматься задачами, связанными с разработкой нейросетей для машинного перевода, мы оценили масштаб работ и предложили руководству института рассмотреть программно-аппаратный комплекс для высокопроизводительных вычислений и ускорения обучения нейросетей NVIDIA DGX-1. Мы подключили специалистов NVIDIA, которые провели интервью с представителями заказчика и подтвердили, что задачи, стоящие перед институтом, можно успешно решить при помощи DGX-1. Выбирая оборудование, ученые приняли во внимание возможность потенциального наращивания вычислительной мощности комплекса. При необходимости институт может горизонтально масштабировать вычислительные мощности системы путем сборки кластера из модулей DGX-1, соединенных интерконнектом InfioniBand. Также на выбор решения повлияло наличие у NVIDIA репозитория оптимизированного ПО NVIDIA GPU Cloud – большой библиотеки фреймворков и готовых моделей нейросетей, оптимизированных для GPU и поставляемых в виде контейнеров Docker. Это позволяет многократно сократить время на обучение нейросетей. Кроме того, у NVIDIA есть развитый портал поддержки разработчиков, компания постоянно организует и проводит обучение работе с нейросетями в рамках Института глубокого обучения (Deep Learning Institute – DLI). Наконец, стоимость вычислений на вложенный рубль также имела большое значение при выборе оптимального решения», – резюмировал менеджер по продаже аппаратных решений Softline Егор Демин.