11 декабря в Астане Президенту Казахстана Касым-Жомарту Токаеву была представлена национальная языковая модель KAZ-LLM. Эта модель была разработана под руководством Института умных систем и искусственного интеллекта (ISSAI NU) в партнерстве с Beeline Казахстан и его ИТ-компанией QazCode, а также Astana Hub. Проект координируется Министерством цифрового развития, инноваций и аэрокосмической промышленности РК (МЦРИАП РК). Эта модель имеет стратегическое значение для всей страны, так как решает проблему языкового разрыва с помощью ИИ.
Как была разработана модель KAZ-LLM?
KAZ-LLM от ISSAI основана на 150 млрд токенах, тщательно собранных из общедоступных источников на четырех языках: казахском, русском, английском и турецком. Это позволяет модели продемонстрировать высокую точность и универсальность, улучшая качество обработки текстов на различных языках и способствуя лучшему переводу. Токены представляют собой минимальные единицы текста, такие как слова, их части или отдельные символы, которые ИИ использует для анализа и понимания информации.
Интерфейс и функциональные возможности модели KAZ-LLM были разработаны с учетом самых современных мировых стандартов, что подтверждает высокую технологическую зрелость и широкий потенциал модели. Для оценки ее производительности использовались комплексные бенчмарки с вопросно-ответными парами, охватывающие разнообразные области знаний. Пакет бенчмарков включал следующие тесты:
- ARC (AI2 Reasoning Challenge) — проверка научного мышления через вопросы с множественным выбором.
- GSM8K — оценка способности решать математические задачи для начальной школы.
- HellaSwag — тестирование логики продолжения предложений.
- MMLU (Massive Multitask Language Understanding) — проверка знаний по 57 различным предметам.
- Winogrande — оценка здравого смысла в двусмысленных предложениях.
- DROP — тестирование навыков понимания прочитанного и логического мышления.
Партнерство Beeline и QazCode ускорило разработку
Ключевыми партнерами в создании модели стали Beeline Казахстан и его ИТ-компания QazCode, которые объединили усилия и опыт в разработке языковых моделей, таких как Kaz-RoBERTA, а также в создании ИИ-решений для малых языковых групп в сотрудничестве с зарубежными партнерами. Поддержка в виде предоставленных серверов с вычислительными мощностями 8 DGX H100 значительно ускорила процесс обучения и расширила возможности модели. Для сравнения: обычному компьютеру потребуется несколько дней, чтобы проанализировать архив из 1 млн фотографий, в то время как восемь серверов DGX H100, используемых для обучения ISSAI KAZ-LLM, справляются с этой задачей всего за несколько секунд.
На базе этих серверов разработчики обучили две версии модели — с 8 млрд и 70 млрд параметров, к процессу присоединились дата-сайентисты QazCode.
« Наша команда активно участвовала в разработке и обучении модели KAZ-LLM. При создании LLM разработчики и партнеры использовали современные технологии машинного обучения, такие как PyTorch и Torchtune, а также учитывали опыт предыдущих проектов по адаптации open source архитектур LLM для казахского языка. В процессе обучения, которое длилось 50 дней непрерывных вычислений, модель улучшила свою способность понимать контекст и обеспечивать высокое качество взаимодействия с пользователями. Тестирование показало, что модель успешно решает технические задачи, принимая во внимание культурные и языковые особенности казахского языка », - поделился СЕО QazCode Алексей Шаравар.
О результатах и перспективах KAZ-LLM
Исследователи отмечают, что проект является важной вехой на пути Казахстана в области искусственного интеллекта: «Эта модель отражает стремление Казахстана к инновациям, самостоятельности и развитию своей технологической экосистемы. Наша команда подготовила две версии ISSAI KAZ-LLM с 8 млрд и 70 млрд параметров, построенные на архитектуре Meta Llama и оптимизированные для высокопроизводительных систем и сред с ограниченными ресурсами. Модели выпущены под лицензией CC-BY-NC, и доступны для некоммерческого использования на сайте Hugging Face, способствуя глобальному академическому и исследовательскому сотрудничеству. Таким образом, разработчики смогут скачать и запустить нашу модель как на мощных серверах, так и на ноутбуках », - рассказал директор ISSAI профессор NU Хусейн Атакан Варол.
Ожидается, что ISSAI Kaz-LLM откроет новые возможности для создания стартапов и инновационных проектов на базе ИИ. В будущем планируется разработка моделей следующего поколения, которые будут интегрировать языковые и визуальные данные, что значительно расширит возможности ИИ. Также рассматривается добавление поддержки модели для других тюркских языков, что укрепит связи между тюркоязычными сообществами.