11 желтоқсанда Астанада Қазақстан Президенті Қасым-Жомарт Тоқаевқа ұлттық тілдік модель KAZ-LLM таныстырылды. Модель Интеллектуалды жүйелер және жасанды интеллект институтының (ISSAI NU) жетекшілігімен Beeline Қазақстан және оның IT-компаниясы QazCode, сондай-ақ Astana Hub серіктестігімен әзірленді. Жоба Қазақстан Республикасының Цифрлық даму, инновациялар және аэроғарыш өнеркәсібі министрлігімен (МЦРИАП РК) үйлестірілуде. Модель бүкіл ел үшін стратегиялық маңызға ие, себебі ол ИИ арқылы тілдік алшақтықты шешуге көмектеседі.
KAZ-LLM моделі қалай әзірленді?
ISSAI-дың KAZ-LLM моделі төрт тілде — қазақ, орыс, ағылшын және түрік — көпшілікке қолжетімді көздерден мұқият жинақталған 150 миллиард токенге негізделген. Бұл модельге әртүрлі тілдерде мәтіндерді өңдеу сапасын көтеруге және аударма сапасын жақсартуға мүмкіндік береді. Токендер — мәтіннің минималды бірліктері, мысалы, сөздер, олардың бөліктері немесе тіпті жеке символдар, оларды ИИ ақпаратты талдау және түсіну үшін пайдаланады.
KAZ-LLM моделінің интерфейсі мен функционалдығы әлемдік озық стандарттарға сай әзірленген, бұл модельдің жоғары технологиялық жетілуін және кең әлеуетін растайды. Оның өнімділігін бағалау үшін әртүрлі білім салаларын қамтитын сұрақ-жауап жұптарымен кешенді бенчмарктер қолданылды. Бенчмарк пакеті келесі тесттерді қамтыды:
- ARC (AI2 Reasoning Challenge) — ғылыми ойлауды тексеру үшін көп таңдаулы сұрақтар.
- GSM8K — бастауыш мектепке арналған математикалық тапсырмаларды шешу қабілетін бағалау.
- HellaSwag — сөйлемдерді жалғастыру логикасын тестілеу.
- MMLU (Massive Multitask Language Understanding) — 57 түрлі пәндер бойынша білімді тексеру.
- Winogrande — екіұшты сөйлемдерде сауаттылықты бағалау.
- DROP — оқу мен логикалық ойлау дағдыларын тестілеу.
Beeline мен QazCode серіктестігі әзірлеуді жеделдетті
Модельдің құрылуында негізгі серіктестер Beeline Қазақстан мен оның IT-компаниясы QazCode болды, олар Kaz-RoBERTA сияқты тілдік модельдерді жасау және шетелдік серіктестермен бірге кіші тілдік топтарға арналған ИИ шешімдерін әзірлеу бағытында күштерін біріктірді. 8 DGX H100 серверлерінің ұсынылған есептеу қуатымен қолдау көрсету оқу процесін едәуір жеделдетіп, модельдің мүмкіндіктерін кеңейтті. Мысалы, кәдімгі компьютер 1 миллион фотосуретті талдауға бірнеше күн жұмсайды. Ал ISSAI KAZ-LLM-ды оқыту үшін қолданылатын сегіз DGX H100 сервері бұл тапсырманы бірнеше секундта орындап шығады.
Осы серверлер негізінде әзірлеушілер 8 миллиард және 70 миллиард параметрлері бар модельдің екі нұсқасын оқытты, процесс барысында QazCode деректер ғалымдары қосылды.
« Біздің команда KAZ-LLM моделін әзірлеу мен оқытуға белсенді қатысып отырды. LLM жасаған кезде әзірлеушілер мен серіктестер PyTorch және Torchtune сияқты заманауи машиналық оқыту технологияларын пайдаланып, қазақ тіліне арналған LLM open source архитектураларын бейімдеу бойынша алдыңғы жобалардың тәжірибесін ескерді. 50 күн бойы үздіксіз есептеулер жүргізілген оқыту барысында модель контексті түсіну қабілетін жақсартып, пайдаланушылармен жоғары сапалы өзара әрекеттесу қамтамасыз етті. Тестілеу модельдің мәдени және тілдік ерекшеліктерді ескере отырып, техникалық тапсырмаларды сәтті шешетінін көрсетті », - QazCode CEO-сы Алексей Шаравар бөлісті.
KAZ-LLM нәтижелері мен перспективалары
Зерттеушілер жобаның Қазақстанның жасанды интеллект әлемдік аренадағы маңызды кезеңі екенін атап өтті: «Бұл модель Қазақстанның инновацияларға, тәуелсіздікке және технологиялық экожүйесінің өсуіне деген ұмтылысын көрсетеді. Біздің команда 8 миллиард және 70 миллиард параметрлері бар ISSAI KAZ-LLM екі нұсқасын Meta Llama архитектурасына негізделіп, жоғары өнімді жүйелер мен шектеулі ресурстармен ортада пайдалануға оңтайландырып әзірледі. Модельдер CC-BY-NC лицензиясы бойынша шығарылды, олар Hugging Face сайтында коммерциялық емес пайдалану үшін қолжетімді болып, жаһандық академиялық және зерттеу ынтымақтастығына ықпал етеді. Осылайша, әзірлеушілер біздің модельді күрделі серверлерде де, ноутбуктарда да жүктеп алып, іске қоса алады », - деді ISSAI директоры, профессор NU Хусейн Атакан Варол.
ISSAI Kaz-LLM-ның ИИ негізінде стартаптар мен инновациялық жобаларды дамыту үшін жаңа мүмкіндіктер ашатыны күтілуде. Болашақта тілдік және визуалдық деректерді интеграциялайтын келесі буын модельдерін әзірлеу жоспарлануда, бұл ИИ мүмкіндіктерін едәуір кеңейтеді. Сонымен қатар, модельге басқа түркі тілдерін қолдау қосу қарастырылып отыр, бұл түркі тілдес қауымдастықтар арасындағы байланыстарды нығайтуға мүмкіндік береді.