Nazarbayev University жанындағы ISSAI KAZ-LLM деген қазақ тілінің үлкен тілдік моделін таныстырды

12 Желтоқсан, 17:38 415

Nazarbayev University-дің (NU) Ақылды жүйелер мен жасанды интеллект институтының (ISSAI) зерттеушілері оқу орнында өткен брифингте нейрондық желі негізінде әзірленген ISSAI KAZ-LLM деген қазақ тілінің үлкен тілдік моделін таныстырды. Бұл жоба – қазақстандық жасанды интеллекттің әлемдік аренаға интеграциялануындағы маңызды кезең. Қысқаша, қазақ тіліндегі ChatGPT-дің негізі деуге келеді, деп хабарлайды El.kz ақпарат агенттігі.

Kaz-LLM-ді қазақ тіліне аударма жасау мен контент жасаудан бастап, көлемді мәтіндерді өңдеуге дейін барлық жерде қолдануға болады.

Елдің көптілділігі мен мәдени сан алуандығын ескере отырып бейімделген ISSAI KAZ-LLM моделі қазақ, орыс және ағылшын тілдеріне арналып жасалған, сондай-ақ түрік тілін қосымша қолдайды. Бұл тілдік алшақтықтарды жоюға және шектеулі ресурстарға ие тілдердегі генеративті жасанды интеллекттің дамуына мүмкіндік береді.

Модельдің жақсы жұмыс істеуін қамтамасыз ету үшін ISSAI командасы 150 млрд-тан астам токенді (яғни, сөздер немесе сөз бөлшектерін) жинады, өңдеді, синтездеді және аударды. ISSAI KAZ-LLM-ді оқыту деңгейі өте жоғары, жасанды интеллект саласындағы әлемдік көшбасшылармен қазақ, орыс және ағылшын тілдерінде жетістіктермен бәсекеге түсе алады.

Сонымен қатар ISSAI KAZ-LLM жергілікті таланттарға осындай тәжірибе жинауға мүмкіндік беріп, еліміздегі жасанды интеллект мүмкіндіктерін кеңейтіп отыр. Жоба тек қана озық жасанды интеллект құралын құруға ғана емес, сондай-ақ қазақстандық жасанды интеллект мамандары қатарының өсуіне да ықпал етуде. Жобаны әзірлеуге қазақстандық зерттеушілер қатысты. Жетекші қазақстандық институттармен ынтымақтастық лингвистердің және машиналық аударманың озық әдістерінің көмегімен қазақ тіліне бейімделген салыстырмалы талдау құралдары мен деректер жиынтығын жасауға мүмкіндік берді.

NU және NIS қаржыландырған жоба осы жылдың сәуір айында басталды. Деректер қазақ тіліндегі веб-сайттарды, жаңалықтар мақалаларын және онлайн-кітапханаларды қоса алғанда, жалпыға қолжетімді көздерден жиналды. Әртүрлі ұйымдар ұсынған мәліметтер де қолданылды.

Бұл модель Қазақстанның инновацияға, дербестікке және технологиялық экожүйесінің өсуіне деген ұмтылысын көрсетеді. Біздің командамыз Meta-ның Llama архитектурасына сүйене отырып жасалған және жоғары өнімді жүйелерге мен ресурстары шектеулі орталарға оңтайландырылған 8 миллиард және 70 миллиард параметрлі ISSAI KAZ-LLM-нің екі нұсқасын дайындады. CC-NC-BY лицензиясы бойынша шығарылған модельдер коммерциялық емес мақсатта Hugging Face платформасында қолжетімді болып, жаһандық академиялық және зерттеу ынтымақтастығына ықпал етеді. Осылайша, әзірлеушілер біздің моделімізді күрделі серверлерге де, ноутбуктерге де жүктеп алып, іске қоса алады, — деді NU жанындағы ISSAI негізін қалаушы және директоры профессор Хусейн Атакан Варол.

ISSAI келесі буын жасанды интеллект жүйелерін, оның ішінде тілді тану модельдерін дамытуды және осы модельдерді қосымша түркі және аймақтық тілдерді қолдау үшін кеңейтуді қарастырады. Бұл ұмтылыс аймақтық байланыстарды нығайту, тіл интеграциясын жеңілдету, Қазақстанда және одан тыс жерлерде елеулі экономикалық және технологиялық әсерді ынталандыруға мүмкіндік береді.

ISSAI KAZ-LLM жобасы NU және NIS Даму қорының, сондай-ақ Astana Hub және QazCode (Beeline) қолдауының арқасында мүмкін болды. Жобаны әзірлеу мемлекеттің қаражатынсыз жүргізілді.

EL.KZ
Бөлісу: