Жаңалықтар

Қазақ тілі жасанды интеллект дәуірінде: қазіргі жағдайы мен даму әлеуеті қандай

11.05.2025 15:11
Аршат Ораз
Фото: автордан

Жасанды интеллекттің дамуымен тілдің цифрлық қорындағы көлемі мен сапасы бұрын-соңды болмаған маңызға ие болды. Себебі тілдік деректер – ЖИ-ді үйретудің негізгі отыны. Осы тұрғыда қазақ тілінің ахуалы қандай? Оны Орталық Азияның өзге тілдерімен салыстырсақ, қай тұста алда, қай жерде әлі де есе жіберіп жатыр? Бұл сұрақтарға жауап беру – ұлттық ақпараттық қауіпсіздік пен тіл болашағына тікелей қатысты.

Қазақ тілінің қазіргі әлеуеті

Қазақ тілі – Орталық Азиядағы ең көп таралған және мемлекеттік мәртебесі бар тілдердің бірі. Соңғы жылдары тілдің цифрлық кеңістіктегі жағдайы біршама жақсарды. Үкіметтік қолдаулар, IT саласындағы стартаптар мен ерікті мамандардың күшімен қазақ тілінде әртүрлі мәтіндер, аудиожазбалар, сөздіктер, корпус және дерекқорлар жасала бастады.

Қазіргі таңда қазақ тілінің ең үлкен мәтіндік корпустары – Kazakh Language Corpus (KLC), сондай-ақ KazNERD, KazParC сияқты атау тану және параллель аударма саласындағы дерекқорлар. Сөйлеу тіліне арналған Kazakh Speech Corpus та мыңдаған сағаттық аудиожазбамен қамтылған. Бұл – Орталық Азия елдері арасындағы ең ірі жобалардың бірі.

Басқа тілдермен салыстырғанда қай тұста артық?

Қазақ тілі:

Қырғыз және өзбек тілдері:

Осыған қарамастан, қазақ тілі әлі де ағылшын, орыс немесе қытай сияқты жоғары ресурсты тілдермен салыстырғанда “ресурсы аз тіл” санатына жатады. Бұл дегеніміз — ЖИ модельдері үшін әлі де алуан түрлі деректер жетіспейді деген сөз.

Қай тақырыптарда қор жеткілікті?

Қазақ тілінде соңғы жылдары кеңейіп келе жатқан негізгі тақырыптар:

Қай салаларда әлі де жетіспеушілік бар?

Қазақ тіліндегі ЖИ қорын қалай кеңейтуге болады?

  1. Қолжетімді мәліметтерді ашу
    Мемлекеттік және жеке сектордағы контент иелері (БАҚ, баспалар, оқу орындары) өз материалдарын ашық лицензиямен бөлісе алса, бұл дерекқорды едәуір кеңейтеді.
  2. Салалық жобаларды қолдау
    IT, медицина, агроөнеркәсіп, логистика секілді салаларға арнайы мәтін жинау және жинақталған деректерді аннотациялау қажет.
  3. Ауызекі сөйлеу үлгілерін жинау
    Диалогтар, сценарийлер, дауыстық хабарламалар сияқты ауызекі тіл үлгілерін көптеп жинау қажет. Әсіресе балалар мен қарттардың, өңірлік тұрғындардың тілі маңызды.
  4. Еріктілер қозғалысын қолдау
    Corpus жинау мен өңдеуге еріктілерді тарту – шетелде өзін дәлелдеген тиімді әдіс. Қазақстанда да бұл бағытты күшейту керек.
  5. Қазақ тілінде ЖИ құралдарын көбейту
    ChatGPT секілді модельдерге қазақ тіліндегі сұрақтар беру арқылы жүйе өздігінен жетіледі. Пайдаланушылар тарапынан белсенділік те маңызды.

Қазақ тілі – Орталық Азиядағы ЖИ саласында ең үлкен әлеуетке ие тілдердің бірі. Алайда бұл әлеуетті толық жүзеге асыру үшін жүйелі жұмыс қажет. Тілдік дерекқорды кеңейту, салааралық мәтіндерді жинау, сөйлеу тілін қамту – бәрі қазақ тілінің цифрлық кеңістіктегі болашағын айқындайды.

Жасанды интеллект дәуірінде тілдің өміршеңдігі – оның мәліметтік қорына, қолдану ауқымына және технологияға бейімділігіне байланысты. Сондықтан қазақ тілі – тек мәдени құндылық емес, цифрлық тәуелсіздіктің де кілті.

Оқи отырыңыз