Жаңалықтар

Жасанды интеллект дәуіріндегі қазақ тілі: Qazaq AI, Scano, Yandex компанияларының тәжірибесін зерттеу

Жасанды интеллект дәуіріндегі қазақ тілі: Qazaq AI, Scano, Yandex компанияларының тәжірибесін зерттеу
Фото: ©El.kz/Ақмарал АҒЗАМҚЫЗЫ/OpenAI 22.05.2024 18:30 18552

Summer Institute of linguistics ұйымының зерттеуі бойынша әлемде 7164 тіл тіркелген. Ал UNESCO әлем тілдері туралы зерттеуінде XXI ғасырдың соңына дейін осы тілдердің жартысы жойылып кетуі мүмкін екенін баяндады. 2021 жылы жүргізілген зерттеу нәтижесі бойынша ғаламторда қолданылатын тілдердің 76,9%-ы ең көп тараған 10 тілге тиесілі екен. Ал қазақ тілінің цифрлық кеңістікте, жасанды интеллектте (ЖИ) алатын орны қандай? Бұл туралы Яндекс, Qazaq AI және Scano компанияларының басшыларымен әңгімелесіп, Қазақстандағы қазақша ЖИ жобаларын зерттеп көрдік.

Тілдің дамуына, қолданыс аясының кеңеюіне әлеуметтік-экономикалық (миграция, урбанизация, экономикалық даму), саяси (тілдік саясат, ассимиляция саясаты), мәдени (жаһандану, отбасыда басқа тілге басымдық беру) және білім беру (ана тілінде білім алмау, мұғалімдердің жетіспеушілігі) факторлары әсер етеді.  Жаһандану заманында ақпараттық технологиялардың қарқынды дамуы тілдік алуан түрлілікке қауіп төндіреді. Қазақ тілі «аз ресурсты» тілге жатады. Бұл желідегі лингвистикалық ресурстардың шектеулі болуына байланысты ЖИ және машиналық оқыту зерттеулерінде жеткіліксіз екенін білдіреді. Сондықтан, ағылшын, орыс немесе басқа тілді меңгерген қолданушыларға қолжетімді көптеген ЖИ құралдар тек қазақ тілінде сөйлейтіндер үшін қолжетімсіз.  

Бұл тұжырымды statista.com сайтының «Ғаламторда веб-контент үшін ең жиі қолданылатын тілдер» тізбегі де растайды. 2024 жылғы қаңтардағы жағдай бойынша веб-сайттардағы ақпараттардың 52.1% – ағылшын тілінде, 5.5% – испан, 4.8% – неміс, 4.5% – орыс, 4.3% – жапон, 4.3% – француз, 3.1% – португал, 2.3% – итальян, 2.1% – түрік тілінде болса, үздік ондықты 1.8% үлеспен дат тілі қорытындылайды. Одан кейінгі орында поляк, парсы, қытай, вьетнам, индонезия, чех, корей, украин, араб және грек тілдері жайғасқан. Ғаламторда жиі қолданылатын тілдер қатарына қазақ тілі енбеген.

Жасанды интеллект дәуіріндегі қазақ тілі: Qazaq AI, Scano, Yandex компанияларының тәжірибесін зерттеу

Жаңа технологиялар майданындағы қазақ тілі үшін күрес

Алтынбек Мұрат – Моңғолияда туған, қазір АҚШ азаматы. Біріккен Араб Әмірліктерінде бакалавриат, АҚШ-та Миссури университетінде Инженерияны басқару магистратурасын тәмамдап, Есептеу физикасынан PhD қорғаған. Сауд Арабиясында төрт жылдай постдокторлықта жұмыс істеген. Қазір Бостон университетінде суперкомпьютерлермен қуат құралдарына арналған жаңа нано-материалдарды модельдеумен айналысады. Ол «QAZAQ AI» атты қазақ тіліндегі алғашқы ЖИ компанияның негізін қалады. Бүгінде әлеуметтік желілерде кеңінен таралып жатқан ЖИ әншілер (SARAUEN мен MIRASAI) жобасының авторы. 

Қазақ балалары қазақ тілінде сөйлегені үшін жаңа технологияны қолданудан қалыс қалмауы тиіс. Мысалы, ауыл аймақтарда тұратын қара домалақ бауырымыз бен қарындасымыз орыс тілі мен ағылшын тілін жетік білмейді, алайда, қазақ тіліне судай. Бірақ қазіргі технология қазақ тіліне бейімделмеген болса, ол баланың келешегі қандай болмақ? Өзімен қатарлас орыс тілін білетін бала ЖИ мүмкіндіктерін пайдаланып, өмірін едәуір жеңілдетеді. Сәйкесінше жоғары жетістіктерге тез жететіні анық, – дейді отандасымыз Алтынбек Мұрат.

Маман жасанды интеллект 4-5 жыл бойы машиналық оқыту (machine learning), терең оқыту (deep learning), нейрондық желілерді (neural networks) ғылыми тұрғыда зерттеген.

Жасанды интеллект дәуіріндегі қазақ тілі: Qazaq AI, Scano, Yandex компанияларының тәжірибесін зерттеу

Тек ChatGPT шыққаннан кейін ғана адамдар ЖИ туралы біліп, оны қолдана бастады. Бірақ, біз осы саланың ішінде жүргендіктен, қазақ тілі бұл салада дамымағанын жақсы білеміз. ChatGPT-де қазақ тілінде толыққанды, мардымды, түсінікті ақпаратты ала алмайсыз. Қазір америкалықтар ChatGPT-ді күнделікті өмірде барлық салада қолдана бастады. Бұл барлық салаға енетін технология, – дейді Алтынбек Мұрат.

ЖИ мүмкіндіктерін толық пайдалану үшін қазақ тілінде емес, басқа тілде жүгінуге тура келеді. Алтынбек Мұрат бұл өте өкінішті жағдай екенін атап өтті.

Біз тілімізден бір рет айырылып қала жаздадық, ал енді жаңа технологиялар майданында ЖИ қазақша дұрыс түсінбейтін болса, қазақ тілінің қолданысы одан әрі тарылатыны анық. Отандастарымыздың ЖИ қолдануын жеңілдету және одан әрі дамыту мақсатында Qazaq AI платформасын құрдық. Платформа сонымен қатар, тілдік мұрамызды сақтау мен өркендетуде үлесін қосады. Qazaq AI ресми түрде Бостондағы Массачусетс технологиялық институты (MIT) базасында құрылып, жүзеге асып жатыр. Жобамыз университеттің ресми акселераторынан өтті, – дейді ол.

Алтынбек мырза қазақ тілін жасанды интеллектпен интеграциялау үлкен мәселе және оның шешілмеген тұстары көп екенін айтады.

Қазір қазақ тілінде ЖИ моделі жоқ. Бүгінде америкалық алпауыт компаниялардың ұсынған модельдерді қолданып отырмыз. Бұл салада біраз кеш қалғанымызды мойындау керек. Сондықтан OpenAI сияқты компаниялардың модельдерін шама-шарқымыз жеткенінше пайдаланып отырмыз. Қазақстан Үкіметі ЖИ нарығын дамыту үшін қаржы бөліп жатқаны туралы естідім. Алайда, біз қазақ тіліндегі ЖИ моделін жасап бітіргенше, OpenAI ChatGPT-дің қазақ тілді нұсқасын әлдеқайда жақсартып үлгереді деп ойлаймын, – дейді IT маман.

Алпауыт компаниялар коммерциялық табыс үшін уақыт өте келе ЖИ моделдеріне қазақ тілін енгізетінін айтқан Алтынбек мырза, оған дейін ЖИ кеңістігінде қазақ тілінің қолданысын қалай кеңейтуге болатынын айтып берді.

Ерте ме, кеш пе қазақша ЖИ дамиды және оның мүмкіндіктері кеңейеді. Бұл бағытта OpenAI, Microsoft, Meta сияқты үлкен компаниялар жұмыс істеп, өз пайдасы үшін дамытатыны анық. Біраз уақыт жоғалтуымыз мүмкін, бірақ сол компанияларға ақысын төлеп, олардың өнімдерін қолданатындай жағдайға жетеміз. Бұл да бір бизнестің моделі. Мүмкін тегін модульдерді өзіміз жақсартып, қолданатын шығармыз. Ағылшындар «дөңгелекті басынан бастап жасамай-ақ қой, инновация жаса» деп айтқандай, біз де дайын тұрған модульді алып, соның өзімізге жарамды нұсқасын жасай аламыз.

Мәселені шешудің жолы – Үкіметтен болсын немесе Qazaq AI ретінде біз де OpenAI сияқты компанияларға тікелей ұсынысымызды беріп, солармен бірлесіп, бар модельді жақсарту. ChatGPT-дің қазақ тілінде жақсы сөйлемеуінің себебі – оларда қазақша деректер аз және оларды деректер базасына енгізбеген. Енді-енді ғана «Қай тіл қалып қалды?» деп жан-жағын реттеп, тілдерді қосып жатыр. Мен қазақ тілі инновациялық салада дами түсетініне сенімдімін. Технологияның барлық саласында ана тілімізді қолданамыз деген үміт бар. Ал ЖИ біздің көмекшімізге айналады, – дейді ол.

QAZAQ AI компаниясы әлемдегі көшбасшы саналатын, білім мен ғылымның, жаңа технологиялардың ордасына айналған MIT университетімен бірге жұмыс істеп жатқандықтан, осы әріптестіктің шеңберіндегі тәжірибе мен біліктілікті Қазақстанға қазақ тілінде жеткізуді мақсат етеді. Платформадағы AI ACADEMY MIT-тың менторларымен жұмыс істеуге мүмкіндік береді. Сонымен қатар, компанияның ChatGPT-ге балама ретінде жасалған Jasandy.com жобасы бар.

Жасанды интеллект идеясы өте қызық. Қазір адамдар ChatGPT-ды қолданады. Бірақ ChatGPT-ге тіркеліп, кірген кезде интерфейс ағылшын немесе орыс тілінде болады. ЖИ қолдануда ешкімді қалыс қалдырмауымыз керек. Мысалы, ауылдағы туыстарымыз ChatGPT-ге тіркелгісі келеді, бірақ тек ана тілінде ғана түсінетін адамға бұл қолжетімсіз болады. Біздің компанияның Jasandy.com өнімінің басты мақсаты – ChatGPT-дің қазақша баламасын ұсыну. Бұл жасанды интеллект өзі жеке бөлек модуль емес. Ол техникалық жағынан ChatGPT-ді жасап шығарған OpenAI-ға байланып тұр. Осы үшін өзіміз ақша төлеп отырмыз. Тек тіркелу мәселесін немесе күрделі тақырыптарда жауап алу үшін OpenAI-ға ақша төлеу керек қой. Біз оны жойып, халыққа тегін ұсынуды жөн көрдік. Халық жасанды интеллектті түсінсін, Jasandy-ға кіріп, «ЖИ деген не? Бізге не бере алады?» дегеннің шет жағасын болсын білсін деп тегін қолдану мүмкіндігін беріп отырмыз. Бұл негізі ChatGPT-дің қазақша нұсқасы. Артықшылығы – ешқандай тіркелусіз, ақша төлемей-ақ ЖИ мүмкіндіктерін пайдалану, – дейді ол.

Соңғы күндері әлеуметтік желілерде қазақ тілінде ән шырқап, көптің көңілінен шыққан SARAUEN мен MIRASAI-дың жасанды интеллект көмегімен жасалғанын білесіз бе? Бұлар да Qazaq AI компаниясының жобалары.

Ән шырқайтын ЖИ шыққалы біраз уақыт болды. Қазір бірнеше модельдері бар. Адамдар қолданып жүрген ашық модельдерден бөлек жабық түрлері де бар. Сондай мүмкіндіктің бірін біздің компания пайдаланды. Әкем де, мен де әдебиетке құштар жандармыз. Әкем өмір бойы өлең жазып, іштегі жырларын қағаз бетіне түсіріп жүргенін білемін. Сол әкемнің жырларын, ағаларымыздың жақсы өлеңдерін әуен ретінде ұсынғым келді. Тіліміздің байлығын мұра етіп сақтап отырған әдебиеттегі ақын-жазушыларымыздың жырларын әлемге әуен ретінде ұсынатын мүмкіндікті пайдаланып, осы жобаны жасадық. SARAUEN деген әнші қызымыз бен МIRASAI деген әнші жігітіміз дуэт болып, ән айтады, – дейді Алтынбек Мұрат.

Алтынбек Мұрат жасанды интеллектті ұтымды қолдану арқылы қазақ тілін үйрену тәсілдерін жүйелеп, одан әрі дамытқысы келеді.

ЖИ қолданатын адам оны білмейтін маманды алмастырады. Әрине, көптеген жұмыстар автоматтандырылады. Ұсақ-түйек жұмыстарды жасанды интеллект өзі-ақ істей береді, ал біз маңызды ресурстарымызды күрделі мәселелерге жұмсаймыз. ЖИ көмегі арқылы қазақ тілінде балаларға иллюстрациялар салынған ертегілер мен түрлі жанрдағы кітаптарды жазуға мүмкіндік туады. Менің мақсатым – қазақ тілін үйрену тәсілдерін жүйелеу. Балалар ЖИ қолданып, оңай әрі қызықты түрде қазақ тілін үйренуі үшін арнайы платформа жасауды жоспарлап отырмын, – дейді маман.

 Қазақ тіліндегі ақпаратты тұтынатын халықтың үлесі

ЖИ-ді қазақшалау немесе толыққанды қазақ тіліндегі ЖИ моделін жасап шығуға миллиондаған қаржы кетуі мүмкін. Осы ретте, «Елімізде қазақ тіліндегі ақпаратты тұтынатын халықтың үлесі жоғары ма? Интернетте қазақша мәлімет іздеуге деген сұраныс жеткілікті деңгейде ме?» деген сұрақтар туындайды.

2023-2029 жылдарға арналған Тіл саясатын дамыту тұжырымдамасында Қазақстандықтардың 81%-ы мемлекеттік тілді білетіні және 2029 жылға қарай бұл көрсеткіш 84%-ға жететіні айтылған. Яғни, шамамен 16.2 миллион қазақстандық қазақ тілінде ақпарат іздейді. Онымен қоса, әлемнің 40-қа жуық елдерінде тұрып жатқан 5 миллион отандасымызды қосатын болсақ, әлеуетті қолданушылардың саны 20 миллионнан асып түсетіні анық. Бұл – жақсы нарық. Осы нарықта сәтті жұмыс істеп жатқан компанияның бірі – Яндекс.

Яндекс компаниясының Қазақстандағы Іздеу жүйесін дамыту департаментінің директоры Александр Поповскийден Яндекс өнімдерінде қазақ тіліне қаншалықты көңіл бөлінетінін сұрастырдық.

Жасанды интеллект дәуіріндегі қазақ тілі: Qazaq AI, Scano, Yandex компанияларының тәжірибесін зерттеу

Біздің негізгі сервистеріміздің барлығында қазақ тілін таңдау мүмкіндігі бар. Біз қазақ тіліндегі функциялар неғұрлым көп болса, адамдарға соғұрлым ыңғайлы болатынына және олардың қазақ тілін негізгі тіл ретінде жиі таңдайтынына сенеміз. Мысалы, Яндекс.Картада интерфейсінен бөлек, барлық топонимдер мен ұйымдардың атаулары қазақ тіліне аударылған. Жұмыс істеп тұрған дәріхананы табу үшін іздеуге «дәріханалар тәулік бойы» деп жазу жеткілікті. «Кинопоиск» сайтында қазақ тіліндегі фильмдердің үлкен жинағы бар, сонымен қатар біз халықаралық хиттерді қазақ тіліне өзіміз аударамыз. Іздеу жүйесінде біз қазақ тілінде жылдам жауаптар ұсынамыз. Әрине, қазақ тіліндегі алғашқы виртуалды ассистент болған Алисаны атап өтпеу мүмкін емес, - дейді Александр Поповский.

Сондай-ақ дауыстық көмекші «Яндекс. Алисаға» қазақ тілін қалай үйретіп жатқаны туралы түсіндірді.

Алисаны қазақ тілін түсінуге және сөйлеуге үйрету үшін біз машиналық оқытуды қолдандық. Оқыту деректерін ана тілінде сөйлейтіндер мен кәсіби редакторлардың көмегімен жинадық, сондай-ақ диалогтарды қолмен аударып, жүздеген сағаттық аудиожазбаларды талдадық. Біз қазақ тіліндегі өнімдер мен қызметтердің маңыздылығын түсінеміз және Алисаны осы бағытта дамытуды жалғастырамыз. Атап айтқанда, қазақ тіліндегі Алисаны қолдайтын құрылғылар мен қосымшалардың санын көбейтуді жоспарлап отырмыз. Сондай-ақ, Алисаның моделін жетілдіріп, оның жауаптарының Қазақстанның ақпараттық және мәдени контекстіне сәйкес болуын қамтамасыз етуді жоспарлаймыз. Қазақ тіліндегі виртуалды ассистент қазіргі уақытта мобильді Браузерде және Яндекс қосымшасында қолжетімді. Пайдаланушылар Алисаға кез келген сұрақ қойып, Қазақстанның қалаларындағы ауа райы туралы сұрап, әзіл айтуын өтініп немесе жай ғана сөйлесе алады.

Біз қолданушылармен дұрыс және үйреншікті ауызекі қазақ тілінде қарым-қатынас жасау үшін бар күшімізді саламыз. Біріншіден, қазақ және орыс тілдерін бірдей жақсы білетін ана тілінде сөйлейтін кәсіби редакторларды тартамыз. Екіншіден, жауаптардың сапасын тексерудің көпсатылы жүйесін енгіздік. Үшіншіден, оқыту процесінде нақты сұрауларды пайдаланамыз. Мысалы, Алисаға қазақ тілін үйрету үшін, қазақ тілінде сөйлейтіндердің жазған шамамен 1000 сағаттық сөйлеу фрагменттерін жинадық. Алисамен диалог сценарийлерін әзірлеу барысында кәсіби лингвистерді тартып, әртүрлі жағдайлар үшін дұрыс тұжырымдарды табуға көмектесті. Бұл Алисамен қазақ тілінде қарым-қатынасты лингвистикалық тұрғыдан дұрыс әрі қолданушылар үшін табиғи етуге мүмкіндік берді, - дейді Александр Поповский.

Қазақстандағы іздеу жүйесіне жауапты маманнан Яндекс сервисіне қазақ тілін енгізу барысында туындаған қиындықтар қалай шешіліп жатқанын және қазақ тіліндегі контенттің сапасы туралы сұрадық.

Қазақ тілінде өнімдер мен қызметтер жасаудағы негізгі қиындық – ЖИ-ді қазақ тіліне үйрету және қазақ тіліндегі контент тапшылығы мәселесі. Мысалы, қазақ тіліндегі жылдам жауаптарды – іздеу жолағының астында пайда болатын қысқаша жауаптарды – жасау үшін көптеген деректерді өңдеу қажет болды. Бұл үшін нейрожелілік технологиялар мен машиналық оқытуды қолдандық, өйткені ақпаратты бірнеше дереккөзден бірден іздеу керек болды. Тар ауқымды сұрақтарға қазақ тілінде жауап табу жиі қиындық туғызады. Қызметтерімізді қазақстандықтар үшін ыңғайлы ету мақсатында, біз іздеуге қазақ тіліне нейрожелілік аударма жасалған мақалаларды қостық. Осылайша, біз мемлекеттік тілдегі пайдалы материалдар санын 15 миллионнан астамға арттыра алдық. Біз әрқашан контент жасаушыларға өнімдерін қазақ тіліне аударуды ұсынамыз. Осы арқылы интернеттегі қазақ тілді контент санын толықтырып отырамыз, - деп түсіндірді ол.

Яндекс өз қызметтерін қазақ тіліне бейімдеу саласындағы қызметтерін үнемі жетілдіріп отыратыны белгілі болды.

Біздің басты мақсатымыз – қазақстандықтар үшін қызметтердің бейімделуі мен қолжетімділігін қамтамасыз ету. Нәтижелер айқын: қазақ тіліндегі сұраулар саны екі есе өсті және қазір жалпы сұраулардың 15%-ын құрайды. Біз бұл көрсеткішпен тоқтап қалмаймыз, - дейді Александр Поповский.

Ал YandexGPT ChatGPT-ден қазақ тілінде жұмыс істеу контекстінде несімен ерекшеленеді? Сондай-ақ қазақ тіліндегі YandexGPT коммерциялық нұсқасының бизнеске арналған негізгі артықшылықтары туралы сұрадық.

Біз қазақ тіліне арналған генеративті модель жасап жатырмыз. Ол қазақ тіліндегі жүздеген мың сұраулар мен жауаптар негізінде оқытылған, бұл әртүрлі тақырыптар мен сұхбат контексттерін қамтиды. Бұл модельге тілді және мәдени кодты жақсырақ түсінуге мүмкіндік береді. Жауаптардың дәлдігін арттыру үшін модельді біздің жергілікті ЖИ-тренерлер қосымша оқытуды жалғастыруда. Қазіргі уақытта қазақстандық бизнес үшін YandexGPT API-і орыс тілінде қолжетімді: оны чат-боттар мен ақылды көмекшілер жасау, бизнес-қосымшалар мен веб-сервистерде мәтіндік ақпаратты генерациялау, құрылымдау және жинақтау үшін қолдануға болады. YandexGPT-пен жұмысты жеңілдету үшін біздің мамандар нейрожеліні пайдалану үшін ең танымал сценарийлерге арналған дайын промпттар кітапханасын жинақтады, - деп түсіндірді Александр Поповский.

Қазақ тіліндегі деректерді талдайтын арнайы алгоритм

Қазақстан жасанды интеллект саласындағы әлемдік додаға кеш қосылғанымен, қазіргі уақытта осы салада түрлі жобаларды, оның ішінде қазақ тіліне қатысты жобаларды қарқынды түрде жүзеге асыруда. Ғылым және жоғары білім министрлігінің мәліметінше, бүгінде 6 жоғары оқу орны қазақ тілі корпусын әзірлеу бойынша жобаларды жүргізіп жатыр.

Cонымен қатар көптеген отандық IT компаниялар мен стартаптар өнімдеріне ЖИ-ді қосып, қызметтерді жетілдіруде. Сондай компанияның бірі – «Infinity Enterprises». Олар әлеуметтік медиа кеңістігіндегі деректер жариялана салысымен, дәл «сол сәтте» мониторинг жасап, сізге қажетті ақпараттарды жинайтын «Scano – Media Monitoring» бағдарламасын жасаған.

Жасанды интеллект дәуіріндегі қазақ тілі: Qazaq AI, Scano, Yandex компанияларының тәжірибесін зерттеу

Біз алғашқыда әлемдегі үздік система авторларымен келісімшарт жасасып, сол жүйелердің лицензиясы арқылы қызметтерімізді ұсынатынбыз. Бір өкініштісі ол системаларда қазақ тіліндегі ақпараттардың санаттық анализдері өте нашар жұмыс істейтін. Осы мәселелерді ескере келе, сонымен қатар нарықта қазақ тіліне арнайы бағытталған жүйелердің болмауына байланысты 2022 жылдың желтоқсан айында өзіміздің 100% отандық өнім «Scano» жүйесін құруға кірістік. Бұл – жасанды интеллектке негізделген әлеуметтік медианы талдауға арналған бірнеше микропроцесстерден құралған автоматтандырылған жүйе, – дейді компания директоры Аслан Әбілқас.

Scano жүйесі компания үшін клиенттердің, ал мемлекеттік мекемелер үшін тұрғындардың әлеуметтік медиа кеңістігіндегі көңіл-күйіне, пікірлері мен реакцияларына мониторинг жасап, сол арқылы жылдам маркетингтік және стратегиялық шешімдер қабылдауына мүмкіндік береді. Жоба жетекшісі ЖИ мүмкіндіктерін Scano жүйесіне сәтті енгізген.

Біздің құрастырған алгоритмдер ақпараттарды түрлі санаттарға бөліп, трендтерді анықтайды, сонымен қатар материалдарды мәтін бойынша ғана емес, суреттердегі сөздер бойынша да іздейді, табылған ақпараттардың тоналдылығын анықтайды және көптеген басқа мүмкіндіктерге жол ашады, – дейді ол.

Алайда қазақ тіліндегі деректерді талдау процесіне ЖИ-ді енгізу барысында көптеген қиындықтардың болғанын да жасырмайды.

Scano қазақ тіліндегі деректерді талдау үшін арнайы әзірленген алгоритмдерді қолданады, олар ақпаратты әртүрлі тақырыптар бойынша категорияларға бөліп, трендтерді анықтап, табылған деректердің құндылығын бағалап, жан-жақты аналитикалық қорытындылар жасай алады. Дегенмен, жоба басталған кезде біз қазақ тілігдегі базаның жоқтығынан және осы тілге арналған арнайы модульдерді әзірлеу қажеттілігінен қиындықтарға тап болдық. Бұл мәселені шешу үшін біз интернеттен деректерді өзіміз жинауға мәжбүр болдық, бұл көп уақыт пен ресурстарды талап етті. Содан кейін біз осы деректерді өңдеу және құрылымдаумен айналысып, қазақ тіліндегі мәтіндерді талдауға арналған арнайы алгоритмдер әзірледік. Жұмыс барысында қазақ тілін тілдік интеллект үшін анықтау кезінде кейбір қиындықтар туындады. Атап айтқанда, қазақ тілінің ерекшеліктері мен идиомалары нақты талдауды қиындатуы мүмкін, және біз алгоритмдердің дәлдігін арттыру үшін осы мәселелерді белсенді түрде шешуге тырысамыз. Бүгінде қазақ тіліндегі материалдарды талдау барысында анализ жасау дәлдігін 90%-ға жеткіздік, – дейді Аслан Әбілқас.

P/S: Осы зерттеуді жүргізу барысында OpenAI компаниясы жаңадан ChatGPT 4o (omni) моделінің іске қосылғанын хабарлады. GPT-4o — GPT-4-тің жаңартылған моделі, ол интернеттегі үлкен көлемді деректер негізінде жасалған. Бұл модель 50 түрлі тілді, оның ішінде қазақ тіліндегі мәтінді, аудионы және бейнені тез арада өңдей алады. Жаңа модель аудио-аудармашы ретінде жұмыс істей алады, эмоцияларды қабылдап, бет-әлпетті талдай алады және пайдаланушылардың дыбыстық нұсқауларына жауап бере алады.  Алайда қазақ тіліндегі сұраныстар ағылшын немесе орыс тілінде берілетін ақпараттар деңгейіне жете қойған жоқ. Бірақ Қазақстанның ЖИ нарығында жетекші елдердің қатарына енуіне әлеуеті жеткілікті және алғышарттар да бар.

Жасанды интеллект дәуіріндегі қазақ тілі: Qazaq AI, Scano, Yandex компанияларының тәжірибесін зерттеу

Мәселен, еліміз Oxford Insights жүргізген Үкіметтің 2023 жылға арналған жасанды интеллектке дайындық индексінде 193 елдің арасында 72 орынды,  2021 жылғы DSGI цифрлық дағдылар деңгейі бойынша 134 елдің рейтингінде 43 орын, азаматтардың электрондық қатысу рейтингінде (E-Participation Index) 15 орын, БҰҰ зерттеулері бойынша «Электрондық үкіметті дамыту» индексі бойынша 28 орын және «Онлайн қызметтер» индексі бойынша 8 орынды алады. Сонымен қатар биыл «Жасанды интеллектті дамытудың 2024-2029 жылдарға арналған тұжырымдамасы» бекітілді. Тұжырымдамада нейрондық желілер негізінде ұлттық тіл моделін әзірлеу, деректер орталығы мен суперкомпьютерді қосу сияқты индикаторларға басымдық берілген. Бұл технологияларды қазақ тілінде сөйлету үшін Алтынбек Мұрат ұсынған нақты жұмыстарға кіріскен жөн.

Мемлекет басшысы Қасым-Жомарт Тоқаев Ғылым және технологиялар жөніндегі ұлттық кеңестің отырысында қазақ тіліндегі ЖИ моделін әзірлеу цифрлық дербестігімізді қамтамасыз етіп қана қоймай, мемлекеттік тілді дамытуға мықты серпін беретінін айтқан болатын.

Осылайша, қазақ тілі мен жасанды интеллекттің үйлесуі еліміздің мәдени және ғылыми потенциалын арттырып, халықаралық деңгейде танымал болуына септігін тигізеді. Бұл бағыттағы жұмыстар әрі қарай да жалғасын тауып, жаңа жетістіктерге жетуге мүмкіндік беретіні сөзсіз.

Бөлісу:
Telegram Қысқа да нұсқа. Жазылыңыз telegram - ға