2 Маусым, 18:20
Ушу-саньда төңірегіндегі у-шу: Нұрсұлтан Тұрсынқұлов стипендия ала алмай жүрЖасанды интеллекттің дамуымен тілдің цифрлық қорындағы көлемі мен сапасы бұрын-соңды болмаған маңызға ие болды. Себебі тілдік деректер – ЖИ-ді үйретудің негізгі отыны. Осы тұрғыда қазақ тілінің ахуалы қандай? Оны Орталық Азияның өзге тілдерімен салыстырсақ, қай тұста алда, қай жерде әлі де есе жіберіп жатыр? Бұл сұрақтарға жауап беру – ұлттық ақпараттық қауіпсіздік пен тіл болашағына тікелей қатысты.
Қазақ тілінің қазіргі әлеуеті
Қазақ тілі – Орталық Азиядағы ең көп таралған және мемлекеттік мәртебесі бар тілдердің бірі. Соңғы жылдары тілдің цифрлық кеңістіктегі жағдайы біршама жақсарды. Үкіметтік қолдаулар, IT саласындағы стартаптар мен ерікті мамандардың күшімен қазақ тілінде әртүрлі мәтіндер, аудиожазбалар, сөздіктер, корпус және дерекқорлар жасала бастады.
Қазіргі таңда қазақ тілінің ең үлкен мәтіндік корпустары – Kazakh Language Corpus (KLC), сондай-ақ KazNERD, KazParC сияқты атау тану және параллель аударма саласындағы дерекқорлар. Сөйлеу тіліне арналған Kazakh Speech Corpus та мыңдаған сағаттық аудиожазбамен қамтылған. Бұл – Орталық Азия елдері арасындағы ең ірі жобалардың бірі.
Басқа тілдермен салыстырғанда қай тұста артық?
Қазақ тілі:
Қырғыз және өзбек тілдері:
Осыған қарамастан, қазақ тілі әлі де ағылшын, орыс немесе қытай сияқты жоғары ресурсты тілдермен салыстырғанда “ресурсы аз тіл” санатына жатады. Бұл дегеніміз — ЖИ модельдері үшін әлі де алуан түрлі деректер жетіспейді деген сөз.
Қай тақырыптарда қор жеткілікті?
Қазақ тілінде соңғы жылдары кеңейіп келе жатқан негізгі тақырыптар:
Қай салаларда әлі де жетіспеушілік бар?
Қазақ тіліндегі ЖИ қорын қалай кеңейтуге болады?
Қазақ тілі – Орталық Азиядағы ЖИ саласында ең үлкен әлеуетке ие тілдердің бірі. Алайда бұл әлеуетті толық жүзеге асыру үшін жүйелі жұмыс қажет. Тілдік дерекқорды кеңейту, салааралық мәтіндерді жинау, сөйлеу тілін қамту – бәрі қазақ тілінің цифрлық кеңістіктегі болашағын айқындайды.
Жасанды интеллект дәуірінде тілдің өміршеңдігі – оның мәліметтік қорына, қолдану ауқымына және технологияға бейімділігіне байланысты. Сондықтан қазақ тілі – тек мәдени құндылық емес, цифрлық тәуелсіздіктің де кілті.
2 Маусым, 18:20
Ушу-саньда төңірегіндегі у-шу: Нұрсұлтан Тұрсынқұлов стипендия ала алмай жүр22 Мамыр, 12:15
«Егер кетпесем, кейін өкінетін едім»: Қытайдағы қазақ футболшысы Еуропадан қалай шақырту алды20 Мамыр, 08:00
Хусановтың өзі сұхбатқа келді | «Ордабасы» чемпион болмайды | «Барсаның» фанаты емеспін12 Мамыр, 16:42
Ата-енеме сәлем салмаймын І Олимпиададағы өкінішті әлі ұмытқан жоқпын - Абиба Әбужақынова