Agglutinativ tillar uchun pos teglash va stemming masalasi (turk, uyg‘ur, o‘zbek tillari misolida)

Authors

  • Botir Elov
  • Shahlo Hamroyeva
  • Oqila Abdullayeva
  • Zilola Husainova
  • Nizomaddin Xudayberganov

Keywords:

nutq qismlarini belgilash, POS teglash, stemming, axborot qidirish, IR, stemming algoritmlari.

Abstract

Agglutinativ tillarda mumkin bo‘lgan so‘z shakllari soni nazariy jihatdan cheksiz hisoblanadi. Bu o‘z navbatida agglutinativ tillarda lug‘atdan tashqari (out-of-vocabulary, OOV) so‘zlarni POS teglash (partof-speech) muammosini yuzaga keltiradi. Agglutinativ tillarda o‘zak va qo‘shimchalarni birlashtirib so‘z hosil qilinadi. O‘zakka qo‘shimchalar qo‘shilganda fonetik uyg‘unlik va disgarmoniya yuzaga kelgani uchun ham fonetik, ham morfologik o‘zgarishlarni tahlil qilish zarur.
Ko‘pgina NLP vazifalarni hal qilishda so‘z shakllarini ularni o‘zakkacha qisqartirish (stemlash)ga to‘g‘ri keladi. So‘zdan barcha flektiv affikslarni olib tashlash va so‘zning qolgan qismini lemmatizatsiya qilish tabiiy tilni qayta ishlash (NLP)ning muhim vazifalaridan biri hisoblanib, ushbu jarayon stemming deb yuritiladi. Stemming jarayoni axborot qidirish (IR, Information Retrieval) tizimlarida muhim ahamiyat kasb etadi.

Downloads

Published

2023-10-04