O‘ZBEK-TURK PARALLEL KORPUSI UCHUN MATNLAR TOKENIZATSIYASI MASALASI

Authors

  • Iqbola Xolmonova

Keywords:

token, tokenizatsiya jarayoni, parallel korpus, Python NLTK, o‘zbek-turk parallel korpus.

Abstract

Ushbu maqolada tokenizatsiya haqida, korpus tuzish uchun tokenizatsiya zarurligining sabablari, o‘zbek-turk parallel matnlari tokenizatsiyasini amalga oshiruvchi dasturlar va ularning mavjud imkoniyatlari yoritilgan. Shu bilan birga, o‘zbek-turk parallel korpusi uchun matn tokenizatsiyasi jarayonida duch kelish mumkin bo‘lgan muammolar va ularning yechimi haqida so‘z boradi. Undan tashqari “Python NLTK yordamida so‘z tokenizatsiyasi” dasturidan foydalanish tartibi haqida ma’lumotlar mavjud.

Downloads

Published

2024-06-12