Skip to main content

Stemming of Assamese

Stemming is the process of automatically extracting the base form of a given word of a language. Assamese is a morphologically rich, relatively free word order, Indo-Aryan language spoken in North-Eastern part of India that uses Assamese-Bengali script for writing. As it is among the less computationally studied languages, our aim is to extract stem from a given word. We adopt the suffix stripping approach along with a rule engine that generates all the possible suffix sequences.

Algorithm-I
  1. Read a line from the corpus file. 
  2. Extract words (from this point we called it as token) from the line, clean the token, that is remove punctuation marker attached with token if there is one.
  3. Look up suffix-list generated manually from the end of the token. If matched with the suffix-list extract and exit. 
  4. Go to step 1 until the end of the corpus.

Algorithm-II
  1. Read a  line from the corpus file.
  2. Extract words (from this point we called it as token from the line, clean the token, that is remove punctuation marker attached with token if there is one. 
  3. Check the dictionary. If a dictionary entry matches with the token, mark token as root word and exit otherwise execute the next step. 
  4. Look up suffix-list generated manually from the end of the token. If there is a match with the suffix-list extract and exit.  
  5. Go to step 1 until the end of the corpus.
We found 82% accuracy with the suffix stripping approach after adding a root-word list of size 20,000 approximately.

For more information Paper

 

 

Comments

Popular posts from this blog

Assamse Loan words : অসমীয়া ধাৰ কৰা শব্দ

Loanwords are words adopted by the speakers of one language ( target language ) from a different language (the source language ). A loanword can also be called a borrowing words . It is a consequence of sociocultural contact between two language communities. Borrowing of words can go in both directions between the two languages in contact, but often there is an asymmetry, such that more words go from one side to the other. In this case the source language community has some advantage of power, prestige and/or wealth that makes the objects and ideas it brings desirable and useful to the borrowing language community. The following are some example of Assamese loan words and source language. TRANSLATED LOAN WORD বাতৰি কাকত bat ɔri kakɔt (news paper) স্বৰ্ণ যুগ sɔbərnɔ zug (golden era) ৰূপালী জয়ন্তী rupali zɔjənti (silver jubilee) কন্দুৱা গেছ kɔndua ges (tear gas) দূৰদৰ্শন durdɔrχɔn (television) MARATHI WORDS তাঙৰণ taŋɔrɔn (edition) বৰঙণি bɔr...

অসমীয়া সমন্ধবাচক শব্দৰ তালিকা

আইচুদেউ আইতা আইদেউ আই আপাদেউ আমৈ এনাইদেউ ককাইদেউ ককা খুলশালী খুৰাদেউ খুৰীদেউ ঘৈণী জা জীয়ৰী জী জেঠাইদেউ জেঠা জেঠুদেউ জেঠু জেঠেৰী জে - শাহু জোঁৱাই তাৱৈ দদাইদেউ দাদা দেউতা দেওৰ ননদ নবৌ নাতিনী নাতি নিচাদেউ পিতাদেউ পিতৃ পুঠাদেউ পেহাদেউ পেহীদেউ পৈ পতি পত্নী বন্ধু বাইচাদেউ বাইদেউ বান্ধৱী বিয়নী বিয়ৈ বৈনাই বোপাই বোৱাৰী বৌদেউ ভগিনী ভগ্নী ভতিজা ভনী ভাই ভাই - পো ভাই - বোৱাৰী ভাই - শহুৰ ভাগিনী ভাগিন ভাগী মহাদেউ মহা মাতৃ মামা মামীদেউ মামী মাহীদেউ মাহীমা মা মিতিনী মোমাইদেউ শহুৰ শালপতি শাহু সখা সখীয়নী সখী সতিনী স্বামী

মিত্ৰাক্ষৰ ছন্দৰ কবিতা

বহুদিনৰ আগতে মিত্ৰাক্ষৰ ছন্দত কবিতা লিখিবলৈ চেষ্টা কৰিছিলোঁ। ব্ৰহ্মপুত্ৰ লাচিতৰ অসমত     পুত্ৰ শান্তনুৰ। বৈ আছে অহৰহ     কুলুকুলু সুৰ।। হৰিনাম ৰসে        আলোকময় প্ৰকাশে। গহীন গম্ভীৰ        গতি চিৰপ্ৰবাহমান।। তোৰ লহৰত        সোন ফুলে পথাৰত। অসমীয়ে ৰচে        সপোন সুখৰ।। ক’ত কাহিনী        সমিল-মিলৰ। বিজড়িত তোৰ         বিশাল বুকুত।। সৱ সোৱৰণি        প্ৰতিবিম্বিত আজি। অনন্ত কালৰ         সজল চকুত।।  *************** তোৰ লহৰত             অসমৰ চহৰত         নিনাদিত হয় ঐক্যতান। জাতি উপজাতি            মিলনৰ পৃষ্ঠভূমি         গায় সমন্বয়ৰ...