Skip to main content

Posts

Showing posts from August, 2012

How to write Unicode Assamese (Indian language) text using Latex

TeX হৈছে টাইপছেটিং ছফ্টৱেৰ। ডোনাল্ড নুথে কম্পিউটাৰ বিজ্ঞানৰ চাৰিখন কালজয়ী কিতাপ(দ্যা আৰ্ট অৱ কম্পিউটাৰ প্ৰগ্ৰেমিং, খণ্ড ১,২,৩,৪) লিখিবৰ বাবে এই কম্পিউটাৰ টাইপছেটিং ছফ্টৱেৰটো সাজি উলিয়াইছিল ১৯৭৮চনত। TeX শব্দটো তেওঁলোকে উচ্ছাৰণ কৰে 'টেক' হিচাবে (Techical শব্দটো উচ্ছাৰণ কৰা ধৰণে)। Metafont আৰু Typefaceৰ সহায় লৈ তৈয়াৰ কৰা এই ছফ্টৱেৰটোৰ প্ৰধান উদ্দেশ্য আছিল কম কষ্টত ধুনীয়া কিতাপ লিখা। TeXৰ উত্তৰসূৰী হিচাবে LaTeX, XeTeX, TeTeX, LuaTex ইত্যাদি বহুতো ছফ্টৱেৰ তৈয়াৰ হয়। এই আটাইবোৰ TeXৰ উত্তৰসূৰী বা TeX কৰমুক্ত ছফ্টৱেৰ। এই প্ৰৱন্ধটোত Xetex ব্যৱহাৰ কৰি কেনেকৈ লিখিব পাৰি, তাৰ উদাহৰণ দিয়া হব। (আপুনি Latex ব্যৱহাৰকাৰী বুলি ধৰি লোৱা হব ) XeTeX ব্যৱহাৰ কৰিবৰ বাবে কি কি Package লাগিব?   (Linux ব্যৱহাৰকাৰীৰ বাবে) TeX সম্পাদনা কৰিব পৰা সজুলি, যেনে - LyX  (ঐচ্ছিক)। একো ন'হলে আপুনি vim বা আন Text Editor  যেনে - gEdit, kWrite আদিও ব্যৱহাৰ কৰিব পাৰে।  PDF, dvi আদি  ফাইল চাব পৰা সঁজুলি, যেনে - evince, xPDF ইত্যাদি। tex ফাইলটোত কি কি নতুন অংশ যোগ কৰিব? \usepackage{fontspec} \font\as=&q

Stemming of Assamese

Stemming is the process of automatically extracting the base form of a given word of a language. Assamese is a morphologically rich, relatively free word order, Indo-Aryan language spoken in North-Eastern part of India that uses Assamese-Bengali script for writing. As it is among the less computationally studied languages, our aim is to extract stem from a given word. We adopt the suffix stripping approach along with a rule engine that generates all the possible suffix sequences. Algorithm-I Read a line from the corpus file.  Extract words (from this point we called it as token ) from the line, clean the token, that is remove punctuation marker attached with token if there is one. Look up suffix-list generated manually from the end of the token. If matched with the suffix-list extract and exit.  Go to step 1 until the end of the corpus. Algorithm-II Read a  line from the corpus file. Extract words (from this point we called it as token from the line, cl