Skip to main content

Posts

Showing posts with the label NLP

Assamse Loan words : অসমীয়া ধাৰ কৰা শব্দ

Loanwords are words adopted by the speakers of one language ( target language ) from a different language (the source language ). A loanword can also be called a borrowing words . It is a consequence of sociocultural contact between two language communities. Borrowing of words can go in both directions between the two languages in contact, but often there is an asymmetry, such that more words go from one side to the other. In this case the source language community has some advantage of power, prestige and/or wealth that makes the objects and ideas it brings desirable and useful to the borrowing language community. The following are some example of Assamese loan words and source language. TRANSLATED LOAN WORD বাতৰি কাকত bat ɔri kakɔt (news paper) স্বৰ্ণ যুগ sɔbərnɔ zug (golden era) ৰূপালী জয়ন্তী rupali zɔjənti (silver jubilee) কন্দুৱা গেছ kɔndua ges (tear gas) দূৰদৰ্শন durdɔrχɔn (television) MARATHI WORDS তাঙৰণ taŋɔrɔn (edition) বৰঙণি bɔr

Word Formation Process of Assamese

Word formation is the process of creating new words. In other words the ways in which new words are made on the basis of other words or morphemes. Most English vocabulary arises by making new lexemes out of old ones--either by adding an affix to previously existing forms, altering their word class, or combining them to produce compounds. These processes of construction are of interest to grammarians [1]. In this report I will try to write something on “Word formation of Assamese (Asomiya)”. The word Assamese is an English one, built on the same principle like Japanese, Chinese etc. The history and philology of the Assamese language was scientifically studied and presented for the first time by Dr. Banikanta Kakati[2]. The first Assamese grammar, “A Grammar of the Assamese Language” by William Robinson was published in 1839. In 1848, Nathan Brown published an Assamese Grammar, and in 1894, Prof. Nicholl published his “Sketch of Assamese Grammar”. After the work of Dr. Banikant Kakati, a

Workshop on Introduction to Computational Phonetics, Phonology and Prosody

Workshop on Introduction to Computational Phonetics, Phonology and Prosody 23 – 29 December, 2012 Department of Computer Science & Engineering Tezpur University Objective of the Workshop: In t his workshop leading figures from academia will provide the participants exposure to the basic concepts as well as the state-of-the-art of Speech processing and transcription methods, particularly in Indian language context. Emphasis will be put on hands-on practice on NE language transcription. Target participants: Teachers, researchers and students of Linguistics, English/Assamese/Bodo with specialization in linguistics, Computer Science, Electronics (speech processing) from Colleges and Universities. It will also be open for special interest groups. Prior requirement : Familiarity with grammar and linguistics. Resource persons : From IIIT - H yderabad, IIT-Guwahati a n d Tezpur University Registration Fees: 200.00 for students and 500.00 for

Computational Linguistic works on Assamese, published till 8-October-2012

তালিকাভুক্ত গৱেষণা পত্ৰকেইখন হ'ল যোৱা দশকটোত (২০০২-২০১২) বিভিন্ন আলোচনাচক্ৰ, কৰ্মশালা, সন্মিলন , তথা আলোচনীত পঠিত বা প্ৰকাশিত লিখনি, যি ৰাজ্যিক, ৰাষ্ট্ৰীয় তথা আন্তৰাষ্ট্ৰীয় পৰ্যায়ত অসমীয়া ভাষাক প্ৰতিনিধিত্ব কৰিছে আৰু গাণনিক ভাষাবিজ্ঞানৰ মেপত অসমীয়া ভাষক প্ৰতিষ্ঠা কৰিছে। দেখা যায় যে এই গোটেই কামখিনি মাত্ৰ তিনিটা পৰীক্ষাগাৰৰ পৰাহে হৈছে, তেজপুৰ বিশ্ববিদ্যালয় ভাষা সংসাধন কেন্দ্ৰ,  RCILTS-আই. আই. টি. গুৱাহাটী আৰু কম্পিউটাৰ বিজ্ঞান বিভাগ গুৱাহাটী বিশ্ববিদ্যালয়। ইয়াৰ উপৰিও CDAC, CIIL, LDC-IL আদি কেন্দ্ৰীয় চৰকাৰৰ ভাষা সংসাধন লেব সমূহটো অসমীয়া ভাষা বিভিন্ন ধৰণৰ কাম হৈছে যদিও তাৰ বেছিভাগ কামেই সদৰি কৰা নহয়, যাৰ ফলত সদৰি কৰা কামৰ সংখ্যা যঠেষ্ঠ কম। Analysis and evaluation of stemming algorithms: a case study with Assamese ; N. Saharia, U. Sharma and J.K. Kalita; in Proceedings of the International Conference on Advances in Computing, Communications and Informatics (ICACCI), Chennai, 2012. Dynamic segmentation of vocal extract for Assamese Speech to Text Conversion using RNN ; K.

Part of Speech tagging of Assamese

Part of Speech (POS) tagging is the process of marking up words and punctuation characters in a text with appropriate POS labels. The problems faced in POS tagging are many. Many words that occur in natural language texts are not listed in any catalog or lexicon. A large percentage of words also show ambiguity regarding lexical category.  The challenges of our work on POS tagging for Assamese, an Indo-European language, are compounded by the fact that very little prior computational linguistic exists for the language, though it is a national language of India and spoken by over 30 million people. Assamese is a morphologically rich, free word order, inflectional language. Although POS tagged annotated corpus for some of the Indian languages such as Hindi, Bengali, and Telegu have become available lately, a POS tagged corpus for Assamese  was unavailable till we started creating one for the work presented here. Another problem was that a clearly defined POS tagset for Assamese was un

Stemming of Assamese

Stemming is the process of automatically extracting the base form of a given word of a language. Assamese is a morphologically rich, relatively free word order, Indo-Aryan language spoken in North-Eastern part of India that uses Assamese-Bengali script for writing. As it is among the less computationally studied languages, our aim is to extract stem from a given word. We adopt the suffix stripping approach along with a rule engine that generates all the possible suffix sequences. Algorithm-I Read a line from the corpus file.  Extract words (from this point we called it as token ) from the line, clean the token, that is remove punctuation marker attached with token if there is one. Look up suffix-list generated manually from the end of the token. If matched with the suffix-list extract and exit.  Go to step 1 until the end of the corpus. Algorithm-II Read a  line from the corpus file. Extract words (from this point we called it as token from the line, cl

How to design an online Assamese Keyboard (Basic version)

অনলাইন অসমীয়া ছাবিফলি (খণ্ড - ১) আপোনাৰ নিজৰ জলস্থানৰ (ছাইটৰ) বাবে অসমীয়া লিখিব পৰা অনলাইন সঁজুলি সাজিব বিচাৰিছে নেকি? আপুনি আপোনাৰ নামত এখন অনলাইন অসমীয়া ছাবিফলি তৈয়াৰ কৰিব পাৰে, তাৰবাবে আপোনাক লাগিব HTML নামৰ কম্পিউটাৰ ভাষাবিধৰ প্ৰাথমিক জ্ঞান।  আপুনি তলৰ HTML ভাষাত লিখা ক'ডখিনি যিকোনো এটা Text সম্পাদনা কৰিব পৰা সজুলিত (যেনে- notepad, notepad++ , wordpad, gedit , kedit .. ইত্যাদি) প্ৰতিলিপি কৰি লওঁক। এতিয়া নথিখন () আপোনাৰ নামত সাঁচক। নথিখন সাঁচোতে নথিখনৰ extension যাতে .htm বা .html হে হয় সেইটো মন কৰিব, নহলে অকনমান পয়মাল হ`ব। যদি আপোনাৰ নাম 'ৰাম', তেতিয়া নথিখনৰ সম্পূৰ্ণ নামটো হ`ব  'ৰাম.html' বা 'ৰাম.htm'। এতিয়া আপুনি নথিখনত একেৰাহে দুবাৰ টিপি (যাক আমি ইংৰাজীত ডবোল ক্লিক বুলি কওঁ) দিয়ক । আপোনাৰ সাধাৰনতে ব্যৱহৃত ব্ৰাউজাত (যেনে-অ`পেৰা, মঝিলা ফায়াৰফক্স) নথিখন খোল খাব, HTML ক'ডখিনিয়ে সজোঁৱা একেবাৰে প্ৰাথমিক পৰ্যায়ৰ এখন অসমীয়া ছাবিফলি। এতিয়া আপোনাৰ HTMLৰ জ্ঞান ব্যৱহাৰ কৰি এখন সন্দুৰ অসমীয়া লিখিব পৰা ছাবিফলি সঁজাই পেলাওঁক আৰু ছাবিফলি

অসমীয়া ভাষাৰ আটাইতকৈ বেছি ব্যৱহৃত আখৰ (Most Frequent Character of Assamese)

অসমীয়া ভাষাৰ আটাইতকৈ বেছি ব্যৱহৃত আখৰটো বিচাৰোতে মোৰ মনত দুটা প্ৰশ্নৰ উদয় হ'ল। ১) আমি স্বৰচিহ্নবোৰক আখৰ হিচাপে ধৰিমনে? (মন কৰিবলগীয়া - স্বৰবৰ্ণ / স্বৰচিহ্ন) ২) ভাষাৰ ব্যৱহাৰিক দিশ আৰু ভাষাৰ কাৰিকৰী উপস্থাপন (encoding) দুটা পৃথক বিষয়। আমি ব্যৱহাৰিক জীৱনত স্বৰচিহ্নসমুহক পৃথক বৰ্ণ হিচাপে নধৰোঁ (আচলতে একো হিচাপেই নধৰোঁ নেকি?)। তাৰমানে- ক, কি, কা, কী ইত্যাদি একোটা একোটা পৃথক বৰ্ণ। "কাৰ কি খবৰ? কোন কেতিয়া আহিবা।"-বাক্যদুটাত বৰ্ণ সংখ্যা তলত দিয়া ধৰনৰ- আ--১, কা--১, কি--১, কো--১, কে--১, খ--১, তি--১, ৰ--২, ব--১, বা--১, ন--১, য়া--১, হি--১, ?--১,।--১ বাক্যদুটাত 'ক' বৰ্ন নাই কিন্তু 'কা', 'কি', 'কো', 'কে' ইত্যাদি বৰ্ণ একোটাকৈ আছে নে 'ক' বৰ্ণ চাৰিটা আছে? আমি দৈনন্দিন এনেকৈয়ে শব্দ গননা কৰি আহিছোঁ হ'কনে!!! কোনটো শুদ্ধ? মই ভাষাৰ উপস্থাপনৰ (encoding) দিশৰ পৰা চাওঁতে (অৰ্থাত স্বৰচিহ্নসমুহও পৃথক বৰ্ণ ) পোৱা আটাইতকৈ বেছি ব্যৱহৃত আখৰৰ তালিকাখন তলত দিয়া ধৰনৰ- (প্ৰথম ১০টা স্থান প্ৰাপ্ত বৰ্ণ)