Arabic Root Extractor
Synopsis
The Arabic Root Extractor is one of the MAPS suite for orthography, beside its main function of Arabic root extraction it also has four other modules that do lemmatization, context free diacritization, part of speech classification, and phonemic transcription.
Preview
Arabic is a highly inflectional language, meaning it uses an effective system to generate and derive words. Root extraction is the process of removing any affixes from such words, reversing the radical mutation and alteration that may have occured through the inflection process and reducing those words to their "roots". Our full-fledged morphological analyzer utilizes a sophisticated algorithm not only for affix removal but also for root extraction, lemmatization, context-free diacritization, part of speech classification, and phonemic transcription, it does all these using complicated techniques to deal with all forms of the assimilated, hollow, and defect tokens of the surface word forms, the morphological analyzer does the pattern recognition necessary to complete the task and returns the correct form of the root and lemma together with the fully dicaritized form of the input word. A root dictionary is implemented to boost the system which can be used for Arabic monolingual document retrieval.
Resources
The sample given below contains multilingual text. Without proper rendering support, you may see question marks, boxes, or other symbols instead of the correct intended characters, you may either get the suitable fonts from our lingual support page.
Sample output
جيش أنصار السنة منظمة عراقية إرهابية مسلحة نشأت قبل الاحتلال الأمريكي للعراق أساسها كان من جماعة أنصار الإسلام الكردية التي كانت تحارب جلال طالباني ومسعود برزاني في كردستان وتسيطر على بعض المدن والقرى في كردستان حيث لا سيطرة لنظام صدام, قامت القوات الأمريكية في بداية الحرب على العراق بقصف أمريكي على مراكز ومدن جماعة أنصار الإسلام في كردستان العراق وقد استشهد ما يقارب 80 مجاهد ومن بين الذين استشهدوا رائد خراسات الأردني وبعد القصف الأمريكي قاموا بدعوى للانضمام إليهم للجهاد في كردستان والموصل وتكريت انضم لهم عدد كبير من العرب السنة وقاموا بتسمية الجماعة أنصار السنة بسبب رفع الظلم عن أهل السنة والذي وقع بشكل كبير واضح بعد الاحتلال الأمريكي للعراق ،تعتبر الجماعة ثاني أو ثالث أكبر جماعة جهادية بالعراق تقاتل الأمريكان والحكومة العراقية الموالية للاحتلال وقد برزوا في الأنبار وفي مدينة الرمادي خاصة حيث ينتشر عناصر الجماعة في المدينة
jy$ !nSAr Alsn: mnZm: orAqy: ErhAby: mslH: n$!t qbl AlEHtlAl Al!mryky llorAq !sAshA kan mn jmAo: !nSAr AlEslAm Alkrdy: Alty kAnt tHArb jlAl TAlbAny wmsowd brzAny fy krdstAn wtsyTr olY boD Almdn wAlqrY fy krdstAn Hyx lA syTr: lnZAm SdAm, qAmt AlqwAt Al!mryky: fy bdAy: AlHrb olY AlorAq bqSf !mryky olY mrAkz wmdn jmAo: !nSAr AlEslAm fy krdstAn AlorAq wqd Est$hd mA yqArb 80 mjAhd wmn byn Alcyn Est$hdwA rAed KrAsAt Al!rdny wbod AlqSf Al!mryky qAmwA bdow: llEnDmAm Elyhm lljhAd fy krdstAn wAlmwSl wtkryt EnDm lhm od kbyr mn Alorb Alsn: wqAmwA btsmy: AljmAo: !nSAr Alsn: bsbb rfo AlZlm on !hl Alsn: wAlcy wqo b$kl kbyr wADH bod AlEHtlAl Al!mryky llorAq, totbr AljmAo: xAny !w xAlx !kbr jmAo: jhAdy: bAlorAq tqAtl Al!mrykAn wAlHkwm: AlorAqy: AlmwAly: llEHtlAl wqd brzwA fy Al!nbAr wfy mdyn: AlrmAdy Kas: Hyx ynt$r onASr AljmAo: fy Almdyn:
Token: input word
KATS: Kalmasoft Arabic Transliteration System
Root: Arabic radical
Type: root orthographic type
Category: root class
ID | Token | KATS | Root | KATS | Type | Category |
---|---|---|---|---|---|---|
1 | جيش | jy$ | جيش | jy$ | Weak | Hollow |
2 | أنصار | !nSAr | نصر | nSr | Triconsonantal | Sound |
3 | السنة | Alsn: | سنن | snn | Triconsonantal | Double radical |
4 | منظمة | mnZm: | نظم | nZm | Triconsonantal | Sound |
5 | عراقية | orAqy: | عرق | orq | Triconsonantal * | Sound |
6 | إرهابية | ErhAby: | رهب | rhb | Triconsonantal | Sound |
7 | مسلحة | mslH: | سلح | slH | Triconsonantal | Sound |
8 | نشأت | n$!t | نشأ | n$! | Triconsonantal | 3rd Hamzated |
9 | قبل | qbl | قبل | qbl | Triconsonantal * | Sound |
10 | الاحتلال | AlAHtlAl | حلل | Hll | Triconsonantal | Double radical |
(*) This module does not recognize part of speech, please refer to Arabic PoS Tagging module. | ||||||