Arabic Root Extractor

Synopsis

The Arabic Root Extractor is one of the MAPS suite for orthography, beside its main function of Arabic root extraction it also has four other modules that do lemmatization, context free diacritization, part of speech classification, and phonemic transcription.

Information


Reference: MRLROOT

Last updated: 15/1/2023

Preview

Arabic is a highly inflectional language, meaning it uses an effective system to generate and derive words. Root extraction is the process of removing any affixes from such words, reversing the radical mutation and alteration that may have occured through the inflection process and reducing those words to their "roots". Our full-fledged morphological analyzer utilizes a sophisticated algorithm not only for affix removal but also for root extraction, lemmatization, context-free diacritization, part of speech classification, and phonemic transcription, it does all these using complicated techniques to deal with all forms of the assimilated, hollow, and defect tokens of the surface word forms, the morphological analyzer does the pattern recognition necessary to complete the task and returns the correct form of the root and lemma together with the fully dicaritized form of the input word. A root dictionary is implemented to boost the system which can be used for Arabic monolingual document retrieval.

Arabic root extractor

Sample output
Raw input text

جيش أنصار السنة منظمة عراقية إرهابية مسلحة نشأت قبل الاحتلال الأمريكي للعراق أساسها كان من جماعة أنصار الإسلام الكردية التي كانت تحارب جلال طالباني ومسعود برزاني في كردستان وتسيطر على بعض المدن والقرى في كردستان حيث لا سيطرة لنظام صدام, قامت القوات الأمريكية في بداية الحرب على العراق بقصف أمريكي على مراكز ومدن جماعة أنصار الإسلام في كردستان العراق وقد استشهد ما يقارب 80 مجاهد ومن بين الذين استشهدوا رائد خراسات الأردني وبعد القصف الأمريكي قاموا بدعوى للانضمام إليهم للجهاد في كردستان والموصل وتكريت انضم لهم عدد كبير من العرب السنة وقاموا بتسمية الجماعة أنصار السنة بسبب رفع الظلم عن أهل السنة والذي وقع بشكل كبير واضح بعد الاحتلال الأمريكي للعراق ،تعتبر الجماعة ثاني أو ثالث أكبر جماعة جهادية بالعراق تقاتل الأمريكان والحكومة العراقية الموالية للاحتلال وقد برزوا في الأنبار وفي مدينة الرمادي خاصة حيث ينتشر عناصر الجماعة في المدينة

Raw input in KATS

jy$ !nSAr Alsn: mnZm: orAqy: ErhAby: mslH: n$!t qbl AlEHtlAl Al!mryky llorAq !sAshA kan mn jmAo: !nSAr AlEslAm Alkrdy: Alty kAnt tHArb jlAl TAlbAny wmsowd brzAny fy krdstAn wtsyTr olY boD Almdn wAlqrY fy krdstAn Hyx lA syTr: lnZAm SdAm, qAmt AlqwAt Al!mryky: fy bdAy: AlHrb olY AlorAq bqSf !mryky olY mrAkz wmdn jmAo: !nSAr AlEslAm fy krdstAn AlorAq wqd Est$hd mA yqArb 80 mjAhd wmn byn Alcyn Est$hdwA rAed KrAsAt Al!rdny wbod AlqSf Al!mryky qAmwA bdow: llEnDmAm Elyhm lljhAd fy krdstAn wAlmwSl wtkryt EnDm lhm od kbyr mn Alorb Alsn: wqAmwA btsmy: AljmAo: !nSAr Alsn: bsbb rfo AlZlm on !hl Alsn: wAlcy wqo b$kl kbyr wADH bod AlEHtlAl Al!mryky llorAq, totbr AljmAo: xAny !w xAlx !kbr jmAo: jhAdy: bAlorAq tqAtl Al!mrykAn wAlHkwm: AlorAqy: AlmwAly: llEHtlAl wqd brzwA fy Al!nbAr wfy mdyn: AlrmAdy Kas: Hyx ynt$r onASr AljmAo: fy Almdyn:


Token: input word
KATS: Kalmasoft Arabic Transliteration System
Root: Arabic radical
Type: root orthographic type
Category: root class


ID Token KATS Root KATS Type Category
1 جيش jy$ جيش jy$ Weak Hollow
2 أنصار !nSAr نصر nSr Triconsonantal Sound
3 السنة Alsn: سنن snn Triconsonantal Double radical
4 منظمة mnZm: نظم nZm Triconsonantal Sound
5 عراقية orAqy: عرق orq Triconsonantal * Sound
6 إرهابية ErhAby: رهب rhb Triconsonantal Sound
7 مسلحة mslH: سلح slH Triconsonantal Sound
8 نشأت n$!t نشأ n$! Triconsonantal 3rd Hamzated
9 قبل qbl قبل qbl Triconsonantal * Sound
10 الاحتلال AlAHtlAl حلل Hll Triconsonantal Double radical

(*) This module does not recognize part of speech, please refer to Arabic PoS Tagging module.