الصفحة العامة للمعالج اللغوي

الملخص

معالج اللغة متعدد المهام (Multilingual Advanced Processing System) يسمى (مابس) اختصاراً هو من أحدث منظومات المعالجة المتكاملة المخصصة للغات ويشمل المعالج عدداً كبيراً من الأنظمة المفردة المتخصصة في جانب من الجوانب اللغوية تتباين في تناولها للمعطيات النصية ابتداءاً من معالجة الأسماء العربية للأعلام أو للأماكن إلى إجراء العمليات النحوية والإملائية على النصوص المرسلة، المعالج لا غنى عنه لكل الدارسين والباحثين والمستثمرين في مجال المعلوماتية المرتبطة باللغات التي تكتب بالحروف العربية.

نقدم هنا عرضاً شاملاً لكل الميزات الفنية واللغوية للمعالج اللغوي، الجدير بالذكر أنه تتوفر تفاصيل أدق مدعومة بالأمثلة والنماذج بالنسبة لكل عائلة تنتمي للمعالج ووحداتها الداخلية (modules) مبينة في الجزء المخصص لها من الصفحات المشار إليها في هذه الصفحة.

المصطلحات

هنالك عدد من المصطلحات مستخدمة في هذه الصفحة وفي صفحات أخرى من هذا الموقع، هذه المصطلحات مبينة في الجدول التالي حسب علاقتها بالعملية التي يؤديها المعالج اللغوي وأيضاً نوع البيانات واللغة المستخدمة. بإمكانكم الضغط على الوصلة المبينة لمعرفة المزيد من التفاصيل.

نوع العملية لغة المصدر نص الإدخال اللغة المستهدفة نص الإخراج
تشكيلالعربيةنص عربي غير مشكولالعربيةنص عربي مشكول
إسترجاع (عربي)غير العربيةيعتمد على اللغةالعربيةنص عربي
نقل صوتيلغات متعددةيعتمد على اللغةغير العربيةيعتمد على اللغة
نقل حرفي (رومنة)لغات متعددةيعتمد على اللغةلغة بحرف لاتينينص لاتيني
 
إسترجاع (غير عربي)لغات متعددةيعتمد على اللغةغير العربيةيعتمد على اللغة
عربنةغير العربيةيعتمد على اللغةالعربيةنص عربي

المواصفات الفنية للمعالج
  • حفظ الملفات باستخدام أكثر من 6 طرق تشفير (encoding) حسب اللغة أيا كان التطبيق الذي تستعمله لعرض النتائج أو اللغة فإن المعالج كفيل بإخراج النتائج بالتشفير المناسب للعرض ومن هذه التشفيرات المتاحة اليونيكود بالصيغة الصغرى (UTF-8) وكذلك التشفيرات الخاصة بنظام التشغيل ويندوز (1250, 1251, 1253, 1254, 1255, 1256) وتختص باللغات اللاتينية، الإغريقية، الروسية، التركية، العبرية، والعربية، كل هذه اللغات وغيرها يدعمها المعالج مباشرة.
  • إمكان الحفظ للملفات على هيئات مختلفة منها النص العادي، النص التشعبي، والنص الموسع (XML, HTML,TXT) الميزة أعلاه تفيد في حال الرغبة في إجراء معالجات إضافية مثل الإدخال لقاعدة بيانات أو النشر على الإنترنت.
  • لوحة مفاتيح ظاهرية للإدخال باللغات الأعجمية في حال لم تتوفر لوحة مفاتيح عليها الأحرف المناسبة للغة ما فإن المعالج يوفر لوحة مفاتيح على الشاشة يمكنك من خلالها اختبار المعالج بالإدخال المباشر للنماذج.
  • إمكان تغيير شكل الشاشة لتناسب مختلف الأذواق لمزيد من التيسير إذا رغبتم في ترتيب أجزاء الشاشة على نحو يلائم أذواقكم وطريقة سهلة للتعامل مع المحتويات وإنجاز المهام أخفينا معظم التفاصيل حتى نترك لكم المجال للتركيز على المهمة الأساسية فقط.

التطبيقات المستهدفة

  • أنظمة القراءة الآلية
  • أنظمة الترجمة الآلية
  • أنظمة البحث واستعادة المعلومات
  • أنظمة التعرف على المسميات (NER)
  • أنظمة استعادة المعلومات متعددة اللغات
  • التطبيقات المتعلقة بالأمن والسلامة
طريقة عمل المعالج
لا يستخدم النظام أية طرق إحصائية مثل سلاسل ماركوف ولكن بعض الأجزاء تقوم في بنيتها على تقنيات خاصة بالذكاء الإصطناعي، ويعتمد على قواعد بيانات ضخمة أعدت على أسس معرفية متشعبة في اللغة العربية والبرمجة، الجزء الخاص بالتحليل الجغرافي يقوم على بيانات يتم تدقيقها إحصائياً ولكن النظام يستعملها بلا تعديل.





 الهيكل التنظيمي لصفحات العائلة
  لتسهيل الوصول لهدفك فإن الصفحات مرتبة كما يلي:
  • الصفحة العامة للعائلة (شرح لوحدات العائلة مع التعريفات المبسطة)
  • الصفحة الرئيسية للوحدة (الوصف التفصيلي ونماذج للمخرجات)
  • صفحة المواصفات (البيانات الفنية للوحدة وصورها)
  • صفحة الدعم (وصلات التنزيل والوثائق الفنية)

 معالج اللغة

 إضافة علامات التشكيل للنص العربي
لمعرفة التفاصيل ومشاهدة النماذج نرجو الانتقال للصفحة التالية (مشكل النصوص)

 إستخراج الجذور العربية
لمعرفة التفاصيل ومشاهدة النماذج نرجو الانتقال للصفحة التالية (مستخرج الجذور)

 تصريف الأفعال العربية
لمعرفة التفاصيل ومشاهدة النماذج نرجو الانتقال للصفحة التالية (مصرف الأفعال)

 إجراء الاشتقاق اللغوي
لمعرفة التفاصيل ومشاهدة النماذج نرجو الانتقال للصفحة التالية (الاشتقاق اللغوي)


 معالج الدلالة

 تقطيع النصوص العربية
لمعرفة التفاصيل ومشاهدة النماذج نرجو الانتقال للصفحة التالية (مقطع النصوص)

 تصنيف النص العربي
التصنيف (part of speech tagging) هو تمييز نوع الكلمة ووصفها بواحدة من أنواع الكلمات العربية المعروفة فهي إما تنتمي لطائفة الأفعال (ماضي، مضارع، أمر) أو الأسماء (علم، صفة، حال، ضمير)، وتفيد عملية التصنيف في إيجاد قواعد بيانات لغوية منظمة تستعمل في إعداد المعاجم وفي برامج الترجمة الآلية وكذلك في تحليل اللغات.

المصنف المطور من كلماسوفت يقوم بهذه العملية اعتماداً على مجموعة من القواعد التي أعدت بواسطة خبراء في اللغة العربية والبرمجة وذلك لإنجاز عمل نحوي دقيق يمكن الاعتماد عليه. لمعرفة التفاصيل ومشاهدة النماذج نرجو الانتقال للصفحة التالية (مصنف النصوص)

 التفسير الدلالي للنص العربي
لمعرفة التفاصيل ومشاهدة النماذج نرجو الانتقال للصفحة التالية (المفسر الدلالي)


 معالج الأسماء

  • دعم كامل للنظام العالمي لتمثيل اللغات على الكمبيوتر اليونيكود (Unicode) هذا يعني إمكان العمل بكل اللغات التي يدعمها المعالج بما فيها اللغة العربية بدون أدنى قلق في كل مايتعلق بالإدخال والإخراج وحفظ الملفات وعرض النتائج وارتباط ذلك باللغات.
  • أكثر من 10 طرق مختلفة لنقل الأسماء العربية إلى اللغات الأعجمية، هذه الميزة مفيدة جداً بحيث أن نظم النقل متعددة وتختلف باختلاف اللغة المستهدفة، وطرق النقل المدعومة هنا كلها طرق معروفة عالمياً ومخصصة للغة العربية ومن بينها الطرق الشائعة مثل (ISO233, DIN31635, UNGEGN, ALA-LC)، بالإضافة لمعيار النقل الكتابي الموصى به من قبل الندوة العلمية حول توحيد معايير النقل الكتابي لأسماء الأعلام العربية، وهنالك نظم أخرى للنقل مخصصة للغات الأخرى سنعلن عنها مستقبلاً.
  • التشغيل بطريقتين تفاعلية وطريقة غير تفاعلية عبر ملفات الأسماء، بالإمكان إدخال البيانات مباشرة عن طريق لوحة المفاتيح والحصول على النتيجة مباشرة أو قراءتها من ملفات من أنواع مختلفة وهذا مفيد في حال أن البيانات متوفرة بكميات كبيرة ولا مجال لإدخالها بشكل مباشر.
  • إمكان الإدخال والإخراج باستخدام اللغة الأصلية، من المفيد أن يعمل النظام في أكثر من بيئة ولذلك عمدنا إلى توطينه باللغات التي يدعمها فلا حاجة لابتداع جداول لمضاهاة الأحرف بين اللغات المختلفة فبإمكانكم إدخال البيانات بلغتكم مباشرة.
  • الدعم الكامل لأكثر من 30 لغة عالمية أغلب هذه اللغات يستعملها المعالج عند معالجة الأسماء في حالتي النقل من اللغة العربية وإليها.

 كتابة الأسماء العربية باللغة الإنجليزية
بعض المراجع تطلق على هذه العملية مصطلح (رومنة) ونسميها هنا (النقل الحرفي) وهي عملية تنطوي على بعض الصعوبة من حيث أن الاسم العربي يمكن أن يكتب بأكثر من طريقة وذلك بسبب وجود بعض الحروف أو الأصوات التي يمكن تمثيلها بأكثر من حرف في اللغة الإنجليزية، هذا النظام مفيد بإعتبار إمكان إدماجه في منظومة متكاملة للترجمة الآلية ويمكن أيضاً استعماله منفرداً لنقل الأسماء لاستخدامات مختلفة تتطلب كتابة الاسم باللغة الإنجليزية، ويدعم النظام عدداً من المعايير العالمية المعتمدة لكتابة الأسماء العربية باللغة الإنجليزية منها النظام العالمي الموحد (ISO233) والنظام المعياري التقني (SATTS) ونظام الأمم المتحدة للأسماء الجغرافية (UNGEGN) و النظام المعياري الألماني (DIN31635) ونظام مكتبة الكونغرس الأمريكي (ALA-LC). لمعرفة التفاصيل ومشاهدة النماذج نرجو الانتقال للصفحة التالية (كتابة الأسماء باللغة الإنجليزية)

 المصنف الجغرافي للأسماء العربية
نظام فعال يعتمد على الإحصائيات المكانية للأسماء العربية في استقصاء المواقع الجغرافية المحتملة لوجود أي اسم، هذا النظام يستطيع معالجة أسماء مفردة وأسماء كاملة ومن بين الاستخدامات الشائعة الأنظمة الأمنية وأنظمة البحث الجغرافي، يوفر النظام معلومات عن النوع من حيث التذكير والتأنيث وكذلك طبيعة استخدام الاسم. لمعرفة التفاصيل ومشاهدة النماذج نرجو الانتقال للصفحة التالية (المصنف الجغرافي للأسماء)

 نظام عربنة الأسماء
من الضروري وجود طريقة موحدة لكتابة الأسماء الأعجمية بالحروف العربية وهذه العملية نسميها هنا بالعربنة، ولكن حتى مع وجود معيار موحد للكتابة فإنه من الصعب توحيد طريقة النطق في مختلف البلاد العربية، هذا النظام يقدم الحل في أسلوب يجمع بين كل الطرق الإملائية لكتابة الأسماء الأعجمية مع المحافظة على خصوصية كل منطقة جغرافية وذلك بتوجيه المخرجات حسب النطق المعتاد في المنطقة. فمثلاً الاسم (Michael) يكتب "ميشيل" لمنطقة الجزيرة العربية وشمال أفريقيا أو "ميشال" لمنطقة الشام والاسم (Clinton) يكتب "كلنتون" للغالب من العرب و "كلنطون" لأهل شمال أفريقيا وكذلك الاسم (Nichola) يكتب "نيكولا" لمعظم الناطقين بالعربية و "نقولا" لأهل لبنان والشام. لمعرفة التفاصيل ومشاهدة النماذج نرجو الانتقال للصفحة التالية (ناقل الأسماء الأعجمية)

 نقل الأسماء العربية إلى اللغات الأعجمية
لا يقتصر نقل الأسماء عند المعالج على اللغة الإنجليزية فقط بل يتعداها إلى اللغات الأخرى ومن بينها لغات الاتحاد الأوروبي كلها بالإضافة إلى بعض اللغات الروسية والهندية والإثيوبية، فعند إدخال الإسم (برهان) مثلاً فإن المعالج يعيد نفس الاسم (Burhan) للناطقين بالإنجليزية و بالروسية (Бурхан) و (Borhane) للشعوب الفرنكفونية بالإضافة إلى (Borhan) للألمان والبولنديين. لمعرفة التفاصيل ومشاهدة النماذج نرجو الانتقال للصفحة التالية (نظام نقل الأسماء)

 إسترجاع الأسماء باللغات المختلفة
هذا النظام يعمل في إتجاهين أولهما استعادة الأسماء العربية المكتوبة بواحدة من اللغات المنحدرة من اللغة اللاتينية أو غيرها، والثاني استعادة الأسماء الأعجمية المكتوبة باللغة العربية. هذه العملية مطلوبة في أنظمة البحث واسترجاع المعلومات وكذلك للاستخدامات الأمنية المختلفة .لمعرفة التفاصيل ومشاهدة النماذج نرجو الانتقال للصفحة التالية (مسترجع الأسماء)


 المعالج الجغرافي

  • دعم كامل للنظام العالمي لتمثيل اللغات على الكمبيوتر اليونيكود (Unicode) هذا يعني إمكان العمل بكل اللغات التي يدعمها المعالج بما فيها اللغة العربية بدون أدنى قلق في كل مايتعلق بالإدخال والإخراج وحفظ الملفات وعرض النتائج وارتباط ذلك باللغات.
  • أكثر من 10 طرق مختلفة لنقل الأسماء الجغرافية العربية إلى اللغات الأعجمية، هذه الميزة مفيدة جداً بحيث أن نظم النقل متعددة وتختلف باختلاف اللغة المستهدفة، وطرق النقل المدعومة هنا كلها طرق معروفة عالمياً ومخصصة للغة العربية ومن بينها الطرق الشائعة مثل (ISO233, DIN31635, UNGEGN, ALA-LC).، بالإضافة لمعيار النقل الكتابي الموصى به من قبل الندوة العلمية حول توحيد معايير النقل الكتابي لأسماء الأعلام العربية، وهنالك نظم أخرى للنقل مخصصة للغات الأخرى سنعلن عنها مستقبلاً.
  • التشغيل بطريقتين تفاعلية وطريقة غير تفاعلية عبر ملفات الأسماء الجغرافية، بالإمكان إدخال البيانات مباشرة عن طريق لوحة المفاتيح والحصول على النتيجة مباشرة أو قراءتها من ملفات من أنواع مختلفة وهذا مفيد في حال أن البيانات متوفرة بكميات كبيرة ولا مجال لإدخالها بشكل مباشر.
  • إمكان الإدخال والإخراج باستخدام اللغة الأصلية، من المفيد أن يعمل النظام في أكثر من بيئة ولذلك عمدنا إلى توطينه باللغات التي يدعمها فلا حاجة لابتداع جداول لمضاهاة الأحرف بين اللغات المختلفة فبإمكانكم إدخال البيانات بلغتكم مباشرة.
  • الدعم الكامل لأكثر من 30 لغة عالمية أغلب هذه اللغات يستعملها المعالج عند معالجة الأسماء الجغرافية في حالتي النقل من اللغة العربية وإليها.

 كتابة الأسماء الجغرافية العربية باللغة الإنجليزية
بعض المراجع تطلق على هذه العملية مصطلح (رومنة) ونسميها هنا (النقل الحرفي) وهي عملية تنطوي على بعض الصعوبة من حيث أن الاسم الجغرافي العربي يمكن أن يكتب بأكثر من طريقة وذلك بسبب وجود بعض الحروف أو الأصوات التي يمكن تمثيلها بأكثر من حرف في اللغة الإنجليزية، هذا النظام مفيد بإعتبار إمكان إدماجه في منظومة متكاملة للترجمة الآلية ويمكن أيضاً استعماله منفرداً لنقل الأسماء الجغرافية لاستخدامات مختلفة تتطلب كتابة الاسم الجغرافي باللغة الإنجليزية، ويدعم النظام عدداً من المعايير العالمية المعتمدة لكتابة الأسماء الجغرافية العربية باللغة الإنجليزية منها النظام العالمي الموحد (ISO233) والنظام المعياري التقني (SATTS) ونظام الأمم المتحدة للأسماء الجغرافية (UNGEGN) و النظام المعياري الألماني (DIN31635) ونظام مكتبة الكونغرس الأمريكي (ALA-LC). لمعرفة التفاصيل ومشاهدة النماذج نرجو الانتقال للصفحة التالية (كتابة الأسماء الجغرافية باللغة الإنجليزية)

 نقل الأسماء الجغرافية العربية إلى اللغات الأعجمية
لا يقتصر نقل الأسماء عند المعالج على اللغة الإنجليزية فقط بل يتعداها إلى اللغات الأخرى ومن بينها لغات الاتحاد الأوروبي كلها بالإضافة إلى بعض اللغات الروسية والهندية والإثيوبية، فعند إدخال الإسم (سودان) مثلاً فإن المعالج يعيد نفس الاسم الجغرافي (Sudan) للناطقين بالإنجليزية و بالروسية (Cудан) و (Soudan) للشعوب الفرنكفونية بالإضافة إلى (Sodan) للألمان والبولنديين. لمعرفة التفاصيل ومشاهدة النماذج نرجو الانتقال للصفحة التالية (نظام نقل الأسماء)

 إسترجاع الأسماء الجغرافية باللغات المختلفة
هذا النظام يعمل في إتجاهين أولهما استعادة الأسماء العربية المكتوبة بواحدة من اللغات المنحدرة من اللغة اللاتينية أو غيرها، والثاني استعادة الأسماء الأعجمية المكتوبة باللغة العربية. هذه العملية مطلوبة في أنظمة البحث واسترجاع المعلومات وكذلك للاستخدامات الأمنية المختلفة .لمعرفة التفاصيل ومشاهدة النماذج نرجو الانتقال للصفحة التالية (مسترجع الأسماء)

 نقل الأسماء الجغرافية إلى اللغة العربية
من الضروري وجود طريقة موحدة لكتابة الأسماء الأعجمية بالحروف العربية وهذه العملية نسميها هنا بالعربنة، ولكن حتى مع وجود معيار موحد للكتابة فإنه من الصعب توحيد طريقة النطق في مختلف البلاد العربية، هذا النظام يقدم الحل في أسلوب يجمع بين كل الطرق الإملائية لكتابة الأسماء الأعجمية مع المحافظة على خصوصية كل منطقة جغرافية وذلك بتوجيه المخرجات حسب النطق المعتاد في المنطقة. فمثلاً الاسم الجغرافي (Gabon) يكتب "الجابون" لمنطقة الجزيرة العربية وشمال أفريقيا أو "الغابون" لمنطقة الشام والاسم الجغرافي (Denmark) يكتب "الدنمارك" للغالب من العرب و "الدنيمارك" لأهل شمال أفريقيا وكذلك الاسم الجغرافي (Armenia) يكتب "أرمينيا" لمعظم الناطقين بالعربية و "أرمينية" لأهل لبنان والشام. لمعرفة التفاصيل ومشاهدة النماذج نرجو الانتقال للصفحة التالية (ناقل الأسماء الأعجمية)


البداية » المعالج اللغوي
المرجع: MAPS | الفئة: برامج | عدد المكونات 19 | آخر تحديث: 23/7/2019