You are on page 1of 32

‫الرحمن ال ح م‬

‫الرحيم‬ ‫م ﷲ ال حم‬
‫بسم‬

‫تعريب الحاسبـ ـ ـ ــات‬


‫قسم الحاسب اآللي‪ -‬الفرقة الرابعة‬
‫المحاضرة التاسعـ ـ ـ ـ ـ ــة‬
‫المقرر‬
‫اذ ال ق‬
‫ااستاذ‬
‫د‪ /‬أحمد الحرب‬
‫الحربي‬

‫‪١‬‬
‫ٓ‬
‫القـ ـراءة اال ليـ ـ ــة للنــص الع ـ ـ ـ ـ ـ ـ ــربي بمس ـ ـ ـ ـ ـ ـ ــاعدة‬
‫الهجائي‬
‫الالمصحح ال ائ‬

‫‪٢‬‬
‫مقدمــــــة )‪:(Introduction‬‬
‫‪ -١‬مقدم ة‬
‫‪(Optical‬‬
‫‪(O‬‬ ‫‪ti l Ch‬‬‫‪Character‬‬‫اآلليةة للللحروف ‪t‬‬‫القراءة اآلل‬
‫الق ا‬ ‫•‬
‫))‪ Recognition (OCR‬تعد من مجاالت البحث التي‬
‫والتي‬
‫األخيرة‪ ،‬ال‬
‫اآلونة األ‬
‫اآللي في اآل ة‬
‫الحاسب اآلل‬
‫علماء ال ا‬
‫بھا ل ا‬‫ااھتم ا‬
‫تتدرج تحت العلم األشمل وھو التعرف علي األنماط‬
‫‪ .pattern recognition‬والھدف الرئيسي من تلك‬
‫األبحاث ھو التعامل مع كمية ھائلة من المعلومات‬
‫والبيانات المطبوعة والمكتوبة من خالل الحاسب اآللي ‪.‬‬
‫في إدخال كمم‬
‫فبدل من بذل الجھد والوقت والتكلفة أيضا ي‬
‫كبير من البيانات إلي الحاسب اآللي يتم إدخالھا آليا عن‬
‫طريق اآللة القارئة‪.‬‬
‫‪٣‬‬
‫مقدمــــــة )‪:(Introduction‬‬
‫‪ -١‬مقدم ة‬
‫ويواجه التعرف علي الكلمات العربية تحديا من نوع خاص‬ ‫•‬
‫سيتم استعراضه بصورة أكثر تفصيال وذلك ألن الحروف‬ ‫م‬
‫العربية أساسا متصلة في الكلمات وليست منفصلة مثل‬
‫اللغات الالتينية مما يالقي صعوبة أكثر نسبيا عند قراءتھا‬
‫باستخدام الحاسب اآللي‪ .‬باإلضافة إلي ذلك ھناك حروف‬
‫ة‬
‫صعوبة‬ ‫وأكثر‬
‫أخرى أكث‬ ‫تحديات أخ‬
‫تفرض ت د ات‬
‫التي تف ض‬
‫التجميع الت‬
‫طباعة الت‬
‫طا ة‬
‫وھي تتمثل في التداخل الرأسي ‪، vertical overriding‬‬
‫المعلق ‪ ،overhanging‬ووجود أأكثر من ل‬
‫شكل‬ ‫ل ل ل‬‫والتداخل‬
‫ل‬
‫لنفس الحرف‪.‬‬
‫‪٤‬‬
‫مقدمــــــة )‪:(Introduction‬‬
‫‪ -١‬مقدم ة‬
‫اآللية للغات‬
‫ويوجد كم غير قليل من أأبحاث القراءة آل‬ ‫•‬
‫الالتينية وذلك لظھور ھذا االھتمامم مبكرا وأيضا للغات‬
‫الصينية واليابانية التي تتميز بوجود عدد ضخم من‬
‫الحروف مما يصعب عملية التعامل مع لوحة المفاتيح‬
‫وتكون القراءة اآللية عندئذ ھي الحل األمثل‪.‬‬
‫نظام‬
‫ل ظا‬‫الباحثون إلإلي عمل‬
‫توصل ال ا ث‬
‫ل‬ ‫فقد‬
‫األبحاث فق‬
‫ھذه األ ا‬
‫علي ذ‬‫وبناء ل‬
‫ا‬ ‫•‬
‫يستطيع قراءة النص المكتوب‬
‫ع‬

‫‪٥‬‬
‫مقدمــــــة )‪:(Introduction‬‬
‫‪ -١‬مقدم ة‬
‫علي ھذه األبحاث فقد توصل الباحثون إلإلي عمل نظام يستطيع‬ ‫وبناء عل‬ ‫•‬
‫قراءة النص المكتوب باآللة الكاتبة باللغة اإلنجليزية وذلك ألنماط كتابة‬
‫علي أن يطوع نفسه‬ ‫‪ multi-fonts‬ونظام آخر متقدم له القدرة عل‬
‫متعددة ‪multi fonts‬‬
‫لقراءة أنماط كتابة أخري وتوجد حاليا مجموعة من البرامج الجاھزة‬
‫علي النص المكتوب يدويا فذلك مازال‬ ‫لھذا الغرض أما بالنسبة للتعرف عل‬
‫في مرحلة البحث وھناك بعض المحاوالت باستخدام لوحة الرسم‬
‫اإللكترونية‪.‬‬
‫أما بخصوص اللغة العربية فما زالت األبحاث والنتائج العلمية في ھذا‬ ‫•‬
‫ن الالعرب ففي ھذا‬
‫الباحثين‬
‫ندرةة ال ا ث‬
‫أولھماا ند‬
‫نأ ل‬‫رئيسيين‬
‫ن ئ‬‫لة ننسبياا للسببين‬
‫ال قلقليلة‬
‫الالمجال‬
‫المجال والسبب اآلخر ھو سبب علمي وفني نتيجة للصعوبات التي تم‬
‫البحث‪.‬‬
‫ل ال ث‬ ‫شرحھاا داخل ففصول‬ ‫وسيتم ش‬
‫از ت‬ ‫ھا إبإيجاز‬‫ذكرھا‬
‫ذك‬
‫‪٦‬‬
‫مقدمــــــة )‪:(Introduction‬‬
‫‪ -١‬مقدم ة‬
‫اآللية للغة العربية‬
‫• ويعرض ھذه المحاضرة نظاما للقراءة آل‬
‫ي لھذه‬
‫الھجائي تمشيا معع االتجاه العالمي‬
‫ي‬ ‫المصحح‬
‫ح‬ ‫بمساعدة‬
‫النوعية من األبحاث‪.‬‬
‫• ويتكون النظام المقترح من أربعة مكونات رئيسية‪:‬‬
‫‪ -١‬الماسح الضوئي ‪:optical scanner‬ويقوم ھذا الجھاز‬
‫بمسح الوثيقة وتحويلھا إلي صورة رقمية ويستقبلھا الحاسب‬
‫بالجھازز‪..‬‬
‫المتصل ب جھ‬
‫ل‬
‫‪ -٢‬الحاسب اآللي الشخصي )ذو مواصفات مناسبة(‬
‫‪٧‬‬
‫مقدمــــــة )‪:(Introduction‬‬
‫‪ -١‬مقدم ة‬
‫اآللية‪.‬‬
‫‪ -٣‬برامج القراءة آل‬
‫ي تمت‬
‫بمعالجة االكلمات االتي‬
‫تلقائيا ب ج‬
‫وم ي‬ ‫ويقوم‬
‫ي ‪ :‬وي‬
‫الھجائي‬
‫المصحح ا ھج‬
‫ح‬ ‫‪ -٤‬ا‬
‫قراءتھا وعند وجود خطا لغوي يقوم باقتراح بعض البدائل‬
‫على‬
‫التعرف عل‬
‫ضح ففي الشكل)‪.((١‬الت رف‬
‫حيحة ككماا ھھو موضح‬
‫الالصحيحة‬
‫الحروف‪.‬‬

‫‪٨‬‬
‫إدخال وثيقة‬
‫التعرف على الحروف‬
‫‪OCR‬‬

‫كلمة صحيحة‬ ‫إمالئي‬


‫مدقق إ ال‬
‫ق‬
‫كلمة خطأ‬
‫معاون ھجائي‬

‫قائمة بالبدائل‬
‫الصحيحة‬
‫شكل )‪ (١‬نظام اآللة القارئة‬
‫‪٩‬‬
‫‪ -٢‬نظام التعرف على الحروف‬
‫)‪(Recognition System‬‬
‫النظام سيتم استعراض بعض‬ ‫• قبل الدخول في تفاصيل مكونات ھذا ظ‬
‫الخصائص التي تميز الكتابة باللغات الالتينية ويمكن تقسيم الكتابة‬
‫علي لالحروف لإلي‬ ‫منظور لالتعرف ل‬
‫باللغة لالعربية من ظ‬‫المطبوعة لل‬
‫لط‬
‫الكتابة الخطية ‪ linear writing‬والكتابة التجميعية ‪. typesetting‬‬
‫• تتميز الكتابة الخطية وھي األسھل نسبيا من وجھة نظر القراءة اآللية‬
‫بالتصاق الحروف في اتجاه أفقي بينما تتميز غالبية الحروف في‬
‫الكتابة التجميعية بالتداخل الرأسي للحروف وأيضا بالتداخل المعلق‬
‫كما ھو موضح في الشكل )‪ (1-2‬مما يزيد صعوبة تقطيع الكلمة إلي‬
‫حروفھا وسيتم إيضاح كيفية التغلب علي ھذه العقبة‪.‬‬

‫‪١٠‬‬
Latin Arabic Arabic
Typewritten Typeset

Computer
p ‫المكتوب‬ ‫تجزئيه‬

Isolated Cursive Overriding

Overhandig

‫( أشكال الكتابة‬3.1) ‫شكل‬

١١
‫مكونات النظام )‪:(System components‬‬
‫على‬
‫التعرف عل‬
‫لنظام الت ف‬
‫األساسية لنظا‬
‫المكونات األ ا ية‬
‫)‪ (3.2‬ال ك نات‬
‫يوضح الشكل )‪(3 2‬‬
‫• ي ض‬
‫الحروف و سيتم التعرض لكل مكون على حدة‪.‬‬

‫‪١٢‬‬
‫مكونات نظام التعرف على الحروف )‪ (3.2‬شكل‬

‫‪Preprocessing‬‬ ‫معالجة أ ل ة‬
‫أولية‬ ‫ال ة‬

‫سطرر‬ ‫صورة‬
‫ور‬ ‫إإدخال‬
‫ل‬
‫الكلمة‬
‫فصل ل ل‬
‫ل‬ ‫فصل لالصورة‬
‫ل‬ ‫ماسح ضوئي‬
‫من النص‬ ‫رقمية‬ ‫الوثيقة‬

‫شكل‬
‫تقطيع الكلمة‬ ‫استخالص الخصائص‬ ‫برمجية التعرف‬
‫نصي‬

‫‪١٣‬‬
‫‪ -٢‬نظام التعرف على الحروف‬
‫)‪(Recognition System‬‬
‫‪(Optical‬‬
‫‪(O‬‬ ‫)‪ti l Scanner‬‬
‫‪S‬‬ ‫الضوئي )‬
‫الماسح الض‬
‫• ‪ ١-٢‬ال ا‬
‫ي الظاھرة الكھروضوئية‬‫• ويعمل ھذا الجھاز بناء علي‬
‫)‪ (photoelectric‬حيث يعم امتصاص الضوء النافذ في‬
‫وتحويل‬
‫‪ p‬و وي‬ ‫الصورة ‪phenomena‬‬‫ور‬ ‫ن‬
‫ن المعتمة من‬
‫األماكن‬
‫الضوء النافذ من األماكن غير المعتمة نسبيا إلي إشارات‬
‫إلي ور‬
‫صورة‬ ‫المكتوب إ ي‬
‫وب‬ ‫النص‬
‫تحويل ص‬
‫يمكن وي‬‫وبذلك ي ن‬
‫كھربائية وب‬
‫ھرب ي‬
‫رقمية ‪ digital image‬أو بمفھوم أخر مصفوفة ثنائية‬
‫بالجھازز‬
‫المتصل ب جھ‬
‫ل‬ ‫يستقبلھا الحاسب‬
‫ب‬ ‫)‪ (binary matrix‬ي ب ھ‬
‫وتحفظ بالذاكرة الرئيسية للحاسب‪.‬‬

‫‪١٤‬‬
‫‪ -٢‬نظام التعرف على الحروف‬
‫)‪(Recognition System‬‬
‫• وتمثل ھذه المصفوفة الشكل العام للنص المكتوب والمطلوب‬
‫ي الكلمات‬
‫علي الحروف المكونة له وبالتالي‬
‫ھو التعرف ي‬
‫الموجودة بالنص وتحويله للشكل المعتاد الحصول عليه عند‬
‫إدخاله يدويا بواسطة لوحة المفاتيح ‪keyboard‬‬
‫• ‪ ٢-٢‬فصل السطور )‪(line detection‬‬
‫• ويتم في ھذه المرحلة تقسيم الصورة الرقمية أفقيا إلي األسطر‬
‫ي حدة كما ھوو‬
‫ل سطرر علي‬ ‫معالجة كل‬
‫ج‬ ‫لكي ييتمم‬
‫ص ي‬ ‫المكونة للنص‬
‫و‬
‫موضح بالشكل )‪.(3-3‬‬

‫‪١٥‬‬
‫و ھذه النوعية من األبحاث‬

‫لھا تطبيقات ھامة‬

‫تتميزز الكتابة الع ب ة‬


‫العربية‬ ‫تتم‬

‫بوجه عام بأنھا ذات‬

‫شكلل )‪ :(3.3‬فصلل السطور‬


‫ور‬
‫‪١٦‬‬
‫‪ -٢‬نظام التعرف على الحروف‬
‫)‪(Recognition System‬‬
‫الكلمة )‪(word isolation‬‬ ‫ة‬ ‫‪ ٣-٢‬ففصل‬ ‫•‬
‫ويتم ذلك عن طريق إيجاد مقاطعع رأسية تفصل بين الكلمات وذلك عن‬ ‫م‬ ‫•‬
‫طريق االستعانة ببعض البرمجيات البسيطة لمعالجة الصورة‬
‫‪.image‬‬‫‪g processing‬‬ ‫‪g modules‬‬
‫‪ ٤-٢‬تقطيع الكلمة )‪(word segmentation‬‬ ‫•‬
‫الرئيسي وھو الذي يميز ھذه‬
‫ھذا الجزء من النظام يعتبر الجزء الرئيس‬ ‫•‬
‫المحاضرة عن األبحاث األخرى المناظرة للغات األوربية ويمثل‬
‫الحقيقي للباحثين ففي ھذا المجال ‪.‬وعندما نستعرض األبحاث‬
‫التحدي الحقيق‬
‫السابقة في ھذا المجال نجد أن ھناك اتجاھين علميين‪:‬‬

‫‪١٧‬‬
‫‪ -٢‬نظام التعرف على الحروف‬
‫)‪(Recognition System‬‬
‫بمسافات ثاثابتةة‬
‫حروفھا افا‬
‫فا‬ ‫الكلمة إلإلي‬
‫تقطيع الكل ة‬
‫األول‪ :‬ويتم قط‬
‫االتجاه األ ل‬
‫• االت ا‬
‫‪ .pitch fixed‬وقد وجد أن ھذا االتجاه ال ينجح في الغالبية‬
‫المسافات ال ا ة‬
‫التناسبية‬ ‫ذات ال ا ا‬
‫األنماط ذا‬
‫العظمي من األ اط‬
‫ال ظ‬
‫‪.proportionally spaced fonts‬‬
‫• االتجاه التالي‪ :‬ويتم تقطيع الكلمة إلي مكونات رئيسية بدائية‬
‫‪ manner‬ووذلك عن‬
‫ن‬ ‫‪a e linear‬‬ ‫خطية ‪ea‬‬ ‫بطريقة ي‬
‫‪ p‬ب ري‬‫‪primitives‬‬
‫‪t es‬‬
‫طريق حساب دالة إسقاط ‪ projection function‬تمثل‬
‫الرأسي‬
‫ي‬ ‫االتجاه ر‬
‫ي ج‬ ‫الرقمية ‪ digital density‬في‬ ‫الكثافة ر ي‬
‫وتقسيمھا إلي مناطق ذات كثافة عالية تنتج المكونات الرئيسية‬
‫ل‪.‬‬‫فتھمل‬
‫ق ذات كثافة منخفضة ھ‬ ‫وومناطق‬
‫‪١٨‬‬
‫‪ -٢‬نظام التعرف على الحروف‬
‫)‪(Recognition System‬‬
‫الخطيةة لكنه للم نينجح‬
‫الكتابة الخط‬
‫معالجةة الكتا ة‬
‫نجاحهه ففي ال‬‫االتجاه ن ا‬
‫ت ھذا االت ا‬
‫قد أثأثبت‬
‫وقد‬ ‫•‬
‫في معالجة الكتابة التجميعية وقد تم التغلب علي ھذه العقبات بإدخال‬
‫التجميعية‬
‫الكتابة ج ي ي‬
‫ب‬ ‫ل معع‬
‫ي ييتعامل‬
‫ي لكي‬‫ي النظامم الثاني‬
‫التعديالت علي‬
‫ي‬ ‫ببعض‬
‫ض‬
‫وفيما يلي خطوات العمل المتبعة‪:‬‬
‫ع النقط الخارجية‬ ‫أ‪ -‬فصل التداخل المعلق وذلك عن طريق اتباع‬ ‫•‬
‫التالي(‬
‫ل ل ل‬‫انظر لالشكل‬
‫للشكل‪ ) contour following‬ظ‬ ‫لل ل‬
‫ب‪ -‬التقطيع الرأسي وھو نفس األسلوب المتبع في االتجاه الثاني‪.‬‬ ‫•‬
‫والمدة‪.‬‬
‫والھمزة ل‬‫النقط ل‬
‫عزل ل ط‬
‫األفقي ‪ :‬ويتم فيه ل‬ ‫التقطيع أل‬
‫ج‪ -‬ل ط‬ ‫•‬
‫وكما ھو موضح في الشكل )‪ (2.4‬يتم تجزيء الكلمة إلي مكونات‬ ‫•‬
‫جزءا ن‬
‫من‬ ‫حرف أأو ز ا‬
‫مكون نقطة أأو ف‬ ‫يكون كل ك ن‬ ‫وقد ك ن‬
‫‪ primitives‬قد‬
‫حرف‪..‬الخ‪.‬‬

‫‪١٩‬‬
character Contour (character)

٢٠
‫‪Arabic Word‬‬

‫تجزئيه‬

‫‪Segmentation‬‬

‫تـ جـ ز ئـ يـ ـه‬

‫‪Segmentation‬‬
‫‪g‬‬ ‫‪primitives‬‬
‫‪p‬‬

‫شكل )‪ (2.4‬تقطيع الكلمة إلي المكونات‬


‫األساسية‬‫أل‬ ‫‪٢١‬‬
‫‪ -٢‬نظام التعرف على الحروف‬
‫)‪(Recognition System‬‬
‫• ‪ ٥-٢‬استخالص الخصائص )‪(feature extraction‬‬
‫يزة لكل‬
‫ل‬ ‫ص االمميزة‬
‫الص االخصائص‬
‫المرحلة ااستخالص‬ ‫• ييتمم في‬
‫ي ھھذهه ا ر‬
‫مكون كما يتم تجميع المكونات في مجموعات ‪clusters‬‬
‫يلي‪:‬‬
‫رقما كوديا تبعا لنوعية المكون كما يل‬
‫عة رق ا‬
‫مجموعة‬
‫تأخذ كل ج‬‫وتأخذ‬

‫‪٢٢‬‬
‫ككود )‪ (x‬نوع ال ك‬
‫المكون‬

‫المكون ف‬
‫حرف‬ ‫ال ك‬ ‫‪1‬‬

‫المكون جزء من حرف‬ ‫‪2‬‬

‫المكون مجموعة من الحروف‬ ‫‪3‬‬

‫المكون نقطة عليا‬ ‫‪4‬‬

‫المكون نقطة سفلي‬ ‫‪5‬‬


‫‪٢٣‬‬
‫جدول‪ :‬الرقم الكودي لكل مكون ثم يتم بعد ذلك‬
‫كما ليلي ‪:‬‬
‫مكون ك ا‬
‫أخري لكل ك ن‬ ‫خصائص أخ‬
‫استخالص خ ائ‬
‫ا تخال‬
‫‪L:‬‬ ‫طول المكون‬
‫‪W:‬‬ ‫عرض المكون‬

‫‪DV:‬‬ ‫الرأسي‬
‫ي‬ ‫االتجاه ر‬
‫ج‬ ‫في‬
‫الكثافة ي‬

‫‪CV:‬‬ ‫الكثافة في االتجاه األفقي‬

‫‪DH‬‬
‫‪DH:‬‬ ‫الرأسي‬
‫االتجاه ال أ‬
‫في اال ا‬
‫التقاطعات ف‬
‫عدد ال اط ا‬

‫‪CH:‬‬ ‫عدد التقاطعات في االتجاه األفقي‬

‫‪MV:‬‬ ‫العزوم المحوري الثاني حول مركز الثقل )رأسي(‬

‫‪MH:‬‬ ‫العزوم المحوري الثاني حول مركز الثقل )أفقي(‬

‫‪D:‬‬ ‫الكثافة الكلية‬

‫‪X:‬‬ ‫رقم الكود‬


‫‪٢٤‬‬
‫‪ -٢‬نظام التعرف على الحروف‬
‫)‪(Recognition System‬‬
‫• ويتم حساب ھذا المتجه الذي يحتوي علي الخصائص المميزة‬
‫ي المرحلة‬
‫لكل مكون ‪ Feature vector‬قبل الدخول في‬
‫النھائية وھي مرحلة التعرف علي المكون‪.‬‬
‫‪ - ٦-٢‬مرحلة التعرف )‪(Recognition stage‬‬
‫وتنقسم ھذه المرحلة إلي ثالثة أجزاء‪:‬‬
‫‪ -١‬التعرف المبدئي ‪:Pre Recognition:‬‬
‫ة‬
‫مجموعة‬ ‫ث ففي‬
‫وبالتالي الالبحث‬
‫الكودد التال‬
‫رقم الك‬
‫علي ق‬
‫التعرف ل‬
‫فيه الت ف‬
‫ويتم ف ه‬
‫ت‬
‫المكونات المرتبطة بنفس الرقم الكودي‪.‬‬
‫‪٢٥‬‬
‫‪ -٢‬نظام التعرف على الحروف‬
‫)‪(Recognition System‬‬
‫‪:Core‬‬
‫‪C‬‬ ‫‪R‬‬
‫‪Recognition‬‬
‫األساسي ‪iti‬‬
‫ف األ ا‬
‫التعرف‬
‫‪ -٢‬الت‬
‫• ويتم في ھذه المرحلة إيجاد أقصر مسافة بين المتجه المنشأ في مرحلة‬
‫ثلة لكل‬
‫البيانات الالممثلة‬
‫والمتجھات الالمخزنةة ففي قاقاعدة ال ا ا‬
‫المميزات ال ت ا‬
‫ا‬ ‫استخالص ال‬
‫ا ت ال‬
‫المكونات ويتم التعرف علي المكون الذي يكون أقرب ما يمكن للمكون‬
‫المجھول ‪.Primitive Unknown‬‬
‫المجھ ل‬
‫‪ -٣‬التعرف النھائي علي الكلمة ‪:Final Word Recognition‬‬
‫طريق‬
‫ق‬ ‫ذلك عن ط‬
‫نة وذلك‬‫المكونة‬
‫ف ال ك‬
‫اط الالحروف‬
‫استنباط‬
‫نات تيتم ا تن‬
‫المكونات‬
‫علي ال ك‬
‫ف ل‬‫التعرف‬
‫• بعد الت‬
‫فك الرقم الكودي لكل مكون ‪ decoding‬ثم ترتيبھا وتجميعھا وذلك حسبا‬
‫الرقم الكودي يساوي ‪ ٣‬يتيتم فك المكون‬‫للرقم الكودي‪ .‬فمثال إذا كان الرق‬
‫للرق‬
‫للحروف المناظرة أما إذا كان يساوي ‪ ٢‬فيتم تجميعه مع المكونات‬
‫النھائية للكلمة‪.‬‬
‫الصورة ھ ي‬
‫ور‬ ‫ي لتكوين‬
‫وين‬ ‫الكودي‬
‫الرقمم و‬‫س ر‬ ‫لھا نفس‬
‫ي ھ‬‫المجاورة التي‬
‫ج ور‬
‫‪٢٦‬‬
‫الھجائي )‪(Spellchecker‬‬
‫‪ -٣‬المصحح الھجائ‬
‫يقوم المصحح الھجائي بمعالجة الكلمات العربية التي تمت‬
‫قراءتھا بواسطة اآللة القارئة‪.‬ويتكون من جزأين رئيسيين‪،‬‬
‫األول ھو المدقق اإلمالئي الذي يقوم بمعالجة الكلمة حرفيا‬
‫ثم يقوم بالتأكد من صحتھا لغويا‪.‬إذا كانت الكلمة صحيحة‬
‫فإنھا تترك في النص علي الشاشة‪ ،‬أما إذا كانت الكلمة غير‬
‫وھو ال ا ن‬
‫المعاون‬ ‫الثاني ھ‬
‫الجزء الثان‬
‫وظيفة ال ز‬
‫تأتي ظ فة‬
‫فھنا تأت‬
‫صحيحة ف نا‬
‫ة‬
‫الھجائي الذي يقترح البدائل الصحيحة التي تكون أقرب ما‬
‫اللذين تم‬
‫للجزأين لل‬
‫الخطأ وفيما ليلي شرح لل أ‬
‫الكلمة ل طأ‬
‫يكون من ل ل ة‬
‫ي‪.‬‬
‫ي والمعاون الھجائي‬ ‫ذكرھما وھما المدقق اإلمالئي‬
‫‪٢٧‬‬
‫)‪((Spellchecker‬‬
‫‪p‬‬ ‫ي)‬‫المصحح الھجائي‬
‫ح‬ ‫‪-٣‬‬
‫• ‪ ١-٣‬المدقق اإلمالئي )‪(Spell Verifier‬‬
‫• يقوم ھذا الجزء بتحليل الكلمة تحليال حرفيا جزئيا ‪Semi-‬‬
‫‪ ،Morphological Analysis‬وذلك بحذف السوابق واللواحق‬
‫‪ Suffixes and Prefixes‬ويتبقى جسم الكلمة ‪ Stem‬ثم يقوم ببحث‬
‫في معجم الجذع )‪ (Stem Lexicon‬وعند وجود الكلمة يتم مطابقتھا مع‬
‫السوابق واللواحق التي تم حذفھا وفي حالة وجود تطابق تام تكون الكلمة‬
‫صحيحة‪ .‬وفي حالة وجود عدم تطابق أو في حالة عدم وجود جسم الكلمة‬
‫أصال في المعجم تصبح الكلمة غير صحيحة‪ .‬وتجدر اإلشارة ھنا إلي أن‬
‫التحليل الصرفي ال يعتبر كامال ‪ ،‬ذلك ألن الكلمة ال ترجع إلي أصلھا‬
‫)جذرھا( وفي حالة التحليل الصرفي الكامل ولكنھا ترجع فقط إلي جسم‬
‫الكلمة ‪ Stem‬وھو كاف لھذا التطبيق ويتميز بالسرعة في األداء والتنفيذ‪.‬‬
‫‪٢٨‬‬
‫الھجائي )‪(Spellchecker‬‬
‫‪ -٣‬المصحح الھجائ‬
‫• المعجم المستخدم في ھذه المحاضرة يتكون من حوالي‬
‫‪ 30,000‬جسمم ويشتق من ھذا األجسامم معع إضافة السوابق‬
‫‪,‬‬
‫واللواحق ماليين من الكلمات الشائع استخدامھا في اللغة‬
‫العربية ‪:‬ويوضح الشكل )‪ (١-٣‬عمل المدقق اإلمالئي‪.‬‬

‫‪٢٩‬‬
‫حذف‬
‫السوابق و اللواحق‬

‫الكلمة التالية‬ ‫جسم الكلمة‬


‫في النص‬ ‫‪ Search‬بحث‬

‫الكلمة غير صحيحة‬ ‫ال‬


‫وجدت ؟‬
‫المعاون الھجائي‬ ‫نعم‬
‫مطابقة السوابق‬
‫و اللواحق‬

‫شكل )‪:(3.1‬‬ ‫ال‬


‫تم التطابق‬
‫المدقق اال الئي‬
‫االمالئي‬ ‫ال دقق‬ ‫؟‬
‫‪٣٠‬‬
‫نعم‬ ‫الكلمة صحيحة‬
‫الھجائي )‪(Spellchecker‬‬
‫‪ -٣‬المصحح الھجائ‬
‫• ‪ ٢-٣‬المعاون الھجائي ‪:Spelling Aid‬‬
‫الھجائي‬
‫ي‬ ‫المعاون ا ھج‬
‫ي ا ون‬ ‫ل )‪ (١-٣‬ييأتي‬‫في االشكل‬
‫ح ي‬‫موضح‬‫• كما ھو و‬
‫مصاحبا للمدقق اإلمالئي في حالة وجود كلمة غير صحيحة‪.‬‬
‫الھجائي‬
‫للمعاون الھجائ‬
‫األساسية لل ا ن‬
‫الوظيفة األ ا ية‬
‫من قبل فإن ال ظيفة‬
‫وكماا ذكر ن‬
‫ك‬
‫ھي اقتراح البدائل الصحيحة األقرب إلي الكلمة الخطأ‪.‬‬
‫قوانين‬
‫شكل ق ا‬
‫علي كل‬‫مصوغة ل‬
‫ة‬ ‫علي أأربع أأسس‬
‫عمله ل‬
‫ويعتمد ففي ل‬
‫ح لھذه‬
‫ي شرح‬‫ي نوعية البدائل المقترحة وفيما يلي‬
‫تتحكمم في‬
‫األسس‪:‬‬

‫‪٣١‬‬
‫الكلمة الخطأ‬

‫حذف اللواحق أو السوابق افتراضيا ً‬

‫بق األنماط‬
‫نظامم مطابق‬

‫من الالمعجم(‬
‫الصحيحة ) ن‬
‫ة‬ ‫دائل ال‬
‫بالبدائل‬
‫قائمةة ال‬
‫قائ‬

‫ابق و الل احق‬


‫اللواحق‬ ‫قائمة بالكلمات بعد إضافة الالسوابق‬

‫اإلمالئي‬
‫المدقق اإلمالئ‬

‫قائمة بالكلمات الصحيحة‬


‫‪٣٢‬‬
‫شكل )‪(3.2‬‬

You might also like