Professional Documents
Culture Documents
المحاضره 9 تعريب الحاسبات
المحاضره 9 تعريب الحاسبات
الرحيم م ﷲ ال حم
بسم
١
ٓ
القـ ـراءة اال ليـ ـ ــة للنــص الع ـ ـ ـ ـ ـ ـ ــربي بمس ـ ـ ـ ـ ـ ـ ــاعدة
الهجائي
الالمصحح ال ائ
٢
مقدمــــــة ):(Introduction
-١مقدم ة
(Optical
(O ti l ChCharacterاآلليةة للللحروف tالقراءة اآلل
الق ا •
)) Recognition (OCRتعد من مجاالت البحث التي
والتي
األخيرة ،ال
اآلونة األ
اآللي في اآل ة
الحاسب اآلل
علماء ال ا
بھا ل اااھتم ا
تتدرج تحت العلم األشمل وھو التعرف علي األنماط
.pattern recognitionوالھدف الرئيسي من تلك
األبحاث ھو التعامل مع كمية ھائلة من المعلومات
والبيانات المطبوعة والمكتوبة من خالل الحاسب اآللي .
في إدخال كمم
فبدل من بذل الجھد والوقت والتكلفة أيضا ي
كبير من البيانات إلي الحاسب اآللي يتم إدخالھا آليا عن
طريق اآللة القارئة.
٣
مقدمــــــة ):(Introduction
-١مقدم ة
ويواجه التعرف علي الكلمات العربية تحديا من نوع خاص •
سيتم استعراضه بصورة أكثر تفصيال وذلك ألن الحروف م
العربية أساسا متصلة في الكلمات وليست منفصلة مثل
اللغات الالتينية مما يالقي صعوبة أكثر نسبيا عند قراءتھا
باستخدام الحاسب اآللي .باإلضافة إلي ذلك ھناك حروف
ة
صعوبة وأكثر
أخرى أكث تحديات أخ
تفرض ت د ات
التي تف ض
التجميع الت
طباعة الت
طا ة
وھي تتمثل في التداخل الرأسي ، vertical overriding
المعلق ،overhangingووجود أأكثر من ل
شكل ل ل لوالتداخل
ل
لنفس الحرف.
٤
مقدمــــــة ):(Introduction
-١مقدم ة
اآللية للغات
ويوجد كم غير قليل من أأبحاث القراءة آل •
الالتينية وذلك لظھور ھذا االھتمامم مبكرا وأيضا للغات
الصينية واليابانية التي تتميز بوجود عدد ضخم من
الحروف مما يصعب عملية التعامل مع لوحة المفاتيح
وتكون القراءة اآللية عندئذ ھي الحل األمثل.
نظام
ل ظاالباحثون إلإلي عمل
توصل ال ا ث
ل فقد
األبحاث فق
ھذه األ ا
علي ذوبناء ل
ا •
يستطيع قراءة النص المكتوب
ع
٥
مقدمــــــة ):(Introduction
-١مقدم ة
علي ھذه األبحاث فقد توصل الباحثون إلإلي عمل نظام يستطيع وبناء عل •
قراءة النص المكتوب باآللة الكاتبة باللغة اإلنجليزية وذلك ألنماط كتابة
علي أن يطوع نفسه multi-fontsونظام آخر متقدم له القدرة عل
متعددة multi fonts
لقراءة أنماط كتابة أخري وتوجد حاليا مجموعة من البرامج الجاھزة
علي النص المكتوب يدويا فذلك مازال لھذا الغرض أما بالنسبة للتعرف عل
في مرحلة البحث وھناك بعض المحاوالت باستخدام لوحة الرسم
اإللكترونية.
أما بخصوص اللغة العربية فما زالت األبحاث والنتائج العلمية في ھذا •
ن الالعرب ففي ھذا
الباحثين
ندرةة ال ا ث
أولھماا ند
نأ لرئيسيين
ن ئلة ننسبياا للسببين
ال قلقليلة
الالمجال
المجال والسبب اآلخر ھو سبب علمي وفني نتيجة للصعوبات التي تم
البحث.
ل ال ث شرحھاا داخل ففصول وسيتم ش
از ت ھا إبإيجازذكرھا
ذك
٦
مقدمــــــة ):(Introduction
-١مقدم ة
اآللية للغة العربية
• ويعرض ھذه المحاضرة نظاما للقراءة آل
ي لھذه
الھجائي تمشيا معع االتجاه العالمي
ي المصحح
ح بمساعدة
النوعية من األبحاث.
• ويتكون النظام المقترح من أربعة مكونات رئيسية:
-١الماسح الضوئي :optical scannerويقوم ھذا الجھاز
بمسح الوثيقة وتحويلھا إلي صورة رقمية ويستقبلھا الحاسب
بالجھازز..
المتصل ب جھ
ل
-٢الحاسب اآللي الشخصي )ذو مواصفات مناسبة(
٧
مقدمــــــة ):(Introduction
-١مقدم ة
اآللية.
-٣برامج القراءة آل
ي تمت
بمعالجة االكلمات االتي
تلقائيا ب ج
وم ي ويقوم
ي :وي
الھجائي
المصحح ا ھج
ح -٤ا
قراءتھا وعند وجود خطا لغوي يقوم باقتراح بعض البدائل
على
التعرف عل
ضح ففي الشكل).((١الت رف
حيحة ككماا ھھو موضح
الالصحيحة
الحروف.
٨
إدخال وثيقة
التعرف على الحروف
OCR
قائمة بالبدائل
الصحيحة
شكل ) (١نظام اآللة القارئة
٩
-٢نظام التعرف على الحروف
)(Recognition System
النظام سيتم استعراض بعض • قبل الدخول في تفاصيل مكونات ھذا ظ
الخصائص التي تميز الكتابة باللغات الالتينية ويمكن تقسيم الكتابة
علي لالحروف لإلي منظور لالتعرف ل
باللغة لالعربية من ظالمطبوعة لل
لط
الكتابة الخطية linear writingوالكتابة التجميعية . typesetting
• تتميز الكتابة الخطية وھي األسھل نسبيا من وجھة نظر القراءة اآللية
بالتصاق الحروف في اتجاه أفقي بينما تتميز غالبية الحروف في
الكتابة التجميعية بالتداخل الرأسي للحروف وأيضا بالتداخل المعلق
كما ھو موضح في الشكل ) (1-2مما يزيد صعوبة تقطيع الكلمة إلي
حروفھا وسيتم إيضاح كيفية التغلب علي ھذه العقبة.
١٠
Latin Arabic Arabic
Typewritten Typeset
Computer
p المكتوب تجزئيه
Overhandig
١١
مكونات النظام ):(System components
على
التعرف عل
لنظام الت ف
األساسية لنظا
المكونات األ ا ية
) (3.2ال ك نات
يوضح الشكل )(3 2
• ي ض
الحروف و سيتم التعرض لكل مكون على حدة.
١٢
مكونات نظام التعرف على الحروف ) (3.2شكل
Preprocessing معالجة أ ل ة
أولية ال ة
سطرر صورة
ور إإدخال
ل
الكلمة
فصل ل ل
ل فصل لالصورة
ل ماسح ضوئي
من النص رقمية الوثيقة
شكل
تقطيع الكلمة استخالص الخصائص برمجية التعرف
نصي
١٣
-٢نظام التعرف على الحروف
)(Recognition System
(Optical
(O )ti l Scanner
S الضوئي )
الماسح الض
• ١-٢ال ا
ي الظاھرة الكھروضوئية• ويعمل ھذا الجھاز بناء علي
) (photoelectricحيث يعم امتصاص الضوء النافذ في
وتحويل
pو وي الصورة phenomenaور ن
ن المعتمة من
األماكن
الضوء النافذ من األماكن غير المعتمة نسبيا إلي إشارات
إلي ور
صورة المكتوب إ ي
وب النص
تحويل ص
يمكن ويوبذلك ي ن
كھربائية وب
ھرب ي
رقمية digital imageأو بمفھوم أخر مصفوفة ثنائية
بالجھازز
المتصل ب جھ
ل يستقبلھا الحاسب
ب ) (binary matrixي ب ھ
وتحفظ بالذاكرة الرئيسية للحاسب.
١٤
-٢نظام التعرف على الحروف
)(Recognition System
• وتمثل ھذه المصفوفة الشكل العام للنص المكتوب والمطلوب
ي الكلمات
علي الحروف المكونة له وبالتالي
ھو التعرف ي
الموجودة بالنص وتحويله للشكل المعتاد الحصول عليه عند
إدخاله يدويا بواسطة لوحة المفاتيح keyboard
• ٢-٢فصل السطور )(line detection
• ويتم في ھذه المرحلة تقسيم الصورة الرقمية أفقيا إلي األسطر
ي حدة كما ھوو
ل سطرر علي معالجة كل
ج لكي ييتمم
ص ي المكونة للنص
و
موضح بالشكل ).(3-3
١٥
و ھذه النوعية من األبحاث
١٧
-٢نظام التعرف على الحروف
)(Recognition System
بمسافات ثاثابتةة
حروفھا افا
فا الكلمة إلإلي
تقطيع الكل ة
األول :ويتم قط
االتجاه األ ل
• االت ا
.pitch fixedوقد وجد أن ھذا االتجاه ال ينجح في الغالبية
المسافات ال ا ة
التناسبية ذات ال ا ا
األنماط ذا
العظمي من األ اط
ال ظ
.proportionally spaced fonts
• االتجاه التالي :ويتم تقطيع الكلمة إلي مكونات رئيسية بدائية
mannerووذلك عن
ن a e linear خطية ea بطريقة ي
pب ريprimitives
t es
طريق حساب دالة إسقاط projection functionتمثل
الرأسي
ي االتجاه ر
ي ج الرقمية digital densityفي الكثافة ر ي
وتقسيمھا إلي مناطق ذات كثافة عالية تنتج المكونات الرئيسية
ل.فتھمل
ق ذات كثافة منخفضة ھ وومناطق
١٨
-٢نظام التعرف على الحروف
)(Recognition System
الخطيةة لكنه للم نينجح
الكتابة الخط
معالجةة الكتا ة
نجاحهه ففي الاالتجاه ن ا
ت ھذا االت ا
قد أثأثبت
وقد •
في معالجة الكتابة التجميعية وقد تم التغلب علي ھذه العقبات بإدخال
التجميعية
الكتابة ج ي ي
ب ل معع
ي ييتعامل
ي لكيي النظامم الثاني
التعديالت علي
ي ببعض
ض
وفيما يلي خطوات العمل المتبعة:
ع النقط الخارجية أ -فصل التداخل المعلق وذلك عن طريق اتباع •
التالي(
ل ل لانظر لالشكل
للشكل ) contour followingظ لل ل
ب -التقطيع الرأسي وھو نفس األسلوب المتبع في االتجاه الثاني. •
والمدة.
والھمزة لالنقط ل
عزل ل ط
األفقي :ويتم فيه ل التقطيع أل
ج -ل ط •
وكما ھو موضح في الشكل ) (2.4يتم تجزيء الكلمة إلي مكونات •
جزءا ن
من حرف أأو ز ا
مكون نقطة أأو ف يكون كل ك ن وقد ك ن
primitivesقد
حرف..الخ.
١٩
character Contour (character)
٢٠
Arabic Word
تجزئيه
Segmentation
تـ جـ ز ئـ يـ ـه
Segmentation
g primitives
p
٢٢
ككود ) (xنوع ال ك
المكون
المكون ف
حرف ال ك 1
DV: الرأسي
ي االتجاه ر
ج في
الكثافة ي
DH
DH: الرأسي
االتجاه ال أ
في اال ا
التقاطعات ف
عدد ال اط ا
٢٩
حذف
السوابق و اللواحق
٣١
الكلمة الخطأ
بق األنماط
نظامم مطابق
من الالمعجم(
الصحيحة ) ن
ة دائل ال
بالبدائل
قائمةة ال
قائ
اإلمالئي
المدقق اإلمالئ