Professional Documents
Culture Documents
Ep 181
Ep 181
تحرير:
تأليف:
د .عبــــــدالله بــن صالـــــــــــح الراجــــــــح د .وليـــــد بن عبـــــدالله الصانـــــــــــــــع
-1-
مباحث لغوية ٦١
تأليف:
حترير:
د .عبداهلل بن حييى الفيفي
مرشوع تأليف سلسلة كتب يف جمال (حوسبة العربية) هيدف إىل بناء تراك ٍم معريف
يف جمال حيوي مهم ،هو جمال (حوسبة العربية) .ويعد هذا الكتاب واحدا من سلسلة
كتب صدرت يف املركز.
يقع هذا املرشوع ضمن سلسلة (مباحث لغوية) التي يرشف املركز عىل اختيار
عنواناهتا ،وتكليف املحررين واملؤلفني ،ومتابعة التأليف حتى إصدار الكتب .وهي
سلسلة جيتهد املركز أن تكون سداد ًا حلاجات بحثية وعلمية حتتاج إىل تنبيه الباحثني
عليها ،أو تكثيف البحث فيها.
ويعدّ هذا الكتاب واحد ًا من كتب ثالثة مرتابطة يف مرشوع علمي واحد متخصص
يف (الذكاء االصطناعي) :
1.1العربية والذكاء االصطناعي.
2.2تطبيقات الذكاء االصطناعي يف خدمة اللغة العربية.
3.3خوارزميات الذكاء االصطناعي يف حتليل النص العريب.
-5-
-6-
كلمة املركز
يعمل املركز يف جمال البحث العلمي ونرش الكتب مستهدف ًا الرتكيز عىل املجاالت
البحثية التي ما زالت بحاجة إىل تسليط الضوء عليها ،وتكثيف البحث فيها ،ولفت أنظار
الباحثني واجلهات األكاديمية إىل أمهية استثامرها بمختلف وجوه االستثامر ،وذلك مثل
جمال (التخطيط اللغوي) و (العربية يف العامل) و(األدلة واملعلومات) و (تعليم العربية
ألبنائها أو لغري الناطقني هبا) إىل غري ذلك من املجاالت ،وإن من أهم جماالت البحث
املستقبلية يف اللغة العربية جمال (العربية واحلوسبة ،والذكاء االصطناعي) حيث إن
اللغات احلية مرهونة حياهتا مستقبال بمدى جتاوهبا مع التطورات التقنية والعامل
االفرتايض ،وكثافة املحتوى االلكرتوين املكتوب ،وهو ما يشكّل حتديا حقيقيا أمام
اللغات غري املنتجة للمعرفة أو للتقنية.
وقد عمل املركز عىل تسليط الضوء عىل هذا املجال التخصيص؛ مستعينا بالكفاءات
القادرة من املهتمني بالتخصص البيني (بني اللغة واحلاسوب) مقدّ را جهودهم ،وهادف ًا
إىل نرشها ،وتعميم مبادئها ،راغب ًا أن يكون هذا املسار العلمي مقررا يف اجلامعات يف
كلية العربية واحلاسوب ،وجماال بحثيا يقصده الباحثون األكديميون ،واجلهات البحثية
العربية.
-7-
وقد أصدر املركز سابقا ستة عرش كتاب ًا خمتصا يف (حوسبة العربية) ويف اإلفادة من
(املدونات اللغوية) يف األبحاث العربية ،وحيتفل بإصدار سبعة كتب جديدة خمتصة يف
(حوسبة العربية والذكاء االصطناعي) ،ويقدمها للقارئ العريب ،وللجهات األكاديمية؛
لإلفادة منها واعتامد ما تراه منها مناسب ًا لتعليمه والبناء عليه ،وهذه الكتب السبعة هي:
(تطبيقات الذكاء االصطناعي يف املعاجلة اآللية ،تطبيقات الذكاء االصطناعي يف
خدمة اللغة العربية ،خوارزميات الذكاء االصطناعي يف حتليل النص العريب ،مقدمة
يف حوسبة اللغة العربية ،املوارد اللغوية احلاسوبية ،املعاجلة اآللية للنصوص العربية،
تطبيقات أساسية يف املعاجلة اآللية للغة العربية).
ويشكر املركز السادة مؤلفي الكتب ،وحمررهيا ،ملا تفضلوا به من عمل علمي
رصني ،وأدعو الباحثني واملؤلفني إىل التواصل مع املركز الستكامل املسرية ،وتفتيق
فضاءات املعرفة.
وفق اهلل اجلهود وسدد الرؤى.
األمني العام
أ .د .حممود إسامعيل صالح
-8-
(((
مقدمة احملرر
احلمد هلل رب العاملني ،والصالة والسالم عىل أرشف املرسلني ،نبينا حممد وعىل آله
وصحابته أمجعني ،وبعد:
فأود أوالً أن أعرب عن وافر امتناين ملركز امللك عبداهلل بن عبدالعزيز الدويل خلدمة
اللغة العربية عىل اهتاممه بإصدار سلسلة حول الذكاء االصطناعي واللغة العربية ،إذ
رشفني بإدارة مرشوع هذه السلسلة وحترير أحد إصداراهتا .وإنه ألمر يبعث عىل الغبطة
والرسور أن نرى إصدارات عربية يف مثل هذه املوضوعات التخصصية البينية التي
تندر مراجعها يف مكتبتنا العربية ،خصوص ًا تلك املراجع التي يتسم حمتواها بالرشح
املبسط لغري املتخصص مع ما تقدمه من ثراء وغنى يف املعلومة ،وهو السهل املمتنع
-1عبداهلل بن حييى الفيفي :أستاذ اللغويات احلاسوبية املساعد يف جامعة اإلمام حممد بن سعود اإلسالمية يف الرياض.
درس البكالوريوس يف اللغة العربية يف جامعة امللك خالد يف أهبا ،واملاجستري يف تعليم اللغة بمساعدة احلاسب يف قسم
اللغويات يف جامعة ،Essexوالدكتوراه يف اللغويات احلاسوبية يف قسم احلاسب اآليل يف جامعة ،Leedsوكالمها
يف بريطانيا .له العديد من األبحاث املنشورة حول تقنيات معاجلة اللغة العربية آلي ًا ،واملدونات اللغوية وبراجمها
احلاسوبية ،وكذلك مدونات املتعلمني ،وصناعة املعاجم احلاسوبية ملتعلمي اللغة العربية ،إضافة إىل مشاركته يف
تأليف بعض الكتب املتخصصة يف اللسانيات احلاسوبية ،واملدونات اللغوية وتطبيقاهتا .عمل حمك ًام لدى عدد من
الدوريات العلمية واملؤمترات الدولية .أنشأ املدونة اللغوية ملتعلمي اللغة العربية ،Arabic Learner Corpusشارك
يف العديد من املشاريع العلمية والبحثية الوطنية يف جمال ختصصه.
-9-
الذي نحتاجه يف مثل هذه املؤلفات التي تثري مكتبتنا العربية بال شك وتقدم املعرفة
احلديثة يف قالب يؤمل منه جذب أكرب عدد ممكن من املهتمني هلذه املجاالت التخصصية
اخلصبة ،التي باتت ميدان ًا للدراسة والبحث النظري إضافة إىل التجارب والتطبيقات
العملية التي تتنافس عليها كربيات الرشكات التقنية ،وكذلك اجلامعات واملراكز
البحثية.
وحتسب ملركز امللك عبداهلل بن عبدالعزيز الدويل خلدمة اللغة العربية مبادرته يف تبني
مثل هذا املرشوع وغريه من مرشوعات السالسل التي تعالج موضوعات متخصصة،
وتفتح آفاق ًا للقارئ العريب للحاق بركب العلم واملعرفة واالطالع عىل آخر مستجداته.
وقد حرص املشاركون يف تأليف هذا الكتاب -وهم نخبة من أساتذة اجلامعات
املتخصصني يف ميدان الذكاء االصطناعي ومعاجلة اللغة العربية (مع حفظ األلقاب
العلمية هلم) -عىل أن يكون الطرح تعليمي ًا متدرج ًا مع رشح املصطلحات قدر
اإلمكان ،وتقريب املعلومات للقارئ بأمثلة واضحة تساعد عىل الفهم والتطبيق،
إال أنه موجه بالدرجة األوىل ملن لديه مقدمة يسرية عن تطبيقات الذكاء االصطناعي
Artificial Intelligenceومعاجلة اللغة الطبيعية ،Natural Language Processing
وبناء اخلوارزميات Algorithm؛ وذلك لتعميق معرفته حول خوارزميات الذكاء
االصطناعي التي يمكن االستفادة منها يف جمال حتليل النص العريب ومعاجلة اللغة
العربية التي ختتلف يف تركيبتها الرصفية والنحوية والداللية عن اللغات الالتينية التي
حظيت باهتامم كبري يف هذا اجلانب ،فهو -أي النص العريب -بحاجة إىل مزيد من
البحث والدراسة لتكييف اخلوارزميات املستعملة بام يتناسب مع خصائصه وقواعده،
وهذا ما حياول الكتاب رشحه باستعراض لعدة موضوعات حظيت بأبحاث عميقة يف
اآلونة احلديثة .وفيام ييل عرض موجز ملحتويات الكتاب اعتامد ًا عىل امللخصات التي
سرتد الحق ًا يف بداية كل فصل من فصوله.
ففي الفصل األول يتحدث وليد الصانع عن طرق ومستويات معاجلة اللغة يف
الذكاء االصطناعي ،مبين ًا أن حوسبة معاجلة اللغة هتدف إىل حماكاة الذكاء البرشي؛
إذ إن اللغات البرشية تعترب أحد أكثر األنظمة تعقيد ًا ،وهي متر بمستويات عدة بدء ًا
من الصوت وانتها ًء باخلطاب .ويلقي هذا الفصل الضوء عىل مستويات معاجلة
-10-
اللغة ،مع استعراض بعض من الطرق املشهورة املستخدمة يف معاجلة اللغة يف الذكاء
االصطناعي ،ومنها عىل سبيل املثال خوارزميات تع ُّلم اآللة (،)Machine Learning
والتعرف النمطي
ُّ ونامذج ماركوف اخلفية (،)Hidden Markov Models –HMMs
( )Pattern Recognitionيف الفضاء الداليل ،ونحوها مما يعطي القارئ ملحة عن طرق
الذكاء االصطناعي املستعملة يف معاجلة اللغة.
يف الفصل الثاين يتناول فارس القنيعري خوارزميات التعلم العميق وتطبيقاته
يف معاجلة اللغة ،والتي تعد امتداد ًا خلوارزميات الشبكات العصبية .ويرجع سبب
استخدام خوارزميات التع ّلم العميق إىل قدرهتا عىل تع ّلم نامذج بالغة التعقيد كان
من الصعب تعلمها سابق ًا ،وهذا أتاح العديد من التطبيقات التي تعالج احتياجات
واقعية ،منها معاجلة اللغات الطبيعية .فيبدأ هذا الفصل بتقديم موجز عن الشبكات
العصبية والتعلم العميق ،ثم يتطرق ألهم املعامريات املستخدمة ،ويف النهاية يعرض
بعض تطبيقاهتا يف معاجلة اللغات الطبيعية؛ للخروج بفهم عام عن خوارزميات التعلم
العميق وكيفية تطبيقها يف جمال معاجلة اللغات.
ويف الفصل الثالث يتحدث عبداهلل الراجح عن الرتمجة اآللية ،التي تعد من أصعب
املشاكل يف جمال الذكاء االصطناعي ،إذ تتطلب معارف لغوية متعددة ملحاكاة عمل
املرتجم املختص ،ومع ذلك فهي تشهد تطور ًا ملحوظ ًا يف أداء أنظمتها بعد عقود
من البحث والتطوير ،وخصوص ًا بعد حتوهلا من منهج الرتمجة اآللية اإلحصائية
( )Statistical Machine Translationالذي كان مهيمن ًا عىل هذا امليدان لعدة عقود،
إىل أن حتول املجتمع البحثي حديث ًا وتبعته كربيات الرشكات إىل املنهج املعتمد عىل
الشبكات العصبية ( ،)Neural Machine Translationويمكن اعتبارها نقطة التحول
التي دخلت معها الرتمجة اآللية عرص ًا جديد ًا ،إذ يقدم الفصل احلايل عرض ًا ألبرز مالمح
هذا العرص ،مع التطرق لبعض التحديات التي تواجه هذا املنهج البحثي اجلديد.
يف الفصل الرابع يتناول عبدالرمحن العصيمي نمذجة الكلمة العربية ،إذ متثل الكلمة
ركيزة مهمة يف فهم واستيعاب اخلطاب املكتوب .وهيدف هذا الفصل إىل تزويد غري
املتخصص بمقدمة لفهم أحدث اخلوارزميات املستخدمة يف بناء النامذج احلاسوبية
للكلمة العربية الفصيحة املكتوبة .كام حياول تفسري أسباب الصعوبات التي تكتنف نمذجة
-11-
ومرورا بغناها الرصيف وانتها ًء
ً الكلمة العربية حتديدً ا ،بد ًءا بنظامها الرصيف الغري خطي
بمستويات الغموض العالية يف النص العريب .كام يقدم نمطني مشهورين لتحليل الكلمة:
اللغوي والتوزيعي ،ويقارن بينهام ،وذلك عرب مقدمة لكل نمط وحتليل اخلوارزميات
املستخدمة وأشهر األدوات املتاحة .ويف اخلتام ،يسلط الضوء عىل أوجه القصور يف بعض
اخلوارزميات عند حتليل ونمذجة اللغة العربية ،والوسائل مقرتحة ملعاجلتها.
يف الفصل اخلامس يقدم أيمن الغامدي استعراض ًا لتقنيات الذكاء االصطناعي
واملعاجلة احلاسوبية للمتالزمات اللفظية والرتاكيب االصطالحية ،من خالل تتبع أهم
الدراسات التي اهتمت باملعاجلة احلاسوبية هلذه الظاهرة اللغوية ،إذ يبدأ الفصل بمقدمة
تبني أمهية دراسة هذه الظاهرة وأهم جماالت البحث فيها ،ثم يقدم إطار ًا نظري ًا مشتم ً
ال
عىل أهم اخلصائص اللغوية املميزة هلا يف اللغة العربية ،باإلضافة إىل استعراض أهم
التصنيفات املستعملة للرتاكيب االصطالحية يف مستويات لغوية متعددة .بعد ذلك
يستعرض أهم تطبيقات املعاجلة احلاسوبية هلذه الظاهرة والتي تلخص املشاكل البحثية
الرئيسة التي تتضمن الرتاكيب االصطالحية يف أدبيات معاجلة اللغات ،كام يسلط
الضوء بشكل خاص عىل مهمتي االستخراج والتعرف اآليل ،قبل أن خيتم بعرض
موجز ألبرز التحديات التي ال زالت تشكل عقبة يف سبيل الوصول إىل درجات عالية
من الدقة يف مهام املعاجلة احلاسوبية املختلفة هلذه الظاهرة اللغوية املعقدة.
ختام ًا ،أتقدم بالشكر الوافر -بعد شكر اهلل عز وجل -إىل مركز امللك عبداهلل
بن عبدالعزيز الدويل خلدمة اللغة العربية عىل ما قدمه للمحرر ولفريق التأليف
من دعم متصل وتذليل للعقبات يف سبيل تأليف هذا الكتاب الذي يؤمل أن يكون
مرجع ًا للمهتمني هبذا امليدان .كام أتقدم بالشكر اجلزيل جلميع الزمالء املشاركني يف
تأليف فصول هذا الكتاب الذين بذلوا أوقاهتم وقدموا خالصة أبحاثهم يف جماالت
ختصصهم ،فلهم مني جزيل الشكر واالمتنان.
املحرر /عبداهلل بن حييى الفيفي
الرياض 8 -ذو القعدة 1440هـ
ayjfaifi@gmail.com
-12-
موضوعات فصول الكتاب
-13-
-14-
الفصل األول
طرق ومستويات معاجلة اللغة
يف الذكاء االصطناعي
-15-
-16-
ملخص الفصل
تعترب اللغات البرشية أحد أكثر األنظمة تعقيد ًا والتي متيز اإلنسان عن غريه من
املخلوقات .ومتثل قدرة اإلنسان عىل فهم وتوليد اللغة عام ً
ال من عوامل متيزه العقالين.
وهلذا ،فإن حوسبة معاجلة اللغة تعترب أحد أهم تطبيقات الذكاء االصطناعي والذي
هيدف إىل حماكاة الذكاء البرشي .ومتر معاجلة اللغة يف الذكاء االصطناعي بمستويات
عدة ،بدء ًا من الصوت وانتها ًء باخلطاب .ويعمل الباحثون عىل تطوير طرق متعددة
ملعاجلة اللغة يف كل هذه املستويات .ويف هذا الفصل ،نلقي الضوء عىل مستويات
معاجلة اللغة ،وكذلك نستعرض بعض ًا من الطرق املشهورة املستخدمة يف معاجلة اللغة
يف الذكاء االصطناعي.
-17-
-1املقدمة
عم يدور يف عقله من تصورات وأفكار. عب هبا اإلنسان َّ
اللغة هي الوسيلة التي ُي ِّ
تعارف عليه بني جمموعة من البرش يستخدمونه إليصال األفكار وهي نظام ترميزي ُم َ
والصور التي يف عقوهلم بحيث يستطيع املستقبل((( هلذه الرموز من نفس املجموعة أن
حيوهلا يف عقله لنفس األفكار والصور التي أراد املتكلم إيصاهلا ،أو قري ًبا منها .إذ إن
اللغة البرشية هي متثيل ألفكار ومفاهيم بطريقة مسموعة (الكالم) أو مكتوبة (النص).
وبنا ًء عليه ،فإن استخدام اإلنسان للغة مبني عىل ثالث قدرات أساسية وهبها اهلل
سبحانه وتعاىل له ،وهي:
قدرته عىل تعلم اللغة ( :)Language Acquisitionأي قدرته عىل استقراء
( )Induceالقواعد الرتكيبية والداللية للوحدات والرتاكيب اللغوية ،كالقواعد
الرصفية والنحوية ودالالت املفردات ،من خالل األمثلة التي يتعرض هلا سام ًعا
(يف بدايته كطفل) ،أو قراء ًة (بعد تعلمه القراءة) (.)Clark, 2002
مثال:
طفل إىل الناس من حوله يقولون يف حديثهم عن ُذ ٍ
كور: ِ
يستم ُع ٌ
أعطيتُـ ه ،حدثتُـ ه ،سلمتُـ ه ،أكرمتُـ ه… ،
ويف حديثهم عن ٍ
إناث:
أعطيتُـ ها ،حدثتُـ ها ،سلمتُـ ها ،أكرمتُـ ها… ،
ويعلم هذا الطفل أن الكلامت تشري إىل أحداث مرتبطة بالزمن (أفعال) قام
ذكورا وإنا ًثا .فعندئذ ،يقوم باستقراء النظرية
ً هبا املتحدث جتاه أطراف ثالثة،
اللغوية التالية:
§ §إذا أراد متحدث اإلشارة إىل فعل جتاه طرف ثالث ذكر فإنه يلحق «ه» بالفعل،
وإذا أراد اإلشارة إىل فعل جتاه طرف ثالث أنثى فإنه يلحق بالفعل «ها».
-1سنستخدم كلمة «ا ُملستقبِل» يف مناسبات خمتلفة خالل هذا الفصل لإلشارة للسامع أو القارئ عندما ال ُيدد السياق
هل املقصود كالم أم نص.
-18-
قدرته عىل استقبال اللغة ،أو ما يعرف باللغة االستقبالية (Receptive
:)Languageوهي القدرة عىل معاجلة وفهم اللغة وفق القواعد اللغوية التي
كوهنا عن العامل (خصائص املوجودات وو ْفق املعتقدات ( )Beliefsالتي َّ
تعلمها َ
و َعالقاهتا مع بعضها) .أي حتويل الرموز والرتاكيب اللغوية إىل املفاهيم العقلية
املناسبة .وتستخدم هذه القدرة يف معاجلة ما يسمعه اإلنسان أو يقرأه.
مثال:
ِ
كأسا من املاء».الر ُج َل اجلال َس هناك ً «أعطيت َّ
ُ شخص هذه اجلملة ٌ استقبل
تتم َّثل اللغة االستقبالية بقدرة ا ُملستقبِل عىل معاجلة هذه اجلملة ،فأحد
الفرضيات هي أن يقوم ا ُملستقبِل بتفكيك اجلملة إىل الكلامت ا ُمل ِّ
كونة هلا كالتايل:
أعطى ،ت ،ال ،رجل ،ال ،جالس ،هناك ،كأسا ،من ،ال ،ماء.
وحتديد أدوارها يف تركيب اجلملة كالتايل:
أعطى (فعل ماض) ،ت (حرف ينوب عن اسم) ،الـ (كلمة تعريفية ملا
بعدها) ،رجل (اسم جنس) ،الـ (كلمة تعريفية ملا بعدها) ،جالس (صفة)،
كأسا (اسم جنس) ،من (حرف) ،الـ (كلمة تعريفية ملا
هناك (اسم إشارة)ً ،
بعدها) ،ماء (اسم جنس).
يمكن بعد ذلك حتليل تركيب اجلملة َو ْفق قواعد الرتكيب اللغوية ،بحيث
ُتدد أولوية ترابط الكلامت مع بعضها البعض لتكوين العبارات انتها ًء بتكوين
اجلملة ( .)Parsingفعىل سبيل املثال ،تُربط الكلمتان «اجلالس» و «هناك»
لتكوين العبارة «اجلالس هناك» ومن ثم تُدخل عليهام كلمة «الرجل» لتكوين
العبارة األوسع «الرجل اجلالس هناك» ،وذلك لتحديد قراءة أن «اجلالس
هناك» عبارة مرتبطة بـ «الرجل» .ويقوم ا ُملستقبِل بدمج التحليل الذي توصل
له مع داللة املفردات ( )Lexical Semanticsومع ُمعتقداته ،وهي حقيقة أن
الكأس ُيع َطى والرجل هو الذي ُيعطِي ،الستخراج داللة اجلملة وحتويلها إىل
املفاهيم العقلية املناسبة ،وهي حتديد ا ُملعطِي ،وا ُملع َطى ،وا ُملع َطى له ،وصفة
ا ُملع َطى له أثناء الكالم.
-19-
قدرته عىل إنتاج اللغة ،أو ما يعرف باللغة اإلنتاجية ()Productive Language
أو اللغة التعبريية ( :)Expressive Languageوذلك بتحويل املفاهيم
ُوصل هذه التصورات والتصورات العقلية إىل تراكيب لغوية مناسبة ت ِ
ُّ
واملفاهيم ،أو قري ًبا منها ،إىل املستقبل .وهي عملية عكسية للغة االستقبالية.
وتستخدم هذه القدرة أثناء الكالم أو الكتابة.
مثال:
حادثة انتهت ،وهي إعطاء ٍ ُيريد ا ُملتحدِّ ث إيصال مفهوم يف عقله يتم َّثل يف
كأسا من املاء .فأحد ال َف َرض َّيات أنه ٍ
رجل جيلس اآلن يف مكان يمكن رؤيته ً
ثم يستدعي الكلامت جلمل ،ومن َّ يستدعي قواعد اللغة التي تع َّلمها لبناء ا ُ
ِ ِ
تتم هذه العملية كالتايل:التي تُوصل املعنى و ُيو ِّلد اجلملةُ .يمكن أن َّ
املفهوم ا ُملراد إيصا ُل ُه ُيشري إىل فِعل ،ويوجد فيه فاعل ومفعوالن ،ووصف
حلال أحد املفعولني ،فيستدعي قاعدة لغوية تع َّلمها للتعبري عن هذا املفهوم
ليحصل عىل:
فعل +فاعل +املفعول األول +صفة +املفعول الثاين.
(((
-20-
ثم
وألن الذكاء االصطناعي هو ف ٌّن هيتم بدراسة وفهم اإلدراك البرشي ،ومن َّ
حماولة بناء برجميات حاسوبية ُتاكي عملية اإلدراك ،فإن الباحثني يف جمال الذكاء
االصطناعي يعكفون عىل دراسة هذه ال ُقدُ رات الثالث لدى اإلنسان وحماولة بناء
ِ
سا من برجميات حاسوبية ُتاكيها .وتبقى كيفية عمل هذه ال ُقدُ رات لدى اإلنسان ًّ
أرسار الكون التي وضعها اهلل سبحانه وتعاىل وال سبيل ملعرفتها عىل سبيل اليقني(((.
وتستمد النظريات التي تطرح يف كثري من األدبيات اخلاصة هبذه الدراسات من
فروع خمتلفة ُتثل بنية حتتية ملجال الذكاء االصطناعي ،ومن هذه الفروع :اللسانيات
( )Linguisticsواللسانيات النفسية ( ،)Psycholinguisticsالرياضيات واإلحصاء
( ،)Mathematics and Statisticsالفلسفة واملنطق (،)Philosophy and Logic
علم اإلدراك ( ،)Cognitive Scienceنظرية احلوسبة (.)Theory of Computation
لذا فإن الدارس ملجال اللسانيات احلاسوبية يعمل يف منطقة تقاطع هلذه الفنون ،إضافة
متس بعض التطبيقات ،مثل معاجلة اإلشارات ()Signal Processing إىل فنون أخرى ُّ
َلِ ْن يعمل عىل حتويل الكالم املسموع إىل نصوص مكتوبة.
سنتطرق إىل مستويات معاجلة اللغة البرشية بد ًءا من تكوين الكلمة
َّ ويف هذا الفصل
من األصوات إىل إدراك املعنى وبناء املعتقدات .ثم سنستعرض بعض األمثلة عىل
املواضيع التي يعمل عليها الباحثون يف جمال اللسانيات احلاسوبية ،مع الرتكيز عىل
بعضا من الطرق ا ُملستخدَ مة
وآخ ًرا سنستعرض ً معاجلة النص فقط دون معاجلة الكالمِ .
ملعاجلة النصوص.
-21-
املستوى الصويت ( :)Phonetic Levelوهو املستوى األسايس ()primitive
كون للغة .ويف هذا املستوىُ ،تلل األصوات وترابطها مع بعضها ملعرفة ا ُمل ِّ
الكلامت ا ُملرادة.
املستوى الرصيف ( :)Morphological Levelيف هذا املستوى ُتلل بنية الكلامت
ُسمى الوحدات الرصفية ( .)Morphemesفمثال، بنا ًء عىل وحدات أساسية ،ت َّ
ٍ
وحدات ،األوىل «يـ» لإلشارة إىل أن الفعل كونة من ثالث كلمة «يذهبون» ُم َّ
قام به طرف ثالث ،والثانية «ذهب» وهو الفعل ،و ُيمثل الوحدة األساسية
للكلمة ،والثالثة «ون» لإلشارة إىل مجع ا ُملذكَّر.
املستوى الرتكيبي للجمل ( :)Syntactic Levelيف هذا املستوىُ ،يلل ترابط
مكن حتديد الكلامت ملعرفة كيف تتكون اجلملة ،ومن خالل هذا التحليل ي ِ
ُ
ِ
الر ُج َل جال ًسا» عىل
«رأيت َّ
ُ قراءة اجلملة .فعىل سبيل املثال ،يمكن حتليل مجلة
قراءتني ،األوىل وهي الشاذة:
{ [ (رأى ت) (الـ رجل) ] (جالسا) }
«جالسا» حاال للرائي .ألنه وبحسب التحليل
ً ويف هذه القراءة ،تكون كلمة
أعالهُ ،ربطت الكلمتان «رأيت» و «الرجل» ً
أول لتكوين عبارة «رأيت الرجل»
«جالسا» إىل هذه العبارة كام هو موضح يف األقواس.
ً ثم أدخلت كلمة ومن َّ
جالسا وهو يرى الرجل .أما القراءة
ً فيكون ناتج التحليل أن الذي رأى كان
الثانية وهي الشائعة:
{ (رأى ت) [ (الـ رجل) (جالسا) ] }
«جالسا» مع بعضهام أوال لتكوين عبارة «الرجل
ً ففيها ُربطت الكلمتان «الرجل» و
وضح يف األقواس.جالسا» ،ثم ُأدخلت عىل هذه العبارة كلمة «رأيت» كام هو ُم َّ ً
جالسا ،وا ُملتحدِّ ث رآه عىل هذه احلال.
ً املرئي هو الذي كان
َّ فتُشري القراءة إىل أن
عرف بالغموض الرتكيبي (Syntactic
وهذا االختالف يف حتليل نفس اجلملة ُي َ
،)Ambiguity) (Manning & Schütze, 1999أي أن اجلملة يمكن تركيبها
ناتج ُم ِتلف. ٍ
بأك َث َر من طريقة لك ٍُّل منها ٌ
-22-
املستوى الداليل ( :)Semantic Levelيف هذا املستوى ،تُستخرج املعاين
احلرفية للمفردات ،ومن ثم تُربط هذه املعاين لتكوين معنى اجلملة كاملة ،وهو
ما يعرف بالداللة الرتكيبية (Compositional Semantics) (Sternefeld
حلسبان .)& Sternefeld, 2013ال ُيؤخذ سياق اجلملة أو مناسبتها يف ا ُ
الستخراج معناها ،وإنام يؤخذ املعنى احلريف فقط .فجملة «بلغ السيل الزبى»
تعني أن هنالك ما ًء ارتفع ووصل الزبى.
املستوى التداويل ( :)Pragmatic Levelيف هذا املستوىُ ،تلل اجلملة َو ْفق
السياق واملقام الزماين واملكاين واالجتامعي الذي قيلت فيه وليس بالرضورة
كونة هلا .وملعرفة معنى اجلملة يف أن يكون مطاب ًقا للمعنى احلريف للكلامت ا ُمل ِّ
هذا املستوى ،حيتاج ا ُملستقبِل إىل استخدام معرفة إضافية خارج إطار املعرفة
اللغوية ( ،)Extra-linguistic Knowledgeوهي ا ُملعتقدات ( )Beliefsالتي
رضوري ملعرفة املجاز
ٌّ لدى الشخص عن العامل .والتحليل عىل هذا املستوى
احلكَم واألمثال والقصائد .ويف هذا اللغوي ،والتعريض ،والتلميح ،وفهم ِ
املستوى ،عىل سبيل املثالُ ،يعرف املعنى املراد جلملة «بلغ السيل الزبى» ،وهي
أن الصرب قد ن َِفدَ ،إذا ال ماء ارتفع وال زبى موجودة يف الواقع ا ُملشار إليه.
·املستوى اخلطايب ( :)Discourse Levelيف هذا املستوىُ ،يلل اخلطاب بمعاجلة
العالقات بني اجلمل املكونة له .فتُحلل كل مجلة وفق اجلمل التي تسبقها ملعرفة
تأثري تلك اجلمل عىل وجود هذه اجلملة .ويعمل حتليل املستوى اخلطايب عىل
معرفة اهلدف العام من الكالم والرسائل التي حيتوهيا.
كل ُمستوى حيتوي عنارص وكام هو ُمالحظ ،فإن اللغة ُت ِّثل نظا ًما ُمتعدِّ د املستوياتُّ ،
ترتكَّب مع بعضها البعض لتكوين مركبات متثل بدورها عنارص املستوى الذي فوقه
كام هو موضح يف الشكل 1أدناه .كام أن املعاجلة يف ك ُِّل مستوى قد تستخدم معلومات
من املستوى الذي فوقه .فاإلنسان يستخدم املعتقدات التي لديه ملعاجلة اللغة يف مجيع
املستويات بد ًءا من الصوت وانتها ًء باخلطاب .وبعد املعاجلة حيصل اإلنسان عىل
عرف بـتحديث معتقدات إضافية تضاف ملعتقداته السابقة أو تقوم بتغيريها وهو ما ُي َ
املعتقدات ( )Belief Updatingأو مراجعة النظريات (.)Theory Revision
-23-
املعتقدات
اخلطاب
التداولية
الداللة
تركيب اجلملة
الكلمة
الصوت
-24-
فعىل املستوى الصويت ،يعمل الباحثون عىل دراسة حتويل املوجات الصوتية إىل
التعرف عىل الكالم (،)Speech Recognition ٍ ٍ
كلامت مكتوبة ،وهو ما يعرف بتطبيقات ُّ
أو حتويل الكالم إىل نصوص (.)Speech-to-Text) (Gales & Young, 2007
التعرف عىل
ويتطلب العمل عىل هذا املستوى دراسة لنمطية األصوات بحيث يمكن ُّ
ٍ
صوت بنا ًء عىل األصوات التي قبله الصوت بنا ًء عىل األصوات املصاحبة له (معرفة
أيضا دراسة نمطية تسلسل الكلامت؛ إذ التعرف عىل الكالم ً
مثل) .ومما ُيساعد عىل ُّ ً
إن دراسة هذه النمطية تساعد يف معرفة الكلمة التي قيلت بنا ًء عىل الكلامت املصاحبة
أيضا توليد الكالم ()Speech Synthesis هلا .ومن املها ِّم التي يعمل عليها الباحثون ً
أو حتويل النصوص إىل كالم (Text-to-Speech) (Allen, Hunnicutt, Klatt,
ٍ
أنظمة تقرأ امللفات .)Armstrong, & Pisoni, 1987وهيدف هذا العمل عىل تطوير
النصية.
أما عىل مستوى ُمعاجلة الكلمةَّ ،
فإن من أهم عمليات املعاجلة يف هذا املستوى هو
التحليل الرصيف (;Morphological Analysis) (Jurafsky & Martin, 2008
.) McCarthy, 2018فمن خالل هذا التحليلُ ،تدد الزوائد ( )Affixesالتي تدخل
مكن أن تكون يف بدايتها ( ،)Prefixesمثل حرف الياء يف كلمة عىل الكلمة والتي ي ِ
ُ
«يـذهب» ،أو يف وسطها ( ،)Infixesمثل حرف األلف يف كلمة «ذاهب» ،أو يف هنايتها
( ،)Suffixesمثل حريف الواو واأللف يف كلمة «ذهبوا» .فمن خالل التحليل الرصيف
للكلامت السابقة يمكن معرفة أن هذه الكلامت هلا نفس اجلذر ( )Rootوهو «ذهب».
وختتلف املعاجلة الرصفية باختالف اهلدف منها .ففي تطبيقات اسرتجاع املعلومات
مثل ،وهو ا ُملصطلح العلمي املستخدم لإلشارة للتقنية
(ً )Information Retrieval
طورين هلذه التي تُبنى عليها ُمركات البحث ( ،)Search Enginesيقوم بعض ا ُمل ِّ
التطبيقات باستخراج ُجذور الكلامت لنصوص االستعالم ( )Queriesوذلك للبحث
بدل من مطابقة الكلامت كام ٍ
كلامت هلا نفس اجلذور ً عن النصوص التي حتتوي عىل
مثل االستعالم «أعامل احلجاج» ،فإنه بمطابقة النصوص هي .فلو أدخل املستخدم ً
التي فيها إحدى هاتني الكلمتني كام مها ،سيسرتجع النظام تلك النصوص التي حتتوي
إحدى هاتني الكلمتني أو كالمها فقط ،وسيستبعد نصوص ًا ال حتتوي أيا منهام ولكن
«حج» .أما
«حيجون» ،وغريها من مشتقات َّ ُّ حتتوي عىل كلامت مثل «حج»« ،حجيج»،
-25-
بإعادة الكلامت يف نص االستعالم ،ويف النصوص التي يف قاعدة البيانات إىل جذورها،
ِ سيتم اسرتجاعه و َع ْرضه عىل ا ُمل
ستخدم. ُّ أي نص توجد فيه كلمة ُمشت َّقة من َّ
«حج» فإن َّ
التعرف عىل أجزاء الكالم
أما عىل املستوى الرتكيبي ،فمن مهام املعاجلة األساسية ُّ
( )Parts of Speechللكلامت (& Kübler & Mohamed, 2011; Manning
.)Schütze, 1999ومصطلح أجزاء الكالم غري ُمستخدَ م يف دراسات اللغة العربية
ٍ
بشكل شائ ٍع((( ،لكنه من املصطلحات املستخدمة يف الدراسات املتعلقة ببعض اللغات
األخرى ،وخاصة اإلنجليزية .و ُيشري مصطلح أجزاء الكالم إىل األصناف التي يمكن
ُنسب إليها كلامت اللغة بنا ًء عىل دورها الرتكيبي .عىل سبيل املثال ،يمكن اعتبار
أن ت َ
هذه القائمة :اسم جنس (ومثال ذلك كلمة «إنسان») ،اسم شخص (ومثال ذلك
كلمة «حممد») ،فعل ،ضمري ،حرف ،صفة ،حال ،رابط (مثال ذلك واو العطف)،
أجزاء للكالم .وال يوجد اتفاق تا ٌّم عىل جمموعة ثابتة ألجزاء الكالم للغة ما ،بل إن
تتغي بحسب نوع التحليل ورؤية من يقوم بذلك .فقد يبدأ بعض هذه املجموعة قد َّ
ومن َث َّم يقومون بإضافة أجزاء أخرى عند احلاجة .إحدى بمجموعة معينةِ ،
ٍ الدارسني
ُ َّ
ٍ
قائمة ألجزاء الكالم هو احتاد البيانات اللغوية (Linguistic اجلهات التي قامت بتبني
((()Data Consortiumبجامعة بنسلفانيا بالواليات املتحدة األمريكية .وتُستخدم
هذه القائمة ألكثر من لغة ومن ضمنها اللغة العربية .وهناك باحثون آخرون يتبنُّون
جمموعة خمتلفة من أجزاء الكالم للغة العربية بحسب املهمة التي يعملون عليها ،وآلية
التحليل التي يستخدموهنا.
أما املعاجلة عىل املستوى الداليل ،فتتمثل يف حتليل داللة املفردات من خالل معرفة
ٍ
معان متقاربة (Landauer & Dumais, املفردات التي هلا نفس املعنى ،أو تلك التي هلا
.)1997; Deerwester, Dumais, Furnas, Landauer, & Harshman, 1990
يمكن استخدام التحليل الداليل يف تطبيقات اسرتجاع املعلومات السرتجاع النصوص
ِ
ستخدم ،أو هلا معان قريبة منها. ٍ
رتادفة للكلامت التي أدخلها ا ُمل ٍ
كلامت ُم التي حتتوي عىل
-1بحسب علم الكاتب ،أنه يف اللغة العربية ُيستخدم مصطلح «أقسام الكالم» لإلشارة إىل األقسام الرئيسية فقط ،وهي
االسم والفعل واحلرف.
2- https://www.ldc.upenn.edu/
-26-
حل َّجاج» ،يمكن
فبالعودة إىل املثال السابق وهو االستعالم باستخدام العبارة «أعامل ا ُ
من خالل التحليل الداليل إعادة النصوص التي ال تتعلق باحلج فقط ،بل حتى بتلك
أيضا
«الس ْعي» ،وربام ً ٍ
التي تتعلق بكلامت قريبة منها دالليا كـ «ال ُعمرة» و «الطواف» و َّ
«منًى» و «عرفات» ،بحكم قرب تلك النصوص املتعلقة ببعض املشاعر كـ «مزدلفة» و ِ
ُ
هذه املفردات دالل ًّيا من احلج .جتدُ ُر اإلشارة إىل أن باحثني قاموا بتطوير قاعدة بيانات
حتوي مفردات بعض اللغات ،ومنها العربية ،وارتباطاهتا الداللية من حيث الرتا ُدف
و ُق ْرب املعاين ،واملفاهيم ( )Conceptsالتي حتملها هذه الكلامت ،والعالقات بني هذه
واخلاص («رجل:إنسان») ،وعالقة اجلزء من الكل ِّ املفاهيم كال َعالقة اهلرمية ،مثل العا ِّم
ُعرف هذه الشبكة بشبكة الكلامت (.((( ((()WordNet («يد:جسم») .وت َ
أما التحليل عىل املستوى التداويل ،فهو من أكثر املها ِّم حتد ًيا .فبحسب معرفتي،
أن األبحاث يف املعاجلة عىل هذا املستوى حمدود ٌة مقارن ًة باألبحاث التي تُعالج اللغة
يف املستويات األخرى .ولعل التطبيقات التي هتدف ملعرفة مقاصد اجلمل وما يبنى
عليها ( )Textual Entailmentتعمل عىل هذا املستوى إضافة إىل املستوى الداليل
(.)Androutsopoulos & Malakasiotis, 2010
وفيام يتعلق بتحليل اخلطاب ،فإنه يستخدم ِ
لبناء ٍ
كثري من التطبيقات ،منها عىل سبيل ُ
املثال ،التلخيص اآليل ( ،)Text Summarization) (Marcu, 2000وذلك بتحليل
النص الستخراج اجلمل األكثر أمهي ًة ،والتي تُوصل املعنى الذي أراد الكاتب إيصاله.
كذلك معرفة ا ُملؤ ِّلف ( ،)Author Identificationوذلك من خالل حتليل النصوص
التي كتبها ساب ًقا ملعرفة أسلوب كتابته ( )Writing Styleومقارنة هذا األسلوب
بالنص الذي تتم معاجلته ملعرفة ما إذا كان هو كاتب هذا النص أم ال .ومن التطبيقات
أيضا حتليل النصوص ملعرفة حقبها التارخيية وأحوال مؤلفيها عند كتابتها ،وغريها من
التحليالت التي يقوم هبا النُّ َّقاد األدبيون يدو ًّيا.
1- https://wordnet.princeton.edu/
2- http://globalwordnet.org/resources/arabic-wordnet/
-27-
ﻣﻌﺎﻟﺠﺔ اللغة
اﻟﻠﻐﺔ
معاجلة
ﻣﻌﺎﻟﺠﺔاﻟﻠﻐﺔ
اﻟﻠﻐﺔ طرق
ﻃﺮق
ﻃﺮقﻣﻌﺎﻟﺠﺔ
2.2
ﻃﺮق2.2
2.2
2.2
ﻼت22
َ 2 داﻟﺔ11
ﻣﻦاﻟ ُﻤاﻟﺪاﻟ ُﻤ َﻤﺧﺪﺪﺧ َﺧ
ﻣﺠﻤﻮﻋﺔﻣﻦﻣﻦ
ﻣﺠﻤﻮﻋﺔ
تأخذ جمموعة من ا ُمل ُ َ ﺗﺄﺧﺬ ﻛﻮﻧﮭﺎ اﻟﻤﻌﺎﻟﺠﺔﻓﻲﻓﻲ
اﻟﻤﻌﺎﻟﺠﺔ ﻋﻤﻠﯿﺔ ﺗﺘﻤﺜﻞ
1
((( ﻼت
دخالت
ﻼت (((𝑓𝑓𝑓𝑓𝑓𝑓ﺗﺄﺧﺬ
ﺗﺄﺧﺬﻣﺠﻤﻮﻋﺔ ﻛﻮﻧﮭﺎداﻟﺔداﻟﺔ
ﻓﻲﻛﻮﻧﮭﺎ ﻋﻤﻠﯿﺔاﻟﻤﻌﺎﻟﺠﺔ
ﺗﺘﻤﺜﻞﻋﻤﻠﯿﺔ
ﺗﺘﻤﺜﻞ
تتمثل عملية املعاجلة يف كوهنا دالة
استخدامها
يمكناﺳﺘﺨﺪاﻣﮭﺎ
اﺳﺘﺨﺪاﻣﮭﺎ
اﺳﺘﺨﺪاﻣﮭﺎ ﯾﻤﻜﻦ قيمة
ﻗﯿﻤﺔ
ﻗﯿﻤﺔ𝒚𝒚𝒚𝒚𝒚𝒚ﯾﻤﻜﻦ
ﯾﻤﻜﻦ وﺗﻌﯿﺪﻗﯿﻤﺔ وتعيد
وﺗﻌﯿﺪ عليها
ﻋﻠﯿﮭﺎ
ﻋﻠﯿﮭﺎوﺗﻌﯿﺪ العمليات
اﻟﻌﻤﻠﯿﺎت
اﻟﻌﻤﻠﯿﺎتﻋﻠﯿﮭﺎ
ﺑﺒﻌﺾاﻟﻌﻤﻠﯿﺎت ببعض
ﺑﺒﻌﺾ لتقوم
ﻟﺘﻘﻮم
ﻟﺘﻘﻮمﺑﺒﻌﺾ 𝑿𝑿𝑿𝑿𝑿𝑿ﻟﺘﻘﻮم = !!!!!!}}𝑥𝑥!!𝑥𝑥𝑥𝑥==
!!!
!!!!}
املدخالت تكون اﻟﻠﻐﺔ،أن
يمكن اللغة، القيم ا ُمل
اﻟﻘﯿﻢ َ ٍ
ﺗﻜﻮن
أنﺗﻜﻮن
ﺗﻜﻮن أنأن ﯾﻤﻜﻦ
ﯾﻤﻜﻦ
ﯾﻤﻜﻦ اﻟﻠﻐﺔ،
ﻣﻌﺎﻟﺠﺔاﻟﻠﻐﺔ،معاجلةﻣﻌﺎﻟﺠﺔ
ﻣﻌﺎﻟﺠﺔ ﻓﻔﻲ
ﻓﻔﻲ ﻠﺔ.ﻓﻔﻲ ففي
لةَ ُ .ﻤﺧﺪﺪ َﺧ َﺧ
ﻠﺔ.
ﻠﺔ. دخ ُﻤاﻟﺪاﻟ ُﻤ
اﻟﻘﯿﻢاﻟ
اﻟﻘﯿﻢ ﺑﺨﺼﻮصبخصوص
ﺑﺨﺼﻮص
ﺑﺨﺼﻮص تٍ
تﻗﺮارا ٍ
ت قرارات
ﻗﺮارا ٍ ﻻﺗﺨﺎذ
ﻻﺗﺨﺎذﻗﺮارا الختاذ
ﻻﺗﺨﺎذ
حالة ل ،يف
اﻟﻜﻠﻤﺔ، ﻣﻌﺎﻟﺠﺔ ً
ج
ﺣﺎﻟﺔأو ُ َ
ﻣﻌﺎﻟﺠﺔ الكلمة،
ﺣﺎﻟﺔ معاجلة
ﺎ،ﻓًﻓًﺎ،
ﺎ،ﻓﻲﻓﻲ أﺣﻓً حالة يف أحر ًفا، ﻣﻌﺎﻟﺠﺔ ُ الصوت ،أو معاجلةﻓﻲ
ﺎ،ﺗًﺗًﺎ،ﺎ،ﻓﻲ اﻟﻤﺪﺧﻼتحالة
أﺻﻮاﺗً يف أصواتًا،
اﻟﻜﻠﻤﺔ،
اﻟﻜﻠﻤﺔ، ﻣﻌﺎﻟﺠﺔ ﻓﻲﺣﺎﻟﺔ أﺣ ُﺮ ُﺮ اﻟﺼﻮت،أوأوأو
أﺣ ُﺮ اﻟﺼﻮت،
اﻟﺼﻮت، ﻣﻌﺎﻟﺠﺔ
ﻣﻌﺎﻟﺠﺔ ﺣﺎﻟﺔ
ﻓﻲﺣﺎﻟﺔ
ﺣﺎﻟﺔ أﺻﻮا
أﺻﻮا اﻟﻤﺪﺧﻼت
اﻟﻤﺪﺧﻼت
ِّ
الدوال. الوصول هلذه ُ مكنمعاجلة النص ،ويبقى السؤال هنا هو كيف ي ِ
ﻟﮭﺬه
اﻟﻮﺻﻮ ُلﻟﮭﺬه
ﻛﯿﻒُﻤﯾﻜُﻤﻦِﻜﻦاﻟﻮﺻﻮ ُل اﻟﺴﺆالھﻨﺎھﻨﺎھﻮھﻮﻛﯿﻒ ﯾ ﻰﻰ ُاﻟﺴﺆال وﯾﺒﻘ
أو َ ُﺟ َ َﻤ ًﻼ ،ﻓﻲ ﺣﺎﻟﺔ ﻣﻌﺎﻟﺠﺔ اﻟﻨﺺ ،وﯾﺒﻘﻰ اﻟﺴﺆال ھﻨﺎ ھﻮ ﻛﯿﻒ ِﯾُﻤ ِﻜﻦ اﻟﻮﺻﻮ ُل ﻟﮭﺬه اﻟﻨﺺ،وﯾﺒﻘ ﻣﻌﺎﻟﺠﺔاﻟﻨﺺ، ﺣﺎﻟﺔﻣﻌﺎﻟﺠﺔ ﻼ ً،ﻼ،ﻓﻲﻓﻲﺣﺎﻟﺔ أوأو ُﺟﻤ ُﺟ ًﻤ
الطرق ا ُملستخدمة ،والتي بدأ ُّ
يقل استخدامهـــا حال ًّيا ،النُّ ُظم اخلـــبرية من ﱢل
اﻟﺪوا .ﱢل.
اﻟﺪوالﱢ. اﻟﺪوا
( .)Expert Systems) (Giarratano & Riley, 2004وتُبنى هذه النُّ ُظم بربجمة قواعد
��������
�������� ﺎ،ﯿًّﯿًّﺎ،ﺎ��������، ﺣﺎﻟ
ﺣﺎﻟ اﺳﺘﺨﺪاﻣﮭﺎﺣﺎﻟﯿًّ
اﺳﺘﺨﺪاﻣﮭﺎ
ﯾﻘﻞﱡاﺳﺘﺨﺪاﻣﮭﺎ ﺑﺪأﯾﻘﻞﱡﯾﻘﻞﱡ واﻟﺘﻲﺑﺪأﺑﺪأ واﻟﺘﻲ ﺴﺘﺨﺪﻣﺔ،واﻟﺘﻲ ﺴﺘﺨﺪﻣﺔ،
ﺴﺘﺨﺪﻣﺔ، اﻟﻄﺮقاﻟ ُﻤاﻟاﻟ ُﻤ ُﻤاﻟﻄﺮقﻣﻦاﻟﻄﺮق ﻣﻦﻣﻦ
احلالة وتكون الدا َّلة يف هذه بصيغة إذا-فإن) منطقية ج ًل تكون عاد ًة ُ َ املعاجلة (والتي
..(Giarratano
(Giarratano
&.(Giarratano &&Riley, Riley,
)Riley,2004 )2004
2004)((Expert Expert
(ExpertSystems Systems Systems �������)
������� ) ً) �������
قواعد املطورون بربجمة يقوم الرصيف، التحليل تطبيقات فمثل يف هي هذه القواعد.
ﺑﺼﯿﻐﺔ
قواعد
ﺑﺼﯿﻐﺔ ﺑﺼﯿﻐﺔ ُربمجﻣﻨﻄﻘﯿﺔ
ﻣﻨﻄﻘﯿﺔﻣﻨﻄﻘﯿﺔ
حيث ت ﻼﻼ ﻼ َﻤ ً ً ﻋﺎدةً ُةًﺟ َﻤ
الرتكيبيُ،ﺟ ًُﺟ َﻤ ﺗﻜﻮنﻋﺎدةً
ﻋﺎد ﺗﻜﻮنﺗﻜﻮن
التحليل )واﻟﺘﻲ
)واﻟﺘﻲ)واﻟﺘﻲ اﻟﻤﻌﺎﻟﺠﺔ
اﻟﻤﻌﺎﻟﺠﺔيف اﻟﻤﻌﺎﻟﺠﺔ
احلال كذلك ﻗﻮاﻋﺪ
ﻗﻮاﻋﺪ ﻗﻮاﻋﺪ ﺑﺒﺮﻣﺠﺔ ًا
ﺑﺒﺮﻣﺠﺔ
ﺑﺒﺮﻣﺠﺔ،
يدوي الرصيفﻨﱡﻢﻈُﻈُﻢﻢ
للغة
ھﺬهﻨﱡاﻟاﻟﻨﱡ
ﻈُ ھﺬهاﻟ ﺒﻨﻰ
ﺒﻨﻰھﺬه وﺗُووﺗُﺗُ
ﺒﻨﻰ
التحليل
ﺗﻄﺒﯿﻘﺎت
هذه
ﺗﻄﺒﯿﻘﺎت وتواجه
ﺗﻄﺒﯿﻘﺎت ﻓﻲ ﻓﻲﻓﻲ ﻓﻤﺜﻼ ً ً
ﻓﻤﺜﻼ
ﻓﻤﺜﻼ اﻟﻘﻮاﻋﺪً .
املعاجلة. اﻟﻘﻮاﻋﺪ. ھﺬه لدا َّلة
اﻟﻘﻮاﻋﺪ. ھﺬه
ھﺬهن
كوھﻲ ِّ ھﻲا ُمل
ھﻲ هي اﻟﺤﺎﻟﺔ
اﻟﺤﺎﻟﺔ
اﻟﺤﺎﻟﺔ ھﺬه
القواعد
ھﺬه ھﺬه ﻓﻲهذهﻓﻲ
ﻓﻲ اﻟﺪاﱠﻟﱠﺔﺔ
اﻟﺪاﺔﻟجمموعةﻟﱠ
اﻟﺪا وﺗﻜﻮن
وﺗﻜﻮنوﺗﻜﻮن وتكون���
���(( ���( كاملة،���
��� ��� النحو
ﯾﺪوﯾﺎ ًﺎ ً،،
وجود ﻟﻠﻐﺔإىل
ﯾﺪوﯾﺎ ً،
ﯾﺪوﯾ ﻟﻠﻐﺔ إضاف ً
ﻟﻠﻐﺔة اﻟﺼﺮﻓﻲ
اﻟﺼﺮﻓﻲ وتعقيدها،
اﻟﺼﺮﻓﻲ اﻟﺘﺤﻠﯿﻞ
اﻟﺘﺤﻠﯿﻞاﻟﺘﺤﻠﯿﻞ التحليل قواعدﻗﻮاﻋﺪ
ﻗﻮاﻋﺪ
ﻗﻮاﻋﺪ ﺑﺒﺮﻣﺠﺔ
ﺑﺒﺮﻣﺠﺔﺑﺒﺮﻣﺠﺔ كثرة مهها
اﻟﻤﻄﻮرون
اﻟﻤﻄﻮروناﻟﻤﻄﻮرون ﯾﻘﻮممن أ ِّ كثرية،
ﯾﻘﻮم اﻟﺼﺮﻓﻲ،
اﻟﺼﺮﻓﻲ،ﯾﻘﻮم صعوبات
اﻟﺼﺮﻓﻲ، الطريقة
اﻟﺘﺤﻠﯿﻞ
اﻟﺘﺤﻠﯿﻞ
اﻟﺘﺤﻠﯿﻞ
سبيل
وﺗﻜﻮن
وﺗﻜﻮن وﺗﻜﻮنﻛﺎﻣﻠﺔ،فعىل خاصة.
ﻛﺎﻣﻠﺔ، اﻟﻨﺤﻮ َّ
ﻛﺎﻣﻠﺔ، اﻟﻨﺤﻮ اﻟﻨﺤﻮعاجلة ﻗﻮاﻋﺪ ُم
ﻗﻮاﻋﺪ
ﻗﻮاﻋﺪ ﺒﺮﻣﺞ إىل حتتاج
ﺒﺮﻣﺞ
ﺒﺮﻣﺞ التيﺗُﺗُ
ﺣﯿﺚُ
ﺣﯿﺚﺗ ﺣﯿﺚ األسامءاﻟﺘﺮﻛﯿﺒﻲ،
اﻟﺘﺮﻛﯿﺒﻲ، اﻟﺘﺤﻠﯿﻞبعض
اﻟﺘﺮﻛﯿﺒﻲ، مثل
اﻟﺘﺤﻠﯿﻞ
اﻟﺘﺤﻠﯿﻞ اللغة
ﻓﻲﻓﻲﻓﻲ اﻟﺤﺎليف كثرية
اﻟﺤﺎلﻛﺬﻟﻚاﻟﺤﺎل حاالت
ﻛﺬﻟﻚ
ﻛﺬﻟﻚ
Morpho
ﺻﻌﻮﺑﺎت
ﺻﻌﻮﺑﺎت ﺻﻌﻮﺑﺎت اﻟﻄﺮﯾﻘﺔ(-
الرصيف-الرتكيبي
اﻟﻄﺮﯾﻘﺔ
ھﺬهاﻟﻄﺮﯾﻘﺔ ھﺬه وﺗﻮاﺟﮫ
وﺗﻮاﺟﮫھﺬه وﺗﻮاﺟﮫ التحليل
اﻟﻤﻌﺎﻟﺠﺔ..
اﻟﻤﻌﺎﻟﺠﺔ
اﻟﻤﻌﺎﻟﺠﺔ. حتت يندرجﻟﱠﻟﺪاﺔﻟ
ﻟﺪاﱠﻟﱠﺔﺔ ﻜﻮﻜﻜ ﱢنﻮ ﱢﻮننﻟﺪا التحليل
ھﻲ ُاﻤﻟاﻟ ُﻤ ُﱢﻤھﻲﻟ من
اﻟﻘﻮاﻋﺪ
اﻟﻘﻮاﻋﺪھﻲ ا اﻟﻘﻮاﻋﺪ نوع ھﺬه ھﺬه هنالك
ھﺬه ﻣﺠﻤﻮﻋﺔ
ﻣﺠﻤﻮﻋﺔ
ﻣﺠﻤﻮﻋﺔ
املثال،
الكلمة بتقطيع يعرف إﻟﻰإﻟﻰما التحليل هذا املهام يف وإحدى ). syntactic Analysis
ﻓﻲﻓﻲ
ﻓﻲ ﻛﺜﯿﺮة
ﻛﺜﯿﺮة
ﻛﺜﯿﺮة ﺣﺎﻻت
ﺣﺎﻻتﺣﺎﻻت وﺟﻮدوﺟﻮد وﺟﻮد إﺿﺎﻓﺔًﺔً إﻟﻰ إﺿﺎﻓﺔً
إﺿﺎﻓ وﺗﻌﻘﯿﺪھﺎ،
وﺗﻌﻘﯿﺪھﺎ،
وﺗﻌﻘﯿﺪھﺎ، اﻟﺘﺤﻠﯿﻞ
اﻟﺘﺤﻠﯿﻞ اﻟﺘﺤﻠﯿﻞ ﻗﻮاﻋﺪ
ﻗﻮاﻋﺪ ﻗﻮاﻋﺪ ﻛﺜﺮة
ﻛﺜﺮة ﻛﺜﺮة ﮭﺎ ﱢﻤﮭﺎﮭﺎأھ ﱢﻤأھأھ ﱢﻤ ﻣﻦﻣﻦﻣﻦ ﻛﺜﯿﺮة،
ﻛﺜﯿﺮة،ﻛﺜﯿﺮة،
( ،)Word Segmentationوفيه تُفصل األجزاء التي هلا دور تركيبي ،أي أهنا تأخذ أحد
ھﻨﺎﻟﻚ
ھﻨﺎﻟﻚ ھﻨﺎﻟﻚ اﻟﻤﺜﺎل،
اﻟﻤﺜﺎل،
اﻟﻤﺜﺎل، ﺳﺒﯿﻞ
ﺳﺒﯿﻞ ﺳﺒﯿﻞ ﻓﻌﻠﻰ
ﻓﻌﻠﻰ ﻓﻌﻠﻰ ﺻﱠﺔ.ﱠﺔ.ﺻﺻ
ﱠﺔ. ﺧﺎﺧﺎ
ﺧﺎ ﻌﺎﻟﺠﺔ
ﻌﺎﻟﺠﺔ
ﻌﺎﻟﺠﺔ إﻟﻰ ُﻣ ُﻣ
إﻟﻰإﻟﻰ ُﻣ ﺗﺤﺘﺎج
ﺗﺤﺘﺎج ﺗﺤﺘﺎج اﻟﺘﻲ
اﻟﺘﻲ اﻟﺘﻲ اﻷﺳﻤﺎء
اﻷﺳﻤﺎء
اﻷﺳﻤﺎء ﺑﻌﺾﺑﻌﺾ ﺑﻌﺾ ﻣﺜﻞ
ﻣﺜﻞ ﻣﺜﻞ اﻟﻠﻐﺔ
اﻟﻠﻐﺔ
اﻟﻠﻐﺔ
عم قبلها أو بعدها .مثال ذلك كلمة «ويذهبون». َّ )، Part of Speech ( الكالم أجزاء
������
������ ������� ������ ������� ﺗﺤﺖ ������� ﺗﺤﺖ ﯾﻨﺪرج ﺗﺤﺖ ﯾﻨﺪرج اﻟﺘﺤﻠﯿﻞ ﯾﻨﺪرج اﻟﺘﺤﻠﯿﻞ
ﻣﻦ -اﻟﺘﺤﻠﯿﻞ ﻧﻮع ﻣﻦ-ﻣﻦ- ﻧﻮع ﻧﻮع
فإنه يف هذه الكلمة تفصل الواو يف بداية الكلمة «و» والتي تأخذ أحد أجزاء الكالم
ھﺬاھﺬا
ھﺬا ﻓﻲﻓﻲ
ﻓﻲ اﻟﻤﮭﺎم
اﻟﻤﮭﺎم اﻟﻤﮭﺎم إﺣﺪى
إﺣﺪى إﺣﺪى .(Morpho-syntacticو( .و
Morpho-syntactic
(. Morpho-syntactic Analysis
Analysis ��������)
�������� )
��������
والتي الكلمة هناية «ون»ويف وكذلك تفصل الواو والنون Analysis عط)ًفا)، (وهو هنا رابط كوهنا
،(،(Word
تفصل Word
(، Word Segmentation
Segmentation
Segmentationبينام ال
كفاعل)، بحكم))عملها ������)
������������
(وهو هنا اسم ������
������
������ ﯾﻌﺮفأجزاء الكالم ﯾﻌﺮف
من ﯾﻌﺮف جز ًءا اﻟﺘﺤﻠﯿﻞاﻣﺎﻣﺎﻣﺎ
اﻟﺘﺤﻠﯿﻞ
أيضاﻟﺘﺤﻠﯿﻞ ً
تأخذ
Part
عىل
Part Part اﻟﻜﻼم ))
الكالم، اﻟﻜﻼم) أجزاء
اﻟﻜﻼم أﺟﺰاء
أﺟﺰاء أﺟﺰاء أﺣﺪمن أﺣﺪ
جزءأﺣﺪ ﺗﺄﺧﺬ
ﺗﺄﺧﺬ هلا
ﺗﺄﺧﺬ أﻧﮭﺎ
وليس
أﻧﮭﺎ أﻧﮭﺎأيأي
أي ﺗﺮﻛﯿﺒﻲ،
تركيبي ﺗﺮﻛﯿﺒﻲ،
ﺗﺮﻛﯿﺒﻲ، دور دور
دور ﻟﮭﺎهلا
دور ﻟﮭﺎ
ليس ﻟﮭﺎ اﻟﺘﻲ
اﻟﺘﻲ ألنه
اﻟﺘﻲ اﻷﺟﺰاء
اﻷﺟﺰاء «يذهبـ»
اﻷﺟﺰاء ﻔﺼﻞ
ﻔﺼﻞ وﻓﯿﮫ ﺗُ
«يـ»ﺗُ يف
ﻔﺼﻞ وﻓﯿﮫ ﺗُ
وﻓﯿﮫ الياء
ﺗﺄﺧﺬ أن مالحظة
ﺗﺄﺧﺬ ھﻮأنأن
ﺗﺄﺧﺬ ھﻮھﻮأن يمكن
اﻟﻤﮭﻢ
اﻟﻤﮭﻢ
اﻟﻤﮭﻢ ذﻟﻚ.
ذﻟﻚ. اللغوية.
ذﻟﻚ. ﻏﯿﺮ
ﻏﯿﺮ ﻏﯿﺮﻣﻨﻄﻘﯿﺔأوأو البيانات
ﻣﻨﻄﻘﯿﺔأو
ﻣﻨﻄﻘﯿﺔ داﻟﺔداﻟﺔ
داﻟﺔ احتاد
ﺗﻜﻮن
ﺗﻜﻮن ﺗﻜﻮن لدىﻓﻘﺪ
ﻓﻘﺪ ﺎ(ً .ﻣﺎ(.
ﻓﻘﺪ
ﺎ(. أرﻗﺎ ًﻣ
أرﻗﺎاملعتمدة
أرﻗﺎ ًﻣ)ﺗﻌﺎﻟﺞ
)ﺗﻌﺎﻟﺞ )ﺗﻌﺎﻟﺞ الكالم
ﻛﻤﯿﺔ
ﻛﻤﯿﺔ ﻛﻤﯿﺔاﻟﺪاﻟﺔ
اﻟﺪاﻟﺔ أجزاء
ﺗﻜﻮن
اﻟﺪاﻟﺔ
ﺗﻜﻮن ﺗﻜﻮن قائمةأنأن ﺷﺮطﺎأن
ﺷﺮطﺎ ﺷﺮطﺎ ﻟﯿﺲﻟﯿﺲيف
ﻟﯿﺲ األقل
11 1
ﻓﻘﻂ.
ﻓﻘﻂ. واﺣﺪ
ﻓﻘﻂ.
واﺣﺪ واﺣﺪ ﻣﺨﺮج
ﻣﺨﺮجﻣﺨﺮجإﻟﻰإﻟﻰ
إﻟﻰ ﻣﺪﺧﻞ
ﻣﺪﺧﻞ
ﻣﺪﺧﻞ ﻛﻞﻛﻞﻛﻞﺗﺤﻮل وھﻲأنأن
ﺗﺤﻮل
ﺗﺤﻮل وھﻲأنوھﻲ اﻟﺪاﻟﺔ ﺗﻌﺮﯾﻒ
اﻟﺪاﻟﺔ
اﻟﺪاﻟﺔ ﺗﻌﺮﯾﻒ
ﺗﻌﺮﯾﻒ
ﺑﯿﻨﻤﺎ
ﺑﯿﻨﻤﺎ ًﺎ(،ﮭًﺎ(،
ﺑﯿﻨﻤﺎ
ًﺎ(، ﻣﺘﺠﮭ
ﻣﺘﺠ )ﻣﺠﻤﻮﻋﺔأوأو
ﻣﺘﺠﮭ )ﻣﺠﻤﻮﻋﺔأو اﻟﻘﯿﻢ
)ﻣﺠﻤﻮﻋﺔ ﻣﻦﻣﻦ
اﻟﻘﯿﻢ
اﻟﻘﯿﻢ ﻣﻦ ﻣﺠﻤﻮﻋﺔ
ﻣﺠﻤﻮﻋﺔ
ﻣﺠﻤﻮﻋﺔ ُﻤﺜﻞُﻤﺜﻞ
ُﻤﺜﻞ ﻟﻤﺘﻐﯿﺮﯾ ﯾ
ﻟﻤﺘﻐﯿﺮ اﻟﻌﺮﯾﺾ
ﻟﻤﺘﻐﯿﺮ ﯾ
اﻟﻌﺮﯾﺾاﻟﻌﺮﯾﺾ اﻹﻧﺠﻠﯿﺰي
اﻹﻧﺠﻠﯿﺰي
اﻹﻧﺠﻠﯿﺰي ﺎﻟﺤﺮف
ﺎﻟﺤﺮف
ﺎﻟﺤﺮف داﺋﻤﺎﺑ ﺑ
داﺋﻤﺎ ﺳﻨﺸﯿﺮ
داﺋﻤﺎ ﺑ
ﺳﻨﺸﯿﺮ 22 2
ﺳﻨﺸﯿﺮ
تكون دالة منطقية أو غري ذلك .املهم هو أن تأخذ تعريف الدالة فقد
واﺣﺪة.
واﺣﺪة. ا).م
ﻗﯿﻤﺔ أرقا
ﻗﯿﻤﺔ ًﻗﯿﻤﺔ
واﺣﺪة. (تعالج
ﯾﺄﺧﺬ ﻣﺘﻐﯿﺮ
ﯾﺄﺧﺬﯾﺄﺧﺬ كمية
ﻣﺘﻐﯿﺮ
ﻣﺘﻐﯿﺮ الدالة
إﻟﻰ تكون
اﻟﻌﺎدي
إﻟﻰإﻟﻰ اﻟﻌﺎدي
اﻟﻌﺎدي أن
ﺑﺎﻟﺤﺮفرشطا
ﺑﺎﻟﺤﺮف
ﺑﺎﻟﺤﺮف ليس
ﺳﻨﺸﯿﺮ -1
ﺳﻨﺸﯿﺮ
ﺳﻨﺸﯿﺮ
2727 وهي أن حتول كل مدخل إىل خمرج واحد فقط.
27
متجها) ،بينام سنشري باحلرف
ً -2سنشري دائام باحلرف اإلنجليزي العريض ملتغري ُيمثل جمموعة من القيم (جمموعة أو
العادي إىل متغري يأخذ قيمة واحدة.
-28-
هذا التحليل خمتلف عن التحليل الرصيف الذي هيدف الستخراج جذر الكلمة ،إذ إنه
أيضا .أما يف هذا التحليل فيكون الناتج «و- -يذهب- يف ذلك التحليل تفصل الياء ً
ب أن قواعد التحليل وه ْ -ون»ُ .خ ْذ عىل سبيل املثال أيض ًا كلمة «واهم» ،من َ
الو ْهمَ ،
عم بعدها ،فإن هذه القاعدة لن تستطيع التفريق ُبرجمت لفصل الواو يف بداية الكلمة َّ
بني الواو التي من أصل الكلمة وبني واو العطف ،فتقوم بفصل الواو يف «واهم» لتُنتج
«و- -اهم» .هذا يف الصفات واألحوال وأسامء األجناس ،واألمر أكثر تعقيدً ا يف أسامء
األعالم ( ،)Named Entitiesوهي أسامء األشخاص واألماكن وا ُملن َّظامت .فلو وردت
أيضا وفق قاعدة فصل أيضا كلمة «الوليد» كاسم شخص يف أحد السياقات ،فقد ُتلل ً
ُفصل هنا كون الكلمة األلف والالم «الـ» لتكون «الـ- -وليد» ،بينام من ا ُملفرتض َّأل ت َ
اسم َع َلم وليست صفة .لذا فإننا يف برجمة قواعد املعاجلة نحتاج أن نأخذ يف هذا السياق َ
حلسبان ،وهذا أمر صعب جدًّ ا لعدم حمدودية الكلامت ،والتي كل هذه االعتبارات يف ا ُ
تعترب المنتهية ،إذ تدخل للغة كلامت جديدة بشكل مستمر ،والختالف السياقات
التي تُستخدم فيها الكلمة الواحدة ،والتي ربام خيتلف حتليل الكلمة بنا ًء عليها .ومن
مكن برجمتُها يف كثري من التطبيقات، أيضا عدم وجود قواعد حتليل معروفة ي ِ الصعوبات ً
ُ
مثل ،ال يوجد قواعد ثابتة معروفة ُمتفق عليها كثري من تطبيقات حتليل اخلطاب ً ففي ٍ
يمكن برجمتها لتُمثل دا َّلة التحليل ،فال يوجد قواعد ثابتة للتلخيص أو قراءة أسلوب
الكتابة للتعرف عىل ا ُملؤلف.
2.3تعلم اآللة
كثري من املطورين
يتوجه ٌ
ولتجاوز الصعوبات التي تواجه استخدام األنظمة اخلبريةَّ ،
والباحثني إىل استخدام خوارزميات تع ُّلم اآللة ( ،)Machine Learningوالتي هتدف
إىل ُماكاة التعلم البرشي .ففي حالة معاجلة اللغة ،فإن هذه اخلوارزميات ُتاكي عمليات
تعلم اللغة التي أرشنا إليها يف بداية هذا الفصل ،إذ هتدف إىل استقراء ِّ
دوال معاجلة
مثل ،تعطى هذه اللغة من خالل األمثلة التي تعطى هلا .ففي حالة التحليل الرصيف ً
اخلوارزميات جمموعة من الكلامت ا ُملح َّللة رصف ًّيا ،لتقوم هذه اخلوارزميات باستقراء ﺠﺔ اﻟﻠﻐﺔ
-30-
اﻷﺣﺮفاﻷﺣﺮف
خوارزمية اﻟﻄﺒﯿﻌﯿﺔ ﺗُﻤﺜﻞ
تصميم أردنا
ﻤﺜﻞ اﻻﻋﺪادلو اﻻﻋﺪاد ٍ
ﻣﺠﻤﻮﻋﺔ
بمثال(((.
اﻟﻄﺒﯿﻌﯿﺔ ﺗُ أرﻗﺎم ﻣﻦ
االستقرائي
ﻣﺠﻤﻮﻋﺔ ھﻲ اﻟﺪاﻟﺔ
االنحياز
ﻣﻦ أرﻗﺎم فكرة
ھﻲ إﻟﻰ ﺪﺧﻼت
هنا
اﻟﺪاﻟﺔ وضح
إﻟﻰ ﺪﺧﻼت • اﻟﻤ • ُ
وسأ اﻟ ُﻤ
• ُاﻟ ُﻤﺪﺧﻼت إﻟﻰ اﻟﺪاﻟﺔ ھﻲ أرﻗﺎم ﻣﻦ ﻣﺠﻤﻮﻋﺔ اﻻﻋﺪاد اﻟﻄﺒﯿﻌﯿﺔ ﺗُﻤﺜﻞ اﻷﺣﺮف
وضع بداي ًة
اﻟﻘﯿﻤﺔ ﻟﮫ فيمكن السابق،
واﻟﺤﺮف ﻟﮫ"ي"
اﻟﻘﯿﻤﺔ "ي" اجلزء1
واﻟﺤﺮف يفاﻟﻘﯿﻤﺔ رشحناها
ﻟﮫ 1 اﻟﺤﺮفوالتي
اﻟﺤﺮفﻟﮫ "أ"
اﻟﻘﯿﻤﺔ "أ" تقطيعﯿًّﺎ،
الكلمة،أن
أن أي ﺗﺴﻠﺴﻠ ملهمة
دالة ﺗﺴﻠﺴﻠ
اﻟﮭﺠﺎﺋﯿﺔﯿًّﺎ ،أي لتعلم
اﻟﮭﺠﺎﺋﯿﺔ
اﻟﮭﺠﺎﺋﯿﺔ ﺗﺴﻠﺴﻠﯿًّﺎ ،أي أن اﻟﺤﺮف "أ" ﻟﮫ اﻟﻘﯿﻤﺔ 1واﻟﺤﺮف "ي" ﻟﮫ اﻟﻘﯿﻤﺔ
االفرتاضات التالية:
.28 .28
.28
األحرف اﻟﺤﺮف ُتثل
اﻟﺬي ﻧﺮﯾﺪ
ﻧﺮﯾﺪ االعدادُﻤﺜﻞ
الطبيعية
اﻟﺬي اﻟﺤﺮف إﺣﺪاھﺎ ﯾ ﻣﺪﺧﻼت،
جمموعةﯾُﻤﺜﻞ
إﺣﺪاھﺎ أرقامﺔ من
ﻣﺪﺧﻼت،اﻟﺪاﻟﺔﺔ ﺧﻤﺴ
هي إﻟﻰ
ﺪﺧﻼتاﻟﺪاﻟﺔ
الدالةﺧﻤﺴ • ﻋﺪد•اﻟاﻤ ُملﻋﺪد اﻟ ُﻤ
دخالتإﻟﻰإىل
ﺪﺧﻼت
• ﻋﺪد ُاﻟ ُﻤﺪﺧﻼت إﻟﻰ اﻟﺪاﻟﺔ ﺧﻤﺴﺔ ﻣﺪﺧﻼت ،إﺣﺪاھﺎ ﯾُﻤﺜﻞ اﻟﺤﺮف اﻟﺬي ﻧﺮﯾﺪ
.28 القيمة
اﻷرﺑﻌﺔ واﻷﺣلهﺮُف
اﻷرﺑﻌﺔ «ي» واحلرف
ﻻ،ﺮُف
واﻷﺣ القيمةﺎأم1ﻻ،
ﺑﻌﺪه أم ﺑﻌﺪه ﱠﻤ لهﺎ
ُﻔﺼﻞ ﻋُﻔﺼﻞ«أ»ﯾﻋ ﱠﻤ
احلرفأن
ﯾﺠﺐ أن
ﻛﺎنأن ﯾ
ﯾﺠﺐأي تسلسل ًّيﻣﺎا،
ﻛﺎنإذا ﺑﺸﺄﻧﮫ اهلجائية
ﻧﻘﺮرﻣﺎ إذا
أن ﻧﻘﺮرأنﺑﺸﺄﻧﮫ
أن ﻧﻘﺮر ﺑﺸﺄﻧﮫ ﻣﺎ إذا ﻛﺎن ﯾﺠﺐ أن ﯾُﻔﺼﻞ ﻋ ﱠﻤﺎ ﺑﻌﺪه أم ﻻ ،واﻷﺣﺮُف اﻷرﺑﻌﺔ
ﻛﻠﻤﺔ
الذي نريد أن أﺧﺬﻧﺎ ﻓﻠﻮ
ﺑﻌﺪه.أﺧﺬﻧﺎ
احلرف ﻛﻠﻤﺔ اﻟﻠﺬان ﻓﻠﻮ
مثل ﺑﻌﺪه.ي
إحداها ُ واﻟﺤﺮﻓﺎن
مدخالت،
اﻟﻠﺬان مخسةﻗﺒﻠﮫ،
واﻟﺤﺮﻓﺎن اﻟﻠﺬان اﻟﺤﺮﻓﺎن
الدالةﻗﺒﻠﮫ، اﻟﺤﺮﻓﺎن إىل
اﻟﻠﺬان اﻷﺧﺮى ھﻲ
دخالت ھﻲ ُمل
اﻷﺧﺮىعدد ا
ﺑﻌﺪه .ﻓﻠﻮ أﺧﺬﻧﺎ ﻛﻠﻤﺔ اﻷﺧﺮى ھﻲ اﻟﺤﺮﻓﺎن اﻟﻠﺬان ﻗﺒﻠﮫ ،واﻟﺤﺮﻓﺎن اﻟﻠﺬان
األخرى اﻟﻤﺪﺧﻼتاألربعة
اﻟﻤﺪﺧﻼت واألحرف
ﺳﺘﻜﻮن ﺳﺘﻜﻮن ُ "ب"،"ب"،أم ال،
بعده
اﻟﺤﺮف عم فصل
ﻣﻌﺎﻟﺠﺔ
اﻟﺤﺮف َّ ﻣﻌﺎﻟﺠﺔأن ُي
جيب إذاﻨﱠﺎ
ﻧﺮﯾﺪكانﻧﺮﯾﺪ بشأنه ماو ُﻛ نقرر و ُﻛﻨﱠ
"ﯾﺬھﺒﻮن"ﺎ "ﯾﺬھﺒﻮن"
"ﯾﺬھﺒﻮن" و ُﻛﻨﱠﺎ ﻧﺮﯾﺪ ﻣﻌﺎﻟﺠﺔ اﻟﺤﺮف "ب" ،ﺳﺘﻜﻮن اﻟﻤﺪﺧﻼت
ﺗﺤﺖ ُكنَّا
«يذهبون» و
اﻟﺬي
اﻟﺤﺮفﺗﺤﺖكلمة
أخذنا اﻟﺬياﻟﺤﺮففلوﻣﻤﺜﻞ ھﻮ بعده.
ﻣﻤﺜﻞ اللذانھﻮ
اﻷول واحلرفاناﻷول
اﻟﺮﻗﻢ اﻟﺮﻗﻢإن قبله،إنﺣﯿﺚاللذان(2,
ﺣﯿﺚ، 26,احلرفان،(2,9,26,)27,25 هي9, )27,25
) ،(2, 26, 9, 27,25ﺣﯿﺚ إن اﻟﺮﻗﻢ اﻷول ھﻮ ﻣﻤﺜﻞ اﻟﺤﺮف اﻟﺬي ﺗﺤﺖ
ﺑﻌﺪه إناﻟﺬﯾﻦحيثواﻟﺤﺮﻓﯿﻦ، )2 ,
26 , 9 , 27 (, 25ﻗﺒﻠﮫ، املدخالت
اﻟﺬﯾﻦ ستكونﯿﻦاﻟﺤﺮﻓ احلرف «ب»، معاجلة نريد
واﻟﺤﺮﻓﯿﻦ اﻟﺬﯾﻦ ﺑﻌﺪه اﻟﺬﯾﻦﯿﻦ ﻗﺒﻠﮫ، ﺗﻤﺜﻞ
اﻷﺧﺮىاﻟﺤﺮﻓ اﻷﺧﺮى ﺗﻤﺜﻞ واﻷرﻗﺎمواﻷرﻗﺎم اﻟﻤﻌﺎﻟﺠﺔ، اﻟﻤﻌﺎﻟﺠﺔ،
ﺑﻌﺪه اﻟﺬﯾﻦ واﻟﺤﺮﻓﯿﻦ ﻗﺒﻠﮫ، اﻟﺬﯾﻦ
األول هو ممثل احلرف الذي حتت املعاجلة ،واألرقام األخرى متثل احلرفني ﯿﻦ اﻟﺤﺮﻓ ﺗﻤﺜﻞ اﻷﺧﺮى واﻷرﻗﺎم اﻟﻤﻌﺎﻟﺠﺔ،
الرقم
ﺗﺴﻠﺴﻠﯿًّﺎ.ﺗﺴﻠﺴﻠﯿًّﺎ.
تسلسل ًّيا. الذين قبله ،واحلرفني الذين بعده ﺗﺴﻠﺴﻠﯿًّﺎ.
ً
اﻟﺤﺮفاﻟﺤﺮف ﺑﻌﺪ ﻣﺎ ﺑﻌﺪ
ﻛﺎنإذاﻣﺎ ﻛﺎن إذا ،0 ﺣﻘﯿﻘﯿّﺎﻣﻦ 0
أﻛﺒﺮ ،ﻣﻦ ﺣﻘﯿﻘﯿًّدﺎًا أﻛﺒﺮ
ﯾﻜﻮن ﻋﺪ ﯾﻜﻮنأنﻋﺪدًا اﻟﺪاﻟﺔأنﯾﺠﺐ ﺨﺮجﯾﺠﺐ ﺨﺮج ُﻣاﻟﺪاﻟﺔ • ُﻣ •
ﺨﺮج اﻟﺪاﻟﺔ ﯾﺠﺐ أن ﯾﻜﻮن ﻋﺪدًا ﺣﻘﯿﻘﯿًّﺎ أﻛﺒﺮ ﻣﻦ ،0إذا ﻛﺎن ﻣﺎ ﺑﻌﺪ اﻟﺤﺮف
احلرف بعد ﯾﺠﺐﺑﻌﺪه كان ما
إذاﻛﺎن ﻣﻦ ،00 أﺻﻐﺮ من
حقيقو ًّيا أكرب عد ًدا يكونأن الدالة جيب أن رج ﺗﺤﺖ • ُﻣ ُم
ﺑﻌﺪهﻣﺎﯾﺠﺐ ﻛﺎنإذاﻣﺎ أﺻﻐﺮ ﻣﻦ 0إذا ُﻔﺼﻞ ،أ ُﻔﺼﻞ،ﯾ أو ﯾﺠﺐ اﻟﻤﻌﺎﻟﺠﺔأن ﯾ
اﻟﻤﻌﺎﻟﺠﺔ ﯾﺠﺐ اﻟﺬي
اﻟﺬي ﺗﺤﺖ
جيبﻤﺔ َّأل ﯾﺠﺐ
ﺑﻌﺪهبعده ﻛﺎن ﻣﺎ
ﻔﺘﺮض ما
كان ﻣﻦإذا0اﻟﻤإذا
اﻟﺴﺎﺑﻘﺔ0 ،من
أﺻﻐﺮ ﻣﻦ
أصغر اﻟﻨﻘﻄﺔأوُﻔﺼﻞ ،أو
فصل، أن ُي جيبﯾ
ﯾﺠﺐ أناملعاجلة اﻟﻤﻌﺎﻟﺠﺔ
حتت ﺗﺤﺖ
الذي اﻟﺬي
ﺗﻜﻮن ﻗﯿ أن ُ ﻓﻲ اﻟﺬي اﻟﻤﺜﺎل ﻓﻔﻲ ﻞ. ﺼَ ُﻔ ﯾ أﻻﱠ
ﺼﻞ .ﻓﻔﻲ اﻟﻤﺜﺎل اﻟﺬي ﻓﻲ اﻟﻨﻘﻄﺔ اﻟﺴﺎﺑﻘﺔ ،ﻣﻦ اﻟ ُﻤﻔﺘﺮض أن ﺗﻜﻮن ﻗﯿﻤﺔ
السابقة،ﻣﻦمناﻟ ُاﻤ ُملﻔﺘﺮض ﱠأﻻ ﯾُﻔ َ
قيمة الدالة تكونﻗﯿﻤﺔ فرتضأنأنﺗﻜﻮن النقطةاﻟﺴﺎﺑﻘﺔ، الذيﻓﻲيفاﻟﻨﻘﻄﺔ املثالاﻟﺬي
اﻟﻤﺜﺎل فصﻞ.ل.ﻓﻔﻲففي ﺼَ ﱠأﻻ ﯾُﻔ ُي َ
اﻟﺒﺎء ﯾﺠﺐ أن
جيبأنأنأن يفصل ﺑﻌﺪﯾﺠﺐ ﺑﻌﺪ ﻣﺎاﻟﺒﺎء 𝑓𝑓(2,ﻣﺎ ﻷن 9,ﻷن 𝑓𝑓(2, )26,9,27,25 )26, 27,25 > >0 ﻼت ﻼتﺪ َﺧ0 اﻟﺪاﻟﺔ ﻟﻠ ُﻤ اﻟﺪاﻟﺔ ﻟﻠ ُﻤﺪ َﺧ
الباءﯾﺠﺐبعداﻟﺒﺎء ألنﻣﺎماﺑﻌﺪ الت 𝑓𝑓(2, 9, 26, 27,25) > 0ﻷن دخﻼت للم ُﻤﺪ َ َﺧ
اﻟﺪاﻟﺔ ﻟﻠ ُ
اﻟﺤﺮف "ھـ" ﻌﺎﻟﺞ ُ ﻧ ﻛﻨﺎ إذا أﻣﺎ ون"،
أﻣﺎأماإذاإذاﻛﻨﺎ ﻧُﻌﺎﻟﺞ "ﯾﺬھﺐ اﻟﻜﻠﻤﺔ ﺗﻜﻮن ﺑﺤﯿﺚ ﯾﻔﺼﻞ
«هـ» فتكون احلرف "ھـ"ُعالجاﻟﺤﺮف
اﻟﺤﺮف "ھـ"
كنا ﻧُنﻌﺎﻟﺞ -ون»،أﻣﺎ إذا ﻛﻨﺎ «يذهب -ون"،
الكلمة"ﯾﺬھﺐ ون"، تكون اﻟﻜﻠﻤﺔ
ﺗﻜﻮن اﻟﻜﻠﻤﺔ "ﯾﺬھﺐ
بحيث ﺗﻜﻮن ﯾﻔﺼﻞ ﺑﺤﯿﺚ
ﯾﻔﺼﻞ ﺑﺤﯿﺚ
«هـ» بعد ﻣﺎ
ما ﻷنألن𝑓𝑓،ﻣﺎ
ﻷن26,،،𝑓𝑓28,9,
26, 28,9, 2,27 2,27 ﻛﺎﻟﺘﺎﻟﻲ < 0 ﻛﺎﻟﺘﺎﻟﻲ < 0 وﻗﯿﻤﺔ اﻟﺪاﻟﺔ
كالتايل اﻟﻤﺪﺧﻼت اﻟﺪاﻟﺔ
الدالة وقيمة
املدخالت وﻗﯿﻤﺔ اﻟﻤﺪﺧﻼت ﻓﺘﻜﻮن ﻓﺘﻜﻮن
ﻓﺘﻜﻮن اﻟﻤﺪﺧﻼت وﻗﯿﻤﺔ اﻟﺪاﻟﺔ ﻛﺎﻟﺘﺎﻟﻲ ،𝑓𝑓 26, 28,9, 2,27 < 0ﻷن ﻣﺎ
ﯾﻔﺼﻞ.ﯾﻔﺼﻞ. يفصل.أﻻ "ھـ"أﻻﯾﺠﺐ أال
جيبﯾﺠﺐ ﺑﻌﺪ ﺑﻌﺪ "ھـ"
ﺑﻌﺪ "ھـ" ﯾﺠﺐ أﻻ ﯾﻔﺼﻞ.
اﻟﺘﺎﻟﯿﺔ :اﻟﺘﺎﻟﯿﺔ:
التالية: ﻟﺼﯿﻐﺔاﻟﺼﯿﻐﺔ
الصيغة أﻧﮭﺎ ﺗﺄﺧﺬ
تأخذ أهنا أﻧﮭﺎأي
أي
ﺗﺄﺧﺬ ا ﻄطﯿ َّيﱠﺔ،
ة، خأي ﱠﺔَ َ ،ﺧ اﻟﺪاﻟﺔ
الدالة
اﻟﺪاﻟﺔ• َﺧﻄﯿ
•
أي أﻧﮭﺎ ﺗﺄﺧﺬ اﻟﺼﯿﻐﺔ اﻟﺘﺎﻟﯿﺔ: • اﻟﺪاﻟﺔ َﺧﻄﯿﱠﺔ،
𝒙𝒙 ∅ 𝑓𝑓 𝒙𝒙 𝑓𝑓 ∅=𝒙𝒙 𝒘𝒘 .=∅ 𝒘𝒘𝒙𝒙 . ∅+ 𝑏𝑏 𝑏𝑏 +
𝑏𝑏 𝑓𝑓 ∅ 𝒙𝒙 = 𝒘𝒘 . ∅ 𝒙𝒙 +
الظواهرﻣﻦ ﻋﺪد من%عدد 8 %8ﻋﻦ ﺗﺰﯾﺪنسبته عن ﯾﺠﺐ َّأل ﱠتزيد اﻟﺪاﻟﺔ جيب
التي تعطيها الدالة األخطاء اﻟﺘﻲ عدد • ﻋﺪد• ﻋﺪد
ﻣﻦ ﻋﺪد ﻧﺴﺒﺘﮫ%8 ﺗﺰﯾﺪأﻻﻧﺴﺒﺘﮫ ﻋﻦ ﺗﻌﻄﯿﮭﺎ ﯾﺠﺐ ﱠ
أﻻ اﻟﺪاﻟﺔ ﺗﻌﻄﯿﮭﺎ اﻷﺧﻄﺎء
اﻟﺘﻲ اﻷﺧﻄﺎء
بمعاجلتها .اﻟﺪاﻟﺔ ﯾﺠﺐ ﱠأﻻ ﺗﺰﯾﺪ ﻧﺴﺒﺘﮫ ﻋﻦ %8ﻣﻦ ﻋﺪد تقوماﻟﺘﻲ ﺗﻌﻄﯿﮭﺎ اﻷﺧﻄﺎء • ﻋﺪد التي
ﺑﻤﻌﺎﻟﺠﺘﮭﺎ. ﺗﻘﻮم اﻟﺘﻲ
اﻟﻈﻮاھﺮ اﻟﺘﻲ ﺗﻘﻮم ﺑﻤﻌﺎﻟﺠﺘﮭﺎ. اﻟﻈﻮاھﺮ
اﻟﻈﻮاھﺮ اﻟﺘﻲ ﺗﻘﻮم ﺑﻤﻌﺎﻟﺠﺘﮭﺎ.
31
31
31
-1هذا املثال توضيحي فقط ،وال هيدف إىل رشح الطريقة ا ُملثىل حلل مهمة تقطيع الكلمة.
-31-
ھﺬه اﻻﻓﺘﺮاﺿﺎت ھﻲ اﻻﻧﺤﯿﺎز اﻟﺬي وﺿﻌﻨﺎه
اﻟﺪواليف اﻟﺨﻄﯿﺔ ﻓﻘﻂ وﻓﻖ اﻟﻘﯿ ﻓﻀﺎءالبحثﻓﻲحترص والتي اﻟﺒﺤﺚ ﺗﺤﺼﺮ
التعلم خلوارزمية وضعناهواﻟﺘﻲ ﻟﺨﻮارزﻣﯿﺔ اﻟﺘﻌﻠﻢ
وﺿﻌﻨﺎهاالنحياز الذي االفرتاضات هي اﻻﻧﺤﯿﺎز اﻟﺬي ﻻﻓﺘﺮاﺿﺎت ھﻲ هذه
ﺳﺘﻜﻮن ﻋﻤﻠﯿﺔ اﻟﺒﺤﺚ ُﻣﻘﺘ احلالة، ھﺬههذه
اﻟﺤﺎﻟﺔ، ﻓﻔﻲففي أعاله. أﻋﻼه.النقاط
ﻓﻲ يفاﻟﻨﻘﺎط وضحة ﺿ َّ
ﱠﺤﺔ األخرى ا ُمل
اﻷﺧﺮى اﻟ ُﻤﻮ اﻟﻘﯿﻮدالقيودفقط وفق اخلطيةوﻓﻖ الدوال ﻓﻘﻂ
فضاءاﻟﺨﻄﯿﺔ ﻓﻲ ﻓﻀﺎء اﻟﺪوال
وﺿﻌﻨﺎه اﻟﺬيًا ً جتعلھﻲ اﻻﻧﺤﯿﺎز ھﺬه اﻻﻓﺘﺮاﺿﺎت
ﻗﻠﯿﻼ ﻣﻦ الدالة ﺗﻌﻄﯿﻨﺎ ﻋﺪد
والتي ﺗﺠﻌﻞ اﻟﺪاﻟﺔﱢﺮات 𝒘𝒘وو 𝑏𝑏 واﻟﺘﻲ تغيات للم ُﻤﺘﻐ ِّﯿ
إﯾﺠﺎدقيمﻗﯿﻢ ﻟﻠ ُﻋﻠﻰإجياد ﻘﺘﺼﺮةةًعىل
اﻟﺒﺤﺚ ُم ُﻣقترص ً ﻋﻤﻠﯿﺔالبحث ﺳﺘﻜﻮنعمليةﻓﻔﻲ ھﺬه اﻟﺤﺎﻟﺔ،ستكون
ﻓﻀﺎءال.اﻟﺪوال اﻟﺨﻄﯿﺔ ﻓﻘﻂ وﻓﻖ اﻟﻘﯿ اﻟﺒﺤﺚ ﻓﻲ ﺗﺤﺼﺮ واﻟﺘﻲ حتديداﻟﺘﻌﻠﻢ ﻟﺨﻮارزﻣﯿﺔ وﺿﻌﻨﺎه عد ًداﻟﺬي اﻻﻧﺤﯿﺎز ﻓﺘﺮاﺿﺎت ھﻲ
يمكن ﯾﻤﻜﻦ ﻣﻼﺣﻈﺔ أن ﻓﻀ بعدهﻣﺎأمﺑﻌﺪه أم ﻻ. ﯾﺠﺐ ماﻓﺼﻞ اﻟﺬيفصل اﻟﺤﺮفجيبالذي احلرف
ﻓﻲ ﺗﺤﺪﯾﺪ األخطاء يف
اﻷﺧﻄﺎء ﻗﻠﯿﻼ ﻣﻦ قليل من ً ﺗﻌﻄﯿﻨﺎا ﻋﺪ ًدًا تعطينا
واﻟﺘﻲ ﺗﺠﻌﻞ اﻟﺪاﻟﺔ
ﺳﺘﻜﻮن ﻋﻤﻠﯿﺔ اﻟﺒﺤﺚ ُﻣﻘﺘ
اﻻﻓﺘﺮاﺿﺎت ،إذ إن ھﻨﺎﻟﻚ إذ إن االفرتاضات،
اﻟﺤﺎﻟﺔ،
ھﺬه هذهﺑﻌﺪ وﺿﻊ
أﻋﻼه .ﻓﻔﻲ ھﺬه
ﺣﺘﻰ وضع
بعدأﯾﻀًﺎ
ﻓﻲ اﻟﻨﻘﺎط
ﻻﻣﻨﺘﮭﯿًﺎﱠﺤﺔحتى ﯾﺒﻘﻰا
أيض
ﺿھﻨﺎاﻮ ً
المنته ًي ُﻤ
اﻷﺧﺮى اﻟ
اﻟﺒﺤﺚﻓﻀﺎءيبقى هنا
اﻟﻘﯿﻮدالبحث فضاءوﻓﻖ
ﻣﻼﺣﻈﺔ أن
أن ﻓﻘﻂ مالحظة
اﻟﺨﻄﯿﺔ
ﯾﻤﻜﻦ
ﻓﻲ ﻓﻀﺎء اﻟﺪوال
ﻓﺼﻞ ﻣﺎ ﺑﻌﺪه أم ﻻ.
األعداد ﺗﻌﻄﯿﻨﺎ ﻋﺪدًا ً فضاء وهو ، و تأخذها 𝒘𝒘
املمكن ﻟﻠأنُﻤﺘﻐﯿﱢﺮات ﻋﻠﻰمنإﯾﺠﺎد ﻗﯿﻢ التي ﻘﺘﺼﺮمةً
ي من ِ
الق ﻋﻤﻠﯿﺔالمنته ًيا ﺳﺘﻜﻮنعد ًدا
ﻔﻲ ھﺬه اﻟﺤﺎﻟﺔ،هنالك
ﻗﻠﯿﻼ ﻣﻦ اﻟﺪاﻟﺔ ﺗﺠﻌﻞ واﻟﺘﻲ 𝑏𝑏 (((
و َ اﻟﺒﺤﺚ ُﻣ
ﺑﻌﺪ وﺿﻊ ھﺬه اﻻﻓﺘﺮاﺿﺎت ،إذ إن ھﻨﺎﻟﻚ ﻋﺪدًا ﻻﻣﻨﺘﮭﯿًﺎ ﻣﻦ اﻟﻘِﯿَﻢ اﻟﺘﻲ ﻣﻦاﻟﻤﻤﻜﻦ أن ﺗﺄﺧﺬھﺎ 𝒘𝒘 و ،𝑏𝑏1وھﻮ ﻓﻀﺎء اﻷﻋﺪا
ﻻ .ﯾﻤﻜﻦ ﻣﻼﺣﻈﺔ أن ﻓﻀ يمكن الدوال .كام
ﺑﻌﺪه أم مجيعﻓﺼﻞ ﻣﺎ ﯾﺠﺐ اﻟﺬيعىلاﻟﺤﺮفحيتوي املطلق الذي الفضاء ﺗﺤﺪﯾﺪ اﻷﺧﻄﺎء ﻓﻲ بكثري من أصغر ﻣﻦ ولكنهًا ً
ﻗﻠﯿﻼ احلقيقية،
ﺗﻌﻄﯿﻨﺎ ﻋﺪد واﻟﺘﻲ ﺗﺠﻌﻞ اﻟﺪاﻟﺔ
ﻦ أن ﺗﺄﺧﺬھﺎ 𝒘𝒘 و ،𝑏𝑏1وھﻮ ﻓﻀﺎء اﻷﻋﺪاد اﻟﺤﻘﯿﻘﯿﺔ ،وﻟﻜﻨﮫ أﺻﻐﺮ ﺑﻜﺜﯿﺮ ﻣﻦاﻟﻔﻀﺎء اﻟﻤﻄﻠﻖ اﻟﺬي ﯾﺤﺘﻮي ﻋﻠﻰ ﺟﻤﯿﻊ اﻟﺪوال
اﻻﻓﺘﺮاﺿﺎت ،إذ إن ھﻨﺎﻟﻚ مدخالت تأخذﻊ ھﺬه
وإنام وﺿﺣﺘﻰ ﺑﻌﺪ األحرف، وهي أﯾﻀًﺎﻻﻣﻨﺘﮭﯿًﺎ الرئيسية،
املدخالتھﻨﺎ ﯾﺒﻘﻰ ﻓﻀﺎء اﻟﺒﺤﺚ ﻣﻼﺣﻈﺔ الأن تأخذ ﯾﻤﻜﻦأن الدالة مالحظة ﺼﻞ ﻣﺎ ﺑﻌﺪه أم ﻻ.
اﻟﺮﺋﯿﺴﯿﺔ ،وھﻲ اﻷﺣﺮف ،وإﻧﻤ اﻟﻤﺪﺧﻼت ٍ
ء اﻟﻤﻄﻠﻖ اﻟﺬيأخرى متثل هذه األحرف ،وهي األرقام املقابلة هلا .لذا فإننا يف كثري من اخلوارزميات،
ﺗﺄﺧﺬ ﻻ اﻟﺪاﻟﺔ أن ﻣﻼﺣﻈﺔ ﯾﻤﻜﻦ ﻛﻤﺎ اﻟﺪوال. ﺟﻤﯿﻊ ﻋﻠﻰ ﯾﺤﺘﻮي
ھﻨﺎﻟﻚ ﻋﺪدًا ﻻﻣﻨﺘﮭﯿًﺎ ﻣﻦ اﻟﻘِﯿَﻢ اﻟﺘﻲ ﻣﻦ اﻟﻤﻤﻜﻦ أن ﺗﺄﺧﺬھﺎ 𝒘𝒘 و ،𝑏𝑏1وھﻮ ﻓﻀﺎء اﻷﻋﺪا اﻷﺣﺮفٍ ، ﺪ وﺿﻊ ھﺬه اﻻﻓﺘﺮاﺿﺎت ،إذ إن
تعمل
اﻟﻤﻘﺎﺑﻠﺔ ﻟﮭﺎ .ﻟﺬا ﻓﺈﻧﻨﺎ ﻓﻲ ﻛ أخرى
اﻷرﻗﺎم وھﻲ مدخالت
اﻷﺣﺮف، الرئيسيةھﺬهإىل
أﺧﺮى ﺗﻤﺜﻞ املدخالت ﻣﺪﺧﻼت بتحويل تقومﺗﺄﺧﺬ وإﻧﻤﺎ ساعدة وھﻲدوال ُم ﻟﻤﺪﺧﻼت اﻟﺮﺋﯿﺴﯿﺔ،
نحتاج إىل
أن ﺗﺄﺧﺬھﺎ 𝒘𝒘 و ،𝑏𝑏1وھﻮ ﻓﻀﺎء اﻷﻋﺪاد اﻟﺤﻘﯿﻘﯿﺔ ،وﻟﻜﻨﮫ أﺻﻐﺮ ﺑﻜﺜﯿﺮ ﻣﻦ اﻟﻔﻀﺎء اﻟﻤﻄﻠﻖ اﻟﺬي ﯾﺤﺘﻮي ﻋﻠﻰ ﺟﻤﯿﻊ اﻟﺪوال
ﺑﺘﺤﻮﯾﻞ اﻟﻤﺪﺧﻼت اﻟﺮﺋﯿﺴﯿﺔ Feature اخلصائص (
ﺗﻘﻮم دوال ُﻣﺴﺎﻋﺪ ٍة بتحويل
ﻧﺤﺘﺎج إﻟﻰ العملية اﻟﺨﻮارزﻣﯿﺎت، ُسمى هذه ﻣﻦ َّ عنها .ت
ﻛﺜﯿﺮ
ٍ نبحث
ﻓﻲ التي ﻓﺈﻧﻨﺎﻟﮭﺎ .ﻟﺬا الدالة عليها
اﻟﻤﻘﺎﺑﻠﺔ ف ،وھﻲ اﻷرﻗﺎم
املهمة.اﻟﺮﺋﯿﺴﯿﺔ ،وھﻲ اﻷﺣﺮف ،وإﻧﻤ اﻟﻤﺪﺧﻼت تقوم هبذه التي ﺗﺄﺧﺬاﻟﺪاﻟﺔ ﻻ
هي ∅،الدالة أنأعاله ،ﻣﻼﺣﻈﺔ ﻛﻤﺎ ﯾﻤﻜﻦ اﻟﺪوال.
ﺟﻤﯿﻊ) .ويف اﻟﻤﻄﻠﻖ اﻟﺬي ﯾﺤﺘﻮي ﻋﻠﻰ
ﻧﺒﺤﺚ ﻋﻨﮭﺎ .ﺗُﺴ ﱠﻤﻰ ھﺬه اﻟﻌﻤﻠﯿﺔ � اﻟﺘﻲ ﻋﻠﯿﮭﺎاﻟﺪاﻟﺔ ﺗﻌﻤﻞ فإن أﺧﺮى إﻟﻰ ﻣﺪﺧﻼت اﻟﺮﺋﯿﺴﯿﺔاملثال ُﻣﺴﺎﻋﺪ ٍة ﺗﻘﻮم ﺑﺘﺤﻮﯾﻞ اﻟﻤﺪﺧﻼت
Transformation
وھﻲ اﻷﺣﺮف ،وإﻧﻤﺎ ﺗﺄﺧﺬ ﻣﺪﺧﻼت أﺧﺮى ﺗﻤﺜﻞ ھﺬه اﻷﺣﺮف ،وھﻲ اﻷرﻗﺎم اﻟﻤﻘﺎﺑﻠﺔ ﻟﮭﺎ .ﻟﺬا ﻓﺈﻧﻨﺎ ﻓﻲ ﻤﺪﺧﻼت اﻟﺮﺋﯿﺴﯿﺔ،
.(Featureوﻓﻲ اﻟﻤﺜﺎل أ فصل وال يمكن حرصها يف
Transformation عليها ُمتعددة ،إذ ال
�������) ������ اﻟﻌﻤﻠﯿﺔوطرق العمل اﻟﺘﻲ ﻧﺒﺤﺚ ﻋﻨﮭﺎ .ﺗُﺴ ﱠﻤﻰ ھﺬه
وخوارزميات التعلم
ﻛﺜﯿﺮ ﻣﻦ اﻟﺨﻮارزﻣﯿﺎت ،ﻧﺤﺘﺎج إﻟﻰ دوال ُﻣﺴﺎﻋﺪ ٍة ﺗﻘﻮم ﺑﺘﺤﻮﯾﻞ اﻟﻤﺪﺧﻼت اﻟﺮﺋﯿﺴﯿﺔ ومن ٍ ف ،وھﻲ اﻷرﻗﺎم اﻟﻤﻘﺎﺑﻠﺔ ﻟﮭﺎ .ﻟﺬا ﻓﺈﻧﻨﺎ ﻓﻲ
،)Neural Networks ﺑﮭﺬه اﻟﻤﮭﻤﺔ. العصبية (
الشبكاتاﻟﺘﻲ ﺗﻘﻮم الطرق ،∅ ،ھﻲ ﻓﺈن اﻟﺪاﻟﺔ أﻋﻼه،هذهأبرز واحد.اﻟﻤﺜﺎل كتاب وﻓﻲ .(FeatureTransformaحتى يف
متثل ﺗُﺴ ﱠﻤﻰ ھﺬه اﻟﻌﻤﻠﯿﺔ
عصبيةﻋﻨﮭﺎ.
خليةﻧﺒﺤﺚ اﻟﺪاﻟﺔكلاﻟﺘﻲﻋﻠﯿﮭﺎإذ إن
لإلنسان. العصبيﺗﻌﻤﻞ النظام أﺧﺮى ﻣﺪﺧﻼت لتحاكي اﻟﺮﺋﯿﺴﯿﺔ إﻟﻰ
رياضية تُبنى اﻟﻤﺪﺧﻼتوهي نامذج ﺴﺎﻋﺪ ٍة ﺗﻘﻮم ﺑﺘﺤﻮﯾﻞ
وﺧﻮارزﻣﯿﺎت اﻟﺘﻌﻠﻢ وطﺮق اﻟﻌﻤﻞ ﻋﻠﯿﮭﺎ ُﻣﺘﻌﺪد ﻤﮭﻤﺔ.
.(Featureوﻓﻲ اﻟﻤﺜﺎل أ اخلاليا األساسية التي متثلها
Transformation ������من جمموعة الدوال
������� ) بكاملها دالة ُمركَّبة اﻟﻌﻤﻠﯿﺔالشبكة وتكونھﺬه ُ
دالة ﺗﺴ ﱠﻤﻰﺘﻲ ﻧﺒﺤﺚ ﻋﻨﮭﺎ.
رزﻣﯿﺎت اﻟﺘﻌﻠﻢ وطﺮق اﻟﻌﻤﻞ ﻋﻠﯿﮭﺎ ُﻣﺘﻌﺪدة ،إذ ﻻ ﯾﻤﻜﻦ ﺣﺼﺮھﺎ ﻓﻲ ﻓﺼﻞوﻻ ﺣﺘﻰ ﻓﻲ ﻛﺘﺎب واﺣﺪ .وﻣﻦ أﺑﺮز
اﻟﻤﮭﻤﺔ.سنتطرق له يف وهي ما االحتاملية،ﺑﮭﺬه
الطرق اﻟﺘﻲ ﺗﻘﻮم أيضا∅ ،ھﻲ األخرىاﻟﺪاﻟﺔ
أﻋﻼه ،ﻓﺈن الطرقاﻟﻤﺜﺎل وﻓﻲأبرز .(Featureومن
Transformالعصبية.
������� ) ،(Neural Networksو ������� اﻟﻄﺮق، ھﺬه أﺑﺮز وﻣﻦ واﺣﺪ. ﺣﺘﻰ ﻓﻲ ﻛﺘﺎب
اجلزء التايل ،وكذلك التعرف النمطي يف الفضاء الداليل ،وهي ما سنختم به هذا الفصل. ﮭﻤﺔ.
وﺧﻮارزﻣﯿﺎت اﻟﺘﻌﻠﻢ وطﺮق اﻟﻌﻤﻞ ﻋﻠﯿﮭﺎ ُﻣﺘﻌﺪد
����� ) ،(Neural Networksوھﻲ ﻧﻤﺎذج رﯾﺎﺿﯿﺔ ﺗُﺒﻨﻰ ﻟﺘﺤﺎﻛﻲاﻟﻨﻈﺎم اﻟﻌﺼﺒﻲ ﻟﻺﻧﺴﺎن .إذ إن ﻛﻞ ﺧﻠﯿﺔ ﻋﺼﺒﯿ
زﻣﯿﺎت اﻟﺘﻌﻠﻢ وطﺮق اﻟﻌﻤﻞ ﻋﻠﯿﮭﺎ ُﻣﺘﻌﺪدة ،إذ ﻻ ﯾﻤﻜﻦ ﺣﺼﺮھﺎ ﻓﻲ ﻓﺼﻞ وﻻ ﺣﺘﻰ ﻓﻲ ﻛﺘﺎب واﺣﺪ .وﻣﻦ أﺑﺮز
اآللة وﺗﻜﻮن اﻟﺸﺒﻜﺔ ﺑﻜﺎﻣﻠﮭﺎداﻟﺔ ُﻣﺮ ﱠﻛﺒﺔ ﻣﻦ ﻣﺠﻤﻮﻋﺔ اﻟﺪوال اﻷﺳﺎﺳﯿﺔ اﻟﺘﻲ ﻋﺼﺒﯿﺔتعلم
ﺗﻤﺜﻞ داﻟﺔ االحتاملية يف
-3الطرقﻛﻞ ﺧﻠﯿﺔ
اﻟﻌﺼﺒﻲ ﻟﻺﻧﺴﺎن .إذ إن
ﺘﻰ ﱠ ﻓﻲ ﻛﺘﺎب واﺣﺪ .وﻣﻦ أﺑﺮز ھﺬه اﻟﻄﺮق ،(Neural Networks) ������� ������� ،و
وﻣﻦإىلأﺑﺮز
كثرة قواعد اللغة وتعقيدها، اﻟﻌﺼﺒﯿﺔ.
اخلبرية ﺗﻤﺜﻠﮭﺎ اﻟﺨﻼﯾﺎ
استخدام النظم صعوبةاﻷﺳﺎﺳﯿﺔعناﻟﺘﻲ
اﻟﺪواليف حديثنا
ﺮﻛﺒﺔ ﻣﻦ ﻣﺠﻤﻮﻋﺔأرشنا
���� ) ،(Neural Networksوھﻲ ﻧﻤﺎذج رﯾﺎﺿﯿﺔ ﺗُﺒﻨﻰ ﻟﺘﺤﺎﻛﻲ اﻟﻨﻈﺎم اﻟﻌﺼﺒﻲ ﻟﻺﻧﺴﺎن .إذ إن ﻛﻞ ﺧﻠﯿﺔ ﻋﺼﺒﯿ
ُضطر
إضافة إىل أن بعض قواعد املعاجلة غري معروفة عىل سبيل اليقني .وهذا ما جيعلنا ن ُّ
اﻟﻮﺻﻮل اﻟﺪوال اﻷﺳﺎﺳﯿﺔ اﻟﺘﻲ ﻟﻌﺼﺒﻲ ﻟﻺﻧﺴﺎن .إذ إن ﻛﻞ ﺧﻠﯿﺔ ﻋﺼﺒﯿﺔ ﺗﻤﺜﻞ داﻟﺔ وﺗﻜﻮن اﻟﺸﺒﻜﺔ ﺑﻜﺎﻣﻠﮭﺎ داﻟﺔ ُﻣﺮ ﱠ
ذﻟﻚ،ﺒﺔﻓﺈﻧﮫﻣﻦﯾﻤﻜﻦﻣﺠﻤﻮﻋﺔ
املعاجلة.ﻟﻠﺪاﻟﺔ اﻟﺘﻲ ﺗﺤﻘﻖ اﻟﺸﺮوط اﻟﻤ Uncertaintyﻛ) بصحة
1وﻣﻊ إىل معاجلة كثري من الرتاكيب اللغوية مع عدم اليقني (
طﺮق رﯾﺎﺿﯿﺔ ﻣﺸﮭﻮرة )oyd & Vandenberghe, 2004
األقرب للصحة .ولكي نستطيع أﺑﺮز وﻣﻦ
ﺑﺎﺳﺘﺨﺪام اﻟﻌﺼﺒﯿﺔ.
املعاجلة
وذﻟﻚ إىل نصل
ﻣﻮﺟﻮدة اﻟﺨﻼﯾﺎ ﺗﻤﺜﻠﮭﺎ
نحتاجإنأن
ﻛﺎﻧﺖ اﻟﺘﻲ
اﻷﺳﺎﺳﯿﺔاﻟﺸﺮوط
احلالة،اﻟﻤﻌﻄﺎة هذه
يف ﺗﺤﻘﻖ اﻟﺪوال
فإننااﻟﺘﻲ ﻣﺠﻤﻮﻋﺔ
هلذا،ﻟﻠﺪاﻟﺔ
اﻟﻮﺻﻮل ﻣﻦ ﯾﻤﻜﻦ ﱠﻛﺒﺔ
ذﻟﻚ ،ﻓﺈﻧﮫ
32
ﯾﺎﺿﯿﺔ ﻣﺸﮭﻮرة ).(Boyd & Vandenberghe, 2004
32
1وﻣﻊ ذﻟﻚ ،ﻓﺈﻧﮫ ﯾﻤﻜﻦ اﻟﻮﺻﻮل ﻟﻠﺪاﻟﺔ اﻟﺘﻲ ﺗﺤﻘﻖ اﻟﺸﺮوط اﻟﻤ
-1ومع ذلك ،فإنه يمكن الوصول للدالة التي حتقق الرشوط املعطاة إن كانت موجودة وذلك باستخدام طرق رياضية
طﺮق رﯾﺎﺿﯿﺔ ﻣﺸﮭﻮرة )oyd & Vandenberghe, 2004
ﻣﻮﺟﻮدة وذﻟﻚ ﺑﺎﺳﺘﺨﺪام .)Boyd & Vandenberghe,
إن ﻛﺎﻧﺖ (2004
ﺗﺤﻘﻖ اﻟﺸﺮوط اﻟﻤﻌﻄﺎة مشهورةاﻟﺘﻲ
ﻚ ،ﻓﺈﻧﮫ ﯾﻤﻜﻦ اﻟﻮﺻﻮل ﻟﻠﺪاﻟﺔ
32
ﺿﯿﺔ ﻣﺸﮭﻮرة ).(Boyd & Vandenberghe, 2004
-32- 32
حتديد ال ُقرب وال ُبعد من صحة املعاجلة ،فإننا نحتاج إىل وضع ِمعيار ك َِّم ٍّي لدرجة
الشك .فلو أخذنا املثال الذي ذكرناه يف الغموض الرتكيبي ،وهو حتديد قراءة مجلة
جالسا» ،فإن درجة الشك لدينا بأن املراد هو القراءة الشائعة:
ً «رأيت الرجل
{ (رأى ت) [ (الـ رجل) (جالسا) ] }
ُّ
أقل بكثري من درجة الشك بأن ا ُملراد هو القراءة الشاذة:
{ [ (رأى ت) (الـ رجل) ] (جالسا) }
ذلك ألن القراءة األوىل هي ا َملعن َّية يف الغالب ،ولكن ال يمكن القول بأن القراءة
األوىل هي ا ُملرادة عىل سبيل اليقني.
ومن النظريات ا ُملستخدمة لقياس درجة الشك بشكل كمي نظرية االحتامالت
ريايض يمكن الرجوع إليه يف
ٌّ ٌ
تأصيل ( .)Probability Theoryولنظرية االحتامالت
ِ
حدثني ولتكن Pدالة احتاملية ،فإنه: ( .)Casella & Berger, 2001ليكن xو y
• إذا ﻛﺎن 𝑥𝑥 ﺣﺪﺛًﺎ ﻣﺴﺘﺤﯿﻞ اﻟﻮﻗﻮعً ،
ﻓﻲ عريب يف كلمة
حرفﻣﺜﻼ 𝑥𝑥 ھﻮ ً"ﻋﺪم وﺟﻮد ﺣﺮف ﻋﺮﺑﻲ
مستحيل الوقوع ،مثل xهو «عدم وجود إذا كان xحد ًثا
فإن=.𝑃𝑃 𝑥𝑥= 0
).P(x ﻓﺈن 0 ﻛﻠﻤﺔ ﻋﺮﺑﯿﺔ"،
عربية»،
• إذا ﻛﺎن 𝑥𝑥 ﺣﺪﺛًﺎ ﯾﻘﯿﻨﯿًّﺎً ،
ﻣﺜﻼ 𝑥𝑥 ھﻲ "وﺟﻮد ﺣﺮف ﻋﺮﺑﻲ ﻓﻲ ﻛﻠﻤﺔ ﻋﺮﺑﯿﺔ"،
إذا كان xحد ًثا يقين ًّياً ،
مثل xهي «وجود حرف عريب يف كلمة عربية» ،فإن
ﻓﺈن .𝑃𝑃 =𝑥𝑥 1 = 1
).P(x
• إذا ﻛﺎن 𝑥𝑥 ﺣﺪﺛًﺎ ﻣﺸﻜﻮ ًﻛﺎ ﻓﻲ وﻗﻮﻋﮫً ،
ﻣﺜﻼ 𝑥𝑥 ھﻮ "وﺟﻮد ﺣﺮف اﻟﻀﺎد ﻓﻲ
مثل xهو «وجود حرف الضاد يف كلمة إذا كان xحد ًثا مشكوكًا يف وقوعهً ،
ﻣﺜﻼً ً
حدﺛًثﺎا آ َ َﺧ
مثل yهو «وجود آخ ََﺮرً ،، كان 𝑦𝑦yﺣﺪ
إذا ﻛﺎن
إنه إذا
بحيث إﻧﮫ
0ﺑﺤﯿﺚ )0 <<P𝑃𝑃(x فإن𝑥𝑥 ><1 ﻓﺈن 1 ﻛﻠﻤﺔ ﻋﺮﺑﯿﺔ"،
عربية»،
ﺑﻮﻗﻮعأقل𝑥𝑥 منه بوقوع y
بوقوع x ﻛﺎنُّنا ﺷ ﱡﻜﻨﺎ
ﻋﺮﺑﯿﺔ"،إذاﻓﺈﻧﮫكانإذا شك ﻓﻲ ﻛﻠﻤﺔ
عربية» ،فإنه اﻟﮭﺎءكلمة حرفﺣﺮف
اهلاء يف 𝑦𝑦 ھﻮ "وﺟﻮد
)𝑦𝑦(𝑃𝑃 ≥ 𝑥𝑥 𝑃𝑃. ≥ ).P(x فإن( 𝑦𝑦
P(yﻓﺈن أﻗﻞ ﻣﻨﮫ ﺑﻮﻗﻮع
مثل xﺗﺒﺪأهوﻛﻠﻤﺔ
«أن تبدأ كلمة ما ھﻮ ً
"أن ﻣﺜﻼ ِ
أو yﻣﻌالًﺎً ،
يقعان𝑥𝑥م ًعا، ﯾﻘﻌﺎن إحدىأو 𝑦𝑦 ﻻ
حدثني ِ x ﺣﺪﺛﯿﻦ 𝑥𝑥
حدوث احتاملإﺣﺪى
ﺣﺪوث • اﺣﺘﻤﺎل
أي
احتامل حدوث ٍّ
التاء»،ﻓﺈنفإناﺣﺘﻤﺎل اﻟﺘﺎء"،بحرفﺑﺤﺮف كلمة ما ﺗﺒﺪأتبدأ
ﻛﻠﻤﺔ ﻣﺎ "أن«أن الواو» وھﻮ yهو ﻣﺎ ﺑﺤﺮفبحرف
اﻟﻮاو" و 𝑦𝑦
ھﻮ )𝑦𝑦(𝑃𝑃 . .𝑃𝑃(𝑥𝑥 ∨ 𝑦𝑦) = 𝑃𝑃 𝑥𝑥 + اﻟﺤﺪﺛﯿﻦهو
ﻣﻦاحلدثنيﺣﺪوث أيﱟمن
ﺑﻮﻗﻮعبوقوع أحدمها
ﻣﻌﺮﻓﺘﻨﺎمعرفتنا إذا كانت ﻛﺎﻧﺖ )Independent ستق َّل ِ
ني (
(Independentإذا ﯿﻦم ) عترب𝑥𝑥 و 𝑦𝑦 ِ
احلدثان ُﻣ xو ﱠ • ﯾُﻌﺘﺒﺮ ُي ِ
ﺴﺘﻘﻠُ ِ y اﻟﺤﺪﺛﺎن
خمتلفان T1و ،T2
ﻧﺼﺎن نصان لديناﻟﺪﯾﻨﺎ كانﻛﺎن ذﻟﻚلو ﻟﻮ
ﻣﺜﺎلذلك
ﻵﺧﺮ.مثال
اآلخر. ﻣﻦ شﺷك ﱢﻜِّناﻨﺎ بوقوع
ﺑﻮﻗﻮع ا ُغري من
أﺣﺪھﻤﺎ ﻻالﺗُتﻐﯿﺮ
ﻣﺨﺘﻠﻔﺎن !𝑇𝑇 و !𝑇𝑇 ،وﻛﺎن 𝑥𝑥 ھﻮ "وﺟﻮد ﻛﻠﻤﺔ اﻟﺬﻛﺎء ﻓﻲ !𝑇𝑇" و 𝑦𝑦 ھﻮ -
-33-اﻟﺤﺎﻟﺔ ﯾﻜﻮن اﺣﺘﻤﺎل وﻗﻮع
"وﺟﻮد ﻛﻠﻤﺔ اﻻﺻﻄﻨﺎﻋﻲ ﻓﻲ !𝑇𝑇" ،ﻓﻔﻲ ھﺬه
𝑦𝑦|𝑥𝑥 𝑃𝑃ھﻮ اﻟﺤﺪث 𝑥𝑥 ﺑﻌﺪ ﻣﻌﺮﻓﺘﻨﺎ ﺑﻮﻗﻮع اﻟﺤﺪث 𝑦𝑦 ،وﯾﺮﻣﺰ ﻟﮫ ﺑﺎﻟﺮﻣﺰ
(Independentإذا ﻛﺎﻧﺖ ﻣﻌﺮﻓﺘﻨﺎ ﺑﻮﻗﻮع )𝑦𝑦 )∨ 𝑥𝑥(𝑃𝑃. ﺴﺘﻘﻠﱠ ِ
ﯿﻦ اﻟﺤﺪﺛﺎن 𝑥𝑥+و𝑥𝑥 𝑦𝑦𝑃𝑃 ُﻣ=
ُﻌﺘﺒﺮ)𝑦𝑦(𝑃𝑃 ِ ﻦﯾ ھﻮ
ﯿﻦ ) (Independentإذا ﻛﺎﻧﺖ ﻣﻌﺮﻓﺘﻨﺎ ﺑﻮ اﻟﺤﺪﺛﺎن 𝑥𝑥 و 𝑦𝑦 ُﻣﺴﺘﻘﻠﱠ ِ
ِ • ﯾُﻌﺘﺒﺮ
أﺣﺪھﻤﺎ ﻻ ﺗُﻐﯿﺮ ﻣﻦ ﺷ ﱢﻜﻨﺎ ﺑﻮﻗﻮع اﻵﺧﺮ .ﻣﺜﺎل ذﻟﻚ ﻟﻮ ﻛﺎن ﻟﺪﯾﻨﺎ ﻧﺼﺎن
ﯿﻦ ) (Independentإذا ﻛﺎﻧﺖ ﻣﻌﺮﻓﺘﻨﺎ ﺑﻮﻗﻮعأﺣﺪھﻤﺎ ﻻ ﺗُﻐﯿﺮ ﻣﻦ ﺷ ﱢﻜﻨﺎ ﺑﻮﻗﻮع اﻵﺧﺮ .ﻣﺜﺎل ذﻟﻚ ﻟﻮ ﻛﺎن ﻟﺪﯾﻨﺎ ﻧﺼ 𝑦𝑦 ُﻣﺴﺘﻘﻠﱠ ِ
ﻣﺜﺎل 𝑥𝑥ذﻟﻚھﻮﻟﻮ"وﺟﻮد ﻛﻠﻤﺔ اﻟﺬﻛﺎء ﻓﻲ 𝑇𝑇" و 𝑦𝑦 ھﻮ ﻵﺧﺮ.وﻛﺎن ﺑﻮﻗﻮعوا !𝑇𝑇،
ﻣﺨﺘﻠﻔﺎن !𝑇𝑇 ﺷ ﱢﻜﻨﺎ
ﻛﺎن ﻟﺪﯾﻨﺎ ﻧﺼﺎنﻣﺨﺘﻠﻔﺎن !!𝑇𝑇 و !𝑇𝑇 ،وﻛﺎن 𝑥𝑥 ھﻮ "وﺟﻮد ﻛﻠﻤﺔ اﻟﺬﻛﺎء ﻓﻲ !𝑇𝑇" و 𝑦𝑦 -
اﻟﺤﺎﻟﺔ ﯾﻜﻮن اﺣﺘﻤﺎل وﻗﻮع ھﺬه
كلمة 𝑦𝑦 ھﻮ
𝑇𝑇" و ﻓﻲ ﻓﻔﻲ اﻻﺻﻄﻨﺎﻋﻲ ﻓﻲ
اﻟﺬﻛﺎء!𝑇𝑇"، ﻛﻠﻤﺔ "وﺟﻮد ﻛﻠﻤﺔ ھﻮ "وﺟﻮد
-االصطناعي -اﻟﺤﺎﻟﺔ ﯾﻜﻮن اﺣﺘﻤﺎل و
كلمة !𝑇𝑇" ،ﻓﻔﻲ ھﺬه ﻛﻠﻤﺔوyهو «وجود
اﻻﺻﻄﻨﺎﻋﻲ ﻓﻲ "وﺟﻮديف »T1
-الذكاء- «وجود
! وكان xهو وﻛﺎن 𝑥𝑥 -
وﻗﻮعﺑﺎﻟﺮﻣﺰ 𝑦𝑦|𝑥𝑥 𝑃𝑃ھﻮ
بوقوع،احلدث
وﯾﺮﻣﺰ ﻟﮫ ﺑﺎﻟﺮﻣﺰ 𝑦𝑦|𝑥𝑥 𝑃𝑃 اﻟﺤﺪث 𝑦𝑦معرفتنا
ﺑﻮﻗﻮعﻣﻌﺮﻓﺘﻨﺎبعد
وقوعﺑﻌﺪاحلدث x يكونﻟﮫاحتامل
اﻟﺤﺪث 𝑥𝑥
وﯾﺮﻣﺰ
هذه𝑦𝑦،احلالة
اﺣﺘﻤﺎل اﻟﺤﺪث
ﯾﻜﻮن ففياﻟﺤﺎﻟﺔﺑﻮﻗﻮع
»، ھﺬهT
2
ﻣﻌﺮﻓﺘﻨﺎيف
ﺑﻌﺪ𝑇𝑇" ،ﻓﻔﻲ اﻟﺤﺪث 𝑥𝑥
ﻄﻨﺎﻋﻲ ﻓﻲ !
Probability االحتاميل (
اﻟﺸﺎذة. التوزيع اﻟﻘﺮاءة
ﺣﺪوث استقراء دالة
اﺣﺘﻤﺎل
)ﺟﺎﻟﺴﺎ( [ { اآللة يف
أﻛﺒﺮ ﻣﻦ
رﺟﻞ( )اﻟـ تعلم
ﺣﺪوﺛﮭﺎ
ت( ] خوارزميات
ويأيت دور ﻷن}
اﺣﺘﻤﺎل
)رأى
اﻟزﻣن
!𝑠𝑠𝑠𝑠 اﻟزﻣن
اﻟزﻣن
نﻣزﻟا
نﻣزﻟا
اﻟزﻣن
اﻟزﻣن
نﻣزﻟا
نﻣزﻟا
𝑠𝑠𝑠𝑠!!𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠
!!𝑠𝑠!!!𝑠𝑠
!𝑠𝑠𝑠𝑠
𝑠𝑠𝑠𝑠!!𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠
!𝑜𝑜𝑜𝑜 !!𝑠𝑠!!!𝑠𝑠
𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜
𝑜𝑜
!!𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜
! !
.
... . .
... . .
... .
!𝑜𝑜𝑜𝑜
𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜𝑜
𝑜𝑜
𝑜𝑜𝑜𝑜
!!𝑜𝑜𝑜𝑜 𝑜𝑜𝑜𝑜
!!
!𝑠𝑠𝑠𝑠
𝑠𝑠𝑠𝑠!!𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠
!!𝑠𝑠!!!𝑠𝑠
𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸
𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸
𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸
𝐸𝐸𝐸𝐸𝐸𝐸
𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸
𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸𝐸
𝐸𝐸𝐸𝐸𝐸𝐸
𝐸𝐸𝐸𝐸𝐸𝐸
𝐸𝐸𝐸𝐸𝐸𝐸
اخلفية.
اﻟﺨﻔﯿﺔ.
اﻟﺨﻔﯿﺔ. ماركوف
اﻟﺨﻔﯿﺔ. ﻣﺎرﻛﻮف
ﻣﺎرﻛﻮف لنامذج
ﻟﻨﻤﺎذج
ﻟﻨﻤﺎذج يلخت ُّي
ﱡﻠﻲﺗﺨ
ﺗﺨﯿﯿﱡﻠﻲ رسمﺗﺨﯿ
رﺳﻢ رﺳﻢ الشكل:2:2
اﻟﺸﻜﻞ :2 اﻟﺸﻜﻞ
ﻣﺎرﻛﻮفاﻟﺨﻔﯿﺔ.
اﻟﺨﻔﯿﺔ. ﻟﻨﻤﺎذجﻣﺎرﻛﻮف
ﻣﺎرﻛﻮف ﱡﻠﻲﻟﻨﻤﺎذج
ﻟﻨﻤﺎذج ﱡﻠﻲﱡﻠﻲ رﺳﻢﺗﺨﯿ
ﺗﺨﯿ اﻟﺸﻜﻞ::22:2رﺳﻢ
رﺳﻢ اﻟﺸﻜﻞ
اﻟﺸﻜﻞ
!
𝑃𝑃𝑃𝑃
𝑃𝑃𝑃𝑃 =𝑠𝑠𝑠𝑠 𝑠𝑠𝑠𝑠𝑃𝑃𝑃𝑃 =!)𝑠𝑠𝑠𝑠))!)𝑠𝑠!𝑠𝑠𝑠𝑠!!𝑠𝑠𝑠𝑠!𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠!𝑠𝑠𝑠𝑠!!𝑠𝑠!𝑠𝑠𝑠𝑠!!𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠
==! =)=0.03
=
0.03 𝑃𝑃𝑃𝑃ووووو
0.03 = !𝑠𝑠𝑠𝑠!𝑃𝑃𝑃𝑃𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠و
𝑃𝑃𝑃𝑃 ==𝑠𝑠𝑠𝑠
= !!
=𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 =𝑠𝑠𝑠𝑠))))!𝑠𝑠𝑠𝑠!!𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠
= )0.6
=
0.60.6
0.6
=!!𝑠𝑠!𝑠𝑠𝑠𝑠!𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑃𝑃 𝑠𝑠𝑠𝑠!
𝑃𝑃
𝑃𝑃 𝑃𝑃
𝑃𝑃 𝑠𝑠 𝑠𝑠𝑠𝑠!!
𝑠𝑠
𝑃𝑃𝑃𝑃
𝑃𝑃𝑃𝑃𝑃𝑃 = !! = 0.03
0.03 𝑃𝑃𝑃𝑃
𝑃𝑃𝑃𝑃𝑃𝑃
𝑃𝑃 𝑠𝑠 𝑠𝑠
!! 𝑠𝑠! 𝑠𝑠𝑠𝑠
!
𝑠𝑠
!𝑠𝑠 !! = !𝑠𝑠 =! 0.6
احلالة!!𝑠𝑠𝑠𝑠!!𝑠𝑠!𝑠𝑠𝑠𝑠...𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠.!!.
تكون اﻟﺤﺎﻟﺔ!
ﺗﻜﻮن
اﻟﺤﺎﻟﺔ
اﻟﺤﺎﻟﺔ بأن
ﺑﺄن
ﺗﻜﻮن
ﺗﻜﻮن ﺑﺄن منه
ﻣﻨﮫ
ﺑﺄن
ﻣﻨﮫ أكرب
أﻛﺒﺮ
ﻣﻨﮫ
أﻛﺒﺮأﻛﺒﺮ تكون
ﺗﻜﻮن𝑠𝑠𝑠𝑠!!!𝑠𝑠!𝑠𝑠𝑠𝑠!!𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠
!
ﺗﻜﻮن ﺗﻜﻮنأن
أن
أن
ﯾﻤﻜﻦأنأن يمكن
ﯾﻤﻜﻦ ﯾﻤﻜﻦأن ﯾﻤﻜﻦ الثانية
اﻟﺜﺎﻧﯿﺔ
اﻟﺜﺎﻧﯿﺔ احلالة
اﻟﺤﺎﻟﺔ
اﻟﺜﺎﻧﯿﺔ
اﻟﺤﺎﻟﺔ بأن
ﺑﺄن
اﻟﺤﺎﻟﺔ
ﺑﺄن اعتقادنا
اﻋﺘﻘﺎدﻧﺎ
ﺑﺄن ﻓﺈن فإن
ﻓﺈن
اﻋﺘﻘﺎدﻧﺎ
اﻋﺘﻘﺎدﻧﺎﺑﺄن ﻓﺈن
اﻟﺤﺎﻟﺔ !! اﻟﺤﺎﻟﺔﺗﻜﻮن
ﺗﻜﻮنﺑﺄن
ﺑﺄن ﻣﻨﮫ
ﻣﻨﮫ أﻛﺒﺮ
أﻛﺒﺮ ﺗﻜﻮن !! ﺗﻜﻮن! ﯾﻤﻜﻦ اﻟﺜﺎﻧﯿﺔ
اﻟﺜﺎﻧﯿﺔ اﻟﺤﺎﻟﺔ
اﻟﺤﺎﻟﺔ ﺑﺄن اﻋﺘﻘﺎدﻧﺎ
اﻋﺘﻘﺎدﻧﺎﻓﺈن
ﻓﺈن
بشكل
اﻵﻟﺔ ﺣﺎﻻتاﻵﻟﺔ اآللة
ﺣﺎﻻت
ﺣﺎﻻت حاالت
ھﻲ ﻣﺎﻣﺎ
ھﻲ هي
ﻣﻌﺮﻓﺔمعرفة ما
ﯾﻤﻜﻦ يمكن
ﻻﻻ ﻓﺈﻧﮫال
ﻓﺈﻧﮫ فإنه ْْنْ
نن ﻟﻼﻧﺒﻌﺎﺛﺎت.إ َذإ َْذن
ﻟﻼﻧﺒﻌﺎﺛﺎت.إن َذإإإ ََْذذنَذ
ﻟﻼﻧﺒﻌﺎﺛﺎتْ . لالنبعاثات. بالنسبة
ﺑﺎﻟﻨﺴﺒﺔ ﻧﻔﺴﮫ نفسه
واﻟﺤﺎلواحلال
اﻵﻟﺔ
اﻵﻟﺔ اﻵﻟﺔ ﺣﺎﻻت
ﺣﺎﻻت ھﻲ
ھﻲ
ھﻲ ﻣﺎﻣﺎﻣﺎ ﻣﻌﺮﻓﺔ
ﻣﻌﺮﻓﺔ
ﻣﻌﺮﻓﺔ
ﻣﻌﺮﻓﺔ ﯾﻤﻜﻦ
ﯾﻤﻜﻦ
ﯾﻤﻜﻦ ﯾﻤﻜﻦ ﻓﺈﻧﮫﻻ
ﻓﺈﻧﮫﻻﻻ
ﻓﺈﻧﮫ ﺑﺎﻟﻨﺴﺒﺔﻟﻼﻧﺒﻌﺎﺛﺎت.
ﻟﻼﻧﺒﻌﺎﺛﺎت. ﺑﺎﻟﻨﺴﺒﺔ
ﺑﺎﻟﻨﺴﺒﺔ
ﺑﺎﻟﻨﺴﺒﺔ ﻧﻔﺴﮫﻧﻔﺴﮫ
ﻧﻔﺴﮫ
ﻧﻔﺴﮫ واﻟﺤﺎل
واﻟﺤﺎلواﻟﺤﺎل
واﻟﺤﺎل
يمكن
ﻻﻻ وﻟﻜﻦظﮭﺮتال
اﻟﺘﻲ ولكن
ظﮭﺮت ظهرت االنبعاثات التي معرفة لالنبعاثات فيمكن بالنسبة يقيني ،أما
وﻟﻜﻦ
ﻻﻻﻻ وﻟﻜﻦ
وﻟﻜﻦ
وﻟﻜﻦ اﻟﺘﻲظﮭﺮت
ظﮭﺮت
ظﮭﺮت اﻟﺘﻲ
اﻟﺘﻲاﻻﻧﺒﻌﺎﺛﺎت
اﻻﻧﺒﻌﺎﺛﺎت
اﻟﺘﻲ
اﻻﻧﺒﻌﺎﺛﺎت
اﻻﻧﺒﻌﺎﺛﺎتﻣﻌﺮﻓﺔ
ﻣﻌﺮﻓﺔ
اﻻﻧﺒﻌﺎﺛﺎت
ﻣﻌﺮﻓﺔ
ﻣﻌﺮﻓﺔﻓﯿﻤﻜﻦ
ﻓﯿﻤﻜﻦ
ﻣﻌﺮﻓﺔ
ﻓﯿﻤﻜﻦ
ﻓﯿﻤﻜﻦﻟﻼﻧﺒﻌﺎﺛﺎت
ﻟﻼﻧﺒﻌﺎﺛﺎت
ﻓﯿﻤﻜﻦ ﺑﺎﻟﻨﺴﺒﺔ
ﺑﺎﻟﻨﺴﺒﺔ
ﻟﻼﻧﺒﻌﺎﺛﺎت
ﻟﻼﻧﺒﻌﺎﺛﺎت
ﻟﻼﻧﺒﻌﺎﺛﺎت أﻣﺎ
أﻣﺎ
ﺑﺎﻟﻨﺴﺒﺔ
ﺑﺎﻟﻨﺴﺒﺔ
ﺑﺎﻟﻨﺴﺒﺔ ﯾﻘﯿﻨﻲ،
ﯾﻘﯿﻨﻲ،أﻣﺎأﻣﺎ
أﻣﺎ ﺑﺸﻜﻞ
ﺑﺸﻜﻞ
ﯾﻘﯿﻨﻲ،
ﯾﻘﯿﻨﻲ،
ﯾﻘﯿﻨﻲ،ﺑﺸﻜﻞ
ﺑﺸﻜﻞﺑﺸﻜﻞ
-3٦-
-36-
38
38
3838 38
38
38
3838
ﯾﻤﻜﻦ ﻣﻌﺮﻓﺔ اﻻﻧﺒﻌﺎﺛﺎت اﻟﺘﻲ ﺳﺘﺤ ُﺪ ُ
ث ﻓﻲ اﻟﻤﺴﺘﻘﺒﻞ ﻋﻠﻰ ﺳﺒﯿﻞ اﻟﯿﻘﯿﻦ .ھﺬه اﻟﻌﻤﻠﯿﺎت
ﺗُﻌ َﺮف ﻓﻲ أدﺑﯿﺎت اﻻﺣﺼﺎء واﻻﺣﺘﻤﺎﻻت ﺑﺎﻟﻌﻤﻠﯿﺎت اﻟﻌﺸﻮاﺋﯿﺔStochastic ) 1
.(Processes
ھﺬا اﻟﻨﻤﻮذج اﻟﺘﺨﯿﱡﻠﻲ ﯾﻤﻜﻦ ﺗﻄﺒﯿﻘﮫ ﻋﻠﻰ ﻣﻌﺎﻟﺠﺔ ﻛﺜﯿﺮ ﻣﻦ اﻟﻈﻮاھﺮ اﻟﻠﻐﻮﯾﺔ .وﻟﻨﺄﺧﺬ
ُعرف
ث يف املستقبل عىل سبيل اليقني .هذه العمليات ت َ معرفة االنبعاثات التي ستحدُ ُ
((( Part of ً
ﻣﺜﺎﻻ وھﻮ اﺳﺘﻨﺘﺎج أﺟﺰاء اﻟﻜﻼم ﻟﻠﻜﻠﻤﺎت اﻟﻤﻮﺟﻮدة ﻓﻲ اﻟ ُﺠ َﻤﻞ ) Speech
يف أدبيات االحصاء واالحتامالت بالعمليات العشوائية (.)Stochastic Processes
.(Taggingﻓﺄﺟﺰاء اﻟﻜﻼم ﺗُﻌﺘﺒﺮ ﺣﺎﻻت ﺧﻔﯿﺔ ﻏﯿﺮ ﻣﻮﺟﻮدة ﻓﻲ اﻟﻨﺺ .ﺣﯿﺚ إن
هذا النموذج التخ ُّييل يمكن تطبيقه عىل معاجلة كثري من الظواهر اللغوية .ولنأخذ
اﻟﻨﺺ ﻻ ﯾﺤﺘﻮي ﺳﻮى اﻟﻜﻠﻤﺎت واﻟﺘﻲ ﯾﻤﻜﻦ اﻋﺘﺒﺎرھﺎ ھﻨﺎ اﻧﺒﻌﺎﺛﺎت ﺗﺨﺮج ﻣﻦ
جل َمل (Part of Speech
مثال وهو استنتاج أجزاء الكالم للكلامت املوجودة يف ا ُ ً
أﺟﺰاء اﻟﻜﻼم .ﻓﺎﻟﺤﺎﻟﺔ اﻟﺨﻔﯿﺔ "ﻓﻌﻞ" ،ﻋﻠﻰ ﺳﺒﯿﻞ اﻟﻤﺜﺎل ،ﻗﺪ ﯾﺨﺮج ﻣﻨﮭﺎ اﻧﺒﻌﺎﺛﺎت
.)Taggingفأجزاء الكالم تُعترب حاالت خفية غري موجودة يف النص .حيث إن النص
خترج من أجزاء الكالم. انبعاثات إﻟﺦ(،
"أﻛﻞ"" ،ﻧﺎم"، اعتبارها هنا )"ذھﺐ"، اﻟﻜﺎﺗﺐيمكن اﻟﺘﻲ ﯾﻌﺮﻓﮭﺎ
الكلامت والتي اﻷﻓﻌﺎلسوى ﺟﻤﯿﻊحيتوي
ﻛﺜﯿﺮة وھﻲ ال
كثرية وهي مجيع األفعال انبعاثاتﺷﯿﻮﻋًﺎ
اﻷﻓﻌﺎل أﻛﺜﺮخيرج منها املثال،أنقدﺑﻌﺾ أﺧﺬﻧﺎعىلﻓﻲسبيل
اﻻﻋﺘﺒﺎر «فعل»، اخلفية
ﺘﻠﻔﺔ ،إذا فاحلالةﻣﺨ
وﻟﻜﻦ وﻓﻖ اﺣﺘﻤﺎﻻت
وفقﯿَﻢاحتامالت خمتلفة ،إذا ولكنو ْﻓﻖ ﻗِ
آﺧﺮ ﯾﺘ ﱡﻢ َﻛﻼمإلخ)، «نام»،
«أكل»،ﺟﺰء ﻛﻼم إﻟﻰ («ذهب»،
الكاتبﻣﻦ ﺟﺰء يعرفهااﻻﻧﺘﻘﺎل ﻣﻦ اﻷﺧﺮى .التي
وﻛﺬﻟﻚ ﻓﺈن
ﯾﻜﻮنوكذلك فإن االنتقال األخرى.
"اﺳﻢ" )أن ﺣﺎﻟﺔ ًعا من
أكثر شيو "ﻓﻌﻞ" إﻟﻰ ﺣﺎﻟﺔاألفعال
اﻻﻧﺘﻘﺎلأنﻣﻦبعض ﻓﺎﺣﺘﻤﺎلاالعتبار
اﺣﺘﻤﺎﻟﯿﺔ ﻣﺨﺘﻠﻔﺔ.أخذنا يف
اﻟﻔﺎﻋﻞفاحتامل االنتقال من ﯾﻜﻮنخمتلفة. احتاملية يتم َو ْفق ِق َي
"ﺣﺮف"م )أن آخرﺣﺎﻟﺔ ُّكالمإﻟﻰ ﻓﻲجزء
اﻻﻧﺘﻘﺎل ﻣﻨﮫ إىل
أﻋﻠﻰكالم رﺑﻤﺎ جزء
ھﻨﺎﻟﻚ ﻓﺎﻋﻞ( من
Generativeمنه يف االنتقال إىل
هنالك )فاعل) ربام أعىل يكون ﺗﻮﻟﯿﺪﯾﺔ (أنﺑﻌﻤﻠﯿﺔ «اسم»ﯾﻤﺮﱡ
حالةاﻟﻜﺎﺗﺐ «فعل» إىل
اﻋﺘﺒﺎر أن حالةﯾﻤﻜﻦ
ﺿﻤﯿﺮًا ﻣﺴﺘﺘﺮًا(.
يمر بعمليةُّ الكاتب أن اعتبار يمكن ا). رت مست ا ضمري الفاعل يكون (أن «حرف»
(Processأﺛﻨﺎء ﻛﺘﺎﺑﺘﮫ ﻟﻠﺠﻤﻞ ﺑﻨﻔﺲ اﻟﻌﻤﻠﯿﺔ اﻟﺘﻲ ﺗﻤﺮﱡ ً ﺑﮭﺎ ً حالة
اﻵﻟﺔ اﻟﺘﻲ ﺷﺮﺣﻨﺎھﺎ ﻓﻲ
متر هبا اآللة العملية التي ُّ توليدية ( )Generative Processأثناء كتابته للجمل بنفس
اﻷﻋﻠﻰ .وھﻲ أﻧﮫ ﯾﺒﺪأ اﻟﺠﻤﻠﺔ ﺑﺎﻻﻧﺘﻘﺎل ﻣﻦ ﺣﺎﻟﺔ اﻟﺒﺪاﯾﺔ إﻟﻰ واﺣﺪة ﻣﻦ أﺟﺰاء اﻟﻜﻼم.
التي رشحناها يف األعىل .وهي أنه يبدأ اجلملة باالنتقال من حالة البداية إىل واحدة من
اﺧﺘﺎره ،وھﻲ ﻣﺎ ﻧﺮاه ﻓﻲ اﻟﻨﺺ .ﺛﻢ
كلمة بنا ًء عىل جزء الكالم الذي اختاره ،وهي ما نراه يف اﻟﺬي ٍ ﺛﻢ ﯾﻘﻮم ﺑﺘﻮﻟﯿﺪ ﻛﻠﻤ ٍﺔ ﺑﻨﺎ ًء ﻋﻠﻰ ﺟﺰء اﻟﻜﻼم
أجزاء الكالم .ثم يقوم بتوليد
ﯾﻨﺘﻘﻞ إﻟﻰ ﺟﺰء ﻛﻼم آﺧﺮ ﺑﻨﺎ ًء ﻋﻠﻰ اﻟﺠﺰء اﻟﺤﺎﻟﻲ .وﺑﻌﺪ اﻧﺘﻘﺎﻟﮫ ﯾﻘﻮم ﺑﺘﻮﻟﯿﺪ ﻛﻠﻤﺔ
انتقاله يقوم بتوليد كلمة النص .ثم ينتقل إىل جزء كالم آخر بنا ًء عىل اجلزء احلايل .وبعد
اﻟﺠﻤﻠﺔتوليد اجلملة كاملة. ينتهي من حتىﺗﻮﻟﯿﺪ وهكذاﻣﻦإليه .ﯾﻨﺘﮭﻲانتقل ﺣﺘﻰ الذيوھﻜﺬا
اجلزء إﻟﯿﮫ.
هذا اﻧﺘﻘﻞ عىلاﻟﺬي اﻟﺠﺰء أﺧﺮى ﺑﻨﺎ ًء ﻋﻠﻰ ھﺬا
أخرى بنا ًء
ﺳﻠﺴﻠﺔسلسلة أجزاء الكالم باختيار وذﻟﻚوذلك
ﺑﺎﺧﺘﯿﺎر مجلة ما، ﺟﻤﻠﺔيف ﻣﺎ،
للكلامت أجزاء ﻟالكالم
ﻠﻜﻠﻤﺎت ﻓﻲ استنتاج اﻟﻜﻼم ﻛﺎﻣﻠﺔ .ﯾﻤﻜﻦ يمكن
اﺳﺘﻨﺘﺎج أﺟﺰاء
االحتاملية أدناه ،والتي اﻷﻋﻠﻰ ْفق َو ْﻓﻖ
الدالةاﻟﺪاﻟﺔ اﻻﺣﺘﻤﺎﻟﯿﺔاألعىل َو
اﻟﻘﯿﻤﺔاالحتاملية التي هلاﻟﮭﺎالقيمة
أﺟﺰاء اﻟﻜﻼم !𝑠𝑠 𝑠𝑠! , 𝑠𝑠! , … . ,اﻟﺘﻲ
أﺛﻨﺎءمن
كونة جلملة ُم
اﻟﻜﻼم َّ توليده
أﺟﺰاء أثناء
اﺣﺘﻤﺎﻻتﻣﻦ أﺛﻨﺎء
ﺑﺴﻠﺴﻠﺔ الكالم
اﻟﻜﻼمإن
اﻟﻜﺎﺗﺐ أجزاء
أﺟﺰاء
ﻣﻄﻠﻖ ،إذ ﻣﺮور ﻣﻦمن
ﺑﺸﻜﻞ بسلسلة
اﺣﺘﻤﺎل
ﻋﺸﻮاﺋﯿﺔﺑﺴﻠﺴﻠﺔ الكاتب
اﻟﻜﺎﺗﺐ
ﺗﺤﺴﺐ
ﻟﯿﺴﺖ واﻟﺘﻲﻼﺣﻆ مرور
ﻣﺮور
ھﻮ ُﻣ احتامل
اﺣﺘﻤﺎل
أدﻧﺎه،
ﻛﻤﺎ ﻟﻜﻨﮭﺎ حتسب
ﺗﺤﺴﺐ
اﻻﺣﺘﻤﺎﻟﯿﺔ
ﻣﺠﺎ ًزا، واﻟﺘﻲ
"ﻋﺸﻮاﺋﯿﺔ" أدﻧﺎه،
ﻋﻠﯿﮭﺎ ﻻﺣﺘﻤﺎﻟﯿﺔ1ﯾُﻄﻠﻖ
-38-
وهذه اجلمل يوجد بينها تقاطع كبري يف الكلامت التي تشري إىل نفس املفاهيم.
سمى بالداللة التوزيعية
لذا فإن هذه النظرية تُصنَّف حتت فرع يف علم الداللة ُي َّ
هيتم بدراسة املكونات الداللية وتوزيعها ( )Distributional Semanticsوالذي ُّ
يف النصوص .يمكن اعتبار أن السياقات املتشاهبة لكلمتني هي أحد األنامط التي من
خالهلا يمكن معرفة تقارب هاتني الكلمتني دالل ًّيا ،أي أهنام مرتبطان بنفس املفهوم
( .)Conceptكام أنه ُيمكن اعتبار أن كمية الكلامت املتشاهبة يف السياقات مؤرش ًا عىل
مدى ارتباط هذه السياقات دالل ًّيا .ويف حتليل الداللة الكامنةُ ،تثل الكلامت والسياقات
يف مصفوفة بحيث تكون الكلامت هي صفوف املصفوفة ،واألعمدة هي السياقات التي
ظهرت فيها هذه الكلامت ،كام هو موضح أدناه .ويطلق عىل هذه التمثيل الفضاء الداليل
(:)Semantic Space
سياق
d1 ........ dm
كلمة !𝑤𝑤 2 0
w1 !𝑤𝑤2 1 0 1
.ﻓﻲ .اﻟﺴﯿﺎق !𝑑𝑑 وﻟﻢ ﺗﻈﮭﺮ وﻻ ﻣﺮﱠة ﻓ . .. . .
. . . . .
!𝑤𝑤 !𝑤𝑤 0.4 0.4 0.3ﻣﺘﻌﺪدة ﻟﻮزن ﻟﻜﻠﻤﺔ ﻓﻲ اﻟﺴﯿﺎق0.3 .
وھﻨﺎﻟﻚ طﺮق
ً
ﻣﻘﺎﻻ ،أو ﻣﻘﻄﻌًﺎ ،أو ﺟﻤﻠﺔ ،أ ﯾﻜﻮن
wn 0.4 0.3
،(Mannوﻟﻜﻦ اﺳﺘﺨﺪﻣﻨﺎ ھﻨﺎ ﻋﺪد ظﮭﻮر
اﻟﮭﺪف ﻣﻦ اﻟﻤﻌﺎﻟﺠﺔ .ﻓﻠﻮ أﺷﺮﻧﺎ إﻟﻰ اﻟ
ﻻ ﺗﻜﻮن ھﻲ اﻟﺘﺮﺟﻤﺔ اﻟﻤﺴﺘﺨﺪﻣﺔ ﻓﻲ أدﺑﯿﺎت
ھﺬا
اﻟﻔﻀﺎء .ﻣﻦ
اﻟﻔﻀﺎء .هذا
الفضاء. ﻧﻔﺲ
ﻓﻲنفس اﻟﺴﯿﺎﻗﺎت ﻓﻲ
السياقات يف ﻟﻠﻤﺼﻔﻮﻓﺔ𝐷𝐷 اﻟﺘﻲ𝐷𝐷 ﺗﻤﺜﻞ
اﻟﺘﻲ متثل
التي ﻟﻠﻤﺼﻔﻮﻓﺔ !!, ﺑﺎﻟﻨﺴﺒﺔ
اﻟﺤﺎلاحلال
وﻧﻔﺲونفس
ھﺬا
اﻟﻜﻠﻤﺎت ظﮭﺮت ﻓﻲ 𝑚𝑚 ﻣﻦ اﻟ ﻧﻔﺲ 𝑛𝑛 اﻟﺴﯿﺎﻗﺎت ﺗﻤﺜﻞ ﺑﺎﻟﻨﺴﺒﺔللمصفوفة !!,
بالنسبةاﻟﺤﺎل وﻧﻔﺲ
ﻮف إﻟﻰ أﻋﻤﺪة واﻷﻋﻤﺪة إﻟﻰ ﺻﻔﻮف ،ﻓﺘﻜﻮن
بكلمة
إﻟﯿﮫاﻟﻤﺼﻔﻮﻓﺔ إﻟﻰ ﺛﻼث ﻣ اﻟﻤﺸﺎرإليه
إﻟﯿﮫ
اﻟﻤﺸﺎرھﺬه املشار
ﺑﺘﺤﻠﯿﻞ املفاهيم وهو
وھﻮ فضاءﻓﻀﺎء
اﻟﻤﻔﺎھﯿﻢ
اﻟﻤﻔﺎھﯿﻢ وھﻮ يمثل ﯾﻤﺜﻞ
ﻓﻀﺎء األبعاد ﯾﻤﺜﻞ
اﻷﺑﻌﺎد
اﻷﺑﻌﺎد منن𝑗𝑗 ﻣ
من 𝑗𝑗 ﻣﻦ
ﻣﻦﻦ كوناﻟن ُﻤﻜ ﱠﻮ
ﻣﻦ اجلديداﻟا ُﻤُملﻜ
اﻟﺠﺪﯾﺪ ﱠﻮ َّ اﻟﺠﺪﯾﺪ
اﻟﻔﻀﺎءالفضاء
اﻟﻔﻀﺎء
ظﺎھﺮيفﻓﻲالفضاء الداليل
������ ������ � ﻏﯿﺮظاهر
اﻟﻔﻀﺎءغري
اﻟﺘﺤﻠﯿﻞ ،إذإن إنهذاھﺬاالفضاء
طريقة التحليل ،إذ اسم «الكامن» يف
اﻟﻔﻀﺎءاﻟﻔﻀﺎء
اﻟﻔﻀﺎء ﻏﯿﺮ ظﺎھﺮ ﻓﻲ طﺮﯾﻘﺔطﺮﯾﻘﺔ اﻟﺘﺤﻠﯿﻞ ،إذ إن ھﺬا
"اﻟﻜﺎﻣﻦ"اﺳﻢﻓﻲ اﺳﻢ
"اﻟﻜﺎﻣﻦ" ﻓﻲ
ﺑﻜﻠﻤﺔ ﺑﻜﻠﻤﺔ
الكلامت
2(Decompositionﻛﺎﻟﺘﺎﻟﻲ –SVDتتقارب
اﻟﻔﻀﺎء الفضاء ھﺬا حتليلها.ﺑﻌﺪيف هذا
ﺗﺤﻠﯿﻠﮭﺎ .ﻓﻲ ظهر بعد
وإﻧﻤﺎ ظﮭﺮ اﻟﻤﺼﻔﻮﻓﺔ وإنام
اﻷﺻﻠﯿﺔ املصفوفة األصلية
اﻷﺻﻠﻲ ﻓﻲاألصيل يف
اﻟﺪﻻﻟﻲ
اﻟﺪﻻﻟﻲ اﻷﺻﻠﻲ ﻓﻲ اﻟﻤﺼﻔﻮﻓﺔ اﻷﺻﻠﯿﺔ وإﻧﻤﺎ ظﮭﺮ ﺑﻌﺪ ﺗﺤﻠﯿﻠﮭﺎ .ﻓﻲ ھﺬا اﻟﻔﻀﺎء
اﻟﺴﯿﺎﻗﺎت،بعضها كام هو
ﻧﻔﺲ قريبة من
وتكون السياقات، عادة يف نفس تظهردﻻﻟﯿًّ اﻟﻜﻠﻤﺎت والتي
املرتبطة دالل ًّيا،
وﺗﻜﻮنوﺗﻜﻮن ﺗﻈﮭﺮ ﻓﻲ
ﺗﻈﮭﺮ ﻋﺎدة
واﻟﺘﻲ واﻟﺘﻲ
اﻟﻤﺮﺗﺒﻄﺔﺎ،دﻻﻟﯿًّﺎ،اﻟﻤﺮﺗﺒﻄﺔ
ﺗﺘﻘﺎربﺗﺘﻘﺎرب اﻟﻜﻠﻤﺎت
!
!∗ 𝐷𝐷!, 3 ﻓﻲ ﻧﻔﺲ اﻟﺴﯿﺎﻗﺎت، ﻋﺎدة
!
موضح يف الشكل ،3وكذلك احلال بالنسبة للسياقات التي تُشري إىل نفس املفاهيم.
ﻟﻠﺴﯿﺎﻗﺎت ﺑﺎﻟﻨﺴﺒﺔ ﻟﻠﺴﯿﺎﻗﺎت وﻛﺬﻟﻚ اﻟﺤﺎل اﻟﺸﻜﻞ ،3 ﻣﻮﺿﺢ ﻓﻲ ﺑﻌﻀﮭﺎھﻮﻛﻤﺎ
ﺑﻌﻀﮭﺎ ﻛﻤﺎ ﻗﺮﯾﺒﺔ ﻣﻦ
ﺑﺎﻟﻨﺴﺒﺔمن خالل اﻟﺤﺎلالفضاء
وﻛﺬﻟﻚيف هذا
املتقاربة،3دالل ًّيا
اﻟﺸﻜﻞ ﻣﻮﺿﺢ ﻓﻲ
السياقات، ھﻮأو
الكلامت، ﻗﺮﯾﺒﺔ ﻣﻦ
احلصول عىل يمكن
اﻟﻤﺘﻘﺎرﺑﺔ اﻟﺴﯿﺎﻗﺎت، أو اﻟﻜﻠﻤﺎت، ﻋﻠﻰ اﻟﺤﺼﻮل ﯾﻤﻜﻦ اﻟﻤﻔﺎھﯿﻢ. ﻧﻔﺲ إﻟﻰ ﺸﯿﺮ اﻟﺘﻲ ﺗُ
اﻟﻤﺘﻘﺎرﺑﺔ اﻟﺴﯿﺎﻗﺎت،
إنه أوكلام اقرتب
اﻟﻜﻠﻤﺎت،
ﻋﻠﻰ حيث اﻟﺤﺼﻮل ﯾﻤﻜﻦ عن اﻟﻤﻔﺎھﯿﻢ.
ﻧﻔﺲ ُبعد اﻟﺘﻲ ﺗُدالة
ﺸﯿﺮ إﻟﻰ
ُﺴﺘﺨﺪم ﻋﺪد ظﮭﻮر اﻟﻜﻠﻤﺔ ،وإﻧﻤﺎ ﯾﺴﺘﺨ ﻏﺎﻟﺒًﺎ ﻻ ﯾ1
متجهان
اﻟﺮﺟﻮع إﻟﯿﮭﺎ ﻓﻲ )chütze, 1999 اﻟﻜﻠﻤﺔ ﯾﻤﻜﻦ بعضها، املتجهات حلساب استخدام
ﺑﻌﻀﮭﺎ،ﺒﺴﯿﻂ
ﺑﻌﻀﮭﺎ،
اﻟﺸﺮح. اﻟﻤﺘﺠﮭﺎت ﻋﻦ
اﻟﻤﺘﺠﮭﺎت ﻋﻦ
اﻟﻜﻠﻤﺔ ﻟﺘ ﻟﺤﺴﺎب ﺑُﻌﺪ
ﻟﺤﺴﺎب ﺑُﻌﺪ اﺳﺘﺨﺪام داﻟﺔ
اﺳﺘﺨﺪام داﻟﺔ ﺧﻼل ﺧﻼل اﻟﻔﻀﺎء ﻣﻦ
اﻟﻔﻀﺎء ﻣﻦ دﻻﻟﯿًّﺎ ﻓﻲ
دﻻﻟﯿًّﺎھﺬاﻓﻲ ھﺬا
2اﻟﺘﺮﺟﻤﺔ ھﻨﺎ ﻣﻦ اﻹﻧﺠﻠﯿﺰﯾﺔ إﻟﻰ اﻟﻌﺮﺑﯿﺔ اﺟﺘﮭﺎد
اﻟﻌﺮب.
ازداد ازداد
اﻟﺮﯾﺎﺿﯿﯿﻦ
ﻟﻔﻀﺎء ﻟﻔﻀﺎء ﺑﻌﻀﮭﺎھﺬا ا
ﻓﻲ ھﺬا ا ﺑﻌﻀﮭﺎ ﻓﻲ ﺳﯿﺎﻗﯿﻦ ﻣﻦ
ﺳﯿﺎﻗﯿﻦ ﻣﻦ أوﺘﯿﻦ أوﻟﻜﻠﻤنﺘﯿﻦﻟﻜﻠﻤ
ﻣﺘﺠﮭﺎنﻣﺘﺠﮭﺎ
اﻗﺘﺮباﻗﺘﺮب ﻛﻠﻤﺎﻧﮫ ﻛﻠﻤﺎ
ﺣﯿﺚ إ ﺣﯿﺚ إﻧﮫ
العرب.
ﻣﻨﻘﻮل اﻟﻤﺼﻔﻮﻓﺔ 𝐷𝐷 ،واﻟﺬي ﯾﻌﻨﻲ ﺗ الرياضيني𝐷𝐷 ھﻮ
!
-1الرتمجة هنا من اإلنجليزية إىل العربية اجتهاد مني وقد ال تكون هي الرتمجة املستخدمة يف أدبيات 3
!
!𝐷𝐷!, DT -2هو منقول املصفوفة ،Dوالذي يعني تبديل الصفوف إىل أعمدة واألعمدة إىل صفوف ،فتكون != 𝐷𝐷!,
43
43
-40-
𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 اﻟﺸﮭﯿﺮة ،واﻟﺘﻲ ﺗﻘﯿﺲ اﻟﺰاوﯾﺔ ﺑﯿﻦ ﻣﺘﺠﮭﯿﻦ !𝒖𝒖𝒖𝒖و !𝒖𝒖𝒖𝒖ﻛﺎﻟﺘﺎﻟﻲ:
ﻟﺤﺴﺎب ُ ﻟﺤﺴﺎب ﻗُ
ﻣﺘﺠﮭﯿﻦ داﻟﺔ
داﻟﺔ ﻣﺘﺠﮭﯿﻦ
ﺮبداﻟﺔ
ﺮب𝒖𝒖𝒖𝒖
داﻟﺔ ﻟﺤﺴﺎب𝒖𝒖𝒖𝒖ﻗﻗُ.
ﻣﺘﺠﮭﯿﻦ
ﻣﺘﺠﮭﯿﻦ ﺮب ﺗﺴﺘﺨﺪمﻗُ
ﺗﺴﺘﺨﺪمﺮب
!
ﻟﺤﺴﺎباﻟﺘﻲ
ﺗﺴﺘﺨﺪم
اﻟﺘﻲ اﻟﺘﻲاﻟﺪوال
ﺗﺴﺘﺨﺪم
!
اﻟﺪوال اﻟﺘﻲ
وﻣﻦ
وﻣﻦ اﻟﺪوال
ﺑﯿﻨﮭﻤﺎ.
اﻟﺪوال
ﺑﯿﻨﮭﻤﺎ.وﻣﻦ
وﻣﻦاﻟﺪﻻﻟﻲ
ططﯿﻨﮭﻤﺎ.
اﻟﺪﻻﻟﻲ
ﺑﯿﻨﮭﻤﺎ.
ﻛﺎﻟﺘﺎﻟﻲ𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝜃𝜃𝜃𝜃 = :
ﻛﺎﻟﺘﺎﻟﻲ𝒖𝒖𝒖𝒖: ﻛﺎﻟﺘﺎﻟﻲ:و
ﻛﺎﻟﺘﺎﻟﻲ𝒖𝒖𝒖𝒖𝒖𝒖!:
! ! !𝒖𝒖𝒖𝒖! ∗ !
ﻣﺘﺠﮭﯿﻦ𝒖𝒖
ﻣﺘﺠﮭﯿﻦ !𝒖𝒖𝒖𝒖𝒖𝒖و ﺑﯿﻦ!
ﺑﯿﻦ!𝒖𝒖𝒖𝒖𝒖𝒖وو!𝒖𝒖𝒖𝒖 ﻣﺘﺠﮭﯿﻦ
ﺑﯿﻦاﻟﺰاوﯾﺔ
ﻣﺘﺠﮭﯿﻦ
اﻟﺰاوﯾﺔ ﺑﯿﻦ
ﺗﻘﯿﺲ
ﺗﻘﯿﺲ اﻟﺰاوﯾﺔ
ﺗﻘﯿﺲواﻟﺘﻲ
اﻟﺰاوﯾﺔ
واﻟﺘﻲ ﺗﻘﯿﺲ
اﻟﺸﮭﯿﺮة،
واﻟﺘﻲ
اﻟﺸﮭﯿﺮة،
واﻟﺘﻲ 𝑐𝑐𝑐𝑐،
𝑐𝑐𝑐𝑐
ﻟﺤﺴﺎب داﻟﺔ
الدوال
داﻟﺔ داﻟﺔ
ﻣﺘﺠﮭﯿﻦ
ومن ﺮب
بينهام.
ﻣﺘﺠﮭﯿﻦداﻟﺔ
داﻟﺔ
ﻣﺘﺠﮭﯿﻦ داﻟﺔ
الدوال ﺗﺴﺘﺨﺪم
اﻟﺘﻲ اﻟﺪوال
ومن ﻣﺘﺠﮭﯿﻦ
ﺮب
وﻣﻦ
بينهام.
ﺑﯿﻨﮭﻤﺎ.ﻗُﻗُ
ﺑﯿﻨﮭﻤﺎ.ﻗُﻗُﺮب
ﻣﺘﺠﮭﯿﻦ ﺮب ﺮب
ﻟﺤﺴﺎب
الداليل
ﻟﺤﺴﺎب
الداليل ﺮبﻟﺤﺴﺎبﻗُﻗُ ﻗُ
االرتباطﻗُ
ﻟﺤﺴﺎبﺗﺴﺘﺨﺪم
ﻟﺤﺴﺎب
ﺗﺴﺘﺨﺪم
اﻟﺪﻻﻟﻲ ﺗﺴﺘﺨﺪم
ازداد
ﺗﺴﺘﺨﺪم اﻟﺘﻲ
ﺗﺴﺘﺨﺪم
اﻟﺘﻲ
اﻻرﺗﺒﺎط الفضاء اﻟﺘﻲ
اﻟﺪوال
اﻟﺪوال اﻟﺪوال
هذااﻟﺘﻲ
اﻟﺘﻲ وﻣﻦ
هذااﻟﺪوال
اﻟﺪوال
وﻣﻦ وﻣﻦ
ﺑﯿﻨﮭﻤﺎ.
ﺑﯿﻦيفيف
بعضها
وﻣﻦ ﺑﯿﻨﮭﻤﺎ.وﻣﻦ
ﺑﯿﻨﮭﻤﺎ. ﺑﯿﻨﮭﻤﺎ.
من اﻟﺪﻻﻟﻲسياقني
ﺑﯿﻨﮭﻤﺎ.
اﻟﺪﻻﻟﻲ اﻟﺪﻻﻟﻲ
اﻟﺪﻻﻟﻲ اﻻرﺗﺒﺎط
اﻟﺪﻻﻟﻲ
اﻻرﺗﺒﺎط اﻻرﺗﺒﺎط𝒖𝒖𝒖𝒖
اﻻرﺗﺒﺎط𝒖𝒖
لكلمتني𝑐𝑐𝑐𝑐أو
لكلمتني !!𝒖𝒖𝒖𝒖𝒖𝒖. .𝒖𝒖𝒖𝒖𝒖𝒖!! 𝒖𝒖𝒖𝒖𝒖𝒖!!. .
اﻻرﺗﺒﺎط!
االرتباطھﻮ ازداد الفضاء بعضها من سياقني𝑐𝑐𝑐𝑐 أو
ﺗﺴﺘﺨﺪم ﻟﺤﺴﺎ اﻟﺘﻲ داﻟﺔ
اﻟﺪوال
ﻣﺘﺠﮭﯿﻦ ﻣﺘﺠﮭﯿﻦ
وﻣﻦ ﺮب
ﻟﺤﺴﺎب ﻟﺤﺴﺎب
اﻟﺪﻻﻟﻲ ﺗﺴﺘﺨﺪم ﺗﺴﺘﺨﺪم
اﻻرﺗﺒﺎط اﻟﺘﻲ اﻟﺘﻲ
اﻟﺪوال اﻟﺪوال
وﻣﻦ وﻣﻦ
ﺑﯿﻨﮭﻤﺎ. ﺑﯿﻨﮭﻤﺎ.
اﻟﺪﻻﻟﻲ اﻟﺪﻻﻟﻲ
اﻻرﺗﺒﺎط اﻻرﺗﺒﺎط!إ𝜃𝜃𝜃𝜃
داﻟﺔ)اﻟﺠﺪاء ﻣﺘﺠﮭﯿﻦ
اﻟﻨﻘﻄﻲ ﺮب
اﻟﻀﺮب ﻟﺤﺴﺎب ﺗﺴﺘﺨﺪم𝒖𝒖𝒖𝒖
! !. 𝒖𝒖𝒖𝒖 اﻟﺘﻲ
و اﻟﺪوال
اﻟﻤﺘﺠﮭﯿﻦ، وﻣﻦ ﺑﯿﻨﮭﻤﺎ.
𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐
اﻟﺰاوﯾﺔ
𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 اﻟﺪﻻﻟﻲ
𝑐𝑐𝑐𝑐 𝜃𝜃 ھﻲ
𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐= اﻻرﺗﺒﺎط
𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝜃𝜃𝜃𝜃
= 𝑐𝑐𝑐𝑐
𝜃𝜃𝜃𝜃 𝒖𝒖 ن
𝒖𝒖𝒖𝒖
𝜃𝜃
∗
==
ﺣﯿﺚ
∗ 𝒖𝒖𝒖𝒖 ∗ 𝒖𝒖𝒖𝒖 𝒖𝒖𝒖𝒖
ﻣﺘﺠﮭﯿﻦ !!𝒖𝒖𝒖𝒖𝒖𝒖وو! بني
بنيﻣﺘﺠﮭﯿﻦ
ﺑﯿﻦ الزاوية
الزاويةﺑﯿﻦ
اﻟﺰاوﯾﺔ تقيس
تقيساﻟﺰاوﯾﺔ
ﻛﺎﻟﺘﺎﻟﻲ: والتي
ﻛﺎﻟﺘﺎﻟﻲ:
والتي
ﻛﺎﻟﺘﺎﻟﻲ:ﺗﻘﯿﺲ
ﻛﺎﻟﺘﺎﻟﻲ:
ﺗﻘﯿﺲ
ﻛﺎﻟﺘﺎﻟﻲ:
ﻛﺎﻟﺘﺎﻟﻲ: 𝒖𝒖𝒖𝒖𝒖𝒖
ﻛﺎﻟﺘﺎﻟﻲ:
واﻟﺘﻲ
𝒖𝒖
واﻟﺘﻲﻛﺎﻟﺘﺎﻟﻲ: الشهرية،
الشهرية،وو!!!𝒖𝒖𝒖𝒖
𝒖𝒖وو
𝒖𝒖 𝒖𝒖𝒖𝒖
𝒖𝒖𝒖𝒖
اﻟﺸﮭﯿﺮة،
اﻟﺸﮭﯿﺮة،𝒖𝒖
𝒖𝒖𝒖𝒖
! 𝒖𝒖و
ﻣﺘﺠﮭﯿﻦ
𝒖𝒖𝒖𝒖و
ﻣﺘﺠﮭﯿﻦو!!!
𝒖𝒖𝒖𝒖
!! 𝒖𝒖و
𝒖𝒖𝒖𝒖!
ﻣﺘﺠﮭﯿﻦ
ﻣﺘﺠﮭﯿﻦ! ﻣﺘﺠﮭﯿﻦ
ﻣﺘﺠﮭﯿﻦ! ﺑﯿﻦ
ﻣﺘﺠﮭﯿﻦ
ﺑﯿﻦ
ﻣﺘﺠﮭﯿﻦ
𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐
𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐
!! ﺑﯿﻦﺑﯿﻦ دالة
ﺑﯿﻦ
دالة
اﻟﺰاوﯾﺔ
ﺑﯿﻦﺑﯿﻦ
اﻟﺰاوﯾﺔ𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐
ﺑﯿﻦ متجهني
اﻟﺰاوﯾﺔ
متجهني
ﺗﻘﯿﺲ
اﻟﺰاوﯾﺔ
اﻟﺰاوﯾﺔ
اﻟﺰاوﯾﺔ
اﻟﺰاوﯾﺔ ﺗﻘﯿﺲ
اﻟﺰاوﯾﺔ
ﺗﻘﯿﺲ رب
ﺗﻘﯿﺲ
واﻟﺘﻲﺗﻘﯿﺲ رب
ﺗﻘﯿﺲ
واﻟﺘﻲﺗﻘﯿﺲ
ﺗﻘﯿﺲ
واﻟﺘﻲ
واﻟﺘﻲ اﻟﺸﮭﯿﺮةُ ،ق
واﻟﺘﻲ ُق حلساب
واﻟﺘﻲ
حلساب
واﻟﺘﻲ
اﻟﺸﮭﯿﺮة،
واﻟﺘﻲ
اﻟﺸﮭﯿﺮة،
اﻟﺸﮭﯿﺮة، اﻟﺸﮭﯿﺮة،
اﻟﺸﮭﯿﺮة، تستخدم
تستخدم
𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐
اﻟﺸﮭﯿﺮة،
𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐
اﻟﺸﮭﯿﺮة،
!
𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐
𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐
𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 التي
𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐!
𝑐𝑐𝑐𝑐
𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 !!𝒖𝒖 ∗ !!𝑐𝑐𝑐𝑐!𝒖𝒖!𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝒖𝒖𝑐𝑐𝑐𝑐التي
𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐
أﻧﮫ ﻛﻠﻤﺎ ﻗﻠﱠﺖ اﻟﺰاوﯾﺔ ﺑﯿﻦ
!
! !! !!
ُﺬﻛﺮ )اﻟﺠﺪاء .ﯾ 𝒖𝒖𝒖𝒖 اﻟﻤﺘﺠﮫ ! طﻮل ھﻮھﻮ 𝒖𝒖𝒖𝒖
كالتايل: ھﻮ𝒖𝒖𝒖𝒖وﻟﮭﻤﺎ، اﻟﻘﯿﺎﺳﻲ(
اﻟﻤﺘﺠﮭﯿﻦ𝒖𝒖،ووو
متجهني
!!𝒖𝒖𝒖𝒖𝒖𝒖𝒖𝒖𝒖𝒖𝒖𝒖!!. .
)اﻟﺠﺪاء اﻟﻨﻘﻄﻲ
اﻟﻨﻘﻄﻲ )اﻟﺠﺪاء
)اﻟﺠﺪاء
𝒖𝒖
𝒖𝒖 𝒖𝒖𝒖𝒖
𝒖𝒖𝒖𝒖
! !
! ..
اﻟﻀﺮب
اﻟﻀﺮب
.𝒖𝒖
.
𝒖𝒖𝒖𝒖𝒖𝒖
𝒖𝒖
𝒖𝒖𝒖𝒖
! !
اﻟﻨﻘﻄﻲ
اﻟﻨﻘﻄﻲ
𝒖𝒖𝒖𝒖
𝒖𝒖
!! 𝒖𝒖𝒖𝒖
!.!
.
𝒖𝒖
!. .𝒖𝒖
!
كالتايل:
𝒖𝒖𝒖𝒖ھﻮ
𝒖𝒖𝒖𝒖
! ! !
اﻟﻀﺮب
اﻟﻀﺮب 𝒖𝒖! !. .
𝒖𝒖𝒖𝒖𝒖𝒖
! ! و
ھﻮ! ! متجهني!.
اﻟﻤﺘﺠﮭﯿﻦ𝒖𝒖𝒖𝒖،
ﺑﯿﻦ وو !!𝒖𝒖𝒖𝒖
𝒖𝒖. ﺑﯿﻦ
اﻟﻤﺘﺠﮭﯿﻦ،
ﺑﯿﻦاﻟﺰاوﯾﺔ
اﻟﻤﺘﺠﮭﯿﻦ،
اﻟﺰاوﯾﺔ ﺑﯿﻦ
ﻟﺰاوﯾﺔھﻲ
ھﻲ ﺰاوﯾﺔ
نن 𝜃𝜃𝜃𝜃𝜃𝜃
𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐
𝑐𝑐𝑐𝑐 =𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝜃𝜃𝜃𝜃𝜃𝜃𝜃𝜃𝜃𝜃𝜃𝜃
𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 =𝑐𝑐𝑐𝑐
= ==𝜃𝜃𝜃𝜃𝜃𝜃𝜃𝜃𝜃𝜃𝜃𝜃𝑐𝑐𝑐𝑐 ! ! ! !
== 𝜃𝜃𝜃𝜃𝜃𝜃 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐
𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐
𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 = ==
!
اﻟﺰاوﯾﺔ ﱠ.
𝒖𝒖ﻗﻠﱠ∗1 ﻣﻦ
!
!!𝒖𝒖𝒖𝒖𝒖𝒖 ∗∗ !!𝒖𝒖𝒖𝒖𝒖𝒖
𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 ﺑﯿﻦ ﺑﯿﻦ اﻟﺰاوﯾﺔ
اﻟﺰاوﯾﺔ 𝒖𝒖 𝒖𝒖𝒖𝒖
ﺑﯿﻦ𝒖𝒖𝒖𝒖
ﺑﯿﻦ𝒖𝒖ﺖ!
! ∗ﻗﻠﺖ!
! 𝒖𝒖𝒖𝒖∗
اﻟﺰاوﯾﺔ∗
ﻛﻠﻤﺎ
𝒖𝒖!
ﻛﻠﻤﺎ
𝒖𝒖
𝒖𝒖 𝒖𝒖𝒖𝒖
!! اﻟﺪاﻟﺔ∗!∗
𝒖𝒖𝒖𝒖!𝒖𝒖𝒖𝒖
!!
𝒖𝒖𝒖𝒖ﱠﺖ
أﻧﮫ
𝒖𝒖∗
أﻧﮫ
ﺖ∗ ُﺬﻛﺮ ﱠ
ﻗﻠ!
𝒖𝒖ﻗﻠ ﻗﯿﻤﺔ
ُﺬﻛﺮ!𝒖𝒖𝒖𝒖
ﻛﻠﻤﺎ!
ﻛﻠﻤﺎ! 𝒖𝒖 .ﯾ ﯾ اﻗﺘﺮﺑﺖ
أﻧﮫ.
أﻧﮫ
𝒖𝒖𝒖𝒖 ُﺬﻛﺮ
ُﺬﻛﺮ ! !
اﻟﻤﺘﺠﮫاﻟﻤﺘﺠﮭﯿﻦ .ﯾ ﯾ
اﻟﻤﺘﺠﮫ 𝒖𝒖𝒖𝒖.
𝒖𝒖 طﻮل
طﻮل اﻟﻤﺘﺠﮫ
طﻮل ھﻮ
اﻟﻤﺘﺠﮫ ! !
ھﻮ طﻮل𝒖𝒖 ﻟﮭﻤﺎ،ھﻮو
ھﻮو ! !𝒖𝒖𝒖𝒖 ﻟﮭﻤﺎ، (
ﻲ(! !𝒖𝒖𝒖𝒖𝒖𝒖
!! !!
ﻣﻦ.1 ﻣﻦ اﻟﺪاﻟﺔ
ﻗﯿﻤﺔ.1.
ﻗﯿﻤﺔ1
اﻗﺘﺮﺑﺖﻣﻦ
اﻗﺘﺮﺑﺖ
ﻗﯿﻤﺔاﻟﺪاﻟﺔ
ﯿﻤﺔ
ﻦﯿﻦ
اﻟﻀ
ھﻮ اﻟ (اجلداء
)اﻟﺠﺪاء
(اجلداء!!𝒖𝒖𝒖𝒖𝒖𝒖 𝒖𝒖𝒖𝒖𝒖𝒖!!. .ھﻮ
)اﻟﺠﺪاء
)اﻟﺠﺪاءو
)اﻟﺠﺪاء النقطي
)اﻟﺠﺪاء
اﻟﻨﻘﻄﻲ
النقطي
)اﻟﺠﺪاء
)اﻟﺠﺪاء
اﻟﻨﻘﻄﻲ
اﻟﻤﺘﺠﮭﯿﻦ ،و
اﻟﻤﺘﺠﮭﯿﻦ،
)اﻟﺠﺪاء
اﻟﻨﻘﻄﻲ
اﻟﻨﻘﻄﻲ ﺑﯿﻦ اﻟﻨﻘﻄﻲ
اﻟﻨﻘﻄﻲ
ﺑﯿﻦ الرضب
اﻟﻀﺮب
الرضب
اﻟﻨﻘﻄﻲ
اﻟﻀﺮب
اﻟﻨﻘﻄﻲ
اﻟﻀﺮب اﻟﻀﺮب
اﻟﺰاوﯾﺔ
اﻟﺰاوﯾﺔ
اﻟﻀﺮب اﻟﻀﺮباﻟﻀﺮب هو
ھﻮ
ھﻮ هو
ھﻮ
اﻟﻀﺮب
ھﻮ 𝒖𝒖𝒖𝒖𝒖𝒖
ھﻲ
ھﻲ𝒖𝒖ھﻮ!!𝒖𝒖𝒖𝒖ھﻮ 𝒖𝒖..
ھﻮ..
𝜃𝜃𝜃𝜃!!𝜃𝜃
!!
ھﻮ 𝒖𝒖𝒖𝒖إ!!!ن
𝒖𝒖𝒖𝒖ن𝒖𝒖
𝒖𝒖
𝒖𝒖𝒖𝒖 𝒖𝒖
!
!
!
ﺣﯿﺚ!و.و
𝒖𝒖𝒖𝒖!إ
ﺣﯿﺚ
! اﻟﻤﺘﺠﮭﯿﻦ.،و.
𝒖𝒖ووو
! 𝒖𝒖𝒖𝒖
𝒖𝒖. املتجهني،
املتجهني،
و!!
𝒖𝒖𝒖𝒖
اﻟﻤﺘﺠﮭﯿﻦ،
اﻟﻤﺘﺠﮭﯿﻦ،
! بني
اﻟﻤﺘﺠﮭﯿﻦ،وو!
اﻟﻤﺘﺠﮭﯿﻦ، اﻟﻤﺘﺠﮭﯿﻦ،و
ﺑﯿﻦ
بني
اﻟﻤﺘﺠﮭﯿﻦ،
ﺑﯿﻦ
اﻟﻤﺘﺠﮭﯿﻦ،
ﺑﯿﻦ الزاوية
ﺑﯿﻦ
اﻟﺰاوﯾﺔ
الزاوية
ﺑﯿﻦ
اﻟﺰاوﯾﺔﺑﯿﻦﺑﯿﻦ
اﻟﺰاوﯾﺔ
اﻟﺰاوﯾﺔ هيهي
اﻟﺰاوﯾﺔ
ھﻲ
اﻟﺰاوﯾﺔﺑﯿﻦ
ھﻲ ھﻲ𝜃𝜃𝜃𝜃𝜃𝜃𝜃𝜃𝜃𝜃𝜃𝜃ھﻲ
اﻟﺰاوﯾﺔ
اﻟﺰاوﯾﺔ
ھﻲ إننن
ھﻲ
إنن
ھﻲن ﺣﯿﺚإإننإ1ن.ن𝜃𝜃𝜃𝜃𝜃𝜃
حيث
ﺣﯿﺚ𝜃𝜃إإإإ
ھﻲ ﺣﯿﺚ𝜃𝜃𝜃𝜃
حيث
ﺣﯿﺚ
ﺣﯿﺚ
اﻟﺪاﻟﺔ
ﺣﯿﺚإ
ﺣﯿﺚ
ﺣﯿﺚ ﻣﻦ اﻟﺪاﻟﺔ
ُﺬﻛﺮ أﻧﮫ
أﻧﮫ 𝒖𝒖 .ﯾ ﯾُﺬﻛﺮ املتجهني
املتجهني! !𝒖𝒖𝒖𝒖.
ﺑﯿﻦ
ﺑﯿﻦ
اﻟﻤﺘﺠﮫ
ﺑﯿﻦ
ﺑﯿﻦ ﺑﯿﻦ
ﺑﯿﻦ بني
بني
اﻟﺰاوﯾﺔ
ﺑﯿﻦ
اﻟﺰاوﯾﺔ
اﻟﻤﺘﺠﮫ طﻮل الزاوية
الزاوية
ﺖ
اﻟﺰاوﯾﺔ
طﻮل
ﺑﯿﻦ
اﻟﺰاوﯾﺔ
اﻟﺰاوﯾﺔ ﺖ
اﻟﺰاوﯾﺔ
ﺖھﻮﺖ
ﺖ ﱠ
ھﻮ ﱠﻠﱠ
اﻟﺰاوﯾﺔ
اﻟﺰاوﯾﺔ ﺖ
ﻛﻠﻤﺎ ﻗﻗﻠﱠﻠﻗﻗﻠ
ﻛﻠﻤﺎ
ﺖ أﻧﮫﻗﻠ!ﱠﻠﱠ!ﻗ
ت
ﺖﻠﱠ
ت
𝒖𝒖𝒖𝒖
ﻛﻠﻤﺎ
𝒖𝒖
ﻛﻠﻤﺎ أﻧﮫ ﻛﻠﻤﺎ َّقلﻗ
ﻛﻠﻤﺎﻠﱠَّلﻗ
أﻧﮫ
أﻧﮫ ﻛﻠﻤﺎقو
كلام
كلامو
ُﺬﻛﺮ أنهﯾ
أﻧﮫأﻧﮫ
ُﺬﻛﺮ
ﻛﻠﻤﺎ
ﻟﮭﻤﺎ،
ﻟﮭﻤﺎ،
ُﺬﻛﺮ
ُﺬﻛﺮ أﻧﮫﯾ
أﻧﮫ أنهﯾ
ُﺬﻛﺮ ﯾ
𝒖𝒖.. ذكر
ذكر
ُﺬﻛﺮ.
𝒖𝒖.𝒖𝒖𝒖𝒖 اﻟﻤﺘﺠﮫﯾ ﯾ!! !
ُﺬﻛﺮ
اﻟﻘﯿﺎﺳﻲ(
ُﺬﻛﺮ
اﻟﻘﯿﺎﺳﻲ(
𝒖𝒖𝒖𝒖
! !! اﻟﻤﺘﺠﮫ 𝒖𝒖يﯾ
اﻟﻤﺘﺠﮫُ .يﯾ
اﻟﻤﺘﺠﮫ 𝒖𝒖.
𝒖𝒖𝒖𝒖ُ ... املتجه
املتجه
اﻟﻤﺘﺠﮫ !
طﻮل
اﻟﻤﺘﺠﮫ!!𝒖𝒖𝒖𝒖!.
اﻟﻤﺘﺠﮫ
طﻮلطﻮل
طﻮل
اﻟﻤﺘﺠﮫ
طﻮل ھﻮطول
طول
طﻮل
ھﻮ
طﻮل
طﻮل
ھﻮ
ھﻮ هو𝒖𝒖𝒖𝒖
هو
ھﻮ𝒖𝒖
𝒖𝒖 ھﻮ!
𝒖𝒖𝒖𝒖 وھﻮ!!
ھﻮ
𝑚𝑚𝐷𝐷𝐷𝐷!!
! !
𝒖𝒖𝒖𝒖وو
𝒖𝒖و ﻟﮭﻤﺎ!،
𝒖𝒖𝒖𝒖𝒖𝒖 هلام،وووو
و! !
ﻟﮭﻤﺎ،
ﻟﮭﻤﺎ!،
ﻟﮭﻤﺎ، هلام،
ﻟﮭﻤﺎ،
اﻟﻘﯿﺎﺳﻲ(
ﻟﮭﻤﺎ،و
!𝑚𝑚𝐷𝐷𝐷𝐷
ﻟﮭﻤﺎ،
اﻟﻘﯿﺎﺳﻲ(
ﻟﮭﻤﺎ،
اﻟﻘﯿﺎﺳﻲ(
اﻟﻘﯿﺎﺳﻲ( القيايس)
القيايس) اﻟﻘﯿﺎﺳﻲ(
اﻟﻘﯿﺎﺳﻲ(اﻟﻘﯿﺎﺳﻲ(
اﻟﻘﯿﺎﺳﻲ(
ﻣﻦ.1.1
اﻟﺪاﻟﺔﻣﻦ
ﻗﯿﻤﺔاﻟﺪاﻟﺔ
اﻗﺘﺮﺑﺖﻗﯿﻤﺔ ﻣﻦ ..1.1.11اﻟﻤﺘﺠﮭﯿﻦ
اﻟﻤﺘﺠﮭﯿﻦاﻗﺘﺮﺑﺖ ﻣﻦ اﻟﺪاﻟﺔ..
اﻟﺪاﻟﺔ1
ﻣﻦ1
ﻣﻦ1.
اﻟﺪاﻟﺔ.1ﻣﻦ ﻣﻦ
ﻣﻦ .١
.1
ﻗﯿﻤﺔ من
من
اﻟﺪاﻟﺔ
ﻗﯿﻤﺔ
اﻟﺪاﻟﺔ
اﻟﺪاﻟﺔ
اﻟﺪاﻟﺔ
ﻗﯿﻤﺔ الدالة
الدالة
ﻗﯿﻤﺔ
اﻗﺘﺮﺑﺖ
ﻗﯿﻤﺔ
ﻗﯿﻤﺔ
اﻗﺘﺮﺑﺖ
ﻗﯿﻤﺔ
اﻗﺘﺮﺑﺖ اﻟﻤﺘﺠﮭﯿﻦقيمة
قيمة
اﻗﺘﺮﺑﺖ
اﻗﺘﺮﺑﺖ
اﻗﺘﺮﺑﺖ
اﻟﻤﺘﺠﮭﯿﻦ
اﻗﺘﺮﺑﺖ اقرتبت
اقرتبت
اﻟﻤﺘﺠﮭﯿﻦ
اﻟﻤﺘﺠﮭﯿﻦ
اﻟﻤﺘﺠﮭﯿﻦ
اﻟﻤﺘﺠﮭﯿﻦ
اﻟﻤﺘﺠﮭﯿﻦ
ﻣﻦ اﻟﺪاﻟﺔ ﻗﯿﻤﺔ اﻗﺘﺮﺑﺖ اﻟﻤﺘﺠﮭﯿﻦ
ةرﺎﯾﺳ ةرﺎﯾﺳ
ﺔﺑرﻋ ﺔﺑرﻋ
!𝑚𝑚𝐷𝐷𝐷𝐷 𝑚𝑚𝑚𝑚𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷
𝑚𝑚𝐷𝐷𝐷𝐷 !!𝑚𝑚𝐷𝐷𝐷𝐷
𝑚𝑚𝐷𝐷𝐷𝐷 𝑚𝑚𝐷𝐷𝐷𝐷
!!𝑚𝑚𝐷𝐷𝐷𝐷 ! ! !𝑚𝑚𝑚𝑚𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷 !𝑚𝑚𝑚𝑚𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷
ﻢﯿھﺎﻔﻤﻟاﮫ
ﻋﺪد ﻻﻣﻨﺘ اﻟﻠﻐﻮﯾﺔ.إﻧﺘﺎ ُج
ﺧﻼﻟﮫ اﻟﻠﻐﻮﯾﺔ.
اﻟﺘﺮاﻛﯿﺐ.
اﻟﻠﻐﻮﯾﺔ اﻟﺘﺮاﻛﯿﺐ
تﺎﻤﻠﻜﻟا دﻣﻦ
ﯾﻤﻜﻦ ﻣﻦ
اﻟﺘﺮاﻛﯿﺐ
ﻲﺘﻟاﺪ ﻣﻦ
ﻢﯿھﺎﻔﻤﻟاﺎﮭﻟ ٍﮫ ٍﮫُﻣﻌﻘﱠ
ﻻﻣﻨﺘ ﻣﻦ
ﻧﻈﺎم ﻋﺪد ٍﮫ
ﻻﻣﻨﺘ
ﻻﻣﻨﺘ ٍﮫ
اﻟﺒﺸﺮﯾﺔ ﻋﺪد ُ ُج
إﻧﺘﺎ
ﻋﺪد ج
ج ُ
ﺧﻼﻟﮫ
اﻟﻠﻐﺔ إﻧﺘﺎ
إﻧﺘﺎ ُﺧﻼﻟﮫ
ﻣﻦ ﺧﻼﻟﮫﯾﻤﻜﻦﯾﻤﻜﻦﻣﻦﻣﻦ ﯾﻤﻜﻦﻘﱠﻘﱠﺪ
ﺎﻨھﺪ ﺎﻨﺿﺮﺘﻓاﻌﻌ 𝑚𝑚𝑚𝑚𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷ﻘﱠﺪ
ﻧﻈﺎمنأ ُﻣُﻣ اﻟﺒﺸﺮﯾﺔﻣنأﻌ ُﻣﻘﱠﻌﺪ
ﻧﻈﺎم ﻧﻈﺎم
اﻟﺒﺸﺮﯾﺔ ُ اﻟﺒﺸﺮﯾﺔ
اﻟﻠﻐﺔ
اﻟﺒﺸﺮﯾﺔ اﻟﻠﻐﺔ
اﻟﻠﻐﺔ
ﻲﻟﻻﺪﻟا.ءﺎﻀﻔﻟا ﻲﻓ
اﻟﻠﻐﻮﯾﺔ اﻟﺘﺮاﻛﯿﺐ
تﺎﻤﻠﻜﻟا دد
.ﻦﻣﺎﻜﻟا
تﺎﻤﻠﻜﻟا ﻲﺘﻟا
ﺎﻨھد
ﻲﺘﻟا ﻣﻦﺎﮭﻟ
ﺎﮭﻟ
تﺎﻤﻠﻜﻟا
ﺎﻨﺿﺮﺘﻓاﺲﻔﻧ
ﺲﻔﻧنأﻲﺘﻟا ﻻﻣﻨﺘﺲﻔﻧ
ﺎﮭﻟ ﺲﻔﻧ
ﺎﻌﺑأ
ﻢﯿھﺎﻔﻤﻟا ﻋﺪد
ﻢﯿھﺎﻔﻤﻟا
ﻲﻓ
برﺎﻘﺗ ج:
ءﺎﻀﻔﻟا
ﻢﯿھﺎﻔﻤﻟاﻲﻓ
ءﺎﻀﻔﻟا ﻲﻓ3 إﻧﺘﺎ
ﻞﻜﺸﻟا ﺧﻼﻟﮫ
ءﺎﻀﻔﻟا
ﻲﻟﻻﺪﻟا
ﻲﻓ ءﺎﻀﻔﻟا
ﻲﻟﻻﺪﻟا ﻣﻦ
ﻲﻟﻻﺪﻟا
.ﻦﻣﺎﻜﻟا
ﻲﻟﻻﺪﻟا
.ﻦﻣﺎﻜﻟا
اﻓﺘﺮﺿﻨﺎ أن أﺑﻌﺎد
ﯾﻤﻜﻦ
.ﻦﻣﺎﻜﻟا
ﺎﻨھ ﺎﻨﺿﺮﺘﻓا
.ﻦﻣﺎﻜﻟا
ﺎﻨھ ﺎﻨﺿﺮﺘﻓا
اﻟﻜﺎﻣﻦ.أنھﻨﺎأﺑﻌﺎد
اﻓﺘﺮﺿﻨﺎ ﺎﻨھ
اﻟﺪﻻﻟﻲ نأ ﻧﻈﺎم
برﺎﻘﺗ ﺎﻌﺑأ
ﺎﻨﺿﺮﺘﻓا
ﺎﻌﺑأھﻨﺎ اﻟﻜﺎﻣﻦ.برﺎﻘﺗ
اﻟﻔﻀﺎء ﺎﻌﺑأنأ
ﺎﻌﺑأ !
اﻟﺪﻻﻟﻲﻓﻲ
برﺎﻘﺗ
::44
3344
ﻞﻜﺸﻟااﻟﻠﻐﺔ
برﺎﻘﺗ
ﻞﻜﺸﻟا ﻞﻜﺸﻟا:3:
اﻟﻤﻔﺎھﯿﻢ
اﻟﻔﻀﺎءﻧﻔﺲ3
ﻞﻜﺸﻟا
ﻓﻲ44
44
ﻟﮭﺎ
اﻟﻤﻔﺎھﯿﻢ
اﻟﻜﻠﻤﺎت اﻟﺘﻲ
ﺗﻘﺎربﻟﮭﺎ ﻧﻔﺲ
ﻜﻠﻤﺎت اﻟﺘﻲ
ﻞ :3
.ﺎءﺎﻀﻔﻟا ﺔﺛﻼﺛوﻣﺤﺎوﻟﺔ
ﻂﻘﻓ وﻣﺤﺎوﻟﺔ
ﻞﮭﺴﯿﻟ ، اﻟﺒﺸﺮي
ﺎﮭﻠﯿﺜﻤﺗ ، اﻟﺒﺸﺮي
ﯾﺮﺼﺑ اﻹدراك .ﺎءﺎﻀﻔﻟا
اﻹدراك ﻓﮭﻢ إﻟﻰ.ﺎ
ءﺎﻀﻔﻟا
ﺔﺛﻼﺛﻓﮭﻢ
.ﺎ ﻂﻘﻓﺔﺛﻼﺛ
إﻟﻰ
اﻻﺻﻄﻨﺎﻋﻲ
ءﺎﻀﻔﻟا ﺔﺛﻼﺛﻂﻘﻓﻂﻘﻓ
ﻞﮭﺴﯿﻟ ﻞﮭﺴﯿﻟ
ﺎﮭﻠﯿﺜﻤﺗ
اﻻﺻﻄﻨﺎﻋﻲ ﻞﮭﺴﯿﻟ ﺎﮭﻠﯿﺜﻤﺗ
ﯾﺮﺼﺑ
اﻟﺬﻛﺎءﺎﮭﻠﯿﺜﻤﺗ ﯾﺮﺼﺑ
اﻟﺬﻛﺎء
ﻓﻲ ﯾﺮﺼﺑ ﻓﻲ
اﻟﺒﺎﺣﺜﻮن اﻟﺒﺎﺣﺜﻮن وﯾﮭﺪف وﯾﮭﺪف
وﻣﺤﺎوﻟﺔ إﻟﻰ ﻓﮭﻢ اﻹدر اﻻﺻﻄﻨﺎﻋﻲ وﻣﺤﺎوﻟﺔ
اﻟﺒﺸﺮي، اﻟﺒﺸﺮي،
اﻟﺬﻛﺎء 𝑚𝑚𝑚𝑚𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷ﻓﻲ
اﻹدراك اﻹدراك
.ﺎ
!
ءﺎﻀﻔﻟا
اﻟﺒﺎﺣﺜﻮنﻓﮭﻢ ﺔﺛﻼﺛ
إﻟﻰ ﻓﮭﻢ
ﻂﻘﻓ
وﯾﮭﺪف إﻟﻰ
ﻞﮭﺴﯿﻟ
اﻻﺻﻄﻨﺎﻋﻲ اﻻﺻﻄﻨﺎﻋﻲ
ﺎﮭﻠﯿﺜﻤﺗ ﯾﺮﺼﺑ
اﻟﺬﻛﺎء ﺎ.ً ّ ﻓﻲ
ﯾ اﻟﺬﻛﺎء
ﺑﺼﺮ اﻟﺒﺎﺣﺜﻮن
𝑚𝑚𝑚𝑚𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷
ﺗﻤﺜﯿﻠﮭﺎ
𝑚𝑚𝑚𝑚𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷 !
!
ﻓﻲ ً
𝑚𝑚𝑚𝑚𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷
ﺎ. ّ
ﻟﯿﺴﮭﻞﯾ اﻟﺒﺎﺣﺜﻮن
ﺑﺼﺮ
𝑚𝑚𝑚𝑚𝐷𝐷𝐷𝐷𝐷𝐷𝐷𝐷 ! !وﯾﮭﺪف
ﻓﻘﻂ
ﺗﻤﺜﯿﻠﮭﺎ وﯾﮭﺪف
ﺛﻼﺛﺔ
ﻟﯿﺴﮭﻞ
اﻟﻔﻀﺎء
ﻓﻘﻂ ﺛﻼﺛﺔ اﻟﻔﻀﺎء
!
افرتضناأنأنأبعاد
هناافرتضنا الكامن.هنا
الداليلالكامن. الفضاءالداليل 44الفضاء املفاهيميف
نفساملفاهيم
التيهلاهلانفس
تقاربالكلامت التي
الشكل :3تقاربالشكل
أبعاد أﺑﻌﺎد
اﻓﺘﺮﺿﻨﺎ أن اﻟﻜﺎﻣﻦ .ھﻨﺎ اﻟﻔﻀﺎء اﻟﺪﻻﻟﻲ اﻟﻤﻔﺎھﯿﻢيفﻓﻲ ﻟﮭﺎ ﻧﻔﺲ الكلامت اﻟﺘﻲ
::3ﺗﻘﺎرب اﻟﻜﻠﻤﺎت اﻟﺸﻜﻞ 3
اﻟﺪﻻﻟﻲا.ا.
اﻟﻜﺎﻣﻦًّ .ي
برص متثيلها ليسهل فقط
4444
ثالثة الفضاء
44
أﺑﻌﺎد أن أﺑﻌﺎد44
44
ﻓﻲ اﻟﻔﻀﺎء اﻟﺪﻻﻟﻲ اﻟﻜﺎﻣ اﻟﻤﻔﺎھﯿﻢ اﻓﺘﺮﺿﻨﺎ
ﻧﻔﺲأن أﺑﻌﺎدأﺑﻌﺎداﻟﺘﻲأنأن
ﻟﮭﺎ
اﻓﺘﺮﺿﻨﺎ اﻓﺘﺮﺿﻨﺎ
ھﻨﺎ ھﻨﺎﯾًّﺎ.
اﻟﻜﺎﻣﻦ.
اﻓﺘﺮﺿﻨﺎ
ھﻨﺎ اﻟﻜﻠﻤﺎت
اﻟﻜﺎﻣﻦ. ﺑﺼﺮ
ھﻨﺎ برص ًّي
اﻟﻜﺎﻣﻦ.
ﺗﻘﺎرب
اﻟﺪﻻﻟﻲ متثيلها
اﻟﺪﻻﻟﻲ
اﻟﻔﻀﺎء:
ﺗﻤﺜﯿﻠﮭﺎ ليسهل
ﻟﯿﺴﮭﻞ
اﻟﺪﻻﻟﻲ 3
اﻟﺸﻜﻞ
اﻟﻔﻀﺎء
44
ﻓﻲ
ﻓﻲ44
فقطﻓﻘﻂ
اﻟﻔﻀﺎء
اﻟﻔﻀﺎء
44
44
44 ﻓﻲ
اﻟﻤﻔﺎھﯿﻢ
ﺛﻼﺛﺔ
ﻓﻲ
اﻟﻤﻔﺎھﯿﻢ44
ثالثة
ﻧﻔﺲ
ﻧﻔﺲ الفضاءﻟﮭﺎ
ﻧﻔﺲ ﻟﮭﺎ 44
اﻟﻤﻔﺎھﯿﻢ
اﻟﻔﻀﺎء
اﻟﻤﻔﺎھﯿﻢ ﻟﮭﺎﻧﻔﺲ
اﻟﺘﻲ
اﻟﺘﻲ اﻟﺘﻲﻟﮭﺎ
اﻟﻜﻠﻤﺎتاﻟﺘﻲ
اﻟﻜﻠﻤﺎت
اﻟﻜﻠﻤﺎت ﺗﻘﺎرب ﺗﻘﺎرب::33
اﻟﻜﻠﻤﺎت
ﺗﻘﺎرب اﻟﺸﻜﻞ:3:3اﻟﺸﻜﻞ
اﻟﺸﻜﻞ
ﺗﻘﺎرب اﻟﺸﻜﻞ
اﻟﻔﻀﺎء ﺛﻼﺛﺔ ﻓﻘﻂ ﻟﯿﺴﮭﻞ ﺗﻤﺜﯿﻠﮭﺎ ﺑﺼﺮﯾًّﺎ. ﺑﺼﺮﯾًّﯾًّﺎ.ﺎ. ﺑﺼﺮﺎ.ﯾًّ
ﺗﻤﺜﯿﻠﮭﺎﺎ.
ﺗﻤﺜﯿﻠﮭﺎ ﺑﺼﺮ ﺑﺼﺮﯾًّﺗﻤﺜﯿﻠﮭﺎ
ﻟﯿﺴﮭﻞ ﻟﯿﺴﮭﻞ
ﻓﻘﻂ
ﺗﻤﺜﯿﻠﮭﺎ
ﻟﯿﺴﮭﻞ ﻓﻘﻂ ﻓﻘﻂﺛﻼﺛﺔ
ﺛﻼﺛﺔ
ﻟﯿﺴﮭﻞ ﺛﻼﺛﺔﻓﻘﻂ
اﻟﻔﻀﺎءﺛﻼﺛﺔ
اﻟﻔﻀﺎء
اﻟﻔﻀﺎء اﻟﻔﻀﺎء
-٤١-
-41-
-٤اخلامتة
ٍ
المنته من الرتاكيب اللغوية. اللغة البرشية نظام ُمع َّقد يمكن من خالله ُ
إنتاج عدد
وهيدف الباحثون يف الذكاء االصطناعي إىل فهم اإلدراك البرشي ،وحماولة حماكاته؛
مكن أن تعالج اللغة البرشية يف خمتلف مستوياهتا. حاسوبية ي ِ
ٍ ٍ
أنظمة وذلك بتطوير
ُ
وهتدف هذه املعاجلة يف النهاية إىل متكني اإلنسان من التخاطب مع اآللة باستخدام
اللغة التي يتخاطب هبا مع أقرانه ،ولكن هذا اهلدف يواجه حتديات كثرية اطلعنا يف هذا
الفصل عىل جزء منها .وهذه التحديات موجودة يف مجيع مستويات معاجلة اللغة بدء ًا
من معاجلة الصوت وحتى معاجلة اخلطاب .وترتكَّز أبرز الطرق املستخدمة حاليا يف
معاجلة اللغات البرشية حول استخدام تع ُّلم اآللة والتعرف النمطي .ويعكف الباحثون
جمال تع ُّلم اآللة والتعرف النمطي عىل حماكاة تعلم اإلنسان وطريقته يف التعرف
يف َ ْ
عىل األنامط ،ومن ثم حماكاة هذه الطرق وتطبيقها عىل جماالت عدة من ضمنها معاجلة
اللغات البرشية .وبالرغم من صعوبة الوصول إىل تطوير أنظمة حاسوبية يمكن أن
حتاكي استخدام اإلنسان للغة البرشية بشكل عام ،إال أن الباحثني نجحوا يف تطوير
العديد من األنظمة التي تعالج مها َّم حمددة كفك الغموض الرتكيبي ،أو التحليل
الرصيف ،أو تلك املتعلقة باخلطاب.
شكر وتقدير
الشكر هلل سبحانه وتعاىل َّأو ًل عىل تيسريه وإنعامه ،ثم الشكر للوالدين الكريمني ُّ
لدعمهام الدائم .بو ِّدي أن أتقدَّ م بالشكر لألساتذة د .إبراهيم اخلرايش ،د .حممد
الكنهل ،ود .منصور الغامدي عىل ُجهودهم املبكرة يف دعم العمل البحثي عىل معاجلة
اللغة العربية يف مدينة امللك عبدالعزيز للعلوم والتقنية .كام أتقدَّ م بالشكر لألستاذة
سارة العسكر عىل ُمراجعتها اللغوية هلذا الفصل .أود أن أشكر مجيع من عملت معهم
يف مدينة امللك عبدالعزيز للعلوم والتقنية عىل مشاريع يف َ
جمال تعلم اآللة ومعاجلة اللغة
العربية والتي كانت سبب ًا يف تعلم الكثري.
تفهمهم انشغايل املستمر خالل ِ
أخريا وليس آخ ًرا ،أشكر زوجتي وأوالدي عىل ُّ ً
كتابة هذا الفصل.
-42-
املراجع
-43-
Lawrence R. Rabiner، وBiing-Hwang Juang. (1986). An Introduction
to Hidden Markov Models. IEEE ASSP Magazine.
Mark Gales، وSteve Young. (2007). The Application of Hidden
Markov Models in Speech Recognition ( اإلصدارVolume 1
Issue 3). Foundations and Trends in Signal Processing.
Olivier Cappé، Eric Moulines، وTobias Ryden. (2007). Inference in
Hidden Markov Models. Springer.
Sandra Kübler، وEmad Mohamed. (2011). Part of Speech Tagging for
Arabic. Natural Language Engineering، 18(4)، 521-548.
Scott Deerwester، Susan T. Dumais، George W. Furnas، Thomas K.
Landauer، وRichard Harshman. (1990). Indexing by Latent
Semantic Analysis. Journal of the American Society for
Information Science، 41(6)، 391--407.
Stephen Boyd، وLieven Vandenberghe. (2004). Convex Optimization.
Cambridge University Press.
Thomas K. Landauer، وSusan T. Dumais. (1997). A Solution to
Plato’s Problem: The Latent Semantic Analysis Theory of
Acquisition, Induction, and Representation of Knowledge.
Psychological Review، 104(2)، 211-240.
Thomas Landauer، Peter W. Foltz، وDarrell Laham. (1998).
An Introduction to Latent Semantic Analysis. Discourse
Processes، 2(3)، 259–284.
Tom M. Mitchell. (1997). Machine Learning (1 )اإلصدار. McGraw-
Hill.
Wolfgang Sternefeld، وWolfgang Sternefeld. (2013). Introduction to
Semantics. De Gruyter Mouton.
-44-
الفصل الثاني
التعلم العميق وتطبيقاته يف معاجلة اللغة
-45-
-46-
ملخص الفصل
يعد تع ّلم اآللة أحد املجاالت الفرعية للذكاء االصطناعي ،وهيتم بصنع خوارزميات
تتيح للحاسب التع ّلم من البيانات للخروج بنامذج تفيد الكثري من التطبيقات ،كمعاجلة
اللغات .إحدى جمموعات اخلوارزميات التي انترشت بشكل كبري يف الفرتة األخرية
هي خوارزميات التع ّلم العميق ،التي هي امتداد خلوارزميات الشبكات العصبية.
يرجع سبب انتشار استخدام التع ّلم العميق إىل قدرهتا عىل تع ّلم نامذج بالغة التعقيد
كان من الصعب تعلمها سابق ًا ،مما أتاح العديد من التطبيقات التي تعالج احتياجات
واقعية ،كرؤية احلاسب ومعاجلة اللغات الطبيعية.
يف هذا الفصل عرض موجز عن الشبكات العصبية والتعلم العميق .يف البداية سيتم
التحدث عن التسلسل التارخيي لتطور هذه اخلوارزميات ،ثم التطرق ألهم املعامريات
املستخدمة ،ويف النهاية عرض لبعض تطبيقاهتا يف معاجلة اللغات الطبيعية ،وذلك
للخروج بفهم عام عن خوارزميات التعلم العميق وكيفية تطبيقها يف جمال معاجلة
اللغات من دون الدخول يف التفاصيل الدقيقة لكل خوارزمية ،حتى يكون لدى
الباحث تصور ملا يمكن أن يقدمه التعلم العميق يف املجاالت املختلفة يف معاجلة اللغات
الطبيعية.
-47-
-1مقدمة
يعد تع ّلم اآللة ( )Machine Learningأحد املجاالت الفرعية للذكاء االصطناعي
( ،)Artificial Intelligenceوهيتم بصنع خوارزميات تتيح للحاسب التع ّلم من
البيانات للخروج بنامذج تفيد الكثري من التطبيقات ،كمعاجلة اللغات .إحدى
جمموعات اخلوارزميات التي انترشت بشكل كبري يف الفرتة األخرية هي خوارزميات
التع ّلم العميق ( ،)Deep Learningالتي هي امتداد خلوارزميات الشبكات العصبية
( .)Neural Networksيرجع انتشار استخدام خوارزميات التع ّلم العميق إىل
قدرهتا عىل تع ّلم نامذج بالغة التعقيد كان من الصعب تعلمها سابق ًا ،مما أتاح العديد
من التطبيقات التي تعالج احتياجات واقعية ،كرؤية احلاسب ()Computer Vision
ومعاجلة اللغات الطبيعية (.)NLP
سأحتدث يف هذا الفصل عن الشبكات العصبية والتعلم العميق وتطبيقاهتام يف معاجلة
اللغات الطبيعية ،واهلدف اخلروج بفهم عام عن خوارزميات التعلم العميق وكيفية
تطبيقها يف جمال معاجلة اللغات من دون الدخول يف التفاصيل الدقيقة لكل خوارزمية،
حتى يكون لدى الباحث تصور ملا يمكن أن يقدمه التعلم العميق يف املجاالت املختلفة
يف معاجلة اللغات الطبيعية.
-48-
حماكاة للنموذج الذي قام بوضعه كل من مكولش وبيتز عام .1943ا ُملستَقبِل هو
عبارة عن مصنّف خطي ( )linear classifierيستقبل ُمدخالت ويقوم بجمعها بشكل
موزون حسب األوزان ثم إخراج القيمة 0أو 1بنا ًء عىل قيمة احلد (.)threshold
الشكل 1يوضح خوارزمية ا ُملستَقبِل.
-49-
A XOR B B A
والشكل التايل يوضح أنه ال يمكن فصل القيم الناجتة باستخدام خط مستقيم ،ألن
املشكلة غري خ ّطية ،هلذا ال يمكن استخدام خوارزمية ا ُملستَقبِل حلل .XOR
بعد توضيح هذه املشاكل حدث جفاء كبري بني جمتمع الذكاء االصطناعي
وخوارزميات الشبكات العصبية ،وانقطع دعم األبحاث املتعلقة هبا بشكل كبري .وقد
استمر ذلك حتى بدايات عام 1980م.
-50-
بدأ االهتامم بالشبكات العصبية يعود بسبب عدة أحداث متوالية ،بدء ًا من مشاركة
جلون هوبفيلد ( )John Hopfieldعام 1982م يف مؤمتر لألكاديمية الوطنية للعلوم
( ،)Hopfield، 1982حيث رشح الشبكة التي حتمل اآلن اسم شبكة هوبفيد ،وعاد
بسببها الكثري من الباحثني إىل الشبكات العصبية .ثم تاله إعالن اليابان عودهتا لدعم
األبحاث املتعلقة بالشبكات العصبية ،وتال ذلك استحداث مؤمترات سنوية وجمالت
علمية متخصصة يف الشبكات العصبية ،كل ذلك زاد من زخم الدعم والنرش العلمي يف
هذا املجال .ولعل أهم األمور التي أ َّث َرت يف مسرية الشبكات العصبية مها خوارزميتي
االنتشار العكيس ( )backpropagationوالنزول االشتقاقي (.)gradient descent
بالرغم من اقرتاحها يف الستينات ،إال أن خوارزمية االنتشار العكيس تم إعادة رشحها
بشكل أوضح وإشهارها عن طريق كتاب (Learning Internal Representation by
)Propagation Errorالذي نرش عام 1986م من تأليف روميلهارت ()Rumelhart
وهينتون ( )Hintonوويليامز ( ،Hinton ،Rumelhart( )Williamsو ،Williams
.)1986ويف التسعينات وما بعدها تم اقرتاح العديد من أنواع الشبكات العصبية التي
ال تزال تستخدم حتى اآلن ،مثل LSTMو ،CNNوسأتكلم عنهام الحق ًا يف هذا الفصل.
كام ذكرت سابق ًا ،التعلم العميق هو فعلي ًا شبكات عصبية ولكن بطبقات أكثر.
فتاريخ التعلم العميق مرتبط بشكل كبري بالشبكات العصبية .ولكن كان هناك مشاكل
تعيق تدريب شبكات هبذا التعقيد ،كقلة البيانات وضعف القدرة احلاسوبية وبعض
املشاكل يف اخلوارزميات التي تم حلها تدرجيي ًا .املوجة الثالثة يف انتشار استخدام
الشبكات العصبية هي عهد التعلم العميق ،حيث بدأت عىل األرجح عام 2006م
ببحث منشور يرشح كيفية تدريب شبكات عميقة من نوع Deep Belief Networks
( ،Osindero ،Hintonو .)2006 ،Tehولكن الشهرة احلقيقية التي سببت انتشار
استخدام التعلم العميق هو فوز خوارزمية تعلم عميق (،Krizhevsky( AlexNet
،Sutskeverو ))2012 ،Hintonبتحدي Large Scale Visual Recognition
) Challenge (ILSVRCعام 2012م باملركز األول بفارق كبري جد ًا بني املركزين
األول والثاين .هذا التفوق الكبري فتح أعني الباحثني عىل القدرة الكبرية للتعلم العميق
يف بعض املجاالت كرؤية احلاسب ومعاجلة اللغات الطبيعية .وال يزال املجتمع البحثي
نشط جد ًا يف األبحاث املتعلقة بالتعلم العميق وكيفية تطبيقه يف خمتلف املجاالت.
-51-
-3أسباب نجاح التعلم العميق
كام يتضح من تاريخ الشبكات العصبية ،فالكثري من املفاهيم املستخدمة يف التعلم
العميق تم استخدامها منذ زمن بعيد .ولكن هناك عدة أسباب أدت إىل نجاح التعلم
العميق الحق ًا ،يمكن اختصارها يف أربعة أسباب أساسية:
-1البيانات الضخمة :مع رخص وسائل التخزين وزيادة سعاهتا ،إضافة إىل سهولة
تسجيل البيانات وتنوعها صار باإلمكان مجع بيانات ضخمة .أحد متطلبات
تدريب نامذج التعلم العميق املعقدة هو توفر بيانات ضخمة يمكنها تعلم املاليني
من األوزان.
-2املعاجلات الرسومية :يتطلب تدريب الشبكات العميقة عمليات حسابية كثرية جد ًا،
حيث يتم تعلم ماليني األوزان .باستخدام املعاجلات الرسومية صار باإلمكان توزيع
العمليات احلسابية بالتوازي ( ،)parallelمما ساهم يف ترسيع التدريب بشكل كبري.
-3تطور خوارزميات الشبكات العصبية :مما ساهم يف نجاح تدريب الشبكات العميقة
حل بعض املشاكل كتاليش املشتقة ( )vanishing gradientوانفجار املشتقة
( .)exploding gradientوكذلك اقرتاح استخدام دوال تفعيل جديدة مثل دالة
ريلو ،وغريها من التطويرات العديدة.
-4ثقافة املشاركة يف جمتمعات الذكاء االصطناعي وتعلم اآللة :أحد العوامل املهمة يف
انتشار استخدام التعلم العميق هو ثقافة املشاركة يف جمتمعات الذكاء االصطناعي.
وثقافة املشاركة تتضمن نتائج األبحاث واألوراق العلمية عن طريق نرشها جمان ًا
عىل مواقع مثل ،arxiv.orgمما يتيح للجميع الوصول هلا بدون اشرتاكات باهظة
الثمن .باإلضافة إىل مشاركة األكواد والربامج والبيانات.
-52-
العصبونات التي تستخدم سوي ًا ،وهي الفكرة األساسية التي تقوم عليها الشبكات
العصبية ،حيث تسعى اخلوارزمية أن تتعلم أوزان الروابط بني العصبونات .الشبكات
العصبية تستطيع تعلم مشاكل غري خطية يف غاية التعقيد.
تتكون الشبكات العصبية بشكل أسايس من عصبونات ( )neuronsوأوزان
الروابط ( )weightsودوال تفعيل ( ،)activation functionsوكذلك من مدخالت
( )inputsوخمرجات ( ،)outputsكام هو موضح يف الشكل .3وهي تتكون غالب ًا من
عدة طبقات (.)layers
ﺑﺴﯿﻄﺔبسيطة
شبكةﯿﺔعصبية الشكل :3
ﺷﺒﻜﺔ ﻋﺼﺒ ﺷﻜﻞ :3
اﻟﻄﺒﻘﺔقيم الطبقة
رضب طريقﻗﯿﻢ
عنﺿﺮب طﺮﯾﻖ اﻟﺪاﺧﻠﯿﺔ ﻋﻦ
الداخلية اﻟﻄﺒﻘﺎتالطبقات ﻋﺼﺒﻮن ﻓﻲ
عصبون يف حسابﻛﻞقيمة كلﺣﺴﺎب ﻗﯿﻤﺔ
ﯾﺘﻢ يتم
التفعيل كام داﻟﺔدالة
اﻟﺘﻔﻌﯿﻞ النتيجة إىل إدخال
اﻟﻨﺘﯿﺠﺔ إﻟﻰ االنحياز،b،ﺛﻢ ثم
إدﺧﺎل قيمةاﻻﻧﺤﯿﺎز b
وإضافةﻗﯿﻤﺔ
باألوزانوإﺿﺎﻓﺔ
تسبقهاﺑﺎﻷوزان
التيﺗﺴﺒﻘﮭﺎ
اﻟﺘﻲ
املعادلة:
اﻟﻤﻌﺎدﻟﺔ: موضح يف
ﻣﻮﺿﺢ ﻓﻲ هو ھﻮ
ﻛﻤﺎ
!
ﺣﯿﺚ Xﻣﺼﻔﻮﻓﺔ ﺗﺤﺘﻮي ﻋﻠﻰ ﻗﯿﻢ اﻟﻤﺪﺧﻼت أو اﻟﻄﺒﻘﺔ اﻟﺴﺎﺑﻘﺔ W ،ﻣﺼﻔﻮﻓﺔ ﺑﻘﯿﻢ
-53-
اﻷوزان ،و bﻣﺘﺠﮫ ﺑﻘﯿﻢ اﻻﻧﺤﯿﺎز ) ،(biasو∅ ھﻲ داﻟﺔ اﻟﺘﻔﻌﯿﻞ .ﯾﺠﺪر اﻟﺘﺄﻛﯿﺪ أن
!
57
57
-54-
الشكل :5دالة Tanh
أشهرها العميق،
أﺷﮭﺮھﺎ للتعلماﻟﻌﻤﯿﻖ،
فعاليةﻟﻠﺘﻌﻠﻢ
أكثرﻓﻌﺎﻟﯿﺔ
أخرىأﻛﺜﺮ
دوالأﺧﺮى
إىلدوال مؤخر ًاﺗﻢتماﻟﺘﻮﺟﮫ
التوجهإﻟﻰ ولكنﻣﺆﺧﺮاً
وﻟﻜﻦ
:)ReLU
:(ReLU هيھﻲدالةداﻟﺔريلو (
رﯾﻠﻮ ) استخدام ًا
اﺳﺘﺨﺪاﻣﺎ ً وأكثرها
وأﻛﺜﺮھﺎ
)𝑧𝑧 ∅ 𝑧𝑧 = max (0,
..6 اﻟﻤﻮﺿﺤﺔيفﻓﻲالشكل
اﻟﺸﻜﻞ 6 املوضحة
-55-
4.1ﺗﺪرﯾﺐ اﻟﺸﺒﻜﺎت اﻟﻌﺼﺒﯿﺔ
4.1تدريب الشبكات العصبية
اخلوارزمية األشهر استخدام ًا لتدريب الشبكات العصبية هي خوارزمية االنتشار
العكيس ( .)backpropagationوفيها يتم استهالل األوزان عشوائي ًا يف البداية ثم
حساب املخرجات كام تم رشحه لكل عصبون يف كل طبقة .بعد ذلك يتم حساب دالة
التكلفة ( )cost functionالتي توضح مقدار اخلطأ يف املخرجات .هناك عدة دوال
حلساب التكلفة ،مثل دالة :)MSE( Mean Squared Error
! !
!
11
𝑀𝑀𝑀𝑀𝑀𝑀
𝑀𝑀𝑀𝑀𝑀𝑀 == !!!𝑦𝑦 !!𝑦𝑦
𝑦𝑦!! 𝑦𝑦−! − !
𝑛𝑛 𝑛𝑛 !!!
!!!
!!!
الشبكة
اﻟﺸﺒﻜﺔ ﻣﻦمن
اﻟﺸﺒﻜﺔ
ﻣﻦ املخرجات
اﻟﻤﺨﺮﺟﺎت قيمة
اﻟﻤﺨﺮﺟﺎت
ﻗﯿﻤﺔ ھﻲهي
ﻗﯿﻤﺔ
ھﻲ التدريب𝑦𝑦،وو𝑦𝑦
اﻟﺘﺪرﯾﺐ، لعينات
اﻟﺘﺪرﯾﺐ ،و احلقيقية
ﻟﻌﯿﻨﺎت
ﻟﻌﯿﻨﺎت القيم
اﻟﺤﻘﯿﻘﯿﺔ
اﻟﺤﻘﯿﻘﯿﺔ ھﻲهي
اﻟﻘﯿﻢاﻟﻘﯿﻢ
ھﻲ حيث 𝑦𝑦
𝑦𝑦
ﺣﯿﺚﺣﯿﺚ
العصبية.
اﻟﻌﺼﺒﯿﺔ.
اﻟﻌﺼﺒﯿﺔ.
طريق
طﺮﯾﻖ عن
طﺮﯾﻖتكراريﻋﻦ
ﻋﻦ
ﺗﻜﺮاريبشكل
ﺗﻜﺮاري التكلفة
ﺑﺸﻜﻞ
ﺑﺸﻜﻞ دالة
اﻟﺘﻜﻠﻔﺔ
اﻟﺘﻜﻠﻔﺔ لتقليل
داﻟﺔداﻟﺔ األوزان
ﻟﺘﻘﻠﯿﻞ
ﻟﺘﻘﻠﯿﻞ اﻷوزان
اﻷوزان حتديث
ﺗﺤﺪﯾﺚ
ﺗﺤﺪﯾﺚ ﯾﺘﻢيتم
ﯾﺘﻢ ذلك
ذﻟﻚذﻟﻚعىل
ﻋﻠﻰﻋﻠﻰﺑﻨﺎ ًء ًء
ﺑﻨﺎ ًءبنا
حتى األوزان،
اﻷوزان،
اﻷوزان، لتحديث
ﻟﺘﺤﺪﯾﺚ
ﻟﺘﺤﺪﯾﺚ واستخدامه
واﺳﺘﺨﺪاﻣﮫ
واﺳﺘﺨﺪاﻣﮫ )gradient
(gradient
(gradient descent
descent
descent اﻻﺷﺘﻘﺎﻗﻲ ()
االشتقاقي
اﻻﺷﺘﻘﺎﻗﻲ ) النزول
اﻟﻨﺰول ﺣﺴﺎب
اﻟﻨﺰول بحساب ﺣﺴﺎ
ﻣﻘﺒﻮﻟﺔ.
ﻣﻘﺒﻮﻟﺔ. مقبولة.
ﻧﺘﯿﺠﺔ
ﻧﺘﯿﺠﺔ نتيجة
إﻟﻰإﻟﻰ الوصول إىل
اﻟﻮﺻﻮل
اﻟﻮﺻﻮل ﺣﺘﻰﺣﺘﻰ
ﻣﻌﻤﺎرﯾﺎتاﻟﺸﺒﻜﺎت
اﻟﺸﺒﻜﺎت 5 5ﻣﻌﻤﺎرﯾﺎت
-5معامريات الشبكات
ﻣﻌﻤﺎرﯾﺔ
ﻣﻌﻤﺎرﯾﺔهلا
معامرية ﻛﻞكل
ﻛﻞ ﺣﯿﺚ
حيثﺣﯿﺚ اﻟﻤﻄﻠﻮب،
اﻟﻤﻄﻠﻮب،
املطلوب، اﻟﺘﻄﺒﯿﻖ
اﻟﺘﻄﺒﯿﻖ
التطبيق ﺣﺴﺐ
حسبﺣﺴﺐ اﻟﻌﺼﺒﯿﺔ
اﻟﻌﺼﺒﯿﺔ
العصبية اﻟﺸﺒﻜﺎت
اﻟﺸﺒﻜﺎت
الشبكات ﻣﻌﻤﺎرﯾﺎت
ﻣﻌﻤﺎرﯾﺎت
معامريات ﺗﺘﻨﻮع
ﺗﺘﻨﻮع
تتنوع
اﻟﻤﻌﻤﺎرﯾﺎتًا.
اﻟﻤﻌﻤﺎرﯾﺎت
استخدام ﻣﻦﻣﻦأﻛﺜﺮأﻛﺜﺮ
املعامريات ﻟﺜﻼﺛﺔ
أكثر لثالثةھﻨﺎمن
ﻟﺜﻼﺛﺔ اﻟﺘﻄﺮقھﻨﺎ
اﻟﺘﻄﺮق وﺳﯿﺘﻢ
ﺑﻐﯿﺮھﺎ.وﺳﯿﺘﻢ
التطرق هنا ﺑﻐﯿﺮھﺎ.
وسيتم ﺗﺘﻮﻓﺮ
تتوفرﻻﺗﺘﻮﻓﺮ
بغريها. ﺧﺼﺎﺋﺺﻻ
ﺧﺼﺎﺋﺺ
خصائص ال ﻟﮭﺎﻟﮭﺎ
الكثرية،
اﻟﻄﺒﻘﺎت الطبقات
اﻟﻄﺒﻘﺎت
ذاتذات اﻟﺸﺒﻜﺎت ذات
اﻟﻌﺼﺒﯿﺔ
اﻟﻌﺼﺒﯿﺔ العصبية
اﻟﺸﺒﻜﺎت الشبكات
ﻋﻠﻰ ﻋﻠﻰ عىل
اﻟﻌﻤﯿﻖ
اﻟﻌﻤﯿﻖ العميق
اﻟﺘﻌﻠﻢ
اﻟﺘﻌﻠﻢ إطﻼق التعلم
إطﻼق إطالق
ﯾﺘﻢ ﯾﺘﻢ
ﻋﺎم ﻋﺎم ﺑﺸﻜﻞ
ﺑﺸﻜﻞ اﺳﺘﺨﺪاﻣ ًﺎ.
يتم اﺳﺘﺨﺪاﻣﺎ ً.
عام بشكل
عميقة،
اﻟﺸﺒﻜﺔ شبكة الشبكة
ﻧﻄﻠﻖﻋﻠﻰﻋﻠﻰ
اﻟﺸﺒﻜﺔ عىل
ﺣﺘﻰﻧﻄﻠﻖ نطلق
اﻟﻄﺒﻘﺎتﺣﺘﻰ حتى
اﻟﻄﺒﻘﺎت الطبقات
ﻟﻌﺪدﻟﻌﺪد
ﻋﻠﯿﮫ لعدد
ﻣﺘﻔﻖﻋﻠﯿﮫ عليه
ﻣﺤﺪدﻣﺘﻔﻖ متفق
رﻗﻢﻣﺤﺪد حمدد
ﯾﻮﺟﺪرﻗﻢ رقم
وﻻﯾﻮﺟﺪ يوجد
اﻟﻜﺜﯿﺮة،وﻻ وال
اﻟﻜﺜﯿﺮة،
إمكانية
اﻟﻄﺒﻘﺎت زادت
اﻟﻄﺒﻘﺎت
ﻋﺪدﻋﺪدالطبقات
زاد زاد
وﻛﻠﻤﺎ عدد
وﻛﻠﻤﺎ زاد
أﻛﺜﺮ.
أﻛﺜﺮ. وكلام أو
أو
أﻗﻞأﻗﻞ أكثر.
وﺑﻌﻀﮭﻢ
وﺑﻌﻀﮭﻢ أقل10أو
10 وبعضهم
ﯾﻌﺪھﺎ
ﯾﻌﺪھﺎ ﻋﻤﯿﻘﺔ10،
ﻓﺒﻌﻀﮭﻢ
ﻓﺒﻌﻀﮭﻢ يعدها
ﻋﻤﯿﻘﺔ، فبعضهم
ﺷﺒﻜﺔﺷﺒﻜﺔ
أﻋﻘﺪ. ﻣﻔﺎھﯿﻢ
أﻋﻘﺪ. ﻣﻔﺎھﯿﻢ أعقد.
وﺗﻌﻠﻢ
وﺗﻌﻠﻢ مفاهيم
ﻟﺘﻤﺜﯿﻞ وتعلم
اﻟﺸﺒﻜﺔ
ﻟﺘﻤﺜﯿﻞ لتمثيل
إﻣﻜﺎﻧﯿﺔ
اﻟﺸﺒﻜﺔ إﻣﻜﺎﻧﯿﺔ الشبكة
زادت
زادت
Multi-Layer
Multi-Layer
Multi-Layer Perceptron
Perceptron
Perceptron ) ))
اﻟﻄﺒﻘﺎت
اﻟﻄﺒﻘﺎت ﻣﺘﻌﺪد
اﻟﻄﺒﻘﺎت
ﻣﺘﻌﺪد ِﻞﻞ
ﻣﺘﻌﺪد ﻞﺒ
ِ
ﺒ
ل متعدد الطبقات ())Multi-Layer Perceptron (MLP (
)(MLPبَِ
ِﻘﻘ
ﺒ
ﺘ
َ ﻘﺘ
َﺴﺴ
َق
(ت
ﺘﺴﻤ
ُﻤ
س
ُ اﻟ
ُ
اﻟ
مل
)(MLP
اﻟﻤ
ُ
ا
5.1
5.1
5.1
5.1
)((MLP
يعد املستقبل متعدد الطبقات أحد أشهر خوارزميات الشبكات العصبية ،وهي
النسخة التي يكون رشح الشبكات العصبية عليها يف البداية غالب ًا ،وقد تم رشحها يف
الفصل السابق ،انظر الشكل .7ويتم تسمية طريقة تشابك طبقاهتا بـ «الطبقات تامة
-56-
االتصال» ( ،)fully connected layersحيث يف الغالب يتصل كل عصبون يف طبقة
مع مجيع العصبونات يف الطبقات التي تسبقها.
-57-
-2طبقات التقليص ( :)layer poolingوفيها يتم تقليص حجم الصور ،وقد يكون
التقليص باملعدل ( )mean poolingأو بالقيمة األكرب (.)max pooling
-3الطبقات تامة االتصال ( :)fully connected layersوهي مثل التي تم رشحها يف
السابق ،يتم حتويل املصفوفات ثنائية األبعاد إىل متجه من بعد واحد .وقد يكون
هناك أكثر من طبقة تامة االتصال قبل طبقة املخرجات (.)output layer
يف أنواع الشبكات التي تم رشحها حتى اآلن ال يؤخذ الزمن أو العالقة بني
سالسل البيانات باالعتبار .ولكن هناك العديد من التطبيقات التي جيب أن تأخذ يف
احلسبان عالقة البيانات بني بعضها يف السياق الزمني ،كالتعرف عىل الكالم (Speech
ﺣﺘﻰ اﻵن اﻟﺘﻲ (ﺗﻢ ﺷﺮﺣﮭﺎ اﻟﺸﺒﻜﺎت .(Opticalﻓﻲ Character Recognition )
Optical
ﺣﺘﻰ اﻵن
ﺷﺮﺣﮭﺎاﻵن
ﺣﺘﻰCharacterاﻵن
اﻟﺘﻲ ﺗﻢ
ﺷﺮﺣﮭﺎ
ﺣﺘﻰ ﺷﺮﺣﮭﺎاملطبوعةاﻟﺘﻲ
اﻟﺸﺒﻜﺎتﺗﻢاﻟﺸﺒﻜﺎتﺗﻢ
اﻟﺘﻲ النصوص
اﻟﺸﺒﻜﺎت( .ﻓﻲ
Optical عىلﻓﻲ
.(Opticalﻓﻲ كالتعرف
Character
Character
.(Optical Recognitionاملكاين
أو
Recognition
Character ،)Recognition
Recognition
) ) )
اﻟﺬي
مستقلة اﻟﺴﯿﺎق
واملخرجاتﻧﺴﺘﺨﺪم أن
املدخالت ﯾﺼﻌﺐ اآلن ﻟﺬا ﺑﻌﻀﮭﺎ، ﻋﻦ ﻣﺴﺘﻘﻠﺔ واﻟﻤﺨﺮﺟﺎت اﻟﻤﺪﺧﻼت
اﻟﺴﯿﺎق اﻟﺬي ﻧﺴﺘﺨﺪم
اﻟﺴﯿﺎق اﻟﺬي
اﻟﺬي ﯾﺼﻌﺐ أن
ﻧﺴﺘﺨﺪم
اﻟﺴﯿﺎق ﯾﺼﻌﺐ أن
ﻧﺴﺘﺨﺪم حتىﻟﺬا
ﺑﻌﻀﮭﺎ،أنﻟﺬا
ﯾﺼﻌﺐ ﻋﻦرشحها
ﺑﻌﻀﮭﺎ، ﻣﺴﺘﻘﻠﺔتمﻋﻦ
ﻣﺴﺘﻘﻠﺔ
ﺑﻌﻀﮭﺎ ،ﻟﺬا
التي الشبكات
واﻟﻤﺨﺮﺟﺎت
واﻟﻤﺨﺮﺟﺎت
ﻣﺴﺘﻘﻠﺔ ﻋﻦ
.)Recognitionيف
اﻟﻤﺪﺧﻼت
واﻟﻤﺨﺮﺟﺎتاﻟﻤﺪﺧﻼت اﻟﻤﺪﺧﻼت
بعضها ،لذا يصعب أن نستخدم السياق الذي تأيت املدخالت فيها (كمكان احلرف يف
اﻟﺸﺒﻜﺎت اﻟﺠﻤﻠﺔ(. ﻓﻲ اﻟﻜﻠﻤﺔ أو اﻟﻜﻠﻤﺔ ﻓﻲ اﻟﺤﺮف )ﻛﻤﻜﺎن ﻓﯿﮭﺎ اﻟﻤﺪﺧﻼت عنﺗﺄﺗﻲ
اﻟﺸﺒﻜﺎت اﻟﺠﻤﻠﺔ(.
اﻟﺸﺒﻜﺎت اﻟﺠﻤﻠﺔ( .ﻓﻲ
اﻟﺠﻤﻠﺔ(.
اﻟﺸﺒﻜﺎت اﻟﻜﻠﻤﺔ اﻟﻜﻠﻤﺔﻓﻲأو
اﻟﻜﻠﻤﺔ ﻓﻲ اﻟﺤﺮفأوﻓﻲ
اﻟﻜﻠﻤﺔ أو
اﻟﻜﻠﻤﺔ )ﻛﻤﻜﺎن
اﻟﺤﺮف ﻓﻲ
اﻟﻜﻠﻤﺔ )ﻛﻤﻜﺎن ﻓﯿﮭﺎ
)ﻛﻤﻜﺎن
اﻟﺤﺮف ﻓﻲ اﻟﻤﺪﺧﻼت ﺗﺄﺗﻲﻓﯿﮭﺎ
اﻟﻤﺪﺧﻼت ﻓﯿﮭﺎ ﺗﺄﺗﻲ ﺗﺄﺗﻲ
اﻟﻤﺪﺧﻼت
طريق املشكلة عن
اﻟﻤﺪﺧﻼت التكراريةﻣﺎحتلﺗﻢ هذه
ﺗﻌﻠﻤﮫ ﻣﻦ طﺮﯾﻖ ﺗﺬﻛﺮ العصبية اجلملة).ھﺬهالشبكات
اﻟﻤﺸﻜﻠﺔ ﻋﻦ اﻟﻌﺼﺒﯿﺔالكلمة يف
اﻟﺘﻜﺮارﯾﺔ ﺗﺤﻞ الكلمة أو
اﻟﻤﺪﺧﻼت اﻟﻤﺪﺧﻼتﻣﻦ
اﻟﻤﺪﺧﻼت ﺗﻌﻠﻤﮫ
ﺗﻢ ﻣﻦ ﺗﺬﻛﺮ ﻣﺎ
ﺗﻌﻠﻤﮫ
ﻣﻦ طﺮﯾﻖ ﻣﺎ
ﺗﻌﻠﻤﮫﺗﻢ ﺗﺬﻛﺮ ﻋﻦ
طﺮﯾﻖﻣﺎ ﺗﻢاﻟﻤﺸﻜﻠﺔﺗﺬﻛﺮ اﻟﻤﺸﻜﻠﺔ ھﺬه
اﻟﻤﺸﻜﻠﺔ ﻋﻦ
طﺮﯾﻖ ﻋﻦ ﺗﺤﻞ
اﻟﺘﻜﺮارﯾﺔھﺬه
ﺗﺤﻞ اﻟﻌﺼﺒﯿﺔ
اﻟﺘﻜﺮارﯾﺔھﺬه
ﺗﺤﻞ اﻟﻌﺼﺒﯿﺔاﻟﻌﺼﺒﯿﺔ
اﻟﺘﻜﺮارﯾﺔ
واستخدامها
اﻟﺤﺎﻟﯿﺔ ،أﻧﻈﺮاملاضية ﻣﻊ احلالة
اﻟﻤﺪﺧﻼت اﻣﮭﺎتعلم
يمكن
واﺳﺘﺨﺪاﻟﻤﺎﺿﯿﺔوهبذا
اﻟﺤﺎﻟﺔالسابقة،
املدخالت تعلمه من
ﯾﻤﻜﻦ ﺗﻌﻠﻢ تم وﺑﮭﺬا تذكر ما
اﻟﺴﺎﺑﻘﺔ،
أﻧﻈﺮ ،أﻧﻈﺮ
أﻧﻈﺮ،اﻟﺤﺎﻟﯿﺔ
اﻟﻤﺪﺧﻼت
اﻟﺤﺎﻟﯿﺔ اﻟﻤﺪﺧﻼتﻣﻊ
اﻟﻤﺪﺧﻼت
اﻟﺤﺎﻟﯿﺔ، واﺳﺘﺨﺪﻣﻊاﻣﮭﺎ
ﻣﻊاﻣﮭﺎ اﻟﻤﺎﺿﯿﺔ
واﺳﺘﺨﺪ اﻟﺤﺎﻟﺔ
اﻟﻤﺎﺿﯿﺔ
واﺳﺘﺨﺪاﻣﮭﺎ ﯾﻤﻜﻦ ﺗﻌﻠﻢ
اﻟﺤﺎﻟﺔ
اﻟﻤﺎﺿﯿﺔ وﺑﮭﺬااﻟﺤﺎﻟﺔ
ﺗﻌﻠﻢ اﻟﺴﺎﺑﻘﺔ،ﺗﻌﻠﻢ
ﯾﻤﻜﻦ وﺑﮭﺬا
اﻟﺴﺎﺑﻘﺔ ،ﯾﻤﻜﻦ
اﻟﺴﺎﺑﻘﺔ ،وﺑﮭﺬا
حساب قيمة كل عصبون كالتايل: ويتمﻛﺎﻟﺘﺎﻟﻲ:
ﻋﺼﺒﻮن الشكل .9
أنظرﻗﯿﻤﺔ ﻛﻞ احلالية،
ﺣﺴﺎب املدخالتوﯾﺘﻢ
معاﻟﺸﻜﻞ .9
ﻛﺎﻟﺘﺎﻟﻲ:ﻛﺎﻟﺘﺎﻟﻲ:
ﻋﺼﺒﻮن ﻗﯿﻤﺔ ﻛﻞ
ﻋﺼﺒﻮن
ﻛﺎﻟﺘﺎﻟﻲ: ﺣﺴﺎبﻛﻞ
ﻋﺼﺒﻮن ﯾﺘﻢ
ﺣﺴﺎبﻛﻞﻗﯿﻤﺔ ﺣﺴﺎب .9و
ﻗﯿﻤﺔ اﻟﺸﻜﻞﯾﺘﻢ
اﻟﺸﻜﻞﯾﺘﻢ .9و
اﻟﺸﻜﻞ .9و
) !𝑏𝑏 ℎ! = ∅(𝑊𝑊!! 𝑥𝑥! + 𝑊𝑊!! ℎ!!! +
𝑊𝑊(∅ℎ! =ℎ! =ℎ !! !! !𝑥𝑥
𝑊𝑊(∅
= !
+ 𝑊𝑊𝑥𝑥
𝑊𝑊(∅ + 𝑊𝑊ℎ
𝑥𝑥 !!
!! ! !!!
!!!+ℎ+ 𝑊𝑊 𝑏𝑏!ℎ
!!!
!!
!!! )
+ ) !𝑏𝑏 𝑏𝑏! )+
ﺣﯿﺚ ! ℎﺗﺄﺧﺬ ﻗﯿﻤﺔ اﻟﻤﺪﺧﻼت ﻣﻀﺮوﺑﺔ ﺑﺎﻷوزان اﻟﺨﺎﺻﺔ ﺑﮭﺎ ،وﻗﯿﻤﺔ !!!ℎ
وﻗﯿﻤﺔℎ!!! ℎ
وقيمة
!!! ℎ ﺑﮭﺎ،
اﻟﺨﺎﺻﺔهبا،
وﻗﯿﻤﺔ
!!! اخلاصة
ﺑﮭﺎ،
وﻗﯿﻤﺔ ﺑﺎﻷوزان
باألوزان
اﻟﺨﺎﺻﺔ
ﺑﮭﺎ، ﻣﻀﺮوﺑﺔ
ﺑﺎﻷوزان
اﻟﺨﺎﺻﺔ مرضوبة اﻟﻤﺪﺧﻼت
ﻣﻀﺮوﺑﺔ
ﺑﺎﻷوزان املدخالت
اﻟﻤﺪﺧﻼت
ﻣﻀﺮوﺑﺔ اﻟﻤﺪﺧﻼتﻗﯿﻤﺔ
ﺗﺄﺧﺬ
قيمة
تأخذﻗﯿﻤﺔ
ﺗﺄﺧﺬℎﺣﯿﺚ
ﻗﯿﻤﺔ ! حيث
ﺣﯿﺚ !
ﺗﺄﺧﺬℎ ﺣﯿﺚ !ℎ
ﻣﻀﺮوﺑﺔ ﺑﺎﻷوزان اﻟﺨﺎﺻﺔ ﺑﮭﺎ ،و 𝑡𝑡 ﺗﺸﯿﺮ إﻟﻰ اﻟﺘﺮﺗﯿﺐ.
اﻟﺘﺮﺗﯿﺐ.
اﻟﺘﺮﺗﯿﺐ. الرتتيب.
اﻟﺘﺮﺗﯿﺐ .إﻟﻰ
ﺗﺸﯿﺮ إىل،
إﻟﻰ و
ﺗﺸﯿﺮ𝑡𝑡 إﻟﻰ اﻟﺨﺎﺻﺔوو𝑡𝑡ﺑﮭﺎ،
تشري𝑡𝑡ﺑﮭﺎ
اﻟﺨﺎﺻﺔو
ﺗﺸﯿﺮ هبا،
اخلاصةﺑﮭﺎ
ﺑﺎﻷوزان، باألوزان
ﻣﻀﺮوﺑﺔ
ﺑﺎﻷوزان
اﻟﺨﺎﺻﺔ ﻣﻀﺮوﺑﺔ
ﺑﺎﻷوزان مرضوبة
ﻣﻀﺮوﺑﺔ
ﻣﻦ اﻟﻤﺸﺎﻛﻞ اﻟﺘﻲ ﺗﻮاﺟﮭﮭﺎ ھﺬه اﻟﺸﺒﻜﺎت ھﻲ ﺗﻼﺷﻲ اﻟﻤﺸﺘﻘﺔ ) vanishing
vanishing
vanishingاﻟﻤﺸﺘﻘﺔ )
vanishing ﺗﻼﺷﻲ
اﻟﻤﺸﺘﻘﺔ ) اﻟﺸﺒﻜﺎت ھﻲ
ﺗﻼﺷﻲ
اﻟﻤﺸﺘﻘﺔ ) اﻟﺸﺒﻜﺎت ھﻲ
ﺗﻼﺷﻲ ھﻲاﻟﺸﺒﻜﺎتھﺬه
ﺗﻮاﺟﮭﮭﺎ
ﺗﻮاﺟﮭﮭﺎ ھﺬه ﺗﻮاﺟﮭﮭﺎاﻟﺘﻲ
ھﺬه اﻟﻤﺸﺎﻛﻞ
اﻟﻤﺸﺎﻛﻞ اﻟﺘﻲاﻟﻤﺸﺎﻛﻞ ﻣﻦ
اﻟﺘﻲ ﻣﻦ ﻣﻦ
(gradientواﻧﻔﺠﺎر اﻟﻤﺸﺘﻘﺔ ) (exploding gradientﻓﻲ اﻟﺴﻼﺳﻞ اﻟﻄﻮﯾﻠﺔ.
اﻟﻄﻮﯾﻠﺔ. اﻟﺴﻼﺳﻞ
اﻟﻄﻮﯾﻠﺔ. اﻟﺴﻼﺳﻞ ﻓﻲ
اﻟﺴﻼﺳﻞ
اﻟﻄﻮﯾﻠﺔ. (exploding
(explodingﻓﻲ gradient
(explodingﻓﻲ -58- ) gradient
gradient اﻟﻤﺸﺘﻘﺔ واﻧﻔﺠﺎر
اﻟﻤﺸﺘﻘﺔ ) (gradient
واﻧﻔﺠﺎر
اﻟﻤﺸﺘﻘﺔ ) (gradient
واﻧﻔﺠﺎر (gradient
وﻗﺪ ﺗﻢ اﻗﺘﺮاح ﻋﺪة ﺧﻮارزﻣﯿﺎت ﻟﺤﻠﮭﺎ أﺷﮭﺮھﺎ LSTMو ،GRUوﺳﯿﺘﻢ ﺷﺮﺣﮭﻤﺎ
ﺷﺮﺣﮭﻤﺎ وﺳﯿﺘﻢ
ﺷﺮﺣﮭﻤﺎ وﺳﯿﺘﻢ،GRU
وﺳﯿﺘﻢ
ﺷﺮﺣﮭﻤﺎ LSTMو
،GRU LSTMو
،GRU أﺷﮭﺮھﺎ
LSTMو أﺷﮭﺮھﺎﻟﺤﻠﮭﺎ
أﺷﮭﺮھﺎ ﺧﻮارزﻣﯿﺎت ﻋﺪة ﻟﺤﻠﮭﺎ
ﺧﻮارزﻣﯿﺎت ﻟﺤﻠﮭﺎ اﻗﺘﺮاح ﻋﺪةﺗﻢ
اﻗﺘﺮاح ﻋﺪة
ﺧﻮارزﻣﯿﺎت اﻗﺘﺮاحوﻗﺪ
وﻗﺪ ﺗﻢ وﻗﺪ ﺗﻢ
من املشاكل التي تواجهها هذه الشبكات هي تاليش املشتقة ()vanishing gradient
وانفجار املشتقة ( )exploding gradientيف السالسل الطويلة .وقد تم اقرتاح عدة
خوارزميات حللها أشهرها LSTMو ،GRUوسيتم رشحهام اآلن.
)Long Short-Term
،(1997 () (LSTMوMemory
،Schmidhuber املطولة
Hochreiter قصرية املدى
1997م ) ) 5.3.1الذاكرة
(Schmidhuberﻋﺎم
هلوترشيرت
بحثLSTM )LSTMيف
ذﻟﻚ .ﺗﺤﻞ اﻟﻤﺨﺘﻠﻔﺔ( ﻟﮭﺎ ﺑﻌﺪ
واﻷﻧﻮاع املطولة
قصرية املدى الذاكرة
اﻟﺘﺤﺴﯿﻨﺎت خوارزمية ﻣﻦ تم ﺗﻢنرش
اﻗﺘﺮاح اﻟﻌﺪﯾﺪ وﻗﺪ
اﻟﻤﺸﺘﻘﺎت و
Hochreiter اﻟﺘﻐﯿﺮ( ﻓﻲ
1997مﻣﻦ ﺣﺪة )Schmidhuberﺗﻘﻠﻞعام
ﺷﺒﻜﺎت( RNNﺑﺤﯿﺚ وشميدهوبر )Hochreiter
اﻟﺘﻲ ﺗﻮاﺟﮭﮭﺎ ( اﻟﻤﺸﺎﻛﻞ
ﻗﺼﯿﺮة هلا
اﻟﺬاﻛﺮة،املختلفة
التحسيناتﻣﻦواألنواع ،)1997 ،Schmidhuberوقد تم اقرتاح العديد من
ﻣﻘﺎرﻧﺔ ﺑـ ،RNNﻛﻤﺎ أﻧﮭﺎ ﻣﺼﻤﻤﺔ ﺑﺤﯿﺚ ﯾﻜﻮن ﻟﺪﯾﮭﺎ ﻧﻮﻋﯿﻦ
بعد ذلك .حتل LSTMاملشاكل التي تواجهها شبكات RNNبحيث تقلل من حدة التغري
اﻟﻤﺪى وطﻮﯾﻠﺔ اﻟﻤﺪى .اﻟﻔﺎرق اﻷﺳﺎﺳﻲ ﻓﻲ LSTMھﻲ آﻟﯿﺔ اﻟﺘﺬﻛﺮ واﻟﻨﺴﯿﺎن ،وﻗﺪ
يف املشتقات مقارنة بـ ،RNNكام أهنا مصممة بحيث يكون لدهيا نوعني من الذاكرة،
ﺗﻢ ﺗﺼﻤﯿﻢ اﻟﺸﺒﻜﺔ ﻋﻦ طﺮﯾﻖ اﺳﺘﺒﺪال اﻟﻄﺒﻘﺎت اﻟﺒﺴﯿﻄﺔ ﺑﺄﺧﺮى أﻛﺜﺮ ﺗﻌﻘﯿﺪاً ﺗﺘﻜﻮن
قصرية املدى وطويلة املدى .الفارق األسايس يف LSTMهي آلية التذكر والنسيان ،وقد
ﻣﻦ ﻋﺪة ﺑﻮاﺑﺎت ،ﯾﻄﻠﻖ ﻋﻠﻰ ھﺬا اﻟﻨﻮع ﻣﻦ اﻟﻄﺒﻘﺎت ﺧﻠﯿﺔ ) ،(cellاﻟﺸﻜﻞ 10
تم تصميم الشبكة عن طريق استبدال الطبقات البسيطة بأخرى أكثر تعقيد ًا تتكون من
شكل ﺑﻮاﺑﺔ
يوضحاﻟﺒﻮاﺑﺎت: أﻧﻮاع ﻣﻦ
الشكل 10 خلية (ﺛﻼﺛﺔ
،)cell LSTMﻋﻠﻰ
ﺗﺤﺘﻮي الطبقات
.LSTMالنوع من
ﺧﻠﯿﺔ عىل هذا
ﺷﻜﻞيطلق ﯾﻮﺿﺢ
بوابات، عدة
output
،)input إﺧﺮاج( )gate
وﺑﻮاﺑﺔ إدخال gateمن،(forget
البوابات :بوابة ثالثة)أنواع
ﺑﻮاﺑﺔعىلﻧﺴﯿﺎن
LSTM،(input
gateحتتوي
.LSTMإدﺧﺎل )
خلية
الذاكرة
واﻟﻤﺨﺮﺟﺎت/أومناﻟﺤﺎﻟﺔ
(cellويتم حساب كل .)output
)state إخراج (
)gate(c وبوابةاﻟﺬاﻛﺮة
forgetﻛﻞ) ،ﻣﻦ
ﺣﺴﺎب نسيان (
وﯾﺘﻢ
gate بوابة
.(gate
واملخرجات/أو احلالة ) (hidden state) (hكالتايل:
(hiddenﻛﺎﻟﺘﺎﻟﻲ: (cell
)state )) (c
)state(h
!𝑏𝑏 𝑓𝑓! = 𝜎𝜎 𝑊𝑊! 𝑥𝑥! + 𝑈𝑈! ℎ!!! +
) !𝑏𝑏 𝑖𝑖! = 𝜎𝜎(𝑊𝑊! 𝑥𝑥! + 𝑈𝑈! ℎ!!! +
) !𝑏𝑏 𝑜𝑜! = 𝜎𝜎(𝑊𝑊! 𝑥𝑥! + 𝑈𝑈! ℎ!!! +
) !𝑏𝑏 𝑐𝑐! = 𝑓𝑓! ⨀𝑐𝑐!!! + 𝑖𝑖! ⨀tanh(𝑊𝑊! 𝑥𝑥! + 𝑈𝑈! ℎ!!! +
) !𝑐𝑐(ℎ! = 𝑜𝑜! ⨀𝑡𝑡𝑡𝑡𝑡𝑡ℎ
-59-
ﺣﯿﺚ !𝑥𝑥 اﻟﻤﺪﺧﻼت 𝑓𝑓! ،و !𝑖𝑖 و
واإلخراج
اﻟﺘﻮاﻟﻲ 𝜎𝜎 ،داﻟﺔ اﻟﺘﻔﻌﯿﻞ ﺳ ﻋﻠﻰ واإلدخال
واﻹﺧﺮاج النسيان
واﻹدﺧﺎل بوابات
اﻟﻨﺴﯿﺎن متجهات
ﺑﻮاﺑﺎت املدخالت،و ! 𝑖𝑖fوو !𝑜𝑜iو o
ﻣﺘﺠﮭﺎت حيث x
اﻟﻤﺪﺧﻼت𝑓𝑓! ،
t t t
ﺣﯿﺚ !𝑥𝑥 t
السابق
ذﻛﺮھﺎ واﻟﻤﺪﺧﻼت واﻟﺬاﻛﺮ ﻣﻦالبوابات
اﻟﺴﺎﺑﻖ
اﻟﺒﻮاﺑﺎت ﻟﻜﻞمن Wوو𝑈𝑈Uوو𝑏𝑏bاألوزان
اﻷوزانلكل سيجمويد𝑊𝑊،
التفعيل ﺳﯿﺠﻤﻮﯾﺪ،
دالة اﻟﺘﻔﻌﯿﻞ
التوايل 𝜎𝜎 ،داﻟﺔ
عىلاﻟﺘﻮاﻟﻲ،
ﻋﻠﻰ
ﺗﺮﻣﺰ ﻟﻀﺮب ﻣﻜﻮﻧﺎت اﻟﻤﺼ اخلطوات ،وو
اﻟﺨﻄﻮات ⊙،ترمز الزمن أو
اﻟﺰﻣﻦ أو وحدةوﺣﺪة السابقة ،وt
اﻟﺴﺎﺑﻘﺔ ،و 𝑡𝑡 واحلالة
واﻟﺤﺎﻟﺔ والذاكرة
واﻟﺬاﻛﺮة واملدخالت
واﻟﻤﺪﺧﻼت ذكرهاذﻛﺮھﺎ
اﻟﺴﺎﺑﻖ
ﺷﻜﻞ :10ﺧﻠﯿﺔ اﻟﺬ لرضب مكونات املصفوفات (.)element-wise multiplication
و ⊙ ﺗﺮﻣﺰ ﻟﻀﺮب ﻣﻜﻮﻧﺎت اﻟﻤﺼﻔﻮﻓﺎت ).(element-wise multiplication
ﺷﻜﻞ :10ﺧﻠﯿﺔ اﻟﺬاﻛﺮة ﻗﺼﯿﺮة اﻟﻤﺪى اﻟﻤﻄﻮﻟﺔ )(LSTM
) !𝑏𝑏 +
ﺣﯿﺚ !𝑧𝑧 ﻣﺘﺠﮫ ﺑﻮاﺑﺔ اﻟﺘﺤﺪﯾﺚ ) ،(update gateو !𝑟𝑟 ﻣﺘﺠﮫ ﺑﻮاﺑﺔ إﻋﺎدة اﻟﺘﻌﯿﯿﻦ
-60- ).(reset gate
حيث ztمتجه بوابة التحديث ( ،)update gateو rtمتجه بوابة إعادة التعيني (reset
.)gate
-61-
يتم متثيلها بمتجه طوله غالب ًا بني 100و ،300ومكون من أرقام يتم تعلمها .إحدى
خصائص هذه اخلوارزميات هي املحافظة عىل املعنى الداليل للكلامت ،بحيث تكون
الكلامت املتقاربة يف املعنى قريبة من بعضها يف فضاء املتجهات.
هناك عدة خوارزميات لتضمني الكلامت ،أشهرها ،Mikolov( word2vec
،Corrado ،Chen ،Sutskeverو ،Socher ،Pennington( Glove ،)2013 ،Dean
و ،)2014 ،Manningو ،Joulin ،Grave ،Bojanowski( fasttextو ،Mikolov
.)2017هناك طريقتان لتعلم التضمني يف ،word2vecإما باستخدام continuous
) ،bag of words (CBOWأو .skip-gramاهلدف يف CBOWهو تعلم الكلامت
املناسبة من السياق ( ،)contextبينام يف skip-gramهو تعلم السياق من الكلامت.
الشكل 12يوضح ك ً
ال من الطريقتني.
-62-
٦٫3الرتمجة اآللية ()Machine Translation
الرتمجة من لغة إىل أخرى آلي ًا جمال خصب لألبحاث ،وقد خرجت العديد من األبحاث
واخلوارزميات التي تستخدم التعلم العميق لتعلم الرتمجات .موقع ترمجة قوقل بدأ
باستخدام التعلم العميق من عام 2016م.
يتم يف الرتمجة اآللية (والتعرف عىل الكالم والتلخيص اآليل كام سيأيت) إدخال سلسلة
من املدخالت وإخراج سلسلة من املخرجات ،يطلق عىل الشبكات التي تستخدم
هلذا النوع من التطبيقات )،Sutskever( Sequence-to-Sequence (Seq2Seq
،Vinyalsو ،)2014 ،Leوفيها يتم استخدام شبكتني من نوع RNNبحيث يتم ترميز
السلسة األوىل ( )encoderوفك الرتميز للشكل املستهدف ( .)decoderيف الرتمجة
اآللية تكون السلسلة األوىل اللغة املصدر والسلسلة الثانية اللغة املستهدفة .الشكل 13
يوضح شبكة Seq2Seqللرتمجة اآللية ،ويطلق عليها أيض ًا .encoder-decoder
-63-
الطيفية (- )spectogramوهو متثيل للرتدد عرب الزمن -ثم استخدام عدة طبقات من
الشبكات العصبية الرتشيحية ،متبوعة بطبقات من نوع ،RNNثم طبقة تامة االتصال.
الطبقة األخرية املستخدمة تدعى Connectionist Temporal Classification
) ،Gomez ،Fernández ،Graves( (CTCو )2006 ،Schmidhuberوفيها يتم
اختيار املخرجات األعىل احتامالً.
-64-
اﻟﻜﻼم .اﻟﻜﻼم. اﻟﺘﻌﺮف ﻋﻠﻰ
اﻟﺘﻌﺮف ﻋﻠﻰ
اﻟﺘﻌﺮف ﻋﻠﻰ اﻟﻜﻼم.
(Speech
(Speech Synthesis
Synthesis اﻟﻜﻼم )
اﻟﻜﻼم ) ﺗﻮﻟﯿﺪﺗﻮﻟﯿﺪ
6.6 6.6
6.6ﺗﻮﻟﯿﺪ اﻟﻜﻼم )(Speech Synthesis
اﻟﻨﺺ اﻟﻨﺺ
ﺗﺤﻮﯾﻞ ﺗﺤﻮﯾﻞ
اﻟﻜﻼم ھﻮ اﻟﻜﻼم ھﻮ اﻟﮭﺪفﺗﻮﻟﯿﺪ
ﻣﻦ ﺗﻮﻟﯿﺪ اﻟﮭﺪف ﻣﻦ
ﻧﺼﻮص، ﻧﺼﻮص، اﻟﻜﻼم إﻟﻰاﻟﻜﻼم إﻟﻰ
ﺗﺤﻮﯾﻞ ﺗﺤﻮﯾﻞ
ﻋﻜﺲ ﻋﻜﺲ
ﺗﺤﻮﯾﻞ اﻟﻨﺺ اﻟﻜﻼم ھﻮ
اﻟﻔﻮﻧﯿﻤﺎت اﻟﺴﺎﺑﻖﻣﻦﯾﺘﻢﺗﻮﻟﯿﺪ
ﻧﺼﻮص ،اﻟﮭﺪف اﻟﻜﻼم إﻟﻰ ﻋﻜﺲ ﺗﺤﻮﯾﻞ
اﻟﻔﻮﻧﯿﻤﺎت إﻟﺼﺎق إﻟﺼﺎق اﻟﺴﺎﺑﻖ ﯾﺘﻢ ﻣﻨﻄﻮق .ﻓﻲﻛﺎن ﻓﻲﻣﻨﻄﻮق .ﻛﺎنﺻﻮﺗﻲ ﺻﻮﺗﻲ ﻣﻘﻄﻊ ﻣﻘﻄﻊ اﻟﻤﻜﺘﻮب إﻟﻰ
اﻟﻤﻜﺘﻮب إﻟﻰ
إﻟﺼﺎق اﻟﻔﻮﻧﯿﻤﺎت )Speechﻓﻲ Synthesis الكالم ( اﻟﺼﻮﺗﯿﺔ(توليد
)اﻟﻮﺣﺪات ٦٫6
اﻟﻌﺪﯾﺪ ﻣﻦ اﺑﺘﻜﺎرﺗﻢﯾﺘﻢاﻟﻌﺪﯾﺪ
اﺑﺘﻜﺎر ﻣﻦ اﻟﺴﺎﺑﻖ
اﻷﺧﯿﺮةاﻷﺧﯿﺮة ﺗﻢﻣﻨﻄﻮق .ﻛﺎن
اﻟﺴﻨﻮاتاﻟﺴﻨﻮات
وﻟﻜﻦ ﻓﻲ
اﻟﻜﻼم،ﺻﻮﺗﻲ
اﻟﻜﻼم،ﻓﻲ
وﻟﻜﻦ إﻟﻰ ﻣﻘﻄﻊ
ﻹﻧﺸﺎء ﻹﻧﺸﺎء
اﻟﺼﻮﺗﯿﺔ(
اﻟﻤﻜﺘﻮب
)اﻟﻮﺣﺪات
ﻣﻦإىل
املكتوب
النص اﻟﻌﺪﯾﺪ
اﺑﺘﻜﺎرحتويل
ﺗﻢ اﻷﺧﯿﺮةالكالم هو
اﻟﺴﻨﻮاتتوليد
ﻓﻲمن
وﻟﻜﻦاهلدف نصوص،
اﻟﻜﻼم، ﻹﻧﺸﺎء اﻟﺼﻮﺗﯿﺔ(إىل
حتويل الكالم عكس
)اﻟﻮﺣﺪات
ﻟﻠﺼﻮت ﻟﻠﺼﻮت
ﻛﺒﯿﺮ ﻛﺒﯿﺮ
ﺑﺔ ﺑﺸﻜﻞ ﺑﺸﻜﻞ ﺑﺔﻣﻘﺎر
ﻧﺘﺎﺋﺞ ﻣﻘﺎر ﻧﺘﺎﺋﺞ
ﺗﻌﻄﻲ ﺗﻌﻄﻲ
اﻟﻌﻤﯿﻖ اﻟﻌﻤﯿﻖ
اﻟﺘﻌﻠﻢ اﻟﺘﻌﻠﻢ
ﺑﺎﺳﺘﺨﺪامﺑﺎﺳﺘﺨﺪام اﻟﺨﻮارزﻣﯿﺎت
اﻟﺨﻮارزﻣﯿﺎت
إلنشاء الصوتية)
ﻛﺒﯿﺮ ﻟﻠﺼﻮت
(الوحدات الفونيامت إلصاق يتم السابق يف كان منطوق. صويت مقطع
ﺑﺸﻜﻞ ھﻲ
اﻟﻌﻤﯿﻖ ﻣﻘﺎرﺑﺔ
ﻧﺘﺎﺋﺞاﻟﺘﻌﻠﻢ اﻟﻜﻼمﺗﻌﻄﻲ
ﺑﺎﺳﺘﺨﺪام ﻟﺘﻮﻟﯿﺪاﻟﻌﻤﯿﻖ
اﻟﻤﮭﻤﺔاﻟﺘﻌﻠﻢ
ﺑﺎﺳﺘﺨﺪام اﻟﺨﻮارزﻣﯿﺎت
اﻟﺨﻮارزﻣﯿﺎت اﻟﺒﺸﺮي .ﻣﻦ
ولكن يف السنوات األخرية تم ابتكار العديد من اخلوارزميات باستخدام التعلم
ھﻲ اﻟﻌﻤﯿﻖ اﻟﺘﻌﻠﻢ ﺑﺎﺳﺘﺨﺪام اﻟﻜﻼم ﻟﺘﻮﻟﯿﺪ اﻟﻤﮭﻤﺔ اﻟﺨﻮارزﻣﯿﺎت الكالم ،ﻣﻦ
اﻟﺒﺸﺮي.
ﺧﻮارزﻣﯿﺔاﻟﻌﻤﯿﻖ ھﻲ
ﺑﺎﺳﺘﺨﺪام اﻟﺘﻌﻠﻢ اﻟﻜﻼم(، ﻟﺘﻮﻟﯿﺪ اﻟﻤﮭﻤﺔ اﻟﺨﻮارزﻣﯿﺎت تعطيﻣﻦﻣﻦﺧﻮارزﻣﯿﺔ اﻟﺒﺸﺮي.
املهمة لتوليد
ﺧﻮارزﻣﯿﺔ وھﻲ ،وھﻲ
اخلوارزميات 2016
البرشي .من
(2016 وآﺧﺮون،
للصوت
وآﺧﺮون، بشكل)،كبري
،Oord Oord
مقاربة)ﻗﻮﻗﻞ
wavenetﻗﻮﻗﻞ
ﻣﻦ نتائج wavenetالعميق
ﺧﻮارزﻣﯿﺔ
ﺧﻮارزﻣﯿﺔ وھﻲ ، (2016 وآﺧﺮون،
اﻟﺘﺎﻟﯿﺔ:خوارزمية wavenetمن قوقل ( ،Oordوآخرون، ،Oord ) ﻗﻮﻗﻞ ﻣﻦ
العميق هي wavenet
التعلم ﺧﻮارزﻣﯿﺔ
باستخدام
اﻟﺘﺎﻟﯿﺔ:
اﻟﻤﺸﺮوطﺔ اﻟﻤﺸﺮوطﺔ
اﻟﺘﻮزﯾﻌﺔ الكالمﺗﺘﻌﻠﻢ
اﻟﺘﻮزﯾﻌﺔ ﺗﻮﻟﯿﺪﯾﺔ ﺗﺘﻌﻠﻢ
ﺗﻮﻟﯿﺪﯾﺔ
التوزيعة املرشوطة التالية: اﻟﺘﺎﻟﯿﺔ:
اﻟﻤﺸﺮوطﺔتتعلم وهي اﻟﺘﻮزﯾﻌﺔ
خوارزمية توليدية ،)2016ﺗﺘﻌﻠﻢ
ﺗﻮﻟﯿﺪﯾﺔ
𝑝𝑝 !𝑥𝑥 𝑝𝑝= 𝒙𝒙 =𝑝𝑝 𝒙𝒙 𝑝𝑝 𝜽𝜽 𝑥𝑥!!𝑥𝑥,!𝜽𝜽𝑥𝑥!! ,
= 𝒙𝒙 𝑝𝑝 𝜽𝜽 𝑝𝑝! 𝑥𝑥! 𝑥𝑥!!! ,
!
النموذج يتمهذااﻟﻨﻤﻮذجالنموذج.ﻓﻲيفھﺬا
اﻟﻨﻤﻮذج ھﺬا )(parameters
اﻟﻨﻤﻮذج .ﻓﻲ
اﻟﻨﻤﻮذج. مدخالت) (
(parameters
parameters ﻣﺪﺧﻼت املتغري 𝑡𝑡 ،،tوو𝜽𝜽
ﻣﺪﺧﻼت ) هو 𝑡𝑡 ،و
اﻟﻤﺘﻐﯿﺮ𝜽𝜽 بحيث𝑥𝑥xtھﻮ
اﻟﻤﺘﻐﯿﺮ ﺑﺤﯿﺚ !𝑥𝑥 ھﻮ
ﺑﺤﯿﺚ !
اﻟﻨﻤﻮذجهبذه
الصوت توليدھﺬا
اﻟﻨﻤﻮذج .ﻓﻲ
ﺗﻮﻟﯿﺪ
ﻣﺸﻜﻠﺔ ﺗﻮﻟﯿﺪ مشكلة
ﻣﺸﻜﻠﺔ !!(𝑥𝑥.
parameters
اﻟﻌﯿﻨﺎت !!𝑥𝑥. العينات
اﻟﻌﯿﻨﺎت يسبقها )ﻣﻦ
من
ﯾﺴﺒﻘﮭﺎ ﻣﻦ
ﻣﺪﺧﻼت
ﯾﺴﺒﻘﮭﺎ 𝜽𝜽
ﺑﻨﺎءﻣﺎماﻋﻠﻰ ﻣﺎ
عىلبناء ،و
ﻋﻠﻰ اﻟﻤﺘﻐﯿﺮ 𝑡𝑡
ﺑﻨﺎء!𝑥𝑥 ھﻮ 𝑥𝑥
الصوتية
اﻟﺼﻮﺗﯿﺔx
! t
اﻟﺼﻮﺗﯿﺔ
اﻟﻌﯿﻨﺔ
ﺑﺤﯿﺚ !
العينة𝑥𝑥 ﯾﺘﻢ ﺗﻮﻟﯿﺪﯾﺘﻢتوليد
اﻟﻌﯿﻨﺔ
ﺗﻮﻟﯿﺪ
جد ًا. ﻣﺸﻜﻠﺔ ٍ
عالﺗﻮﻟﯿﺪ !!𝑥𝑥.ﻓﻲ
الصوتية اﻟﻌﯿﻨﺎت
املقاطع
اﻟﻌﯿﻨﺎت ﻷن ﻣﻦ
العينات يف
ﻣﻌﺪل ﯾﺴﺒﻘﮭﺎ
معدلألن ﻣﺎ
ﻣﻦﻋﻠﻰاملعاجلةاﻟﺼﻮﺗﯿﺔمن!𝑥𝑥
اﻟﻜﺜﯿﺮﺑﻨﺎء الكثري اﻟﻌﯿﻨﺔ
يتطلب ﺗﻮﻟﯿﺪ ﯾﺘﻢ
الطريقة أنه
اﻟﻌﯿﻨﺎت ﻓﻲ ﻷن ﻣﻌﺪل اﻟﻤﻌﺎﻟﺠﺔاﻟﻤﻌﺎﻟﺠﺔ
اﻟﻜﺜﯿﺮ ﻣﻦ ﯾﺘﻄﻠﺐ ﯾﺘﻄﻠﺐ اﻟﻄﺮﯾﻘﺔ أﻧﮫأﻧﮫ اﻟﻄﺮﯾﻘﺔ
اﻟﺼﻮت ﺑﮭﺬه اﻟﺼﻮت ﺑﮭﺬه
ﻓﻲإىل وصلت ﻣﻌﺪلحتى
اﻟﻌﯿﻨﺎت ﻷنالحق ًاحتسينها ولكنﺟﺪاًتم
اﻟﻤﻌﺎﻟﺠﺔ البداية،
ﺑﻄﯿﺌﺔﻣﻦ
اﻟﻜﺜﯿﺮ أﻧﮫجد ًا يف
ﯾﺘﻄﻠﺐ بطيئة
اﻟﻄﺮﯾﻘﺔ wavenet كانتﻋﺎلﺑﮭﺬه
ﺟﺪاً. اﻟﻤﻘﺎطﻊ هلذااﻟﺼﻮت
اﻟﺒﺪاﯾﺔ،ﺗﻢوﻟﻜﻦ ﺗﻢ
وﻟﻜﻦ اﻟﺒﺪاﯾﺔ،
ﺑﻄﯿﺌﺔﻓﻲﺟﺪاً ﻓﻲ wavenet wavenet
ﻟﮭﺬا ﻛﺎﻧﺖ ﻛﺎﻧﺖ ﺟﺪاً.ﻟﮭﺬاﻋﺎل
اﻟﺼﻮﺗﯿﺔ ٍ اﻟﺼﻮﺗﯿﺔ ٍ اﻟﻤﻘﺎطﻊ
ﻣﻘﺒﻮل wavenet.ﺑﻄﯿﺌﺔ ﺟﺪاً ﻓﻲ اﻟﺒﺪاﯾﺔ ،وﻟﻜﻦ ﺗﻢ أداء ﻛﺎﻧﺖ ﻋﺎل ﺟﺪاً.
ﻣﺴﺘﻮى ﻟﮭﺬا مقبول.إﻟﻰ ٍ
اﻟﺼﻮﺗﯿﺔ أداءطﻊ مستوى
ﺎ اﻟﻤﻘ
ﺗﺤﺴﯿﻨﮭﺎ ﻻﺣﻘﺎ ً
وﺻﻠﺖوﺻﻠﺖ إﻟﻰ ﻣﺴﺘﻮى أداء ﻣﻘﺒﻮل. ﻻﺣﻘﺎ ً ﺣﺘﻰﺗﺤﺴﯿﻨﮭﺎﺣﺘﻰ
التطبيقاتإﻟﻰ ﻣﺴﺘﻮى أداء ﻣﻘﺒﻮل.
اﻟﺘﻄﺒﯿﻘﺎت
ﺣﺘﻰ وﺻﻠﺖ
اﻟﻤﺰﯾﺪ ﻣﻦ املزيدﺎ ًمن ٦٫7
ﺗﺤﺴﯿﻨﮭﺎ ﻻﺣﻘ
اﻟﺘﻄﺒﯿﻘﺎت اﻟﻤﺰﯾﺪ ﻣﻦ 6.7 6.7
اﻟﺘﻄﺒﯿﻘﺎتاللغات التي تم استخدام التعلم العميق فيها
اﻟﻌﻤﯿﻖ ﻓﯿﮭﺎ
تطبيقات معاجلة
اﺳﺘﺨﺪام اﻟﺘﻌﻠﻢ منﻣﻦ هناك املزيد
اﻟﻤﺰﯾﺪ 6.7
اﻟﻌﻤﯿﻖ ﻓﯿﮭﺎ اﺳﺘﺨﺪام اﻟﺘﻌﻠﻢ اﻟﻠﻐﺎتﺗﻢ اﻟﺘﻲ ﺗﻢ
اﻟﻠﻐﺎت اﻟﺘﻲ
ﻣﻌﺎﻟﺠﺔ ﻣﻌﺎﻟﺠﺔ
ﺗﻄﺒﯿﻘﺎتﺗﻄﺒﯿﻘﺎت ھﻨﺎك ﻣﻦ
اﻟﻤﺰﯾﺪ ﻣﻦ ھﻨﺎك اﻟﻤﺰﯾﺪ
فيام ييل أمثلة
ولكنﻓﯿﮭﺎ البسيطة،
اﻟﻌﻤﯿﻖ هذه املقدمة
اﻟﺒﺴﯿﻄﺔ،اﻟﺘﻌﻠﻢ
اﺳﺘﺨﺪام نحرصها يف
اﻟﺘﻲ ﺗﻢ اﻟﻠﻐﺎت يصعب أن
ﻣﻌﺎﻟﺠﺔ ﺗﻄﺒﯿﻘﺎتممتازة.
نتائج ﻣﻦ
اﻟﻤﺰﯾﺪ وأعطت
ھﻨﺎك
ﻓﯿﻤﺎ وﻟﻜﻦ اﻟﻤﻘﺪﻣﺔ ھﺬه ﻓﻲ ﻧﺤﺼﺮھﺎ
ﯾﺼﻌﺐ أن ﻧﺤﺼﺮھﺎ ﻓﻲ ھﺬه اﻟﻤﻘﺪﻣﺔ اﻟﺒﺴﯿﻄﺔ ،وﻟﻜﻦ ﻓﯿﻤﺎ أن ﯾﺼﻌﺐ
ﻣﻤﺘﺎزة. ﻣﻤﺘﺎزة.
ﻧﺘﺎﺋﺞ وأﻋﻄﺖ ﻧﺘﺎﺋﺞ
وأﻋﻄﺖ
ﯾﺼﻌﺐ أن ﻧﺤﺼﺮھﺎ ﻓﻲ ھﺬه اﻟﻤﻘﺪﻣﺔ اﻟﺒﺴﯿﻄﺔ ،وﻟﻜﻦ ﻓﯿﻤﺎ هنا: تذكر
ﻣﻤﺘﺎزة. مل
ﻧﺘﺎﺋﺞتطبيقات
وأﻋﻄﺖ عىل
ھﻨﺎ:
ﺗﺬﻛﺮ ھﻨﺎ: ﺗﺬﻛﺮ ﻟﻢ
ﺗﻄﺒﯿﻘﺎت ﻟﻢ ﺗﻄﺒﯿﻘﺎت ﻋﻠﻰ ﯾﻠﻲ أﻣﺜﻠﺔ
ﯾﻠﻲ أﻣﺜﻠﺔ·ﻋﻠﻰ
)Text Classification النصوص ( تصنيف
ﯾﻠﻲ أﻣﺜﻠﺔ ﻋﻠﻰ ﺗﻄﺒﯿﻘﺎت ﻟﻢ ﺗﺬﻛﺮ ھﻨﺎ:
)Text Summarization
72
·تلخيص النصوص (
72
)Question and72Answering ·اإلجابة عىل األسئلة (
·التعرف عىل األعالم ())Named Entity Recognition (NER
·الكشف عن النسخ املعدل ()Paraphrase Detection
·التصحيح اإلمالئي ()Spell Checking
·توليد النصوص ()Natural Language Generation
-65-
املراجع
Amodei, D., Ananthanarayanan, S., Anubhai, R., Bai, J., Battenberg,
E., Case, C., . . . Zhu, Z. (2016). Deep Speech 2: End-to-End
Speech Recognition in English and Mandarin. In Proceedings
of the 33rd International Conference on International
Conference on Machine Learning, (pp. 173-182).
Bojanowski, P., Grave, E., Joulin, A., & Mikolov, T. (2017). Enriching
Word Vectors with Subword Information. Transactions of the
Association for Computational Linguistics, 135-146.
Cho, K., Merrienboer, B. v., Bahdanau, D., & Bengio, Y. (2014). On
the Properties of Neural Machinetranslation: Encoder-decoder
Approaches. arXiv preprint.
Graves, A., Fernández, S., Gomez, F., & Schmidhuber, J.
(2006). Connectionist Temporal Classification: Labelling
Unsegmented Sequence Data with Recurrent Neural Networks.
In Proceedings of the 23rd International Conference on
Machine learning (ICML ‘06), (pp. 369-376).
Hebb, D. (1949). The Organization of Behavior. New York: Wiley.
Hinton, G. E., Osindero, S., & Teh, Y.-W. (2006). A Fast Learning
Algorithm for Deep Belief Nets. Neural Computation, 1527-
1554.
Hochreiter, S., & Schmidhuber, J. (1997). Long Short-Term Memory.
Neural Comput., 1735-1780.
Hopfield, J. J. (1982). Neural networks and physical systems with
emergent collective computational abilities. Proceedings of the
National Academy of Sciences, (pp. 554-2558).
-66-
Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet
Classification with Deep Convolutional Neural Networks. In
Proceedings of the 25th International Conference on Neural
Information Processing Systems, (pp. 1097-1105).
McCulloch, W., & Walter, P. (1943). A Logical Calculus of Ideas
Immanent in Nervous Activity. Bulletin of Mathematical
Biophysics, 115–133.
Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013).
Distributed Representations of Words and Phrases and Their
Compositionality. In Proceedings of the 26th International
Conference on Neural Information Processing Systems, (pp.
3111-3119).
Minsky, M., & Papert, S. (1969). Perceptrons: An Introduction to
Computational Geometry. MIT Press.
Oord, A. v., Dieleman, S., Zen, H., Simonyan, K., Vinyals, O., Graves,
A., . . . Kavukcuoglu, K. (2016). WaveNet: A Generative
Model for Raw Audio. SSW.
Pennington, J., Socher, R., & Manning, C. D. (2014). Glove: Global
Vectors for Word Representation. In EMNLP.
Rosenblatt, F. (1958). The Perceptron: A Probabilistic Model
For Information Storage And Organization In The Brain.
Psychological Review, 386–408.
Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning
Internal Representations by Error Propagation. In Parallel
Distributed Processing: Explorations in the Microstructure of
Cognition, 318-362.
Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to Sequence
Learning with Neural Networks. In Proceedings of the 27th
International Conference on Neural Information Processing
Systems, (pp. 3104-3112).
-67-
Widrow, B. (1960). An Adaptive Adaline Neuron Using Chemical
Memistors. Stanford Electronics Laboratories Technical
Report.
Winter, R., & Widrow, B. (1988). MADALINE RULE II: A training
algorithm for neural networks. IEEE International Conference
on Neural Networks, 401-408.
-68-
الفصل الثالث
الترجمة اآللية
-69-
-70-
ملخص الفصل
نشهد حالي ًا تطور ًا ملحوظ ًا يف أداء أنظمة الرتمجة اآللية بعد عقود من البحث
والتطوير ،مما ساهم يف زيادة االعتامد عليها من املستخدم العادي وكذلك املرتجم
املحرتف .لقد سامهت هذه األنظمة يف تسهيل الوصول للمعرفة بشتى اللغات وكذلك
التواصل مع األمم األخرى بأقل التكاليف .وتعد أمتتة الرتمجة من أصعب املشاكل يف
جمال الذكاء االصطناعي حيث تتطلب معارف لغوية عىل عدة مستويات ملحاكاة عمل
املرتجم املختص .يقدم هذا الفصل نظرة عامة عىل جمال الرتمجة اآللية وتارخيه وأهم
األبحاث املقدمة فيه خصوص ًا املتعلقة برتمجة اللغة العربية .كام يستعرض منهج الرتمجة
اآللية اإلحصائية ( )Statistical Machine Translationوالذي كان املهيمن عىل
مدى عدة عقود من الزمن إىل أن حتول املجتمع البحثي حديث ًا وحلقه كربيات الرشكات
إىل املنهج املعتمد عىل الشبكات العصبية ( .)Neural Machine Translationوهبذه
النقلة النوعية دخلت الرتمجة اآللية عرص ًا جديد ًا سيتم عرض أهم مالحمه .وبالرغم
من النجاحات إال أن هناك العديد من التحديات التي سنتطرق إىل أمهها يف هناية هذا
الفصل.
-71-
-1مقدمة
لقد سامهت الرتمجة وتساهم يف نقل الثقافات والعلوم بني الشعوب وتسهيل
التواصل فيام بينها .ويبذل املرتمجون جهد ًا ووقت ًا كبريين يف ذلك .حيث إن جمرد القدرة
عىل التحدث باللغة املرتجم إليها ال تكفي ،بل يتطلب اﻷمر معارف أخرى تدرس
يف اجلامعات واملعاهد املتخصصة .ويعد املرتجم املتمكن عملة نادرة خصوص ًا يف
جمال الرتمجة اﻷدبية التي تتطلب فه ًام أعىل للغة ،وكذلك الرتمجة الفورية ملا تفرضه من
رسعة .ولذا فإن عملية الرتمجة مكلفة عىل مجيع املستويات.
ومع بداية ظهور احلواسيب برزت مشكلة الرتمجة اﻵلية ()Machine Translation
ملحاكاة عمل املرتجم وهي إحدى أقدم وأصعب املشاكل يف جمال الذكاء االصطناعي
( .)Artificial Intelligenceوقد ُبذلت اجلهود للمسامهة يف حلها مدفوعة برغبة
أجهزة االستخبارات مضاعفة قدراهتا يف مجع املعلومات عن الدول اﻷجنبية .وبالرغم
من التاريخ الطويل إﻻ أن اﻷمتتة الكاملة للرتمجة بجودة عالية ال تبدو قريبة املنال نظر ًا
الرتباط الرتمجة بقضايا لغوية وثقافية تصعب عىل اإلنسان فكيف باﻵلة .جيدر بالذكر
أن هناك تطور ًا ملحوظ ًا يف جودة الرتمجة اﻵلية املعتمدة عىل منهجية التعلم العميق
( )Deep Learningمما ساهم يف زيادة االعتامد عىل أنظمة الرتمجة من املستخدم العادي
وكذلك املرتجم املحرتف.
يمكن لنا تعريف الرتمجة ببساطة بأهنا عملية نقل معنى النص من لغة إىل أخرى.
وهذه العملية تتطلب جمموعة من املهارات بدء ًا باملعرفة الكاملة للغة اﻷصل (Source
ٍ
ومعان )Languageعىل مجيع املستويات من رصف ( )Morphologyونحو ()Syntax
( )Semanticsوتأويل ( )Pragmaticsومعرفة بسياق النص املرتجم ()Context
وانتها ًء بمعرفة مماثلة للغة املرتجم إليها (.)Target Language
وهناك عدة مناهج للرتمجة تتدرج يف مستويات التعقيد من الرتمجة املبارشة )(Direct
إىل مستوى النقل ) (Transferمن خالل التحليل الرصيف والنحوي وانتها ًء بمستوى
جتريد املعنى عن طريق لغة عاملية مستقلة ) (Interlinguaثم صياغته إىل اللغة اﻷخرى
( .)Vauquois, 1968املخطط اهلرمي لفاكويس يوضح مناهج الرتمجة (الشكل .)1
-72-
نسعى يف هذا الفصل إىل إعطاء القارئ الغري متخصص نظرة عامة عن الرتمجة اﻵلية
بدء ًا من تارخيها ثم أهم املناهج املتبعة لبناء أنظمة الرتمجة وكيفية تقييم جودهتا .ثم
سنتحدث عن عرص جديد تعيشه الرتمجة اﻵلية مع دخول تقنيات التعلم العميق وما
واكبها من تطور يف جودة الرتمجة .أخري ًا سنتطرق إىل أبرز التحديات التي يواجهها
الباحثون يف هذا املجال .وسيكون الرتكيز اﻷكرب خالل الفصل عىل أنظمة الرتمجة من
اللغة العربية وإليها.
اﻟﺘﺮﺟﻤﺔ.
ﻟﻤﻨﺎھﺞ الرتمجة. فاكويسﮭﺮﻣﻲ
اهلرمي ملناهج ﻓﺎﻛﻮﯾﺲ اﻟ ﻣﺨﻄﻂ
خمطط اﻟﺸﻜﻞ :1
الشكل :1
2ﺷﻲء ﻣﻦ اﻟﺘﺎرﯾﺦ
-3حجر رشيد
عاد ًة ما ُيرمز بحجر رشيد ( )Rosetta Stoneللمنهج احلديث يف الرتمجة اآللية
املعتمد عىل نصوص مرتمجة سابقة (ُ .)data-driven approachأكتشف احلجر يف
مرص عام 1799م جنوب اجليزة ،منقوش عليه مرسوم ملكي باملرصية واليونانية
القديمة يعود لعام 196قبل امليالد يف عهد امللك بطليموس اخلامس (الشكل .)2كان
اكتشافه مفتاح ًا لفك شفرة اهلريوغليفية املرصية عىل معابد ومقابر الفراعنة.
-74-
الشكل :2حجر رشيد منقوش عليه مرسوم ملكي باملرصية القديمة يف األعىل والوسط وباليونانية
القديمة يف األسفل معروض يف املتحف الربيطاين (.)Wikipedia, © Hans Hillewaert
متكن الباحثون بعد 20عام ًا من فك شفرة اللغة املرصية القديمة عن طريق اللغة اليونانية
القديمة التي كانت معروفة من خالل املقارنة بني الثالث نسخ لنص املرسوم امللكي .وهنا
تكمن رمزية حجر رشيد للباحثني يف الرتمجة اآللية حيث أنه يمكن تعلم ترمجة اللغات من
خالل توفر نصوص مرتمجة متقابلة وكلام زادت النصوص سهل تعلم الرتمجة.
-75-
القائمة عىل القواعد ( )rule-basedيمكن استخراج قواعد احتاملية (probabilistic
ﻣﺸﮭﻮرة
ﻣﺸﮭﻮرة
ﻣﺸﮭﻮرة ﻋﻠﻤﯿﺔ
ﻋﻠﻤﯿﺔ ﻋﻠﻤﯿﺔورﻗﺔ ورﻗﺔآيﺑﻲإمﺑﻲإم إم
ورﻗﺔ ﺷﺮﻛﺔآيﺑﻲ
ﺷﺮﻛﺔآي ﺑﺎﺣﺜﻮنﻣﻦﻣﻦ
ﺷﺮﻛﺔ ﺑﺎﺣﺜﻮنﻣﻦ
ﺑﺎﺣﺜﻮن
ﻧﺸﺮﻧﺸﺮ
ﻧﺸﺮ 1993م
1993م 1993م ﻋﺎمﻋﺎم
ﻓﻔﻲﻓﻔﻲ
ﻋﺎم ﻓﻔﻲ ﺼﺎء.
ﺼﺎء. ﺼﺎء.
اﻹﺣاﻹﺣ
اﻹﺣ
)rulesمن النصوص من خالل اإلحصاء .ففي عام 1993م نرش باحثون من رشكة آي
ﻧﻈﺎم
ﻧﻈﺎمﻟﺒﻨﺎءﻧﻈﺎم
ﻧﻤﺎذجﻟﺒﻨﺎءﻧﻤﺎذج ﺧﻤﺴﺔ
ﺧﻤﺴﺔ ﺗﺼﻒ
ﺗﺼﻒ اﻹﺣﺼﺎﺋﯿﺔ"
اﻹﺣﺼﺎﺋﯿﺔ" اﻵﻟﯿﺔ
اﻵﻟﯿﺔ اﻟﺘﺮﺟﻤﺔ
اﻟﺘﺮﺟﻤﺔ "رﯾﺎﺿﯿﺎت
"رﯾﺎﺿﯿﺎت ﺑﻌﻨﻮان
ﺑﻌﻨﻮان
ﻟﺒﻨﺎء مخسة
ﻧﻤﺎذجتصف اإلحصائية» ﺧﻤﺴﺔ ﺗﺼﻒ اﻹﺣﺼﺎﺋﯿﺔ"
الرتمجة اآللية اﻵﻟﯿﺔ
«رياضيات اﻟﺘﺮﺟﻤﺔ
بعنوان "رﯾﺎﺿﯿﺎت
مشهورة ﺑﻌﻨﻮانعلمية
يب إم ورقة
Brown
Brown ﺑﻲإمﺑﻲإم) )إم ) ﻻﺣﻘﺎ ًﺑﻨﻤﺎذج
ﺑﻨﻤﺎذجآيﺑﻲ
ﺑﻨﻤﺎذجآي ﻻﺣﻘﺎ ً ﻋﺮﻓﺖ
ﻋﺮﻓﺖ اﻹﻧﺠﻠﯿﺰﯾﺔ
اﻟﻔﺮﻧﺴﯿﺔإﻟﻰاﻹﻧﺠﻠﯿﺰﯾﺔ
اﻟﻔﺮﻧﺴﯿﺔإﻟﻰ
اﻟﻔﺮﻧﺴﯿﺔ اﻟﻠﻐﺔ
ﺗﺮﺟﻤﺔﻣﻦﻣﻦ
اﻟﻠﻐﺔ ﺗﺮﺟﻤﺔﻣﻦ
ﺗﺮﺟﻤﺔ
Brown
بنامذج آي يب إم آي
الحق ًا ﻻﺣﻘﺎ ًعرفت ﻋﺮﻓﺖ
اإلنجليزية اﻹﻧﺠﻠﯿﺰﯾﺔ
اللغةإﻟﻰالفرنسية إىل اﻟﻠﻐﺔ
ترمجة من نظام نامذج لبناء
ﺑﺎﻟﻠﻐﺘﯿﻦ. اﻟﻤﺪوﻧﺔ ﻜﻨﺪي اﻋﺘﻤﺎداً
اﻋﺘﻤﺎداً
ﺑﺎﻟﻠﻐﺘﯿﻦ.
باللغتني.
ﺑﺎﻟﻠﻐﺘﯿﻦ. اﻟﻤﺪوﻧﺔ
املدونة
اﻟﻤﺪوﻧﺔ الكندي
ﻜﻨﺪي اﻟﺒﺮﻟﻤﺎناﻟ اﻟ
ﻜﻨﺪي اﻟﺒﺮﻟﻤﺎناﻟ
اﻟﺒﺮﻟﻤﺎن
الربملان وﻗﺎﺋﻊ
وقائعوﻗﺎﺋﻊ
وﻗﺎﺋﻊ ﻧﺼﻮص
نصوص
ﻧﺼﻮص ﻧﺼﻮص عىل ﻋﻠﻰ
ﻋﻠﻰ ﻋﻠﻰ
اﻋﺘﻤﺎداً
اعتامد ًا (et(et(al.,
)Brown al.,
etet al.,1993
1993
al., 1993
(1993
ﺻﯿﻔﯿﺔﻓﻲ
ﺻﯿﻔﯿﺔﻓﻲ
جامعة
ﻓﻲ ﺻﯿﻔﯿﺔيفورﺷﺔ
ورﺷﺔ
صيفية
ورﺷﺔ أﺛﻨﺎء
ورشة
أﺛﻨﺎء اﻟﻤﺼﺪر
أﺛﻨﺎء اﻟﻤﺼﺪر
أثناء
اﻟﻤﺼﺪر املصدرﻣﻔﺘﻮﺣﺔ
ﻣﻔﺘﻮﺣﺔ
مفتوحة
ﻣﻔﺘﻮﺣﺔ وﺟﻌﻠﮭﺎ
وﺟﻌﻠﮭﺎ
وﺟﻌﻠﮭﺎوجعلها ﺑﺒﺮﻣﺠﺘﮭﺎ
ﺑﺒﺮﻣﺠﺘﮭﺎﺑﺎﺣﺜﻮن
بربجمتها
ﺑﺒﺮﻣﺠﺘﮭﺎ ﺳﻨﻮاتﻗﺎمﻗﺎم
ﺑﺎﺣﺜﻮن
باحثون
ﺑﺎﺣﺜﻮن ﺳﻨﻮاتﻗﺎم
قام ﺳﻨﻮات
سنواتوﺑﻌﺪ
وﺑﻌﺪوﺑﻌﺪ
وبعد
(.(.
Al-Onaizan
Al-Onaizan
.(Al-Onaizan etetal.,1999
etal.,1999
.)Al-Onaizan al.,1999
et ()al.,1999
ھﻮﺑﻜﻨﺰ)
ھﻮﺑﻜﻨﺰ )ھﻮﺑﻜﻨﺰ
ﺟﻮﻧﺰ هوبكنز
ﺟﻮﻧﺰ
ﺟﻮﻧﺰ جونز
ﺟﺎﻣﻌﺔ
ﺟﺎﻣﻌﺔ
ﺟﺎﻣﻌﺔ
مجلة
إﻟﻰ معطاة
ﻣﻌﻄﺎةإىلf
ﻣﻌﻄﺎةf f
إﻟﻰإﻟﻰ ﻣﻌﻄﺎة f فرنسية
ﻓﺮﻧﺴﯿﺔ
ﻓﺮﻧﺴﯿﺔ
ﻓﺮﻧﺴﯿﺔ جلملة
ﻟﺠﻤﻠﺔ
ﻟﺠﻤﻠﺔ
ﻟﺠﻤﻠﺔ ترمجة
ﺗﺮﺟﻤﺔ
ﺗﺮﺟﻤﺔ
ﺗﺮﺟﻤﺔ أفضل
أﻓﻀﻞ
أﻓﻀﻞ أنأن
أﻓﻀﻞ أن ()Brown
أن( Brown
(Brown
Brown al.,
etetal.,
etal., 1993
(1993
al.,
19931993 يقرتح )
ﯾﻘﺘﺮح)
ﯾﻘﺘﺮح )ﯾﻘﺘﺮح
ﻛﺎﻟﺘﺎﻟﻲ:
ﻛﺎﻟﺘﺎﻟﻲ:
ﻛﺎﻟﺘﺎﻟﻲ: كالتايل:
وطوط اﻟﻤﺸﺮ
وط املرشوط
اﻟﻤﺸﺮ
اﻟﻤﺸﺮ اﻻﺣﺘﻤﺎلاالحتامل
اﻻﺣﺘﻤﺎل
اﻻﺣﺘﻤﺎل ﻗﯿﻤﺔ
ﻗﯿﻤﺔ ﻗﯿﻤﺔ قيمةﻣﻦ
ﺗﺰﯾﺪﻣﻦﻣﻦ
ﺗﺰﯾﺪ من
اﻟﺘﻲ
ﺗﺰﯾﺪ
اﻟﺘﻲ تزيد
ھﻲ التي
إﻧﺠﻠﯿﺰﯾﺔe e
ھﻲeھﻲ
اﻟﺘﻲ إنجليزية
ﺟﻤﻠﺔ eهي
إﻧﺠﻠﯿﺰﯾﺔ
إﻧﺠﻠﯿﺰﯾﺔ ﺟﻤﻠﺔ
ﺟﻤﻠﺔ
==argmax
ebest
ebest
ebestbest =argmax
argmaxee e𝑝𝑝e𝑝𝑝e
𝑝𝑝 e f ef f
ﺑﻨﺎءبناء
ﺑﻨﺎء الصعب
ﺑﻨﺎءاﻟﺼﻌﺐ
اﻟﺼﻌﺐاﻟﺼﻌﺐﻣﻦﻣﻦمن
ﻣﻦ ﻓﺈﻧﮫفإنه
ﻓﺈﻧﮫ اإلنجليزية،
ﻓﺈﻧﮫاﻹﻧﺠﻠﯿﺰﯾﺔ،
اﻹﻧﺠﻠﯿﺰﯾﺔ،
اﻹﻧﺠﻠﯿﺰﯾﺔ، اجلمل
اﻟﺠﻤﻞ ﻣﻦﻣﻦمن
اﻟﺠﻤﻞ
اﻟﺠﻤﻞ ﻣﻦ حمدود ًا
ﻣﺤﺪوداً
ﻣﺤﺪوداً ﻋﺪدًااًﻻالﻻ
ﻣﺤﺪوداً عدد
ﻻﻋﺪداً هناك
ﻋﺪداًھﻨﺎك
ھﻨﺎك وﺣﯿﺚإنإنإن
ھﻨﺎك وحيث
وﺣﯿﺚ
إن وﺣﯿﺚ
قانون
ﻗﺎﻧﻮن
ﻗﺎﻧﻮن
باستخدام
ﻗﺎﻧﻮن ﺑﺎﺳﺘﺨﺪام أسهل
أﺳﮭﻞ
ﺑﺎﺳﺘﺨﺪام
ﺑﺎﺳﺘﺨﺪام أﺳﮭﻞأﺳﮭﻞ أجزاء
أﺟﺰاء
أﺟﺰاء
اﻟﻤﺸﻜﻠﺔإىل
أﺟﺰاء املشكلة
إﻟﻰإﻟﻰإﻟﻰ
اﻟﻤﺸﻜﻠﺔتقسيم
ﺗﻘﺴﯿﻢ
اﻟﻤﺸﻜﻠﺔ ﺗﻘﺴﯿﻢ
ﺗﻘﺴﯿﻢ
ﻟﺬﻟﻚﯾﺘﻢيتم
ﻟﺬﻟﻚﯾﺘﻢﯾﺘﻢ
لذلك
ﻟﺬﻟﻚ
ﺑﯿﻨﮭﺎ.
بينها.
ﺑﯿﻨﮭﺎ.
ﺑﯿﻨﮭﺎ. يميز
ﯾﻤﯿﺰ
ﯾﻤﯿﺰﯾﻤﯿﺰ واحد
واﺣﺪ
واﺣﺪ واﺣﺪ نموذج
ﻧﻤﻮذج
ﻧﻤﻮذج
ﻧﻤﻮذج
كالتايل:
ﻛﺎﻟﺘﺎﻟﻲ: ﻟﺘﺼﺒﺢ
ﻛﺎﻟﺘﺎﻟﻲ: لتصبح )Bayes
(Bayes
ﻟﺘﺼﺒﺢ (Bayesrulerule
rule بيزﺑﯿﺰ(
ﺑﯿﺰ) )
ﻛﺎﻟﺘﺎﻟﻲ: ﻟﺘﺼﺒﺢ (Bayes rule ﺑﯿﺰ )
الصحيح
اﻟﺼﺤﯿﺢ اﻟﺼﺤﯿﺢ
اﻟﺼﺤﯿﺢ اﻟﻤﻌﻨﻰ
املعنى
اﻟﻤﻌﻨﻰ
اﻟﻤﻌﻨﻰ ﺗﺤﻤﻞ
حتمل
ﺗﺤﻤﻞﺗﺤﻤﻞ اﻟﺠﻤﻠﺔ
اجلملة اﺣﺘﻤﺎﻟﯿﺔأنأن
اﻟﺠﻤﻠﺔ
اﻟﺠﻤﻠﺔ أن اﺣﺘﻤﺎﻟﯿﺔأن
احتاملية
اﺣﺘﻤﺎﻟﯿﺔﯾﻌﻄﻲ
يعطي
ﯾﻌﻄﻲ اﻟﻨﻤﻮذج
النموذج
اﻟﻨﻤﻮذج𝑝𝑝 𝑝𝑝f𝑝𝑝ef fe e
ﯾﻌﻄﻲ ﺣﯿﺚإنإنإن
اﻟﻨﻤﻮذج ﺣﯿﺚ
حيث
إن ﺣﯿﺚ
ﻟﻐﻮﯾ ًاﺎ ً
لغوي
ﻟﻐﻮﯾﺎ ً سليمة
ﻟﻐﻮﯾﺎ ً
ﺳﻠﯿﻤﺔ اجلملة
ﺳﻠﯿﻤﺔ
ﺳﻠﯿﻤﺔ اﻟﺠﻤﻠﺔ
اﻟﺠﻤﻠﺔاﻟﺠﻤﻠﺔأن
أنأن احتاملية
اﺣﺘﻤﺎﻟﯿﺔأن
اﺣﺘﻤﺎﻟﯿﺔ
اﺣﺘﻤﺎﻟﯿﺔ ﯾﻌﻄﻲيعطي
ﯾﻌﻄﻲ
ﯾﻌﻄﻲ والنموذج
واﻟﻨﻤﻮذج e
واﻟﻨﻤﻮذج𝑝𝑝 𝑝𝑝e𝑝𝑝e
واﻟﻨﻤﻮذج )translation
(translation
(translation
(translation model
model () ) )
model
model
األخطاء
اﻷﺧﻄﺎء
اﻷﺧﻄﺎء
اﻷﺧﻄﺎء وﺧﺎﻟﯿﺔﻣﻦمن
ﻣﻦ وخالية
ﻣﻦ وﺧﺎﻟﯿﺔ
وﺧﺎﻟﯿﺔ صحيحة
ﺻﺤﯿﺤﺔ
ﺻﺤﯿﺤﺔ ﺻﺤﯿﺤﺔ ترمجة
ﺗﺮﺟﻤﺔ
ﺗﺮﺟﻤﺔ عنﻋﻦ
ﺗﺮﺟﻤﺔ ﻋﻦﻋﻦالبحث
منﻻًﻣﻦﻣﻦ
اﻟﺒﺤﺚ
اﻟﺒﺤﺚ
اﻟﺒﺤﺚ ﻓﺒﺪﻣﻦ ﻓﺒﺪ(.الًﻻ
ﻓﺒﺪًﻻً فبد
(.(.). language
language
language
language model
model
model () ) )
model
لضعف
اﻟﺒﻘﯿﺔ البقية
وﻧﺘﺠﺎھﻞ ونتجاهلﻟﻐﻮﯾﺎ ً
ﻟﻐﻮﯾﺎ ًلغوي ً
اﻟﺴﻠﯿﻤﺔاالسليمة
ﻟﺠﻤﻞ اجلمل ا
ﻋﻠﻰا عىل الرتكيز
اﻟﺘﺮﻛﯿﺰ يتمﯾﺘﻢ واحد، وقت اﻟﻠﻐﻮﯾﺔيف
اللغوية
اﻟﺒﻘﯿﺔ
اﻟﺒﻘﯿﺔ وﻧﺘﺠﺎھﻞ
وﻧﺘﺠﺎھﻞ ﻟﻐﻮﯾﺎ ً اﻟﺴﻠﯿﻤﺔ
اﻟﺴﻠﯿﻤﺔ ﻟﺠﻤﻞﻟﺠﻤﻞ
ﻋﻠﻰ ا ﻋﻠﻰ
اﻟﺘﺮﻛﯿﺰ واﺣﺪ،ﯾﺘﻢﯾﺘﻢ
اﻟﺘﺮﻛﯿﺰ واﺣﺪ،
واﺣﺪ، وﻗﺖ
وﻗﺖ ﻓﻲﻓﻲﻓﻲ
وﻗﺖ اﻟﻠﻐﻮﯾﺔ
اﻟﻠﻐﻮﯾﺔ
noisy -channel
وﺗﺴﻤﻰ اﻻﺗﺼﺎﻻت وتسمى (
ﻣﺠﺎل االتصاالت اﻟﻄﺮﯾﻘﺔجمال
مشهورة يف الطريقة وهذه وقوعها. احتامل
وﺗﺴﻤﻰ وﺗﺴﻤﻰ اﻻﺗﺼﺎﻻت
اﻻﺗﺼﺎﻻت ﻣﺠﺎلﻣﺠﺎل ﻣﺸﮭﻮرةﻓﻲﻓﻲ
ﻣﺸﮭﻮرةﻓﻲ
ﻣﺸﮭﻮرة اﻟﻄﺮﯾﻘﺔ
اﻟﻄﺮﯾﻘﺔ وھﺬه
وھﺬه وھﺬه وﻗﻮﻋﮭﺎ.
وﻗﻮﻋﮭﺎ.
وﻗﻮﻋﮭﺎ. اﺣﺘﻤﺎل ﻟﻀﻌﻒ
اﺣﺘﻤﺎل
اﺣﺘﻤﺎل ﻟﻀﻌﻒﻟﻀﻌﻒ
صديقه ،بعضها يصل مشوه ًا، ﺷﺨﺼﺎ ً )modelالتي تفرتض أن شخص ًا يتلقى رسائل من
ﺻﺪﯾﻘﮫ،
ﺻﺪﯾﻘﮫ، رﺳﺎﺋﻞﻣﻦﻣﻦ
ﺻﺪﯾﻘﮫ، رﺳﺎﺋﻞﻣﻦ
رﺳﺎﺋﻞﯾﺘﻠﻘﻰ
ﯾﺘﻠﻘﻰ
ﯾﺘﻠﻘﻰ ﺷﺨﺼﺎ ً ﺷﺨﺼﺎ ًﺗﻔﺘﺮضأنأن
ﺗﻔﺘﺮضأن
ﺗﻔﺘﺮض اﻟﺘﻲ
اﻟﺘﻲ اﻟﺘﻲ(noisy-channel
(noisy-channel
(noisy-channel model
)) )
model
model
والستعادة الرسائل األصلية يتم البحث عن أكثر الرسائل املحتملة من صديقه ،والتي
يمكن أن تُشوه هبذه الطريقة من خالل اخلربة السابقة.
8383
83
83
-76-
ﺑﻌﻀﮭﺎ ﯾﺼﻞ ﻣﺸﻮھﺎً ،وﻻﺳﺘﻌﺎدة اﻟﺮﺳﺎﺋﻞ اﻷﺻﻠﯿﺔ ﯾﺘﻢ اﻟﺒﺤﺚ ﻋﻦ أﻛﺜﺮ اﻟﺮﺳﺎﺋﻞ
اﻟﺴﺎﺑﻘﺔ.
اﻟﺮﺳﺎﺋﻞ اﻟﺨﺒﺮةأﻛﺜﺮ
ﺧﻼل ﻋﻦ
اﻟﻄﺮﯾﻘﺔﯾﺘﻢﻣﻦاﻟﺒﺤﺚ
ﺑﮭﺬهاﻷﺻﻠﯿﺔ أن ﺗُﺸﻮه
اﻟﺮﺳﺎﺋﻞ واﻟﺘﻲ ﯾﻤﻜﻦ
وﻻﺳﺘﻌﺎدة ﺻﺪﯾﻘﮫ،
ﻣﺸﻮھﺎً، ﺑﻌﻀﮭﺎﻣﻦﯾﺼﻞ
اﻟﻤﺤﺘﻤﻠﺔ
اﻟﺴﺎﺑﻘﺔ.
اﻟﺨﺒﺮةﺗﺠﺰﺋﺘﮭﺎ اﺣﺘﻤﺎﻟﯿﺔﻣﻦ ﺧﻼل
وﻗﻮﻋﮭﺎ ﺑﻌﺪ ﺣﺴﺎباﻟﻄﺮﯾﻘﺔ
ﺸﻮه ﺑﮭﺬهﯾﻤﻜﻦﻣﻦأن ﺗُ
ﺧﻼل واﻟﺘﻲﻟﻐﻮﯾﺎ ً ﺻﺪﯾﻘﮫ،
اﻟﺠﻤﻠﺔ ﺗﻘﺪﯾﺮﻣﻦﺳﻼﻣﺔ
اﻟﻤﺤﺘﻤﻠﺔ
وﯾﻤﻜﻦ
ﻗﺎﻋﺪةﺑﻌﺪاﻟﺴﻠﺴﻠﺔ
ﺗﺠﺰﺋﺘﮭﺎ ﺑﺎﺳﺘﺨﺪام
وﻗﻮﻋﮭﺎ ﺣﺴﺎبﺳﺒﻘﮭﺎ
اﺣﺘﻤﺎﻟﯿﺔ ﻣﺸﺮوطﺔ ﺑﻤﺎ
ﻛﻠﻤﺔﻣﻦ ﺧﻼل اﻟﺠﻤﻠﺔﻛﻞ
ﻟﻐﻮﯾﺎ ً ﺳﻼﻣﺔاﺣﺘﻤﺎﻟﯿﺔ
وﺣﺴﺎب
ﻛﻠﻤﺎت،ﺗﻘﺪﯾﺮ
إﻟﻰوﯾﻤﻜﻦ
ويمكن تقدير سالمة اجلملة لغوي ًا من خالل حساب احتاملية وقوعها بعد جتزئتها
ﻛﺎﻟﺘﺎﻟﻲ:اﺣﺘﻤﺎﻟﯿﺔ ﻛﻞ ﻛﻠﻤﺔ ﻣﺸﺮوطﺔ ﺑﻤﺎ ﺳﺒﻘﮭﺎ ﺑﺎﺳﺘﺨﺪام ﻗﺎﻋﺪة اﻟﺴﻠﺴﻠﺔ
(chainوﺣﺴﺎب ruleﻛﻠﻤﺎت،
) إﻟﻰ
إىل كلامت ،وحساب احتاملية كل كلمة مرشوطة بام سبقها باستخدام قاعدة السلسلة
ﻛﺎﻟﺘﺎﻟﻲ:
⋯ !!𝑒𝑒 !!𝑒𝑒 𝑝𝑝 !!𝑒𝑒 𝑝𝑝 = !!𝑒𝑒 𝑝𝑝 e = 𝑝𝑝 𝑒𝑒!!. 𝑒𝑒!!. ⋯ . 𝑒𝑒(𝑝𝑝 𝑒𝑒|(!!
chain
كالتايل: .rule
)chain
⋯ !!. ( ))
!!!𝑒𝑒
rule
!!!
اﺣﺘﻤﺎلترمجة
حساب احتاملبسهولةﺣﺴﺎب
املتقابلةﯾﺘﻢيتمﺑﺴﮭﻮﻟﺔ اجلمل
اﻟﻤﺘﻘﺎﺑﻠﺔ ﺟﻤﯿﻊمجيع
اﻟﺠﻤﻞ العبارات من اﺳﺘﺨﺮاجاستخراج
اﻟﻌﺒﺎرات ﻣﻦ ﺑﻌﺪ بعد
ضخمﻓﻲ
وﺗﻮﺿﻊ (relativeجدول
)frequencyوتوضع يف النسبي (اﻟﻨﺴﺒﻲ )
relative frequency التكراراﻟﺘﻜﺮار
خاللﺧﻼل عبارة من
ﻋﺒﺎرة ﻣﻦ كلﻛﻞ
ﺗﺮﺟﻤﺔ
( .)translation tableعادة يتم اعتبار ترمجات حمدودة لكل عبارة (عرشين مثالً)
ﺟﺪول ﺿﺨﻢ ) .(translation tableﻋﺎدة ﯾﺘﻢ اﻋﺘﺒﺎر ﺗﺮﺟﻤﺎت ﻣﺤﺪودة ﻟﻜﻞ ﻋﺒﺎرة
أثناء البحث ( )decodingعن الرتمجة الصحيحة (الشكل .)4الحظ أن إعادة ترتيب
)اﻟﺸﻜﻞ .(4 )ﻋﺸﺮﯾﻦ ﻣﺜ ً
اﻟﺼﺤﯿﺤﺔ سابق ًا.
اﻟﺘﺮﺟﻤﺔكام تم ذكره مهامﻋﻦ
نموذج اللغة (decoding اﻟﺒﺤﺚ )
سليمة لغوي ًا من أﺛﻨﺎءمجلة
العباراتﻼ(لتكون
ﻻﺣﻆ أن إﻋﺎدة ﺗﺮﺗﯿﺐ اﻟﻌﺒﺎرات ﻟﺘﻜﻮن ﺟﻤﻠﺔ ﺳﻠﯿﻤﺔ ﻟﻐﻮﯾﺎ ً ﻣﻦ ﻣﮭﺎم ﻧﻤﻮذج اﻟﻠﻐﺔ
ﻛﻤﺎ ﺗﻢ ذﻛﺮه ﺳﺎﺑﻘﺎ ً.
-78-
86
الشكل :4توضيح خليارات البحث أثناء ترمجة مجلة عربية إىل اإلنجليزية.
اﻟﺸﻜﻞ :4ﺗﻮﺿﯿﺢ ﻟﺨﯿﺎرات اﻟﺒﺤﺚ أﺛﻨﺎء ﺗﺮﺟﻤﺔ ﺟﻤﻠﺔ ﻋﺮﺑﯿﺔ إﻟﻰ اﻹﻧﺠﻠﯿﺰﯾﺔ.
ومن
سهلة.وﻣﻦ
ليستﺳﮭﻠﺔ. مجلةﻣﺎماﻟﯿﺴﺖ
ﺟﻤﻠﺔلرتمجة والكلامت
ﻟﺘﺮﺟﻤﺔ العبارات
واﻟﻜﻠﻤﺎت أﻓﻀﻞأفضل
اﻟﻌﺒﺎرات البحث عن ﻣﮭﻤﺔ مهمة
اﻟﺒﺤﺚ ﻋﻦ إن إن
أشهر خوارزميات البحث الفعالة ما يعرف بالبحث الشعاعي ( )beam searchالذي
أﺷﮭﺮ ﺧﻮارزﻣﯿﺎت اﻟﺒﺤﺚ اﻟﻔﻌﺎﻟﺔ ﻣﺎ ﯾﻌﺮف ﺑﺎﻟﺒﺤﺚ اﻟﺸﻌﺎﻋﻲ )(beam search
يستكشف أفضل اخليارات ،لكنه ال يضمن احلل األفضل .ويبدأ ببناء ترمجات جزئية
اﻟﺬي ﯾﺴﺘﻜﺸﻒ أﻓﻀﻞ اﻟﺨﯿﺎرات ،ﻟﻜﻨﮫ ﻻ ﯾﻀﻤﻦ اﻟﺤﻞ اﻷﻓﻀﻞ .وﯾﺒﺪأ ﺑﺒﻨﺎء
تعرف بفرضيات ( )hypothesesثم يوسع كل فرضية بشكل حمدود حتى يصل إىل
نموذجي احتاملية اعتامد ًا
ﻓﺮﺿﯿﺔ ﺑﺸﻜﻞ ﯾﻮﺳﻊ ﻛﻞ حتققﺛﻢأعىل
(hypotheses ﺑﻔﺮﺿﯿﺎت )
فرضية هي التي ﺗﻌﺮف )5وأفضل ﺟﺰﺋﯿﺔ
(الشكل ﺗﺮﺟﻤﺎتاجلملة
هناية
ﯾﺼﻞ إﻟﻰ ﻧﮭﺎﯾﺔ اﻟﺠﻤﻠﺔ )اﻟﺸﻜﻞ (5وأﻓﻀﻞ ﻓﺮﺿﯿﺔ ھﻲ اﻟﺘﻲ ﺗﺤﻘﻖ والرتمجة.
اللغة ﺣﺘﻰ
ﻣﺤﺪود
أﻋﻠﻰ اﺣﺘﻤﺎﻟﯿﺔ اﻋﺘﻤﺎداً ﻧﻤﻮذﺟﻲ اﻟﻠﻐﺔ واﻟﺘﺮﺟﻤﺔ.
-79-
87
ﻋﺮﺑﯿﺔ..
عربية. ﻟﺠﻤﻠﺔ
جلملة ﺗﺮﺟﻤﺔ
ترمجة أﻓﻀﻞ ﻋﻦ ((beam searchشعاعي)((
ﺷﻌﺎﻋﻲ) ﺑﺤﺚ
ﺑﺤﺚ:ﺑﺤﺚ
5::5اﻟﺸﻜﻞ
ﻋﺮﺑﯿﺔ ﻟﺠﻤﻠﺔ
ﻋﺮﺑﯿﺔ. أفضل.
ﺗﺮﺟﻤﺔ
ﻋﺮﺑﯿﺔ
ﻟﺠﻤﻠﺔ أﻓﻀﻞعن
أﻓﻀﻞ
ﻟﺠﻤﻠﺔ
ﺗﺮﺟﻤﺔ )beam
ﻋﻦ beam
ﺗﺮﺟﻤﺔ search
(search
أﻓﻀﻞ ﻋﻦ
searchﻋﻦbeam
ﺷﻌﺎﻋﻲ
beam بحث
search
ﺷﻌﺎﻋﻲ ) الشكل
ﺷﻌﺎﻋﻲ)5
اﻟﺸﻜﻞ اﻟﺸﻜﻞ :5ﺑﺤﺚ
اﻟﺸﻜﻞ :5
وﺑﺎﻟﺮﻏﻢ ﻣﻦ أن أﻧﻈﻤﺔ اﻟﺘﺮﺟﻤﺔ ﺗﻘﻮم ﻋﻠﻰ ﻧﻤﻮذﺟﻲ اﻟﻠﻐﺔ واﻟﺘﺮﺟﻤﺔ إﻻ أن اﻟﺒﺎﺣﺜﯿﻦ
اﻟﺒﺎﺣﺜﯿﻦ اﻟﺒﺎﺣﺜﯿﻦإﻻ أن
الباحثني إال أن
اﻟﺒﺎﺣﺜﯿﻦ واﻟﺘﺮﺟﻤﺔأن
والرتمجة اﻟﻠﻐﺔ
إﻻ أن
اللغة
واﻟﺘﺮﺟﻤﺔ إﻻ ﻧﻤﻮذﺟﻲ
واﻟﺘﺮﺟﻤﺔ
نموذجي
اﻟﻠﻐﺔ ﻧﻤﻮذﺟﻲﻋﻠﻰ
اﻟﻠﻐﺔ
عىل
ﻧﻤﻮذﺟﻲ تقومﺗﻘﻮمﺗﻘﻮم
ﻋﻠﻰ اﻟﺘﺮﺟﻤﺔ
الرتمجةﻋﻠﻰ أنظمة
اﻟﺘﺮﺟﻤﺔ ﺗﻘﻮم اﻟﺘﺮﺟﻤﺔﻈﻤﺔ
ﻣﻦأﻧأن أﻧ
أن
ﻈﻤﺔ أن من ﻈﻤﺔ
وبالرغموﺑﺎﻟﺮﻏﻢ
وﺑﺎﻟﺮﻏﻢأﻧﻣﻦ
وﺑﺎﻟﺮﻏﻢ ﻣﻦ أن
ﯾﺴﻤﻰ ))log- إطﺎر ﺧﻼل ﻣﻦ اﻟﺘﺮﺟﻤﺔ ﺗﺤﺴﻦ اﻟﺘﻲ اﻷﺟﺰاء ﻣﻦ اﻟﻌﺪﯾﺪﻣﻦ ﺑﺈﺿﺎﻓﺔ ﻗﺎﻣﻮا
loglog-
-( log-
يسمىﯾﺴﻤﻰ خاللإطﺎر
إطار
log-
ﯾﺴﻤﻰ ) ﺧﻼل
إطﺎر)
ﯾﺴﻤﻰ ﻣﻦ
من
ﺧﻼل اﻟﺘﺮﺟﻤﺔ
الرتمجة
إطﺎر
ﺧﻼلﻣﻦ ﺗﺤﺴﻦ
حتسن األجزاءاﻟﺘﻲ
التي
اﻟﺘﺮﺟﻤﺔ ﻣﻦ
اﻟﺘﺮﺟﻤﺔ ﺗﺤﺴﻦ اﻷﺟﺰاء
ﺗﺤﺴﻦ
اﻟﺘﻲ اﻷﺟﺰاء من
اﻟﺘﻲ اﻟﻌﺪﯾﺪ
العديد
اﻷﺟﺰاء
اﻟﻌﺪﯾﺪ ﻣﻦ ﺑﺈﺿﺎﻓﺔ
بإضافة
ﺑﺈﺿﺎﻓﺔﻣﻦ ﻗﺎﻣﻮا
قاموا
اﻟﻌﺪﯾﺪ ﻗﺎﻣﻮا ﺑﺈﺿﺎﻓﺔ
ﻗﺎﻣﻮا
اﻟﺘﺮﺟﻤﺔ ))𝑝𝑝𝑝𝑝!!((ff..ee ﻟﻨﻈﺎم أﺧﺮى أﺟﺰاء إﺿﺎﻓﺔ ﻣﻦ إﺿﺎﻓﺔﻜ ّﻜﻦﻦ
كُﯾُ َﻤ َﻤ(linear frameworkﻜﻦ
وإعطائها الرتمجة𝑝𝑝).e
اﻟﺘﺮﺟﻤﺔ𝑝𝑝! (f لنظام)e
ﻟﻨﻈﺎم! (f.
اﻟﺘﺮﺟﻤﺔ أخرى
أﺧﺮى
اﻟﺘﺮﺟﻤﺔ
ﻟﻨﻈﺎم أجزاء
أﺟﺰاء
ﻟﻨﻈﺎم
أﺧﺮى إضافة
إﺿﺎﻓﺔ
أﺧﺮى
أﺟﺰاء منﻣﻦ
أﺟﺰاء
إﺿﺎﻓﺔ ّن ّﻣﻦ ّ َ linearم(ﻜ ﯾﻦ
ﻣﻦﯾُ ُي َﻤ
)(linear
linear ّ framework
frameworkﯾُ َﻤ
(framework
linear framework
ﻛﺎﻟﺘﺎﻟﻲ:
ﻛﺎﻟﺘﺎﻟﻲ: كالتايل:
أھﻤﯿﺘﮭﺎ
أھﻤﯿﺘﮭﺎ ﯾﻌﻜﺲ
ﯾﻌﻜﺲ
ﻛﺎﻟﺘﺎﻟﻲ: أمهيتهاﻣﺤﺪداً !!𝜆𝜆𝜆𝜆
أھﻤﯿﺘﮭﺎ يعكس
ﻣﺤﺪد𝜆𝜆اً
ﯾﻌﻜﺲ
وزﻧﺎ ً
ﻣﺤﺪداً وزﻧﺎ ً حمدداًًا
وإﻋﻄﺎﺋﮭﺎﺎ ً!𝜆𝜆
وإﻋﻄﺎﺋﮭﺎ
ﻣﺤﺪد وزنﺎ ً ًا
وإﻋﻄﺎﺋﮭﺎ وزﻧ
ﻛﺎﻟﺘﺎﻟﻲ: أھﻤﯿﺘﮭﺎ ﯾﻌﻜﺲ ! وزﻧ وإﻋﻄﺎﺋﮭﺎ
!!
! !
= eebest argmax 𝜆𝜆𝜆𝜆! ∗∗log 𝑝𝑝𝑝𝑝!𝜆𝜆((ff.∗e.e)log
e = argmax
best =ebest =
ee argmax
argmax
best e e ! 𝜆𝜆log
! )! ∗ log! ! 𝑝𝑝! (f.e
)) 𝑝𝑝 (f.e
}!∈{t,lm,lex,d,w
}!∈{t,lm,lex,d,w
}!∈{t,lm,lex,d,w
}!∈{t,lm,lex,d,w
املصدر
ﻣﻔﺘﻮح مفتوح
ﻣﻔﺘﻮحﻣﻔﺘﻮح ((Moses
Moses )Moses ﻣﻮﺳﺰ )) ((Moses
ﻣﻮﺳﺰ موسز ﻛﻨﻈﺎم كنظام)
ﻛﻨﻈﺎم اإلحصائية
اﻹﺣﺼﺎﺋﯿﺔ
اﻹﺣﺼﺎﺋﯿﺔ أﻧﻈﻤﺔالرتمجة
اﻟﺘﺮﺟﻤﺔ ﻛﻨﻈﺎم
اﻟﺘﺮﺟﻤﺔ أنظمة
أﻧﻈﻤﺔ حتتوي
ﺗﺤﺘﻮي
ﺗﺤﺘﻮي وعادةﻣﺎﻣﺎما
وﻋﺎدة
وﻋﺎدة
ﻣﻔﺘﻮح(
Moses ﻣﻮﺳﺰ ) ﻣﻮﺳﺰ
ﻛﻨﻈﺎم اﻹﺣﺼﺎﺋﯿﺔ اﻹﺣﺼﺎﺋﯿﺔ
اﻟﺘﺮﺟﻤﺔ اﻟﺘﺮﺟﻤﺔ
أﻧﻈﻤﺔ أﻧﻈﻤﺔ
ﺗﺤﺘﻮي ﺗﺤﺘﻮي
ﻣﺎ وﻋﺎدة ﻣﺎوﻋﺎدة
)language
((translation model و(
model ) translation
ھﻲ )) أﺟﺰاء model ( هي أجزاء مخسة عىل )koehn, (2007
translation
(translation model
(translation model )modelھﻲ ھﻲأﺟﺰاء ﺧﻤﺴﺔ)
ﺧﻤﺴﺔ
أﺟﺰاءﺧﻤﺴﺔ ھﻲ ﻋﻠﻰ
ﻋﻠﻰﻋﻠﻰ
أﺟﺰاء ﺧﻤﺴﺔ(
(koehn,
koehn, 2007ﻋﻠﻰ
(koehn, 2007 اﻟﻤﺼﺪر ))
(koehn,
2007 اﻟﻤﺼﺪر
) 2007 اﻟﻤﺼﺪر )
اﻟﻤﺼﺪر
يمكن جزء
((reordering وكل ). word
model penalty
و) و( ) reordering model و( ) lexical model و(
reordering
(reordering model
(reordering model و)( و) (lexical
lexical
model modelو)
(lexical model
(lexical
model
و)
و)( و)
(language
language
model (language
model
model
(languageو) و) modelو)و)
model و)
جمموعة عىل النظام اختبار
ً خالل
ً من عادة يكون حتديدها أن إال ،اً اعتباطي ً
ا وزن إعطاؤه
ﺗﺤﺪﯾﺪھﺎ
ﺗﺤﺪﯾﺪھﺎ أن إﻻ أن إﻻ اﻋﺘﺒﺎطﯿﺎ ًﺎ، وزﻧﺎ ًﺎإﻻ إﻋﻄﺎؤه
اﻋﺘﺒﺎطﯿﺎً، ﯾﻤﻜﻦ
وزﻧﺎ ً ﺟﺰء وﻛﻞ ﺟﺰء(.(.
word penalty و) penaltyو)و)
ﺗﺤﺪﯾﺪھﺎ
discriminative األفضل( ،أن
ﺗﺤﺪﯾﺪھﺎ اﻋﺘﺒﺎطﯿإﻻ
أنً،
اﻋﺘﺒﺎطﯿﺎ
اختيار
وزﻧ إﻋﻄﺎؤه
وزﻧﺎ ً
ثم إﻋﻄﺎؤه
ومن
إﻋﻄﺎؤهﯾﻤﻜﻦ
ﺟﺰءﺟﺰء
ﯾﻤﻜﻦ
أوزان، بعدة
وﻛﻞ
وﻛﻞﯾﻤﻜﻦ
ا
word وﻛﻞ
املرتمجة(ُ .مسبق ً
word penalty
.(penalty
word
اجلمل و)من
ﺑﻌﺪة ً
ﺑﻌﺪةﺎ ﺑﻌﺪة
)MERT
ﺴﺒﻘﺎ ً
ﺴﺒﻘ اﻟﻤﺘﺮﺟﻤﺔ ًﻣ ُﻣ
ﺴﺒﻘﺎ ُ
أشهرها ( ﺑﻌﺪة
اﻟﻤﺘﺮﺟﻤﺔ اﻟﺠﻤﻞﺴﺒﻘﺎ ً
اﻟﻤﺘﺮﺟﻤﺔ ُﻣبذلك اﻟﻤﺘﺮﺟﻤﺔ ُﻣ
اﻟﺠﻤﻞ اﻟﺠﻤﻞ
تقوم
ﻣﻦ
التي ﻣﻦﻣﺠﻤﻮﻋﺔ
اﻟﺠﻤﻞﻣﻦ
ﻣﺠﻤﻮﻋﺔ
ﻣﺠﻤﻮﻋﺔ
ﻋﻠﻰ
ﻣﻦ
اخلوارزميات
اﻟﻨﻈﺎم
ﻣﺠﻤﻮﻋﺔﻋﻠﻰ
اﻟﻨﻈﺎم
ﻋﻠﻰ
اﺧﺘﺒﺎر
ﻋﻠﻰ
اﺧﺘﺒﺎرمن
اﻟﻨﻈﺎم
ﺧﻼل
اﻟﻨﻈﺎم
ﺧﻼل
اﺧﺘﺒﺎر
العديد
ﻣﻦ
ﺧﻼلﻋﺎدةﻣﻦ
اﺧﺘﺒﺎر
وهناك ﺧﻼل)
ﻋﺎدة
ﻣﻦ
ﯾﻜﻮن
ﯾﻜﻮن
ﻋﺎدة
training
ﻣﻦ ﯾﻜﻮن ﻋﺎدة
ﯾﻜﻮن
ﻣﻦ
اﻟﻌﺪﯾﺪ ﻣﻦ
اﻟﻌﺪﯾﺪ وھﻨﺎك
وھﻨﺎكﻣﻦ
وھﻨﺎك ((discriminative
اﻟﻌﺪﯾﺪ (discriminativeوھﻨﺎك
discriminative training
training اﻷﻓﻀﻞ ))
training
اﻷﻓﻀﻞ اﺧﺘﯿﺎر
اﻷﻓﻀﻞ )6
اﺧﺘﯿﺎر وﻣﻦﺛﻢﺛﻢ
وﻣﻦ أوزان،
اﺧﺘﯿﺎر أوزان ،وﻣﻦ ﺛﻢ
أوزان،
اﻟﻌﺪﯾﺪ ﻣﻦ (discriminative .)Och,
training ()2003
اﻷﻓﻀﻞ الشكل
اﺧﺘﯿﺎر يفﺛﻢ املوضحة
وﻣﻦ أوزان،
88
88 88 88
-80-
اﻟﺨﻮارزﻣﯿﺎت اﻟﺘﻲ ﺗﻘﻮم ﺑﺬﻟﻚ أﺷﮭﺮھﺎ ) (MERTاﻟﻤﻮﺿﺤﺔ ﻓﻲ اﻟﺸﻜﻞ Och, ) 6
.(2003
.)translate.kacst.edu.sa العربية (
.(translate.kacst.edu.sa إﻟﻰإىل
اﻟﻌﺮﺑﯿﺔ ) والفارسية
العربيةواﻟﻔﺎرﺳﯿﺔ
مناﻟﻌﺒﺮﯾﺔ
ترمجةﻣﻦ
نظامﺗﺮﺟﻤﺔ
واجهةﻧﻈﺎم
:7واﺟﮭﺔ
الشكل:7
اﻟﺸﻜﻞ
89
5ﺗﻘﯿﯿﻢ ﺟﻮدة اﻟﺘﺮﺟﻤﺔ
-81-
ﯾﻌﺪ ﺗﻘﯿﯿﻢ أداء أﻧﻈﻤﺔ اﻟﺘﺮﺟﻤﺔ أﻣﺮاً ﺻﻌﺒﺎ ً وذﻟﻚ ﻟﺘﻌﺪد اﻟﺘﺮﺟﻤﺎت ﻣﻦ ﺷﺨﺺ ﻵﺧﺮ
) .(subjectiveاﻟﻤﺜﺎل اﻟﺘﺎﻟﻲ داﺋﻤﺎ ً ﻣﺎ ﯾﺬﻛﺮ ﻟﺘﻮﺿﯿﺢ اﻟﻤﺸﻜﻠﺔ وھﻮ ﻣﺄﺧﻮذ ﻣﻦ
.(translate.kacst.edu.sa) واﺟﮭﺔ ﻧﻈﺎم ﺗﺮﺟﻤﺔ ﻣﻦ اﻟﻌﺒﺮﯾﺔ واﻟﻔﺎرﺳﯿﺔ إﻟﻰ اﻟﻌﺮﺑﯿﺔ:7 اﻟﺸﻜﻞ
) ومدىadequacy( هناك معياران لتقييم الرتمجة مها مدى الدقة يف نقل املعنى
وقد تم اقرتاح العديد من األدوات لقياس دقة املعنى.)fluency( سالسة الرتمجة
automatic() وmanual metrics( والسالسة يمكن تصنيفها إىل جمموعتني
وتعد املجموعة الثانية عملية أكثر وأقل كلفة نظر ًا لغياب العنرص البرشي.)metrics
حيث إهنا تعتمد عىل ترمجات.)consistent( فيها وثبات النتائج عند إعادة القياس
ومن أبسط.) سابقة للنصوص املراد قياس أداء النظام فيهاreferences( احرتافية
:) والتي يمكن حساهبا كالتايلrecall( ) وprecision( أدوات القياس
-82-
ﻋﻠﻰ
ﺗﻌﺘﻤﺪ ﻋﻠﻰ
إﻧﮭﺎ ﺗﻌﺘﻤﺪ
ﺣﯿﺚ إﻧﮭﺎ
.(.(consistentﺣﯿﺚ
اﻟﻘﯿﺎس ))consistent
إﻋﺎدة اﻟﻘﯿﺎس
ﻋﻨﺪ إﻋﺎدة
اﻟﻨﺘﺎﺋﺞ ﻋﻨﺪ
وﺛﺒﺎت اﻟﻨﺘﺎﺋﺞ
ﻓﯿﮭﺎ وﺛﺒﺎت
اﻟﺒﺸﺮي ﻓﯿﮭﺎ
اﻟﺒﺸﺮي
ﻓﯿﮭﺎ.
اﻟﻨﻈﺎم ﻓﯿﮭﺎ.
أداء اﻟﻨﻈﺎم
ﻗﯿﺎس أداء
اﻟﻤﺮاد ﻗﯿﺎس
ﻟﻠﻨﺼﻮص اﻟﻤﺮاد
ﺳﺎﺑﻘﺔ ﻟﻠﻨﺼﻮص
((referencesﺳﺎﺑﻘﺔ
اﺣﺘﺮاﻓﯿﺔ ))references
ﺗﺮﺟﻤﺎت اﺣﺘﺮاﻓﯿﺔ
ﺗﺮﺟﻤﺎت
ﻛﺎﻟﺘﺎﻟﻲ:
ﺣﺴﺎﺑﮭﺎ ﻛﺎﻟﺘﺎﻟﻲ:
ﯾﻤﻜﻦ ﺣﺴﺎﺑﮭﺎ
واﻟﺘﻲ ﯾﻤﻜﻦ
((recallواﻟﺘﻲ
((precisionوو ))recall
اﻟﻘﯿﺎس ))precision
أدوات اﻟﻘﯿﺎس
أﺑﺴﻂ أدوات
وﻣﻦ أﺑﺴﻂ
وﻣﻦ
correct
correct words
words
precision =
precision = translation length
translation length
correct
correct words
words
recall
= recall
= reference length
reference length
ﺳﻼﺳﺔ
ﻓﻲيفﺳﻼﺳﺔ ً
أﺳﺎﺳﺎ ًﺎ
ﯾﻌﺪيعدأﺳﺎﺳ واﻟﺬي اﻟﻜﻠﻤﺎت ﺗﺮﺗﯿﺐ ﺗﺠﺎھﻞ ﺿﻌﻔﮭﺎ ﻧﻘﺎط أﻛﺒﺮ
أنأنأﻛﺒﺮ
إﻻإالأن
سالسة أساس ًا
ﻓﻲ والذيﯾﻌﺪ
الكلامتواﻟﺬي
ترتيباﻟﻜﻠﻤﺎت
جتاهلﺗﺮﺗﯿﺐضعفهاﺗﺠﺎھﻞ
نقاطﺿﻌﻔﮭﺎ
أكربﻧﻘﺎط إﻻ
ﻣﻦمن اﻷدﻧﻰ
األدنى
ﻣﻦ احلداﻷدﻧﻰ اﻟﺤﺪ ﺗﻘﯿﺲ
تقيساﻟﺤﺪ واﻟﺘﻲ
)((WERواﻟﺘﻲ
والتيﺗﻘﯿﺲ أداة))(WER
WER أداة
ﺧﻼل أداة
ﻣﻦ ﺧﻼل
خالل ذﻟﻚمن
ﻣﻦ ﻣﻌﺎﻟﺠﺔذلك
ذﻟﻚ وﯾﻤﻜﻦمعاجلة
ﻣﻌﺎﻟﺠﺔ ويمكن
وﯾﻤﻜﻦ اﻟﺘﺮﺟﻤﺔ.
الرتمجة.
اﻟﺘﺮﺟﻤﺔ.
كالتايل:
ﻛﺎﻟﺘﺎﻟﻲ:
ﻛﺎﻟﺘﺎﻟﻲ: االحرتافية
اﻻﺣﺘﺮاﻓﯿﺔ
اﻻﺣﺘﺮاﻓﯿﺔ الرتمجة
اﻟﺘﺮﺟﻤﺔ
اﻟﺘﺮﺟﻤﺔ مثلﻣﺜﻞ
ﻣﺜﻞ لتصبح
ﻟﺘﺼﺒﺢ
ﻟﺘﺼﺒﺢ النظام
اﻟﻨﻈﺎمﺎم
اﻟﻨﻈ ترمجة
ﺗﺮﺟﻤﺔ
ﺗﺮﺟﻤﺔ لتحرير
ﻟﺘﺤﺮﯾﺮ
ﻟﺘﺤﺮﯾﺮ اﻟﺨﻄﻮاتالالزمة
اﻟﻼزﻣﺔ
اﻟﻼزﻣﺔ اخلطوات
اﻟﺨﻄﻮات
substitutions
substitutions +
+ insertions
insertions +
+ deletions
deletions
WER
= WER
= reference length
reference length
آيآي
آي ﻓﻲ يفواتسون
ﻓﻲ أبحاث
واﺗﺴﻮن
واﺗﺴﻮن مركزأﺑﺤﺎث
أﺑﺤﺎث ﻣﺮﻛﺰﻣﻦمن
ﻣﺮﻛﺰ )BLEU
ﻣﻦ ((BLEU
BLEU بلو ( حالي ًا
ﺑﻠﻮ ))
ﺑﻠﻮ القياس
ﺣﺎﻟﯿﺎ ًﺎ ً
ﺣﺎﻟﯿ أدواتاﻟﻘﯿﺎس
اﻟﻘﯿﺎس أشهرأدوات
أدوات ومنأﺷﮭﺮ
أﺷﮭﺮ وﻣﻦ
وﻣﻦ
اقرتاحه
تم ﻣﺎﻣﺎ ﺗﻢﺗﻢ أﻧﮭﺎأوائل ما
أواﺋﻞ رغم أهنا من الرتمجة اآللية أغلب أبحاث تستخدم يف يب إم والتي
ﻣﻦ أواﺋﻞ
رﻏﻢ أﻧﮭﺎ ﻣﻦ
اﻵﻟﯿﺔ رﻏﻢ
اﻟﺘﺮﺟﻤﺔ اﻵﻟﯿﺔ
أﺑﺤﺎث اﻟﺘﺮﺟﻤﺔ
أﻏﻠﺐ أﺑﺤﺎث ﻓﻲ أﻏﻠﺐ ﺗﺴﺘﺨﺪم ﻓﻲ
واﻟﺘﻲ ﺗﺴﺘﺨﺪم
ﺑﻲ إمإم واﻟﺘﻲ
ﺑﻲ
العبارات مستوى عىل الرتمجة دقة قياس عىل وتقوم ).(Papineni et al., 2002
ﻣﺴﺘﻮى
ﻋﻠﻰ ﻣﺴﺘﻮى اﻟﺘﺮﺟﻤﺔ ﻋﻠﻰ
دﻗﺔ اﻟﺘﺮﺟﻤﺔ
ﻗﯿﺎس دﻗﺔ
ﻋﻠﻰ ﻗﯿﺎس
وﺗﻘﻮم ﻋﻠﻰ
.(.(Papineniوﺗﻘﻮم
Papineni et et al.,
al., 2002
اﻗﺘﺮاﺣﮫ ))2002
اﻗﺘﺮاﺣﮫ
( )n-gramsكام ييل:
ﯾﻠﻲ:
ﻛﻤﺎ ﯾﻠﻲ:
((n-gramsﻛﻤﺎ
اﻟﻌﺒﺎرات ))n-grams
اﻟﻌﺒﺎرات
!
91
BLEU = BP ∗ exp ) !𝜆𝜆! ∗ log (precision
91
!!!
translation length
BP = min(1, )
reference length
وﺗﻌﺮف ) (BPﻋﻠﻰ أﻧﮭﺎ ﻋﻘﻮﺑﺔ اﻹﯾﺠﺎز ﻓﻜﻠﻤﺎ ﻛﺎن طﻮل اﻟﺘﺮﺟﻤﺔ أﻗﺼﺮ ﻣﻦ
وتعرف ( )BPعىل أهنا عقوبة اإلجياز فكلام كان طول الرتمجة أقرص من الرتمجة
اﻟﺘﺮﺟﻤﺔ اﻻﺣﺘﺮاﻓﯿﺔ ﻧﻘﺼﺖ ﻧﻘﺎط ﺑﻠﻮ واﻟﺘﻲ ﺗﺼﻞ إﻟﻰ 100ﻧﻘﻄﺔ ﻋﻨﺪ ﻣﻄﺎﺑﻘﺔ
االحرتافية نقصت نقاط بلو والتي تصل إىل 100نقطة عند مطابقة ترمجة النظام
أفضل ﺣﯿﺚ
أنظمة ﺑﺎﻷﻣﺮإناﻟﺴﮭﻞ،
ﻟﯿﺲحيث باألمر ﻧﻘﻄﺔ
السهل، وﺗﺤﻘﯿﻖ ﻛﻞ اﻻﺣﺘﺮاﻓﯿﺔ.
نقطة ليس ﻟﻠﺘﺮﺟﻤﺎت
وحتقيق كل ﺗﺮﺟﻤﺔ اﻟﻨﻈﺎم
االحرتافية. للرتمجات
Junczys-Dowmunt إﻟﻰ 60etﻧﻘﻄﺔ ) et al.,
.)Junczys-Dowmunt ﺗﺼﻞal.,
اﻟﺘﺮﺟﻤﺔ2016 أﻧﻈﻤﺔ
60نقطة ( أﻓﻀﻞ إىل إن
الرتمجة تصل
.(2016
6ﻋﺼﺮ ﺟﺪﯾﺪ
ﺧﻼل اﻟﺴﻨﻮات اﻟﻘﻠﯿﻠﺔ اﻟﻤﺎﺿﯿﺔ ﺣﺪث ﺗﻐﯿﺮ ﺟﺬري ﻓﻲ أﺑﺤﺎث اﻟﺘﺮﺟﻤﺔ اﻵﻟﯿﺔ
) (paradigm shiftﻣﻦ اﻟﻤﻨﮭﺞ اﻹﺣﺼﺎﺋﻲ إﻟﻰ ﻣﺎ ﯾﻌﺮف ﺑﺎﻟﺘﺮﺟﻤﺔ اﻵﻟﯿﺔ
-83-
اﻟﻌﺼﺒﯿﺔ ) (neural machine translationاﻟﻤﻌﺘﻤﺪة ﻋﻠﻰ اﻟﺸﺒﻜﺎت اﻟﻌﺼﺒﯿﺔ
-6عرص جديد
خالل السنوات القليلة املاضية حدث تغري جذري يف أبحاث الرتمجة اآللية
( )paradigm shiftمن املنهج اإلحصائي إىل ما يعرف بالرتمجة اآللية العصبية (neural
)machine translationاملعتمدة عىل الشبكات العصبية العميقة (deep neural
)networksيف ترمجة كامل اجلملة باستخدام نموذج واحد متكامل (end-to-end
.)systemإن استخدام الشبكات العصبية ليس باألمر اجلديد ،فقد تم اقرتاح نامذج
مشاهبة ملا هو معمول به اآلن قبل أكثر من عقدين من الزمن ( )Forcada, 1997كام يف
الشكل .8إال أن تعقيدها تطلب حواسيب قوية لتدريبها عىل بيانات كافية وهو ما مل
يكن متوفر ًا .لذلك كانت نتائج تلك النامذج ضعيفة مما أدى إىل هجران تلك األفكار.
الشكل :9بنية شبكة عصبية لنمذجة اللغة من خالل متثيل سياق الكلمة يف متجه واحد
اﻟﺸﻜﻞ :9ﺑﻨﯿﺔ ﺷﺒﻜﺔ ﻋﺼﺒﯿﺔ ﻟﻨﻤﺬﺟﺔ اﻟﻠﻐﺔ ﻣﻦ ﺧﻼل ﺗﻤﺜﯿﻞ ﺳﯿﺎق اﻟﻜﻠﻤﺔ ﻓﻲ ﻣﺘﺠﮫ واﺣﺪ )(projection
بناء عليه ()Schwenk, 2007 احتامليةءالكلمة حساب ﺣﺴﺎب ومن ثم
ﻋﻠﯿﮫ ) ً(Schwenk, 2007 اﻟﻜﻠﻤﺔ ﺑﻨﺎ ً اﺣﺘﻤﺎﻟﯿﺔ ()projection
وﻣﻦ ﺛﻢ
التجارب حتسن ًا ًكبري ًا يف الرتمجة ،إال أن تبنيها كان حمدود ًا نظر ًا للكلفة
ﻣﺤﺪوداً ﻧﻈﺮاً وقد أظهرت
وﻗﺪ أظﮭﺮت اﻟﺘﺠﺎرب ﺗﺤﺴﻨﺎ ً ﻛﺒﯿﺮا ﻓﻲ اﻟﺘﺮﺟﻤﺔ ،إﻻ أن ﺗﺒﻨﯿﮭﺎ ﻛﺎن
احلوسبية القائمة بشكل رئيس عىل حساب املصفوفات .هذا وقد ظهرت جتارب
وﻗﺪ ظﮭﺮت ).GPUsھﺬا
الرسيعة يف اﻟﻤﺼﻔﻮﻓﺎت
ﺣﺴﺎبالرسومات ( عىل ﻋﻠﻰ
وحدات معاجلة رﺋﯿﺲ ﺑﺸﻜﻞ
العصبية الشبكاتاﻟﻘﺎﺋﻤﺔ ﻟﻠﻜﻠﻔﺔ اﻟﺤﻮﺳﺒﯿﺔ
لتدريب هذه
معاجلة املصفوفات ،إال أن عدم توفرها لكثري من الباحثني حال دون انتشارها.
ﺗﺠﺎرب ﻟﺘﺪرﯾﺐ ھﺬه اﻟﺸﺒﻜﺎت اﻟﻌﺼﺒﯿﺔ ﻋﻠﻰ وﺣﺪات ﻣﻌﺎﻟﺠﺔ اﻟﺮﺳﻮﻣﺎت )(GPUs
اﻟﺴﺮﯾﻌﺔ ﻓﻲ ﻣﻌﺎﻟﺠﺔ اﻟﻤﺼﻔﻮﻓﺎت ،إﻻ أن ﻋﺪم ﺗﻮﻓﺮھﺎ ﻟﻜﺜﯿﺮ ﻣﻦ اﻟﺒﺎﺣﺜﯿﻦ ﺣﺎل دون
-85-
اﻧﺘﺸﺎرھﺎ.
وقد كان لورقة ( )Devlin et al., 2014أثر عىل املجتمع البحثي للنتائج القوية التي
عرضتها ومنحت جائزة أفضل ورقة يف مؤمتر ( .)ACLفقد أظهرت قدرة نامذج اللغة
املبنية عىل الشبكات العصبية عىل حتسني أفضل أنظمة الرتمجة من اللغة العربية والصينية
إىل اإلنجليزية .ففي محلة ( )NIST OpenMTلتقييم أنظمة الرتمجة عام 2012م
حقق املركز األول يف الرتمجة من العربية إىل اإلنجليزية 49.5نقطة بلو ()BLEU
واستطاعت الورقة ختطي ذلك بأكثر من 3نقاط حمقق ًة 52.8نقطة.
ويمكن اعتبار ورقة ( )Kalchbrenner and Blunsom, 2013حجر األساس
ألنظمة الرتمجة اآللية العصبية من خالل طرح نموذج متكامل للرتمجة (end-to-end
.)encoder-decoderوقد تم استخدام شبكات عصبية التفافية (convolutional
)neural networksلتشفري اجلملة املراد ترمجتها ( )encodingومن ثم فكها
( )decodingلتوليد الرتمجة من خالل شبكات عصبية متكررة (recurrent neural
.)networks
وبالرغم من نجاحات الشبكات العصبية إال أهنا مل تستطع التفوق عىل املنهج
التقليدي يف ترمجة اجلمل الطويلة .وقد ُطرحت العديد من احللول أبرزها استخدام
( )LSTM or GRU unitsوهي عبارة عن وحدات عصبية قادرة عىل التذكر
( .)Sutskever et al., 2014; Cho et al., 2014إال أن النموذج يف ذلك الوقت
كان قائ ًام عىل تشفري اجلملة املراد ترمجتها إىل متجه ذي حجم ثابت (الشكل ،)10سوا ًء
طالت اجلملة أم قرصت ،وهو ما ُعد عقبة أمام ترمجة اجلمل الطويلة.
-86-
الشكل :10شبكة عصبية متكررة لشفري اجلملة يف متجه ثابت احلجم ثم ترمجتها ()Cho et al., 2014
(Cho et al., 2014
املوضحة mechanismﺗﺮﺟﻤﺘﮭﺎ )
)attention ﺛﺎﺑﺖ اﻟﺤﺠﻢ ﺛﻢ االنتباهﻣﺘﺠﮫ
الفعالة ( اﻟﺠﻤﻠﺔ ﻓﻲ باحثونﻟﺸﻔﯿﺮ
بابتكار آلية ﻣﺘﻜﺮرة ﻋﺼﺒﯿﺔ
وقد قام اﻟﺸﻜﻞ :10ﺷﺒﻜﺔ هذا
(attention الطويلة ()et al., 2015
mechanism
.)Bahdanau اجلملاﻟﻔﻌﺎﻟﺔ عقبة ترمجة
اﻻﻧﺘﺒﺎه ختطتآﻟﯿﺔ 11والتي
ﺑﺎﺑﺘﻜﺎر ھﺬا وﻗﺪ ﻗﺎميف الشكل
ﺑﺎﺣﺜﻮن
وخالل سنتني حتول املجتمع البحثي للمنهج اجلديد القائم عىل الشبكات العصبية .ففي
Bahdanau
مقدم) للتقييم
اﻟﻄﻮﯾﻠﺔ رصف (اﻟﺠﻤﻞ
)pure neural عصبيﺗﺮﺟﻤﺔ
ﺗﺨﻄﺖفقطﻋﻘﺒﺔ واﻟﺘﻲ
نظام واحد 11هناك عاماﻟﺸﻜﻞ
2015م كان اﻟﻤﻮﺿﺤﺔ ﻓﻲ
األنظمة
اﻟﻘﺎﺋﻢ ﻋﻠﻰ ﻟﻠﻤﻨﮭﺞأغلب
اﻟﺠﺪﯾﺪ 2017م حتولت
اﻟﻤﺠﺘﻤﻊعاماﻟﺒﺤﺜﻲ
،)WMTويفاملعروف (
ﺗﺤﻮل وﺧﻼلاآلليةﺳﻨﺘﯿﻦ
مؤمتر الرتمجة
al., 2015يف.(et
املقدمة يف املؤمتر إىل الشبكات العصبية (.)Koehn, 2017
اﻟﺸﺒﻜﺎت اﻟﻌﺼﺒﯿﺔ .ﻓﻔﻲ ﻋﺎم 2015م ﻛﺎن ھﻨﺎك ﻧﻈﺎم واﺣﺪ ﻓﻘﻂ ﻋﺼﺒﻲ ﺻﺮف
) (pure neuralﻣﻘﺪم ﻟﻠﺘﻘﯿﯿﻢ ﻓﻲ ﻣﺆﺗﻤﺮ اﻟﺘﺮﺟﻤﺔ اﻵﻟﯿﺔ اﻟﻤﻌﺮوف ) ،(WMTوﻓﻲ
ﻋﺎم 2017م ﺗﺤﻮﻟﺖ أﻏﻠﺐ اﻷﻧﻈﻤﺔ اﻟﻤﻘﺪﻣﺔ ﻓﻲ اﻟﻤﺆﺗﻤﺮ إﻟﻰ اﻟﺸﺒﻜﺎت اﻟﻌﺼﺒﯿﺔ
-87-
).(Koehn, 2017
الشكل :11شبكة عصبية للرتمجة بآلية االنتباه ()Bahdanau et al., 2015
اﻟﺸﻜﻞ :11ﺷﺒﻜﺔ ﻋﺼﺒﯿﺔ ﻟﻠﺘﺮﺟﻤﺔ ﺑﺂﻟﯿﺔ اﻻﻧﺘﺒﺎه )(Bahdanau et al., 2015
لقد كانت آلية االنتباه فعالة لدرجة أن فريق ًا بحثي ًا من رشكة قوقل نرش بحث ًا
شبكاتﺑﺤﺜﺎ ً ﯾﺼﻒ
ﻗﻮﻗﻞإىل ﻧﺸﺮ
ﺷﺮﻛﺔاحلاجة
معتمد ًاﺑﺤﺜﯿﺎ ً
عليهاﻣﻦ
فقط دون
)Transformerﻓﺮﯾﻘﺎ ً
ﻓﻌﺎﻟﺔ( ﻟﺪرﺟﺔ أناﻻﻧﺘﺒﺎه ًا أسامه
يصف نموذج ﻟﻘﺪ ﻛﺎﻧﺖ آﻟﯿﺔ
ٍ
متواز النموذج بشكل
إﻟﻰ ﺷﺒﻜﺎت اﻟﺤﺎﺟﺔ بتدريب دون
سمح ﻓﻘﻂ
CNNاً) مماﻋﻠﯿﮭﺎالتفافية (ﻣﻌﺘﻤﺪ متكررة ( )RNNأو
(Transformer عصبية )
ﻧﻤﻮذﺟﺎ ً أﺳﻤﺎه
( )parallelizationوبوقت أقل بكثر من السابق (.)Vaswani et al., 2017
اﻟﺘﻔﺎﻓﯿﺔ ً) (CNNﻣﻤﺎ ﺳﻤﺢ ﺑﺘﺪرﯾﺐ اﻟﻨﻤﻮذج ﺑﺸﻜﻞ
ً
ﻋﺼﺒﯿﺔ ﻣﺘﻜﺮرة ) (RNNأو
ويعترب هذا املجال البحثي نشطا جدا ،وال يسعنا يف هذا الفصل تغطيته وإنام تم ذكر
عملتVaswani
والتقنية et
للعلوم al.,
اﻟﺴﺎﺑﻖ ) امللكﻣﻦ
عبدالعزيز وﺑﻮﻗﺖإىل أنأﻗﻞمدينةﺑﻜﺜﺮ (parallelization
وجتدر اإلشارة ﻣﺘﻮاز ) أهم األبحاث فيه.
ٍ
ً
مؤخرا عىل جتارب مكثفة لبناء أنظمة ترمجة عصبية من اللغة العربية إىل اللغة اإلنجليزية
( )Alrajeh, 2018والعكس كذلك ،حيث إن متوسط جودة هذه األنظمة قارب 60
.(2017
وﯾﻌﺘﺒﺮ ھﺬا اﻟﻤﺠﺎل اﻟﺒﺤﺜﻲ ﻧﺸﻄﺎ ً ﺟﺪاً ،وﻻ ﯾﺴﻌﻨﺎ ﻓﻲ ھﺬا اﻟﻔﺼﻞ ﺗﻐﻄﯿﺘﮫ وإﻧﻤﺎ ﺗﻢ
-88-إﻟﻰ أن ﻣﺪﯾﻨﺔ اﻟﻤﻠﻚ ﻋﺒﺪاﻟﻌﺰﯾﺰ ﻟﻠﻌﻠﻮم
ذﻛﺮ أھﻢ اﻷﺑﺤﺎث ﻓﯿﮫ .وﺗﺠﺪر اﻹﺷﺎرة
نقطة بلو ( .)BLEUومما يسهل عىل الباحثني واملطورين االستفادة واملسامهة يف هذا
املجال وجود كثري من األنظمة مفتوحة املصدر .أهم تلك األنظمة وروابط الوصول هلا
كالتايل (:)Koehn, 2017
Nematus (based on Tensorflow): https://github.com/
EdinburghNLP/nematus
Marian (a C++ re-implementation of Nematus): https://marian-nmt.
github.io/
OpenNMT (based on Torch/pyTorch): http://opennmt.net/
xnmt (based on DyNet): https://github.com/neulab/xnmt
Sockeye (based on MXNet): https://github.com/awslabs/sockeye
T2T (based on Tensorflow): https://github.com/tensorflow/
tensor2tensor
-7أبرز التحديات
رغم قدم مشكلة الرتمجة اآللية والقفزات يف سبيل حلها إال أنه ما زال هناك الكثري
من التحديات .وسنتطرق إىل ثالثة حتديات تواجه املنهج احلديث ()neural approach
يف الرتمجة (.)Koehn, 2017
التحدي األول ضعف جودة الرتمجة عند عدم تطابق املجال بني النظام والنصوص
املراد ترمجتها ( .)domain mismatchمن املشاكل املعروفة أن العبارات ختتلف ترمجتها
من جمال آلخر فرتمجة األخبار ليست كرتمجة املقاالت العلمية لذلك من املهم تدريب
النظام عىل نصوص من نفس املجال .إال أنه كثري ًا ما تتوافر النصوص خارج املجال
املستهدف فيتم تدريب النظام عليها ثم تكييفه عىل املجال املحدد باستخدام نصوص
قليلة ( .)domain adaptationوقد أظهر التجارب أن األنظمة اإلحصائية التقليدية
تعطي نتائج جيدة خارج املجال الذي تدربت عليه بعكس األنظمة العصبية.
التحدي الثاين احلاجة لنصوص كثرية لتدريب النظام قبل رؤية أي حتسن (amount
.)of training dataفرغم أن أداء األنظمة العصبية ختطى األنظمة اإلحصائية إال
-89-
أن ذلك مرشوط بتوفر نصوص كثرية للتدريب تتجاوز العرشة ماليني كلمة .لذلك
مازالت األنظمة العصبية تواجه حتدي ًا يف ترمجة اللغات قليلة املصادر (low-resource
.)languages
التحدي الثالث حساسية النظام لنصوص التدريب التي ترمجتها غري دقيقة أو غري
سليمة لغوي ًا ( .)noisy dataإن احلصول عىل بيانات تدريب عالية اجلودة مكلف
للغاية لذلك أحيانا يتم االعتامد عىل نصوص فيها ترمجات معيبة .ومما هو معروف عن
األنظمة اإلحصائية أهنا صلبة جتاه البيانات املشوشة ،ففي إحدى التجارب تم تشويش
نصف بيانات التدريب ومع ذلك حافظ النظام عىل أدائه ،وما فقده أقل من نقطة بلو
( )BLEUواحدة بخالف األنظمة العصبية التي تعترب حساسة للتشويش.
-8خامتة
قدمنا يف هذا الفصل نبذة خمترصة عن تاريخ الرتمجة اآللية والذي بدأ مع نشوء علم
احلاسب .ثم تطرقنا إىل مناهج الرتمجة اآللية والتي تتدرج يف مستوى معاجلتها للغة بدء ًا
من الرتمجة املبارشة إىل الرتمجة التجريدية .كانت الرتمجة اآللية اإلحصائية أهم املناهج
املهيمنة حتى وقت قريب إىل أن دخلت تقنيات التعلم العميق وأحدثت نقلة يف هذا
املجال دخلت معها الرتمجة اآللية عرص ًا جديد ًا ال نزال نعيش أحداثه.
عىل مدى عدة عقود تطورت الرتمجة اآللية حتى أصبحت تقنية يستخدمها اجلميع
ويعتمد عليها املرتمجون يف تسهيل عملهم .وكثري من الرشكات كقوقل ومايكروسوفت
تعرض خدمات الرتمجة بأسعار متدنية أو جمانية ألشهر اللغات مما أتاح فرصة التواصل
واالطالع عىل ما عند األمم األخرى.
وقد تم التطرق إىل أهم األبحاث ،إال أن هذا املجال ال زال نشط ًا بحثي ًا ،والكثري من
التجارب تنرش سنوي ًا عىل عدد من اللغات كاألوربية والصينية والعربية .وما زال هناك
فرص لتحسني أداء الرتمجة اآللية لتجاوز التحديات الكثرية التي تطرقنا إىل بعضها.
-90-
املراجع
Al-Onaizan, Yaser, Jan Curin, Michael Jahr, Kevin Knight, John La-
erty, Dan Melamed, Franz-Josef Och, David Purdy, Noah
A. Smith, and David Yarowsky. (1999). Statistical machine
translation. Technical report, Johns Hopkins University,
Summer Workshop.
Alrajeh, Abdullah. (2018). A Recipe for Arabic-English Neural
Machine Translation. In Computing Research Repository,
arXiv: 808.06116.
Bahdanau, Dzmitry, Kyunghyun Cho, and Yoshua Bengio. (2015).
Neural machine translation by jointly learning to align and
translate. In Proceedings of the International Conference on
Learning Representations (ICLR).
Bengio, Yoshua, Réjean Ducharme. (2001). A neural probabilistic
language model. In: Proceedings of Advances in Neural
Information Processing Systems, vol. 13, 932-938.
Brown, Peter F., Vincent J. Della Pietra, Stephen A. Della Pietra,
and Robert L. Mercer. (1993). The mathematics of statistical
machine translation: Parameter estimation. Computational
Linguistics, 19(2), 263-311.
Chiang, David. (2007). Hierarchical phrase-based translation.
Computational Linguistics, 33(2).
Cho, Kyunghyun, Bart van Merrienboer, Caglar Gulcehre, Dzmitry
Bahdanau, Fethi Bougares, Holger Schwenk, and Yoshua
Bengio. (2014). Learning phrase representations using
rnn encoder–decoder for statistical machine translation. In
Proceedings of the 2014 Conference on Empirical Methods in
Natural Language Processing (EMNLP), pages 1724– 1734.
Devlin, Jacob, Rabih Zbib, Zhongqiang Huang, Thomas Lamar,
Richard Schwartz, and John Makhoul. (2014). Fast and robust
neural network joint models for statistical machine translation.
-91-
In Proceedings of the 52nd Annual Meeting of the Association
for Computational Linguistics (Volume 1: Long Papers), pages
1370–1380.
Forcada, Mikel and Ramón Ñeco. (1997). Recursive hetero-
associative memories for translation. In Biological and
Artificial Computation: From Neuroscience to Technology,
Springer, pages 453–462.
Junczys-Dowmunt, Marcin, Tomasz Dwojak, and Hieu Hoang. (2016).
Is neural machine translation ready for deployment? A case
study on 30 translation directions. In Proceedings of the 13th
International Workshop on Spoken Language Translation.
Kalchbrenner, Nal and Phil Blunsom. (2013). Recurrent continuous
translation models. In Proceedings of the Conference on
Empirical Methods in Natural Language Processing, pages
1700–1709.
Koehn, Philipp. (2010). Statistical Machine Translation. Cambridge
University Press.
Koehn, Philipp. (2017). Neural Machine Translation. In Computing
Research Repository, arXiv: 1709.07809.
Koehn, Philipp and Rebecca Knowles. (2017). Six challenges for
neural machine translation. In Proceedings of the First
Workshop on Neural Machine Translation, pages 28–39.
Koehn, Philipp, Hieu Hoang, Alexandra Birch, Chris Callison-
Burch, Marcello Federico, Nicola Bertoldi, Brooke Cowan,
Wade Shen, Christine Moran, Richard Zens, Christopher J.
Dyer, Ondˇrej Bojar, Alexandra Constantin, and Evan Herbst.
(2007). Moses: Open source toolkit for statistical machine
translation. In Proceedings of the 45th Annual Meeting of the
Association for Computational Linguistics Companion Volume
Proceedings of the Demo and Poster Sessions, pages 177–180.
-92-
Och, Franz Josef. (2003). Minimum error rate training in statistical
machine translation. In Proceedings of the 41st Annual
Meeting of the Association for Computational Linguistics,
pages 160–167.
Papineni, Kishore, Salim Roukos, Todd Ward, and Wei-Jing Zhu.
(2002). BLEU: a method for automatic evaluation of machine
translation. In Proceedings of 40th Annual Meeting of the
Association for Computational Linguistics, pages 311–318.
Schwenk, Holger. (2007). Continuous space language models.
Computer Speech and Language, 3 (21), 492–518.
Sutskever, Ilya, Oriol Vinyals, and Quoc V Le. (2014). Sequence to
sequence learning with neural networks. In Z. Ghahramani,
M. Welling, C. Cortes, N. D. Lawrence, and K. Q. Weinberger,
editors, Advances in Neural Information Processing Systems,
pages 3104–3112.
Vaswani, Ashish, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion
Jones, Aidan Gomez and, Lukasz Kaiser and Illia Polosukhin.
(2017). Attention is All you Need. In Advances in Neural
Information Processing Systems 30, 5998-6008.
Vauquois, Bernard. (1968). A survey of formal grammars and
algorithms for recognition and transformation in mechanical
translation. In Proceedings of IFIP Congress, 1114-1122.
Weaver, Warren. (1947). Letter to Norbert Wiener.
-93-
-94-
الفصل الرابع
منذجة الكلمة العربية
خوارزميات الذكاء االصطناعي يف حتليل
وتوزيعيا
ً الكلمة العربية لغو ًيا
-95-
-96-
ملخص الفصل
متثل الكلمة ركيزة مهمة يف فهم واستيعاب اخلطاب املكتوب .فال عجب أن نجد
تصب يف حتليل اجلوانب املختلفة للكلمة أو حتاول متثيل الكلمة اللغوية
ُّ أبحا ًثا كثري ًة
بشكل يفهمه احلاسب اآليل .هيدف هذا الفصل إىل بناء مقدمة لغري املتخصص لفهم
أحدث اخلوارزميات املستخدمة يف بناء النامذج احلاسوبية للكلمة العربية الفصيحة
املكتوبة .كام حياول تفسري أسباب الصعوبات التي تكتنف نمذجة الكلمة العربية حتديدً ا،
ومرورا بغناها الرصيف وانتها ًء بمستويات الغموض
ً بد ًءا بنظامها الرصيف الغري خطي
العالية يف النص العريب .كام يقدِّ م نمطني مشهورين لتحليل الكلمة :اللغوي والتوزيعي،
ويقارن بينهام ،وذلك عرب مقدمة لكل نمط وحتليل اخلوارزميات املستخدمة وأشهر
األدوات املتاحة .ويف اخلتام ،نسلط الضوء مرة أخرى عىل قصور بعض اخلوارزميات
عند حتليل ونمذجة اللغة العربية ،وسبل ووسائل مقرتحة ملعاجلة أوجه القصور.
-97-
-1مقدمة
كبريا يف آخرين عقدين من الزمن .فلم
تطورا ً
ً تطورت خوارزميات احلاسب اآليل
قادرا عىل تنفيذ سلسلة من العمليات التي يمليها له املربمج ،بل
يعد احلاسب فقط ً
وقادرا عىل اختاذ القرار من تلقاء نفسه .والختاذ القرار بشكل صحيح ،البد
ً أصبح ذك ًيا
من طرق ووسائل لتقييم املعطيات وذلك من أجل اختاذ أفضل القرارات.
يمكننا تعريف تعلم اآللة كالتايل« :االستمرار يف تطوير مهمة ما (م) بناء عىل خربة
ما (خ) باعتبار وحدة تقييم أداء معينة (ق)» ) . (Mitchell, 1997فمثال إذا كانت
املهمة (م) هي التعرف عىل جنس اإلنسان يف صورة ما ،واخلربة (خ) التي اكتسبها
احلاسب عرب إعطائه جمموعتني من الصور :رجال ونساء ،فإن خوارزميات تعلم اآللة
ستستمر يف حماولة بناء جمموعة من النامذج (النمذجة) يستطيع من خالهلا احلاسب أن
يتنبأ أو يتوقع اجلنس من الصورة املعطاة .وتكون مهمة وحدة التقييم اختيار أفضل
نموذج من هذه النامذج املستخرجة.
1.1نمذجة اللغة
لكن ما املقصود بنمذجة اللغة حاسوب ًيا؟ يمكن للحاسب اآليل عرب خوارزميات
الذكاء االصطناعي بناء متثيل معني للغة وذلك الستخدامه يف تطبيقات الحقة .فمثال،
أحد التطبيقات املشهورة واملستخدمة بكثرة يف اهلواتف املتنقلة هي تطبيق لوحة املفاتيح
الذكية؛ والتي تتيح للمستخدم عند كتابة كلمة ،اختيار كلمة تالية هلا .فمثال ،عند كتابة
كلمة «السالم» يتيح احلاسب عدة اختيارات مثل «عليكم» أو «عليك» .لكن كيف
يمكن للحاسب «تو ُّقع» الكلمة التالية؟ لقد بنت خوارزمية الذكاء االصطناعي(مثال
ال لكل كلمة يفخوارزمية Skip-gramوالتي تتنبأ بالسياق من الكلمة املعطاة) متثي ً
اللغة حيدد موقعها من اللغة ككل ،لذا فهو يستطيع أن يتنبأ بأقرب الكلامت الالحقة هلا.
وحينام نريد نمذجة لغة ما كاللغة العربية ،فإن املهمة تكون عادة أصعب وأعقد؛ ذلك
أن حتليل اللغة عادة ما يصحبها غموض يف مستويات لغوية عدة كالصوت والرصف
والنحو واملعجم .فمثال الضمري يف قولك« :قال زيد أنه مريض» غري معلوم؛ فقد يكون
املريض زيدً ا أو رجال مقصو ًدا آخرٌ .
مثال آخر فيام يروى عن الرسول -صىل اهلل عليه ُ
-98-
فتوهم املخا َطب أهنم من ماء العراق .والغموض معلوم وسلم -قوله« :نحن من ماء»ّ ،
خصوصا عند غياب التشكيل أو الرتقيم أو اهلمزات .وقد ً يف النص العريب املكتوب،
قديم إىل اإلعجام (إضافة النقاط إىل احلروف) من أجل إزالة جزء من الغموض عمدوا ً
(ومثله التشكيل) .إىل جانب الغموض ،هناك سبب آخر لصعوبة نمذجة اللغة ،أال
وهو أن املتحدثون قد ال يلتزمون بجمل صحيحة نحو ًيا ودالل ًيا وإمالئ ًيا .واألمثلة
عىل ذلك كثرية ،مثل األخطاء اإلعرابية واإلمالئية وأحيانًا الداللية أو املعجمية؛ فقد
يستخدم مفردة لرييد به مفرد ًة أخرى.
-99-
التعرف عىل أصل الكلمة :يؤمن/آمن أحدكم/أحد يكون/كان هواه/هوى
..إلخ.
تشكيل الكلمة :يؤمنُ /ي ْؤ ِم ُن أحدكمَ /أ َحدُ ك ُْم ..إلخ.
التعرف عىل الكلمة معجم ًيا :يؤمن/آمن_التصديق (وليس االنقياد والطاعة)
هواه/هوى_امليل (وليس العشق) ..إلخ.
جئت/املتكلم ..
التعرف عىل عائد الضمري :أحدكم/املخاطبني هواه/أحدكم ُ
إلخ.
التعرف عىل بعض اخلصائص الرصفية (مثل جنس االسم وعدده ،نوع وإعراب
الفعل) :يؤمن/مرفوع يكون/منصوب.
استخراج معاين ومرادفات وأضداد من القاموس الشبكي للكلامت :Wordnet
يؤمن/اإليامن،الدين-مرادف:يصدق،يتبع،ينقاد-ضد :يكذب ،جيحد
هذه النامذج متثل النمط اللغوي لدراسة وحتليل الكلمة؛ وهذه النامذج غال ًبا متثل
مرآة للعلم اللغوي واللساين الذي تطور عرب السنني .يف السنوات األخرية ،ظهر وانترش
نمط آخر لنمذجة الكلمة بناء عىل نظرية التوزيع الداليل ،semantic distribution
والتي تستند عىل نظرية فريث) (Firth, 1957والتي يقول فيها إنه «يمكن التعرف عىل
الكلمة من الكلامت املصاحبة هلا يف النص» .وبناء عىل النظرية ،أصبحت مهمة احلاسب
التعرف عىل الكلمة (م) بناء عىل الكلامت املصاحبة هلا (أو السياق) (خ) .هذه املهمة
مشاهبة للسؤال التعليمي الذي يطرحه املعلم عىل متعلمي لغة ما ليكملوا الفراغ يف
مجلة بكلمة مناسبة ،وهم بذلك يقيسون مدى استيعاهبم ليس فقط للكلمة وإنام للسياق
كذلك ،وللتناسب بني الكلمة والسياق .وكذا احلاسب ،كلام كان أكثر دقة يف اختيار
الكلمة األنسب ،كان متثيل الكلمة أو نمذجتها أكثر فائدة ونف ًعا.
كال النمطان (اللغوي والتوزيعي) يمكن استخدامهام لتمثيل الكلمة حاسوب ًيا.
والتمثيل احلاسويب أسايس للقيام بعدد كبري من العمليات .إذ ال يمكننا إجراء
العمليات الرياضية عىل الكلمة وهي يف شكلها اخلام ،مثل قياس املسافة أو الفرق.
فمثال ،ال يمكننا القول (بسهولة) إن كلمة «مسجد» هي مفرد كلمة «مساجد» وال أن
-100-
كلمة «مسجد» هي أقرب لكلمة «صالة» من كلمة «شمس» وذلك فقط من خالل
معرفتنا بمجموعة احلروف أو األصوات التي متثل الكلمة .بعبارة أخرى ،نريد أن
نكون قادرين عىل استنباط معادلة ُتربنا أن الفرق بني البعد بني «مسجد» و»صالة»
أكرب من ال ُبعد بني «مسجد» و«شمس»:
مسجد – صالة > مسجد -شمس
هذه العمليات الرياضية قد تكون رضورية يف البحث .فيمكننا مث ً
ال عند البحث
عن الصالة ،إظهار نتائج مثل أقرب املساجد إىل الباحث .عرب متثيل الكلامت الثالث
بالنمط اللغوي أو التوزيعي أو باإلثنني م ًعا ،فنستطيع املقارنة بني الصفات املستخرجة
لكلامت البحث.
مهم لتطبيقات أكثر
ال ًوهذه النامذج بمجموعها (أو بشكلها الريايض) تعترب مدخ ً
تعقيدً ا مثل استخراج املعلومات أو الرتمجة اآللية أو حتليل اخلطاب أو تلخيص النص
أو توقع الكلمة التالية يف لوحة املفاتيح الذكية ،كام أسلفنا من قبل.
-101-
االصطناعي أقل قدرة عىل نمذجة اللغة (باملقارنة مع لغة أقل مرونة كاللغة اإلنجليزية)
مع افرتاض أن اخلوارزميتني ُأعطيتا نفس القدر من األمثلة للتمرين ).(Heintz, 2014
وهذا الغنى الرصيف جيعل الكلمة العربية نفسها كثرية االشتقاقات وااللتصاقات،
وذلك لرتميز هذه اخلصائص الرصفية .فعادة ما حتتوي الكلمة العربية الواحدة عىل
جمموعة من االلتصاقات التي تبني خصائصها الرصفية ،مثل «ـون» لبيان اجلمع
واملذكر ،و»نـ» يف الفعل املضارع لبيان املتكلم واجلمع ،و«تـ» كذلك لبيان إما املؤنث
كثريا» و«فاطمة تصوم» .وهذه االلتصاقات ليس مميزة أو املخاطب كام يف «أنت تصوم ً
بعالمة معينة مما يصعب متييز اللواصق وجيعل الكلمة غامضة ومبهمة .فليس من
السهولة بمكان متييز الفاء امللتصقة يف بداية الكلمة (حرف االستئناف والعطف) ،كام
ـه ْم» أو غري
يف الكلمة «فهم» .فقد تكون الفاء ملتصقة فتكون مع الضمري املنفصل «فـ ُ
ملتصقة فيكون الفعل « َف ِهم» .إضافة لذلك ،بعض العمليات االلتصاقية تغري يف شكل
الكلمة؛ أي أن الكلمة بعد االلتصاق تتغري طب ًقا لقواعد صعبة النمذجة حاسوب ًيا دون
النظر يف النظام الرصيف الغري خطي للغة العربية ،مثل التصاق الكلامت معلولة اآلخر
قال ُ -ق ْلت.
بالحقةَ :يدْ ُعو َ -يدْ ُعونَ ،
دائم التصاقية ،واللغة العربية -باإلضافة إىل العربية-
واخلصائص الرصفية ليست ً
تتميز بكوهنا لغة سامية ذات نظام غري خطي وتبنى الكلمة فيها بناء عىل الوزن واجلذر.
وهذا جعل بعض اخلصائص الرصفية صعبة التعلم من قبل اخلوارزميات احلاسوبية.
فمثال ،التعرف عىل اجلمع يف مجوع التكسري ليس التصاقيا ،وإنام اشتقاقيا مبني عىل وزن
معني .وكذلك خوارزميات التعرف عىل جذر أو أصل الكلمة ( (Stemmingعادة ما
تكون النتائج فيها ليست مثالية.
ونظرا ألن الكلمة العربية كثرية االشتقاقات وااللتصاقات ،فإن عدد األشكال ً
ٍ
املحتملة للكلمة الواحدة عال جدً ا ،مما يؤدي بالرضورة إىل زيادة حجم وتباعد
( )sparsenessاملفردات التي ختزن يف النظام (ونقصد هبا أشكال كل الكلامت
العربية) .وهذا التباعد جيعل من احتامليات توافق شكل كلمة معينة يف النظام مع شكل
وقليل؛ مما يؤدي إىل تقليل كفاءة خوارزميات الذكاء االصطناعي. ً كلمة أخرى حمدو ًدا
ولتقليل آثار هذه املشكلة ،يعمد كثري من الباحثني إىل جتزئة الكلمة آل ًيا إىل أجزائها
-102-
الرئيسية ،فتصبح كلمة «ساعدوين» -مثالً -مكونة من ثالثة أو أربعة أجزاء حسب
معايري التجزئة املستخدمة .وهذه التجزئة اآللية قد أثبتت فاعليتها مث ً
ال يف تطبيقات
الرتمجة اآللية ( )Habash & Sadat, 2006لكنها ال ختلو من أخطاء تؤثر يف ما يلحق
من خوارزميات.
وألن الكلمة العربية غنية رصف ًيا واشتقاق ًيا ،فإن عدد اخلصائص املستخرجة للكلمة
الواحدة أكرب من غريها من اللغات مثل اللغة اإلنجليزية .ففي حني يكفي لوصف
كلمة إنجليزية أن ترمز برمز tagضمن جمموعة رموز ترتاوح بني ٣٠إىل ً ٥٠
رمزا ،فإن
جمموعة الرموز املحتملة لوصف الكلمة العربية تتجاوز ذلك بكثري وعادة ما تكون فوق
ف االسم يف اللغة اإلنجليزية إما املائة رمز ( .)Habash, 2010ففي حني يكفي أن ن َِص َ
«فرس» قد تُر َّمز برمز أكثر تعقيدً ا مثل
ٌ باسم_مفرد أو اسم_مجع ،فإن الكلمة العربية
أي من اخلصائص يعتمد بالدرجة األوىل اسم_مفرد_مؤنث_مرفوع_نكرة .واحلاجة إىل ٍّ
عىل اهلدف املرجو من نمذجة الكلمة؛ فقد حيتاج إىل أغلب اخلصائص يف حاالت الرتمجة
اآللية -مثال ،-بينام يكفي فقط إرجاع الكلمة إىل األصل يف تطبيقات البحث والتقيص.
بقي أن نشري إىل السبب األخري يف صعوبة نمذجة الكلمة العربية .وهو ترسب كثري
من املحددات اللغوية عند كتابة النص ،مثل غياب التشكيل أو اهلمزات .هذا الترسب
يزيد بشكل كبري من غموض الكلمة العربية .ففي دراسة لغموض الكلمة يف كتاب
وقياسا عىل جمموعة من القواميس
ً رياض الصاحلني (،)Alosaimy & Atwell, 2018
احلاسوبية ،كان عدد االحتامالت التحليلية للكلمة الواحدة (التحليل يشمل أصل
الكلمة وقسمها وثامن خصائص رصفية) يقفز من معدل ٤.٨٣احتامل إىل ما يقرب من
١٧.٤٢احتامل عند غياب التشكيل.
-103-
ﺔ ﻟﻠﻜﻠﻤﺔ ،وﺑﻌﻜﺲ اﻟﻄﺮق اﻟﺘﺤﻠﯿﻠﯿﺔ اﻟﺘﻮزﯾﻌﯿﺔ اﻟﺘﻲ
واﻟﻌﻼﻗﺎت ﺑﯿﻨﮭﺎ وﺑﯿﻦ اﻟﻜﻠﻤﺎت اﻷﺧﺮى .أﺣﺪ أھﻢ
ﻮ أن اﻟﻨﻤﻂ اﻟﻠﻐﻮي ﻋﺎدة ﻣﺎ ﯾﻜﻮن ﻣﻮﺟﮭًّﺎ ﺗﺼﻨﯿﻔﯿًﺎ
ﻜﻮن ﻏﯿﺮ ﻣﻮﺟﮫ وﯾﮭﺪف إﻟﻰ ﺑﻨﺎء ﻣﻀﺎﻣﯿﻦ اﻟﻜﻠﻤﺔ
التوزيعي الذي يكون غري موجه وهيدف إىل بناء مضامني الكلمة word embeddings
ﺮى ﻓﻲ اﻟﻔﺼﻞ اﻟﻘﺎدم(.
(كام سنرى يف الفصل القادم).
ﺔ اﻟﺘﻲ ﺗﺤﺘﻮي ﻋﻠﻰ ﻣﺠﻤﻮﻋﺔ ﻣﻦ اﻟﺒﯿﺎﻧﺎت ﻟﻠﺘﺪرﯾﺐ
املوجه العملية التي حتتوي عىل جمموعة من البيانات للتدريب ،Sنقصد بتعلم اآللة َّ
ﻋﻦ أزواج ﻣﻦ اﻟﻤﺪﺧﻼت واﻟﻤﺨﺮﺟﺎت اﻟﻤﻄﻠﻮﺑﺔ
وهذه البيانات هي عبارة عن أزواج من املدخالت واملخرجات املطلوبة ( .)x,zأي
ﻄﺎة ﯾﺘﻢ اﻟﺘﺪرﯾﺐ ﻋﻠﯿﮭﺎ .وﯾﻜﻮن اﻟﻤﺪﺧﻞ xﻋﻨﺼﺮًا
عنرصا يف املجموعة X
ً أنه البد من أمثلة معطاة يتم التدريب عليها .ويكون املدخل x
ﻣﺠﻤﻮﻋﺔ كام يضاف إىل جمموعة البيانات للتدريب ،جمموعة
املجموعة .Zﯾﻀﺎف إﻟﻰ
عنرصا يف
ً
z.Zﻛﻤﺎ ﻋﻨﺼﺮًا ﻓﻲ اﻟﻤﺠﻤﻮﻋﺔ
واملخرج
)وأﺣﯿﺎﻧًﺎللتقييم ’S
ﻣﺠﻤﻮﻋﺔ (وأحيانًا جمموعة ثالثة للتحقق )validation set أخرى’Sمنفصلة بياناتﻟﻠﺘﻘﯿﯿﻢ
ﻧﺎت أﺧﺮى ﻣﻨﻔﺼﻠﺔ
اعتبارمها مستخرجتني بشكل مستقل من نفس املصدر ﯾﻤﻜﻦ ›Sيمكن
اﻋﺘﺒﺎرھﻤﺎ املجموعتني Sو وكال
اﻟﻤﺠﻤﻮﻋﺘﯿﻦ Sو 'S (vوﻛﻼ
واﻟﮭﺪف األسايس من اخلوارزمية هي استخدام جمموعة ( ..واهلدف ﻧﻔﺲ اﻟﻤﺼﺪر !×!𝐷𝐷 )distribution
)(distribution
احلرص عىل تقليل اخلطأ الناتج Eيف جمموعتي التدريب نموذج ،مع
ﻧﻤﻮذج ،ﻣﻊ التدريب لبناء
اﻟﺘﺪرﯾﺐ ﻟﺒﻨﺎء ﻲ اﺳﺘﺨﺪام ﻣﺠﻤﻮﻋﺔ
اخلوارزميات ذات العوامل Parametric algorithms وعادة يف
اﻹﻣﻜﺎن. اإلمكان.ﺑﻘﺪر
بقدر واﻟﺘﻘﯿﯿﻢ والتقييم
اﻟﺘﺪرﯾﺐ ﺞ Eﻓﻲ ﻣﺠﻤﻮﻋﺘﻲ
تطوير اخلوارزمية عرب التعديل يف العوامل التي تؤثر يف يكون العصبية) الشبكات (مثل
ﻌﻮاﻣﻞ ) Parametric algorithmsﻣﺜﻞ اﻟﺸﺒﻜﺎت
دالة حساب الفقدان (.)Loss function
زﻣﯿﺔ ﻋﺒﺮ اﻟﺘﻌﺪﯾﻞ ﻓﻲ اﻟﻌﻮاﻣﻞ اﻟﺘﻲ ﺗﺆﺛﺮ ﻓﻲ داﻟﺔ
اسم أو فع ً
ال فمثال ،لنأخذ عملية حتديد قسم الكلمة ( POS taggingليكون إما ً .(L
موجه ًة عرب إعطائها جمموعة تدريبية (مثال :نام/
خوارزمية ّ أو حر ًفا) .يمكننا أن نبني
ﻜﻠﻤﺔ ) POS taggingﻟﯿﻜﻮن إﻣﺎ اﺳ ًﻤﺎ أو ﻓﻌﻼً أو
فعل صالح/اسم عىل/حرف الرسير/اسم )...وجمموعة أخرى لتقييم اخلوارزمية
ﻣﯿﺔ ﻣﻮﺟّﮭﺔً ﻋﺒﺮ إﻋﻄﺎﺋﮭﺎ ﻣﺠﻤﻮﻋﺔ ﺗﺪرﯾﺒﯿﺔ )ﻣﺜﻼ:
(مثال :أتى/فعل خالد/اسم من/حرف السوق/اسم .)..الحظ أننا نفرتض أن كال
ف اﻟﺴﺮﯾﺮ/اﺳﻢ (...وﻣﺠﻤﻮﻋﺔ أﺧﺮى ﻟﺘﻘﯿﯿﻢ
املجموعتني أتيا من نفس املصدر وهلام إذن نفس اخلصائص التوزيعية (عدد متقارب
114
لعدد األسامء ،نفس اللغة ... ،إلخ) .فلو افرتضنا أن اخلوارزمية بنت النموذج التايل
(بعد النظر إىل جمموعة التدريب) :إذا كانت الكلمة تبدأ بحرف النون فإهنا ٌ
فعل ،وإذا
كانت تبدأ بحرف العني فإهنا حرف ،وما عدامها فهو اسم .سيصبح ناتج اخلوارزمية
٪١٠٠عند قياسها عىل املجموعة التدريبية ،ولكن ٪٥٠يف املجموعة التقييمية .ولذا
ستحاول اخلوارزمية تطوير عملها ،ربام عرب الذهاب إىل احلرف التايل ،أو بأخذ أول
حرفني باالعتبار أو غري ذلك من الطرق.
يعيب تعلم اآللة املوجه حاجته إىل أمثلة للتدريب أي إىل «تعليم» أو «توسيم»
البيانات annotationالتي عادة ما تكون جمهدة ومكلفة ماد ًيا .ولكن باملقابل ،فإن
-104-
اخلوارزميات املوجهة عادة ما تكون أفضل أدا ًء من نظريهتا الغري موجهة والتي ال
تتطلب حتديد البيانات املطلوبة(.)Albared, Omar, & Ab Aziz, 2009
موجه تصنيفي Classification
ّ عادة ما يكون حتليل الكلمة عرب بناء نموذج
Problem؛ أي أن اهلدف األسايس للنموذج هو القدرة عىل حتديد صنف معني بني
عدة أصناف معروفة وحمددة سل ًفا .وأحد أشهر النامذج وأكثرها نف ًعا هو تصنيف قسم
الكلمة ،POS tagكاملثال السابق .إال أن التصنيف -حتى وإن كان معيار ًيا -فإنه
من صنع اإلنسان وبناء عىل خربته اللغوية ولذا فهو أحيانًا يفشل يف احلاالت احلدية
كبريا يف حتديد األصناف يف .borderline casesولذا فإن الباحثني خيتلفون اختال ًفا ً
أقسام الكلمة .فعند سيبويه ،أن الكلمة اسم كفرس وحائط ،أو فعل يدل عىل احلدث
أو ما عدا ذلك وسامه احلرف .ولكن كثري ًا من الباحثني اللغويني مل يرتأِ هذا التقسيم
(كتامم حسان -رمحه اهلل -وتلميذه) وجعلها سبعة أقسام بناء عىل املبنى واملعنى :االسم،
والفعل ،والضمري ،واألداة ،والصفة ،واخلالفة ،والظرف .وقد أورد بعض احلاالت
احلدية ،مثل اسم الفاعل (الذي يعمل عمل الفعل ،functional morphologyوله
مبنى االسم وصفاته ( )form morphologyالساقي.)1975 ،
وعند بناء النموذج املوجه التصنيفي للغة ما ،فإن النموذج عادة ما يأخذ التسلسل
بني املدخالت يف االعتبار .ففي املثال السابق ،يمكننا اعتبار التسلسل (مثال« :كل
ما ييل احلرف فهو اسم» أو «الفعل يكون يف بداية اجلملة») ليزيد من دقة النموذج
املستخرج .هذه اخلاصية موجودة عادة يف اخلوارزميات التي تأخذ الوقت باالعتبار،
مثل حتويل الصوت إىل كالم ،فليس من املنطقي اعتبار كل ثانية من الصوت جزءا
مستقال دون األخذ باالعتبار ما سبق من الثواين .وهبذا أصبحت املشكلة حمددة أكثر
ويمكننا تسميتها :اخلوارزميات املوجهة التصنيفية لسالسل البيانات.
هذه اخلوارزميات يمكن تطبيقها عىل كثري من املهام اللغوية التي تتدرج من
املستوى الصويت ( phonologyأو الكتايب ،)orthographyالرصيف ،morphology
النحوي ،syntaxوحتى الداليل .semanticففي املستوى الكتايب ،يمكننا بناء نموذج
موجه تصنيفي لتشكيل الكلمة .وتكون سالسل البيانات فيه هي احلروف (وأماكن
املسافات) ،واألصناف هي عالمات التشكيل .وتكون جمموع البيانات التدريبية
-105-
والتقييمية مأخوذة من ذخرية لغوية مشكلة بالكامل .وكذلك يف املستوى الكتايب-
الرصيف ،كالتعرف عىل أجزاء الكلمة من سوابق ولواحق .يمكننا كذلك تصنيف كل
الرصيف يمكننا كام أسلفنا ﺷﺠﺮةاملستوى
اﻹﻋﺮاب اﻹﻋﺮابويف
الحق.
ﻓﻲ ﺑﻨﺎء ﺷﺠﺮةأو
أصل سابق أو
ﺑﻨﺎء
اﻹﻋﺮاﺑﻲ ﻓﻲ إىل الكلمة
اﻹﻋﺮاﺑﻲ
اﻟﻤﺴﺘﻮى وﻛﺬﻟﻚيف
ﻓﻲﻘًﺎ.حرف
اﻟﻤﺴﺘﻮى ﻓﻲ وﻛﺬﻟﻚ ﺳﺎﺑ
ﺴﺘﺨﺮﺟﺔ .
واجلنس واإلسناد (للمخاطب كالعدد
ﯾﻤﻜﻨﻨﺎ ﺑﻨﺎء الرصفية
ﺑﻨﺎء اخلصائص ﯾﻤﻜﻨﻨﺎ
،Transition-based Dependencyقسم الكلمة أو
،Transition-based
Dependency استخراج
Parsing Tree Parsing
ﺳﻨﺎدﯾﺔ
اخلصائص .وهنا قد تكون سالسل البيانات هي ﺟﺰ ًء)أا(و ﻣﻦ من وغريها للغائب) أو للمتكلم أو
ﺟﺰ ًءا ﺟﺰ ًءا( ﻣﻦ ﺟﺰ ًءاﻛﻠﻤﺔ
اﻟﺠﻤﻠﺔ)أوﻛﻠﻤﺔ
ﻛﻠﻤﺎت ﻛﻠﻤﺔ
اﻟﺠﻤﻠﺔ ﻛﻠﻤﺔ ﺑﻨﺎء ﻛﻠﻤﺎت
ﻧﻤﻮذج ﯾﺄﺧﺬ ﻋﺒﺮﯾﺄﺧﺬ ﻧﻤﻮذج
ﺠﺮة
الكلامت نفسها أو أجزاء الكلمة املستخرجة ساب ًقا .وكذلك يف املستوى اإلعرايب يف
اﻟﯿﺴﺎر reduce reduce اﻟﯿﺴﺎر
اﻟﻜﻠﻤﺔ إﻟﻰ اﻟﻜﻠﻤﺔأنإﻟﻰﯾﺴﻨﺪ ﻛﻞﯾﺴﻨﺪ
ﻋﻤﻠﯿﺔ إﻣﺎ ﻓﻲ أن
ﯾﻘﺮر إﻣﺎ
اﻟﯿﺴﺎر،ﻛﻞﺛﻢﻋﻤﻠﯿﺔ
ﯾﻘﺮر ﻓﻲﯿﻦﺛﻢ إﻟﻰ
بناء شجرة اإلعراب اإلسنادية ،Transition-based Dependency Parsing Tree
ﯾﺄﺧﺬ.shift
اﻟﻜﻠﻤﺔ اﻟﺘﺎﻟﯿﺔ leftأن ﯾﺄﺧﺬ ،reduceأو
leftإﻟﻰ اﻟﯿﻤﯿﻦ
ﯿﻦ ،أو
.shiftاجلملة كلمة كلمة (أو جز ًءا جز ًءا) من
اﻟﺘﺎﻟﯿﺔكلامت
اﻟﻜﻠﻤﺔيأخذ
الشجرةأوعربأنبناء نموذج
،reduce يمكننا بناء rig
إىل اليسار ،reduce right الكلمةﺑﻨﺎء
يسندﻣﻦ أنﺑﻨﺎء
اﻟﺮﻏﻢأن أن
إما اﻟﺘﻔﺎﺻﯿﻞ".ﻣﻦ
عمليةﻋﻠﻰ اﻟﺮﻏﻢ
ﻋﻠﻰيف كل اﻟﺘﻔﺎﺻﯿﻞ".ﻓﻲ
يقرر ثم ﻓﻲ اليسار،
"اﻟﻌﻔﺮﯾﺖ إىل اﻟﻤﺜﻞ"اﻟﻌﻔﺮﯾﺖ
اليمني
اﻹﻧﺠﻠﯿﺰي: ﻹﻧﺠﻠﯿﺰي:
ﯾﻘﻮل
.shift
ﻧﺴﺒﯿًﺎ، التاليةﺳﮭﻞ
الكلمةﯿًﺎ،
ﺳﮭﻞ ﻧﺴﺒ
ﻟﻠﺘﺪرﯾﺐ( يأخذ
ﻣﻮﺳﻮﻣﺔ ﺑﯿﺎﻧﺎتأن
ﻟﻠﺘﺪرﯾﺐ( ،reduceأو
ﻣﻮﺳﻮﻣﺔ
ﺮاض وﺟﻮد اليمني
ﺑﯿﺎﻧﺎت
left ﻣﻮﺟﮫإىل)ﻣﻊ
وﺟﻮداﻓﺘ اﻓﺘ أو
ﺮاض ﻮﺟﮫ )ﻣﻊ
ﺗﺼﻨﯿﻔﻲ ذج
ﻓﻤﺜﻼ،الرغم من أن بناء نموذج ﻓﻤﺜﻼ،
التفاصيل» .عىل
اﻟﺘﻔﺎﺻﯿﻞ. اﻟﺘﻔﺎﺻﯿﻞ .يفﻓﻲ
ﻓﻲﺑﺸﻜﻞ
«العفريت
أﻛﺒﺮ ﺑﺸﻜﻞ أﻛﺒﺮ
اإلنجليزي:
اﻟﺪﺧﻮل اﻟﺪﺧﻮلاملثل
ﺗﺘﻄﻠﺐ ﺗﺘﻄﻠﺐ
دﻗﺔيقول
ﻋﺎﻟﯿﺔ كام ﻋﺎﻟﯿﺔﻋﻠﻰ ﻋﻠﻰ دﻗﺔ
اﻟﺤﺼﻮل أن
للتدريب) سهل نسب ًيا ،إال أن
ﻣﻦ ﻣﻌﺮﻓﺔموسومة ﻣﻌﺮﻓﺔ
وﻻﺑﺪ بيانات
ًا، وجودﺎ ﻣﻦ
ﻛﺒﯿﺮ افرتاضًا ،اﺧﺘﻼﻓً
وﻻﺑﺪ اﻟﺘﺼﻨﯿﻒ (مع
موجه ﻓﻲ
اﺧﺘﻼﻓًﺎ ﻛﺒﯿﺮ اﻟﺘﺼﻨﯿﻒ تصنيفي
اﻟﻤﺴﺘﺨﺪﻣﺔ اﻟﺨﻮارزﻣﯿﺎتﻓﻲ
ﺎت اﻟﻤﺴﺘﺨﺪﻣﺔ ﻒ
التفاصيل .فمثال ،ختتلف دراﺳﺔ أكرب يف
اﻟﺨﺼﺎﺋﺺ بشكل
اﻟﺨﺼﺎﺋﺺ الدخول تتطلب
دراﺳﺔﻻﺑﺪ ﻣﻦ
وﻛﺬﻟﻚ،عالية ﻣﻦ
دقة ﻻﺑﺪ
وﻛﺬﻟﻚ،
اﻻﺣﺘﯿﺎج. عىل احلصول
اﻻﺣﺘﯿﺎج.ﻋﻠﻰ
اﻷﻧﺴﺐ ﺑﻨﺎءﻮارزﻣﯿﺔ ﻋﻠﻰ
ﺐ ﺑﻨﺎء
كبريا ،والبد من معرفة اخلوارزمية اختال ًفا
التصنيفاﻟﻜﻠﻤﺔ املستخدمة يف اخلوارزميات
أﻗﺴﺎم ًاﻟﻜﻠﻤﺔ أﺧﺬ
أﺧﺬ ﺗﺼﻨﯿﻒ أﻗﺴﺎم ﺗﺼﻨﯿﻒ
اﻟﺴﺎﺑﻖ ﻓﻲ اﻟﺴﺎﺑﻖ ﻓﻲ
ﻓﺎﻟﻤﺜﺎل ﺑﺤﺮص، ﻓﺎﻟﻤﺜﺎل ﺑﺤﺮص،
اﻟﺘﺼﻨﯿﻒ ﺴﺼﻨﯿﻒ
ﺘﺨﺪﻣﺔ ﻓﻲ
األنسب بناء عىل االحتياج .وكذلك ،البد من دراسة اخلصائص املستخدمة يف
اﻟﺨﯿﺎر ﻟﯿﺴﺖ اﻟﺨﯿﺎر
ﻟﯿﺴﺖ ﻧﻌﺮف ﻟﻠﺘﺼﻨﯿﻒ ،ﻧﻌﺮف
وﻟﻜﻨﮭﺎ ﻛﻤﺎ ﻣﻨﺎﺳﺒﺔوﻟﻜﻨﮭﺎ ﻛﻤﺎﻟﻠﺘﺼﻨﯿﻒ،
ﻛﺨﺎﺻﯿﺔ ﻣﻨﺎﺳﺒﺔ
ﺨﺎﺻﯿﺔاﻷول
ﺮف
التصنيف بحرص ،فاملثال السابق يف تصنيف أقسام الكلمة أخذ احلرف األول كخاصية
ﺗﻌﻤﯿﻢ وﺿﻌﯿﻔﺔ ﻓﻲاﻟﺘﺪرﯾﺐ ﺗﻌﻤﯿﻢ
وﺿﻌﯿﻔﺔ ﻓﻲﻣﺠﻤﻮﻋﺔ اﻟﺘﺪرﯾﺐ
ﻣﺠﻤﻮﻋﺔ ﻋﻠﻰ اﻟﻨﻈﺮ ﻋﻠﻰ
ﻣﺤﺪودة اﻟﻨﻈﺮ ﻣﺤﺪودة ﻷﻧﮭﺎ
ﻀﻞ ،وذﻟﻚ ﻧﮭﺎ
وذلك ألهنا حمدودة النظر األفضل، ليست اخليار نعرف ولكنها كام للتصنيف، مناسبة
اﻟﻮاﻗﻌﯿﺔ.وضعيفة يف تعميم جمموعة التدريب لألمثلة احلقيقية الواقعية. التدريب اﻟﻮاﻗﻌﯿﺔ.
جمموعة
اﻟﺤﻘﯿﻘﯿﺔ اﻟﺤﻘﯿﻘﯿﺔعىل
ﻟﻸﻣﺜﻠﺔ ﻟﻸﻣﺜﻠﺔاﻟﺘﺪرﯾﺐ
ﻤﻮﻋﺔ
discriminative ﻣﻦ اﻟﺨﻮارزﻣﯿﺔ اﻟﺘﺼﻨﯿﻔﯿﺔ أن ﺗﻜﻮن ﺗﻤﯿﯿﺰﯾﺔ ) discriminative
ﺗﻤﯿﯿﺰﯾﺔ ) منأن ﺗﻜﻮن
اﻟﺘﺼﻨﯿﻔﯿﺔ اﻟﺨﻮارزﻣﯿﺔ
متييزية (discriminative التصنيفية أن تكون اخلوارزمية هل املراد ﻼ ،ھﻞ اﻟﻤﺮاد ﻣﻦ فمثال،
ﺧﻮارزﻣﯿﺔ (مثل خوارزمية SVM ﺧﻮارزﻣﯿﺔ)ﻣﺜﻞ
النامذج التمييزية اﻟﺘﻤﯿﯿﺰﯾﺔ )ﻣﺜﻞ اﻟﺘﻤﯿﯿﺰﯾﺔ
اﻟﻨﻤﺎذج
)generative؟ اﻟﻨﻤﺎذج
أم(؟توليدية (
(generative؟
model
generative
model model
ﺗﻮﻟﯿﺪﯾﺔ )
)model ﺔ)
(moأم
للصنفﻋﻠﻰبناء عىل البيانات املعطاة ﺑﻨﺎء ﻋﻠﻰ
الرشطي
ﻟﻠﺼﻨﻒ ﺑﻨﺎء ﻟﻠﺼﻨﻒ
االحتامل
اﻟﺸﺮطﻲ اﻟﺸﺮطﻲ
تستخرج
اﻻﺣﺘﻤﺎل اﻻﺣﺘﻤﺎل
العصبية)
ﺗﺴﺘﺨﺮج واﻟﺸﺒﻜﺎتﺗﺴﺘﺨﺮج
والشبكات
اﻟﻌﺼﺒﯿﺔ( SVاﻟﻌﺼﺒﯿﺔ(
)Hidden Markov Model ﻣﺎرﻛﻮفماركوفﻧﻤﻮذج نموذج
ﻣﺎرﻛﻮف (مثل)ﻣﺜﻞ التوليدية
ﻧﻤﻮذج )ﻣﺜﻞ
اﻟﺘﻮﻟﯿﺪﯾﺔ النامذج اﻟﻨﻤﺎذجولكن
اﻟﺘﻮﻟﯿﺪﯾﺔ
اﻟﻨﻤﺎذج وﻟﻜﻦ )𝑑𝑑|𝑐𝑐(𝑝𝑝،،
اﻟﻤﻌﻄﺎةوﻟﻜﻦ
)𝑑𝑑|𝑐𝑐(𝑝𝑝،
ﻧﺎت
نموذجا لكيفية توليد البيانات
تبني𝑝𝑝(𝑐𝑐,؛ ً
أي )𝑑𝑑 اﻟﺼﻨﻒ 𝑝𝑝(𝑐𝑐,؛؛
واﻟﺒﯿﺎﻧﺎت والبيانات )𝑑𝑑
واﻟﺒﯿﺎﻧﺎت الصنف
اﺣﺘﻤﺎﻻتاﻟﺼﻨﻒ احتامالت
اﺣﺘﻤﺎﻻت
ﺗﺴﺘﺨﺮج تستخرج
(Hiddenﺗﺴﺘﺨﺮج (Hidden
Markov MoM
نمذجتها للبيانات واألصناف. بناء عىل
اﻟﺠﺪﯾﺪة ﻻﺣﻘًﺎ الح ًقا
ﻻﺣﻘًﺎ
اﻟﺒﯿﺎﻧﺎت اجلديدة
اﻟﺠﺪﯾﺪة
ﺗﺼﻨﻒ البياناتﺛﻢ
اﻟﺒﯿﺎﻧﺎت ﺗﺼﻨﻒ
واﻷﺻﻨﺎف تصنف ﺛﻢ واألصناف ثم
واﻷﺻﻨﺎف
اﻟﺒﯿﺎﻧﺎت ﺗﻮﻟﯿﺪﺟًﺎاﻟﺒﯿﺎﻧﺎت
ﻟﻜﯿﻔﯿﺔ ﺗﻮﻟﯿﺪ ﻜﯿﻔﯿﺔ ﻧﻤﻮذ
ﺗﺒﻨﻲ
تدري ًبا وأسهل يف دمج خصائص خمتلفة، وأرسع أعىل دقة ﺗﺘﻤﯿﺰ التمييزية بأهنا
واﻷﺻﻨﺎف.النامذج
تتميز
اﻟﺘﻤﯿﯿﺰﯾﺔدﻗﺔﺑﺄﻧﮭﺎ أﻋﻠﻰ دﻗﺔ
ﺑﺄﻧﮭﺎ أﻋﻠﻰ اﻟﺘﻤﯿﯿﺰﯾﺔ
اﻟﻨﻤﺎذج اﻟﻨﻤﺎذج ﺗﺘﻤﯿﺰ
ﻟﻠﺒﯿﺎﻧﺎت واﻷﺻﻨﺎف. ﻧﻤﺬﺟﺘﮭﺎﻟﻠﺒﯿﺎﻧﺎت
ﻋﻠﻰ
تستطيع توليد بيانات شبيهة (أي ال يمكنها ﺗﺤﺘﺎج إﻟﻰ
وال أكثر بيانات
اﻟﻤﻘﺎﺑﻞ
إىل حتتاج
وﻟﻜﻨﮭﺎ ﻓﻲ
املقابل
ﻣﺨﺘﻠﻔﺔ،
يف ولكنها
اﻟﻤﻘﺎﺑﻞ ﺗﺤﺘﺎج إﻟﻰ وﻟﻜﻨﮭﺎ ﻓﻲ ﻣﺨﺘﻠﻔﺔ، ﺧﺼﺎﺋﺺ ﺧﺼﺎﺋﺺدﻣﺞ
ﺗﺪرﯾﺒًﺎدﻣﺞوأﺳﮭﻞ ﻓﻲ
ﺳﮭﻞ ﻓﻲ
ﺮع
توليد كلمة شبيهة بناء عىل جمموعة من اخلصائص)(.)Ng & Jordan, 2002
117 117
-106-
كام أن اخلوارزميات نفسها ختتلف يف أدائها .فعند تصنيف سالسل البيانات ،البد
من اختيار خوارزمية تأخذ باالعتبار التسلسل مثل الشبكات العصبية التكرارية (مقابل
الشبكات العصبية األصلية) .كام أن طريقة الربط بني النامذج املختلفة للكلمة (مثل
التجزئة وتوسيم قسم الكالم) مؤثر عىل النتيجة .فمن البدهيي ،أن كل مهمة الحقة
تعتمد عىل نتائج املهمة السابقة ،مما يؤدي إىل أن األخطاء املولدة يف املهام السابقة ستؤثر
سل ًبا عىل املهام الالحقة .وهلذا السبب عمد بعض الباحثني إىل بناء نامذج تصنف عمليتني
يف اآلن ذاته ( )Kudo & Matsumoto, 2001الذي أثبت نجاعته يف نمذجة الكلمة
العربية حتديدً ا ) . (Algahtani & McNaught, 2015ويف السنوات األخرية ،انترش
مفهوم النموذج املتكامل End-to-end modelبفضل التقدم يف جمال التعلم العميق يف
الشبكات العصبية ،والذي يتيح تدريب جمموعة نامذج خمتلفة للكلمة (مع إمكانية قياس
دقة كل نموذج بشكل مستقل) .هذا املفهوم أثبت مثال أن تعلم اآللة للشجرة اإلعرابية
مفيد يف زيادة دقة تصنيف قسم الكالم (.)Zhang, Li, Barzilay, & Darwish, 2015
باإلضافة إىل اختيار اخلوارزمية األنسب ،فإن البيانات نفسها واستخراج اخلصائص
كبريا يف دقة النمذجة .ومن أشهر مصادر البيانات لتعلم اآللة النمطدورا ًمنها تلعب ً
كم كبري مناللغوي :البنوك اإلعرابية الشجرية Treebanks؛ وهي حتتوي عىل ٍّ
التوسيامت عىل مستوى الكلمة :معجم ًيا (أصل الكلمة) ،ورصف ًيا (قسم الكلمة
واخلصائص الرصفية باإلضافة إىل بيان اللواصق وأجزاء الكلمة) ،وإعراب ًيا (العالقات
بني الكلامت أو تركيبة اجلملة).
أشهر البنوك اإلعرابية البنك الشجري العريب من بنسلفينيا (Maamouri( )PATB
،)& Bies, 2004الذي حيتوي عىل نصوص إخبارية (ما يقارب 750ألف كلمة)
باللغة العربية املعارصة جمزأة ومسومة بتشكيل الكلمة وأصل الكلمة (حتديدً ا املدخل
املعجمي )Lemmaوقسم الكلمة واخلصائص الرصفية طب ًقا ملجموعة أصناف تيم
بكولرت باإلضافة إىل شجرة اإلعراب لكل مجلة ( .(contingency treebankكام أن
(((
هناك مصادر أخرى مثل تلك املتاحات ضمن موقع شجرات اإلعراب العاملي
وجدول 1يرسد أشهر البيانات املتاحة املوسومة.
1- http://universaldepdencies.com
-107-
مرجع نوع النص عدد األصناف متاح االسم
الكلامت
(Elhadj, Al- قرآين ٧٧ألف جتزيء النص ال جامعة اإلمام
Sughaiyer, دون توسيمه
& Khorsi,
)Alansari, 2010
)(Sawalha, 2011 قرآين ألف أصنافه اخلاصة نعم سلمى
(Mohamed, قرآن ،سنة، ٢٧ألف بنسلفينيا عند الذخرية
)2012 والفلسفة الطلب الدينية
(Dukes, Atwell, قرآين ٧٧ألف أصنافه اخلاصة نعم الذخرية
)& Habash, 2013 القرآنية
& (Zeroual قرآين ٧٧ألف أصنافه اخلاصة نعم املصحف
)Lakhouaja, 2016 (حملل اخلليل)
)(Khoja, 2001 أخبار ٥٠ألف أصنافه اخلاصة عند ذخرية
الطلب خوجة
(Maamouri, Bies, أخبار ٧٥٠ البنك الشجري باشرتاك بنسلفينيا
Buckwalter, Jin, ألف من بنسلفينيا مدفوع
)& Mekki, 2005 (حملل بكولرت)
(Hajic, Smrz, أخبار ١١٣ أصنافه متاح براغ
Zemánek, ألف اخلاصة(حملل
& Šnaidauf, إكسري)
)others, 2004
(Habash & Roth, أخبار مليون* أصنافه اخلاصة باشرتاك كاتب
)2009 قليلة مدفوع (كولومبيا)
(Yaseen et al., ١٣جماال ٥٠٠ أصنافه اخلاصة مدفوع نيمالر
)2006 ألف
(Schneider, ويكيبيديا ٣٦ألف كاتب نعم أقامر
& Mohit, Oflazer,
)Smith, 2012
-108-
(خصوصا البنك )PATBمستخدمة بكثرة يف تدريب ً كل هذه البيانات وغريها
خوارزميات متنوعة لنمذجة اللغة ومن أشهرها املحلالت الرصفية .وألن تركيز هذه
الورقة عىل اخلوارزميات ال البيانات (التي هي خارج إطار هذا البحث) ،فإنه يكفينا أن
نبني اختالفات ملحوظة جيب االنتباه هلا عند تطوير أو أخذ خوارزمية بعني االعتبار:
البيانات ليست كلها متاحة للتحميل ،فبعضها جماين ومفتوح ،وبعضها يمكن
احلصول عليه مبارشة من الباحث ،وبعضها البد من اشرتاك مدفوع يف املؤسسة
املانحة (مثل شجرة .)PATB
ختتلف طريقة توسيم البيانات بشكل كبري جدً ا .وكل اختالف يف مستوى لغوي
أبسط يؤثر يف املستويات الالحقة .فمثال ،االختالف يف طريقة جتزئة النص
يؤدي إىل االختالف يف أصناف قسم الكلمة مما يؤدي إىل االختالف يف الشجرة
اإلعرابية.
سالسل البيانات عادة ما تكون موسومة برموز تصف هذه السالسل ،لكن
ختتلف البيانات يف أين يكون توسيم «جزيئات» النصوص ،tokenفقد تكون
ٍ
الكلامت أو أجزاء منها أو حتى احلروف املكونة هلا. عىل مستوى
أساسا للتوسيم ،فإن حتديد اجلزء األصيل من الكلمة من
ً عند اعتبار الكلامت
غريه من اللواصق قد يكون مشكال .مثل حتديد اجلزء األصيل يف الكلمة:
«معهم» ،هل هو حرف اجلر أو الضمري.
عادة ما يبنى التوسيم الرصيف يف البنوك الشجرية طب ًقا ملحلل رصيف يسهل
عملية التوسيم .فبدال من أن تكون يدوية بالكامل ،فإن الواسم خيتار أحد
التحليالت الرصفية املقرتحة من املحلل .كام بإمكانه إضافة حتليل جديد إذا مل
جيد مبتغاه .معرفة املحلل الرصيف وخصائصه مهمة ،حيث إن تأثريه عىل البنك
الشجري بالغ.
ال ينبغي االعتامد عىل األصناف املوجودة يف البنك الشجري عند بناء حملل ما.
ولكن جيب َق ْص األصناف عىل املطلوبة فقط لتحقيق اهلدف النهائي.
-109-
3.1املحلالت الرصفية
يف هذا القسم ،تناقش الورقة طر ًقا مستخدمة يف نمذجة اللغة (وحتديدً ا يف املحلالت
الرصفية) ونحلل أربعة من أشهر املحلالت اللغوية العربية ،وهي حتديدً ا :مدامريا،
أمرية ،ستانفورد ،وفراسة.
املحلالت الرصفية نوعان :ترميزي (حيث يقرر املحلل التحليل الرصيف األنسب
للكلمة ،انظر أشهرها يف جدول )3ومعجمي (حيث يرسد املحلل التحليالت املمكنة
للكلمة دون االختيار أو التفضيل انظر أشهرها يف جدول .)2املحلالت الرصفية
األربعة هي من الصنف األول ،وجتتمع كلها يف أن التدريب قد تم عىل البنك الشجري
من بنسلفينيا وعىل تصغري عدد األصناف املستخدمة يف البنك .ولكن كل حملل خيتلف
يف تصميمه وطريقة نمذجة الكلمة واخلصائص التي يقدمها ويتنبأ هبا ،انظر جدول .3
AraComLex Elixir AlKhalil Buckwalter
اخلاصية
أراكوملكس إكسري اخلليل بكولرت
نعم نعم نعم نعم صنف الكلمة
نعم نعم نعم نعم نوع الفعل
- نعم نعم نعم اإلسناد
نعم نعم نعم نعم اجلنس
نعم نعم نعم نعم العدد
نعم - نعم - التعدية
نعم نعم نعم نعم البناء للمجهول
- نعم نعم نعم التعريف
- نعم نعم نعم إعراب الفعل
- نعم نعم نعم إعراب االسم
- نعم نعم - الوزن
نعم نعم نعم - اجلذر
- نعم نعم نعم اجلذع
املدخل
- - نعم نعم
املعجمي
-110-
AraComLex Elixir AlKhalil Buckwalter
اخلاصية
أراكوملكس إكسري اخلليل بكولرت
- نعم نعم نعم التشكيل
مصطلح
- نعم - نعم
إنجليزي
نعم نعم نعم نعم التجزي
مستوى الكلمة مستوى اجلزء مستوى الكلمة مستوى الكلمة نوع التوسيم
(Boudchiche,
Mazroui,
(Buckwalter,
()Attia, 2006 ()Smrz, 2007 Bebah,
)2002
مرجع
& Lakhouaja,
)Boudlal, 2016
جدول :2خصائص أشهر املحلالت الرصفية العربية املعجمية (التي ال تزيل الغموض).
مضمن
َّ يتميز حملل مدامريا يف أن حتليله الرصيف يعتمد عىل حملل رصيف معجمي
يف داخله (نسخة مطورة من املحلل املشهور بكولرت) .ففي بداية عمله ،يقوم مدامريا
بتوقع نتائج التصنيفات ألقسام الكلمة وجمموعة من اخلصائص الرصفية ،ثم يقوم
املضمن واختيار األنسب .كام يتميز بأن العملية
َّ بعدها بمقارنة النتائج مع نتائج املحلل
التصنيفية تتم عىل مستوى الكلمة ال عىل مستوى اجلزء ،فال يوجد جتزيء للكلمة قبل
تعي اللواصق للكلمة (تفرتض أن للكلمة أربع سوابق، التحليل ،ولكن نتائج التحليل ّ
املضمن مكنه من رفع مستوىَّ والحقة واحدة بحد أقىص) .اعتامد مدامريا عىل املحلل
تعرف املحلل املضمن عىل الكلمة .كام أن اعتامده عىل
النتائج ،لكن هذا حمدود يف حال ّ
التحليل عىل مستوى الكلمة قلل من تأثري األخطاء املتولدة عند التجزئة عىل مرحلة
التوسيم الرصيف.
حملل أمريا اختار طريقة التجزئة والتوسيم يف آن واحد وذلك عىل عرب جتزئة الكلمة
إىل حروف ثم تعيني مكان ووسم احلرف ثم جتميع الكلمة بناء عىل مكان أحرفها .فمثال
ـم/ضمري_أساس .أما ـهـ/ضمري_أساس ْ الكلمة َف ُه ْم ستصبح َفـ/عطف_سابقُ ١
حملال ستانفورد وفراسة فإهنام اعتمدا النظام اخلطي حيث التجزئة تسبق التوسيم مع
مت ّيز فراسة باعتامده عىل كثري من املعاجم والفهارس لتيسري عملية التحليل.
-111-
فراسة أمرية ستانفورد مدامريا االسم
نعم نعم نعم نعم صنف الكلمة
- نعم نعم إال للمجهول نعم نوع الفعل
- نعم - نعم املخاطب واملتكلم والغائب
نعم لألسامء نعم - نعم اجلنس
نعم لألسامء نعم مفرد ومجع فقط نعم العدد
- نعم نعم نعم املعلوم واملجهول
- - - نعم التعريف
- - - نعم إعراب الفعل
- - - نعم إعراب االسم
-112-
طور الباحثون طرق ًا عديدة لتمثيل الكلمة كمتجه رقمي .numerical vectorما يميز
املتجه الرقمي (كاألرقام) عن الصنف ،أنه يتيح لنا القيام بعدد من العمليات الرياضية
كحساب املسافة بني متجهني.
-113-
حصان حائط فرس
2 1 0 فرس
0 0 1 حائط
0 0 2 حصان
جدول :4مثال عىل مصفوفة توارد الكلامت .اخلانة الرقمية يف الزاوية العليا اليرسى تعني أن كلمة
حصان وردت مرتان يف سياق كلمة فرس .التمثيل املتجهي لكلمة فرس هو <.>0.1.2
4.2مضامني الكلمة
مؤخرا ،ظهر متثيل حديث للكلمة ُس ِّم َي بمضامني الكلمة word embeddingيتميز ً
بكونه عميل ورسيع مع احلفاظ عىل متثيل داليل جيد للكلمة ،وأشهر أداة تنتج هذه املضامني
هي .)Mikolov, Sutskever, Chen, Corrado, & Dean, 2013( word2vecوهذا
التمثيل يعتمد عىل خوارزمية الذكاء االصطناعي :الشبكات العصبية.
الناتج النهائي من خوارزميات مضامني الكلمة هو متثيل كل كلمة من كلامت اللغة
بمتجه رقمي طوله حمدد (عادة ما يكون ٣٠٠عنرص رقمي) بحيث تكون الكلامت
ذات املعاين املتقاربة ذات رضب نقطي للمتجهني يقرتب من الواحد (أي أن الزاوية
بني املتجهني تساوي أو تقرتب من الصفر).
هذا الطريقة يف تسهيل التعامل مع الكلامت عرب حتويلها إىل متجهات رقمية يمكن
استخدامها كذلك يف األصناف اللغوية (أو أية قيم تصنيفية )categorical data
(ويف هذه احلالة تسمى الطريقة بناء املتجه الكثيف) .فاملشهور هو استخدام املتجه
ذو الرقم الواحد one-hot encodingهلذه األنواع من البيانات .وهذا التمثيل ال
خصوصا عند وجود عدد كبري من األصناف .فمثال ،نرش تشن وماننق بحث ًا بأن
ً يصلح
استخدام املتجه الكثيف (أو املضامني) سبب رسعة أكرب يف إعراب الكلامت syntactic
-114-
.parsingكام نرش أحد الباحثني استخداما ملضامني قسم الكلمة (بدال من قسم الكلمة
نفسه) من أجل نمذجة اجلمل والفقرات(.)Yu, 2016
جدول :5استخراج سياقات يف العبارة« :بالنسبة للمسلمني ،يرتبط حائط الرباق بقصة اإلرساء
واملعراج» مع اعتبار السياق الكلمتني املجاورتني للكلمة.
ثم تقوم اخلوارزمية ببناء مصفوفتني :مصفوفة مضامني الكلمة املعنية (عادة الكلمة
طول بعدد مفرداتالوسطى) ،ومصفوفة مضامني كلامت السياق .كال املصفوفتني هلام ٌ
اللغة ،وعرض بحسب طول املتجه النهائي املطلوب (عادة .)٣٠٠كال املصفوفتني
ينشآن بأرقام عشوائية ابتدائية.
يتم التدريب عن طريق أخذ الكلامت كلمة كلمة .ولكل كلمة ينشأ جدول السياقات
مع إضافة سياقات خاطئة سلبية negative samplingذات توارد صفري.
هناك نمطان للخوارزمية :النمط األول رزمة الكلامت continous bag of words
) )CBOWوهبا ُيتنبأ بالكلمة املعنية من سياقها ،والنمط الثاين skipgramحياول أن
يتنبأ بالسياق من كلمة معينة.
-115-
لو أخذنا النمط الثاين يف االعتبار ،فإن اخلوارزمية ستقوم بعد ذلك برضب نقطي
بني مضمون الكلمة املعنية مع مضامني كلامت السياق (أي أهنا حتسب مقدار الزاوية
بني هذه الكلامت) .ومن ثم يتم حساب اخلطأ يف الناتج من الرضب (جيب أن يساوي
وصفرا للسياقات السلبية) .بعد ذلك ،ستقوم اخلوارزمية
ً واحدً ا للسياقات اإلجيابية
بتعديل املضامني يف كال املصفوفتني لتقليل هذا اخلطأ.
تستمر املضامني يف التحسن بينام تعاد هذه العملية لكل كلمة يف الذخرية اللغوية،
وأحيانا تعاد لعدة دورات عىل كامل الذخرية .epochsالناتج النهائي من اخلوارزمية
هي مصفوفة الكلمة املعنية وفيها متثيل لكل كلمة بشكل متجه رقمي.
-116-
تأخذ تركيبة الكلمة باالعتبار عند التدريب .وهاتان اخلاصيتان حتديدً ا مهمتان يف اللغة
مهم يف معنى الكلمة ،كام أن بعض السوابق دورا ً
العربية ،حيث إن وزن الكلمة يلعب ً
واللواحق مؤثرة يف املعنى (مثل التاء املربوطة).
من العيوب املشتهرة عن اخلوارزمية أهنا ال تفرق بني املتشاهبات اللفظية
.homographsفمثال املتجه الناتج لكلمة «عني» سيكون خمتال ،وذلك ألن الكلمة هلا
ٍ
معان تأيت يف سياقات متباينة .ففي آلية عمل اخلوارزمية ،تقوم اخلوارزمية بتصحيح عدة
معامل اخلطأ كل مرة ترد فيها الكلمة بيشء مناسب للكلامت املصاحبة (يف السياق).
ولكن الكلمة هلا سياقات متباينة مما يؤدي إىل إنتاج متجه رقمي وسطي (حسب عدد
مرات تكرار كل معنى).
أيضا ،حمدودية اخلوارزمية عىل الكلامت التي وردت يف الذخرية التي ومن العيوب ً
تم التدريب عليها .فهي ليست تعميم َّية بحيث يمكنها التنبؤ بالكلامت التي مل ترد ساب ًقا
يف الذخرية.
من أجل ذلك قام باحثون بتطوير عدة نامذج معدلة عىل الصيغة األساسية .من
ذلك حزمة fastTextالتي طورها باحثون يف رشكة فيسبوك ،والتي ال تكتفي بتمثيل
الكلامت بشكلها النهائي ولكن تأخذ أبعاض الكلمة ( )subwordبعني االعتبار.
فتمثيل الكلمة الناتج عن هذه احلزمة هو مبني عىل كل أبعاضها الكتابية سواء احلروف
أو األبعاض الثنائية bigramأو الثالثية أو حتى أكثر من ذلك .فمثال ،التمثيل اخلاص
بكلمة «خيل» سيتكون من جمموع متثيل كل حرف من حروفها الثالثة ،باإلضافة إىل
متثيل َب ْع َض ْيها «خي» و «يل» .هذه احلزمة أفضل من سابقتها كوهنا تأخذ الرصف يف
االعتبار (واللغة العربية غنية رصف ًيا) ،ويمكنها التنبؤ بكلامت مل ترد من قبل (واللغة
العربية كثرية االشتقاقات وااللتصاقات).
لكن التطور يف هذا املجال مل يتوقف .فقد تنبه الباحثون إىل أن اخلوارزمية ال تأخذ
السياق باالعتبار .نعم ،هي تويل الكلامت املصاحبة للكلمة املعنية اهتامما ،لكن هذه
الكلامت استبعدت من السياق الكامل للفقرة أو حتى املقالة .وعاجلت هذا القصور
خوارزميات تستخدم طبقات ذات خصائص تذكر ّية لسالسل البيانات وأشهرها طبقة
الذاكرة قصرية املدى املطولة .LSTMكام طورت أكثر عرب خاصية الرتكيز attention
-117-
والتي تعطي اهتام ًما أكرب للكلامت ذات التأثري األكرب عند التنبؤ بالكلمة التالية .فمثال
يف اجلملة التالية« :وحيب األطفال اللون األخرض واألمحر و__» ،فإن الرتكيز من أجل
التنبؤ بالكلمة الناقصة سيكون منصبا أكثر عىل كلمتي «األخرض» و«واألمحر» كوهنام
مؤثران عىل االختيار .وذاع صيت النامذج املستخرجة هبذه الطرق (مثل نامذج BERT
( )Devlin, Chang, Lee, & Toutanova, 2018وRadford et al.,( GPT-2
))2019التي أظهرت جودهتا يف توليد فقرات كاملة بشكل آيل متوافقة بشكل كبري مع
السياق لفقرة مكتوبة معطاة.
-5خامتة
تطورت خوارزميات الذكاء االصطناعي املستخدمة لتحليل ونمذجة الكلمة تطورا
كبريا يف السنوات األخرية ،والتي تعد خطوة أساسية مهمة لكثري من تطبيقات معاجلة
اللغة الطبيعية .فال شك أن معرفة املعاين واملباين للكلامت (اللبنات األساسية للكالم)
رضوري من أجل فهم الكالم أو إنتاجه آليا .ولذا تعددت الطرق التي تفرس ومتثل
الكلامت وتبني جرسا ليسهل فهمه من قبل احلاسب اآليل الذي لغته ال تتجاوز األرقام.
-118-
صنفت هذه الورقة األبحاث يف هذا املجال إىل نمطني :النمط اللغوي املبني عىل
الدراسات اللغوية للكلمة مثل التحليل الرصيف والنمط التوزيعي الذي يستنتج املعاين
للكلمة بناء عىل سياقاهتا وتوزيعها يف النص.
رشحت هذه الورقة كثريا من اخلوارزميات املستخدمة يف حتليل ونمذجة الكلمة يف
كال النمطني ،مع تبيان جوانب القصور عند بعضها وخصوصا عند تطبيقها لنمذجة
الكلمة العربية .كام قارنت بني النمطني وبينت أهنام مكمالن لبعضها ،إذ يمكن
االستفادة من النمط التوزيعي كخطوة أوىل لتحليل كثري من املهام يف النمط اللغوي.
منصب بشكل كبريّ بقي أن نختم بأن جزء ًا كبري ًا من التطور يف النمط التوزيعي
عىل اللغة اإلنجليزية ،وكثري من النامذج املستخرجة هي لذات اللغة ،واألبحاث يف
اللغة العربية متأخرة يف جتربة مثل هذه اخلوارزميات وقياس جودهتا عىل اللغة العربية
حتديدا ،حيث إن للغة العربية مشاكلها اخلاصة .فمثال ،تشكيل الكلمة هي ميزة شبه
فريدة للغة العربية وعدم التشكيل ليس خطأ إمالئيا ،وإنام وجوده اختياري ومتفاوت
وتقديري .ويعمد كثري من الباحثني للغة العربية إىل إزالته منعا للزيادة يف تباعد الكلامت
.sparsenessولكن هذه اإلزالة تزيد من غموض الكلمة (والتي بسببها يعمد الكاتب
كثريا إىل كتابة التشكيل أو الشدة) .وعليه فيجب البحث عن إمكانية بناء خوارزمية ذكية
لبناء املضامني تستطيع متييز احلركات وتستفيد منها دون أن تؤثر عىل تباعد الكلامت.
-119-
املراجع
مكتبة. أقسام الكالم العريب من حيث الشكل والوظيفة.)1975( . ف،الساقي
.اخلانجي بالقاهرة
Albared, M., Omar, N., & Ab Aziz, M. J. (2009). Arabic part of speech
disambiguation: A survey. International Review on Computers
and Software, 4(5), 517–532.
Algahtani, S., & McNaught, J. (2015). Joint Arabic Segmentation
and Part-Of-Speech Tagging. In Second Workshop on Arabic
Natural Language Processing (p. 108).
Alosaimy, A., & Atwell, E. (2018). Diacritization of a Highly Cited
Text: A Classical Arabic Book as a Case. In 2nd IEEE
International Workshop on Arabic and derived Script Analysis
and Recognition (ASAR 2018). London, UK.
Attia, M. (2006). An Ambiguity-Controlled Morphological Analyzer
for Modern Standard Arabic Modelling Finite State Networks.
In The Challenge of Arabic for NLP/MT Conference. London:
The British Computer Society.
Boudchiche, M., Mazroui, A., Bebah, M., Lakhouaja, A., & Boudlal,
A. (2016). AlKhalil Morpho Sys 2: A robust Arabic morpho-
syntactic analyzer. Journal of King Saud University-Computer
and Information Sciences.
Buckwalter, T. (2002). Buckwalter Arabic Morphological Analyzer
Version 1.0.
Devlin, J., Chang, M.-W., Lee, K., & Toutanova, K. (2018). BERT:
Pre-training of Deep Bidirectional Transformers for Language
Understanding. CoRR, abs/1810.0(Mlm).
-120-
Dukes, K., Atwell, E., & Habash, N. (2013). Supervised collaboration
for syntactic annotation of Quranic Arabic. Language
Resources and Evaluation. https://doi.org/10.1007/s10579-011-
9167-7
Elhadj, Y., Al-Sughaiyer, I. A., Khorsi, A., & Alansari, A. (2010).
The Morphological Analysis of the Holy Qur’an: A Database
of the Entire Quranic Text (Arabic). International Journal of
Computer Science and Engineering in Arabic, 3(1).
Firth, J. R. (1957). A synopsis of linguistic theory 1930-55. Studies
in Linguistic Analysis (Special Volume of the Philological
Society), 1952–59, 1–32.
Habash, N. (2010). Introduction to Arabic Natural
Language Processing. Synthesis Lectures on Human
Language Technologies. https://doi.org/10.2200/
S00277ED1V01Y201008HLT010
Habash, N., & Roth, R. M. (2009). CATiB: the Columbia Arabic
Treebank. In Proceedings of the ACL-IJCNLP 2009
Conference Short Papers (pp. 221–224). Suntec, Singapore.
Habash, N., & Sadat, F. (2006). Arabic Preprocessing Schemes for
Statistical Machine Translation. In Proceedings of the Human
Language Technology Conference of the NAACL. New York
City, US.
Hajic, J., Smrz, O., Zemánek, P., Šnaidauf, J., & others. (2004).
Prague Arabic dependency treebank: Development in data and
tools. Proceedings of the NEMLAR International Conference
on Arabic Language Resources and Tools, 110–117.
Heintz, I. (2014). Language Modeling. In I. Zitouni (Ed.), Natural
Language Processing of Semitic Languages (pp. 161–196).
Springer. https://doi.org/10.1007/978-3-642-45358-8
-121-
Khoja, S. (2001). APT: Arabic part-of-speech tagger. In Proceedings
of the Student Workshop at NAACL (pp. 20–25). Pittsburgh,
PA, USA.
Kudo, T., & Matsumoto, Y. (2001). Chunking with support vector
machines. In Proceedings of the Second Meeting of the North
American Chapter of the Association for Computational
Linguistics. Pittsburgh, Pennsylvania. https://doi.
org/10.3115/1073336.1073361
Maamouri, M., & Bies, A. (2004). Developing an Arabic treebank:
methods, guidelines, procedures, and tools. Proceedings of
the Workshop on Computational Approaches to Arabic Script-
Based Languages, 2–9.
Maamouri, M., Bies, A., Buckwalter, T., Jin, H., & Mekki, W. (2005).
Arabic Treebank: Part 3 (full corpus) v 2.0 (MPG + Syntactic
Analysis) LDC2005T20.
Mikolov, T., Sutskever, I., Chen, K., Corrado, G., & Dean, J. (2013).
Distributed Representations of Words and Phrases and their
Compositionality. In Advances in Neural Information Processing
Systems 26 (NIPS 2013) (pp. 1–9). Lake Tahoe, USA.
Mitchell, T. M. (1997). Does Machine Learning Really Work? AI
Magazine, 18(3), 71–83.
Mohamed, E. (2012). Morphological Segmentation and Part of
Speech Tagging for Religious Arabic. In Fourth Workshop on
Computational Approaches to Arabic Script-based Languages
(CAASL4) (pp. 65–71). San Diego, USA.
Ng, A. Y., & Jordan, M. I. (2002). On Discriminative Vs. Generative
Classifiers: a Comparison of Logistic Regression and Naive
Bayes. In Advances in neural information processing systems
(pp. 841–848).
-122-
Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever,
I. (2019). Language Models are Unsupervised Multitask
Learners.
Sawalha, M. (2011). Open-source resources and standards for Arabic
word structure analysis: Fine grained morphological analysis
of Arabic text corpora, PhD thesis. University of Leeds.
Schneider, N., Mohit, B., Oflazer, K., & Smith, N. (2012). Coarse
lexical semantic annotation with supersenses: an Arabic case
study. In Proceedings of the 50th Annual Meeting of the
Association for Computational Linguistics (Volume 2: Short
Papers) (pp. 253–258). Jeju Island, Korea.
Smrz, O. (2007). Functional Arabic Morphology. Formal System
and Implementation, PhD thesis. The Prague Bulletin of
Mathematical Linguistics. Charles University in Prague.
Tsarfaty, R., Seddah, D., Goldberg, Y., Kuebler, S., Versley, Y.,
Candito, M., … Tounsi, L. (2010). Statistical Parsing of
Morphologically Rich Languages (SPMRL): What, How
and Whither. In Proceedings of the NAACL HLT 2010 First
Workshop on Statistical Parsing of Morphologically-Rich
Languages (pp. 1–12). Los Angeles, CA, USA: Association for
Computational Linguistics.
Yaseen, M., Attia, M., Maegaard, B., Choukri, K., Paulsson, N.,
Haamid, S., … Ragheb, A. (2006). Building Annotated Written
and Spoken Arabic LR’s in NEMLAR Project. In LREC:
Proceedings of the International Conference on Language
Resources and Evaluation (pp. 533–538). Genoa, Italy.
Yu, D. J. (2016). Part-Of-Speech Tag Embedding for Modeling
Sentences and Documents, Master Thesis. University of
California, Los Angeles.
-123-
Zeroual, I., & Lakhouaja, A. (2016). A New Quranic Corpus Rich
in Morphosyntactical Information. International Journal of
Speech Technology, 1–8.
Zhang, Y., Li, C., Barzilay, R., & Darwish, K. (2015). Randomized
Greedy Inference for Joint Segmentation, POS Tagging and
Dependency Parsing. In Proceedings of the 2015 Conference
of the North American Chapter of the Association for
Computational Linguistics: Human Language Technologies
(pp. 42–52). Stroudsburg, PA, USA: Association for
Computational Linguistics. https://doi.org/10.3115/v1/N15-
1005
-124-
الفصل اخلامس
تقنيات الذكاء االصطناعي واملعاجلة احلاسوبية
للمتالزمات اللفظية والتراكيب االصطالحية
-125-
-126-
ملخص الفصل
ُيشكل الغموض اللغوي بكافة مستوياته ودرجاته حتديا مستمر ًا لكثري من مهام
املعاجلة اآللية للغات الطبيعية؛ ومن هنا بدأ االهتامم مبكر ًا بدراسة عدد من الظواهر
اللغوية التي تسهم فيه بشكل واضح ،ومن أمهها :ظاهرة الرتاكيب االصطالحية
واملتالزمات اللفظية ،والتي لفتت منذ وقت مبكر انتباه عدد كبري من الباحثني واملهتمني
يف ختصصات بينية لغوية وحاسوبية متعددة .ويف هذا الفصل نقدم استعراض ًا موجز ًا
جلهود الباحثني يف هذا امليدان ،من خالل تتبعنا ألهم الدراسات التي اهتمت باملعاجلة
احلاسوبية هلذه الظاهرة اللغوية ،وسيبدأ الفصل بمقدمة تبني أمهية دراسة هذه الظاهرة
وأهم جماالت البحث فيها ،ثم يقدم القسم الثاين من هذا الفصل إطار ًا نظري ًا لدراسة
هذه الظاهرة ويشتمل عىل التعريف العميل ،وذكر أهم اخلصائص اللغوية املميزة هلا يف
اللغة العربية ،باإلضافة إىل استعراض أهم التصنيفات املستعملة للرتاكيب االصطالحية
يف مستويات لغوية متعددة .ويف القسم الثالث نقدم استعراض ًا ألهم تطبيقات املعاجلة
احلاسوبية هلذه الظاهرة والتي تلخص املشاكل البحثية الرئيسة التي تتضمن الرتاكيب
االصطالحية يف أدبيات معاجلة اللغات ،ويسلط هذا القسم الضوء بشكل خاص عىل
مهمتي االستخراج والتعرف اآليل ،وما يتعلق باملصادر اللغوية احلاسوبية للرتاكيب
االصطالحية وتطبيقات معاجلة اللغات ،وأخري ًا نختم هذا الفصل بعرض موجز ألبرز
التحديات التي ال تزال تشكل عقبة يف سبيل الوصول إىل درجات عالية من الدقة يف
مهام املعاجلة احلاسوبية املختلفة هلذه الظاهرة اللغوية املعقدة.
-127-
-1املقدمة
تُعد ظاهرة الرتاكيب االصطالحية من الظواهر اللغوية املعقدة التي شغلت كثري ًا من
الباحثني يف عدد من املجاالت العلمية املتصلة باللغة ،كعلوم اللسانيات املتنوعة مثل:
اللسانيات التطبيقية والنفسية ،وكذلك يف عدد من ختصصات الذكاء االصطناعي،
كاللسانيات احلاسوبية ،وعلوم املعاجلة اآللية للغات .وحتاول أغلب هذه األبحاث
العمل عىل تقديم مقرتحات علمية وعملية تساعد يف تقليل نسبة الغموض اللغوي
الذي تسببه هذه الظاهرة يف عدد من تطبيقات املعاجلة اآللية للغات :كالرتمجة اآللية،
وتطبيقات التحليل اللغوي املختلفة :مثل التحليل الرصيف والنحوي والداليل وغريها.
ويعود االهتامم هبذه الظاهرة اللغوية لعدد من األسباب التي من أمهها النسبة الكبرية
التي تشكلها هذه الرتاكيب يف اللغة ،وخاصة يف اللغة الشائعة التي تستعمل يف احلياة
اليومية ،ففي اللغة اإلنجليزية عىل سبيل املثال ترتاوح النسب املقدرة هلذه الرتاكيب
من )Biber et al., 1999( %30إىل أكثر من )Erman and Warren, 2000) %50
ويف املعجم احلاسويب اإلنجليزي WordNetشكلت نسبة هذه الرتاكيب بكل أنواعها
حوايل %41من إمجايل عدد املداخل املعجمية ).(Miller et al., 1990
أما يف اللغة العربية فبالرغم من عدم وجود دراسات إحصائية أو نسب حمددة هلذه
الرتاكيب كام يف اإلنجليزية ،إال أن كثرهتا تعد كذلك ظاهرة يف العربية ،وخاصة عند
استقراء نتائج البحث يف املدونات العربية الضخمة((( .كام يؤكد أمهية هذه الظاهرة يف
العربية ،العناية املبكرة هبا من قبل الباحثني واللغويني العرب ،فقدي ًام ظهر هذا االهتامم
يف مؤلفات كثرية اهتمت بجمع أمثال العرب وحكمهم ،وكذلك قصد بعض املؤلفني
تفسري ماورد يف نصوص الوحيني الكتاب والسنة من األمثال واحلكم ،وهذه العناية
املبكرة بال شك تدل عىل الوعي املبكر عند علامء اللغة باألمهية البالغة هلذا النوع من
الرتاكيب يف فهم اللغة وتفسري معانيها ،وكذلك دورها يف رفع املستوى اللغوي للكتاب
وطالب العلم ،ويوضح جدول 1عدد ًا من املصادر العربية القديمة التي اعتنت هبذا
النوع من الرتاكيب.
-1أكدت كثري من الدراسات اللغوية املبنية عىل مدونات لغوية شيوع هذا النوع من الرتاكيب يف اللغة العربية،
ويمكن للمهتم مراجعة الدراسات التالية ملزيد من املعلومات حول هذا املوضوع( :اخلويل1998 ،؛ فايد2014 ،؛
.)Alghamdi, 2018 Zaghouani, 2014; Abdou, 2011
-128-
تاريخ وفاته املؤلف الكتاب
60هـ صحار بن عياش األمثال
170هـ املفضل الضبي األمثال
195هـ السدويس األمثال
223هـ القاسم بن سالم األمثال
291هـ ابن سلمة الفاخر
250هـ أبو عكرمة الضبي األمثال
350هـ أبو منصور الثعالبي ثامر القلوب يف املضاف واملنسوب
356هـ أبو عيل القايل كتاب أفعل من كذا
487هـ البكري رشح كتاب األمثال
518هـ امليداين جممع األمثال
538هـ الزخمرشي أساس البالغة
1111هـ املحبي ما يعول عليه يف املضاف واملضاف إليه
جدول :1أمثلة لكتب مجعت عددا من أنواع الرتاكيب االصطالحية يف املصادر العربية القديمة.
ويف الدراسات اللغوية احلديثة ظهر االهتامم هبذه الظاهرة وما يتصل هبا جليا يف
عدد كبري من األبحاث التي تناولت هذه الظاهرة من خمتلف زواياها ،فعىل سبيل املثال،
اهتم بعض الباحثني بجمع هذه الرتاكيب يف معاجم خاصة كام يف هذه األمثلة( :أبو
سعد1987 ،؛ إسامعيل وآخرون1996 ،؛ بشارة2002،؛ أبو داوود2003،؛ حافظ،
2004؛ كامل ،2007 ،وغريها) ،بينام اجتهت دراسات أخرى إىل تقديم أطر نظرية
لدراسة هذا النوع من الرتاكيب كام يف األعامل التالية(:القاسمي1979 ،؛ حجازي،
1980؛ غزالة1993 ،؛ هليل1996 ،؛ ابن عمر ،)2007 ،وقدمت هذه األبحاث
العديد من املقرتحات النظرية فيام يتعلق بتعريف هذه الرتاكيب اللغوية ،ورشح
أنواعها ،ومجع ما يستعمل من مصطلحات خمتلفة يف وصفها ،باإلضافة إىل دراسة أهم
خصائصها وتصنيفاهتا يف خمتلف مستويات التحليل اللغوي.
وقد أكدت بعض الدراسات اللغوية احلديثة املبنية عىل مدونات ضخمة متثل اللغة
العربية املعارصة أن الرتاكيب االصطالحية وما يتصل هبا من ظواهر لغوية مشاهبة
-129-
جيب أن تشكل جزء ًا أساسي ًا يف كل الربامج اللغوية التي هتدف إىل حتليل النصوص
العربية حاسوبيا؛ وذلك ألثرها املهم يف حتديد مستويات الغموض اللغوي يف خمرجات
تطبيقات معاجلة اللغة املختلفة(.)Abdou, 2011; Najar et al., 2015
وإذا ما أمعنا النظر نجد كذلك أن كثريا من الكلامت املفردة يف اللغة العربية يتوقف
فهم معانيها املختلفة عىل فهم معنى عدد من الرتاكيب املتصلة هبا ،وقد تكون بعض
معاين هذه الرتاكيب أكثر شيوعا من معنى الكلمة وهي مفردة ،كام يظهر ذلك عىل سبيل
املثال يف كلمة «عني» ،والتي ال يمكن استيعاب معانيها املتعددة يف السياقات اللغوية
املختلفة إال بفهم معاين عدد من املتالزمات اللفظية املتصلة هبا ،ويمكن توضيح هذه
الفكرة من خالل تشبيه الكلمة املفردة «عني» برأس جبل اجلليد ،والذي قد يظهر يف
أول وهلة صغري ًا ولكنه يف الواقع وعند التأمل جمرد قمة جلبل عظيم كام هو موضح يف
الشكل . 1
املرتبطة هبا.
اﻟﻤﺮﺗﺒﻄﺔ ﺑﮭﺎ. ﻟﻠﺘﺮاﻛﯿﺐللرتاكيب وأمثلة
وأﻣﺜﻠﺔ كلمة «عني»
"ﻋﯿﻦ" فيها ﻛﻠﻤﺔ
تظهرﻓﯿﮭﺎ اجلليد
ﺗﻈﮭﺮ لقمة جبل
اﻟﺠﻠﯿﺪ رمزيةﺟﺒﻞ
صورةﻟﻘﻤﺔ شكل :1
رﻣﺰﯾﺔ ﺷﻜﻞ :1ﺻﻮرة
ﻣﻤﺎ ﯾﺆﻛﺪ أھﻤﯿﺔ دراﺳﺔ ھﺬه اﻟﻈﺎھﺮة اﻟﻠﻐﻮﯾﺔ وﻣﺎ ﯾﺘﺼﻞ ﺑﮭﺎ ،ﻣﺎ ﺗﻮﺻﻠﺖ إﻟﯿﮫ ﻋﺪد ﻣﻦ
ﻷﺑﺤﺎث ﻓﻲ ﻋﻠﻢ اﻟﻠﻐﺔ اﻟﻌﺼﺒﻲ واﻟﻨﻔﺴﻲ ﻣﻦ ﻧﺘﺎﺋﺞ ﺗﻔﯿﺪ أن اﻟﻤﻌﺠﻢ اﻟﻠﻐﻮي ﻓﻲ اﻟﻌﻘﻞ
ﺒﺸﺮي ﻻ ﯾﺘﻜﻮن ﻣﻦ ﻣﻔﺮدات وﻛﻠﻤﺎت -130-
ﻣﻌﺰوﻟﺔ ﻓﺤﺴﺐ ﺑﻞ ﯾﺘﻤﺜﻞ ﻓﻲ ﺷﺒﻜﺔ ﻣﻌﻘﺪة ﻣﻦ
ﺘﺮاﻛﯿﺐ واﻟﻌﻼﻗﺎت اﻟﻤﺘﻨﻮﻋﺔ اﻟﺘﻲ ﺗﻤﺜﻞ اﻟﻤﻌﺠﻢ اﻟﻠﻐﻮي ﻟﻠﻌﻘﻞ اﻟﺒﺸﺮي Wray,
ومما يؤكد أمهية دراسة هذه الظاهرة اللغوية وما يتصل هبا ،ما توصلت إليه عدد من
األبحاث يف علم اللغة العصبي والنفيس من نتائج تفيد أن املعجم اللغوي يف العقل
البرشي ال يتكون من مفردات وكلامت معزولة فحسب بل يتمثل يف شبكة معقدة من
الرتاكيب والعالقات املتنوعة التي متثل املعجم اللغوي للعقل البرشي )Wray, 2002
.(Sinclair, 1991باإلضافة إىل ذلك ،تؤكد كثري من األبحاث يف علم اللغة التطبيقي
أن طالقة متعلم اللغة تعتمد بشكل أسايس عىل مدى إتقانه ومعرفته هبذه الرتاكيب
وفهم الصالت والعالقات اللغوية التي حتكمها(Fillmore, 1979; Pawley and
Syder,1983; Ohlrogge, 2009).
ويف علوم اللسانيات احلاسوبية ومعاجلة اللغات ظهر كذلك اهتامم مبكر هبذه
الظاهرة وذلك لدورها املحوري يف حتسني الدقة اللغوية لنتائج كثري من تطبيقات
املعاجلة اآللية للغات ،فوجدت يف هذا املجال العديد من املشاريع البحثية التي هتدف
إىل تضمني هذه الرتاكيب يف مراحل املعاجلة اآللية التقليدية للغات((( ،وذلك ببناء
معاجم حاسوبية داللية خمتصة هبذه الرتاكيب كام نجد يف األعامل التاليةBar et al., (:
)2014; Constant et al., 2013; Alghamdi, 2018أو حتسني عمل اخلوارزميات
اخلاصة بالتعرف واالستخراج اآليل هلذه الرتاكيب من النصوص كام يف هذه األمثلة:
( ،)Ramisch 2015; Carpuat and Diab, 2010; Rikters and Bojar, 2017
وتعود بداية األبحاث التي وظفت األدوات احلاسوبية يف دراسة هذه الظاهرة اللغوية
إىل الستينات امليالدية مع بدايات اخرتاع احلاسوب وانتشار استعامله ،وقد ركزت
األبحاث املبكرة يف هذا املجال عىل تطبيق عدد من الطرق التي تفيد من احلاسوب
وقدراته الفائقة يف االستخراج اآليل لعدد من أنواع الرتاكيب االصطالحية بناء عىل
قوالب لغوية حمددة مسبق ًا كام نجد يف الدراسات التاليةStevens and Giuliano, (:
.)1965; Berry-Rogghe, 1973; Atwell, 1988
-1تتكون املعاجلة اآللية للغات من جمموعة من املراحل املتعارف عليها يف اللسانيات احلاسوبية والتي غاليا ما تبدأ بعدد
من مهام حتضري النصوص املراد معاجلتها ثم توظيف عدد من اخلوارزميات يف التحليل اللغوي والتي تشمل التقسيم
اآليل للكلامت واجلمل ثم إرجاع املشتقات الرصفية إىل أصوهلا ثم تأيت مرحلة الرتميز اآليل للوحدات الرصفية بعدد
من املعلومات اللغوية املتعلقة بأقسام الكالم والعالقات النحوية واملعلومات الداللية ،ملزيد من التفاصيل عن مراحل
التحليل اللغوي اآليل يمكن مراجعة (محادة.)2009 ،
-131-
-2اإلطار النظري
يف هذا اجلزء سنتناول باختصار أهم املقدمات النظرية التي تشكل مدخ ً
ال لفهم
هذه الظاهرة اللغوية ،وسنقترص هنا حتديد ًا عىل ذكر ما هو مهم لفهم عدد من املشاكل
احلاسوبية التي تنشأ عن معاجلة هذه الظاهرة يف املستويات اللغوية املختلفة.
شكل :2نامذج من املصطلحات املستعملة لوصف ظاهرة الرتاكيب االصطالحية يف اللغة العربية(((.
:ﻧﻤﺎذج ﻣﻦ اﻟﻤﺼﻄﻠﺤﺎت اﻟﻤﺴﺘﻌﻤﻠﺔ ﻟﻮﺻﻒ ظﺎھﺮة اﻟﺘﺮاﻛﯿﺐ اﻻﺻﻄﻼﺣﯿﺔ ﻓﻲ اﻟﻠﻐﺔ اﻟﻌﺮﺑﯿﺔ1.1ﺷﻜﻞ
ﻓﻲواحدﻣﺠﻤﻮﻋﺔ ﻣﻦ
ﺗﺘﻔﻖ مفهوم واملتالزماتواﻟﺘﻲ
اللفظية) ويراد هبام اﻟﻤﻘﺘﺮﺣﺔ اﻟﺘﻌﺮﯾﻔﺎتاالصطالحية
ﻣﻦمصطلحي (الرتاكيبﻋﺪدالباحثﺑﺴﺮد يستعمل
ﺳﻨﻜﺘﻔﻲيف هذا الفصل
-1 وھﻨﺎ
وهو الذي نرشحه يف هذا اجلزء من البحث.
ﻟﺼﻔﺎت واﻟﺨﺼﺎﺋﺺ اﻟﻤﺸﺘﺮﻛﺔ ﻟﻠﺘﺮاﻛﯿﺐ اﻟﻠﻐﻮﯾﺔ اﻟﻤﺴﺘﮭﺪﻓﺔ ﻓﻲ ﺳﯿﺎق ھﺬه اﻟﺪراﺳﺔ
-132-
وھﻲ ﻛﻤﺎ ﯾﻠﻲ:
• "ﻛﻠﻤﺘﯿﻦ أو ﻣﺠﻤﻮﻋﺔ ﻣﻦ اﻟﻜﻠﻤﺎت ﺗﺮد ﻣﻊ ﺑﻌﻀﮭﺎ ﺑﻌﻀﺎ ً ﺑﺸﻜﻞ داﺋﻢ وﺛﺎﺑﺖ ﻓﻲ
وهنا سنكتفي برسد عدد من التعريفات املقرتحة والتي تتفق يف جمموعة من الصفات
واخلصائص املشرتكة للرتاكيب اللغوية املستهدفة يف سياق هذه الدراسة وهي كام ييل:
«كلمتني أو جمموعة من الكلامت ترد مع بعضها بعض ًا بشكل دائم وثابت يف
خمتلف السياقات»(غزالة 1993 ،ص.)7.
«كل عبارة من العبارات املتواترة يف اللغة ،وقد تك َّلست مكوناهتا وتواردت يف
شكل من أشكال املركبات النحوية املختلفة؛ للداللة عىل معنى تعادل قيمته
اإلخبارية قيمة العالمة اللغوية الواحدة» (ابن عمر 2007 ،ص.)42.
«جتمع لفظي (أكثر من وحدة معجمية بسيطة) ،يقع يف االستعامل اللغوي
باطراد ،وله داللة ثابتة ال تنتج من جتميع دالالت مفرداته املكونة له»( .فايد،
2014ص.)113.
ومن التعريفات التي يكثر استعامهلا خاصة يف أدبيات املعاجلة اآللية للغات
واللسانيات احلاسوبية تعريف (2010: p.269) Baldwin and Kimوالذي اعتمد
بشكل كبري عىل تعريف سابق اقرتحه (2002) Sag et al.هلذا النوع من الرتاكيب
والذي يمكن ترمجته كام ييل:
«الرتاكيب االصطالحية هي وحدات معجمية ثابتة يمكن تقسيمها إىل وحدات
معجمية أبسط منها ،وتتميز بظهور املعنى االصطالحي أو املجازي فيها والذي يسبب
نوع ًا من الغموض يف أحد مستويات التحليل اللغوي( :املعجمي -الرتكيبي -الداليل
-الوظيفي -اإلحصائي)».
ومن خالل هذه التعريفات وغريها يمكننا حتديد جمموعة من اخلصائص اللغوية
التي يمكن استعامهلا لتمييز هذا النوع من الرتاكيب وهو ما سنتناوله يف اجلزء التايل من
هذا الفصل.
-133-
2.2اخلصائص اللغوية للرتاكيب االصطالحية
تتميز الرتاكيب االصطالحية التي تشكل هذه الظاهرة اللغوية املعقدة بعدد من
الصفات التي جتعلها سببا ملشاكل متعددة يف التحليل اللغوي اآليل ومن أهم هذه
الصفات ما ييل:
تعدد مكونات الرتكيب :فمقتىض كلمة تركيب تعني بالرضورة أهنا البد أن
تتكون من وحدتني معجميتني عىل األقل ،وهذا ما يميزها عن املفردات املنعزلة
والكلامت املستقلة ،ويرى كثري من اللغويني املحدثني أن التفريق بني مفهومي
الكلمة والرتكيب يف التطبيقات احلاسوبية مثار كثري من االختالف واجلدل؛
ألن الكلمة يمكن أن يقصد هبا تركيب لغوي كامل وخاصة إذا كان املعيار
الوحيد للتفريق هو وجود املسافة أو الفراغ الذي يكون بني املفردات ،وهو
معيار وإن كان سهل التطبيق يف مهام املعاجلة اآللية للغة إال أنه غري دقيق خاصة
يف اللغة العربية التي تتميز بالتداخل الشديد بني الوحدات املعجمية يف املفردة
الواحدة ،كام يف تركيب (أرأيتها؟) الذي اجتمعت فيه أربع وحدات معجمية
متصلة وليس بينها مسافة يف الكتابة ،ففي اللغة العربية من الشائع أن نرى مج ً
ال
كاملة يف صورة مفردة واحدة كام يف املثال السابق.
التواتر وشيوع التالزم بني مكوناهتا :من أهم ما تتصف به الرتاكيب االصطالحية
أن الوحدات املعجمية املكونة هلا غالبا ما تكون متصاحبة يف االستعامل ولو
اختلف السياق اللغوي الذي تأيت فيه ،وكذلك ال يمكن يف أغلب األحوال
استبدال مكوناهتا بألفاظ أخرى مرادفة هلا.
املعنى االصطالحي :وهذه أهم صفة يمكن هبا متييز هذه الرتاكيب يف مستوى
التحليل الداليل ،فام يميز هذه الرتاكيب أهنا تدل عىل معنى اصطالحي خمتلف
عن املعنى احلريف الذي تدل عليه مكوناهتا من الكلامت املفردة .و ُيعرب أحيانا
عن هذه الصفة باملعنى الكيل أو اإلمجايل للرتكيب والذي ال يناسب وال
يتوافق مع داللة أجزائه ،وهذه الصفة توجد يف الرتاكيب بدرجات متفاوتة،
فكلام ابتعد املعنى الكيل عن املعاين احلرفية للمفردات ،كلام َقل مستوى شفافية
الرتكيب ،وينتج عن ذلك مستوى عال من الغموض اللغوي ،وخاصة عند
-134-
استعامل التحليل اآليل التقليدي املعتمد عىل معاجلة املفردات بشكل مستقل
عن املستوى الرتكيبي هلا.
ومثل هذه الرتاكيب تصعب ترمجتها اعتامدا عىل ترمجة الكلامت املكونة هلا؛ ألهنا
بمعناها الكيل صارت وحدة معجمية ذات داللة مستقلة ،وقد تنبه اللغويون العرب
منذ وقت مبكر جد ًا ألمهية هذه اخلاصية يف الرتاكيب اللغوية ،وأثرها البالغ يف حتديد
املعنى اإلمجايل للرتكيب فعىل سبيل املثال ،ذكر سيبويه يف الكتاب عددا من الرتاكيب
اللغوية ثم أكد عىل رضورة تالزمها وأثر ذلك عىل فهم املعنى ،فيقول:
أن هذه األشيا َء ال ينفرد منها يشء دون ما بعده ،وذلك أنَّه ال جيوز أن تقول: «واعلم َّ
ك ّلمتُه فاه حتّى تقول إىل َّيف ،ألنَّك إنَّام تريد مشا َفه ًة ،وا ُملشافه ُة ال تكون إالّ من اثنني،
صح املعنى إذا قلت إىل ِ َّف ،وال جيوز أن تقول بايعتُه يد ًا ،ألنَّك إنَّام تريد أن تقول: فإنَّام َي ّ
ِ ٍ
صح املعنى إذا قلت :بيد ألهنام َع َمالن»ص.392 أخ َذ منّي وأعطاين ،فإِنَّام َي ََ
وقد تناولت بعض األبحاث اللغوية احلديثة كذلك هذه امليزة وأثرها يف التحليل
الداليل للرتاكيب فقد عرب اللغوي املعروف حسان ( )1973ص 331.عن هذا املعنى
يف الرتاكيب اللغوية بالتضام والضامئم ،فيقول:
أمخاسا
ً «ومن قبيل التضام ما يساق من أمثلة التعبريات املسكوكة مثل :يرضب
يف أسداس ،ويلقي احلبل عىل الغارب ،ويضع األمور يف نصاهبا ،وغري ذلك من
العبارات التي تنويس فيها ما كان هلا من املعنى البياين حتى أصبحت كاألمثال ال
حتتمل التغيري ،ومن هنا جاء وصفها «باملسكوكة» .وإنام ينبغي ذكر الضامئم هنا؛ ألن
االكتفاء بذكر الكلمة دون ضامئمها ال يصل باملعجم إىل غايته املنشودة».
-135-
تبع ًا ملا يسمى برأس املركب ،وهذا التصنيف يعتمد عىل اختيار الباحث ألقسام الكالم
املعتمدة يف بحثه ،فعىل سبيل املثال ،بناء عىل التصنيف العريب التقليدي للكالم إىل اسم
وفعل وحرف ،تكون املركبات تبع ًا لذلك :اسمية مثل (ثقيل الدم) ،أو فعلية مثل
(ركب رأسه) ،أو حرفية مثل (عىل عينك يا تاجر).
واختذت بعض التصنيفات من عدد الوحدات املعجمية التي تتكون منها معيار ًا
للتقسيم وتبع ًا لذلك تكون الرتاكيب :ثنائية ،أو ثالثية ،أو رباعية ...إلخ.
وقدم ابن عمر ( )2007تصنيف ًا آخر هلذه الرتاكيب مبني عىل استقراء عدد كبري من
األمثلة كام يظهر يف الشكل رقم . 3
-136-
ويف تصنيف آخر تبنى داود (- )2014يف معجمه للتعابري االصطالحية -تقسيم
هذه الرتاكيب إىل 13نوع ًا كام يظهر يف الشكل .4
ص.(22 21.)22-21
،2014،2014ص
(داود)،داود،
اﻟﻌﺮﺑﯿﺔ اﻟﻠﻐﺔ
العربية ﻓﻲاللغة اﻻﺻﻄﻼﺣﯿﺔ
االصطالحية يف ﻟﻠﺘﻌﺒﯿﺮات
للتعبريات ﺗﺼﻨﯿﻒ داود
تصنيف داود ﺷﻜﻞ :4الشكل :4
أكثرهاأﻛﺜﺮھﺎ ﺗﺄﺛﺮ
ﯾﻌﺪ ﻣﻦ ومن التصنيفات املقرتحة كذلك تصنيف غريم ( ،)2014والذي يعد من
وﻣﻦ اﻟﺘﺼﻨﯿﻔﺎت اﻟﻤﻘﺘﺮﺣﺔ ﻛﺬﻟﻚ ﺗﺼﻨﯿﻒ ﻏﺮﯾﻢ ) ،(2014واﻟﺬي
تأثر ًا باملناهج اللغوية احلديثة ،التي يراعي بعضها مدى االستفادة من هذه التصنيفات
ﺑﺎﻟﻤﻨﺎھﺞ اﻟﻠﻐﻮﯾﺔ اﻟﺤﺪﯾﺜﺔ ،اﻟﺘﻲ ﯾﺮاﻋﻲ ﺑﻌﻀﮭﺎ ﻣﺪى اﻻﺳﺘﻔﺎدة ﻣﻦ ھﺬه اﻟﺘﺼﻨﯿﻔﺎت ﻓﻲ
يف التطبيقات اآللية ملعاجلة املتالزمات اللفظية .ويظهر يف جدول 2تقسيم الرتاكيب
اﻟﺘﻄﺒﯿﻘﺎت اﻵﻟﯿﺔ ﻟﻤﻌﺎﻟﺠﺔ اﻟﻤﺘﻼزﻣﺎت اﻟﻠﻔﻈﯿﺔ .وﯾﻈﮭﺮ ﻓﻲ(((ﺟﺪول 7ﺗﻘﺴﯿﻢ اﻟﺘﺮاﻛﯿﺐ
االصطالحية إىل أربعة أنواع بناء عىل معياري الثبات والشفافية ،وكام ُيالحظ أن
اﻻﺻﻄﻼﺣﯿﺔ إﻟﻰ أرﺑﻌﺔ أﻧﻮاع ﺑﻨﺎء ﻋﻠﻰ ﻣﻌﯿﺎري اﻟﺜﺒﺎت واﻟﺸﻔﺎﻓﯿﺔ ،1وﻛﻤﺎ ﯾُﻼﺣﻆ أ
اﻟﺘﺮﻛﯿﺐ أﻗﻞ ﺛﺒﺎ
ﻛﺎنبالشفافية هنا
ﻛﻠﻤﺎكام يقصد
أﻧﮫاملختلفة،
ﯾﻌﻨﻲاللغوية
وذﻟﻚالسياقات اﻟﻤﻌﯿﺎرﯾﻦ
وعدم تغريها يف ھﺬﯾﻦ تالزم مكوناته بثبات ﺑﯿﻦ
الرتكيب هنا درجة ﻋﻜﺴﯿﺔھﻨﺎك ﻋﻼﻗﺔ -1يقصد
ﺻﺤﯿﺢ.
االصطالحي أو الكيل ومدى بعده عن املعنى احلريف للكلامت التي يتكون منها. واﻟﻌﻜﺲ
الرتكيب يف معناه ﻛﺎن أﻛﺜﺮ ﺷﻔﺎﻓﯿﺔ،
مستوى استعامل
جدول :2تصنيف الرتاكيب املعجمية بحسب درجة ثباهتا وشفافيتها (غريم 2014 ،ص.)299.
وكذلك اقرتحت غريم تقسي ًام آخر للمتالزمات اللفظية مبني عىل أقسام الكالم لرأس
الرتكيب وكذلك الوظائف النحوية املتنوعة للتعابري االصطالحية ،ويشمل هذا التصنيف
ثالثة مستويات تنشأ بينها عدد من العالقات اهلرمية كام يظهر ذلك يف اجلدول رقم .3
أمثلة املستوى األصغر املستوى املتوسط املستوى األكرب
بزغ الفجر فعل +اسم فاعل فعل +اسم
أسدل الستار فعل +اسم فعل +مفعول به
أخذ عىل عاتقه (فعل +حرف) +اسم
فعل +مفعول مطلق خضع خضوع ًا تام ًا
تفصد عرق ًا فعل +حال
اسرتسل يف احلديث فعل ( +حرف +اسم)
إطالق النار اسم +اسم(إضافة) اسم +اسم
صفة +اسم معرف
سليط اللسان
(إضافة غري حقيقية)
أغلبية ساحقة
اسم +نفي+صفة/اسم اسم +صفة
زيارة غري رسمية
جزأ ال يتجزأ اسم +نفي +فعل
رصاع عىل السلطة اسم +حرف +اسم اسم +حرف +اسم
عنقود من العنب اسم +من +اسم
جدول :3تصنيف املتالزمات وفق ًا ألقسام الكالم والوظائف النحوية (غريم 2014،ص.)310-309.
-138-
ومن املفيد أن نشري هنا إىل أن ما يعرف بأسامء األعالم Named Entityوما يتعلق
باستخراجها والتعرف اآليل عليها يف النصوص قد أصبح إىل حد ما جماال علمي ًا مستق ً
ال
وله أبحاثه ودراساته املتعددة؛ ولذلك فلن يتضمن هذا الفصل معاجلة هذا النوع من
الرتاكيب ،مع األخذ يف االعتبار أن نتائج كثري من األبحاث يف هذ املجال تظهر الوصول
إىل دقة عالية يف املعاجلة احلاسوبية هلذا النوع من الرتاكيب؛ وذلك لتميزها بالثبات
اللغوي ،وقلة التعقيدات والتغريات اللغوية التي تطرأ عليها يف السياقات املختلفة.
-139-
مستويات التحليل اللغوي ،ولكي نكون تصور ًا شامال للتطبيقات احلاسوبية يف معاجلة
هذه الظاهرة اللغوية يمكننا أن نشري هنا إىل أهم هذه املهام والعالقة بينها ،فقد ذكر
(2017) Constant et al.يف مراجعته الشاملة ألدبيات املعاجلة احلاسوبية للرتاكيب
االصطالحية أن أغلب األبحاث يف هذا امليدان تسعى حلل مشكلتني أساسيتني ومها:
مشكلة االستخراج اآليل هلذه الرتاكيب من املدونات اللغوية ،وكذلك مشكلة التعرف
اآليل عليها يف اللغة املكتوبة أو املسموعة ،والعمل عىل حل هاتني املشكلتني يف املعاجلة
اآللية للرتاكيب االصطالحية يسهم بشكل فعال يف حتسني أداء كثري من تطبيقات
معاجلة اللغات وتعزيز مستوى الدقة يف نتائجها .ومن أهم هذه التطبيقات الرتمجة
ﻣﺸﻜﻠﺔ اﻟﺘﻌﺮف اﻵﻟﻲ ﻋﻠﯿﮭﺎ ﻓﻲ اﻟﻠﻐﺔ اﻟﻤﻜﺘﻮﺑﺔ أو اﻟﻤﺴﻤﻮﻋﺔ ،واﻟﻌﻤﻞ ﻋﻠﻰ ﺣﻞ ھﺎﺗﯿﻦ
اآللية واملهام احلاسوبية اخلاصة بالتحليل اللغوي بكافة مستوياته ومراحله ،كالتحليل
اﻟﻤﺸﻜﻠﺘﯿﻦ ﻓﻲ اﻟﻤﻌﺎﻟﺠﺔ اﻵﻟﯿﺔ ﻟﻠﺘﺮاﻛﯿﺐ اﻻﺻﻄﻼﺣﯿﺔ ﯾﺴﮭﻢ ﺑﺸﻜﻞ ﻓﻌﺎل ﻓﻲ ﺗﺤﺴﯿﻦ أداء
الرصيف والنحوي والداليل وكذلك ما يتعلق بتقسيم الكلامت وترميزها باملعلومات
ﻧﺘﺎﺋﺠﮭﺎ .وﻣﻦ أھﻢ ھﺬه ﻛﺜﯿﺮ ﻣﻦ ﺗﻄﺒﯿﻘﺎت ﻣﻌﺎﻟﺠﺔ اﻟﻠﻐﺎت وﺗﻌﺰﯾﺰ ﻣﺴﺘﻮى اﻟﺪﻗﺔ ﻓﻲ
ونوع اللغوية،
ﺑﺎﻟﺘﺤﻠﯿﻞ اﻟﻠﻐﻮي ﺑﻜﺎﻓﺔ ﻣﺴﺘﻮﯾﺎﺗﮫ الظاهرة ملعاجلة هذه
اﻟﺨﺎﺻﺔ الرئيستني
اﻟﺤﺎﺳﻮﺑﯿﺔ واﻟﻤﮭﺎماملهمتني
اﻟﺘﺮﺟﻤﺔ 5اﻵﻟﯿﺔ
ويوضح شكل اللغوية.
اﻟﺘﻄﺒﯿﻘﺎت
بالرضورةﺑﺘﻘﺴﯿﻢ اﻟﻜﻠﻤﺎت
يؤديﻣﺎ ﯾﺘﻌﻠﻖ االستخراج اآليل
وﻛﺬﻟﻚ مهام واﻟﺪﻻﻟﻲ عىل حتسني
واﻟﻨﺤﻮي ﻛﺎﻟﺘﺤﻠﯿﻞأن العمل
اﻟﺼﺮﻓﻲ وﻣﺮاﺣﻠﮫ،حيث يظهر
العالقة بينها،
وﯾﻮﺿﺢاالصطالحية يف النصوص املعاجلة. ﺔ .الرتاكيب
اﻟﻠﻐﻮﯾعىل
ﺑﺎﻟﻤﻌﻠﻮﻣﺎت اآليل
نتائج مهام التعرف إىل حتسني
وﺗﺮﻣﯿﺰھﺎ
-140-
ﺷﻜﻞ :5ﻣﮭﺎم اﻟﻤﻌﺎﻟﺠﺔ اﻟﺤﺎﺳﻮﺑﯿﺔ ﻟﻠﺘﺮاﻛﯿﺐ اﻻﺻﻄﻼﺣﯿﺔ واﻟﻌﻼﻗﺔ ﺑﯿﻨﮭﺎ )(Constant et al., 2017
وﻛﺬﻟﻚ ﯾﺸﯿﺮ اﻟﺴﮭﻤﺎن ﻣﺰدوﺟﻲ اﻻﺗﺠﺎه إﻟﻰ أن اﻟﻌﻼﻗﺔ ﻣﺘﺒﺎدﻟﺔ ﺑﯿﻦ ﺗﻄﺒﯿﻘﺎت ﻣﻌﺎﻟﺠﺔ
اجلدير بالذكر هنا أن نوضح الفرق بني املهمتني الرئيستني ملعاجلة الرتاكيب حاسوبي ًا؛
وذلك للخلط الذي قد يقع من كثري من الباحثني يف هذا املجال ،فنقول إنه يمكننا
التفريق بينهام بمعرفة الفرق بني خمرجات كل مهمة منهام ،فعندما نطبق إحدى
تقنيات االستخراج اآليل فإن املخرجات حينئذ تكون عبارة عن قائمة من الرتاكيب
الـمستخرجة آليا من مدونة لغوية ،وقد ُتزن بعد ذلك يف معجم حاسويب ،أو تستعمل ُ
كمصدر لغوي يف إحدى مهام معاجلة اللغة املختلفة.
أما فيام يتعلق بمخرجات مهمة التعرف اآليل فهي عبارة عن نصوص موسومة
املتعرف عليها ،وختتلف هذه الرموز تبع ًا الختالف آلية َّ برموز لتمييز الرتاكيب
التصنيف املعتمدة للرتاكيب االصطالحية ،وكذلك طريقة عمل خوارزميات التعرف
اآليل .وسنتناول باختصار يف األجزاء التالية من هذا الفصل عدد ًا من األبحاث التي
حاولت تقديم إضافة معرفية وتطبيقية يف إحدى مهام املعاجلة احلاسوبية هلذه الظاهرة
اللغوية.
-141-
وقد تعددت املناهج والطرق املستعملة يف التطبيق العميل هلذه املهمة ،ولكن يف
الغالب أهنا تتفق يف رضورة وجود عدد من اخلطوات األساسية ،كاالعتامد عىل مدونة
لغوية يف تطبيق نموذج االستخراج ،واألفضل أن تكون املدونة معاجلة بأحد برامج
التحليل اللغوي اآليل وموسومة برموز لعدد من املعلومات اللغوية الرصفية والنحوية،
ثم بعد ذلك يكون تطبيق النموذج احلاسويب لالستخراج اآليل والذي يتضمن عددا
من اخلوارزميات واملعادالت الرياضية أو القواعد اللغوية املحوسبة ،و يتضمن نموذج
االستخراج كذلك يف الغالب عدد ًا من مراحل املعاجلة اآللية وغري اآللية ،والتي تتعلق
بتصفية وفلرتة النتائج األولية لنموذج االستخراج اآليل؛ وذلك الستبعاد جمموعات
من أنواع الرتاكيب غري املناسبة ،ويشمل ذلك الرتاكيب غري املفيدة ،أو التي حتوي
أخطاء لغوية ،أو ال تتناسب مع املعايري املحددة للرتاكيب املراد استخراجها.
-142-
بنوع لغوي معني كالرتاكيب املستعملة يف اللغة العلمية مثالً ،وهنا ينبغي أن يقترص
تطبيق النموذج عىل هذا النوع من النصوص لتحسني مستوى النتائج املتوقعة لنموذج
االستخراج اآليل.
ثم يف مرحلة تطبيق النموذج تُنفذ عدد من العمليات احلاسوبية التي هتدف إىل
استكشاف أنواع من الرتاكيب املقصودة ،وتصنيفها بعد ذلك يف جمموعات وفق ًا ملعايري
لغوية أو إحصائية .ويف املرحلة األخرية تطبق جمموعة من العمليات احلاسوبية لتصفية
النتائج األولية؛ وذلك باستبعاد العنارص املستخرجة باخلطأ أو بعض أنواع الرتاكيب
غري املرغوب فيها يف سياق الدراسة ،وتتنوع املخرجات النهائية ملهمة االستخراج اآليل
للرتاكيب االصطالحية ،فقد تكون عىل شكل قوائم تراكيب مصنفة يف فئات متجانسة،
أو تكون عىل شكل جمموعة من الوحدات املعجمية اجلديدة التي يمكن إضافتها ملعجم
سابق ،أو تُستعمل أساس ًا ملعجم حديث ألنواع حمددة من الرتاكيب االصطالحية.
ويف أدبيات معاجلة اللغات تعددت وتنوعت الطرق املستعملة يف استخراج
الرتاكيب االصطالحية ،فمن األبحاث ما يركز عىل تطبيق طريقة الستخراج نوع واحد
حمدد من الرتاكيب ،كاملركبات االسمية كام يف هذه الدراساتGirju et al., 2005; :
Salehi et al., 2015أو املركبات الفعلية كام يف الدراسات التاليةStevenson et al., :
2004; Ramisch et al., 2008 ; McCarthy et al., 2003ومنها ما يتضمن طرق ًا
هجينة أو متكاملة الستخراج جمموعة متنوعة من أنواع الرتاكيب االصطالحية كام يف
هذه األمثلة.)da Silva et al. 1999; Seretan 2011; Ramisch 2015( :
ويمكن تقسيم الطرق املستعملة يف استخراج الرتاكيب االصطالحية وفق ًا للمنهجية
املتبعة يف أبحاث معاجلة اللغات ،والتي سبق ذكرها باختصار يف القسم الثالث من هذا
الفصل ،فبعض األبحاث تستعمل الطرق التقليدية والتي تركز عىل رضورة مراعاة
اخلصائص اللغوية واملعلومات املعرفية للرتاكيب وتعزز من دورها يف تطبيق نموذج
االستخراج ،وعند تطبيق هذه الطرق من املهم أن تكون املدونة املختارة موسومة بعدد
من املعلومات اللغوية التي قد تتضمن أقسام الكالم وأنواع الرتاكيب والعالقات النحوية
املتعددة ،وهذه بعض األمثلة للدراسات التي استعملت مثل هذه الطرق يف استخراج
الرتاكيب االصطالحية.)Bartsch, 2004; Cowie, 1998; Mel’ćuk, 1998(:
-143-
ومن األبحاث يف هذا املجال ما يركز عىل توظيف املعلومات اإلحصائية وحياول
اإلفادة منها والرتكيز عليها يف عملية استكشاف الرتاكيب اللغوية ،وخاصة يف ظل
توفر مدونات لغوية ضخمة تعزز من دقة املعلومات اإلحصائية املستخرجة منها ،وهذا
املنهج اإلحصائي يف استخراج الرتاكيب االصطالحية من أكثر املناهج استعامالً؛ وذلك
لسهولة تطبيقه آليا وعدم حاجته إىل التدخل البرشي كثري ًا يف عملية تنفيذ النموذج،
وتطبق هذه الطرق بشكل رسيع وتؤدي إىل نتائج متميزة ألهنا تستثمر القدرات الفائقة
للحاسوب يف إحصاء ومعاجلة كميات ضخمة من البيانات والنصوص اللغوية التي قد
تصل إىل باليني أو تريليونات الكلامت.
ومن أمثلة النامذج املعتمدة عىل املنهج اإلحصائي ما يعرف بنموذج إن-قرام
اﻟﻜﻠﻤﺎتﻓﻲﻓﻲ
اﻟﻜﻠﻤﺎت ﻣﺪى ﺗﻼزم ﺗﺤﺪﯾﺪ ﻣﺪى ﻣﺤﻮري ﻓﻲ
دورﻣﺤﻮري واﻟﺘﻲﻟﮭﺎﻟﮭﺎدور
اﻟﺮﯾﺎﺿﯿﺔ،واﻟﺘﻲ
اﻟﺮﯾﺎﺿﯿﺔ، واﻟﻌﻼﻗﺎت
بخوارزميات قياس االرتباط ﺗﻼزمما يعرف استعامل ﺗﺤﺪﯾﺪ
وكذلك ﻓﻲ n-gram اإلحصائي model واﻟﻌﻼﻗﺎت
درﺟﺔ
درﺟﺔﺗﺤﺪد
ﺗﺤﺪد اﻟﺘﻲ
اﻹﺣﺼﺎﺋﯿﺔاﻟﺘﻲ
اﻹﺣﺼﺎﺋﯿﺔ اﻻﺧﺘﺒﺎرات
اﻻﺧﺘﺒﺎرات ﻣﺠﻤﻮﻋﺔﻣﻦ
ﻣﻦ ﻋﻠﻰﻣﺠﻤﻮﻋﺔ ﻋﻠﻰ ﺑﻨﺎء
ﺑﻨﺎء اﻟﻠﻐﻮﯾﺔ
اﻟﻠﻐﻮﯾﺔ ﻟﻤﺪوﻧﺔ
اﻟﻤﺪوﻧﺔ
اﻟﻜﻠﻤﺎت ﻓﻲ
املدونة الكلامت يف ﻓﻲ ﻣﺪى
تالزم ﺗﻼزم اﻟﻜﻠﻤﺎت
ﺗﺤﺪﯾﺪ
مدىﻓﻲﻓﻲ
ﻓﻲ ﺗﻼزم
ﻣﺤﻮري
حتديد
اﻟﻜﻠﻤﺎت
اﻟﻜﻠﻤﺎت ﺟﺪوليفﻣﺪى
ﻣﺪىدور
حموري
ﺗﻼزم
ﺗﻼزم ﺗﺤﺪﯾﺪ
ﻟﮭﺎ
ﻣﺪى دور ﻓﻲ
واﻟﺘﻲ ﻣﺤﻮري
اﻟﺮﯾﺎﺿﯿﺔ،
اﻟﻤﺨﺘﻠﻔﺔ،هلا
ﺗﺤﺪﯾﺪ
ﺗﺤﺪﯾﺪ والتي
ﻣﺤﻮري ﻓﻲ
ﻓﻲ دور
الرياضية،
ﻣﺤﻮري واﻟﺘﻲ ﻟﮭﺎ
واﻟﻌﻼﻗﺎت
دور
دور والعالقاتاﻟﺮﯾﺎﺿﯿﺔ،
واﻟﺘﻲ ﻟﮭﺎ
ﻟﮭﺎ واﻟﺘﻲ واﻟﻌﻼﻗﺎت
اﻟﺮﯾﺎﺿﯿﺔ،
اﻟﺮﯾﺎﺿﯿﺔ، ﻗﺎت
ﻼﻗﺎت
ﻣﻦﻣﻦﻋﺪدا
ﻋﺪدا 4 4 ﺟﺪول وﯾﻮﺿﺢ
وﯾﻮﺿﺢ اﻟﻤﺨﺘﻠﻔﺔ، اﻟﻠﻐﻮﯾﺔ
اﻟﻠﻐﻮﯾﺔ اﻟﺴﯿﺎﻗﺎت
اﻟﺴﯿﺎﻗﺎت ﻓﻲ ﻓﻲ وﻗﺮﺑﮭﺎ
وﻗﺮﺑﮭﺎ رﺗﺒﺎطﮭﺎ
ارﺗﺒﺎطﮭﺎ
اﻹﺣﺼﺎﺋﯿﺔ اﻟﺘﻲ ﺗﺤﺪد درﺟﺔدرﺟﺔدرﺟﺔ
ﺗﺤﺪدﺗﺤﺪد
اﻻﺧﺘﺒﺎرات
درﺟﺔ اﻟﺘﻲاﻟﺘﻲ
ﺗﺤﺪد اﻹﺣﺼﺎﺋﯿﺔ
ﻣﻦ
اﻟﺘﻲ ﻣﺠﻤﻮﻋﺔ
اﻹﺣﺼﺎﺋﯿﺔاﻻﺧﺘﺒﺎرات
اﻻﺧﺘﺒﺎراتﻋﻠﻰ ﻣﺠﻤﻮﻋﺔ ﻣﻦ
اﻟﻠﻐﻮﯾﺔ ﺑﻨﺎء
اﻻﺧﺘﺒﺎرات ﻣﻦاﻟﻤﺪوﻧﺔ
ﻣﺠﻤﻮﻋﺔﻋﻠﻰﻋﻠﻰ ﺑﻨﺎء ﺑﻨﺎء
ﻋﻠﻰ اﻟﻠﻐﻮﯾﺔ
ﺑﻨﺎء ﻤﺪوﻧﺔ
اﻟﻠﻐﻮﯾﺔ ﺔﻧﺔ
التيأھﻢحتدد درجة ارتباطها وقرهباوﻣﻦ
أھﻢ اإلحصائية
وﻣﻦ ﻣﺮاﺟﻌﮭﺎ.
ﻣﺮاﺟﻌﮭﺎ. االختبارات
اﻹﺣﺼﺎﺋﯿﺔ
ﺑﯿﺎن
ﺑﯿﺎن ﻣﻊ
ﻣﻊ جمموعة من
اﺳﺘﻌﻤﺎﻟﮭﺎ
اﺳﺘﻌﻤﺎﻟﮭﺎ ﻣﻦ
اﻟﺘﻲﯾﻜﺜﺮ
ﯾﻜﺜﺮ ﻣﺠﻤﻮﻋﺔعىل
اﻟﺘﻲ اللغوية بناء
اﻻرﺗﺒﺎط
اﻻرﺗﺒﺎط ﻗﯿﺎسﻗﯿﺎس اﻟﻠﻐﻮﯾﺔ
ﺧﻮارزﻣﯿﺎت
ﺧﻮارزﻣﯿﺎت
وﯾﻮﺿﺢ ﺟﺪول 4ﻋﺪدا ﻣﻦ ﻋﺪدا ﻣﻦ
ﻣﻦ ﺟﺪول 4
اﻟﻤﺨﺘﻠﻔﺔ،
ﻋﺪدا ﻣﻦ
ﻋﺪدا وﯾﻮﺿﺢ
اﻟﻠﻐﻮﯾﺔ4
ﺟﺪولﻣﺎ4
ﺟﺪول اﻟﺴﯿﺎﻗﺎت
وﯾﻮﺿﺢ
وﯾﻮﺿﺢ اﻟﻤﺨﺘﻠﻔﺔ، اﻟﻠﻐﻮﯾﺔ
اﻟﻤﺨﺘﻠﻔﺔ،ﻓﻲ
وﻗﺮﺑﮭﺎ
اﻟﻤﺨﺘﻠﻔﺔ، اﻟﺴﯿﺎﻗﺎت
ارﺗﺒﺎطﮭﺎ
اﻟﻠﻐﻮﯾﺔ
اﻟﻠﻐﻮﯾﺔ وﻗﺮﺑﮭﺎ ﻓﻲ
اﻟﺴﯿﺎﻗﺎت
اﻟﺴﯿﺎﻗﺎت وﻗﺮﺑﮭﺎ ﻓﻲ
ﻓﻲ رﺗﺒﺎطﮭﺎ
وﻗﺮﺑﮭﺎ طﮭﺎ
طﮭﺎ
االرتباط قياس (Pecina,
خوارزميات
(Pecina, ;2008
من عددا
;2008 4ﯾﻠﻲ:
جدول
ﯾﻠﻲ: ﻣﺎ اﻟﺨﻮارزﻣﯿﺎت
ويوضح
اﻟﺨﻮارزﻣﯿﺎت ﺗﻮظﯿﻒھﺬه
املختلفة،
ھﺬه ﺗﻮظﯿﻒ
اللغوية ﻋﻠﻰ
ﻋﻠﻰ اﻋﺘﻤﺪت
السياقات
اﻋﺘﻤﺪت يف اﻟﺘﻲ
اﻟﺘﻲ ﻟﺪراﺳﺎت
اﻟﺪراﺳﺎت
أھﻢﺑﯿﺎن ﻣﺮاﺟﻌﮭﺎ .وﻣﻦ أھﻢ وﻣﻦ ﻣﻊ
أھﻢ ﻣﺮاﺟﻌﮭﺎ.
اﺳﺘﻌﻤﺎﻟﮭﺎ
وﻣﻦ أھﻢ
وﻣﻦ ﻣﺮاﺟﻌﮭﺎ.
ﻣﺮاﺟﻌﮭﺎ. ﺑﯿﺎنﺑﯿﺎن
اﻟﺘﻲ ﯾﻜﺜﺮ اﺳﺘﻌﻤﺎﻟﮭﺎ ﻣﻊ
اﻻرﺗﺒﺎط
ﺑﯿﺎن ﻣﻊ ﯾﻜﺜﺮ ﻗﯿﺎس
اﺳﺘﻌﻤﺎﻟﮭﺎ ﻣﻊ
اﺳﺘﻌﻤﺎﻟﮭﺎ اﻟﺘﻲاﻟﺘﻲ
ﺧﻮارزﻣﯿﺎت
ﯾﻜﺜﺮ
ﯾﻜﺜﺮ اﻻرﺗﺒﺎط
اﻟﺘﻲ اﻻرﺗﺒﺎط
اﻻرﺗﺒﺎطﻗﯿﺎسﻗﯿﺎس
ﺧﻮارزﻣﯿﺎت
ﻗﯿﺎس زﻣﯿﺎت
زﻣﯿﺎت
. .Moirón,
Moirón, ;2005
;2005 Evert,
Evert, )2005)2005
; 2008توظيف
(Pecina, اعتمدت عىل التيﻣﺎ
(Pecina,
ﯾﻠﻲ: الدراسات
;2008
اﻟﺨﻮارزﻣﯿﺎت
(Pecina,
(Pecina, ;2008 أهم
ھﺬه
;2008 ومن
ﺗﻮظﯿﻒﯾﻠﻲ:
ﯾﻠﻲ:
ﯾﻠﻲ: مراجعها.
اﻟﺨﻮارزﻣﯿﺎت ﻣﺎ
ﻋﻠﻰﻣﺎ
ﻣﺎ اﻋﺘﻤﺪتاﻟﺘﻲھﺬهبيان
اﻟﺨﻮارزﻣﯿﺎت
اﻟﺨﻮارزﻣﯿﺎت ھﺬهمع استعامهلا
ﺗﻮظﯿﻒ
ھﺬهاﻟﺪراﺳﺎتيكثرﻋﻠﻰ
ﺗﻮظﯿﻒ
ﺗﻮظﯿﻒ ﻋﻠﻰ
ﻋﻠﻰ التي
اﻋﺘﻤﺪت اﻟﺘﻲاﻟﺘﻲ
اﻋﺘﻤﺪت
اﻋﺘﻤﺪت ﺪراﺳﺎت
اﻟﺘﻲ ﺳﺎت
ﺳﺎت
اﻟﺨﻮارزﻣﯿﺎت .Moirón,اﻟﻤﺮاﺟﻊييل2005;) : Evert,.Moirón,اﻻﺳﻢ ;2005 Evert, 2005
.(Pecina, 2008; Moirón,
اﻟﺨﻮارزﻣﯿﺎت ;2005 اﻟﻤﺮاﺟﻊ
Evert, 2005
(Church et al., 1991) T-score
).2005
اخلوارزميات ما
اﻻﺳﻢ
.Moirón,
;Moirón, 2005 هذه
2005; Evert,
Evert, 20 2
𝒇𝒇 𝒇𝒇 𝒇𝒇 𝒇𝒇 𝒃𝒃𝒇𝒇 𝒚𝒚𝒇𝒇 (Church et al., 1991) T-score
اﻟﺨﻮارزﻣﯿﺎت
اخلوارزمياتاﻟﺨﻮارزﻣﯿﺎت
اﻟﻤﺮاﺟﻊاﻟﺨﻮارزﻣﯿﺎت
!𝒙𝒙𝒙𝒙
اﻟﺨﻮارزﻣﯿﺎت
𝑵𝑵!𝒙𝒙𝒙𝒙
𝑵𝑵 اﻟﻤﺮاﺟﻊ
اﻻﺳﻢ اﻟﻤﺮاﺟﻊ
املراجع
اﻟﻤﺮاﺟﻊ
𝒃𝒃 𝒚𝒚
اﻻﺳﻢاﻻﺳﻢ
اﻻﺳﻢ
االسم
𝐱𝐱𝐱𝐱
(Church
𝒇𝒇 et al., 1991) T-score (Church )et al.,et1991 T-score
𝒇𝒇 𝐱𝐱𝐱𝐱𝒚𝒚𝒇𝒇 (Church
(Church )al.,1991
et al., )1991 T-score
T-score
𝒃𝒃𝒃𝒃𝒇𝒇𝒇𝒇𝒚𝒚𝒚𝒚𝒇𝒇𝒇𝒇!𝒙𝒙𝒙𝒙𝒇𝒇𝒇𝒇!𝒙𝒙𝒙𝒙
𝒃𝒃𝒇𝒇 𝒚𝒚𝒇𝒇 𝒃𝒃𝒇𝒇
!𝒙𝒙𝒙𝒙
𝑵𝑵 𝑵𝑵
𝑵𝑵 !𝒙𝒙𝒙𝒙 (Church
(Daille, et al.,
)1994 )T-scoreInformation (MI
Mutual
𝒙𝒙𝒙𝒙𝒇𝒇 𝑵𝑵
𝑵𝑵 𝒇𝒇
𝑵𝑵 (Daille,
)1991 )1994 )Mutual Information (MI
𝐱𝐱𝐱𝐱 𝒍𝒍𝒍𝒍𝒍𝒍 𝐱𝐱𝐱𝐱 𝒙𝒙𝒙𝒙𝐱𝐱𝐱𝐱 𝟐𝟐
𝒍𝒍𝒍𝒍𝒍𝒍 𝐱𝐱𝐱𝐱
𝒇𝒇𝒚𝒚𝒇𝒇𝒇𝒇𝒙𝒙 𝟐𝟐𝒇𝒇
𝑵𝑵 𝒙𝒙𝒙𝒙𝒇𝒇 )(Daille, 1994𝒚𝒚 𝒙𝒙
𝑵𝑵 𝒙𝒙𝒙𝒙𝒇𝒇 (Daille,
Mutual 1994)1994) (MI)Mutual
Information
(Daille, Information
Mutual (MI)(MI
Information
𝟐𝟐𝒍𝒍𝒍𝒍𝒍𝒍 𝒍𝒍𝒍𝒍𝒍𝒍 𝟐𝟐𝒍𝒍𝒍𝒍𝒍𝒍𝒙𝒙𝒙𝒙𝒇𝒇𝒇𝒇 𝟑𝟑 𝑵𝑵
𝑵𝑵𝒙𝒙𝒙𝒙 (Daille,
(Daille, )1994)1994 Mutual
MI3 Mutual Information )(MI
𝒚𝒚𝒇𝒇 𝒙𝒙𝒇𝒇 𝒍𝒍𝒍𝒍𝒍𝒍 𝑵𝑵𝟑𝟑
𝒇𝒇 𝒙𝒙𝒙𝒙𝒙𝒙𝒇𝒇
𝒇𝒇 𝒇𝒇𝑵𝑵𝒚𝒚𝟐𝟐𝟐𝟐
(Daille, )1994
)(Daille, 1994 MI3
𝒍𝒍𝒍𝒍𝒍𝒍 𝒚𝒚𝒚𝒚𝒇𝒇𝒙𝒙𝒙𝒙𝒇𝒇 𝒙𝒙𝒙𝒙
𝒍𝒍𝒍𝒍𝒍𝒍
𝟐𝟐
𝒇𝒇
𝒚𝒚𝒇𝒇 𝒙𝒙 𝟐𝟐 )Information (MI
𝟑𝟑 )(Daille, 1994 𝟑𝟑 𝒚𝒚𝒇𝒇 𝒙𝒙𝟑𝟑𝒇𝒇 (Daille,
MI3 )1994)1994
(Daille, MI3 MI3
𝑵𝑵 𝑵𝑵 𝟑𝟑 𝑵𝑵 (Daille, )1994 MI3
𝟐𝟐𝒍𝒍𝒍𝒍𝒍𝒍
𝒙𝒙𝒙𝒙
𝒍𝒍𝒍𝒍𝒍𝒍−
𝑴𝑴𝑴𝑴𝑴𝑴𝑴𝑴 𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔
𝒙𝒙𝒙𝒙
𝒍𝒍𝒍𝒍𝒍𝒍× 𝑵𝑵𝒙𝒙𝒙𝒙 (Rychlý,
(Rychlý, )2008
)2008 MI.log_F
MI.log_F
𝒚𝒚𝒇𝒇 𝒙𝒙𝒇𝒇 𝒍𝒍𝒍𝒍𝒍𝒍 𝟐𝟐
𝒍𝒍𝒍𝒍𝒍𝒍
𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔 −
𝒍𝒍𝒍𝒍𝒍𝒍×𝟐𝟐𝒇𝒇𝟐𝟐 𝒙𝒙𝒇𝒇
𝒙𝒙𝒙𝒙𝒙𝒙𝒙𝒙
𝒇𝒇 𝒙𝒙𝒇𝒇𝒚𝒚
)(Daille, 1994 MI3
𝒙𝒙𝒙𝒙𝒇𝒇 𝒙𝒙𝒇𝒇
𝒚𝒚𝒚𝒚
(Rychlý, )2008 (Rychlý,
(Rychlý,
(Rychlý,
MI.log_F )2008
)2008 logDice
2008)2008) logDice
MI.log_F
𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍 𝒙𝒙𝒙𝒙𝒍𝒍𝒍𝒍𝒍𝒍× 𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔 𝑴𝑴𝑴𝑴 − 𝟏𝟏𝟏𝟏= =
𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍
𝑴𝑴𝑴𝑴 𝑴𝑴𝑴𝑴−
𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔 𝟏𝟏𝟏𝟏+ 𝒈𝒈𝒍𝒍𝒍𝒍+
𝒍𝒍𝒍𝒍𝒍𝒍× 𝑫𝑫 𝟐𝟐
𝒈𝒈𝒍𝒍𝒍𝒍
𝒙𝒙𝒙𝒙 𝑫𝑫 𝟐𝟐𝒙𝒙𝒙𝒙 (Rychlý, (Rychlý,
)2008
(Rychlý, )2008 MI.log_F
MI.log_F
MI.log_F
𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝑴𝑴𝑴𝑴 −−
𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔𝒔 𝒍𝒍𝒍𝒍𝒍𝒍×
𝒍𝒍𝒍𝒍𝒍𝒍× 𝒙𝒙𝒙𝒙
𝒇𝒇𝒇𝒇𝒇𝒇𝟐𝟐
𝒇𝒇𝒇𝒇𝒇𝒇𝟐𝟐
= (Rychlý,
𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍=
𝟏𝟏𝟏𝟏 𝒈𝒈𝒍𝒍𝒍𝒍 +
𝟏𝟏𝟏𝟏 𝒈𝒈𝒍𝒍𝒍𝒍 + )2008
𝟏𝟏𝟏𝟏 𝟐𝟐= 𝟏𝟏𝟏𝟏 +𝒈𝒈𝒍𝒍𝒍𝒍 𝟐𝟐𝒍𝒍𝒍𝒍𝒈𝒈+𝑫𝑫 logDice (Rychlý, 2008)2008) logDice
(Rychlý, logDice
+ 𝒍𝒍𝒍𝒍𝒈𝒈𝟐𝟐(Rychlý, )2008)2008 logDice
𝑫𝑫 𝟐𝟐𝒈𝒈𝒍𝒍𝒍𝒍 𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍 = 𝟏𝟏𝟏𝟏 + 𝒇𝒇𝒇𝒇𝟐𝟐 𝑫𝑫 (Rychlý, logDice
𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍
𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍𝒍 == 𝒇𝒇𝒇𝒇+ 𝒇𝒇𝒇𝒇+
𝟏𝟏𝟏𝟏 𝒇𝒇𝒇𝒇 𝑫𝑫𝟐𝟐
𝒇𝒇𝒇𝒇𝒇𝒇𝟐𝟐 𝒇𝒇𝒇𝒇𝒇𝒇𝟐𝟐𝒇𝒇𝒇𝒇𝒇𝒇𝟐𝟐
𝟐𝟐𝒈𝒈𝒍𝒍𝒍𝒍 = 𝟏𝟏𝟏𝟏 + 𝟏𝟏𝟏𝟏 = 𝟏𝟏𝟏𝟏=+ 𝒇𝒇𝒇𝒇𝒇𝒇𝟐𝟐 𝒈𝒈𝒍𝒍𝒍𝒍 𝒈𝒈𝒍𝒍𝒍𝒍 (Dunning, 1993) Log-likelihood(L.
)Log-likelihood(L.LK
𝒇𝒇𝒇𝒇 𝒇𝒇𝒇𝒇 + 𝒈𝒈𝒍𝒍𝒍𝒍𝟐𝟐= 𝟏𝟏𝟏𝟏 ++ 𝒇𝒇𝒇𝒇 𝒇𝒇𝒇𝒇𝟐𝟐𝟐𝟐+ 𝒊𝒊𝒊𝒊𝒇𝒇
𝒇𝒇𝒇𝒇 )𝒇𝒇𝒇𝒇 (Dunning, 1993 )Log-likelihood(L.LK
𝒇𝒇𝒇𝒇 𝒇𝒇++
)𝒇𝒇𝒇𝒇𝒊𝒊𝒊𝒊 (Dunning, 1993
𝒍𝒍𝒍𝒍𝒍𝒍𝒊𝒊𝒊𝒊𝒊𝒊𝒊𝒊 𝒊𝒊𝒊𝒊 𝒊𝒊𝒊𝒊 𝟐𝟐−𝟐𝟐− 𝒍𝒍𝒍𝒍𝒍𝒍
𝒇𝒇𝒇𝒇 𝒊𝒊𝒊𝒊
-1يمكن الرجوع لدراسة ) )Kyto and Ludeling, 2008ملزيد من التفاصيل حول هذ اخلطوات وطريقة تطبيقها يف
نامذج االستخراج اآليل للرتاكيب االصطالحية.
-145-
استعملت هذه الطريقة يف استخراج املتالزمات اللفظيةCastagnoli et al. ,2014) :
; )Seretan,2011وغريها.
من جهة أخرى ،اجتهت بعض األبحاث يف معاجلة اللغات إىل توظيف بعض التقنيات
املستعلمة يف علوم تعلم اآللة والتعلم العميق وما يتصل هبا يف االستخراج والتعرف
اآليل عىل الرتاكيب االصطالحية ،ومن أمثلة هذه الطرق ما يعرف باستعامل خوارزميات
التصنيف التي تعتمد عىل نامذج التشابه الداليل ،Semantic Similarityوتفيد هذه
الطريقة كثري ًا يف استكشاف الرتاكيب االصطالحية قليلة الشفافية ،أو بعبارة أخرى،
الرتاكيب التي غلب عىل معناها االستعامل الكيل املجازي الذي ال عالقة له باملعنى
احلريف للمفردات التي يتكون منها .ويقوم استعامل هذه اخلوارزميات عىل فرضية مفادها
أن هناك تشاهب ًا داللي ًا يف التمثيل احلاسويب الداليل بني الرتاكيب االصطالحية وبعض
الكلامت املفردة املرادفة ملعناها االصطالحي ،فإذا أظهرت نتائج خوارزمية التصنيف
تشاهب ًا داللي ًا بني عدد من الرتاكيب والكلامت املفردة املرادفة هلا ،فحينئذ يمكن استخراج
هذه الرتاكيب وإضافتها لقوائم الرتاكيب االصطالحية ،ويمكن إيضاح هذه املفهوم
بمثال للرتكيب االصطالحي الشائع يف اللغة العربية «انتقل إىل رمحة اهلل» ،والذي قد
يتشابه داللي ًا مع بعض الكلامت املفردة ككلمتي «تويف» أو «مات».
وكذلك قد تستعمل خوارزميات تعلم اآللة املتعلقة بالتشابه الداليل لتحديد
مستوى الشفافية أو مدى االستعامل االصطالحي للرتكيب؛ وذلك من خالل مقارنة
نتائج التشابه الداليل بني معاين الرتكيب االصطالحي ومعاين الكلامت املكونة له يف
سياقات لغوية متفرقة ،وكلام كان معنى الرتكيب بعيدا عن معاين الكلامت املكونة له
كان أقل شفافية ).)Katz and Giesbrecht, 2006
ومن أهم رشوط استعامل هذه الطريقة توفر معاجم حاسوبية موسومة برموز ِداللية
للمفردات والرتاكيب االصطالحية؛ لتتمكن خوارزميات تعلم اآللة من التدرب عليها
حتى تصل إىل دقة عالية يف مهمة تصنيف العبارات واملفردات إىل جمموعات متشاهبة
داللي ًا ،ومن أمثلة الدراسات التي اعتمدت هذه الطريقةReddy et al. 2011; :
Farahmand and Henderson 2016; Riedl and Biemann, 2015واجتهت
جمموعة من الدراسات األخرى يف هذا املجال إىل اعتامد املنهج اهلجني أو املتكامل يف
-146-
استخراج الرتاكيب االصطالحية آليا ،والذي هيدف إىل االستفادة من مميزات عدد من
الطرق املختلفة ،وحياول قدر اإلمكان التقليل من مشاكل االعتامد عىل منهج أو طريقة
واحدة ،وهذا املنهج من أكثر املناهج استعامالً يف أدبيات معاجلة اللغات ،وخاصة يف ما
يتعلق باستكشاف الرتاكيب االصطالحية؛ وذلك ألهنا ظاهرة لغوية معقدة ومتشعبة،
فمن األفضل إذا أردنا الوصول إىل نتائج أكثر دقة يف املعاجلة احلاسوبية هلا ،أن نُوظف يف
تصميم نامذج االستخراج كل التقنيات والطرق املتاحة .وكذلك من فوائد اعتامد هذا
املنهج أنه يساعد عىل مراعاة اخلصائص اللغوية للرتاكيب املختلفة؛ وذلك بتخصيص
كل نوع من الرتاكيب بطريقة معينة تكون هي األنسب خلصائصه واألكثر فائدة يف
معاجلته احلاسوبية.
ومن األمثلة عىل دراسات استخراج الرتاكيب االصطالحية يف اللغة العربية،
دراسة) Attia et al. (2010والتي طبقت فيها ثالث طرق الستخراج الرتاكيب
االصطالحية آلي ًا باالعتامد عىل عدد من التقنيات اإلحصائية واللغوية .الطريقة األوىل
يف هذه الدراسة كانت متأثرة بدراسة ) Zarrieß and Kuhn (2009وكانت تستهدف
استخراج الرتاكيب االصطالحية قليلة الشفافية ،وذلك من خالل ترمجة عناوين
موسوعة ويكبيديا العربية إىل عدد من اللغات األجنبية وبعد ذلك وبناء عىل نتائج
الرتمجة ُيصنف العنوان -الذي تكون ترمجته كلمة مفردة يف إحدى اللغات املقابلة-
عبارة اصطالحية؛ وذلك بناء عىل الفرضية التي تدعي أن الرتكيب االصطالحي تكون
ترمجته يف اللغات األخرى غالب ًا «كلمة مفردة» ،ويوضح جدول 5عدد ًا من الرتاكيب
املستخرجة باستعامل هذه الطريقة مع ترمجتها إىل اإلنجليزية.
الرتمجة العبارة االصطالحية
Anaemia فقر الدم
Colitis التهاب القولون
Wallpaper ورق احلائط
Cockpit قمرة القيادة
Teamwork فريق عمل
جدول :5نامذج من العبارات املستخرجة باستعامل طريقة الرتمجة واملقارنة إىل اللغات األجنبية.
-147-
أما الطريقة الثانية ،فتبع ًا لدراسة (2008) Vintar and Fiserاستعمل الباحث
الرتمجة الثنائية بني العربية واالنجليزية كوسيلة الستكشاف تراكيب اصطالحية
جديدة يف اللغة العربية ،فبناء عىل افرتاض أن العبارة االصطالحية يف لغة ما قد تكون
كذلك عندما ترتجم إىل لغة أخرى ،ترمجت الدراسة الرتاكيب االصطالحية املصنفة
يف املعجم احلاسويب الداليل شبكة الكلامت ) Princeton WordNet2(1) (PWNإىل
اللغة العربية ،وهبذه الطريقة متكن الباحث من استخراج أكثر من 13ألف عبارة
اصطالحية .ويف الطريقة الثالثة استعمل الباحث املنهج اإلحصائي من خالل االعتامد
عىل تطبيق نموذج استخراج آيل يوظف عددا من خوارزميات قياس درجة االرتباط،
وقد اعتمدت الدراسة عىل استخراج الرتاكيب االصطالحية هبذه الطريقة من مدونة
عربية تتكون من أكثر من 848مليون كلمة(((.
ويف دراسة أخرى اقرتح ( AlSabbagh et al., (2014طريقة الستخراج عدد
من الرتاكيب الفعلية يف اللغة العربية والتي متاثل معاين األفعال الناقصة يف اإلنجليزية
،modal verbsوقد طبق البحث املنهج اإلحصائي اآليل يف استخراج الرتاكيب
املستهدفة ،وطبق نموذج االستخراج عىل عدد من املدونات العربية يصل عدد كلامهتا
إىل أكثر من 35مليون كلمة .وقدم (2016) Alghamdi and Atwellمقارنة لتقييم
استعامل عدد من خوارزميات االرتباط يف استخراج املتالزمات اللفظية يف اللغة
العربية ،وكذلك قامت الدراسة بقياس تأثري عامل شيوع الكلامت املستعملة عىل أداء
خوارزميات االرتباط ،وأظهرت نتائج هذه الدراسة أن خوارزمية MI.log_fلالرتباط
كانت األفضل أداء يف االستخراج اآليل للمتالزمات اللفظية ،وكذلك بينت النتائج
حتسن ًا ملحوظ ًا ألداء هذه الطريقة عندما تنفذ عىل مستوى الكلامت األكثر شيوع ًا يف
املدونة اللغوية.
والتزال اللغة العربية يف حاجة ملحة إىل مزيد من الدراسات التطبيقية يف هذا
املجال ،تُوظف فيها أحدث الطرق احلاسوبية الستخراج الرتاكيب االصطالحية
من املدونات اللغوية الضخمة؛ وذلك لبناء مصادر لغوية شاملة تعزز من أداء مهام
-148-
معاجلة اللغات آلي ًا .وأخريا ،نؤكد هنا أن ما ُقدِّ م يف هذا اجلزء من استعراض رسيع
ملهمة استخراج الرتاكيب االصطالحية ومراجعة لبعض الدراسات املتصلة هبا ما هو
إال نبذة خمترصة عن جمال بحثي واسع تعددت فيه األبحاث وتداخلت مع عدد من
العلوم اللغوية واحلاسوبية ،كعلم الداللة وحتليل اخلطاب وعلوم التنقيب عن البيانات
والتحليل اآليل للنصوص وغريها كام هي طبيعة أغلب الدراسات البينية يف اللسانيات
احلاسوبية.
-149-
الرموز فيه مستقلة يف ملفات خاصة هبا ومصحوبة بأرقام تشري إىل مواضع هذه الرموز
يف النصوص األصلية ،ولكل نوع أماكن حيسن استعامله فيها بحسب التطبيق املستهدف
من قبل املرمز اآليل.
وهو يعلم ّ
أن
_أكل عليه الدهر ورشب_ _ ُيلقي له باالً_ من املؤكد أنه لن
شخص ًا كهذا
MWE MWE
_شاة ال يرضها السلخ بعد مماهتا_ وربام اعتربه _والرضب فيه حرام_
MWE MWE
_:7مثال ألحد خمرجات التعرف اآليل عىل الرتاكيب االصطالحية باستعامل الرتميز النيص.
ﺣﺮام
الشكل
MWE MWE
أداء حتسني
اﻟﻨﺼﻲ. حموري ًا يف
اﻟﺘﺮﻣﯿﺰ عام ً
ال
ﺑﺎﺳﺘﻌﻤﺎل االصطالحية
اﻻﺻﻄﻼﺣﯿﺔ للرتاكيب
اﻟﺘﺮاﻛﯿﺐ احلاسوبيةاﻵﻟﻲ ﻋﻠﻰ ﻷﺣﺪاملعاجم
ﻣﺨﺮﺟﺎت اﻟﺘﻌﺮف توفر
ويعتربﻣﺜﺎل
ﺷﻜﻞ :7
بسهولة
ﺗﺤﺴﯿﻦ ﻣﺤﻮرﯾﺎ ً
تتعرفﻓﻲ اﻻﺻﻄﻼﺣﯿﺔ ﻋﺎﻣﻼً
خوارزمية حيث يمكن بناء للتعرف اآليل،
ﻟﻠﺘﺮاﻛﯿﺐ املصممة
اﻟﺤﺎﺳﻮﺑﯿﺔ احلاسوبية
اﻟﻤﻌﺎﺟﻢ النامذج ﺗﻮﻓﺮ
وﯾﻌﺘﺒﺮ
ﺗﺘﻌﺮف ﺧﻮارزﻣﯿﺔ
مسبق ًا عن يف ﺑﻨﺎء
معجم ُمعد ﯾﻤﻜﻦ االصطالحيةﺣﯿﺚ
املخزنة ﻟﻠﺘﻌﺮف اﻵﻟﻲ، اﻟﻤﺼﻤﻤﺔ
للرتاكيب اﻟﺤﺎﺳﻮﺑﯿﺔ املامثلة عىلاﻟﻨﻤﺎذج
الرتاكيب اجلديدة أداء
ﺑﺴﮭﻮﻟﺔ ﻋﻠﻰ اﻟﺘﺮاﻛﯿﺐ اﻟﺠﺪﯾﺪة اﻟﻤﻤﺎﺛﻠﺔ ﻟﻠﺘﺮاﻛﯿﺐ اﻻﺻﻄﻼﺣﯿﺔ اﻟﻤﺨﺰﻧﺔ ﻓﻲ ﻣﻌﺠﻢ ُﻣﻌﺪ
طريق البحث يف النص املعالج عن تراكيب مماثلة ملدخالت املعجم احلاسويب املستعمل
ﻣﺴﺒﻘﺎ ً ﻋﻦ طﺮﯾﻖ اﻟﺒﺤﺚ ﻓﻲ اﻟﻨﺺ اﻟﻤﻌﺎﻟﺞ ﻋﻦ ﺗﺮاﻛﯿﺐ ﻣﻤﺎﺛﻠﺔ ﻟﻤﺪﺧﻼت اﻟﻤﻌﺠﻢ
التعرفاﻟﺘﻲ تتكون 8منهاأھﻢبرامج
اﻟﻤﺮاﺣﻞ التي ﺷﻜﻞ
وﯾﻮﺿﺢاملراحل اﻟﺘﻌﺮف 8أهم
اﻵﻟﻲ، ويوضح شكل
ﻓﻲ ﻣﮭﻤﺔ اآليل، اﻟﺤﺎﺳﻮﺑﻲ التعرف
اﻟﻤﺴﺘﻌﻤﻞ يف مهمة
تشتمل أن
اآليلﻣﻼﺣﻈﺔ التعرف
ﯾﻤﻜﻦ مهمةﺣﯿﺚ اﻟﺘﺮاﻛﯿﺐمالحظة أن
اﻻﺻﻄﻼﺣﯿﺔ، حيث يمكن االصطالحية،ﻋﻠﻰ
الرتاكيباﻟﺘﻌﺮف اﻵﻟﻲ اآليل عىل
ﻣﻨﮭﺎ ﺑﺮاﻣﺞ ﺗﺘﻜﻮن
املتنوعةﻣﻦ املصادر اللغوية
وﺗﺴﺘﻔﯿﺪ ﻛﺬﻟﻚ ﻣﻌﺎﻟﺠﺔمنﺣﺎﺳﻮﺑﯿﺔ
ﻋﻤﻠﯿﺎتكذلك
حاسوبيةﻣﻦوتستفيد
ﻋﻠﻰ ﻋﺪدمعاجلة
ﺗﺸﺘﻤﻞ عمليات
من اﻵﻟﻲ عىل عدد
اﻟﺘﻌﺮف ﻣﮭﻤﺔ
ﺑﺎﻟﺘﺮاﻛﯿﺐ اﻟﻤﺮاد اﻟﺘﻌﺮف ﻋﻠﯿﮭﺎ.
اﻟﺼﻠﺔعليها. املرادذات
التعرف اﻟﻤﺘﻨﻮﻋﺔ اﻟﻠﻐﻮﯾﺔ
بالرتاكيب الصلة اﻟﻤﺼﺎدر
ذات
و ﻧﺆﻛﺪ ھﻨﺎ ﻣﺎ ُذﻛﺮ ﻓﻲ ﺷﺮح اﻟﻄﺮق اﻟﻤﺴﺘﻌﻤﻠﺔ ﻓﻲ اﻻﺳﺘﺨﺮاج اﻵﻟﻲ ﻟﻠﺘﺮاﻛﯿﺐ ،أن
-150-
ﻛﻞ اﻟﺘﻘﻨﯿﺎت وﻣﻨﺎھﺞ اﻟﺒﺤﺚ اﻟﻤﺴﺘﻌﻤﻠﺔ ﻓﻲ اﻟﺪراﺳﺎت ﻓﻲ ھﺬا اﻟﻤﺠﺎل اﺳﺘﻔﺎدت ﻛﺬﻟﻚ ﻣﻦ
ﻣﮭﺎم ﻣﻌﺎﻟﺠﺔ اﻟﻠﻐﺎت ،ووﻓﻘﺎ ً ﻟﺬﻟﻚ ﺗﻨﻮﻋﺖ اﻟﻤﻨﺎھﺞ اﻟﻤﻌﺘﻤﺪة ﻓﻲ اﻟﺘﻄﺒﯿﻘﺎت اﻟﻤﺼﻤﻤﺔ
و نؤكد هنا ما ُذكر يف رشح الطرق املستعملة يف االستخراج اآليل للرتاكيب ،أن
الدراسات يف هذا املجال استفادت كذلك من كل التقنيات ومناهج البحث املستعملة
يف مهام معاجلة اللغات ،ووفق ًا لذلك تنوعت املناهج املعتمدة يف التطبيقات املصممة
للتعرف اآليل ،فمنها ما يعتمد الطرق التقليدية القائمة عىل كتابة قواعد لغوية آلية
للتعرف عىل بعض أنواع الرتاكيب ،ومنها ما يوظف قدرات احلاسوب الفائقة يف البحث
واملقارنة فيعتمد عىل املعاجم احلاسوبية املعدة مسبق ًا يف التعرف اآليل ،ومنها ما يوظف
جمموعة من خوارزميات تعلم اآللة أو التعلم العميق يف حتسني مهمة التعرف اآليل
وتوسيع نطاق الرتاكيب التي يمكن التعرف عليها دون إرشاف أو استعانة بمصادر
لغوية معدة مسبق ًا.
من أقدم الطرق استعامال يف هذا املجال ما يعرف بالطرق املعتمدة عىل القواعد
اللغوية املحوسبة حيث يستفاد فيها من اخلصائص اللغوية للرتاكيب املستهدفة يف
بناء قواعد لغوية آلية متكن الربنامج من التعرف عىل الرتاكيب املوافقة للقاعدة املربجمة
مسبق ًا ،وتتضمن يف الغالب برامج التعرف املعتمدة عىل القواعد املراحل املعتادة يف
املعاجلة اآللية للنص ،كتقسيم الكلامت إىل أصغر وحدات رصفية وإرجاع املشتقات إىل
أصوهلا وتزويد النص بالرموز اخلاصة بأقسام الكالم والعالقات النحوية بناء عىل نتائج
التحليل اآليل ،وبعد ذلك يكون تطبيق خوارزميات التعرف املعتمدة عىل مقارنة النص
املعالج بقوالب القواعد املخزنة يف الربنامج ،ومن أهم الدراسات التي تأثرت هبذه
الطرق يف التعرف اآليل عىل الرتاكيب اللغوية دراسة2013) Ghoneim and Diab
) التي وظفت عددا من تقنيات التعرف عىل الرتاكيب يف اللغة اإلنجليزية والعربية
لتحسني نتائج نظام إحصائي للرتمجة اآللية بني اللغتني وقد أظهرت نتائج هذه الدراسة
تطور ًا ملحوظ ًا عند املقارنة بني نتائج الرتمجة قبل وبعد دمج الرتاكيب االصطالحية
املتعرف عليها يف نظام املرتجم اآليل .لكن من املهم هنا التنبيه عىل أن من أبرز عيوب
هذه الطرق صعوبة تعاملها مع الرتاكيب املتغرية رصفي ًا أو نحوي ًا ،وكذلك صعوبة
االستفادة منها يف معاجلة الرتاكيب غري املتصلة والتي قد تتنوع فيها الكلامت الفاصلة
بني أجزاءها ،وهذا النوع من الرتاكيب ال يمكن التعرف عليه آليا بمجرد استعامل
خوارزميات البحث واملطابقة أو التقنيات املعتمدة عىل قواعد لغوية ثابتة.
-151-
ومن الطرق األخرى املعتمدة عىل التصنيف املبني عىل تعلم اآللة يف التعرف اآليل،
طريقة متييز املعاين املختلفة للرتاكيب ، Sense Disambiguation Methodوالتي
تستعمل فيها خوارزمية التعرف اآليل عددا من التقنيات اإلحصائية الستخراج جمموعة
من املعلومات الداللية عن استعامل الرتكيب يف سياقات لغوية خمتلفة ،ومن خالل هذه
املعلومات تُصنف الرتاكيب املستهدفة يف املعاجلة إىل عدة جمموعات بناء عىل املعلومات
اإلحصائية عن استعامالهتا املختلفة ،ومن ثم تظهر يف النتائج الرتاكيب االصطالحية
يف جمموعات مستقلة متشاهبة داللي ًا وفق ًا ملعلومات وسياق استعامهلا ،ويتم الرتكيز يف
هذه الطرق غالب ًا عىل التعرف عىل الرتاكيب قليلة الشفافية أو بعبارة أخرى الرتاكيب
املستعملة غالب ًا يف معانيها املجازية .فعىل سبيل املثال قدم (2008) Hashimoto and
Kawaharaمقرتح ًا لنظام آيل مبني عىل عدد من خوارزميات تعلم اآللة يمكنه التعرف
اآليل والتفريق بني االستعامالت احلقيقية واملجازية لعدد من الرتاكيب االصطالحية يف
اللغة اليابانية .وتتطلب هذه الطرق كمثيالهتا وجود معاجم حاسوبية أو مدونات لغوية
موسومة باملعلومات اللغوية وخاصة ما يتعلق بمعانيها الداللية يف سياقات خمتلفة،
ليمكن من خالهلا تدريب خوارزميات تعلم اآللة عىل التمييز بني معاين الرتاكيب يف
السياقات اللغوية املتعددة.
كذلك توظف بعض الطرق املستعملة يف التعرف اآليل عىل الرتاكيب االصطالحية
معلومات التحليل الرصيف والنحوي اآليل يف تعزيز دقة اخلوارزميات املصممة هلذه
املهمة ،ومن األمثلة عىل ذلك دراسة (2013) Green et al.التي طبقت نموذج ًا
للتحليل اللغوي اآليل يتضمن االستفادة من املعلومات اللغوية الرصفية والنحوية
يف حتسني مستوى الدقة يف التعرف اآليل عىل الرتاكيب االصطالحية يف اللغة العربية
والفرنسية ،وقد وجدت الدراسة كذلك يف التجربة املطبقة عىل عينة من النصوص
اللغوية أن نتائج التحليل اللغوي كذلك تأثرت إجيابي ًا عند دمج التعرف اآليل عىل
الرتاكيب يف مراحل برنامج التحليل اللغوي اآليل املختلفة .وقد تعددت الطرق املقرتحة
لتقييم النامذج والربامج احلاسوبية ملهام االستخراج والتعرف اآليل ،وذلك تبع ًا لتعدد
الطرق املستعملة يف هذه التطبيقات ،ومن أشهر طرق التقييم يف مهمة االستخراج اآليل
ما ييل:
-152-
التصنيف اليدوي للنتائج من قبل اخلرباء واللغويني املختصني.
املقارنة اآللية بمعاجم حاسوبية معدة مسبقا ،ومن أبرز عيوب هذه الطريقة
صعوبة توفر معاجم حموسبة شاملة للرتاكيب االصطالحية مما يقلل من فعاليتها
ومستوى تغطيتها يف تقييم املخرجات الصحيحة التي قد ال توجد يف املعاجم
املستعملة.
قوائم الرتاكيب االصطالحية املصممة ملهمة استخراج حمددة ،وهذه الطريقة
مفيدة جدا عندما يكون اهلدف هو قياس مدى فعالية نموذج استخراج حمدد
يف سياق لغوي خاص ،كاستخراج عدد من الرتاكيب التي تستعمل بكثرة يف
الكتابات العلمية والرسائل األكاديمية عىل سبيل املثال.
التقييم املتكامل أو اهلجني ،والذي يوظف عدد ًا من الطرق السابقة يف تقييم
النموذج احلاسويب ،وغالبا ما تستعمل هذه الطريقة عند تعذر االعتامد عىل
طريقة واحدة ألسباب عملية متعددة.
ويكثر استعامل طرق التقييم املعتادة يف نامذج التنقيب عن البيانات لتقييم خمرجات
التعرف اآليل عىل الرتاكيب االصطالحية ،حيث تتم مقارنة نتائج املرمز اآليل للرتاكيب
االصطالحية بنصوص موسومة برموز للرتاكيب االصطالحية من قبل اخلرباء ،أو
باالعتامد عىل مصادر لغوية خمصصة للرتاكيب االصطالحية ،وتستعمل يف هذا التقييم
غالب ًا درجات القياس املعروفة كدرجة الدقة واالستدعاء ودرجة إف (Precision,
.)Recall, and F-measure
-153-
الفعاليات العلمية امللحقة باملؤمترات األكاديمية املختصة يف اللسانيات احلاسوبية
وعلوم املعاجلة اآللية للغات ،فيقوم املنظمون للمؤمتر بعرض مهمة حمددة للمختصني
املشاركني يف املؤمتر كاالستخراج اآليل للرتاكيب االصطالحية االسمية عىل سبيل
املثال ،و ُيطلب بعد ذلك من املشاركني تنفيذ هذ املهمة باستعامل إجراءات وخطوات
مشرتكة تُرشح هلم بالتزامن مع دعوات املشاركة يف املؤمتر ،وعند االنتهاء من تنفيذ هذه
املهمة ،يتدارس املشاركون نتائج تطبيقاهتم املختلفة ،ومن خالل املقارنة بني النتائج
يتوصل املشاركون إىل تقييم وتصور ألداء تطبيقاهتم يف سياقات لغوية متعددة ،وقد
تتعدد كذلك اللغات املستعملة يف املهمة الواحدة ،فيكون التقييم حينئذ مفيد ًا ملعرفة ما
إذا كان باإلمكان تعميم النتائج لتشمل لغات أخرى.
-1من أهم املصادر التي رجعت هلا لدراسة قواعد البيانات التالية:
.- META-SHARE: the ILSP managing node
.- ELRA: European Language Resources Association
.- SIGLEX-MWE: the MWE community website
-2االستبانة متاحة عىل اإلنرتنت ويمكن الرجوع هلا من خالل هذا الرابطhttps://goo.gl/eYz8qL :
-154-
نتائج هذه املراجعة ُيالحظ وجود تنوع يف هذه املصادر؛ وذلك وفق ًا لألغراض التي
أنشئت من أجلها ،فمنها عىل سبيل املثال ،ما يكون عىل شكل وحدات معجمية جمردة
ال طويلة لرشح معاين الدالالت املختلفة من سياقاهتا اللغوية ،ومنها ما يتضمن مج ً
للرتكيب يف سياقات لغوية خمتلفة ،ومن هذه املصادر كذلك ما يقترص عىل لغة واحدة
ومنها ما يشمل لغات متعددة .وتُوفر بعض هذه املصادر معلومات لغوية إضافية عن
الرتكيب أو الوحدات املعجمية باالعتامد عىل نظام حاسويب لتمثيل البيانات اللغوية،
وقد تعتمد بعض هذه املصادر عىل األنظمة القياسية لتمثيل املصادر اللغوية كالنظام
القيايس املعروف((( ،Lexical Mark-up Frameworkومن أهم فوائد اعتامد هذه
األنظمة القياسية يف متثيل البيانات اللغوية ،سهولة استعامل املصدر اللغوي وتوظيفه
يف تطبيقات حاسوبية خمتلفة دون احلاجة إلضافة الكثري من التغيريات عىل املصادر
األصلية.
وقد تعددت املعاجم احلاسوبية املطورة يف اللغة العربية ،فعىل سبيل املثال
قدم )2016) Alghamdi and Atwellنظاما لتمثيل البيانات اللغوية للرتاكيب
االصطالحية يف اللغة العربية وذلك للوصول إىل متثيل حاسويب شامل هلذه الظاهرة
اللغوية يراعي اخلصائص الفريدة للغة العربية بمختلف مظاهرها ومستوياهتا اللغوية،
ويف دراسة أخرى َط َّور (2016) Najar et al.معج ًام للمركبات االسمية يف اللغة
(((
العربية مع متثيل هلا يف البيئة احلاسوبية اخلاصة بمهام معاجلة اللغات واملعروفة بنوج
،Noojوقد اجتهت عدد من الدراسات األخرى يف هذا املجال إىل نرش قوائم لعدد من
الرتاكيب التي تم التعرف عليها باستخدام طرق االستخراج اآليل املتنوعة يف مواقع
خاصة أو ضمن قواعد البيانات اللغوية عىل اإلنرتنت ،كام يف هذه األمثلةHawwari( :
.) et al.,2014; Attia, 2006; Abdu, 2011وعىل الرغم من تعدد الدراسات يف
هذ املجال إال أن اللغة العربية التزال يف حاجة إىل املزيد من البحث واجلهود العلمية
املؤسسية لبناء مصادر لغوية حاسوبية حديثة متثل اللغة العربية بكافة مستوياهتا كام
-1ملزيد من املعلومات حول هذ النظام وطريقة تطبيقه عىل لغات متعددة ومنها العربية يمكن الرجوع إىل كتابه األسايس
))Francopoulo, 2013
-2تقدم هذه البيئة جمموعة من األدوات احلاسوبية ملعاجلة اللغة بكافة مستوياهتا ،وملزيد من التفاصيل يمكن الرجوع هلذا
املصدر ))Silberztein, 2016
-155-
توفر معلومات دقيقة عن التطور الداليل الستعامل الرتاكيب االصطالحية يف األزمنة
واألماكن املختلفة التي تستعمل فيها اللغة العربية ،وتقدم كذلك أنظمة تفصيلية لتمثيل
البيانات اللغوية.
للغات2.ﺷﻜﻞ
اﻵﻟﯿﺔاآلليةﻟﻠﻐﺎت.
اﻟﻤﻌﺎﻟﺠﺔاملعاجلة ﻟﺘﻄﺒﯿﻘﺎت
أمثلة لتطبيقات :أﻣﺜﻠﺔ
الشكل :9
ﻰ ﺳﺒﯿﻞ اﻟﻤﺜﺎل ،أﺛﺒﺘﺖ دراﺳﺔ (2013) Ghoneim and Diabﺗﺤﺴﻨﺎ ﻣﻠﺤﻮظﺎ ً
-156-اﻟﻌﺮﺑﯿﺔ واﻹﻧﺠﻠﯿﺰﯾﺔ ﻋﻨﺪ دﻣﺞ ﻣﻌﺎﻟﺠﺔ
ﻣﺨﺮﺟﺎت ﻧﻈﺎم اﻟﺘﺮﺟﻤﺔ اﻵﻟﯿﺔ ﺑﯿﻦ اﻟﻠﻐﺔ
ﻛﯿﺐ اﻻﺻﻄﻼﺣﯿﺔ ﻓﻲ ﻧﻤﻮذج اﻟﺘﺮﺟﻤﺔ اﻹﺣﺼﺎﺋﻲ ،و طﺒﻘﺖ اﻟﺪراﺳﺔ أرﺑﻊ ﺗﻘﻨﯿﺎت
فعىل سبيل املثال ،أثبتت دراسة (2013) Ghoneim and Diabحتسنا ملحوظ ًا يف
خمرجات نظام الرتمجة اآللية بني اللغة العربية واإلنجليزية عند دمج معاجلة الرتاكيب
االصطالحية يف نموذج الرتمجة اإلحصائي ،و طبقت الدراسة أربع تقنيات لدمج
الرتاكيب االصطالحية يف نظام الرتمجة اآللية وذلك وفق ًا للخصائص اللغوية للرتاكيب
االصطالحية املستهدف إدماجها يف برنامج الرتمجة .وأوضحت النتائج تأثري ًا إجيابي ًا
لدمج الرتاكيب االصطالحية يف حتسن جودة نتائج تطبيق الرتمجة.
ويف أدبيات الرتمجة اآللية ،تعددت الطرق املطبقة يف دمج معاجلة الرتاكيب
االصطالحية يف أنظمة الرتمجة اآللية املتعددة ،فمنها ما يعتمد عىل التعرف اآليل األويل
هلذه الرتاكيب قبل بداية الرتمجة ،ومنها ما يعتمد عىل استخراج هذه الرتاكيب بعد عملية
الرتمجة ،واجتهت دراسات أخرى إىل دمج معاجلة الرتاكيب االصطالحية يف داخل نظام
الرتمجة؛ بتفعيل خوارزميات التعرف اآليل عىل هذه الرتاكيب باعتبارها إحدى مراحل
النموذج اخلاص بالرتمجة اآللية.
وتُعد برامج التحليل اللغوي اآليل من أكثر تطبيقات معاجلة اللغة إفادة من دمج
معاجلة الرتاكيب االصطالحية؛ وذلك للدور املهم هلذه املعاجلة يف حتسني نتائج التحليل
الرصيف والنحوي والداليل ،والعكس صحيح فتحسن جودة مهام التحليل اللغوي
تؤدي إىل حتسن مهام املعاجلة اآللية الرئيسة هلذه الرتاكيب كاالستكشاف والتعرف
اآليل .وقد تعددت كذلك األساليب املطبقة لدمج الرتاكيب االصطالحية يف نموذج
التحليل اللغوي اآليل فمنها ما يعتمد عىل االستخراج اآليل هلذه الرتاكيب ووضعها
يف قوائم خاصة بعد هناية عمليات التحليل اللغوي املتنوعة وذلك لضامن عدم تأثرها
باملعاجلة اآللية املعتادة للمفردات والرتاكيب يف اللغة ،ومنها ما ُيوظف عدد ًا من
تقنيات التعرف اآليل عىل هذه الرتاكيب قبل أو بعد أو يف أثناء تطبيق نموذج التحليل
اللغوي .ويف اللغة العربية أثبتت دراسة (2006) Attiaحتسنا ملحوظ ًا يف التحليل اآليل
اللغوي للغة العربية عند دمج املعاجلة احلاسوبية لبعض أنواع الرتاكيب االصطالحية،
وأوصت الدراسة بتعدد أساليب هذ الدمج لتشمل كافة أجزاء نموذج التحليل اللغوي
بداية بمرحلة إعداد وحتضري النص والتقسيم اآليل للكلامت واجلمل وانتهاء باملراحل
املتقدمة كالتحليل النحوي والداليل والوظيفي للنصوص.
-157-
-4عقبات وحتديات
عىل الرغم من التقدم الذي يمكن مالحظته يف املعاجلة احلاسوبية للرتاكيب
االصطالحية إال أن البحث يف هذ املجال اليزال يواجه عدد ًا من التحديات واملشكالت
املعقدة املفتوحة التي تتطلب جهود ًا وحلوالً علمية وعملية لتحسني معاجلة هذه
الظاهرة يف جتلياهتا وأنواعها املختلفة ،ويف هذا القسم سنشري باختصار إىل أهم هذه
التحديات.
من أهم التحديات البحثية يف مهام االستخراج اآليل للرتاكيب االصطالحية ،أنه
عىل الرغم من الفائدة الكبرية التي قدمتها عدد من خوارزميات االستخراج املتنوعة
وخاصة التي تشكل جزء ًا من النامذج اآللية املعتمدة عىل املعلومات اإلحصائية
كمعادالت االرتباط ونموذج إن قرام ،إال أن هذه الطرق يف االستخراج اآليل ال تزال
قليلة الفائدة عندما يتعلق األمر باستكشاف عدد من أنواع الرتاكيب االصطالحية غري
املتصلة ،أو التي تطرأ عليها تغريات رصفية ونحوية متنوعة بحسب السياق الذي تكون
فيه؛ ألن مثل هذا النوع من الرتاكيب يتطلب معاجلة حاسوبية دقيقة يف عدد من مراحل
التحليل اللغوي حتى يتمكن النظام اآليل من استخراجه يف سياقاته وحاالته املتعددة.
أما بالنسبة لتقنيات االستخراج والتعرف اآليل املعتمدة عىل تعلم اآللة ،ففي الغالب
أهنا بحاجة يف مرحلة تدريب خوارزميات التصنيف إىل االعتامد عىل مصادر لغوية
حاسوبية مزودة بمعلومات لغوية يف مستويات متعددة ،وبناء هذه املصادر يف الغالب
يتطلب جهود ًا برشية مضنية ويستغرق أوقات ًا طويلة ،لذا فإن من أهم املعوقات هلذه
األبحاث تعذر الوصول يف أغلب احلاالت إىل معاجم شاملة وكافية متثل الرتاكيب
االصطالحية بكل مظاهرها وخصائصها املختلفة ،وكل هذا يؤثر سلبي ًا بشكل أو
بـآخر عىل جودة املخرجات النهائية هلذه التطبيقات.
ومن أهم املشاكل املعقدة كذلك يف هذ املجال ،عدم وجود إمجاع بني املختصني
فيام يتعلق بمنهجية التقييم املعتمدة ملهام املعاجلة احلاسوبية للرتاكيب االصطالحية،
ووجود سلبيات ألغلب الطرق املستعملة يف تقييم النامذج احلاسوبية املختلفة والتي قد
تؤثر سلب ًا يف مدى مصداقيته ،فعىل سبيل املثال عند االعتامد عىل املصادر اللغوية اآللية
يف تقييم النتائج ،غالب ًا ما تواجهنا مشكلة ندرة هذه املصادر أو ضعفها وعدم شموهلا
-158-
للرتاكيب املستهدفة يف عملية االستخراج أو التعرف اآليل ،وكذلك من ناحية أخرى
إذا تم االعتامد عىل التقييم غري اآليل ،والذي يستعني باخلرباء واملختصني لتصنيف
النتائج إىل إجيابية أو سلبية ،فإنه يف مثل هذ احلاالت ال يمكننا التقليل من التأثري السلبي
الستعامل احلدس وامليول الشخصية يف التقييم؛ ولذا فإن احلاجة ملحة يف هذ املجال
إىل استحداث منهجية واضحة وشاملة لتقييم التطبيقات املختلفة ،باالستناد إىل معايري
علمية وعملية يسهل تطبيقها وتعميم نتائجها.
-5اخلامتة
مع كثرة األبحاث وتعدد املناهج والطرق املستعملة يف اللسانيات احلاسوبية ومعاجلة
اللغات البرشية يبقى املجال مفتوح ًا واألسئلة البحثية مطروحة لتحقيق اهلدف األسمى
لعلوم الذكاء االصطناعي املتنوعة والذي يتمثل يف حماولة أنسنة اآلالت وتقليل الفجوة
بينها وبني البرش من خالل تعزيز طرق التواصل بني اإلنسان واآللة ،وحماولة حتسني أداء
اآللة أو احلاسوب يف أداء املهام املتصلة باستعامل اللغة ،وذلك باستثامر ما توفره اآلالت
من إمكانات وقدرات خارج قدراتنا البرشية املحدودة.
وكام ذكرنا يف مقدمة هذا البحث إن الرتاكيب االصطالحية من املشكالت املعقدة
بدرجة تعقيد هذه الظاهرة اللغوية يف لغتنا ،وال تزال هذه الظاهرة يف اللغة العربية بحاجة
إىل مزيد من الدراسة والبحث والتحليل ،وخاصة يف ظل إدراكنا ملا تتميز به اللغة العربية
من خصائص هندسية بارعة ،ومكونات رياضية متميزة ،كاجلذر واألوزان الرصفية
التي قد تساهم يف ترسيع تقدم األبحاث يف هذا امليدان ،وسد الفجوة بني اللغة العربية
واملعاجلة احلاسوبية للرتاكيب االصطالحية بمختلف أشكاهلا وتطبيقاهتا.
وعىل الرغم من وجود الكثري من الدراسات املطبقة عىل اللغة العربية يف هذا امليدان،
إال أهنا يف جمملها ال تقارن بام وصل له البحث يف لغات أخرى كاإلنجليزية عىل سبيل
املثال؛ وهلذا التأخر أسباب لعل من أمهها قلة الباحثني واملتخصصني يف هذا النوع من
األبحاث ،وكذلك قلة املؤسسات البحثية التي تُعنى بجمع املتخصصني يف اللسانيات
وعلوم احلاسوب -وغريها من التخصصات ذات العالقة -لبناء فرق بحثية متكاملة،
يمكنها الوصول إىل نتائج ذات قيمة معرفية وتقديم إضافات علمية يف هذا املجال املهم.
-159-
املراجع العربية
ابن عمر ،عبد الرزاق ( )2007املتالزمات اللفظية يف اللغة والقواميس العربية ،جممع
األطرش ،تونس.
أبو داود ،حممد ( )2003معجم التعبري االصطالحي يف العرية املعارصة ،دار غريب،
القاهرة
أبو سعد أمحد ( )1987معجم الرتاكيب والعبارات االصطالحية العربية القديم منها
واملولد ،دار العلم للماليني بريوت
إسامعيل ،حممود .حسني ،خمتار الطاهر .الدوش ،سيد عوض ( )1996املعجم السياقي
للتعبريات االصطالحية ،مكتبة لبنان ،بريوت
بشارة ،أنطون ( )2002معجم التعابري ،مكتبة لبنان ،بريوت
حافظ ،الطاهر عبد السالم هاشم ( )2004معجم احلافظ للمتصاحبات العربية ،مكتبة
لبنان ،بريوت.
حجازي ،حممود فهمي ( )1980اجلانب السياقي يف املعاجم والكتب يف جمال تعليم
اللغة العربية لغري الناطقني هبا ،الندوة العاملية األوىل لتعليم العربية لغري
الناطقني هبا الرياض (ج( ، )1ص.)251-232
حسان ،متام ( )1973اللغة العربية معناها ومبناها ،اهليئة املرصية العامة للكتاب،
القاهرة
محادة ،سلوى ()2009املعاجلة اآللية للغة العربية ،دار غريب ،القاهرة.
اخلويل ،حممد عيل ( )1998الرتاكيب الشائعة يف اللغة العربية ،دار الفالح ،عامن.
داود ،حممد حممد ( )2014املعجم املوسوعي للتعبري االصطالحي يف اللغة العربية،
دارهنضة مرص ،القاهرة
غريم ،باوال سانتيان ( )2014تصنيف جمدد وجمدد للمتالزمات اللفظية العربية ،يف
«املعجمية العربية قضايا وآفاق ج ، 2.كنوز املعرفة ،عامن
غزالة ،حسن ( )1993ترمجة املتالزمات اللفظية .ترمجان ،املغرب ()2:2
فايد ،وفاء كامل ( )2014املعاجم العربية القطاعية بني الرتاث واملعارصة معجم
التعابري االصطالحية نموذجا .يف «املعجمية العربية قضايا وآفاق ج 1كنوز
املعرفة ،عامن
-160-
، أبو اهلول،) معجم التعابري االصطالحية يف العربية املعارصة2007( وفاء كامل،فايد
القاهرة
اللسان،) التعابري االصطالحية والسياقية ومعجم عريب هلا1979( عيل،القاسمي
.)34-17 ص1 ج17 الرباط (مج،العريب
) األسس النظرية لوضع معجم للمتالزمات اللفظية1996( حممد حلمي،هليل
.) تونس13-12( املعجمية العربية،العربية
املراجع األجنبية
Abdou, A. (2011). Arabic Idioms: a corpus-based study. London:
Routledge.
Alghamdi, A. (2018). A computational lexicon and representational
model for Arabic multiword expressions, PhD thesis,
University of Leeds
Alghamdi, A., & Atwell, E. (2016). An empirical study of Arabic
formulaic sequence extraction methods. The 10th International
Conference on Language Resources and Evaluation. Portorož,
Slovenia: LREC.
Alghamdi, A., & Atwell, E. (2017). Towards Comprehensive
Computational Representations of Arabic Multiword
Expressions. In International Conference on Computational
and Corpus-Based Phraseology (pp. 415-431). Springer,
London.
Al-Sabbagh, R., Girju, R., & Diesner, J. (2014). Unsupervised
Construction of a Lexicon and a Repository of Variation
Patterns for Arabic Modal Multiword Expressions.
Proceedings of the 10th Workshop on Multiword Expressions
(MWE), 114–123.
Attia, M. and Tounsi, L. (2010). Automatic Lexical Resource
Acquisition for Constructing an LMF-Compatible Lexicon
-161-
of Modern Standard Arabic In: Dublin: Technical report, The
NCLT Seminar Series, DCU.
Attia, Mohammed A. (2006). Accommodating multiword expressions
in an Arabic LFG grammar. In Proceedings of FinTAL 2006,
pages 87–98, Turku
Atwell, E.S. (1988). Grammatical analysis of English by statistical
pattern recognition In: Pattern Recognition. Springer, pp.
626–635.
Baldwin, T. and Kim, S.N. (2010). Multiword expressions. Handbook
of Natural Language Processing, second edition. Morgan and
Claypool.
Bar, K., Diab, M. and Hawwari, A. (2014). Arabic Multiword
Expressions In: Language, Culture, Computation.
Computational Linguistics and Linguistics. Springer, pp.
64–81.
Bartsch, S. (2004). Structural and functional properties of collocations
in English: A corpus study of lexical and pragmatic constraints
on lexical co-occurrence. Gunter Narr Verlag.
Berry-Rogghe, G. (1973). The computation of collocations and
their relevance in lexical studies. The computer and literary
studies.,pp.103–112.
Biber Douglas, Stig Johansson, Geoffrey Leech, Susan Conrad, and
Edward Finegan (1999). Longman Grammar of Spoken and
Written English. Harlow: Longman.
Carpuat, Marine and Mona Diab. (2010). Task-based evaluation of
multiword expressions: A pilot study in statistical machine
translation. In Proceedings of NAACL/HLT 2010, pages 242–
245, Los Angeles, CA.
-162-
Constant, M., Eryiğit, G., Monti, J., van der Plas, L., Ramisch, C.,
Rosner, M. and Todirascu, A. (2017). Multiword expression
processing: a survey. Computational Linguistics.,pp.1–92.
Cowie, A.P. (1998). Phraseology: Theory, analysis, and applications.
OUP Oxford.
da Silva, Joaquim Ferreira, Gaël Dias, Sylvie Guilloré, and José
Gabriel Pereira Lopes. (1999). Using localmaxs algorithm for
the extraction of contiguous and non-contiguous multiword
lexical units. In Proceedings of the 9th Portuguese Conference
on Artificial Intelligence, pages 113–132, London.
Dale, R. (2010). Classical approaches to natural language processing.
In Indurkhya, N. and Damerau, F.J. eds., 2010. Handbook of
natural language processing (Vol. 2). CRC Press.
Erman, B. and Warren, B., (2000). The idiom principle and the open
choice principle. Text-Interdisciplinary Journal for the Study of
Discourse, 20(1), pp.29-62.
Evert, Stefan. (2005). The Statistics of Word Co-occurrences: Word
Pairs and Collocations. Ph.D. thesis, University of Stuttgart,
Stuttgart.
Farahmand, Meghdad and James Henderson. (2016). Modeling
the non-substitutability of multiword expressions with
distributional semantics and a log-linear model. In Proceedings
of the ACL 2016 Workshop on MWEs, pages 61–66, Berlin
Fillmore, C.J. (1979). On fluency In: Individual differences in
language ability and language behavior. Elsevier, pp. 85–101.
Francopoulo, G. (2013). LMF lexical markup framework. Hoboken,
NJ; London: ISTE Ltd.
-163-
Ghoneim, Mahmoud and Mona Diab. (2013). Multiword expressions
in the context of statistical machine translation. In Proceedings
of IJCNLP 2013, pages 1181–1187, Nagoya
Girju, Roxana, Dan Moldovan, Marta Tatu,and Daniel Antohe. (2005).
On the semantics of noun compounds. CSL Special Issue on
MWEs, 19(4):479–496.
Green, Spence, Marie-Catherine de Marneffe, and Christopher D.
Manning. (2013). Parsing models for identifying multiword
expressions. Computational Linguistics, 39(1):195–227.
Haddar, K., & Benhamadou, A. (2010). A Syntactic Lexicon for
Arabic Verbs. Information Retrieval, (July 2014), 269–272.
Hashimoto, Chikara and Daisuke Kawahara. (2008). Construction
of an idiom corpus and its application to idiom identification
based on WSD incorporating idiom-specific features. In
Proceedings of EMNLP 2008, pages 992–1001, Waikiki, HI
Hawwari, A., Attia, M., & Diab, M. (2014). A framework for the
classification and annotation of multiword expressions in
dialectal arabic. In Proceedings of the EMNLP 2014 Workshop
on Arabic Natural Language Processing (ANLP) (pp. 48-56).
Katz, Graham and Eugenie Giesbrecht. (2006). Automatic
identification of non-compositional multi-word expressions
using latent semantic analysis. In Proceedings of the ACL/
COLING 2006 Workshop on MWEs, pages 12–19, Sydney
Losnegaard, Gyri Smørdal, Federico Sangati, Carla Parra Escartín,
Agata Savary, Sascha Bargmann, and Johanna Monti. (2016).
Parseme survey on MWE resources. In Proceedings of LREC,
pp 2299–2306 Portoroz.
Ludeling, A., & Kyto, M. (2008). Corpus linguistics: An international
handbook. Walter de Gruyter. Berlin
-164-
McCarthy, Diana, Bill Keller, and John Carroll. (2003). Detecting a
continuum of compositionality in phrasal verbs. In Proceedings
of the ACL 2003 Workshop on MWEs, pages 73–80, Sapporo.
Meghawry, S., Elkorany, A., Salah, A., & Elghazaly, T. (2015).
Semantic Extraction of Arabic Multiword Expressions.
Computer Science & Information Technology ( CS & IT ).
Mel’čuk, I., (1998). Collocations and lexical functions. Phraseology.
Theory, analysis, and applications, pp.23-53.
Miller, G.A., Beckwith, R., Fellbaum, C., Gross, D. and Miller, K.J.
(1990). Introduction to wordnet: An on-line lexical database.
International journal of lexicography. 3(4),pp.235–244.
Moirón, M.B.V. (2005). Data-driven identification of fixed expressions
and their modifiability. PhD thesis, University of Groningen
Monti, Johanna, Federico Sangati, and Mihael Arcan. (2015). TED-
MWE: A bilingual parallel corpus with MWE annotation.
In Proceedings of the Second Italian Conference on
Computational Linguistics CLiC-it 2015, pages 193–197,
Trento.
Najar, D., Mesfar, S. and Ghezela, H. Ben (2015). A large
terminological dictionary of Arabic compound words In:
International NooJ Conference. Springer, pp. 16–28.
Ohlrogge, A. (2009). Formulaic expressions in intermediate EFL
writing assessment. Formulaic language. 2,pp.387–404.
Pawley, A., &F. Syder. (1983). Two puzzles for linguistic theory:
Nativelike selection and nativelike fluency. J. Richards&R.
Schmidt (eds.). Language and Communication, pp.191-226.
Pecina, Pavel. (2008). Lexical Association Measures: Collocation
Extraction. Ph.D. thesis, Faculty of Mathematics and Physics,
Charles University in Prague, Prague.
-165-
Ramisch, C. (2015). Multiword Expressions Acquisition: A Generic
and Open Framework. Springer. London.
Ramisch, Carlos, Aline Villavicencio, Leonardo Moura, and Marco
Idiart. (2008). Picking them up and figuring them out: Verb-
particle constructions, noise and idiomaticity. In Proceedings
of CoNLL 2008, pages 49–56, Manchester
Reddy, Siva, Diana McCarthy, and Suresh Manandhar. (2011). An
empirical study on compositionality in compound nouns. In
Proceedings of IJCNLP 2011, pages 210–218, Chiang Mai.
Riedl, Martin and Chris Biemann. (2015). A single word is not
enough: Ranking multiword expressions using distributional
semantics. In Proceedings of EMNLP 2015, pages 2430–2440,
Lisbon.
Rikters, M. and Bojar, O. (2017). Paying Attention to Multi-Word
Expressions in Neural Machine Translation. Machine
Translation Summit XVI, Nagoya, Japan
Sag, I.A., Baldwin, T., Bond, F., Copestake, A. and Flickinger, D.
(2002). Multiword expressions: A pain in the neck for NLP
In: Computational Linguistics and Intelligent Text Processing.
Springer, pp. 1–15.
Salehi, Bahar, Paul Cook, and Timothy Baldwin. (2015). A word
embedding approach to predicting the compositionality of
multiword expressions. In Proceedings of NAACL/HLT 2015,
pages 977–983, Denver, CO.
Seretan, Violeta. (2011). Syntax-Based Collocation Extraction, Text,
Speech and Language Technology, Springer
Silberztein, M. (2016). Formalizing Natural Languages: The NooJ
Approach. John Wiley & Sons.
-166-
Sinclair, J. (1991). Corpus, concordance, collocation. Oxford
University Press.
Stevens, M.E. and Giuliano, V.E. (1965). Statistical Association
Methods for Mechanized Documentation: Symposium
Proceedings, Washington, 1964. US Government Printing
Office.
Stevenson, Suzanne, Afsaneh Fazly, and Ryan North. (2004).
Statistical measures of the semi productivity of light verb
constructions. In Proceedings of the ACL 2004 Workshop on
MWEs, pages 1–8, Barcelona.
Tan, Liling and Santanu Pal. (2014). Manawi: Using multi-word
expressions and named entities to improve machine translation.
In Proceedings of the Ninth Workshop on Statistical Machine
Translation, pages 201–206, Baltimore, MD
Vintar, Š., Vintar, Š., Fišer, D. and Fišer, D. (2008). Harvesting Multi-
Word Expressions from Parallel Corpora. Proceedings of
the Sixth International Language Resources and Evaluation
(LREC’08). (Fišer),pp.1091–1096.
Wray, A. 2002. Formulaic language and the lexicon. Cambridge
University Press Cambridge.
Zarrieß, S. and Kuhn, J. (2009). Exploiting translational
correspondences for pattern-independent MWE identification
In: Proceedings of the Workshop on Multiword Expressions
Identification, Interpretation, Disambiguation and Applications
- MWE ’09. Morristown, NJ, USA: Association for
Computational Linguistics, pp. 23–30.
Zaghouani, W. (2014). Critical Survey of the Freely Available Arabic
Corpora. In Workshop on Free/Open-Source Arabic Corpora
and Corpora Processing Tools Workshop Programme In
Proceedings of LREC.
-167-
-168-
الصفحة املوضوع
18 -1املقدمة
-169-
29 2.3تعلم اآللة
42 -٤اخلامتة
43 املراجع
48 -1مقدمة
-170-
5.3الشبكات العصبية التكرارية
58
( )Recurrent Neural Networks
66 املراجع
72 -1مقدمة
-171-
84 -6عرص جديد
90 -8خامتة
91 املراجع
98 -1مقدمة
-172-
116 4.5تطور مضامني الكلمة
118 -5خامتة
120 املراجع
128 -1املقدمة
-173-
159 -5اخلامتة
-174-
مباحث لغوية ٦١
خوارزميات الذكاء االصطناعي
فــــــــي تحليــــل النــــص العـــربي
يُصدِ ر مركز امللك عبداهلل بن عبدالعزيز الدولي خلدمة اللغة العربية هذا الكتاب ضمن سلسلة
(مباحث لغوية) ،وذلك وفق خطة عمل مقسمة إلى مراحل ،ملوضوعات علمية رأى املركز حاجة املكتبة
اللغوية العربية إليها ،أو إلى بدء النشاط البحثي فيها ،واجتهد يف استكتاب نخبة من احملررين واملؤلفني
للنهوض بعنوانات هذه السلسلة على أكمل وجه.
ويهدف املركز من وراء ذلك إلى تنشيط العمل يف املجاالت التي تُـنَـ ّبه إليها هذه السلسلة ،سواء أكان
العمل علميا بحثيا ،أم عمليا تنفيذيا ،ويدعو املركز الباحثني كافة من أنحاء العالم إلى املساهمة يف هذه
السلسلة.
وتو ّد األمانة العامة أن تشيد بجهد السادة املؤلفني ،وجهد محرر الكتاب ،على ما تفضلوا به من رؤى
وأفكار خلدمة العربية يف هذا السياق البحثي.
والشكر والتقدير الوافر ملعالي وزير التعليم املشرف العام على املركز ،الذي يحث على كل ما من
شأنه تثبيت الهوية اللغوية العربية ،ومتتينها ،وفق رؤية استشرافية محققة لتوجيهات قيادتنا احلكيمة.
موجهة إلى جميع املختصني واملهتمني للتواصل مع املركز؛ لبناء املشروعات العلمية ،وتكثيف
والدعوة ّ
اجلهود ،والتكامل نحو متكني لغتنا العربية ،وحتقيق وجودها السامي يف مجاالت احلياة.
-175-