‫‪Automatic Multi-Label Arabic Text‬‬

‫التصنيف التلقائي متعدد التسمية للنصوص العربية‬

‫الطالبة‪ :‬نوال مصلح الجدعاني‬

‫المشرفين على الرسالة‪ :‬د‪ .‬منيرة طيلب و د‪ .‬ريم العتيبي‬

‫المستخلص البحثي‬
‫هناك تزايد هائل للمستندات النصية على الويب‪ .‬أدى ذلك إلى زيادة الحاجة إلى طرق قادرة على تنظيم وتصنيف المستندات اإللكترونية‬
‫بكفاءة‪ .‬تستخدم مهمة التصنيف متعدد التسمية في نطاق واسع من التطبيقات‪ ،‬وقد تالئم تطبيقات مختلفة مثل تصنيف المكتبات الرقمية‪،‬‬
‫الكتب اإللكترونية‪ ،‬المقاالت اإلخبارية وغيرها‪ .‬حيث تقوم بتعيين تسميات متعددة لكل مستند في وقت واحد وقد يتم تنظيم هذه التسميات‬
‫في هيكل هرمي‪ .‬عالجت دراسات قليلة مهمة تصنيف النص متعدد التسمية على اللغة العربية باستخدام مجموعات بيانات عربية صغيرة‬
‫وغير متاحة‪ .‬ركزت معظم هذه الدراسات بشكل أساسي على التصنيف متعدد التسمية المسطح وأهملت التصنيف الهرمي‪ .‬لذلك في هذا‬
‫البحث نتطرق لمهمة التصنيف الهرمي متعدد التسمية في سياق اللغة العربية‪ .‬وبالتالي‪ ،‬فإننا نقترح نموذج ‪ HMATC‬لتصنيف النص‬
‫العربي متعدد التسمية ذي التسلسل الهرمي باستخدام التعلم اآللي‪ ،‬من خالل دراسة تأثير كالً من طريقة اختيار الميزات ( ‪feature‬‬
‫‪ ،)selection method‬حجم مجموعة الميزات المختارة (‪ ،)dimension of the feature set‬وخوارزمية ‪ HOMER‬على مهمة‬
‫التصنيف‪ .‬قمنا بتكييف المعلمات األساسية لخوارزمية ‪ HOMER‬على مجموعة مختلفة من المصنفات متعددة التسمية ( ‪multi-label‬‬
‫‪ )classifiers‬وخوارزميات التجميع (‪ )clustering algorithms‬مع عدد مختلف من المجموعات (‪ )number of clusters‬لتحسين‬
‫مهمة التصنيف الهرمي‪ .‬عالوة على ذلك‪ ،‬أولينا المزيد من االهتمام إلعداد مجموعة بيانات عربية متعددة التسمية ذات التسلسل الهرمي‬
‫في طريقة مناسبة لخوارزمية التصنيف الهرمي‪ ،‬وجعلها متاحة للباحثين المهتمين بمهام التصنيف متعدد التسمية الهرمية‪ .‬أظهرت النتائج‬
‫أن النموذج المقترح يتفوق على جميع النماذج التي تمت المقارنة بها في التجارب من حيث التكلفة الحسابية‪ .‬إضافة إلى ذلك‪ ،‬فإنه يحقق‬
‫تحسنا ً كبيرا ً من حيث جميع مقاييس التقييم بالمقارنة مع نموذج الفتوى‪.‬‬
Automatic Multi-Label Arabic Text

Student Name: Nawal Musleh Aljedani

Supervised By: Dr. Mounira Taileb and Dr. Reem Alotaibi

There is a massive growth of electronic text documents on the web, this led to the increasing need for
methods that can organize and classifying electronic documents (instances) automatically. Multi-label
classification task is widely used in real-world problems and it has been applied on different applications
like classification of digital libraries, electronic emails, and newspaper articles. It assigns multiple labels
for each document simultaneously and those labels might be organized in a hierarchical structure. Few
studies have investigated the multi-label classification algorithms to address multi-label classification
problem on the Arabic text using small and non-publicly available datasets. Most of these studies mainly
focused on the flat classification and neglect the hierarchical structure.

Therefore, in this work we tackle the hierarchical multi-label classification problem in the context of
Arabic language. Thus, we propose a Hierarchical Multi-label Arabic Text Classification (HMATC) model
using machine learning approach, by investigating the effect of feature selection method, the dimension
of the feature set, and HOMER (Hierarchy Of Multi-label classifiERs) algorithm on the classification task.
We optimized the essential parameters of HOMER algorithm on a different set of multi-label classifiers,
and clustering algorithms along with different number of clusters, to improve the hierarchical
classification task. Besides, we gave more attention to prepare a hierarchical multi-label Arabic dataset
in an appropriate representation for hierarchical classification algorithm and make it publicly available
for the hierarchical multi-label classification tasks.

The results reveal that the proposed model outperforms all the models considered in the experiments
in terms of computational cost. Besides, it provides a significant improvement compared to state-of-
the-art model (Fatwa model) in terms of all the evaluation metrics.

