You are on page 1of 17

This is a repository copy of Arabic and Quranic computational linguistics projects at the

University of Leeds ‫المشاريع الحاسوبية على اللغة العربية والقرآن بجامعة ليدز‬.

White Rose Research Online URL for this paper:


http://eprints.whiterose.ac.uk/81629/

Proceedings Paper:
Sharaf, A, Atwell, ES, Dukes, K et al. (8 more authors) (2010) Arabic and Quranic
computational linguistics projects at the University of Leeds ‫المشاريع الحاسوبية على اللغة‬
‫العربية والقرآن بجامعة ليدز‬. In: Proceedings of the workshop of Increasing Arabic Contents
on the Web, organized by Arab League Educational, Cultural and Scientific Organization
(ALECSO). Workshop of Increasing Arabic Contents on the Web, 16 Oct 2010, Damascus,
Syria. . (Unpublished)

Reuse
Unless indicated otherwise, fulltext items are protected by copyright with all rights reserved. The copyright
exception in section 29 of the Copyright, Designs and Patents Act 1988 allows the making of a single copy
solely for the purpose of non-commercial research or private study within the limits of fair dealing. The
publisher or other rights-holder may allow further reproduction and re-use of this version - refer to the White
Rose Research Online record for this item. Where records identify the publisher as the copyright holder,
users can verify any specific terms of use on the publisher’s website.

Takedown
If you consider content in White Rose Research Online to be in breach of UK law, please notify us by
emailing eprints@whiterose.ac.uk including the URL of the record and the reason for the withdrawal request.

eprints@whiterose.ac.uk
https://eprints.whiterose.ac.uk/
‫‪Abdul-Baquee Sharaf, Eric Atwell, Kais Dukes, Majdi‬‬ ‫‪Latifa Al-Sulaiti, Bayan Abu Shawar, Nora‬‬
‫*‪Sawalha, Amal Al-Saif, Serge Sharoff and Katja Markert‬‬ ‫**‪Abbas and Andy Roberts‬‬
‫‪*School of Computing, Leeds University, Leeds, England.‬‬ ‫‪**Alumni of School of Computing, Leeds‬‬
‫‪http://www.comp.leeds.ac.uk/arabic‬‬ ‫‪University‬‬

‫ﺒ‬ ‫ﺒ ‪.‬‬ ‫ﺒ‬ ‫ﺖ‬ ‫ز‬ ‫ﺒ ب‬ ‫ﺒ‬ ‫أ ﺖﺒ‬ ‫أ ﺌ‬


‫ﺒ ﺚوﺒت‪ ،‬و أﺚﺜ أ‬ ‫ﺒً‬ ‫ﺚﺒً ً‬ ‫و‬ ‫ﺒ‬ ‫ﺒ‬ ‫ً‬ ‫ﺚوﺒت ﺒ‬ ‫ﺚﺜﺒ وﺒ‬
‫ﺒ ﺒ ‪.‬‬ ‫ﺛ‬ ‫و‬ ‫م‬ ‫ﺒ‬ ‫)‪(machine learning‬‬ ‫ﺒ‬ ‫تﺒ‬
‫)‪(corpus‬‬ ‫ﺠ‬ ‫أول‬ ‫ﺒ ت‪ ،‬و‬ ‫ﺜ‬ ‫و ﺚ‬ ‫ﺒﺒ‬ ‫و‬
‫ﺒ‬ ‫‪.‬‬ ‫ضﺒ‬ ‫وﺒ‬ ‫ﺜ‬ ‫ﺒ و‬ ‫ﺒ ﺜو‬ ‫و‬
‫أ ىو ﺒ ‪.‬‬ ‫ﺜ ﺒ‬ ‫وﺒ‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺒﺌ ﺒ‬ ‫ة وﺒ‬ ‫ﺒ‬
‫ﺒ ﺒ‬ ‫وﺛ‬ ‫وﺒ‬ ‫‪،‬ﺒ‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺒ ﺒ‬ ‫أﺚوﺒت‬ ‫أ‬
‫ﺒﺜ ﺒ ت‬ ‫ﺒ‬ ‫)‪(discourse relations‬‬ ‫تﺒ‬ ‫و‬ ‫ﺒ‬
‫‪.‬‬ ‫ﺒ ﺚﺜة‬ ‫ﺒ‬ ‫ﺒ‬
‫ﺐ ﺒﺚ‬ ‫و‬ ‫آن ﺒ‬ ‫ﺒ‬ ‫ﺜ‬ ‫ز‬ ‫ﺒ ﺒ ةﺒ‬ ‫ﺒ تﺒ‬ ‫و‬
‫ﺒ‬ ‫" آ " وﺒ ي‬ ‫وﺜة آ و‬ ‫ﺒ ﺖ‬ ‫‪ .‬و‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺒ‬
‫آن‬ ‫"ﺛ ة‬ ‫‪ .‬و ﺒً‬ ‫ﺒ‬ ‫ﺒ ﺒ آ وﺒ‬ ‫ﺜ‬ ‫ً‪ ،‬وﺐ‬ ‫ة‬ ‫ى‬
‫ﺜﺚ ﺐ و‬ ‫‪ [com.quran.corpus//:http] (Quranic‬و‬ ‫" )‪Arabic Corpus‬‬ ‫ﺒ‬
‫ل‬ ‫آ ‪.‬و ﺒ ﺨﺒ‬ ‫ى ﺒ ﺧ وأ م ﺒ م‬ ‫ت‬ ‫و‬ ‫ﺒ‬
‫‪،‬و‬ ‫ﺒ‬ ‫ﺒ آن‬ ‫ﺒﺒ‬ ‫تو‬ ‫ﺒﺌ أ ﺖ ﺒ‬ ‫ﺜﺒً وﺒ ً‬ ‫وﺒ‬ ‫وﺒ‬
‫ﺘ"‬ ‫ً‪ .‬و ﺒ‬ ‫‪ 50‬أ زﺒ‬ ‫أ‬ ‫و‬ ‫ك‬ ‫ﺒ آن‬ ‫ﺒ‬ ‫ﺒ ول ﺜﺒ‬ ‫ﺒ‬
‫أ‬ ‫ﺒ ﺒ وﺤ‬ ‫‪.‬و ﺜ ً م‬ ‫م ‪ 2010‬و‬ ‫ﺌﺒ‬ ‫ب وﺒ‬ ‫مﺒ‬ ‫ﺒ آن"‬
‫ﺒ آ ))‪Quranic Arabic Dependency Treebank‬‬ ‫ﺒ‬ ‫ﺒت‬ ‫ﺜ ﺐ ﺒﺚ‬ ‫ﺒ ن‬
‫ﺜوﺒ‬ ‫آ و ﺌ‬ ‫ﺠ‬ ‫م‬ ‫أ‬ ‫آﺌة ﺒ ‪.‬‬ ‫و‬ ‫ﺐ ﺒب ﺒ آن ﺒ‬ ‫ة‬
‫ﺚﺒت ﺒ آن‬ ‫ﺒ ﺒ وﺤ ﺒ آ ﺌ ﺛ ة‬ ‫ﺒ‬ ‫‪.‬و ﺒ‬ ‫ﺒ‬ ‫ﺒ آن‬ ‫و ﺚة‬ ‫ﺒ‬
‫ﺒﺜ وﺤ ‪FrameNet‬‬ ‫ﺚﺒت ﺒ آن‬ ‫ﺛ ة ﺐ ﺜﺒت ﺚ‬ ‫ﺒﺜ وﺤ ‪ WordNet‬و‬
‫ﺒ آ‬ ‫ﺒ‬ ‫ك‬ ‫‪،‬و‬ ‫تﺒ‬ ‫آن‬ ‫و‬
‫ل ﺜ‬ ‫آ ﺒ ‪ .‬و‬ ‫ﺒ‬ ‫لﺒ‬ ‫وﺛ‬ ‫ﺧ وﺒ‬ ‫ي ﺒ ﺚﺒت وﺒ ب وﺒ وﺒ‬
‫ﺒ ي و ﺒ ﺒﺖ‬ ‫ﺒ‬ ‫–‬ ‫ﺠﺒ‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺒ ة‬ ‫ﺒ آن ﺒ‬
‫وﺒ‬ ‫أ ﺒض ﺒ‬ ‫ﺒ ل‬ ‫ة‪.‬‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺒ‬ ‫–و‬ ‫ﺒ‬
‫ﺠ‪ .‬و‬ ‫ﺒﺒ‬ ‫ﺒ‬ ‫ﺒ‬ ‫لﺒ‬ ‫وﺛ‬ ‫ﺚﺒ‬ ‫لﺒ‬ ‫ﺒ‬
‫ت‬ ‫و ﺒ‬ ‫ﺒ ﺚ ن ﺒ ى ﺒ ﺜﺒة وﺒ‬ ‫ﺒ‬ ‫أ‬ ‫ُض‬
‫ﺒ ﺚﺜ‪.‬‬ ‫وﺒ و ت‬ ‫ﺒ‬

‫‪1‬‬
‫‪،‬‬ ‫ﺒ‬ ‫ﺒ‬ ‫ة وﺒ و ﺚ ﺒ‬ ‫ﺜو ﺜ ‪،‬و ﺒ‬ ‫ﺒ‬ ‫ﺒﺜﺚ‬ ‫ﺐن‬
‫آن ‪/com.quran.corpus//:http‬‬ ‫ﺨ أ ى‪ .‬ﺐن وﺤ ﺒ ة ﺒ‬ ‫ﺒ ﺜة‬ ‫ﺒ ﺒﺜﺚ ﺒ‬ ‫ﺒ‬
‫أﺚوﺒت‬ ‫ت ﺒ ﺒﺜ‪،‬‬ ‫ﺒ ﺟﺒ‬ ‫‪،‬‬ ‫ﺒ‬ ‫ﺒ ﺜ‪ :‬ﺒ‬ ‫ﺒ ﺒﺜﺚ‬
‫ﺒ ‪.‬‬ ‫ﺒ ﺒ ‪،‬و ﺛ‬ ‫ﺒ‬ ‫ﺒ وﺒﺜ و‬

‫‪ .1‬ﺒ‬
‫أ‬ ‫ت وﺒ‬ ‫و‬ ‫ﺒ ﺌﺒ‬ ‫ﺒ تﺒ‬ ‫ﺒ ب‬ ‫ﺒ تﺒ‬ ‫ﺐن‬
‫ﺒ ﺠو‬ ‫ﺒ‬ ‫وﺒ‬ ‫ﺒ ‪،‬ﺒ ﺒ‬ ‫‪،‬ﺒ‬ ‫ﺒ‬ ‫ﺒ ‪ ،‬ﺒ ﺒ‬ ‫ﺒ وﺜة ﺒ ‪ ،‬ﺒ‬
‫ت ة‬ ‫و‬ ‫ﺒً ﺒ ﺖ ﺒ‬ ‫ﺒ ﺒً‬ ‫ﺒﺒ‬ ‫ت‪ .‬و وﺜ ﺒ‬ ‫ﺒ‬ ‫ﺛ‬
‫أ‬ ‫وﺒ‬ ‫ﺒ‬ ‫ﺒ تﺒ‬ ‫و‬ ‫ﺠﺒ ﺒ‬ ‫أن ﺒ ت ﺒ وﺜو و‬ ‫ة‪ .‬وﺒ‬ ‫ت‬
‫أ ﺚ‬ ‫و ﺚ ﺨ‬ ‫و‬ ‫و ل وﺛ‬ ‫ﺒ أ‬ ‫ﺒ‬ ‫لﺒ‬ ‫ً‬ ‫ﺒ ت‬
‫ﺒ ﺒ ل‪.‬‬ ‫و ت‬
‫ﺒ‬ ‫وﺒ‬ ‫تﺒ‬ ‫لﺒ‬ ‫ﺒ‬ ‫‪ ،‬ﺐ أن ﺒ‬ ‫ﺒ ﺜ و ﺚﺒ‬ ‫أ‬ ‫وﺒ ﺒ‬
‫ﺐ‬ ‫ز‬ ‫ﺒ ت ﺒ وﺜو ‪ .‬و ﺒ‬ ‫أ ﺒ‬ ‫ﺒ و‬ ‫وأ‬
‫ﺒ‬ ‫ً‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺒ ة ً‬ ‫ﺒ ﺚوﺒت وﺒ‬ ‫ﺒ ‪ .‬و ﺚﺑ ﺛي ﺌ أﺜﺚ أن‬
‫أ ﺒﺌ ﺒ م ) ‪part of‬‬ ‫و‬ ‫ﺒ‬ ‫أﺚوﺒت ض ﺒ ﺠ )‪ (concordance‬وﺒ‬ ‫ﺒ‬ ‫ﺒ‬
‫ﺒ ﺜﺒ ] ‪Atwell et al‬‬ ‫ل‬ ‫ﺒﺌة ﺒ ‪ .‬و‬ ‫ﺒ‬ ‫و‬ ‫‪ (speech‬وأﺚوﺒت ض ﺒ‬
‫ت‬ ‫ﺒ‬ ‫ﺒ ﺜﺒ و ﺌً‬ ‫م‬ ‫ﺒ ة تﺒ ىو‬ ‫ﺒ ﺚوﺒت و‬ ‫ﺜ‬ ‫‪ [04‬أ‬
‫وﺒ ﺨ‬ ‫ﺒ‬ ‫ةﺒ‬ ‫ﺛ‬ ‫و ﺒ ﺜ‬ ‫ﺧ‬ ‫ﺒ ﺚة‬ ‫ﺒ ﺨﺒ‬ ‫أن‬ ‫ﺐ‬ ‫ﺒ‬
‫ﺒ‬ ‫ﺌﺒ ﺨﺒ‬ ‫ﺒ ة ﺜﺒً ﺛ ً )‪(gold standard‬‬ ‫ﺒ ز‬ ‫ﺒ‬
‫ً ً و ﺒً وُ ﺴ ﺷ ً‪.‬‬ ‫ﺛ ً ﺒﺒ ﺜﺒ‬ ‫أن ـُ ﺴ ﺷ ﺒ آن ﺒ‬ ‫ﺒ ﺒ ﺜ‪ .‬وﺒ‬ ‫ﺒ‬ ‫وأ‬
‫ﺒ ﺜ ﺧ‬ ‫‪.‬و‬ ‫وﺒ آن ﺒ‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺒ‬ ‫ز‬ ‫ة‬ ‫و ﺒ ﺒ أ ﺖ‬
‫ﺒت ﺒ‬ ‫ﺌﺒ‬ ‫ض ﺒ ﺒﺧ وﺒ ؤي ﺒ‬ ‫أ‬ ‫ﺒ ﺖ‪،‬‬ ‫‪ ،‬ﺛﺗ‬ ‫ﺌ ﺒ‬
‫ﺒ ﺒ ‪.‬‬ ‫تو ت‬ ‫ﺒ ﺒ ون‬ ‫ﺒﺒ لو‬
‫ﺒ‬ ‫ﺒ‬ ‫ر‬ ‫‪.2‬‬
‫ﺒض‬ ‫وأﺚوﺒت ﺒ‬ ‫ﺛ ة‬ ‫‪2.1‬‬
‫‪.‬‬ ‫ﺒ ﺒﺚة وﺚﺜﺒ‬ ‫ﺒ‬ ‫و‬ ‫ﺒ‬ ‫تﺒ‬ ‫ﺒ‬
‫)‪ (corpus‬ﺚوﺜﺒً ﺜزﺒً‬ ‫ﺒ‬ ‫ﺒ‬
‫و‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺒﺌ‬ ‫ﺒ ﺴ ﺷ وﺒ ﺴـ ﺴ ﺷ‬ ‫ﺒ‬ ‫وﺒ‬ ‫لﺒ‬ ‫ً‬
‫ُ‬ ‫ُ‬
‫ﺒ‬ ‫ﺐ ﺒﺚ‬ ‫ت‬ ‫ﺒ‬ ‫ﺒ ﺨ وﺒ ﺤ‪ .‬و ﺌً‬ ‫ﺒ ﺚﺒً‬ ‫ﺧ‬ ‫وﺒ‬ ‫ﺒ‬
‫ي ‪240‬‬ ‫ﺐ ﺜ‬ ‫ﺛ ة‬ ‫ﺚﺜﺒ ] ‪ [00 van Mol‬أ‬ ‫ﺒ ل أو‬ ‫ت‪.‬‬ ‫ﺒ‬
‫ﺜة "‬ ‫"أ‬ ‫م ﺜة " ﺒ‬ ‫و ﺒ و ﺚ أن ﺒ ﺛﺒ ﺒ‬ ‫ﺐﺛﺒ ت‬ ‫أ‬
‫وي‪.‬‬ ‫مﺒ ﺜ‬ ‫ﺒ ﺛﺒ ﺒ ﺒ ‪ ،‬أ ﺒ ﺛﺒ ﺒ ﺚ‬ ‫ﺒ‬ ‫"‬ ‫ﺒ‬

‫‪2‬‬
‫ﺒ تﺒ‬ ‫ﺧﺒ‬ ‫ﺚﺒت وﺒ‬ ‫ﺒ‬ ‫ﺐ ﺒﺌ ﺒ ﺒ‬ ‫ﺒ‬ ‫ﺒ‬ ‫تﺒ‬ ‫ﺒ‬ ‫و‬
‫أن‬ ‫نو‬ ‫ﺛ ة ي‬ ‫ﺚﺜﺒ ] ‪ [00 Braham &Ghazali‬ﺌً‬ ‫ﺒ ل أو‬ ‫‪.‬‬ ‫ﺒ‬
‫‪%11‬‬ ‫ﺒ‬ ‫ﺜ‪ .‬و ﺒ ﺒ‬ ‫ﺒ‬ ‫وﺒ‬ ‫ﺒ ﺜ و ‪ :‬ﺒ وﺤ ﺒ‬ ‫ﺒ‬ ‫ن‬ ‫"أﺴ ﺴ ﺴ "‬
‫‪.‬‬ ‫ﺒ ﺒ ﺒ‬ ‫مو ﺚ ﺒﺒ‬ ‫ﺒ‬ ‫ﺒ ت‬ ‫ﺒ‬
‫ﺒ ت‬ ‫ﺐ ﺒﺌ أﺚوﺒت‬ ‫أ‬ ‫ﺒ‬ ‫أ ًأ‬ ‫أ‬ ‫ي‬ ‫ﺒ‬ ‫ﺒ‬ ‫أ‬
‫ﺒ ت‬ ‫ﺒ‬ ‫ت‪ .‬و‬ ‫ﺒ‬ ‫ﺒ و ﺛ‬ ‫وﺒ‬ ‫ﺒ‬ ‫وﺒ‬ ‫ﺒ‬
‫ﺒ وة ﺒ ‪.‬‬ ‫ُ ﺷً‬ ‫ﺒ‬ ‫ﺐ أن ﺒ‬ ‫ًﺒ‬ ‫و‬
‫ة ً‪-‬‬ ‫ﺒ‬ ‫ن ُﺷﺒ‬ ‫ﺐ ﺛ‬ ‫‪-‬أ‬ ‫تﺒ‬ ‫ﺒ ﺒ وﺒ‬ ‫ً‬ ‫وﺐ‬
‫ض‬ ‫وﺐ ﺚ ُـﺴ ﺷ‬ ‫ﺒﺚ ﺐ‬ ‫و‬ ‫ﺒ‬ ‫ﺠ‬ ‫ﺒ‬ ‫ﺛ ة‬ ‫ز‬
‫ﺐ ﺌ "ﺛ ة‬ ‫ﺒ‬ ‫‪.‬‬ ‫ﺒ‬ ‫ﺒ ﺒ‬ ‫ﺒﺒ‬ ‫ﺒ تو‬
‫ي‬ ‫)‪ [06 Sulaiti and Atwell -Al] "(us of Contemporary ArabicCorp‬وﺒ‬ ‫ﺒ‬
‫‪:‬‬ ‫ﺚة‬ ‫و‬ ‫ﺒ‬ ‫ﺒ ﺒﺚ ﺒ‬ ‫و‬ ‫ﺒﺚ‬ ‫ةو‬ ‫ﺚﺜ‬ ‫ﺚة‬ ‫‪ 843‬أ‬
‫‪.‬‬ ‫و‬ ‫ت‬ ‫وﺒ ‪ ،‬ﺜ ‪،‬‬ ‫‪،‬ﺒ‬ ‫ة‪ ،‬ﺒ ‪ ،‬ﺐ ﺚ‪ ،‬ﺛﺒ ‪ ،‬ﺒﺚ‬
‫ﺒض ﺒ ة ُ ﺷ ﺴ‬ ‫و أن ﺒ ﺒ‬ ‫أ‬ ‫ﺒ ة‬ ‫وﺒ ﺒض ﺒﺚ‬ ‫وﺒ‬ ‫ﺒﺚ‬ ‫و‬
‫ﺐ ﺛ ﺒﺌ ﺒ ﺒ‬ ‫‪،‬أ‬ ‫ﺒ ﺠﺒ‬ ‫ﺒ‬ ‫و‬ ‫ﺒ ﺠﺒ‬
‫)‪Roberts et ] (aConCorde‬‬ ‫ﺒ ي‬ ‫ﺒﺒ‬ ‫ﺴ ﺸﺤ‬ ‫ﺒ ت ﺒ وﺜ‪ ،‬ﺛ‬
‫ﺒ‬ ‫ت ﺒ ة وﺒ‬ ‫ﺒ‬ ‫ﺌ‬ ‫ﺐ‬ ‫ﺜ‬ ‫ض ﺠ‬ ‫‪ [ 06 .al‬وﺒ ي‬
‫‪.‬‬ ‫ﺛﺗ ﺒ ﺒ‬

‫ﺒ‬ ‫ﺠﺒ‬ ‫ض‬ ‫وﺒ‬ ‫‪:1‬‬ ‫ﺒ‬

‫‪3‬‬
‫ﺒ‬ ‫ﺒ‬ ‫ر‬ ‫‪2 .2‬‬
‫)‪( Speech tagging and morphological analysis-of-Part‬‬ ‫ﺒ‬ ‫ﺒ‬ ‫وﺒ‬ ‫ﺒ‬
‫‪ .‬ﺐن وﺤ ﺒ‬ ‫و‬ ‫ﺒ‬ ‫تﺒ‬ ‫ت ة‪.‬‬
‫ﺒ‬ ‫ز‪ .‬وﺒ ﺧ ﺒ‬ ‫ﺒ ﺒ‬ ‫ﺒ ﺲﺒﺚ ﺜ ِ‬ ‫ﺠﺒ ﺒ‬ ‫ﺒ‬ ‫وﺒ‬ ‫ﺒ‬
‫ت أو وأ ﺒﺤ وأ ل‬ ‫ﺒ ﺠﺒ‬ ‫وﺒ‬ ‫ﺒ‬ ‫وﺒ‬ ‫ﺒ‬ ‫لﺒ‬ ‫ﺒ وﺤ‬
‫‪.‬‬ ‫و ﺒ‬ ‫ﺒ‬ ‫ﺒ ﺠﺒ‬
‫ﺒم ﺜﺒً ﺛ ً ) ‪Gold‬‬ ‫ً‪ ،‬و ﺒ‬ ‫ﺒ ﺜة‬ ‫ﺜﺒ ﺒ ت ﺒ‬ ‫ﺒ‬ ‫وﺒ‬ ‫ﺒ‬ ‫أ وﺤ ﺒ‬
‫‪،‬و‬ ‫ﺒ‬ ‫ت‬ ‫ﺒ‬ ‫ﺒ‬ ‫‪(Standard for Evaluation‬‬
‫ﺒ ب‪،‬‬ ‫تﺒ ة‬ ‫ﺒ ﺜ ‪ ُ ،‬أن ﺜ‬ ‫ﺒ ﺜﺒ ﺒ ﺌ‬
‫ﺒ‬ ‫ة ﺒ‬ ‫و ﺌ‬ ‫وﺒ‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺒ ت ﺒ‬ ‫ﺚ‬ ‫ﺒ‬
‫ت‬ ‫ﺧ ﺜ ﺒ‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺌﺒ‬ ‫)‪ ،(gspeech tagging and parsin-of-Part‬ن ﺒ‬
‫) ‪.(2008 Atwell &Sawalha‬‬ ‫ة‬ ‫ﺒ‬
‫ﺒ‬ ‫ﺒ‬ ‫ﺒ‬ ‫تﺒ‬ ‫ﺒ‬ ‫أ‬ ‫ﺠﺒ ﺒ‬
‫وﺒ‬ ‫ﺜ‬ ‫أ ً‬ ‫) ‪ ،(a2009 Atwell &Sawalha ;b2009 Atwell &Sawalha‬و‬
‫ﺒ‬ ‫تﺒ‬ ‫)‪(Coverage Lexical Resource-knowledge Broad-Prior‬‬ ‫ﺒ‬
‫‪،‬و‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺒ‬ ‫تﺒ‬ ‫ل ﺒ ﺒﺗ ﺒ‬ ‫ﺌﺒ ﺜﺒ‬ ‫‪،‬‬ ‫ﺒ‬ ‫وﺒ‬
‫) ‪.(a2010 Atwell &Sawalha‬‬ ‫وﺒ ﺳ وﺒ ﺒ‬ ‫ﺳﺜ‬ ‫ت‬ ‫ﺒ‬ ‫ﺴُ‬
‫و وز و ﺚ‬ ‫و‬ ‫ﺜﺒ‬ ‫‪،‬و‬ ‫ﺒ‬ ‫تﺒ‬ ‫ﺒ‬ ‫تﺒ ﺒ ﺷ‬
‫ﺒ ﺒن ﺒ‬ ‫ﺳﺌ أ ﺒﺌ ﺒ‬ ‫و (‪ ،‬و ﺚ‬ ‫ﺒ ﺒ‬ ‫وﺒ وﺒ‬ ‫)ﺒ ﺒ وﺒ‬ ‫ﺒ أ ﺒﺌ ﺒ‬
‫ﺒ‬ ‫ﺚ‬ ‫ﺒ‬ ‫و‬ ‫ﺒن‬ ‫ﺒﺌ ﺒ‬ ‫ﺒ ﺌ‪ ،‬وُ ﺒ و ﺒ‬ ‫ﺒ‬
‫) ‪. (b2010 Atwell &Sawalha‬‬
‫‪1‬‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺒ و‬ ‫ﺒم‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺒ‬
‫ﺒ‬ ‫ﺒ‬ ‫ﺒﺒ‬ ‫ﺒ‬ ‫ﺒ‬ ‫وﺒ‬ ‫)‪،(Morphological Features Tag Set for Arabic‬‬
‫ً‪ ،‬ﺜ‬ ‫ﺜ ﺒً‬ ‫و‬ ‫ن ﺐ‬ ‫ﺜ‬ ‫)‪(Tag‬‬ ‫وﺒ و ‪ ،‬ن ﺒ ﺒن ﺒ‬ ‫ﺒ‬
‫‪،‬‬ ‫ﺒ‬ ‫ً‬ ‫ﺒ ﺒن‬ ‫ﺒ‬ ‫‪،‬و‬ ‫أو ﺒ‬ ‫ﺒ‬ ‫ﺐ ﺐ ىﺒ‬ ‫أو‬
‫ﺐ‬ ‫ﺒن‬ ‫ﺒ‬ ‫ﺒ ول‬ ‫ﺒ )‪ (v‬ﺒ‬ ‫ة‪،‬‬ ‫ﺒ‬ ‫وﺧ ﺒ ﺒ‬ ‫وﺒ‬ ‫ﺒ أو ﺒ ﺒت‬ ‫و‬
‫ﺧ )‪ (m‬ﺒ‬ ‫ﺒ‬ ‫ﺒ ﺒن‬ ‫ﺒ ﺒ‬ ‫ﺐ ﺒ ﺒ ‪ ،‬وُﺴ ُ ﺒ ُ‬ ‫ﺒ ‪ ،‬وﺒ )‪ (n‬ﺒ ﺒ‬
‫م‬ ‫‪،‬‬ ‫(‬ ‫)‪) (-‬ﺒ‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺒ‬ ‫وﺒ ﺧ )‪ (f‬ﺒ ﺒ ‪ ،‬وﺐﺛﺒ‬ ‫ﺒ‬
‫ﺚة‪.‬‬ ‫و‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺐ أن ﺒ‬ ‫ﺒ ﺒل(‬ ‫ﺒ )ﺋ( )‬

‫‪ht ml . t agset / sawalha/ uk. ac. leeds. comp. www/ / : ht t p‬‬

‫‪4‬‬
‫ﺒ‬ ‫تﺒ‬ ‫ﺒ‬ ‫ر‬ ‫‪2 .3‬‬
‫و ﺒ ‪ ً .‬أن ﺜة "ﺒ ﺜة‬ ‫ب‬ ‫ﺌ‬ ‫)‪ (discourse relations‬ﺚوﺜ ﺜز‬ ‫ﺒ تﺒ‬
‫ﺒ " "‪.‬‬ ‫)‪ (argument‬ﺜ‬ ‫)‪(Contrast‬‬ ‫ﺒ " ﺚت‬ ‫ﺜة ﺒً و‬
‫)‪ (Exemplification‬ﺒ‬ ‫)‪ (Causual‬ﺒ‬ ‫ﺒ ت ﺒ‬ ‫أ ى‬ ‫ت‬ ‫و ﺒ ك‬
‫)‪ (Temporal‬و ‪.‬‬ ‫)‪ (Background‬ﺒ‬ ‫)‪ (Conditional‬ﺒ‬
‫ة ]‪ [10 Saif and Markert -Al‬وﺛ‬ ‫ﺒ‬ ‫تﺒ‬ ‫أول ﺛ ة‬ ‫و‬
‫آ‬ ‫أ‬ ‫ﺒ ة‬ ‫وﺒ ﺒ ‪ .‬و‬ ‫ﺒ‬ ‫ﺒ ﺒﺌ ﺒ ﺒ و‬ ‫ت‬ ‫ﺒ‬
‫ب‬ ‫ﺒ‬ ‫)‪(similarity‬‬ ‫ﺒ‬ ‫ل‬ ‫ﺒ‬ ‫ﺐ ﺜي‪ .‬ﺒ‬ ‫أ‬
‫"‪.‬‬ ‫ﺚﺒة )‪" (discourse connective DC‬‬ ‫)‪ (2 and arg 1 arg‬و‬

‫وأﺚﺒة ﺒ ﺒ‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺜة‬ ‫‪:2‬و‬ ‫ﺒ‬

‫ﺜ‬ ‫وﺒ‬ ‫ﺒ‬ ‫ً ﺒ ﺒ ض وُﺴ ﺷ ﺒ‬ ‫ﺒ وي‬ ‫أﺚﺒة‬ ‫ة‬ ‫ﺒ‬ ‫ﺐ ﺒﺚ‬ ‫و‬
‫ﺒ ﺒ ‪.‬‬ ‫ل‬ ‫ﺒ‬ ‫ﺒ ‪ .‬وﺒ‬

‫تﺒ‬ ‫ﺒ وي‬ ‫ﺒ‬ ‫وﺒ‬ ‫‪:3‬‬ ‫ﺒ‬

‫ة‬ ‫ت‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺒﺌ ﺒ‬ ‫ﺒ ل‬ ‫أن‬ ‫و‬ ‫ﺒ‬ ‫ﺒ و‬ ‫ة‬ ‫ﺒ‬ ‫ﺐن‬
‫‪.‬‬ ‫ﺒ‬

‫‪5‬‬
‫ﺒ آن ﺒ‬ ‫ر‬ ‫‪.3‬‬
‫ً‪ ،‬و‬ ‫ﺘو‬ ‫ة أ ب أ ‪ :‬ن ﺒ آن‬ ‫وﺛ‬ ‫ﺒ‬ ‫ﺒ آن ﺒ‬ ‫أﺚﺜ أ‬
‫ت ‪.‬‬ ‫ً‬ ‫ً‬ ‫ﺒ‬ ‫ﺜ و ﺒول و‬ ‫ن ﺒ آن‬ ‫ﺐ ﺛ‬ ‫ل‪ .‬أ‬ ‫وﺛو‬ ‫ُﺴﺷ‬
‫أ ﺒ‬ ‫و‬ ‫وﺒ‬ ‫ﺒ‬ ‫ﺒ آن‬ ‫وﺒ‬ ‫و ﺚ تﺒ تﺒ‬ ‫و‬
‫أ ‪.‬‬ ‫ﺚﺒت وﺒ‬ ‫ﺒ‬ ‫و‬
‫م‬ ‫بﺚ‬ ‫ن ﺒ آن‬ ‫‪.‬‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺒ آن‬ ‫ﺒ‬ ‫ﺜك أو ﺒ‬ ‫ﺒ‬ ‫ﺒ‬ ‫و‬
‫‪ 80‬أ‬ ‫ن‬ ‫ﺒ آن‬ ‫ن‬ ‫‪.‬و‬ ‫ﺒ‬ ‫ﺒ‬
‫و‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺒ‬
‫ﺨ‪ ،‬و‬ ‫ﺛﺒت ن‬ ‫ﺛ‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺚوﺒل ﺒ ت ﺒ‬
‫‪.‬‬ ‫ﺒ ﺒﺖ ﺒ‬ ‫ﺒ يو‬ ‫ﺒ‬ ‫أ ى‬ ‫ﺒ آن ﺨ ﺠ‬
‫أ ى‪.‬‬ ‫ت‬ ‫ﺜﺒً ﺛ ً‬ ‫ﺒ آن‬
‫‪.‬‬ ‫ﺒ آن ﺒ‬ ‫ز‬ ‫ﺒ ﺖ وﺒ ﺜ ﺒ ة وﺒ ﺜ‬ ‫و‬

‫ﺒ آ‬ ‫ﺒ ﺒ‬ ‫" آ "‬ ‫‪3 .1‬‬


‫‪.‬و ﺚﺒ‬ ‫ﺒ آن ﺒ‬ ‫ﺤ‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺒ‬ ‫ن‬
‫ﺞ‬ ‫ﺜ ن‬ ‫ﺒ‬ ‫ﺒ ي‬ ‫ز وﺤ ﺒ‬ ‫ﺜة ﺒ ﺜ ﺒ آ‬ ‫ة‪ .‬و‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺒﺜ ﺤ‬
‫" ] ‪[Mushaf at - Taj weed 1420H‬‬ ‫ﺒ‬ ‫"‬ ‫ﺒول و‬ ‫ت ﺐ‬
‫آن‪.‬‬ ‫ﺚ ﺒ ﺒ ﺒ‬ ‫وﺒ‬ ‫ﺒ‬ ‫ﺒ ﺒ‬ ‫ﺒ‬ ‫ﺒ‬ ‫و‬
‫ت‪.‬‬ ‫ىﺒ‬ ‫ﺛﺗ‬ ‫ﺒ‬ ‫وﺒ‬

‫ﺒ آ‬ ‫ﺒ ﺒ‬ ‫"آ "‬ ‫ة‬ ‫‪:4‬‬ ‫ﺒ‬

‫‪6‬‬
‫ﺒ‬ ‫ورة وﺒ‬ ‫تﺒ‬ ‫‪3 .2‬‬
‫ى‬ ‫ب‬ ‫وﺒ ي‬ ‫ﺒ ﺒ وﺜة ﺒ )‪ (dialogue systems‬ض ﺐ ﺌ ﺐ آ‬
‫ﺒً ﺒً ﺒﺌ‬ ‫ﺒﺒ ﺤ ﺒ ﺒ‬ ‫و ﺴ ﺷن ﺒ ﺴوﺜﺸ ﺴ ﺴ ‪ .‬ﺴ ﺷ‬ ‫ﺒ ﺒﺜ‬ ‫وﺒ ﺒﺜ‬ ‫ﺒ‬ ‫ﺜ‬
‫)‪ (Question patterns‬ﺒ ﺒو‬ ‫أ ﺢﺒ‬ ‫ﺚ‬ ‫ﺒ ل ﺒ ﺚة‬ ‫و‬ ‫ﺒ ﺌﺒ‬
‫ﺒ آن‪ .‬و‬ ‫ﺠأ‬ ‫ﺒ‬ ‫ﺚ‬ ‫ﺒ‬ ‫و‬ ‫ﺒ آن ﺒ‬ ‫ﺒ ل‬ ‫‪.‬و‬ ‫وأ‬
‫‪،‬أ‬ ‫ﺒ تﺒ‬ ‫ي‬ ‫آت آ‬ ‫] ‪ [04Shawar and Atwell‬ﺑ ﺒﺜ‬ ‫ﺐ ﺒﺚ‬
‫ﺒل‬ ‫ﺒ ن آ آ‬ ‫أ‬ ‫أ‬ ‫ﺒ ﺒ‬ ‫آ آ‬ ‫ﺐﺛﺒ ن ﺒ‬
‫ﺒ ‪.‬‬ ‫ﺒ‬ ‫‪.‬ﺒ‬ ‫وﺒﺜﺚ آ‬

‫‪ : 5‬ل ﺒﺜ آ‬ ‫ﺒ‬

‫وﺒ‬ ‫تﺒ‬ ‫ﺒ‬ ‫ة‬ ‫ت‬ ‫ﺒ ب‬ ‫ﺐ ﺒﺌ ﺒ‬ ‫ﺒ‬ ‫ﺌة‬ ‫أ‬ ‫ل‬ ‫ﺒ‬ ‫أ‬
‫ت‬ ‫ﺐ‬ ‫وﺒ ي‬ ‫ﺒ‬ ‫ةﺒ آ‬ ‫ﺒ‬ ‫آن‬ ‫‪.‬‬ ‫ﺒ‬ ‫ﺛ‬ ‫ﺒ‬
‫ن أو ً‬ ‫أﺜﺚ أن‬ ‫ﺛ‬ ‫ﺌة‪ .‬و أ‬ ‫ﺒ ﺒﺜ أ‬ ‫ن‬ ‫ﺒ‬ ‫ة‬ ‫ت آ‬ ‫ﺚﺒ و‬
‫ت ة‪.‬‬ ‫ﺒ ﺌ‬ ‫ﺒ آن ﺒ‬ ‫ﺒ ي وﺒ‬ ‫ﺒ‬ ‫ﺒ ت‬

‫ل ﺒ آن‬ ‫إ رﺒت ﺚ‬ ‫‪3 .3‬‬


‫‪.‬‬ ‫أو ﺒ‬ ‫ﺒ‬ ‫ﺒن‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺒ ﺚوﺒﺜ ﺒ‬ ‫)‪(Semantic Frames‬‬ ‫ﺒ ﺜﺒت ﺒ‬
‫"و‬ ‫ﺒ ب" و "ﺒ‬ ‫"ﺒ‬ ‫ﺒ ﺚوﺒﺜ ﺒ‬ ‫ﺒ ﺜة ﺒ ﺒﺜﺚة‬ ‫" " أن ـُ ﺴ ﺷ‬ ‫ً‬
‫ﺜ ] ‪ [76Fillmore‬ﺒ ت ﺒ ن ﺒ‬ ‫ﺒ‬ ‫"و ﺛ ‪.‬و ﺒ‬ ‫ﺠﺒ‬ ‫"ﺒ‬
‫ة ت‬ ‫وﺤ ‪ [2005Ruppenhofer et al ]FrameNet‬وﺒ ي‬ ‫أ‬
‫ﺒ‬ ‫ﺒ ﺜﺒت‪ ً .‬ﺒ‬ ‫وز ﺒ تﺒ‬ ‫ﺒ ﺜﺒت ﺒ‬ ‫ي‬ ‫ﺒ‬
‫ت ﺒ " " و" ل "‬ ‫"ﺐ ﺌ ﺒ " )‪ (text creation‬و ﺐ ﺨ ﺒ ﺒ ﺜ‬ ‫ً ﺜﺚ‬
‫و " ﺷ" و ‪.‬‬

‫‪7‬‬
‫ﺌ‬ ‫ﺒ ﺚوﺒﺜ ﺒ‬ ‫‪ :6‬ﺐ ﺜ ﺚ‬ ‫ﺒ‬

‫و ‪.‬و ﺐ ﺨ‬ ‫وﺐ‬ ‫ل ‪ 10‬آ ﺧ‬ ‫ﺐ‬ ‫‪ 900‬ﺐ ﺜ ﺚ‬ ‫و نﺒ‬


‫م ﺨأ ى‬ ‫ة‪،‬‬ ‫ت‬ ‫ﺒ ﺜﺒت‬ ‫ﺒ‬ ‫وﺒ‬ ‫ﺒ‬ ‫ﺒﺌ ﺒ‬ ‫ﺒ‬ ‫ﺒ وﺤ ﺒ‬
‫و ‪.‬‬ ‫وﺒ‬ ‫وﺒ‬ ‫تأ ى ﺒ‬ ‫ﺜ‬
‫] ‪[09Atwell &Sharaf‬‬ ‫ل ﺒ آن ﺒ‬ ‫ﺐ ﺒﺌ ة ت‬ ‫ﺐ‬ ‫ﺒﺌ ﺚﺜﺒ‬ ‫و‬
‫ﺒ ت‬ ‫ن ﺒ‬ ‫ﺐ ﺜﺒت ‪ FrameNet‬ﺐ أن ﺒ ت ﺒ آ ﺒ‬ ‫وﺐن ن ك ﺐ ﺒك‬ ‫وو أ‬
‫ة ت ‪rameNetF‬‬ ‫" ﺴ ﺷ ﺜ" وﺒﺜﺚ‬ ‫ً أن ﺒ " " ﺒ آن‬ ‫ة‪.‬‬
‫ﺒ ت م‬ ‫ﺒﺌ‬ ‫ﺒﺌ و‬ ‫وﺤ‬ ‫ﺴﺸ‬ ‫ﺒ ن"‪ .‬و ﺒ ﺴ ﺸ‬ ‫"‬
‫آن ﺒ ‪.‬‬ ‫ﺐ ﺜﺒت ﺚ‬ ‫ﺛ‬ ‫ﺒ ت ﺒ آ و ﺌً‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺚﺒت ﺒ آ و‬ ‫ﺜﺒ ﺒ‬
‫ﺒ آ ‪.‬‬ ‫ل‬ ‫م "ﺒ "‬ ‫آ‬ ‫ﺐ ﺜﺚ‬ ‫و‬ ‫ﺒ‬ ‫نﺒ‬ ‫ﺒﺒ‬ ‫و‬

‫مﺒ‬ ‫آ‬ ‫ﺐ ﺜﺚ‬ ‫‪ :7‬و‬ ‫ﺒ‬

‫‪8‬‬
‫وﺒ‬ ‫رﺒ‬ ‫ﺒ‬ ‫"‬ ‫ﺒ‬ ‫"ﺒ‬ ‫‪3.4‬‬
‫ﺒ ت ﺒ ﺛﺗ ﺒ ﺒﺚ‬ ‫ﺒُﺷ‬ ‫ﺒ‬ ‫ﺒ " )‪(Machine Learning‬‬ ‫"ﺒ‬
‫ة‪ .‬و ك أﺚوﺒت‬ ‫ﺛﺗ‬ ‫ﺒ ﺒﺠ آ ً‬ ‫ﺒ ﺒ ﺛﺗ‬ ‫ﺒ " "‬ ‫ﺚوﺒل ﺒ‬ ‫ﺒ‬
‫‪ WEKA‬ﺒ ﺘ ﺒ ﺜ‪.‬‬ ‫ﺒ ﺜب‬ ‫ة ﺒﺌ‬
‫ﺒﺚ ول ﺚ‬ ‫ت ﺒ ﺌ وﺒ‬ ‫ﺒ ﺜ ﺒ وﺒ‬ ‫ﺤ‬ ‫و‬
‫ﺚوﺒل ﺒ ﺒ ‪.‬‬ ‫ﺒ ت ﺐ ‪ Weka‬و‬ ‫ﺚ ل‬ ‫ﺒ ‪.‬و ﺛ‬ ‫ﺜة ﺐزﺒﺌ‬
‫وﺒ وﺒ ﺜ‪ .‬و ﺌً‬ ‫ﺒ ﺜ ﺛ ﺒ ة وأ ﺒل م ﺒ‬ ‫ﺒ ﺜﺒ‬ ‫ً‬
‫ﺒﺚ ﺚ ﺒﺜ‬ ‫‪ ،‬و ﺒب( و‬ ‫‪،‬‬ ‫‪،‬‬ ‫)ﺒ ‪ ،‬ﺒ ﺜ‪،‬‬ ‫ﺒ‬ ‫ﺒ ﺒت وﺒ ت ﺒ ﺒ‬
‫‪Weka‬‬ ‫ﺜ ﺒ وﺒ ‪ .‬و‬ ‫‪13‬‬ ‫ي‬ ‫ﺜة‪ .‬و ﺒ ﺚ‬ ‫ﺒ تو‬
‫ﺒ ﺒﺠ ﺒ‬ ‫ﺜ ‪8‬ﺐ‬ ‫ﺒ‬ ‫ً‬ ‫ة ﺒ تﺒ‬ ‫ﺌﺜ ت‬
‫ﺜ‬ ‫ﺜ ت‬ ‫)ﺒ ن ﺒ (‪.‬‬ ‫ﺒ ﺜ ﺒ )ﺒ ن ﺒ زﺜﺨ( وﺒ ﺜ ﺒ‬ ‫ز‬
‫أو أ ‪.‬‬
‫ة ﺒﺜﺒت‬ ‫و ول ﺒ ﺒﺗ‬ ‫ﺒ ﺒﺠ ﺒ ت ﺒ‬ ‫ﺒ ﺒ ي‬ ‫ﺚوﺒل ﺒ‬ ‫ﺌً‬ ‫ﺒ‬ ‫ﺒ‬
‫ﺒ ﺜﺒ‬ ‫ﺒ ة ﺒ ﺒﺜﺒت ﺒ ز‬ ‫‪9‬ﺒ ‪.‬‬ ‫ﺒ‬ ‫)‪(decision tree‬‬
‫ﺒ ت‬ ‫ﺒت ﺒ‬ ‫آ ﺒ" و ﺒ‬ ‫ﺜة " أ ﺒ‬ ‫ﺒ ﺜة‬ ‫)‪ ً . (D‬ﺛﺒ‬ ‫)‪ (K‬وﺒ‬
‫ﺜة ‪.‬‬ ‫ﺒو‬
‫ﺒ وﺒل‬ ‫ى‬ ‫ﺒ ﺌ‪ ،‬ﺒ‬ ‫‪ 93‬ﺒ ﺜ ﺒ ﺒ‬ ‫ﺒ ﺜب‬ ‫و ﺒأ‬
‫ﺜ‬ ‫ﺧ‬ ‫وو ﺒ‬ ‫ﺒ‬ ‫ﺒ ﺜ‬ ‫وﺜ ﺛ‬ ‫ﺒ ﺜ ﺒ ـ ‪ 21‬ﺒ‬
‫ﺒ ﺜ ﺒ ـ ‪.21‬‬
‫أن‬ ‫ﺒ ﺒﺠ ً ﺒ ت ﺚوﺒل ﺒ‬ ‫)‪ (clustering‬ﺒ ﺜ آ ً ﺌً‬ ‫ت‬
‫ت‪.‬‬ ‫ﺜ ‪ 10‬ﺒ‬ ‫وﺒ ة‪ .‬و ﺒ‬ ‫ﺴﺷ‬ ‫ﺜ ﺒ ة وﺒ ﺒﺧ ﺒن‬

‫‪9‬‬
‫وﺒ‬ ‫نﺒ‬ ‫‪:‬ﺒ ﺜﺒ‬ ‫ﺚﺒ ﺜ‬ ‫‪weka‬‬ ‫ة‬ ‫ت‬ ‫‪:8‬ﺜ‬ ‫ﺒ‬
‫نﺒ‬

‫وﺒ‬ ‫ﺒ ﺒ ﺜﺒ‬ ‫ة ﺒﺜﺒت )‪(decision tree‬‬ ‫‪:9‬‬ ‫ﺒ‬

‫‪10‬‬
‫)‪(K‬‬ ‫ﺜ ﺒ ﺜة و ﺒ ﺜ ﺒ‬ ‫وﺒ‬ ‫ت )‪(clustering‬‬ ‫ﺒ ﺜﺒ آ ﺐ‬ ‫‪: 10‬‬ ‫ﺒ‬
‫وﺒ )‪(D‬‬
‫ﺒ آ ‪.‬‬ ‫ﺒ‬ ‫ت‬ ‫وﺒﺜ‬ ‫ﺧ‬ ‫ﺒ‬ ‫ﺒ‬ ‫تﺒ‬ ‫ﺐ‬ ‫ﺜب‬ ‫ﺒ‬ ‫ﺐن‬

‫)‪(Quranic Arabic Corpus‬‬ ‫ةﺒ آ ﺒ‬ ‫‪ 3.5‬ﺒ‬


‫وأ‬ ‫ة‬ ‫و ن ﺒ‬ ‫ﺒ‬ ‫ﺒ‬ ‫"‬ ‫"ﺒ ة ﺒ آ ﺒ‬ ‫ز‬
‫أ‬ ‫أ‬ ‫ﺒ آن‪ .‬و ﺚ ﺒ‬ ‫ﺒ‬ ‫ﺒ‬ ‫وﺒ‬ ‫ﺒ آن ﺒ‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺒ‬
‫ً‪.‬‬ ‫زﺒ‬
‫آ‬ ‫ً‬ ‫ة‬ ‫ﺒ آن ﺒ ‪ .‬و ﺒ‬ ‫و‬ ‫ﺒ ة‬
‫وي‬ ‫ﺐ ﺒﺌ‬ ‫ﺛ‬ ‫)‪(Buckwalter Arabic Morphological Analyzer‬‬ ‫ﺒ ﺒ‬
‫ﺌ ﺐن و‬ ‫ﺒ‬ ‫و‬ ‫ﺒ‬ ‫ﺛ‬ ‫] ‪ .[10 Dukes and Habash‬و‬ ‫ﺒ‬

‫‪11‬‬
‫ي‬ ‫وﺒ‬ ‫ﺒ‬ ‫ﺛﺗ‬ ‫ﺒ‬ ‫وﺜ ﺒ م‪ .‬ﺒ‬ ‫وﺒ‬ ‫ﺒ‬ ‫ة ﺚﺜ‬ ‫ﺒ‬ ‫ﺒﺒ‬ ‫و‬
‫آ ‪.‬‬

‫ﺒ‬ ‫و ﺚ‬ ‫آ و‬ ‫و‬ ‫‪: 11‬‬ ‫ﺒ‬

‫ﺒ‬ ‫ﺐ ﺒب ﺒ ت ﺒ آ ‪ ،‬و‬ ‫)‪(dependency treebank‬‬ ‫ﺒت ﺒ‬ ‫ﺒ‬ ‫أ‬ ‫و‬


‫]‪Dukes et ] [10 lter Dukes and Buckwa‬‬ ‫ﺒ‬ ‫ي ﺛ نو‬ ‫ﺒب ﺒ‬ ‫ﺒ‬
‫آ ‪.‬‬ ‫ﺒب آ‬ ‫ﺛﺗ‬ ‫ﺒ‬ ‫‪ .[10 .al‬ﺒ‬

‫‪12‬‬
‫آ‬ ‫ﺐ ﺒب آ‬ ‫)‪(dependency treebank‬‬ ‫ة‬ ‫‪: 12‬‬ ‫ﺒ‬

‫ﺜب ﺒ‬ ‫ﺒ‬ ‫ﺜﺚ‬ ‫ﺒ ‪،‬و أ‬ ‫ﺜو‬ ‫ﺒ‬ ‫ﺒ ة‬ ‫ز‬


‫ة‪.‬‬ ‫ﺒ‬ ‫ﺒ‬ ‫وﺒ ﺒ ت‬ ‫ت وﺒ‬ ‫ﺒ‬ ‫ﺒ‬ ‫‪،‬و ز‬ ‫أ ﺌﺒ‬

‫ﺒ‬ ‫ة‬ ‫ﺒ آ ﺒ‬ ‫ت‬ ‫ة‬ ‫‪3.6‬‬


‫أن‬ ‫ﺤ ﺒ ت‪ .‬و ﺒً‬ ‫‪%30‬‬ ‫ﺒ آن ﺒ‬ ‫م‬ ‫أن ﺒ‬
‫ﺒ ت‪ ً .‬أ ﺒ ﺒ‬ ‫ﺒً ﺚ ﺒ‬ ‫ﺒ ت‬ ‫ﺒ ل‬ ‫و ﺒ‬ ‫ﺒ‬ ‫ﺒ آن‬
‫ﺜ (‪.‬‬ ‫)ﺐ أ‬ ‫و‬ ‫ﺚ آن ﺒ‬ ‫أن ﺒ‬ ‫ﺜ(‬ ‫ﺒ‬ ‫)ﺐ أ‬
‫ﺛ‬ ‫ﺒ آ‬ ‫ﺒ‬ ‫ﺒ ﺜزة ﺒ آن وو‬ ‫ﺒ‬ ‫وﺤ ﺴﺸـ ﺴ‬ ‫أ‬ ‫ﺒ‬ ‫و ﺌً‬
‫ة وُ ِ‬ ‫ﺒ ت‬ ‫ﺒ‬ ‫و أن ن‬ ‫ﺐ أ‬ ‫ة‪ .‬و ﺒ ﺒ ﺚ‬ ‫ﺒ‬ ‫ﺒ‬
‫ﺒ آن ﺒ ‪ .‬وﺒ‬ ‫ﺒ ة‪ .‬و ﺒ‬ ‫ون‬ ‫ﺐ‬ ‫ﺒ‬ ‫ت ﺒ آن‬ ‫ﺠ‬ ‫ﺒ‬
‫‪.‬‬ ‫ﺒ ة ﺒ‬ ‫آ آ‬ ‫ﺛﺗ‬ ‫ﺒ‬

‫ﺒ ﺜزة ﺒ آن‬ ‫ﺒ‬ ‫ة‬ ‫ﺒ‬ ‫ﺒ ت‬ ‫‪ : 13‬ﺛﺗ‬

‫تﺒ‬ ‫ت‬ ‫ة‬ ‫‪3.7‬‬


‫)ﺒ‬ ‫ل‬ ‫آ أ ى‬ ‫آ‬ ‫ﺒ‬ ‫ﺜ وﺒ‬ ‫وﺒ‬ ‫ﺒ ﺣ وﺒ‬ ‫أن آ ت ﺒ آن‬
‫ﺒ تﺒ ﺒ‬ ‫ﺒ ل‬ ‫ت‬ ‫ة‬ ‫أﺜﺚ‬ ‫ﺛ‬ ‫ً (‪ .‬و ﺌً‬ ‫ً‬ ‫ﺒ‬ ‫ﺒ ي لأ‬

‫‪13‬‬
‫ﺠ‬ ‫آ‬ ‫و ﺜ‬ ‫ﺐ‬ ‫ﺠﺒ تﺒ ﺒ‬ ‫أو‬ ‫أ‬ ‫‪.‬و‬ ‫ﺒ‬
‫ﺒ تﺒ ﺒ ‪.‬‬ ‫ﺛﺗ‬ ‫ﺒ‬ ‫ﺒ آن ﺒ ‪ .‬وﺒ‬ ‫ﺒ‬ ‫ﺒ تﺒ ﺒ‬

‫ﺐ‬ ‫‪ : 14‬ﺒ ت ﺒ ﺒ‬ ‫ﺒ‬

‫ة‬ ‫ﺒ ة تﺒ ﺒ‬ ‫أ ى‪ .‬و‬ ‫أ ى‬ ‫ت ﺒ‬ ‫ﺠ‬ ‫ﺒ‬ ‫و ﺒ‬


‫ﺧﺒ ﺒ‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺚوﺜﺒً ﺜﺒ ﺒً أ ﺖ ﺒ‬ ‫ﺒ ة‬ ‫ة‪ .‬و‬ ‫ﺒ ﺒ ﺒ آ ﺒ‬ ‫ﺌً‬ ‫ت‬
‫ﺒ ﺧﺒ ﺜ تآ ً‬ ‫ﺚوﺒل ﺒ ﺒ‬ ‫ة‬ ‫أن‬ ‫ﺧ ﺒ‬ ‫آ ً‪ .‬و‬
‫‪.‬‬ ‫ﺒ آن ﺒ‬

‫ﺚن‬ ‫ىﺒ ﺒ‬ ‫وﺤ‬ ‫إ ء‬ ‫‪.4‬‬


‫‪Grand Challenges‬‬ ‫)‬ ‫ﺒ‬ ‫تﺒ‬ ‫ﺒً ً ﺟ ﺒ‬ ‫ﺐﺚ‬ ‫ﺐ ‪ 2010‬ﺒ‬
‫ﺒﺘ ن " ﺒ آن‬ ‫ﺒﺒ‬ ‫ﺜ‬ ‫‪ .(in Com put ing Research for 2010 and beyond‬و ن‬
‫ﺌ ﺒ ب ] ‪ .[At well et al 2010‬و ن ﺒ ﺒ ﺒﺘ‬ ‫تﺒ ﺚ‬ ‫ﺒ ب" ﺒ‬ ‫وﺒ ﺠ ﺒ‬
‫ﺒ ﺒ‬ ‫نﺒ ﺠﺒ‬ ‫ت‪ .‬و‬ ‫ﺒ ﺒﺚ وﺒ‬ ‫ة‬ ‫نﺒ ﺠﺒ‬
‫ﺒ ﺠ‪.‬‬ ‫ة و ت وأﺚوﺒت م‬ ‫و‬ ‫وﺒ آن و ة‬ ‫ﺒ ﺜﺒة وﺒ‬
‫أ‬ ‫وﺒ آن‬ ‫ﺠﺒ‬ ‫ﺒ‬ ‫ﺘ ﺒﺌ ﺜب وأ ﺖ ﺜﺒ ة‬ ‫وﺒ ً‬
‫ز أن‬ ‫أ ى‪.‬‬ ‫ﺨ‬ ‫و ﺜ‬ ‫ت‬ ‫م‬ ‫وﺤ‬ ‫ﺜ‬ ‫ﺒ ﺜة وﺒ ﺌة‬
‫ت وأﺚوﺒت ل‬ ‫ﺜ‬ ‫و ﺧ‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺒ‬
‫ت‬ ‫ت ة ﺒ‬ ‫ﺐ ﺌﺛ‬ ‫ت ﺛﺒت ﺌة و ﺚة‬ ‫‪.‬و أ‬ ‫ﺒ‬
‫ﺨ‬ ‫و ‪.‬و ﺒ‬ ‫وﺒ ﺜﺒة وﺒ‬ ‫ﺒ آن وﺒ‬ ‫ﺒ ﺒ ب‬ ‫ﺒ‬ ‫وﺒ‬ ‫ﺒ‬
‫ﺒ ﺠ‪.‬‬ ‫ﺒ ةﺒ‬ ‫ة‬ ‫ﺒ‬ ‫ﺒ ﺠو‬ ‫ﺒﺌ‬
‫‪.‬‬ ‫ﺒ‬ ‫ى ﺒ آن و‬ ‫ﺒ‬ ‫ﺒ‬ ‫ة‬ ‫أﺚوﺒت و ﺒﺜﺚ‬ ‫ﺒ ﺒ وﺤ ﺒ‬
‫ﺒ ة ﺒ ﺒ‬ ‫ﺒﺜﺚ‬ ‫ة‪ .‬و‬ ‫ﺒ‬ ‫ﺠ ﺒ ﺒ‬ ‫و ﺒ ﺚوﺒت وﺒ ﺒﺜﺚ‬
‫ﺐ ﺜﺒت ﺚ و‬ ‫‪FrameNet‬‬ ‫ﺒ ﺚﺒت‪ ،‬و‬ ‫ﺒ ت‬ ‫‪WordNet‬‬
‫ﺒ ﺠ‬ ‫وﺒ ﺒب‬ ‫ﺒ‬ ‫)‪(Treebank‬‬ ‫ﺒت‬ ‫أ‬ ‫وﺤ ‪.PropBank‬‬
‫) ‪Conceptual‬‬ ‫ﺐ ﺌ‬ ‫ﺐ ﺒب ﺒ آن ﺒ ‪ .‬و‬ ‫أ‬ ‫ﺒﺜ‬

‫‪14‬‬
ً‫ﺚوﺜﺒً ﺜﺒ ﺒ‬ ‫ةو‬ ‫ﺠﺒ‬ ‫ﺒ‬ ‫ت‬ ‫ﺜوﺒ‬ ‫ﺒ ﺒﺜﺚ‬ ‫ و‬.‫ﺒ ﺠ‬ (Ontology
.(Text Mining) ‫ﺒ‬ ‫وﺒ‬ ‫تﺒ‬

‫ ﺒ‬.5
‫ل‬ . ‫وﺒ آن ﺒ‬
‫ﺒ ﺒ‬ ‫ز‬ ‫ﺒ ﺜ ﺒ‬ ‫ﺒ ﺜ ة‬
‫وﺚ ﺜﺒة‬ ‫أ ﺖ‬ ‫ﺒ ﺜ‬ ‫و‬ ‫ﺒ ﺒ‬ ‫ﺒ‬ ‫ة‬ ‫ز ﺒ‬ ‫ﺒ أ‬
‫أن ب‬ ‫ًو ﺒ‬ ‫ﺒ ﺜو‬ ‫و أ‬. ‫و ﺒ ﺐ و‬ ‫أﺚوﺒت وﺛ‬ ‫و‬
‫م ﺒ ون‬ ‫ﺒ ﺒ‬ ‫ و أن ﺒ‬.‫ﺒ ﺒﺜﺚ‬ ‫ﺒ ت‬ ‫وﺒ ﺚوﺒت وأن ﺒ‬ ‫ﺒ‬ ‫ﺒ ﺒﺌ‬
‫وﺒ ﺜﺒ ت ﺒ ﺨ أو‬ ‫ﺒ ﺒ‬ ‫ﺌ‬ ‫ﺒ‬ ‫و‬ ‫ﺒ‬ ‫ﺒﺌ ﺒ‬
. ‫ز‬
‫ﺒ ﺜ‬ ‫آ ﺒ‬ ‫ﺒﺜ ﺒ ﺒ ﺘ وﺐ ﺚ‬ ‫ﺒ ةﺒ آ ﺒ‬ ‫ﺒ‬ ‫ﺐن‬
‫ﺒ ﺜﺚ و ً أو‬ . ‫ﺒ‬ ‫ﺒ ﺒ‬ ‫و و‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺒ ﺚوﺒت وﺒ ﺒﺜﺚ ﺒ ة‬ ‫و ﺒ ﺒ‬: ‫ﺒ ﺚ‬
‫ﺒ ﺜﺚ‬ ‫ﺒ ﺒﺌ وﺒ وﺒﺜ‬ ‫ﺒ‬ ‫و‬ ‫ﺐ‬ ‫و ﺒ‬ ،‫آ ً ﺜ ﺒ ﺤ‬
.
‫ﺜ ﺘ‬ ‫أن‬ ‫و‬. ‫ﺒ‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺜ‬ ‫ﺒ ﺜ ﺒ‬ ‫ﺒ ةﺒ‬ ‫ﺐ ﺜك أ‬
‫وأﺚﺒ‬ ‫ﺛ‬ ‫وﺐ‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺒ‬ ‫ﺒ‬ ‫وﺒ ﺚ‬ ‫ﺒ ﺒ‬ ‫أ‬
.‫ﺒ ﺨ‬ ‫و ﺒ‬ ‫ﺒ ﺖﺒ ﺚ ﺒ‬

Abu Shawar, Bayan; Atwell, Eric. An Arabic chatbot giving answers from the Qur'an in: Bel, B &
Marlien, I (editors) Proceedings of TALN04: XI Conference sur le Traitement Automatique
des Langues Naturelles, Volume 2, pp. 197-202 ATALA. 2004.

Al-Saif, A; Markert, K. 2010. The Leeds Arabic Discourse Treebank: Annotating discourse
connectives for Arabic. (pdf) In: Proc. of the conference on Language Resources and
Evaluation. Malta, 2010.

Al-Sulaiti, Latifa; Atwell, Eric. The design of a corpus of contemporary Arabic. International Journal
of Corpus Linguistics, vol. 11, pp. 135-171. 2006.

Eric Atwell, Kais Dukes, Abdul-Baquee Sharaf, Nizar Habash, et al.(2010) Understanding the Quran: A new
Grand Challenge for Computer Science and Artificial Intelligence. Grand Challenges for
Computing Research (2010). British Computer Society Workshop. Edinburgh

Fillmore, C. (1976). “Frame Semantics and the nature of language.” Annals of the New York
Academy of Science.

Ghazali, S. & Braham, A. (2001). Dictionary Definitions and Corpus-Based Evidence in Modern
Standard Arabic. Arabic NLP Workshop at ACL/EACL. Toulouse, France.

Kais Dukes and Nizar Habash. Morphological Annotation of Quranic Arabic. The seventh
international conference on Language Resources and Evaluation (LREC-2010). Valletta,
Malta, 2010.

15
Kais Dukes, Eric Atwell and Abdul-Baquee M. Sharaf. Syntactic Annotation Guidelines for the
Quranic Arabic Treebank. The seventh international conference on Language Resources and
Evaluation (LREC-2010). Valletta, Malta, 2010

Kais Dukes and Tim Buckwalter. A Dependency Treebank of the Quran using Traditional Arabic
Grammar. Submitted to the 7th international conference on Informatics and Systems. Cairo,
Egypt, 2010

Mushaf at-Tajweed 1420H. – –

Roberts, Andrew; Al-Sulaiti, Latifa; Atwell, Eric. aConCorde: Towards an open-source, extendable
concordancer for Arabic. Corpora journal, vol. 1, pp. 39-57. 2006.

Ruppenhofer, J., M. Ellsworth, M. Petruck, and C. Johnson (2005). “FrameNet: Theory and Practice.

Sawalha, Majdi and Atwell, Eric (2008). Comparative evaluation of Arabic language morphological
analysers and stemmers. Proceedings of COLING 2008 22nd International Conference on
Computational Linguistics.
Sawalha, Majdi and Atwell, Eric (2009a). Linguistically Informed and Corpus Informed
Morphological Analysis of Arabic. Proceedings of the 5th International Corpus Linguuistics
Conference CL2009 Liverpool, UK.

Sawalha, Majdi and Atwell, Eric (2009b).


(Adapting Language Grammar Rules for Building Morphological Analyzer for
Arabic Language). Proceedings of the workshop of morphological analyzer experts for
Arabic language, organized by Arab League Educational, Cultural and Scientific
Organization (ALECSO), King Abdul-Aziz City of Technology ( KACT) and Arabic Language
Academy. Damascus, Syria.

Sawalha, Majdi and Atwell, Eric (2010a). Constructing and Using Broad-Coverage Lexical Resource
for Enhancing Morphological Analysis of Arabic. Language Resource and Evaluation
Conference LREC 2010 Valleta, Malta.

Sawalha, Majdi and Atwell, Eric (2010b). Fine-Grain Morphological Analyzer and Part-of-Speech
Tagger for Arabic Text. Language Resource and Evaluation Conference LREC 2010 Valleta,
Malta.

Sharaf, A. and Atwell, E. (2009) A Corpus-based computational model for knowledge representation
of the Qur'an. 5th Corpus Linguistics Conference, Liverpool

van Mol, M. (2000b). Exploring annotated Arabic corpora: preliminary results.


(http://www.ilt.kuleuven.ac.be/ilt/arabic/_pdf/tunis.pdf)

16

You might also like