Professional Documents
Culture Documents
edu/~shervine/l/ar/
ّ
دﻗﺔ اﻟﺘﻮﻗﻌﺎت اﻹﻳﺠﺎﺑﻴﺔ )(positive
TP
Precision ﻣﺮﺟﻊ ﺳﺮﻳﻊ ﻟﻨﺼﺎﺋﺢ وﺣﻴﻞ ّ
ﺗﻌﻠﻢ اﻵﻟﺔ
TP + FP
TP
ﺗﻐﻄﻴﺔ ﻋﻴﻨﺎت اﻟﺘﻮﻗﻌﺎت اﻹﻳﺠﺎﺑﻴﺔ اﻟﻔﻌﻠﻴﺔ Recall
TP + FN
Sensitivity
TN اﻓﺸﯿﻦ ﻋﻤﯿﺪی و ﺷﺮوﯾﻦ ﻋﻤﯿﺪی
ﺗﻐﻄﻴﺔ ﻋﻴﻨﺎت اﻟﺘﻮﻗﻌﺎت اﻟﺴﻠﺒﻴﺔ اﻟﻔﻌﻠﻴﺔ Specificity
TN + FP
ﻣﻘﻴﺎس ﻫﺠﻴﻦ ﻣﻔﻴﺪ 2TP
درﺟﺔ F1
١٤رﺑﻴﻊ اﻟﺜﺎﻧﻲ١٤٤١ ،
ﻟﻸﺻﻨﺎف ﻏﻴﺮ اﻟﻤﺘﻮازﻧﺔ )(unbalanced 2TP + FP + FN
rاﻟﻤﺴﺎﺣﺔ ﺗﺤﺖ ﻣﻨﺤﻨﻰ دﻗﺔ اﻷداء اﻟﻤﺴﺎﺣﺔ ﺗﺤﺖ اﻟﻤﻨﺤﻨﻰ ) – (AUCاﻟﻤﺴﺎﺣﺔ ﺗﺤﺖ ﻣﻨﺤﻨﻰ دﻗﺔ اﻷداء �اﻟﻤﺴﺎﺣﺔ ّ ّ
اﻟﺪﻗﺔ ﻷﺧﺬ ﺗﺼﻮر ﺷﺎﻣﻞ ﻋﻨﺪ ﺗﻘﻴﻴﻢ أداء اﻟﻨﻤﻮذج. اﻟﺪﻗﺔ ) – (confusion matrixﺗﺴﺘﺨﺪم ﻣﺼﻔﻮﻓﺔ rﻣﺼﻔﻮﻓﺔ
ﺗﺤﺖ اﻟﻤﻨﺤﻨﻰ� ،وﻳﻄﻠﻖ ﻋﻠﻴﻬﺎ AUCأو ،AUROCﻫﻲ اﻟﻤﺴﺎﺣﺔ ﺗﺤﺖ ROCﻛﻤﺎ ﻫﻮ ﻣﻮﺿﺢ ﻓﻲ اﻟﺮﺳﻤﺔ اﻟﺘﺎﻟﻴﺔ: وﻫﻲ ﺗﻌﺮّ ف ﻛﺎﻟﺘﺎﻟﻲ:
اﻟﺘﺼﻨﻴﻒ اﻟﻤﺘﻮﻗﻊ
– +
FN TP
False Negatives +
True Positives
Type II error
اﻟﺘﺼﻨﻴﻒ اﻟﻔﻌﻠﻲ
TN FP
False Positives –
True Negatives
ﻣﻘﺎﻳﻴﺲ اﻻﻧﺤﺪار Type I error
ً
ﻏﺎﻟﺒﺎ ﻣﺎ ﺗﺴﺘﺨﺪم ﻟﺘﻘﻴﻴﻢ أداء rاﻟﻤﻘﺎﻳﻴﺲ اﻷﺳﺎﺳﻴﺔ – إذا ﻛﺎن ﻟﺪﻳﻨﺎ ﻧﻤﻮذج اﻻﻧﺤﺪار ،fﻓﺈن اﻟﻤﻘﺎﻳﻴﺲ اﻟﺘﺎﻟﻴﺔ
اﻟﻨﻤﻮذج: rاﻟﻤﻘﺎﻳﻴﺲ اﻷﺳﺎﺳﻴﺔ – اﻟﻤﻘﺎﻳﻴﺲ اﻟﺘﺎﻟﻴﺔ ﺗﺴﺘﺨﺪم ﻓﻲ اﻟﻌﺎدة ﻟﺘﻘﻴﻴﻢ أداء ﻧﻤﺎذج اﻟﺘﺼﻨﻴﻒ:
-اﻟﺘﺪرﻳﺐ ﻋﻠﻰ n − pﻋﻴﻨﺔ واﻟﺘﻘﻴﻴﻢ ﺑﺎﺳﺘﺨﺪام -اﻟﺘﺪرﻳﺐ ﻋﻠﻰ k − 1ﺟﺰء واﻟﺘﻘﻴﻴﻢ ﺑﺎﺳﺘﺨﺪام اﻟﺠﺰء ∑
m
∑
m
∑
m
اﻟـ pﻋﻴﻨﺎت اﻟﻤﺘﺒﻘﻴﺔ اﻟﺒﺎﻗﻲ = SSres (yi − f (xi ))2 = SSreg (f (xi ) − y)2 = SStot (yi − y)2
-اﻟﺤﺎﻟﺔ p = 1ﻳﻄﻠﻖ ﻋﻠﻴﻬﺎ i=1 i=1 i=1
-ﺑﺸﻜﻞ ﻋﺎم k = 5أو ۱۰
اﻹﺑﻘﺎء ﻋﻠﻰ واﺣﺪ )(leave-one-out
ً
وﻏﺎﻟﺒﺎ ﻳﺮﻣﺰ ﻟﻪ ﺑـ R2أو ،r2ﻳﻌﻄﻲ rﻣُ ﻌﺎﻣﻞ اﻟﺘﺤﺪﻳﺪ ) – (Coefficient of determinationﻣُ ﻌﺎﻣﻞ اﻟﺘﺤﺪﻳﺪ،
ً ﻗﻴﺎس ﻟﻤﺪى ﻣﻄﺎﺑﻘﺔ اﻟﻨﻤﻮذج ﻟﻠﻨﺘﺎﺋﺞ اﻟﻤﻠﺤﻮﻇﺔ ،وﻳﻌﺮف ﻛﻤﺎ ﻳﻠﻲ:
اﺳﺘﺨﺪاﻣﺎ ﻳﻄﻠﻖ ﻋﻠﻴﻬﺎ اﻟﺘﺤﻘﻖ اﻟﻤﺘﻘﺎﻃﻊ س ﺟﺰء�أﺟﺰاء ) ،(k-foldوﻳﺘﻢ ﻓﻴﻬﺎ ﺗﻘﺴﻴﻢ اﻟﺒﻴﺎﻧﺎت إﻟﻰ اﻟﻄﺮﻳﻘﺔ اﻷﻛﺜﺮ
kﺟﺰء ،ﺑﺤﻴﺚ ﻳﺘﻢ ﺗﺪرﻳﺐ اﻟﻨﻤﻮذج ﺑﺎﺳﺘﺨﺪام k − 1واﻟﺘﺤﻘﻖ ﺑﺎﺳﺘﺨﺪام اﻟﺠﺰء اﻟﻤﺘﺒﻘﻲ ،وﻳﺘﻢ ﺗﻜﺮار ذﻟﻚ kﻣﺮة. SSres
R2 = 1 −
ﻳﺘﻢ ﺑﻌﺪ ذﻟﻚ ﺣﺴﺎب ﻣﻌﺪل اﻷﺧﻄﺎء ﻓﻲ اﻷﺟﺰاء kوﻳﺴﻤﻰ ﺧﻄﺄ اﻟﺘﺤﻘﻖ اﻟﻤﺘﻘﺎﻃﻊ. SStot
ً
ﻏﺎﻟﺒﺎ ﻟﺘﻘﻴﻴﻢ أداء ﻧﻤﺎذج اﻻﻧﺤﺪار ،وذﻟﻚ ﺑﺄن ﻳﺘﻢ اﻷﺧﺬ ﻓﻲ rاﻟﻤﻘﺎﻳﻴﺲ اﻟﺮﺋﻴﺴﻴﺔ – اﻟﻤﻘﺎﻳﻴﺲ اﻟﺘﺎﻟﻴﺔ ﺗﺴﺘﺨﺪم
اﻟﺤﺴﺒﺎن ﻋﺪد اﻟﻤﺘﻐﻴﺮات nاﻟﻤﺴﺘﺨﺪﻣﺔ ﻓﻴﻬﺎ:
rﻣﻔﺮدات – ﻋﻨﺪ اﺧﺘﻴﺎر اﻟﻨﻤﻮذج ،ﻧﻔﺮق ﺑﻴﻦ ۳أﺟﺰاء ﻣﻦ اﻟﺒﻴﺎﻧﺎت اﻟﺘﻲ ﻟﺪﻳﻨﺎ ﻛﺎﻟﺘﺎﻟﻲ:
Elastic Net Ridge LASSO
ﻣﺠﻤﻮﻋﺔ اﺧﺘﺒﺎر ﻣﺠﻤﻮﻋﺔ ﺗﺤﻘﻖ ﻣﺠﻤﻮﻋﺔ ﺗﺪرﻳﺐ
اﻟﻤﻔﺎﺿﻠﺔ ﺑﻴﻦ اﺧﺘﻴﺎر اﻟﻤﺘﻐﻴﺮات
ﻳﺠﻌﻞ اﻟﻤُ ﻌﺎﻣﻼت أﺻﻐﺮ -ﻳﻘﻠﺺ اﻟﻤُ ﻌﺎﻣﻼت إﻟﻰ ۰
واﻟﻤُ ﻌﺎﻣﻼت اﻟﺼﻐﻴﺮة -اﻟﻨﻤﻮذج ﻳﻌﻄﻲ اﻟﺘﻮﻗﻌﺎت -ﻳﺘﻢ ﺗﻘﻴﻴﻢ اﻟﻨﻤﻮذج -ﻳﺘﻢ ﺗﺪرﻳﺐ اﻟﻨﻤﻮذج
-ﺟﻴﺪ ﻻﺧﺘﻴﺎر اﻟﻤﺘﻐﻴﺮات -ﺑﻴﺎﻧﺎت ﻟﻢ ﻳﺴﺒﻖ رؤﻳﺘﻬﺎ ً ً
ﻏﺎﻟﺒﺎ 20%ﻣﻦ ﻣﺠﻤﻮﻋﺔ - ﻏﺎﻟﺒﺎ 80%ﻣﻦ ﻣﺠﻤﻮﻋﺔ -
ﻣﻦ ﻗﺒﻞ اﻟﺒﻴﺎﻧﺎت اﻟﺒﻴﺎﻧﺎت
-ﻳﻄﻠﻖ ﻋﻠﻴﻬﺎ ﻛﺬﻟﻚ اﻟﻤﺠﻤﻮﻋﺔ
اﻟﻤُ ﺠﻨّﺒﺔ أو ﻣﺠﻤﻮﻋﺔ اﻟﺘﻄﻮﻳﺮ
ﺑﻤﺠﺮد اﺧﺘﻴﺎر اﻟﻨﻤﻮذج ،ﻳﺘﻢ ﺗﺪرﻳﺒﻪ ﻋﻠﻰ ﻣﺠﻤﻮﻋﺔ اﻟﺒﻴﺎﻧﺎت ﺑﺎﻟﻜﺎﻣﻞ ﺛﻢ ﻳﺘﻢ اﺧﺘﺒﺎره ﻋﻠﻰ ﻣﺠﻤﻮﻋﺔ اﺧﺘﺒﺎر ﻟﻢ ﻳﺴﺒﻖ
رؤﻳﺘﻬﺎ ﻣﻦ ﻗﺒﻞ .ﻛﻤﺎ ﻫﻮ ﻣﻮﺿﺢ ﻓﻲ اﻟﺸﻜﻞ اﻟﺘﺎﻟﻲ:
[ ]
... + λ (1 − α)||θ||1 + α||θ||22 ... + λ||θ||22 ... + λ||θ||1
]λ ∈ R, α ∈ [0,1 λ∈R λ∈R
rاﻟﺘﺤﻘﻖ اﻟﻤﺘﻘﺎﻃﻊ ) – (Cross-validationاﻟﺘﺤﻘﻖ اﻟﻤﺘﻘﺎﻃﻊ ،وﻛﺬﻟﻚ ﻳﺨﺘﺼﺮ ﺑـ ،CVﻫﻮ ﻃﺮﻳﻘﺔ ﺗﺴﺘﺨﺪم ﻻﺧﺘﻴﺎر
ﻧﻤﻮذج ﺑﺤﻴﺚ ﻻ ﻳﻌﺘﻤﺪ ﺑﺸﻜﻞ ﻛﺒﻴﺮ ﻋﻠﻰ ﻣﺠﻤﻮﻋﺔ ﺑﻴﺎﻧﺎت اﻟﺘﺪرﻳﺐ اﻟﻤﺒﺪأﻳﺔ .أﻧﻮاع اﻟﺘﺤﻘﻖ اﻟﻤﺘﻘﺎﻃﻊ اﻟﻤﺨﺘﻠﻔﺔ
ﻣﻠﺨﺼﺔ ﻓﻲ اﻟﺠﺪول اﻟﺘﺎﻟﻲ:
rﺗﺤﻠﻴﻞ اﻟﺨﻄﺄ – ﺗﺤﻠﻴﻞ اﻟﺨﻄﺄ ﻫﻮ ﺗﺤﻠﻴﻞ اﻟﺴﺒﺐ اﻟﺮﺋﻴﺴﻲ ﻟﻠﻔﺮق ﻓﻲ اﻷداء ﺑﻴﻦ اﻟﻨﻤﺎذج اﻟﺤﺎﻟﻴﺔ واﻟﻨﻤﺎذج اﻟﻤﺜﺎﻟﻴﺔ. اﻟﺘﺸﺨﻴﺼﺎت
rاﻻﻧﺤﻴﺎز ) – (Biasاﻻﻧﺤﻴﺎز ﻟﻠﻨﻤﻮذج ﻫﻮ اﻟﻔﺮق ﺑﻴﻦ اﻟﺘﻨﺒﺆ اﻟﻤﺘﻮﻗﻊ واﻟﻨﻤﻮذج اﻟﺤﻘﻴﻘﻲ اﻟﺬي ﻧﺤﺎول ﺗﻨﺒﺆه ﻟﻠﺒﻴﺎﻧﺎت
rﺗﺤﻠﻴﻞ اﺳﺘﺌﺼﺎﻟﻲ ) – (Ablative analysisاﻟﺘﺤﻠﻴﻞ اﻻﺳﺘﺌﺼﺎﻟﻲ ﻫﻮ ﺗﺤﻠﻴﻞ اﻟﺴﺒﺐ اﻟﺮﺋﻴﺴﻲ ﻟﻠﻔﺮق ﻓﻲ اﻷداء
اﻟﻤﻌﻄﺎة.
ﺑﻴﻦ اﻟﻨﻤﺎذج اﻟﺤﺎﻟﻴﺔ واﻟﻨﻤﺎذج اﻟﻤﺒﺪﺋﻴﺔ ).(baseline
rاﻟﺘﺒﺎﻳﻦ ) – (Varianceﺗﺒﺎﻳﻦ اﻟﻨﻤﻮذج ﻫﻮ ﻣﻘﺪار اﻟﺘﻐﻴﺮ ﻓﻲ ﺗﻨﺒﺆ اﻟﻨﻤﻮذج ﻟﻨﻘﺎط اﻟﺒﻴﺎﻧﺎت اﻟﻤﻌﻄﺎة.
rﻣﻮازﻧﺔ اﻻﻧﺤﻴﺎز�اﻟﺘﺒﺎﻳﻦ ) – (Bias/variance tradeoffﻛﻠﻤﺎ زادت ﺑﺴﺎﻃﺔ اﻟﻨﻤﻮذج ،زاد اﻻﻧﺤﻴﺎز ،وﻛﻠﻤﺎ زاد
ﺗﻌﻘﻴﺪ اﻟﻨﻤﻮذج ،زاد اﻟﺘﺒﺎﻳﻦ.
-ﺧﻄﺄ اﻟﺘﺪرﻳﺐ ﻣﻨﺨﻔﺾ -ﺧﻄﺄ اﻟﺘﺪرﻳﺐ أﻗﻞ ﺑﻘﻠﻴﻞ -ﺧﻄﺄ اﻟﺘﺪرﻳﺐ ﻋﺎﻟﻲ
ً
ﺟﺪا ﻣﻦ ﺧﻄﺄ اﻻﺧﺘﺒﺎر
-ﺧﻄﺄ اﻟﺘﺪرﻳﺐ أﻗﻞ ﺑﻜﺜﻴﺮ -ﺧﻄﺄ اﻟﺘﺪرﻳﺐ ﻗﺮﻳﺐ ﻣﻦ اﻷﻋﺮاض
ﻣﻦ ﺧﻄﺄ اﻻﺧﺘﺒﺎر ﺧﻄﺄ اﻻﺧﺘﺒﺎر
-ﺗﺒﺎﻳﻦ ﻋﺎﻟﻲ -اﻧﺤﻴﺎز ﻋﺎﻟﻲ
ﺗﻮﺿﻴﺢ اﻻﻧﺤﺪار
ﺗﻮﺿﻴﺢ اﻟﺘﺼﻨﻴﻒ