You are on page 1of 28

‫استخدام التحليل التمييزي في التصنيف والتنبؤ‬

‫(دراسة تطبيقية)‬

‫مقدمه‬

‫الدكتور‪ /‬عبد الرحيم عوض عبد الخالق بسيوني‬

‫‪dr-abdelreheembassuny@outlook.com‬‬

‫‪https://caf.journals.ekb.eg/‬‬
:‫الملخص‬
‫السكري وإنشاء دالة تميزية تقوم‬
ُ ‫يهدف البحث إلى تحديد العوامل المؤثرة في اإلصابة بمرض‬
‫ غير مصاب) وذلك من خالل مجموعة من‬،‫بالتمييز والفصل بين األشخاص إلى مجموعتين ُهما (مصاب‬
،‫ مرض النقرس‬،‫ ممارسة الرياضة‬،‫ التدخين‬،‫ النوع‬،‫ السن‬،‫ ضغط الدم‬،‫ الوزن‬،‫العوامل المؤثرة وهي الوراثة‬
‫ شخص منهم‬350 ‫ وتم التطبيق على عينة من‬.‫ وأمراض القلب والكلى‬،‫ الحالة االجتماعية‬،‫الكوليسترول‬
‫ غير مصاب وبعد التأكد من مالئمة التحليل التمييزي للبيانات وتكوين دالة تمييزية‬182‫ ُمصاب و‬168
،‫ ضغط الدم‬،‫ السن‬،‫السكري الوزن‬ ُ ‫للفصل والتمييز تبين أن أكثر العوامل المؤثرة في اإلصابة بمرض‬
‫ أما‬.‫المتغيرات لعدم معنوياتها‬
ُ ‫ وتم استبعاد باقي‬،‫ النوع‬،‫ الكوليسترول‬،‫ الوراثة‬،‫ ممارسة الرياضة‬،‫التدخين‬
‫) يليه ضغط‬%79.4( ‫المتغيرات ُمساهمة في التمييز والفصل بين المجموعات هو الوزن بنسبة‬
ُ ‫عن أكثر‬
‫) والكوليسترول بنسبة‬%28.9( ‫) ثم السن بنسبة‬%31( ‫) يليه الوراثة بنسبة‬%33.2( ‫الدم بنسبة‬
‫أخير النوع بنسبة‬
‫) و ًا‬%19.8( ‫) ثم ممارسة الرياضة بنسبة‬%20.8( ‫) والتدخين بنسبة‬%24.2(
‫) وحساسية‬%9.4( ‫) بنسبة خطأ‬%90.6( ‫) كما تبين كفاءة الدالة التمييزية في التصنيف بنسبة‬%10(
.)%88.1( ‫) ونوعية بنسبة‬%92.9(
Abstract:
The research aims to determine the factors that affect the incidence
of diabetes and establish discriminant function that separates people from
with and without disease groups. this is done through a set of factors,
genetics, weight, blood pressure, age, gender, smoking and exercise, gout
and cholesterol, social status, and heart and kidney disease. After checking
the fit of the discriminant analysis to the data and creating the discriminant
function for separating and distinguish, it was concluded that the most
important factors affecting the incidence of diabetes are weight, age, blood
pressure, smoking, exercise, genetics, cholesterol and gender the
remaining variables were excluded because they were not significant. the
variables that contribute most to segregation are weight (79.4%), blood
pressure (33.2%), genetic (31%), age (28.9%) cholesterol (24.2%), smoking
(20.8%), exercise (19.8%) and gender (10%) it also shows that the
discriminative function is (90.6%) efficient, and attributed if wrong (9.4%),
sensitivity (92.9%), qualitative (88.1%).

299
‫مقدمة‪:‬‬
‫شهدت السنوات األخيرة زيادة ملحوظة في اعداد المصابين بمرض السكري حتى اننا ال نكاد نرى‬
‫بيت بدون مريض السكري حتى أصبح غالبية المصريين يتعايشون مع هذا المرض على أنه صديق وفي‬
‫ولكنه غير وفي ألنه في أي لحظة قد يفتك بحياة المريض وخاصة ان لمرض السكري مضاعفات خطيرة‬
‫تصيب القلب والشرايين واالعصاب والكلى والعين فقد كان ومازال مرض السكري وراء ارتفاع نسبة الوفيات‬
‫سواء كان بشكل مباشر أو غير مباشر‪ ،‬ويرجع األطباء السبب إلى عدم مقدرة البنكرياس على فرز كمية‬
‫االنسولين المطلوبة أو االنسولين المنتج غير فعال مما يؤدي إلى اضطرابات ومنها ارتفاع نسبة السكر في‬
‫الدم مما يضر الكلى واألوعية الدموية والقلب والعين وغيرها ويرجع مرض السكري إلى مجموعة من العوامل‬
‫أهمها عامل الوراثة وضغط الدم والوزن الزائد والنوع وممارسة الرياضة والتدخين والكوليسترول وأمراض القلب‬
‫والكلى‪.‬‬
‫ويعتبر أسلوب تحليل التمايز أهم األساليب اإلحصائية متعددة المتغيرات التي تستخدم في معالجة‬
‫البيانات الوصفية ويعتمد على بناء دالة تسمى دالة التمايز وهي عبارة عن توليفة خطية لمجموعة من‬
‫المتغيرات المستقلة وهذه الدالة تعمل على تقليل التشابه في أخطاء التصنيف ويهدف التحليل التميزي إلى‬
‫تصنيف المشاهدات إلى مجموعاتها الصحيحة بأقل خطأ تصنيف ممكن‪ ،‬ويختلف أسلوب التمايز مع ُكل من‬
‫تحليل التباين وتحليل االنحدار حيث المتغير التابع نوعي‪ ،‬بينما في األسلوبين األخيرين يكون ُمتغير كمي‪،‬‬
‫إن االنحدار اللوجستي‬
‫كما يتشابه تحليل التمايز مع االنحدار اللوجستي إذا يفسر ُكل منهما ُمتغير وصفي أال َ‬
‫المستقلة تتبع التوزيع الطبيعي‪.‬‬ ‫ال يتطلب أن تكون ُ‬
‫المتغيرات ُ‬
‫ُمشكلة البحث‪:‬‬
‫ُيعد االهتمام بالقطاع الصحي وصحة المواطن من أولويات أي حكومة حتى يواكب أي تقدم كما‬
‫يعد مرض السكري من االمراض األصيلة في الشعب المصري في مختلف االعمار ومن هذا المنطلق تبدأ‬
‫مشكلة البحث في الظهور كما أن معظم الدراسات اهتمت بالتحليل احادي المتغير أو ثنائي المتغير ولم‬
‫يتطرق اال القليل إلى التحليل متعدد المتغيرات ومن هنا لزم البحث في األساليب اإلحصائية التي تهتم بدراسة‬
‫متغيرات متعددة او مجموعة من المتغيرات في آن واحد حتى يمكن الوقوف على أهم العوامل المؤثرة على‬
‫اإلصابة بمرض السكري ومحاولة الحد منها‪.‬‬
‫أهمية البحث‪:‬‬
‫يستمد البحث أهميته من خطورة مرض السكري وما ينتج عنه من مضاعفات خطيرة كأمراض‬
‫القلب والكلى والعين وغيرها مما يؤدي إلى ارتفاع نسبة الوفيات واهدار الكثير من األموال على القطاع‬

‫الصحي دون جدوى‪ ،‬كما نوضح الدور الذي يقوم به االحصائيين ً‬


‫جنبا إلى جنب األطباء وتوفير نموذج‬
‫احصائي أو دالة تمييزية لها القدرة على التمييز والفصل بين األشخاص إلى مجموعتين أحدهما المصابة‬

‫‪300‬‬
‫واألخرى غير المصابة بمرض السكري ثم تصنيف المشاهدات الجديدة وتوزيعها على إحدى المجموعتين‬
‫وبالتالي التشخيص المبكر والحفاظ على أرواح البشر واألموال الطائلة التي تنفق عليها‪.‬‬
‫أهداف البحث‪:‬‬
‫للبحث أهداف عديدة أهمها‪- :‬‬
‫‪ -1‬القاء الضوء على أسلوب التحليل التمييزي كأحد أساليب التحليل االحصائي متعدد المتغيرات‪.‬‬
‫‪ -2‬تحديد العوامل المؤثرة في اإلصابة بمرض السكري‪.‬‬
‫‪ -3‬انشاء دالة تمييزية تصنف األشخاص إلى مجموعتين (مصاب وغير مصاب)‪.‬‬
‫‪ -4‬تحديد األهمية النسبية للعوامل المؤثرة في اإلصابة بمرض السكري ومدى مساهمة كل عامل في التمييز‬
‫والتصنيف‪.‬‬
‫‪ -5‬تصنيف األشخاص أو المفردات الجديدة وتوزيعها على إحدى المجموعتين‪.‬‬

‫‪ -6‬التنبؤ باحتمالية إصابة أو عدم إصابة الشخص بمرض السكري ً‬


‫بناء على مجموعة العوامل مما يؤدي‬
‫للتشخيص المبكر وتفادي تدهور الحالة الصحية للمريض‪.‬‬
‫‪ -7‬توضيح دور اإلحصائي في المساهمة والمساعدة في المجاالت الطبية‪.‬‬
‫ُمتغيرات البحث‪- :‬‬
‫‪ -1‬المتغير التابع‪( :‬متغير نوعي) (مصاب وغير مصاب)‪.‬‬
‫‪ -2‬العوامل المؤثرة (المتغيرات المستقلة)‪- :‬‬
‫‪-3‬‬
‫الكوليسترول‪.‬‬ ‫‪‬‬ ‫النوع‪.‬‬ ‫‪‬‬ ‫الوراثة‪.‬‬ ‫‪‬‬
‫الحالة االجتماعية‪.‬‬ ‫‪‬‬ ‫التدخين‪.‬‬ ‫‪‬‬ ‫الوزن‪.‬‬ ‫‪‬‬
‫أمراض القلب والكلى‪.‬‬ ‫‪‬‬ ‫ممارسة الرياضة‪.‬‬ ‫‪‬‬ ‫ضغط الدم‪.‬‬ ‫‪‬‬
‫مرض النقرس‪.‬‬ ‫‪‬‬ ‫السن‪.‬‬ ‫‪‬‬
‫في حالة توافر الخاصية يأخذ المتغير (‪ )1‬وعدم توافرها (‪.)0‬‬
‫مصادر البيانات‪:‬‬
‫أخذت البيانات من عينة من ‪ 350‬شخص بمستشفى كفر الشيخ العام ومستشفى جامعة كفر‬
‫الشيخ وإحدى المستشفيات الخاصة‪ ،‬تنقسم العينة إلى ‪ 168‬مصاب و‪ 182‬غير مصاب باستخدام أحد‬
‫البرامج اإلحصائية ”‪.“SPSSV23‬‬
‫الدراسات السابقة‪:‬‬
‫‪ -1‬دراسة )‪:Pohar and Blas (2004‬‬
‫هدفت الدراسة إلى المقارنة بين االنحدار اللوجستي وتحليل التميز الخطي‪ ،‬دراسة محاكاة وتوصلت‬
‫هذه الدراسة إلى أن تحليل التمايز الخطي يستخدم إذا كانت المتغيرات تتبع التوزيع الطبيعي وان االنحدار‬

‫‪301‬‬
‫اللوجستي يستخدم في حالة العينات الصغيرة حيث ان ال يشترط ان تتبع المتغيرات التوزيع الطبيعي كما‬
‫توصلت الدراسة إلى أن نتائج الطريقتين كانت متقاربة عندما كان حجم العينة كبير‪.‬‬
‫‪ -2‬دراسة عبد الكريم (‪- :)2006‬‬
‫هدفت الدراسة إلى استخدام الطرق التمييزية اإلحصائية لتشخيص بعض أمراض القلب حيث تناول‬
‫يضا جمعت من‬‫البحث أسلوب التحليل التمييزي والنموذج اللوجستي وتم التطبيق على عينة من ‪ 206‬مر ً‬
‫ثالث مستشفيات مختلفة وكانت المتغيرات المستقلة هي العمر والوزن والطول وضغط الدم ونسبة‬
‫الكوليسترول في الدم والنوع والمتغير التابع نوع المريض (تصلب الشرايين = ‪ ،1‬جلطة قلبية = ‪ )2‬وتم‬
‫التوصل إلى النموذج اللوجستي أعطى نسبة خطأ تصنيف أقل من النموذج التمييزي‪.‬‬
‫‪ -3‬دراسة الجاعوني‪ ،‬غانم (‪- :)2007‬‬
‫ضمن هذا البحث دراسة أحد أساليب التحليل اإلحصائي متعدد المتغيرات وهو أسلوب التحليل‬‫تَ َ‬
‫التمييزي الذي يعد من األساليب اإلحصائية المتقدمة التي تستخدم في توصيف وتوزيع االسر داخل الهيكل‬
‫االقتصادي واالجتماعي للمجتمع ويساعد في رسم خطط التنمية االقتصادية واالجتماعية التي تهدف إليها‬
‫العبء الضريبي واإلعانات الحكومية ألسر‬‫الدولة والوقوف إلى أنسب الطرق في حيث عدالة توزيع الدخل و ِ‬
‫المجتمع بصورة أكثر واقعية‪.‬‬
‫‪ -4‬دراسة الشمراني (‪- :)2008‬‬
‫هدفت الدراسة إلى التعرف على كيفية استخدام التحليل التمييزي وكذلك استخدام تحليل التباين‬
‫متعدد المتغيرات وذلك في حالة عامل واحد أو عاملين وكذلك مدى إمكانية تقييم كفاءة النموذج التمييزي‬
‫واختيار القدرة التمييزية للنموذج ومقارنة جوانب الشبه واالختالف بينها‪ ،‬توصلت الدراسة إلى ان تشابه‬
‫افتراضات تحليل التباين المتعدد والتحليل التمييزي وفي حالة وجود عاملين يعد استخدام تحليل التباين المتعدد‬
‫امر ضرورًيا عن وجود تفاعل أم ال وبعده يأتي دور التحليل التمييزي لتحديد الدوال التمييزية لكل مجموعة‪.‬‬
‫ًا‬
‫‪ -5‬دراسة )‪:Roush and Kelly (2009‬‬
‫‪Linear discriminant‬‬ ‫هدفت هذه الدراسة إلى عمل مقارنة بين تحليل التمايز الخطي‬
‫)‪ analysis (LDA‬وتحليل التمايز اللوجستي )‪Linear logistic discrimination analysis (LLD‬‬
‫وتحليل التمايز الخطي باستخدام الرتب ‪ LDA based on ranks‬وتحليل التمايز المختلط ‪Mixture‬‬
‫)‪discriminant analysis (MDA‬باالعتماد على دراسة محاكاة مونت كارلو وتوصلت الدراسة إلى أن كل‬
‫من تحليل التمايز الخطي وتحليل التمايز اللوجستي لهم نفس الدقة في التصنيف كما أشارت النتائج إلى‬
‫تحليل التمايز المختلط بشكل عام هو أكثر النماذج قابلية للتطبيق وأكثرهم دقة للتصنيف وخاصة إذا كانت‬
‫أن تحليل التمايز باالعتماد على الرتب أكثر دقة للتصنيف عن كل من‬
‫البيانات ال تتبع التوزيع الطبيعي كما َ‬
‫تحليل التمايز الخطي وتحليل التمايز اللوجستي‪.‬‬
‫‪ -6‬دراسة الجزار (‪- :)2012‬‬

‫‪302‬‬
‫هدفت الدراسة إلى المقارنة بين انسب أساليب التصنيف والتنبؤ وهي التحليل التمييزي الخطي‬
‫وأسلوب االنحدار اللوجستي المتعدد وكان المعيار المستخدم للمقارنة بينهما هو دقة التصنيف والمساحة تحت‬
‫المنحنى )‪ Area under the roc curve (AUC‬لتحليل الـ ‪Receiver operating characteristic‬‬
‫)‪ curve (ROC‬على بيانات مولدة بالحاسب بهدف مقارنة قدرة كال النموذجين على التصنيف والتنبؤ تحت‬
‫تأثير االختالف في حجم البيانات وعدد فئات المتغير التابع والمسافة بين متوسطات المجموعات التي تحتاج‬
‫إلى تصنيف وتبين تشابه كبير في المعامالت التي تم تقديرها وكان األسلوب اللوجستي أعلى بقليل من‬
‫التحليل التمييزي في دقة التصنيف إال أنه عند أخذ معيار ‪ Specificity , Sensitivity‬والمساحة تحت‬
‫المنحنى ‪ AUC‬لتحليل ‪ ROC‬فقد وجد ان الفارق بين النموذجين ضئيل ً‬
‫جدا‪.‬‬
‫‪ -7‬دراسة هاشم (‪- :)2014‬‬
‫سعت الدراسة إلى استخدام التحليل التمييزي المتعدد لتصنيف مراحل اإلصابة بمرض الفشل‬
‫الكلوي المزمن وتضمنت الدراسة عينة من ‪ 322‬وتم إيجاد الدالة التمييزية وتصنيف مراحل اإلصابة بمرض‬
‫الفشل الكلوي المزمن على أساس مجموعة من المتغيرات وهي العمر والحالة االجتماعية والمهنة والسكن‬
‫وعدد األطفال ومستوى الدخل وتبين معنوية متغير المهنة في التمييز والتصنيف كما أن للدالة قدرة عالية‬
‫على التمييز وتصنيف األشخاص‪.‬‬
‫‪ -8‬دراسة ُسليمان (‪- :)2015‬‬
‫هدفت الدراسة إلى المقارنة بين التحليل التمييزي والنموذج اللوجستي ونماذج الشبكات العصبية في‬
‫تصنيف المشاهدات وتم ذلك بالتطبيق على العوامل المؤثرة على كفاية دخل األسرة وهي حجم األسرة وطبيعة‬
‫ملكية السكن ووجود طلبة يدرسون بالجامعات وتوصل التحليل التمييزي إلى الدالة التمييزية ومعنوية تأثير‬
‫متغيرين فقط وهما حجم األسرة وملكية السكن وعدم معنوية وجود طلبة يدرسون في الجامعة كما تبين ان‬
‫الشبكات العصبية أفضل من النموذج اللوجستي أفضل من التحليل التمييزي‪.‬‬
‫‪ -9‬دراسة خوالدي (‪- :)2017‬‬
‫أوضحت الدراسة دور التحليل التمييزي في التنبؤ بالفشل المالي للمؤسسات االقتصادية الصغيرة‬
‫والمتوسطة لوالية أم البواقي باالستعانة بالنسب المالية المحسوبة من القوائم المالية باإلضافة إلى التواصل إلى‬
‫تمييز لوضعية المؤسسات سواء كانت ناجحة أو فاشلة وذلك من خالل اتباع خطوات التحليل‬
‫ًا‬ ‫أفضل النسب‬
‫التمييزي باستخدام برنامج ”‪ “SPSS‬حيث تم استخدام عينة مكونة من ‪ 30‬مؤسسة منها ‪ 17‬مؤسسة ناجحة‬
‫و‪ 13‬مؤسسة فاشلة واظهرت النتائج كفاءة النموذج المستخدم الذي ُيمكن من التنبؤ بالفشل المالي‬
‫للمؤسسات الصغيرة والمتوسطة والذي يتكون من نسبتين ماليتين (معدل دوران األصول المتداولة‬
‫ومعدل دوران إجمالي األصول) من اصل تسع نسب لهم القدرة على التمييز بين المؤسسات الناجحة‬
‫والمؤسسات الفاشلة‪.‬‬
‫دراسة النويري (‪- :)2018‬‬ ‫‪-10‬‬
‫‪303‬‬
‫أوضحت الدراسة أهم العوامل التي لها دور في تمييز مرض السكري المصابين من غير‬
‫المصابين بالفشل الكلوي واستخدام التحليل التميزي للتوصل لنموذج رياضي ُي َم ِكن من تصنيف‬
‫مرض السكري المصابين وغير المصابين بالفشل الكلوي وذلك باالعتماد على متغيرات (نسبة السكر‬
‫العمر) لمرضى السكري لمعرفة مدى أهمية المتغيرات في التمييز‬
‫في الدم – اليوريا – الكرياتينين – ُ‬
‫وتم جمع عينة من ‪ 200‬مريض سكري منهم ‪ 100‬مصاب و‪ 100‬غير مصاب بالفشل الكلوي‬
‫وباستخدام الدالة التمييزية تم التوصل إلى‪- :‬‬
‫هناك فروق معنوية بين متوسطات المتغيرات للمجموعتين باستخدام ‪ F‬مما يعني قدرة الدالة‬ ‫‪‬‬
‫على التصنيف‪.‬‬
‫هناك متغيرات لها األثر األكبر في التمييز وهما اليوريا والكرياتينين‪.‬‬ ‫‪‬‬
‫النموذج التمييزي له دقة تصنيف عالية ‪ %91‬وخطأ ‪.%9‬‬ ‫‪‬‬
‫‪ -11‬دراسة )‪:Abdul Hussein (2019‬‬
‫سعت هذه الدراسة إلى التمييز بين مجموعتين (المصابين وغير المصابين) بمرض القلب‬
‫تلك اإلحصائية‬
‫باستخدام إحصائية ) ‪ Mahalnobis (D‬واشتق الباحث قاعدة للتمييز مشتقة من َ‬
‫‪2‬‬

‫أسمها ‪ R D2‬وهي تتبع توزيع ‪ F‬واستخدامها في بناء دالة التمييز الخطية وطبقت هذه الدراسة على‬
‫‪ 40‬مريض تم تقسيمهم إلى مجموعتين األولى وعددها ‪ 16‬مصاب والثانية وعددها ‪ 24‬من‬
‫األشخاص غير المصابين بمرض القلب وتوصلت الدراسة إلى أن إحصائية ‪ُ Mahalnobis‬مهمة‬
‫إلنشاء قاعدة تمييز بين مجموعتين كذلك باالعتماد على هذه اإلحصائية أمكننا إيجاد متجه‬
‫معامالت التمايز بسهولة من ُمعامالت االنحدار‪.‬‬
‫‪ -12‬دراسة بغرش (‪- :)2020‬‬
‫هدفت الدراسة إلى استخدام التحليل التمييزي كأسلوب ُيستخدم للتنبؤ بمتغيرات اسمية تابعة‬
‫بناء على عالقتها بمتغيرات كمية وتستخدم هذه الطريقة في البنوك لتصنيف المقرضين إلى جيدين‬
‫ً‬
‫أو سيئين بحسب االخالل بالسداد‪ ،‬تم التطبيق من مجموعة من المشروعات التي استفاد أصحابها‬
‫من القروض من طرف الوكالة الوطنية لتسيير القرض المصغر خالل الفترة من ‪ 2004‬إلى‬
‫‪.2006‬‬

‫‪304‬‬
‫المبحث األول‬
‫التحليل التميزي ‪The Discriminate ate analysis‬‬
‫مقدمة‪:‬‬
‫هاما في تحليل وتفسير الظواهر االجتماعية والطبيعية في المجتمع‬
‫دور ً‬
‫يلعب التحليل اإلحصائي ًا‬
‫ويعد التحليل اإلحصائي أحد طرق البحث العلمي الذي يستخدم عند دراسة المشاكل االجتماعية والصحية‬
‫ُ‬
‫واالقتصادية وتم تقسيم التحليل اإلحصائي إلى التحليل احادي وثنائي المتغيرات ويبنى على حزمة من‬
‫المتغيرات أو العوامل من األساليب اإلحصائية للتحليل متعدد المتغيرات هو أسلوب التحليل التمييزي والذي‬
‫يشاع استخدامه في المجاالت الطبية حيث يهتم التحليل التمييزي بكيفية التمييز بين مجموعتين أو أكثر من‬
‫االفراد أو األشياء وتصنيف المفردات الجديدة على المجموعات التي سبق تعريفها ويعتمد أسلوب تحليل‬
‫التمايز على الوصول إلى دالة تسمى دالة التمايز تعمل على زيادة الفروق بين متوسط المجموعات حيث‬
‫ُكلما كان ُهناك تباعد بين متوسط المجموعات كلما كان التمييز كفء وبالتالي يقل خطأ التصنيف ويعتبر‬
‫التحليل التميزي بين مجموعتين أو أكثر من األفراد أو األشياء وتصنيف المفردات الجديدة على المجموعات‬
‫استكشافيا بطبيعته حيث يكتشف أسباب االختالف المشاهدة‬
‫ً‬ ‫التي سبق تعريفها ويعتبر التحليل التمييزي‬
‫عندما ال تستطيع فهم العالقات السببية بدرجة كافية الدقة‪( .‬الجاعوني‪ ،‬غانم‪)2007 :‬‬
‫أهمية التحليل التمييزي‪:‬‬

‫ترجع أهمية التحليل التمييزي كأحد أساليب التحليل ُمتعدد ُ‬


‫المتغيرات إلى مقدرته في التمييز بين‬
‫مجموعتين أو أكثر من خالل مجموعة من المتغيرات ويتم ذلك بإنشاء دوال تمايز ‪“Discriminate‬‬
‫”‪ Function‬تعمل على تعظيم االختالف أو الفروق بين المجموعات بأقل خطأ للتصنيف‪.‬‬
‫أنواع التحليل التمييزي‪:‬‬
‫هناك ثالث أنواع من التحليل التمييزي تتمثل في‪( :‬النويري‪)2013 :‬‬
‫المباشر ‪ :Direct discriminate analysis‬حيث تدخل المتغيرات إلى التحليل دفعة‬‫‪ -1‬التحليل التمييزي ُ‬
‫واحدة دون إعطاء أي أهمية ألي ُمتغير‪.‬‬
‫‪ -2‬التحليل التميزي الهرمي ‪ :Hierarchical discriminate analysis‬يتم فيها ادخال المتغيرات حسب‬
‫رؤية الباحث‪.‬‬

‫‪ -3‬التحليل التميزي المتدرج ‪ :Stepwise discriminate analysis‬يتم ادخال ُ‬


‫المتغيرات للتحليل حسب‬
‫المتغيرات إلى الدوال‬
‫المتغيرات إلى النموذج حيث يتم إضافة ُ‬
‫معيار إحصائي ُيحدد أولوية إدخال ُ‬
‫تمييز أفضل‪.‬‬
‫التميزية واحد تلو اآلخر حتى نجد أن إضافة ُمتغيرات ال ُيعطي ًا‬
‫أهداف التحليل التمييزي‪- :‬‬
‫ُهناك عدة أهداف للتحليل التمييزي أهمها‪- :‬‬
‫‪ -‬انشاء دوال تميزية للفصل أو التمييز بين فئات المتغير التابع‪.‬‬

‫‪305‬‬
‫تعمل هذه الدوال على تعظيم الفروق بين المجموعات (فئات المتغير التابع)‪.‬‬ ‫‪-‬‬
‫ترتيب المتغيرات التي تسهم بقدر كبير في التمييز أو توضيح االختالفات بين المجموعات (فئات‬ ‫‪-‬‬
‫المتغير التابع)‪.‬‬
‫تصنيف المشاهدات الجديدة وتوزيعها على المجموعات (فئات المتغير التابع)‪.‬‬ ‫‪-‬‬
‫الوصول إلى أقل نسبة خطأ للتوصيف – تقييم دقة التصنيف كنسبة مئوية‪.‬‬ ‫‪-‬‬
‫شروط التحليل التمييزي‪:‬‬

‫‪ -1‬عدم تساوي متوسطات المجموعات (فئات ُ‬


‫المتغير التابع)‪.‬‬
‫‪ -2‬تساوي مصفوفة التباين والتغاير بين المجموعتين‪.‬‬
‫‪ -3‬ان تكون المجموعات منفصلة وقابلة للتحديد‪.‬‬
‫طبيعيا‪.‬‬
‫ً‬ ‫يعا‬
‫‪ -4‬ان تتوزع المتغيرات التابعة والكمية توز ً‬
‫ائيا‪.‬‬
‫‪ -5‬العينة تختار عشو ً‬
‫‪ -6‬استقالل المشاهدات؛ أي عدم وجود ارتباط بين المتغيرات المستخدمة في الدراسة أو ما يعرف بمشكلة‬
‫‪Multicollinearity‬حيث كلما كان ُهناك ارتباط بين المتغيرات كلما كان هناك صعوبة في تفسير‬
‫نتائج تحليل التمايز وذلك صعوبة في تحديد المساهمة النسبية لكل متغير على حدة‪.‬‬
‫وتأثر بالقيم الشاذة ووجودها يبعد توزيع‬
‫‪ -7‬عدم وجود قيمة متطرفة حيث أن تحليل التمايز أكثر حساسية ًا‬
‫البيانات عن التوزيع الطبيعي‪.‬‬
‫الدالة التميزية ‪:Discriminate Function‬‬
‫تقوم الدالة التمييزية على فكرة أساسية وهي تقسيم األشخاص إلى مجموعتين ُهما (مصاب أو غير‬
‫المتغيرات أو العوامل وتعمل الدالة على زيادة درجة التجانس بين‬
‫ُمصاب) وذلك باالعتماد على مجموعة من ُ‬
‫مفردات المجموعة الواحدة وتقليل درجة التجانس بين المجموعتين وبالتالي تسهيل إمكانية تصنيف أي‬
‫المتغيرات التي ليس‬
‫ُمشاهدة جديدة إلى إحدى المجموعتين بأقل خطأ للتصنيف كما تعمل الدالة على استبعاد ُ‬
‫لها تأثير معنوي في التمييز والفصل بين المجموعتين‪.‬‬
‫ويتم حساب الدالة التمييزية كالتالي‪- :‬‬
‫في حالة تعدد المجموعات تتعدد الدوال التمييزية ولكننا سنقتصر على الدالة التمييزية بين مجموعتين فقط‪.‬‬
‫المتغيرات في كل مجموعة وإيجاد الفرق بين متوسط‪- :‬‬
‫أوالً‪ - :‬حساب متوسطات ُ‬
‫)‪𝑥̅1 (1‬‬
‫)‪𝑥̅2 (1‬‬
‫)‪𝑥̅𝑖 (1‬‬ ‫=‬ ‫⋮‬
‫⋮‬
‫] )‪[𝑥̅𝑘 (1‬‬
‫المتغيرات في المجموعة الثانية‪- :‬‬
‫متوسطات ُ‬

‫‪306‬‬
‫)‪𝑥̅1 (2‬‬
‫)‪𝑥̅2 (2‬‬
‫)‪𝑥̅𝑖 (2‬‬ ‫=‬ ‫⋮‬
‫⋮‬
‫] )‪[𝑥̅𝑘 (2‬‬
‫‪ k‬عدد المتغيرات المستقلة‬

‫الفرق بين متوسط المتغير في المجموعتين‪:‬‬


‫‪𝑥̅11 −‬‬ ‫‪𝑥̅12‬‬ ‫‪𝑑1‬‬
‫‪𝑥̅21 −‬‬ ‫‪𝑥̅22‬‬ ‫‪𝑑2‬‬
‫(المسافة)‬ ‫= )‪𝑑𝑖 = 𝑥̅𝑖 (1) − 𝑥̅𝑖 (2‬‬ ‫⋮‬ ‫⋮‬ ‫⋮ =‬
‫‪⋮ −‬‬ ‫⋮‬ ‫⋮‬
‫)‪[𝑥̅𝑘 (1‬‬ ‫] )‪𝑥̅ 𝑘 (2‬‬ ‫] 𝑘𝑑[‬
‫ثانيا‪ :‬إيجاد التباين والتغاير المشترك بين المجموعتين‪- :‬‬
‫ً‬
‫‪2‬‬
‫)𝑖𝑥 ∑(‬
‫‪𝑆𝑖𝑖 = ∑ 𝑥𝑖2 −‬‬
‫𝑛‬
‫𝑖𝑥 ∑ 𝑖𝑥 ∑‬
‫‪𝑆𝑖𝑗 = ∑ 𝑥𝑖 𝑥𝑗 −‬‬
‫𝑛‬
‫∴ التباين المشترك‬
‫)‪𝑆𝑖𝑖 + 𝑆𝑖𝑖 (2‬‬
‫= 𝑖𝑖𝑉‬
‫‪𝑛1 + 𝑛2 − 2‬‬
‫∴ التغاير المشترك‬
‫)‪𝑆𝑖𝑗 (1) + 𝑆𝑖𝑗 (2‬‬
‫= 𝑗𝑖𝑉‬
‫‪𝑛1 + 𝑛2 − 2‬‬
‫مصفوفة التباين والتغاير المشترك بين المجموعتين‪.‬‬
‫𝑘‪v11 v12 v13 … … …v1‬‬
‫𝑘‪v21 v22 v23 … … …v2‬‬
‫⋮ ⋮ ⋮ [ =‪v‬‬ ‫‪..‬‬ ‫] ⋮‬
‫‪v𝑘1 v𝑘2 v𝑘3‬‬ ‫…‬ ‫…‬ ‫…‬‫𝑘𝑘‪v‬‬
‫المشترك وباقي العناصر التغاير‬
‫وهي عبارة عن مصفوفة مربعة ومتماثلة والقطر الرئيسي لها ُيمثل التباين ُ‬
‫المشترك‪.‬‬
‫بناء الدالة التمييزية‪:‬‬
‫تأخذ الدالة التمييزية بمعامالت معيارية الشكل التالي‪:‬‬
‫∝ = ̂𝐿‬
‫‪̂ 1 𝑥1 + ∝2 𝑥2 +‬‬ ‫𝑘𝑥 𝑘∝‪+‬‬
‫حيث‬
‫=̂‬
‫∝‬ ‫‪v −1‬‬ ‫𝑑‬
‫‪-1‬‬
‫‪∝1‬‬ ‫‪v11 v12 ⋯⋯⋯ v1k‬‬ ‫‪𝑑1‬‬
‫‪∝2‬‬ ‫‪v21 v22 ⋯⋯⋯ v2k‬‬ ‫‪𝑑2‬‬
‫=] ⋮ [‬ ‫] ⋮ | | | ⋮ ⋮ [‬ ‫] [‬
‫⋮‬
‫𝑘∝‬ ‫𝑘𝑘‪v𝑘1 v𝑘2 ⋯⋯⋯v‬‬ ‫𝑘𝑑‬
‫حيث‬

‫‪307‬‬
‫∝ معامالت الدالة التمييزية المعيارية‪.‬‬
‫̂‬
‫‪ : v −1‬معكوس مصفوفة التباين والتغاير المشترك‪.‬‬
‫المتغيرات في كال المجموعتين‪.‬‬
‫𝑖𝑑 ‪ :‬مصفوفة المسافة بين متوسط ُ‬
‫(المتغيرات المستقلة)‪- :‬‬
‫األهمية النسبية للعوامل المؤثرة ُ‬
‫بعد قيام التحليل التمييزي بإنشاء وتكوين الدوال التمييزية تظهر له ميزة إضافية وهي تحديد‬
‫األهمية النسبية للمتغيرات المستقلة والمؤثرة في عملية التمييز والفصل بين المجموعات وترتيبها ويتم ذلك من‬
‫خالل استبعاد إشارات المعامالت المعيارية لدالة التمييز وصاحب أعلى قيمة هو األكثر أهمية أما عن نسبة‬
‫المساهمة في عملية التمييز تحدد من خالل ُمعامل االرتباط القانوني ”‪“Canonical correlation‬‬ ‫ُ‬
‫اختبارات الدالة التمييزية‪:‬‬
‫الختبار قدرة الدالة على التمييز والفصل بين المجموعات تستخدم االختبارات اآلتية‪- :‬‬
‫)‪(F test‬‬ ‫‪ -1‬اختبار ‪F‬‬
‫وذلك الختبار قدرة الدالة على التمييز وعن طريق الفرضية التي تنص على ان الدالة ليس لديها‬
‫القدرة على التمييز )‪ (H0‬ضد الدالة لديها القدرة على التمييز )‪ (H1‬ويعتمد هذا االختبار على قياس‬
‫االختالفات بين المجموعات وداخل المجموعات بين المفردات ويتم ذلك من خالل تكوين جدول تحليل التباين‬
‫التالي‪- :‬‬
‫‪Source‬‬ ‫‪SS‬‬ ‫‪Df‬‬ ‫𝒔𝐌‬ ‫‪F‬‬
‫بين المجموعات‬
‫‪SSB‬‬ ‫‪k-1‬‬ ‫𝐵𝑆‪M‬‬ ‫𝐵𝑆‪M‬‬
‫‪Between x’s‬‬
‫الخطأ‬
‫‪SSE‬‬ ‫‪n-k‬‬ ‫𝐸𝑆‪M‬‬ ‫𝐸𝑆‪M‬‬
‫‪Within x’s‬‬
‫الكلي‬
‫‪SST‬‬ ‫‪n-1‬‬
‫‪Total‬‬

‫حيث ان‪- :‬‬


‫‪ -1‬مجموع مربعات األخطاء يحسب كالتالي‪- :‬‬
‫∝ = ‪SSE = D2‬‬
‫∝ ‪̂ 1 𝑑1 +‬‬
‫∝‪̂ 2 𝑑2 + ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ +‬‬
‫𝑘𝑑 𝑘 ̂‬

‫‪ -2‬مجموع مربعات بين المتغيرات‪- :‬‬


‫‪𝑛1 𝑛2‬‬
‫= 𝐵𝑆𝑆‬ ‫‪× (𝐷2 )2‬‬
‫)‪(𝑛1 + 𝑛2 )(𝑛1 + 𝑛2 − 2‬‬
‫‪ -3‬مجموع مربعات الكلى‪- :‬‬
‫‪SST = SSB + SSE‬‬

‫‪308‬‬
‫ويتم االختيار كالتالي‪:‬‬
‫‪ -1‬صياغة الفروض‪:‬‬
‫‪𝐻0‬‬ ‫الدالة ليس لها قدرة على التمييز‪:‬‬
‫الدالة لها القدرة على التمييز‪𝐻1 :‬‬
‫‪ -2‬القيمة المحسوبة‪:‬‬
‫𝐵𝑆𝑀‬
‫=𝐹‬
‫𝐸𝑆𝑀‬
‫‪ -3‬القيمة الجدولية‪:‬‬
‫)𝑘 ‪𝐹 (𝑘 − 1, 𝑛 −‬‬

‫‪ -4‬القرار‪:‬‬
‫إذا كانت ‪ F‬المحسوبة أكبر من ‪ F‬الجدولية نرفض الفرض العدمي ونقبل بالفرض البديل ويكون‬
‫للدالة قدرة عالية على التمييز والعكس صحيح‪.‬‬
‫‪ -2‬اختبار ويلكس لمدا )‪:Wil’ks Lambda (A‬‬
‫تأخذ الفروض الشكل اآلتي‪:‬‬
‫الدالة ليس لها مقدرة على التمييز‬
‫‪𝐻0 : 𝜇1 = 𝜇2‬‬
‫‪𝐻1 : 𝜇1 ≠ 𝜇2‬‬ ‫الدالة لها القدرة على التمييز‬

‫القيمة المحسوبة‬
‫𝑘‬
‫‪1‬‬
‫‪Λ = ∏.‬‬
‫𝑖⋋‪1+‬‬
‫‪𝑖=1‬‬
‫المتغيرات‪.‬‬
‫𝑖⋋ الجذر الكامن )‪ (eigenvalues‬لكل ُ‬
‫المتغيرات‬
‫‪ k‬عدد ُ‬
‫القرار‪ :‬تنحصر قيمة‬
‫‪𝑜 ≤Λ≤1‬‬
‫إذا كان‬
‫‪ Λ = 1‬معناها تساوي متوسطات المجموعتين وبالتالي عدم مقدره الدالة على التمييز والفصل‪.‬‬
‫‪ Λ = 0‬معناها عدم تساوي متوسطات المجموعتين والدالة لها القدرة عالية على التمييز‪.‬‬

‫‪309‬‬
‫إذا اقتربت قيمة ‪ Λ‬من الواحد دليل على عدم مقدرة الدالة على التمييز وإذا اقتربت من الصفر دليل على قدرة‬
‫الدالة على التمييز‪.‬‬
‫وتستخدم إحصائية "ويلكس لمدا" الختبار معنوية المتغيرات الداخلة في النموذج حيث يتم اإلبقاء على‬
‫المتغيرات لها أدنى قيمة إلحصائية ‪ Wilk’s Lambda‬وأعلى قيمة لـ ‪.F‬‬
‫ُ‬
‫‪ -3‬اختبار هوتلنج )‪Hotelling – Lawely test (T2‬‬
‫إحصاء هوتلنج تأخذ الشكل اآلتي‪- :‬‬
‫𝑠‬

‫𝑖⋋∑ = ‪𝑇 2‬‬
‫‪𝑖=1‬‬

‫حيث ان‬
‫للمتَغيرات‬
‫‪⋋𝑖 eigenvalues :‬الجذور المميزة ُ‬
‫‪ : s‬عدد المتغيرات‬
‫وتعادل إحصائية هوتلنج قيمة ‪ F‬من جدول تحليل التباين ويمكن تحويله إلى قيمة لها توزيع ‪ F‬تقريبي‬
‫صيغته كالتالي‪:‬‬
‫‪𝑛1 + 𝑛2 − 𝑘 − 1‬‬
‫=𝐹‬ ‫‪∗ 𝑇2‬‬
‫𝑘)‪(𝑛1 + 𝑛2 − 2‬‬
‫والقيمة الجدولية‪:‬‬
‫)‪𝐹∝ (𝑘 − 1, 𝑛1 + 𝑛2 − 𝑘 − 1‬‬
‫إذا كانت ‪ F‬المحسوبة أكبر من ‪ F‬الجدولية رفض الفرض العدمي وقبول البديل بإن للدالة قدرة عالية على‬
‫التمييز‪.‬‬
‫نقطة الفصل (القطع) ‪:Cut Of Point‬‬
‫بعد تكوين الدالة التمييزية واختبار قدرتها على التمييز والفصل بين المجموعتين يبدأ االستخدام‬
‫الثاني لها وهو كيفية تصنيف المشاهدة الجديدة إلى أي المجموعتين تنتمي ويتم ذلك من خالل الخطوات‬
‫اآلتية‪- :‬‬
‫‪ -1‬تحديد نقطة الفصل وهي تمثل متوسط المتوسطين‪:‬‬
‫)‪𝐿̅(1) + 𝐿̅(2‬‬
‫= ̿𝐿‬
‫‪2‬‬
‫حيث ان‬
‫̿𝐿 ‪ :‬نقطة الفصل‪.‬‬
‫)‪ 𝐿̅(1‬متوسط القيم التمييزية للمجموعة األولى‪.‬‬
‫)‪ 𝐿̅(2‬متوسط القيم التمييزية للمجموعة الثانية‪.‬‬
‫قاعدة التصنيف ‪:Classification Role‬‬

‫‪310‬‬
‫من خالل هذه القاعدة ُيمكن تصنيف أو التنبؤ بانتماء مفردة جديدة إلحدى المجموعتين بأقل خطأ‬
‫تصنيف على النحو التالي‪:‬‬
‫‪ )1‬إذا كان )‪𝐿̅(1) > 𝐿̅(2‬‬
‫وإذا كانت القيمة التمييزية للمفردة الجديدة أكبر من نقطة الفصل تصنف ضمن المجموعة األولى‬
‫وإذا كانت القيمة التمييزية للمفردة الجديدة أقل من نقطة الفصل تصنف ضمن المجموعة الثانية وإذا ساوت‬
‫ائيا ضمن أي مجموعة من المجموعتين‪.‬‬
‫نقطة الفصل تصنف عشو ً‬
‫‪ )2‬إذا كان )‪𝐿̅(1) < 𝐿̅(2‬‬
‫وإذا كانت القيمة التمييزية للمفردة الجديدة أعلى من نقطة الفصل تصنف ضمن المجموع الثانية‬
‫ائيا ضمن أي مجموعة في‬
‫وإذا كانت أقل تصنف ضمن المجموعة األولى وإذا تساوت معها تصنف عشو ً‬
‫المجموعتين‪.‬‬
‫أخطاء التصنيف‪:‬‬
‫يقصد بأخطاء التصنيف وضع المفردة في مجموعة غير مناسبة لها أي وضع مفردة في مجموعة ما ولكن‬
‫هي تنتمي لمجموعة أخرى ويعتبر خطأ التصنيف عامل ُمهم عند الحكم على كفاءة الدالة التمييزية‪.‬‬
‫هناك نوعان من أخطاء التصنيف ُهما‪:‬‬
‫‪ -1‬خطأ التصنيف الظاهري‪.‬‬
‫ويحسب من جدول التصنيف التالي‪.‬‬
‫المجموعة‬ ‫تابع المجموعة األولى (‪)1‬‬ ‫تابع المجموعة الثانية (‪)2‬‬ ‫مجموع‬
‫األولى (‪)1‬‬ ‫‪𝑛11‬‬ ‫‪𝑛12‬‬ ‫‪𝑛1‬‬
‫الثانية (‪)2‬‬ ‫‪𝑛21‬‬ ‫‪𝑛22‬‬ ‫‪𝑛2‬‬

‫‪ : n11‬عدد المفردات من المجموعة األولى والتي تم تصنيفها في نفس المجموعة وبالتالي هي صنفت بطريقة‬
‫صحيحة‪.‬‬
‫‪ :n12‬عدد المفردات من المجموعة األولى والتي تم تصنيفها خطأ في المجموعة الثانية‪.‬‬
‫‪ :n21‬عدد المفردات التي تنتمي باألصل إلى المجموعة الثانية وتم تصنيفها خطأ في المجموعة األولى‪.‬‬
‫‪ : n22‬عدد المفردات في المجموعة الثانية التي تم تصنيفها في نفس المجموعة وبالتاي هي صنفت بطريقة‬
‫صحيحة‪.‬‬
‫ويحسب الخطأ الظاهري كما يلي‪:‬‬
‫ُ‬
‫‪𝑛12‬‬
‫‪𝑃12‬‬ ‫=‬
‫‪𝑛1‬‬
‫‪ P12‬نسبة المفردات التي تنتمي للمجموعة األولى وصنفت خطأ للثانية‪.‬‬
‫‪𝑛21‬‬
‫= ‪𝑃21‬‬
‫‪𝑛2‬‬

‫‪ P21‬نسبة المفردات التي تنتمي للمجموعة الثانية وصنفت خطأ في األولى‪ .‬ويمكن حساب معدل الخطأ‬
‫الظاهري باستخدام المعادلة‬

‫‪311‬‬
‫‪𝑛12 + 𝑛21‬‬
‫‪𝑛1 + 𝑛2‬‬
‫‪ -2‬الخطأ الحقيقي‪ :‬يمثل نسبة التصنيف الخاطئ في المجتمع‪:‬‬
‫‪− √𝐷2‬‬
‫[ 𝐹 = ‪𝑃12 = 𝑃21‬‬ ‫]‬
‫‪2‬‬
‫حيث ‪ F‬دالة التوزيع الطبيعي المعياري‪ D ،‬إحصائية ‪ .Mahalnobis‬تحسب القيمة بين القوسين‬
‫ويحسب االحتمال المقابل لها من جدول التوزيع الطبيعي المعياري وكلما اقترب االحتمال من الصفر دل‬
‫على صنف وانخفاض خطأ التوصيف وبالتالي قدرة الدالة على التمييز والتصنيف اما إذا كان االحتمال قريب‬
‫من الواحد يدل على ارتفاع خطأ التوصيف وانخفاض قدره الدالة على التمييز والتصنيف‪.‬‬
‫الدالة التمييزية بمعامالت غير معيارية‪- :‬‬
‫تأخذ الشكل التالي‪:‬‬
‫𝑘𝑥 𝑘𝑏 ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ⋯ ‪𝑦 = 𝑏𝑜 + 𝑏1 𝑥1 + 𝑏2 𝑥2‬‬
‫‪ :y‬الدالة التمييزية غير المعيارية‪.‬‬
‫‪ :bo‬ثابت التمايز‪.‬‬
‫‪ :bn’s‬معامالت التمييز غير المعيارية‪.‬‬
‫‪ :xn’s‬المتغيرات غير المعيارية‪.‬‬
‫‪Canonical‬‬ ‫وللحكم على جودة النموذج التمييزي من خالل ُمعامل االرتباط القانوني‬
‫‪ correlation‬حيث ان القيم المرتفعة لمعامل االرتباط القانوني تكون مؤشر لجودة التوفيق العالي للنموذج‬
‫التمييزي وبتربيع قيمة ُمعامل االرتباط القانوني تحصل على قيمة معامل التحديد ”‪ “R2‬الذي يحدد نسبة‬
‫المتغيرات المستقلة في التمييز والتصنيف‪.‬‬
‫ُمساهمة ُ‬

‫‪312‬‬
‫المبحث الثاني‬
‫الجانب التطبيقي‬
‫تمهيد‪:‬‬
‫بالرغم من الدور الذي يلعبه التحليل احادي المتغير أو ثنائي المتغير في تفسير وتحليل كثير من الظواهر‬
‫المتغيرات فالبد من اللجوء إلى التحليل‬
‫أنه عندما يتعلق األمر بعدد كبير من ُ‬
‫االقتصادية واالجتماعية والطبية إال ُ‬
‫ُمتعدد المتغيرات ومن أهم أساليب التحليل متعدد المتغيرات والشائع استخدامه في المجاالت الطبية هو أسلوب التحليل‬
‫(مصاب أو غير ُمصاب)‬ ‫ي‬
‫التمييز والذي يقوم بدوره بالتمييز وفصل األشخاص إلى مجموعتين رئيسيتين ُهما أما ُ‬
‫بمرض السكري وذلك على عينة من ‪ 350‬شخص منهم ‪ 168‬مصاب و‪ 182‬غر مصاب بهدف الوصول إلى دالة‬
‫بناء على فرضيات معينة‪.‬‬
‫تمييزية من خاللها يتم تصنيف األشخاص أو المشاهدات الجديدة على احدى المجموعتين ً‬
‫‪ُ -1‬متغيرات البحث‪:‬‬
‫ومصاب (‪ )1‬ومجموعة‬
‫تتمثل ُمتغيرات البحث في ُمتغير تابع نوعي ثنائي القيمة )‪ (y‬غير ُمصاب (‪ُ )0‬‬
‫(المتغيرات المستقلة) وهي‪.‬‬
‫من العوامل المؤثرة ُ‬
‫‪ .1‬الوراثة ) 𝟏𝒙(تأخذ (‪ 0‬ال يوجد‪ 1 ،‬يوجد)‪.‬‬
‫‪ .2‬الوزن‪(𝒙𝟐 ).‬‬
‫‪ .3‬ضغط الدم ) 𝟑𝒙( تأخذ (‪ 0‬طبيعي‪ُ 1 ،‬مرتفع)‪.‬‬
‫العمر) 𝟒𝒙( ‪.‬‬
‫ُ‬ ‫‪.4‬‬
‫‪ .5‬النوع ) 𝟓𝒙( تأخذ (‪ 0‬أنثى‪ 1 ،‬ذكر)‪.‬‬
‫‪ .6‬التدخين ) 𝟔𝒙( تأخذ (‪ 0‬ال ُيدخن‪ُ 1 ،‬مدخن)‪.‬‬
‫‪ .7‬ممارسة الرياضة ) 𝟕𝒙( تأخذ (‪ 0‬ال ُيمارس‪ُ ،‬يمارس رياضة)‪.‬‬
‫‪ .8‬مرض الُنقرس ) 𝟖𝒙( تأخذ (‪ 0‬ال يوجد‪ 1 ،‬يوجد)‪.‬‬
‫‪ .9‬الكوليسترول ) 𝟗𝒙( تأخذ (‪ 0‬ال يوجد‪ 1 ،‬يوجد)‪.‬‬
‫‪ .10‬الحالة االجتماعية ) 𝟎𝟏𝒙( تأخذ (‪ 0‬أعزب‪ 1 ،‬متزوج)‪.‬‬
‫‪ .11‬أمراض القلب والكلى) 𝟏𝟏𝒙( تأخذ (‪ 0‬ال يوجد‪ 1 ،‬يوجد)‪.‬‬
‫والستخدام تحليل التمييزي مجموعة من االفتراضات البد من توافرها وهي‪:‬‬
‫‪ -1‬اختبار التوزيع الطبيعي للبيانات‪- :‬‬
‫نظر ان حجم العينة يزيد عن ‪ُ 30‬مفردة طبًقا لنظرية النهاية المركزية فإن البيانات تتبع‬‫ًا‬
‫التوزيع الطبيعي وال داعي إلجراء اختبار الطبيعية‪.‬‬
‫‪ -2‬اختبار تساوي متوسطي المجموعتين‪.‬‬
‫بالنظر إلى الجدول رقم (‪ )1‬التالي‪:‬‬

‫‪313‬‬
‫المجموعة‬
‫‪Sig‬‬ ‫الثاني (غير المصابين) (‪)1‬‬ ‫األولى (المصابين) (‪)1‬‬ ‫المتغير‬
‫المتوسط‬ ‫المتوسط‬
‫‪000‬‬ ‫‪0.3352‬‬ ‫‪0.7381‬‬ ‫𝟏𝒙‬
‫‪000‬‬ ‫‪73.7692‬‬ ‫‪100.3274‬‬ ‫𝟐𝒙‬
‫‪000‬‬ ‫‪0.3187‬‬ ‫‪0.7202‬‬ ‫𝟑𝒙‬
‫‪000‬‬ ‫‪38.2363‬‬ ‫‪48.333‬‬ ‫𝟒𝒙‬
‫‪0.014‬‬ ‫‪0.5385‬‬ ‫‪0.6667‬‬ ‫𝟓𝒙‬
‫‪000‬‬ ‫‪0.6154‬‬ ‫‪0.3512‬‬ ‫𝟔𝒙‬
‫‪000‬‬ ‫‪0.6044‬‬ ‫‪0.3512‬‬ ‫𝟕𝒙‬
‫‪0.891‬‬ ‫‪0.5549‬‬ ‫‪0.5476‬‬ ‫𝟖𝒙‬
‫‪000‬‬ ‫‪0.4121‬‬ ‫‪0.7143‬‬ ‫𝟗𝒙‬
‫‪0.011‬‬ ‫‪0.6099‬‬ ‫‪0.7381‬‬ ‫𝟎𝟏𝒙‬
‫‪000‬‬ ‫‪0.2802‬‬ ‫‪0.5179‬‬ ‫𝟏𝟏𝒙‬

‫المالحظ من خالل جدول (‪ )1‬ان قيمة ‪ Sig‬أقل من ‪ 0.05‬وبالتالي معنوية الفرق بين‬‫من ُ‬
‫المتغير الثامن‪.‬‬
‫المتغير التابع فيما عدا ُ‬
‫متوسطي كل متغير في المجموعتين أو خالل فئات ُ‬
‫كما ُنالحظ أن المتوسطات األعلى في المجموعة األولى للمصابين في كالً من ‪،x4 ،x2‬‬
‫العمر والوراثة والكوليسترول وضغط الدم وذلك أمر بديهي فإن المصابين‬ ‫وهما (الوزن و ُ‬
‫‪ُ x3 ،x9 ،x1‬‬
‫بمرض السكري نسبة الضغط العالي والوزن الزائد و ُ‬
‫العمر المتقدم أما المتوسطات األعلى في المجموعة‬

‫الثانية وهي مجموعة غير المصابين تتمثل في ‪.x6 ،x4 ،x2‬‬


‫ومن خالل إحصائية ويلكس المدا ‪ Wilks's lambda distribution‬التالي‪:‬‬
‫‪Wilks' Lambda‬‬

‫)‪Test of Function(s‬‬ ‫‪Wilks' Lambda‬‬ ‫‪Chi-square‬‬ ‫‪Df‬‬ ‫‪Sig.‬‬

‫‪1‬‬ ‫‪.365‬‬ ‫‪346.661‬‬ ‫‪8‬‬ ‫‪.000‬‬

‫حيث ان الفروض تصاغ‪:‬‬


‫‪𝐻0 𝜇1 = 𝜇2‬‬
‫‪𝐻1 𝜇1 ≠ 𝜇2‬‬
‫حيث ‪ (000) Sig‬أقل من ‪ 0.05‬رفض الفرض العدمي وقبول الفرض البديل وبالتالي هناك اختالف بين‬
‫متوسطي المجموعتين كما ان إحصاء ويكلس المدا تساوي ‪ 0.365‬وهي تقترب من الصفر دليل على وجود اختالف‬
‫بين متوسطي المجموعتين وهذا يعني أن الدالة التميزية لديها القدرة على التمييز وتصنيف المشاهدات إلى مجتمعها‬
‫الحقيقي‪.‬‬
‫‪ -3‬اختبار فرضية تجانس التباين بين المجموعتين‪:‬‬
‫حيث تصاغ الفروض اإلحصائية كالتالي‪:‬‬
‫‪𝐻0 Σ1 = Σ2‬‬
‫‪𝐻1 Σ1 ≠ Σ2‬‬

‫‪314‬‬
‫وباستخدام اختبار ‪Box’s M‬كانت النتائج كالتالي‪:‬‬
‫‪Log Determinants‬‬
‫‪Y‬‬ ‫‪Rank‬‬ ‫‪Log Determinant‬‬
‫‪N‬‬ ‫‪8‬‬ ‫‪1.230‬‬
‫‪Y‬‬ ‫‪8‬‬ ‫‪.976‬‬
‫‪Pooled within-groups‬‬ ‫‪8‬‬ ‫‪1.244‬‬

‫‪Test Results‬‬
‫‪Box's M‬‬ ‫‪47.341‬‬
‫‪F‬‬ ‫‪Approx.‬‬ ‫‪1.283‬‬

‫‪df1‬‬ ‫‪36‬‬

‫‪df2‬‬ ‫‪402161.071‬‬

‫‪Sig.‬‬ ‫‪0.119‬‬

‫ومن المالحظ أن قيمة )‪ Sig (0.119‬أكبر من ‪ 0.05‬وبالتالي قبول الفرض العدمي بتساوي مصفوفة‬
‫التباين والتغاير للمجموعتين وبالتالي تحقق افتراض تجانس التباين بين المجموعتين‪.‬‬
‫(المتغيرات المستقلة) في النموذج التمييزي‪:‬‬
‫‪ -4‬اختبار معنوية العوامل المؤثرة ُ‬
‫تم اختبار معنوية جميع العوامل المؤثرة في النموذج التمييزي لمعرفة أهمية كل ُمتغير ومدى إسهامه في عملية التمييز‬
‫‪Tests of Equality Group of Means‬‬ ‫والتصنيف وكانت كالتالي‬
‫‪Wilks' Lambda‬‬ ‫‪F‬‬ ‫‪df1‬‬ ‫‪df2‬‬ ‫‪Sig.‬‬

‫‪x1‬‬ ‫‪.857‬‬ ‫‪58.046‬‬ ‫‪1‬‬ ‫‪348‬‬ ‫‪.000‬‬


‫‪x2‬‬ ‫‪.477‬‬ ‫‪381.840‬‬ ‫‪1‬‬ ‫‪348‬‬ ‫‪.000‬‬
‫‪x3‬‬ ‫‪.839‬‬ ‫‪66.816‬‬ ‫‪1‬‬ ‫‪348‬‬ ‫‪.000‬‬
‫‪x4‬‬ ‫‪.873‬‬ ‫‪50.479‬‬ ‫‪1‬‬ ‫‪348‬‬ ‫‪.000‬‬
‫‪x5‬‬ ‫‪.983‬‬ ‫‪6.052‬‬ ‫‪1‬‬ ‫‪348‬‬ ‫‪.014‬‬
‫‪x6‬‬ ‫‪.930‬‬ ‫‪26.082‬‬ ‫‪1‬‬ ‫‪348‬‬ ‫‪.000‬‬
‫‪x7‬‬ ‫‪.936‬‬ ‫‪23.829‬‬ ‫‪1‬‬ ‫‪348‬‬ ‫‪.000‬‬
‫‪x8‬‬ ‫‪1.000‬‬ ‫‪.019‬‬ ‫‪1‬‬ ‫‪348‬‬ ‫‪.891‬‬
‫‪x9‬‬ ‫‪.908‬‬ ‫‪35.422‬‬ ‫‪1‬‬ ‫‪348‬‬ ‫‪.000‬‬
‫‪x10‬‬ ‫‪.981‬‬ ‫‪6.594‬‬ ‫‪1‬‬ ‫‪348‬‬ ‫‪.011‬‬
‫‪x11‬‬ ‫‪.941‬‬ ‫‪21.827‬‬ ‫‪1‬‬ ‫‪348‬‬ ‫‪.000‬‬

‫المتغيرات تتمتع بمعنوية عالية حيث ان )‪ Sig (000‬أقل من‬ ‫المالحظ أن جميع ُ‬ ‫ومن ُ‬
‫)‪ (0.05‬لجميع المتغيرات ماعدا المتغير الثامن وذلك يدل على المتغيرات لها تأثير معنوي كبير في‬
‫عملية التمييز بين المجموعتين ومن ثم توصلنا إلى النموذج التحليل التميزي مناسب لبيانات مرضى‬
‫السكري‪.‬‬
‫‪ )1‬تكوين الدالة التمييزية‪:‬‬

‫‪315‬‬
‫المتغيرات الداخلة في تكوين الدالة التمييزية حيث ان‬
‫ال ُ‬‫إلنشاء الدالة التمييزية تحدد أو ً‬
‫المتغيرات في نموذج التمييز يفيد في قياس المتغيرات ذات العالقة المعنوية وذات‬
‫اختزال عدد ُ‬
‫الصلة األكبر بالموضوع محل الدراسة وللتعرف على المتغيرات ذات القوة التمييزية المعنوية والتي‬
‫وهناك عدة معايير إحصائية لإلدخال والحذف وهي‬
‫تغطي أقل خطأ تصنيف )‪ُ .(James, 1985‬‬
‫اإلبقاء على التمييز صاحب القيمة األكبر لـ ‪ F‬وأقل قيمة إلحصائية ويلكس المدا ‪Wilks’s‬‬
‫‪lambda‬كما في الجدول اآلتي‪:‬‬
‫‪a,b,c,d‬‬
‫‪Variables Entered/Removed‬‬
‫‪Wilks' Lambda‬‬
‫‪Exact F‬‬
‫‪Step‬‬ ‫‪Entered‬‬ ‫‪Statistic‬‬ ‫‪df1‬‬ ‫‪df2‬‬ ‫‪df3‬‬ ‫‪Statistic‬‬ ‫‪df1‬‬ ‫‪df2‬‬ ‫‪Sig.‬‬
‫‪1‬‬ ‫‪x2‬‬ ‫‪.477‬‬ ‫‪1‬‬ ‫‪1‬‬ ‫‪348.000‬‬ ‫‪381.840‬‬ ‫‪1‬‬ ‫‪348.000‬‬ ‫‪.000‬‬
‫‪2‬‬ ‫‪x4‬‬ ‫‪.441‬‬ ‫‪2‬‬ ‫‪1‬‬ ‫‪348.000‬‬ ‫‪219.946‬‬ ‫‪2‬‬ ‫‪347.000‬‬ ‫‪.000‬‬
‫‪3‬‬ ‫‪x3‬‬ ‫‪.417‬‬ ‫‪3‬‬ ‫‪1‬‬ ‫‪348.000‬‬ ‫‪160.993‬‬ ‫‪3‬‬ ‫‪346.000‬‬ ‫‪.000‬‬
‫‪4‬‬ ‫‪x1‬‬ ‫‪.400‬‬ ‫‪4‬‬ ‫‪1‬‬ ‫‪348.000‬‬ ‫‪129.221‬‬ ‫‪4‬‬ ‫‪345.000‬‬ ‫‪.000‬‬
‫‪5‬‬ ‫‪x7‬‬ ‫‪.390‬‬ ‫‪5‬‬ ‫‪1‬‬ ‫‪348.000‬‬ ‫‪107.676‬‬ ‫‪5‬‬ ‫‪344.000‬‬ ‫‪.000‬‬
‫‪6‬‬ ‫‪x5‬‬ ‫‪.380‬‬ ‫‪6‬‬ ‫‪1‬‬ ‫‪348.000‬‬ ‫‪93.114‬‬ ‫‪6‬‬ ‫‪343.000‬‬ ‫‪.000‬‬
‫‪7‬‬ ‫‪x6‬‬ ‫‪.370‬‬ ‫‪7‬‬ ‫‪1‬‬ ‫‪348.000‬‬ ‫‪83.038‬‬ ‫‪7‬‬ ‫‪342.000‬‬ ‫‪.000‬‬
‫‪8‬‬ ‫‪x9‬‬ ‫‪.365‬‬ ‫‪8‬‬ ‫‪1‬‬ ‫‪348.000‬‬ ‫‪74.142‬‬ ‫‪8‬‬ ‫‪341.000‬‬ ‫‪.000‬‬

‫المصدر‪SPSS V23 :‬‬


‫ونالحظ من الجدول أنه تم استبعاد ثالثة ُمتغيرات وتم اإلبقاء على ثمان ُمتغيرات التي لها قدرة‬
‫ُ‬

‫أعلى في التمييز والفصل بين المجموعتين المصابين وغير المصابين والتي لها اعلى قيمة ‪ F‬وأقل قيمة‬

‫بناء على االختيار التدريجي على ‪ 8‬خطوات وبالتالي المتغيرات الداخلة‬


‫‪ Wilks's lambda‬وتم االختيار ً‬

‫للنموذج هي ‪.x9 ،x6 ،x5 ،x7 ،x1 ،x3 ،x4 ،x2‬‬

‫إيجاد الدالة التمييزية‪- :‬‬


‫المتغيرات في كال المجموعتين‪.‬‬
‫أوالً‪ :‬من جدول رقم (‪ )1‬تم إيجاد متوسطات ُ‬

‫ثانيا‪ :‬إيجاد الفرق بين متوسط كل ُمتغير في كال المجموعتين‪.‬‬


‫ً‬
‫‪𝑥̅11 .− 𝑥̅12‬‬ ‫‪𝑑1‬‬
‫‪𝑥̅21 .− 𝑥̅22‬‬ ‫‪𝑑2‬‬
‫)‪𝑑 = 𝑥̅𝑖 (1) − 𝑥̅𝑖 (2‬‬ ‫=] ‪= [ 0 ⋮ 0‬‬ ‫[‬ ‫]‬
‫|‬
‫)‪𝑥̅9 (1) _ 𝑥̅9 (2‬‬ ‫‪𝑑9‬‬

‫ثال ًثا‪ :‬مصفوفة التباين والتغاير بين المجموعتين‪.‬‬

‫‪316‬‬
‫‪0‬‬ ‫‪𝑥1‬‬ ‫‪𝑥2‬‬ ‫‪𝑥3‬‬ ‫‪𝑥4‬‬ ‫‪𝑥5‬‬ ‫‪𝑥6‬‬ ‫‪𝑥7‬‬ ‫‪𝑥9‬‬
‫‪𝑥1 0.284 2.969‬‬ ‫‪0.50 1.446 0.049 0 − 0.41 −0.41 0.57‬‬
‫‪𝑥2 2.969 337.465 3.136 62.014 0.293 0 − 1.640−1.528 2.410‬‬
‫‪𝑥3 0.050 3.136 0.251 0.960 −.007 −.047 −.024 0.035‬‬
‫‪V = 𝑥4 1.446 62.014 201.452 201.45 −.348 −1.571 −.814 0.916‬‬
‫‪𝑥5 0.049 0.293 −.007 −.348 0.241 0.053 −.013 −.014‬‬
‫‪𝑥6 −.041 −1.640 −.047 −1.571 0.053 0.251 0.016 −.041‬‬
‫‪𝑥7 −.041 −1.528 −.024 −.814 −.013 0.016 0.250 −.035‬‬
‫] ‪𝑥9 [ 0.057 2.410 0.035 0.914 −.014 −.041 −.035 0.247‬‬

‫وبذلك الدالة التمييزية بمعامالت معيارية‪- :‬‬


‫∝ ‪̂ 1 𝑥1 +‬‬
‫∝= 𝐿‬ ‫∝‪̂ 2 𝑥2 +‬‬
‫‪̂ 3 𝑥3 +‬‬ ‫‪̂ 9 𝑥9‬‬
‫∝‪+‬‬

‫حيث ان‬

‫𝑑 ‪̂ = 𝑣1‬‬
‫∝‬
‫‪0.160‬‬
‫‪0.797‬‬
‫‪0.267‬‬
‫‪∝− 0.295‬‬
‫̂‬
‫‪0.268‬‬
‫‪−0.203‬‬
‫‪−0.187‬‬
‫] ‪[ 0.154‬‬

‫‪L̂ = 0.160 𝑥1 + 0.797 𝑥2 + 0.267 𝑥3 + 0.295 𝑥4 + 0.268 𝑥5 − 0.203 𝑥6 0.187 𝑥7 +‬‬

‫‪0.154 𝑥9‬‬
‫ولتحديد األهمية النسبية للعوامل المؤثرة ونسبة المساهمة في التمييز والتنبؤ في النموذج التمييزي‪:‬‬

‫لتحديد أكثر العوامل أثر على مستوى اإلصابة ُ‬


‫ومساهمة العامل في التمييز والتصنيف مكان كالتالي‪:‬‬
‫(معامل االرتباط القانوني التمييزي)‬
‫األهمية النسبية ُ‬ ‫المعامل‬
‫ُ‬ ‫المتغير‬
‫ُ‬
‫‪0.794‬‬ ‫‪0.797‬‬ ‫‪x2‬‬
‫‪0.289‬‬ ‫‪0.295‬‬ ‫‪x4‬‬
‫‪0.10‬‬ ‫‪0.268‬‬ ‫‪x5‬‬
‫‪0.332‬‬ ‫‪0.267‬‬ ‫‪x3‬‬
‫‪-0.208‬‬ ‫‪-0.203‬‬ ‫‪x6‬‬
‫‪-0.198‬‬ ‫‪-0.187‬‬ ‫‪x7‬‬
‫‪0.310‬‬ ‫‪0.16‬‬ ‫‪x1‬‬
‫‪0.242‬‬ ‫‪0.154‬‬ ‫‪x9‬‬

‫ولمعرفة أهم العوامل المؤثرة تنظر لعمود المعامالت المعيارية ) 𝑖∝(حيث انه القيمة‬
‫المطلقة الكبيرة يقابلها العامل األكثر أهمية في التأثير على اإلصابة وتكون هذه األهمية موجبة أو‬
‫سالب‪.‬‬

‫المتغيرات أهمية )‪ (x2‬الوزن ثم )‪ُ (x4‬‬


‫العمر ثم )‪ (x5‬النوع ثم )‪(x3‬‬ ‫ُنالحظ أن أكثر ُ‬
‫ضغط الدم ثم )‪ (x6‬التدخين ثُم )‪ (x9‬ممارسة رياضة ثم )‪ (x1‬الوراثة ثم )‪ (x9‬الكوليسترول‪.‬‬

‫‪317‬‬
‫أما األهمية النسبية فإن )‪ (x2‬الوزن يساهم بنسبة أكبر في عملية تمييز المجموعتين‬
‫العمر ‪ %28.9‬وكوليسترول ‪ %24.2‬والتدخين‬
‫‪ %79.4‬يليه ضغط الدم ‪ %33.2‬والوراثة ‪ُ %31‬‬
‫أخير النوع ‪.%10‬‬
‫‪ %20.8‬وممارسة الرياضية ‪ %19.8‬و ًا‬
‫والختبار قدرة الدالة على التمييز‪:‬‬
‫‪ )1‬باستخدام جدول تحليل التباين واختبار ‪.F‬‬
‫ومن خالل الفروض اآلتية‪:‬‬ ‫‪‬‬
‫الدالة ليس لها قدرة على التمييز ‪H0‬‬
‫الدالة لها القدرة على التمييز ‪H1‬‬
‫إيجاد قيمة مجموع ُمربعات األخطاء (داخل المجموعات)‪.‬‬ ‫‪‬‬
‫‪SSE = D2 = ∝1 𝑑1 + ∝2 𝑑2 + ∝3 𝑑3 +∝4 𝑑4 + ∝5 𝑑5 + ∝6 𝑑6 + ∝7 𝑑7 + ∝9 𝑑9‬‬

‫]‪= [0.160 0.797 0.267 0.295 0.268 − 0.203 − 0187 0.154‬‬ ‫‪0.4029‬‬
‫‪26.55‬‬
‫‪0.4015‬‬
‫‪10.09‬‬
‫‪0.1282‬‬
‫‪−0.2642‬‬
‫‪−0.2532‬‬
‫] ‪[ 0.3022‬‬
‫‪SSE = 24.50‬‬

‫مجموع ُمربعات بين المتغيرات‬


‫= ‪SSB‬‬ ‫=‬
‫‪𝑛1 𝑛2‬‬ ‫‪.‬‬ ‫‪168×182‬‬
‫×‬ ‫‪(𝐷2 )2‬‬ ‫‪∗ 24.52 = 150.68‬‬
‫) ‪(𝑛1 +𝑛2 ) (𝑛1 +𝑛2‬‬ ‫)‪(168+182) (168+182−2‬‬

‫مجموع ال ُمربعات الكلية‪:‬‬


‫‪SST = SSB + SSE = 150.68 +24.5 = 175.18‬‬
‫جدول تحليل التباين‬
‫‪Source‬‬ ‫‪Ss‬‬ ‫‪Df‬‬ ‫𝑠𝑀‬ ‫‪F‬‬
‫‪k-1‬‬
‫بين المجموعات‬ ‫‪150.68‬‬ ‫‪21.525‬‬
‫‪7‬‬
‫‪n-k‬‬
‫داخل المجموعات‬ ‫‪24.5‬‬ ‫‪0.072‬‬ ‫‪300.5‬‬
‫‪342‬‬
‫‪n-1‬‬
‫الكلي‬ ‫‪175.18‬‬
‫‪349‬‬

‫القيمة المحسوبة‪:‬‬

‫‪318‬‬
‫‪F = 300.5‬‬
‫القيمة الجدولية‪:‬‬
‫‪F0.05 (7, 342) = 1.40‬‬
‫‪ F‬القيمة المحسوبة أكبر ‪ F‬الجدولية ∴ رفض الفرص العدمي وقبول الفرض البديل فإن للدالة قدرة‬
‫عالية على التمييز والفعل بين المجموعتين‪.‬‬

‫‪ )2‬اختبار ويلكس المدا ‪:Wilks' lambda‬‬


‫تُصاغ الفروض كالتالي‪:‬‬
‫الدالة ليس لها قدرة على التمييز ‪H0 𝜇1 = 𝜇2‬‬
‫الدالة لها القدرة على التمييز ‪H1 𝜇1 ≠ 𝜇2‬‬
‫‪Wilks' Lambda‬‬
‫)‪Test of Function(s‬‬ ‫‪Wilks' Lambda‬‬ ‫‪Chi-square‬‬ ‫‪Df‬‬ ‫‪Sig.‬‬
‫‪1‬‬ ‫‪.365‬‬ ‫‪346.661‬‬ ‫‪8‬‬ ‫‪.000‬‬

‫أوالً‪ :‬قيمة إحصائية ويلكس المدا ‪ 0.365‬وهي أقرب للصفر وذلك دليل على القدرة العالية للدالة‬
‫على التمييز‪ .‬وكما ُنالحظ أن )‪ Sig (00‬أقل من ‪ 0.05‬وبالتالي رفض الفرض العدمي وقبول‬
‫الفرض البديل بإن للدالة قدرة على التمييز والفصل بين المجموعتين‪.‬‬
‫كما أن في جدول‪:‬‬
‫‪Canonical‬‬
‫‪Function‬‬ ‫‪Eigenvalue‬‬ ‫‪% of Variance‬‬ ‫‪Cumulative %‬‬ ‫‪Correlation‬‬
‫‪1‬‬ ‫‪1.739a‬‬ ‫‪100.0‬‬ ‫‪100.0‬‬ ‫‪.797‬‬

‫المفسر بين‬
‫المالحظ قيمة الجذر الكامن ‪ ⋋ = 1.739‬وتُشير إلى أن نسبة التباين ُ‬ ‫ومن ُ‬
‫مجموعتي المصابين وغير المصابين والتي تعود للفروق بينها في النموذج التمييزي الوحيد وجمع‬
‫قيمة ُمعامل االرتباط القانوني ‪ُ 0.797‬معامل االرتباط بين مجموعة العوامل المؤثرة ونموذج التمييز الوحيد‬
‫وبتربيع هذه القيمة تحصل على ‪ %63.5‬وهذا يعني نسبة ُمساهمة العوامل المؤثرة في التباين واالختالف‬
‫في التمييز بين المجموعتين‪.‬‬
‫لالستخدام الثاني للنموذج التمييزي وهو التصنيف فكانت النتاج كالتالي‪:‬‬
‫غير ُمصاب (‪)0‬‬ ‫مصاب (‪)1‬‬ ‫مجموع‬
‫غير ُمصاب (‪)0‬‬ ‫‪169‬‬ ‫‪13‬‬ ‫‪182‬‬
‫ُمصاب (‪)1‬‬ ‫‪20‬‬ ‫‪148‬‬ ‫‪168‬‬
‫‪ %90.60‬النسبة اإلجمالية‪.‬‬

‫‪319‬‬
‫حيث ان النموذج التمييزي الذي يتكون من ثمان ُمتغيرات ُهما ‪ ،x9 ،x7 ،x6 ،x5 ،x4 ،x3 ،x2 ،x1‬قام‬
‫المصابين بمرض السكري وتصنيف غير صحيح ‪ 13‬أي نسبة تصنيف‬ ‫بالتصنيف الصحيح ‪ 169‬مفردة من غير ُ‬
‫صحيح ‪ %92.9‬في الحاالت بشكل صحيح‪ .‬أما بالنسبة للمصابين قام تصنيف الصحيح ‪ُ 148‬مفردة وغير الصحيح‬
‫‪ُ 20‬مفردة بنسبة إجمالية صحيحة ‪ %88.1‬وإن الدقة اإلجمالية للتصنيف هي ‪ %90.6‬بخطأ ‪.%8.4‬‬
‫نسبة الخطأ الظاهري‪:‬‬
‫للمجموعة األولى‪:‬‬
‫‪= 0.0714‬‬
‫‪𝑛12‬‬ ‫‪13‬‬
‫= ‪𝑝12‬‬ ‫=‬
‫‪𝑛1‬‬ ‫‪182‬‬

‫للمجموعة الثانية‪:‬‬
‫‪= 0.119‬‬
‫‪𝑛21‬‬ ‫‪20‬‬
‫= ‪𝑝21‬‬ ‫=‬
‫‪𝑛1‬‬ ‫‪168‬‬
‫بمعامالت غير معيارية‪- :‬‬ ‫ي‬
‫تقدير النموذج التمييز ُ‬
‫يتم تقدير النموذج التمييزي بمعامالت غير معيارية كما يلي‪:‬‬

‫المتغير‬
‫ُ‬ ‫‪b‬‬
‫‪x1‬‬ ‫‪0.324‬‬
‫‪x2‬‬ ‫‪0.063‬‬
‫‪x3‬‬ ‫‪0.581‬‬
‫‪x4‬‬ ‫‪0.022‬‬
‫‪x5‬‬ ‫‪0.551‬‬
‫‪x6‬‬ ‫‪-.420‬‬
‫‪x7‬‬ ‫‪-.386‬‬
‫‪x9‬‬ ‫‪0.325‬‬
‫)‪(Constant‬‬ ‫‪-6.974‬‬
‫‪𝑦̂ = −6.974 + 0.324 𝑥1 + 0.063 𝑥2 + 0.581 𝑥3 0.022 𝑥4‬‬
‫‪+0551 𝑥5 − 0420 𝑥6 − 0386 𝑥7 + 0.325 𝑥9‬‬
‫وهذا النموذج فعال وقادر على التصنيف الصحيح للمرضى بنسبة ‪ %90.6‬وأقل خطأ تصنيف ‪.%9.4‬‬
‫المشاهدات الجديدة‪:‬‬
‫تصنيف ُ‬

‫‪ -1‬إيجاد نقطة الفصل‪:‬‬

‫𝟗𝟔𝟑 ‪̅𝟏 = 𝟏.‬‬


‫𝒚‬ ‫حساب متوسط المجموعة األولى (المصابين)‬

‫𝟑𝟔𝟐 ‪̅𝟐 = 𝟏.‬‬


‫𝒚‬ ‫حساب متوسط المجموعة الثانية (غير المصابين)‬

‫=̿‬ ‫نقطة الفصل‬


‫𝟑𝟔𝟐‪𝟏.𝟑𝟔𝟗−𝟏.‬‬
‫𝒚‬ ‫𝟐𝟓𝟎 ‪= 𝟎.‬‬
‫𝟐‬

‫𝒚 > 𝟏̅‬
‫𝒚‬ ‫∵ 𝟐̅‬

‫‪320‬‬
‫المفردة إلى المجموعة األولى وإذا كانت أقل في‬
‫المفردة الجديدة أكبر في النقطة الفاصلة تصنف ُ‬
‫إذا كانت ُ‬

‫النقطة الفاصلة تصنف إلى المجموعة الثانية‪.‬‬

‫فمثالً‪ - :‬إذا كانت ُهناك سيدة )‪ (x5 = 0‬لديها مرض السكري وراثة (‪ )x1 = 1‬والوزن ‪ (x2 = 100‬و ُ‬
‫العمر‬

‫(‪ )x4=70‬ولديها ضغط الدم )‪ (x3 = 1‬وال ُتدخن )‪ (x6 = 0‬وال ُتمارس رياضة )‪ (x7 = 0‬وليس لديها كوليسترول‬

‫)‪.(x9 = 0‬‬

‫)𝟎( 𝟎𝟐𝟒 ‪̂ = −𝟔. 𝟗𝟕𝟒 + 𝟎. 𝟑𝟐𝟒 (𝟏) + 𝟎. 𝟎𝟔𝟑 (𝟏𝟎𝟎) + 𝟎. 𝟓𝟖𝟏 (𝟏) + 𝟎. 𝟎𝟐𝟐 (𝟕𝟎) + 𝟎. 𝟓𝟓𝟏 (𝟎) − 𝟎.‬‬
‫𝒚‬
‫𝟏𝟕𝟕 ‪− 𝟎. 𝟑𝟖𝟔 (𝟎) + 𝟎. 𝟑𝟐𝟓 (𝟎) = 𝟏.‬‬

‫(المصابين)‬
‫للمشاهدة الجديدة أكبر من نقطة الفصل بالتالي تصنف ضمن المجموعة األولى ُ‬
‫∵ القيمة التمييزية ُ‬

‫السكري‪.‬‬
‫لمرض ُ‬

‫وإذا كان هناك رجل )‪ (x5 = 1‬ليس لديه مرض وراثي )‪ (x1 = 0‬وزنه )‪ (x2 = 65‬وضغط الدم عادي )‪(x3 = 0‬‬

‫وعمره )‪ُ (x4 = 60‬يدخن )‪ (x6 = 1‬وال ُيمارس رياضة )‪ (x7 = 0‬وكوليسترول عالي )‪ (x9 = 1‬القيمة التمييزية‬
‫ُ‬

‫له‪.‬‬

‫)𝟓𝟔( 𝟑𝟔𝟎 ‪̂ = −𝟔. 𝟗𝟕𝟒 + 𝟎. 𝟑𝟐𝟒 (𝟎) + 𝟎.‬‬


‫𝒚‬
‫)𝟏( 𝟏𝟓𝟓 ‪+ 𝟎. 𝟓𝟖𝟏 (𝟎) + 𝟎. 𝟎𝟐𝟐 (𝟔𝟎) + 𝟎.‬‬
‫)𝟏( 𝟓𝟐𝟑 ‪− 𝟎. 𝟒𝟐𝟎 (𝟏) − 𝟎. 𝟑𝟖𝟔 (𝟎) + 𝟎.‬‬
‫𝟑𝟎𝟏 ‪= − 𝟏.‬‬

‫القيمة التمييزية للمشاهدة أقل من نقطة الفصل وبالتالي تصنف ضمن المجموعة الثانية (غير‬

‫المصابين)‪ .‬وبالتالي فالنموذج التمييزي المقدر بنسبة ُمساهمة العوامل المؤثرة فيه ‪ %63.5‬وكفاءة النموذج في‬
‫ُ‬

‫أنه غير مصاب تمثل ‪ %92.9‬أما النوعية تصنف‬


‫النصف ‪ %90.6‬أما الحساسين أي تصنف غير المصاب على ُ‬

‫أنه مصاب بنسبة ‪ %88.1‬ونسبة خطأ تصنيف ‪.%9.4‬‬


‫المصاب على ُ‬

‫النتائج والتوصيات‪:‬‬

‫يهدف البحث إلى استخدام التحليل التمييزي كأحد أساليب التحليل ُمتعدد الحدود لتحديد أهم العوامل‬

‫المتغيرات‬ ‫المؤثرة فاإلصابة بمرض ُ ي‬


‫(مصاب أو غير ُمصاب) مجموعة من ُ‬
‫السكر وذلك من خالل ُمتغير تابع نوعي ُ‬

‫المستقلة وهي عامل الوراثة والوزن وضغط الدم و ُ‬


‫العمر والنوع والتدخين وممارسة رياضة ومرض النقرس‬ ‫(العوامل) ُ‬

‫والكوليسترول والحالة االجتماعية وأمراض القلب والكلى‪.‬‬

‫‪321‬‬
‫وتم التوصل إلى النتائج التالية‪:‬‬

‫‪ -1‬بعد التأكد من توافر افتراضات أسلوب تحليل التمييزي وهي شرط طبيعة البيانات وشرط عدم تساوي متوسطات‬

‫المجموعتين وتساوي مصفوفة التباين والتغاير بين المجموعتين ومعنوية غالبية العوامل المؤثرة توصلت إلى‬

‫مالئمة أسلوب التحليل التمييزي لبيانات مرضى السكري أي ُيمكن استخدامه في تمييز وتصنيف المفردات‬

‫المستقلة‪.‬‬
‫وفقا لمجموعة العوامل ُ‬
‫الجديدة إلى مصابين أو غير ُمصابين ً‬

‫‪ -2‬باختبار معنوية العوامل المؤثرة تم استبعاد ثالث ُمعامالت (متغيرات) هي أمراض النقرس‪ ،‬الحالة االجتماعية‬

‫المتغيرات لها معنوية عالية في أسلوب تحليل التمييزي‪.‬‬


‫وامراض القلب اما باقي ُ‬

‫‪ -3‬وبالتالي فإن الدالة التمييزية للفصل والتمييز بين المجموعتين بمعامالت معيارية هي‪.‬‬

‫𝟕𝒙 𝟕𝟖𝟏 ‪𝑳̂ = 𝟎. 𝟏𝟔𝟎 𝒙𝟏 𝟎. 𝟕𝟗𝟕 𝒙𝟐 + 𝟎. 𝟐𝟔𝟕 𝒙𝟑 + 𝟎. 𝟐𝟗𝟓 𝒙𝟒 + 𝟎. 𝟐𝟔𝟖 𝒙𝟓 − 𝟎. 𝟐𝟎𝟑 𝒙𝟔 − 𝟎.‬‬
‫𝟗𝒙 𝟒𝟓𝟏 ‪+ 𝟎.‬‬

‫السكري هو الوزن ثم ُ‬
‫العمر ثم ضغط الدم ثم التدخين‬ ‫‪ -4‬أكثر العوامل المؤثرة وأهمها على اإلصابة بمرض ُ‬

‫وممارسة الرياضة والوراثة والكوليسترول‪.‬‬

‫‪ -5‬أكثر العوامل ُمساهمة في التمييز بين المجموعتين هو الوزن لنسبة ُمساهمة ‪ %79.4‬يليه ضغط الدم بنسبة ‪%33.2‬‬

‫العمر ‪ %28.9‬والكوليسترول بنسبة ‪ %24.2‬ثم التدخين بنسبة ‪ %20.8‬وممارسة الرياضة‬


‫يليه الوراثة ‪ %31‬ثم ُ‬

‫أخير النوع بنسبة ‪.%10‬‬


‫‪ %19.8‬و ًا‬

‫السكري تساهم بنسبة ‪ %63.5‬من التمييز والتصنيف بين المجموعتين‪.‬‬


‫العوامل المؤثرة في اإلصابة بمرض ُ‬ ‫‪-6‬‬

‫‪ -7‬النموذج التمييزي ذو كفاءة عالية التصنيف بنسبة ‪ %90.6‬وحساسية ‪ %92.9‬ونوعية ‪.%88.1‬‬

‫‪ -8‬نسبة خطأ التنصيف صغيرة ‪.%8.4‬‬

‫التوصيات‪:‬‬

‫يوصي الباحث بـ‪- :‬‬

‫‪ -1‬التوسع في استخدام التحليل التمييزي كأحد أساليب التحليل ُمتعدد ُ‬


‫المتغيرات في‬

‫المجاالت االقتصادية واالجتماعية‪.‬‬

‫‪322‬‬
‫السكري مع إضافة‬
‫‪ -2‬استخدام التحليل التمييزي لتحديد العوامل المؤثرة في اإلصابة بمرض ُ‬

‫ُمتغيرات أخرى كالنظام الغذائي وتناول الكحوليات وغيرها‪.‬‬

‫المبكر‪.‬‬
‫‪ -3‬استخدام نموذج الدالة التمييزية في التشخيص ُ‬

‫السكري‪.‬‬ ‫‪ -4‬الوصول للوزن المثالي ً‬


‫تفاديا من اإلصابة بمرض ُ‬

‫‪ -5‬االهتمام بالتحليل اإلحصائي وابراز الدور الهام له في الجانب الطبي‪.‬‬

‫المتعدد‬
‫‪ -6‬استخدام أساليب تحليل ُمتعدد المعدات لوس كاالنحدار اللوجستي واالنحدار ُ‬

‫السكري ومقارنة النتائج‬


‫وتحليل التباين في تحديد العوامل المؤثرة في اإلصابة بمرض ُ‬

‫بالتحليل التمييزي‪.‬‬

‫‪323‬‬
‫المراجع العربية‪:‬‬

‫‪ -1‬الجاعوني‪ ،‬غانم (‪" )2007‬التحليل اإلحصائي ُمتعدد المتغيرات (التحليل التمييزي) في توصيف وتوزيع االسر‬

‫داخل الهيكل االقتصادي االجتماعي في المجتمع"‪ ،‬ورقة بحثية منشورة‪ ،‬مجلة جامعة دمشق للعلوم االقتصادية‬

‫المجلد (‪ )23‬العدد الثاني‪ ،‬سوريا‪.‬‬


‫والقانونية ُ‬

‫المتعدد في‬ ‫ي‬


‫‪ -2‬الجزار‪ ،‬ماجد عطية (‪" )2012‬دراسة ُمقارنة بين التحليل التمييز الخطي واالنحدار اللوجستي ُ‬

‫التصنيف والتنبؤ" جامعة األزهر‪ ،‬كلية االقتصاد والعلوم اإلدارية‪ ،‬قسم اإلحصاء التطبيقي‪ ،‬غزة‪.‬‬

‫‪ -3‬الشمراني‪ُ ،‬محمد بن موسى الشمراني (‪" )2008‬دراسة ُمقارنة بين التحليل التمييزي وتحليل التباين في تحليل‬
‫المتغيرات" رسالة دكتوراه‪ ،‬كلية التربية‪ ،‬جامعة أم الُقرى‪ ،‬المملكة العربية السعودية‪.‬‬
‫البيانات ُمتعددة ُ‬
‫‪ -4‬النويري‪ ،‬فريال محمد (‪" )2013‬استخدام الدالة التمييزية الخطية لتمييز مرضى السكري المصابين من غير‬

‫المصابين بالفشل الكلوي" رسالة ماجستير‪ ،‬جامعة الجزيرة‪ ،‬كلية االقتصاد والتنمية الريفية‪ ،‬قسم اإلحصاء‬

‫التطبيقي‪ .‬السودان‪.‬‬

‫‪ -5‬بغرش‪ ،‬سعيدة‪" )2020( ،‬استخدام التحليل التمييزي في تقدير خطر عدم تسديد القرض من طرق الوكالة‬
‫المجلد (‪ ،)4‬العدد (‪ )1‬الجزائر‪.‬‬
‫المصغر" مجلة نماء لالقتصاد والتجارة – ُ‬
‫الوطنية لتسيير القرض ُ‬
‫‪ -6‬خوالدي‪ ،‬سليمة (‪" )2017‬دور التحليل التمييزي في التنبؤ بالفشل المالي لعينة من المؤسسات الصغيرة‬

‫والمتوسطة بوالية أم البواقي لفترة (‪ ")2016-2014‬رسالة ماجستير غير منشورة جامعة العربي بن مهيدي‪،‬‬

‫كلية العلوم االقتصادية والتجارية‪ ،‬أم البواقي‪.‬‬

‫‪ -7‬سليمان‪ ،‬على ابشر فضل (‪" )2015‬المقارنة بين التحليل التمييزي والنموذج اللوجستي ونماذج الشبكات‬

‫العصبية في تصنيف المشاهدات" رسالة دكتوراه غير منشورة‪ ،‬جامعة السودان للعلوم والتكنولوجيا‪ ،‬كلية‬

‫الدراسات العليا‪.‬‬

‫‪ -8‬عبد الكريم‪ ،‬أنوار ضياء (‪" )2006‬استخدام الطرائق ال تمييزية اإلحصائية لتشخيص بعض أمراض القلب "ورقة‬

‫بحثية منشورة‪ ،‬مجلة جامعة كركوك – الدراسات العلمية‪ ،‬مجلد (‪ )1‬العدد (‪ ،)2‬العراق‪.‬‬

‫‪ -9‬هاشم‪ ،‬غراء (‪" )2014‬استخدام التحليل التمييزي المتعدد لتصنيف مراحل اإلصابة بمرض الفشل الكلوي‬
‫ُ‬

‫المزمن"‪ ،‬جامعة السودان للعلوم والتكنولوجيا – كلية العلوم‪ ،‬قسم اإلحصاء التطبيقي‬
‫‪ُ -10‬‬

‫‪324‬‬
:‫المراجع األجنبية‬

1- Abdul Hussein, S. F., (2019), The use of mahalnobis statistic in the linear discriminant
analysis between two groups, Al – Mustans-yriah university, the journal of
administration and economics, vol-119, pp. 59-66.
2- Ahmed, M. S., (1998) “A Companion of The Discriminant and Logistic Regression
Approach” ph.p thesis, ISSR, Cairo University.
3- Anderson, T. W., (1984). An introduction to Multivariate statistical analysis. and
Edition, John and Sons, New York, USA.
4- Chandran, R.K., (2009). The Effectiveness of stepwise Discriminant Analysis.
Antimicrob Agents Chemother. 2009 July; 53 (7): 2887-2891.
5- Ferrer, A. J. A. and Wang, L. (1999). Comparing The Classification Accuracy among
Non-parametric, parametric at the Annual Meeting of the American Educational
Research Association (Montreal, Quebec, Canada, April 19-23, 1999).
6- Geofry J. M., (1992), Discriminant Analysi and statistical pattern Rocognitien The
university of Queen slan, Wiley.
7- Hosmer .D and Lemeshow S., (2000). Appleid Logestic Rogression. 2nd Edtion wiley:
New York. In CBSU Librany Athired edtion is due to be published in 2013.
8- Kandil, A, M, (1992) “Discriminant with mixture of continuous, discrete and nominal
variables”, The Egyptian Journal, ISSR, Cairo Univ, Vol36 No1, 102, 117.
9- Krznowski, W, T. (1995). “Multivariate statistics Classification covariance structure”,
John Wiley Stens, Inc, New York.
10- Pohar, M., and Blas, M., (2004), Comparison of logistic regression and Linear
discriminat analysis: Asimulation study, Metodoloski Zvzki, Vol-1, pp, 143-161.
11- Rausch, j.R., and Kelley, k. (2009). A Comparison of linear and mixture models for
discriminat analysis under Non normality, Behavior research methods, Vol.41, pp. 85-
98.
12- Wang .y., (2008). Comparing Linear Discriminainat Analysis With Classi fcatim trees
using forest Landwenr Survey Data a case study. M. S Thesis. The Universty of
tennesses. knoxville.

325

You might also like