Professional Documents
Culture Documents
02 Descriptive-Statistics - Ar
02 Descriptive-Statistics - Ar
عند البدء في تحليل البيانات ،من المهم أوال ً استكشاف بياناتك قبل قضاء بعض
الوقت في بناء نماذج معقدة .إحدى الطرق السهلة للقيام بذلك ،هي حساب بعض اإلحصائيات الوصفية لبياناتك .يساعد التحليل
اإلحصائي الوصفي على وصف السمات األساسية لمجموعة البيانات ،ويحصل على ملخص قصير عن العينة ومقاييس البيانات .دعونا
نعرض لك طريقتين مفيدتين مختلفتين .إحدى الطرق التي يمكننا بها القيام بذلك هي باستخدام وظيفة الوصف في الباندا.
باستخدام وظيفة وصف وتطبيقها على إطار البيانات الخاص بك ،وظيفة وصف تلقائيا حساب اإلحصاءات األساسية لجميع المتغيرات
NANالعددية .ويظهر المتوسط ،العدد اإلجمالي لنقاط البيانات ،واالنحراف المعياري ،والربع والقيم المتطرفة .يتم تخطي أي قيم
تلقائي ًا في هذه اإلحصائيات .هذه الوظيفة سوف تعطيك فكرة واضحة عن توزيع المتغيرات المختلفة الخاصة بك .هل يمكن أيضا
أن يكون المتغيرات الفئوية في مجموعة البيانات الخاصة بك .هذه هي المتغيرات التي يمكن تقسيمها إلى فئات أو مجموعات
مختلفة ،ولها قيم منفصلة .على سبيل المثال ،في مجموعة البيانات لدينا لدينا نظام محرك األقراص كمتغير قاطع ،والذي يتكون من
الفئات ،الدفع بالعجالت األمامية ،الدفع بالعجالت الخلفية و الدفع الرباعي .طريقة واحدة يمكنك تلخيص البيانات الفئوية ،هي
يمكننا تغيير اسم العمود لتسهيل قراءته .ونحن نرى أن لدينا 118سيارة في فئة الدفع value_counts.باستخدام الدالة
بالعجلة األمامية 75 .سيارة في فئة الدفع بالعجالت الخلفية ،و 8سيارات في فئة الدفع الرباعي .تعتبر مؤامرات الصندوق طريقة
رائعة لتصور البيانات الرقمية ،حيث يمكنك تصور التوزيعات المختلفة للبيانات .الميزات الرئيسية التي تظهر مربع الرسم ،هي
متوسط البيانات ،والذي يمثل مكان نقطة البيانات الوسطى .يظهر الربع العلوي أين المئوي الخامس والسبعين .يظهر الربع السفلي
أين المئوي الخامس والعشرين .تمثل البيانات بين الربعي العلوي والسفلي النطاق الرباعي .التالي لديك النقيضين السفلي والعلوي.
وتحسب هذه األرقام على أنها 1.5مرة من النطاق الربعي ،أعلى من المئوي الخامس والسبعين ،و 1.5مرة من معدل الذكورة
أيض ا القيم المتطرفة كنقاط فردية تحدث خارج النقيضين العلوية والسفلية.
ً وأخيرا ،تعرض مؤامرات الصندوق
ً أقل من المئوي .25
مع المؤامرات مربع ،يمكنك بسهولة بقعة القيم المتطرفة ،وأيضا رؤية توزيع وانحراف البيانات .تجعل مؤامرات الصندوق من السهل
المقارنة بين المجموعات .في هذا المثال ،باستخدام مربع مؤامرة يمكننا أن نرى توزيع فئات مختلفة من ميزة عجالت محرك
األقراص على ميزة السعر .يمكننا أن نرى أن توزيع السعر بين الدفع بالعجالت الخلفية ،والفئات األخرى متميزة .لكن سعر الدفع
بالعجالت األمامية و الدفع الرباعي ال يمكن تمييزها تقريبًا .في كثير من األحيان نميل إلى رؤية المتغيرات المستمرة في بياناتنا.
نقاط البيانات هذه هي األرقام الواردة في بعض النطاق .على سبيل المثال ،في لدينا مجموعة البيانات سعر وحجم المحرك هي
متغيرات مستمرة .ماذا لو أردنا أن نفهم العالقة بين حجم المحرك والسعر .هل يمكن أن يتنبأ حجم المحرك بسعر السيارة؟ طريقة
واحدة جيدة لتصور هذا هو استخدام مؤامرة مبعثر .يتم تمثيل كل مالحظة في مؤامرة مبعثر كنقطة .توضح هذه المؤامرة العالقة
بين متغيرين .المتغير المتوقع ،هو المتغير الذي تستخدمه للتنبؤ بالنتيجة .في هذه الحالة متغير التنبؤي لدينا هو حجم المحرك.
المتغير الهدف هو المتغير الذي تحاول التنبؤ به .في هذه الحالة ،لدينا متغير الهدف هو السعر .ألن هذا سيكون النتيجة .في
مؤامرة مبعثر ،ونحن عادة تعيين متغير التنبؤ على محور س أو محور أفقي ،ونحن تعيين متغير الهدف على المحور ص أو المحور
الرأسي .في هذه الحالة ،ونحن بالتالي رسم حجم المحرك على المحور س والسعر على المحور ص .نحن نستخدم ،وظائف
دائما تسمية محاورك ،وكتابة yو xمبعثر هنا ،مع األخذ في matplotlib ً المتغير .شيء يجب مالحظته هو أنه من المهم
عنوان مؤامرة عام ،بحيث تعرف ما تبحث عنه .اآلن كيف يرتبط حجم المحرك المتغير بالسعر؟ من مؤامرة مبعثر ،ونحن نرى
أنه مع ارتفاع حجم المحرك ،وسعر السيارة ترتفع أيضا .وهذا يعطينا مؤشرا أوليا على أن هناك عالقة خطية إيجابية بين هذين
المتغيرين [ .موسيقى]