You are on page 1of 1

‫في هذا الفيديو‪ ،‬سنتحدث عن اإلحصاءات الوصفية‪ .

‬عند البدء في تحليل البيانات‪ ،‬من المهم أوال ً استكشاف بياناتك قبل قضاء بعض‬
‫الوقت في بناء نماذج معقدة‪ .‬إحدى الطرق السهلة للقيام بذلك‪ ،‬هي حساب بعض اإلحصائيات الوصفية لبياناتك‪ .‬يساعد التحليل‬
‫اإلحصائي الوصفي على وصف السمات األساسية لمجموعة البيانات‪ ،‬ويحصل على ملخص قصير عن العينة ومقاييس البيانات‪ .‬دعونا‬
‫نعرض لك طريقتين مفيدتين مختلفتين‪ .‬إحدى الطرق التي يمكننا بها القيام بذلك هي باستخدام وظيفة الوصف في الباندا‪.‬‬
‫باستخدام وظيفة وصف وتطبيقها على إطار البيانات الخاص بك‪ ،‬وظيفة وصف تلقائيا حساب اإلحصاءات األساسية لجميع المتغيرات‬
‫‪ NAN‬العددية‪ .‬ويظهر المتوسط‪ ،‬العدد اإلجمالي لنقاط البيانات‪ ،‬واالنحراف المعياري‪ ،‬والربع والقيم المتطرفة‪ .‬يتم تخطي أي قيم‬
‫تلقائي ًا في هذه اإلحصائيات‪ .‬هذه الوظيفة سوف تعطيك فكرة واضحة عن توزيع المتغيرات المختلفة الخاصة بك‪ .‬هل يمكن أيضا‬
‫أن يكون المتغيرات الفئوية في مجموعة البيانات الخاصة بك‪ .‬هذه هي المتغيرات التي يمكن تقسيمها إلى فئات أو مجموعات‬
‫مختلفة‪ ،‬ولها قيم منفصلة‪ .‬على سبيل المثال‪ ،‬في مجموعة البيانات لدينا لدينا نظام محرك األقراص كمتغير قاطع‪ ،‬والذي يتكون من‬
‫الفئات‪ ،‬الدفع بالعجالت األمامية‪ ،‬الدفع بالعجالت الخلفية و الدفع الرباعي‪ .‬طريقة واحدة يمكنك تلخيص البيانات الفئوية‪ ،‬هي‬
‫يمكننا تغيير اسم العمود لتسهيل قراءته‪ .‬ونحن نرى أن لدينا ‪ 118‬سيارة في فئة الدفع ‪ value_counts.‬باستخدام الدالة‬
‫بالعجلة األمامية‪ 75 .‬سيارة في فئة الدفع بالعجالت الخلفية‪ ،‬و ‪ 8‬سيارات في فئة الدفع الرباعي‪ .‬تعتبر مؤامرات الصندوق طريقة‬
‫رائعة لتصور البيانات الرقمية‪ ،‬حيث يمكنك تصور التوزيعات المختلفة للبيانات‪ .‬الميزات الرئيسية التي تظهر مربع الرسم‪ ،‬هي‬
‫متوسط البيانات‪ ،‬والذي يمثل مكان نقطة البيانات الوسطى‪ .‬يظهر الربع العلوي أين المئوي الخامس والسبعين‪ .‬يظهر الربع السفلي‬
‫أين المئوي الخامس والعشرين‪ .‬تمثل البيانات بين الربعي العلوي والسفلي النطاق الرباعي‪ .‬التالي لديك النقيضين السفلي والعلوي‪.‬‬
‫وتحسب هذه األرقام على أنها ‪ 1.5‬مرة من النطاق الربعي‪ ،‬أعلى من المئوي الخامس والسبعين‪ ،‬و‪ 1.5‬مرة من معدل الذكورة‬
‫أيض ا القيم المتطرفة كنقاط فردية تحدث خارج النقيضين العلوية والسفلية‪.‬‬
‫ً‬ ‫وأخيرا‪ ،‬تعرض مؤامرات الصندوق‬
‫ً‬ ‫أقل من المئوي ‪.25‬‬
‫مع المؤامرات مربع‪ ،‬يمكنك بسهولة بقعة القيم المتطرفة‪ ،‬وأيضا رؤية توزيع وانحراف البيانات‪ .‬تجعل مؤامرات الصندوق من السهل‬
‫المقارنة بين المجموعات‪ .‬في هذا المثال‪ ،‬باستخدام مربع مؤامرة يمكننا أن نرى توزيع فئات مختلفة من ميزة عجالت محرك‬
‫األقراص على ميزة السعر‪ .‬يمكننا أن نرى أن توزيع السعر بين الدفع بالعجالت الخلفية‪ ،‬والفئات األخرى متميزة‪ .‬لكن سعر الدفع‬
‫بالعجالت األمامية و الدفع الرباعي ال يمكن تمييزها تقريبًا‪ .‬في كثير من األحيان نميل إلى رؤية المتغيرات المستمرة في بياناتنا‪.‬‬
‫نقاط البيانات هذه هي األرقام الواردة في بعض النطاق‪ .‬على سبيل المثال‪ ،‬في لدينا مجموعة البيانات سعر وحجم المحرك هي‬
‫متغيرات مستمرة‪ .‬ماذا لو أردنا أن نفهم العالقة بين حجم المحرك والسعر‪ .‬هل يمكن أن يتنبأ حجم المحرك بسعر السيارة؟ طريقة‬
‫واحدة جيدة لتصور هذا هو استخدام مؤامرة مبعثر‪ .‬يتم تمثيل كل مالحظة في مؤامرة مبعثر كنقطة‪ .‬توضح هذه المؤامرة العالقة‬
‫بين متغيرين‪ .‬المتغير المتوقع‪ ،‬هو المتغير الذي تستخدمه للتنبؤ بالنتيجة‪ .‬في هذه الحالة متغير التنبؤي لدينا هو حجم المحرك‪.‬‬
‫المتغير الهدف هو المتغير الذي تحاول التنبؤ به‪ .‬في هذه الحالة‪ ،‬لدينا متغير الهدف هو السعر‪ .‬ألن هذا سيكون النتيجة‪ .‬في‬
‫مؤامرة مبعثر‪ ،‬ونحن عادة تعيين متغير التنبؤ على محور س أو محور أفقي‪ ،‬ونحن تعيين متغير الهدف على المحور ص أو المحور‬
‫الرأسي‪ .‬في هذه الحالة‪ ،‬ونحن بالتالي رسم حجم المحرك على المحور س والسعر على المحور ص‪ .‬نحن نستخدم‪ ،‬وظائف‬
‫دائما تسمية محاورك‪ ،‬وكتابة ‪ y‬و ‪ x‬مبعثر هنا‪ ،‬مع األخذ في ‪matplotlib‬‬ ‫ً‬ ‫المتغير‪ .‬شيء يجب مالحظته هو أنه من المهم‬
‫عنوان مؤامرة عام‪ ،‬بحيث تعرف ما تبحث عنه‪ .‬اآلن كيف يرتبط حجم المحرك المتغير بالسعر؟ من مؤامرة مبعثر‪ ،‬ونحن نرى‬
‫أنه مع ارتفاع حجم المحرك‪ ،‬وسعر السيارة ترتفع أيضا‪ .‬وهذا يعطينا مؤشرا أوليا على أن هناك عالقة خطية إيجابية بين هذين‬
‫المتغيرين‪ [ .‬موسيقى]‬

You might also like