Professional Documents
Culture Documents
Statistical Data Management
Statistical Data Management
االكتمال
• وتعني مدى شمولية البيانات ،بمعنى هل جميع البيانات التي يريدها المستخدم متاحة
المصداقية
• في علم البيانات تعني المصداقية ان جميع أجزاء البيانات التتعارض مع بعضها
المالئمة
• ويقصد بالمالئمة وجود أسباب منطقية تم تجميع البيانات من أجلها
الحداثة
• ويقصد بها كيف يتم تحديث البيانات ،فالبيانات غير المحدثة يمكن أن تؤدي لقرارات خاطئة
طرق جمع البيانات:مقدمة
Direct Surveys
observation
Experiments
Previous
collected
databases
Data
مقدمه :علم البيانات
علم البيانات
يعد علم البيانات من أكثر العلوم سرعة في التطور وكذلك األكثر ارتباطا بالعديد من المجاالت
الطبيعية واالجتماعية بل وحتى الترفيهية.
منذ عشر سنوات ،كان غالبية تحليل البيانات تتم عن طريق برامج التي تتعامل مع structured
dataباالعتماد على توفير بيئة سلسة للمستخدم ،مما يمكنه من إنجاز اكبر قدر ممكن من التحليلالت
االحصائية باقل مجهود
بعد ،2010بدا علم الذكاء الصناعي في التنامي ،وبدأت بعض لغات البرمجة المجانية المنتمية لمجال
تكنولوجيا المعلومات في إضافة إمكانية عمل بعض التحليالت االحصائية البسيطة
لكن ظلت البرامج المتخصصة في التحليل االحصائي على قمة البرامج المستخدمة ،ساعدها في ذلك
صعوبة التعامل مع البرامج المنتمية لقطاع تكنولوجيا المعلومات
من ،2015تمكنت لغات البرمجة من إضافة مكتبات تمكن المستخدم من إتمام أغلبية التقنيات
االحصائية مستفيدة من تطور الهاردوير
مقدمه :علم البيانات
نتج عن ذلك تراجع في اهمية البرامج االحصائية المتخصصة في مقابل لغات البرمجة والتي
وظفت تقنيات الذكاء االصطناعي في نمذجة جميع العمليات واالساليب االحصائية على الرغم
من صعوبة استخدام هذه اللغات مقارنة بالبرامج الجاهزة.
واكب ذلك تغير في مصطلح Data Data
البيانات فظهرت انواع جديدة من analytics analysis
Data
transformati
on
Data
manipulation
Data
loading
Reporting
and
visualizing
بسبب ظهور انواع جديدة من البيانات وضخامة كمية البيانات الممكن تحليلها ظهرت خدمات سحابية مثل google big query , Amazon web services
وهي خدمات تتيح ما يشبه حواسب افتراضية بامكانيات مهولة يمكن بسعر بسيط االشتراك فيها واستضافة وتحليل البيانات واالستفادة من العديد من الخدمات دون
الحاجة إلى شراء معدات مكلفة.
أدى هذا إلى ظهور مصطلح ، Data engineerوهو المسئول عن تكامل نظم البيانات مع أنظمة تكنولوجية أخرى مع وجود أقل قدر من العنصر البشري
كل ما سبق ادى إلى….
سهولة استخدامها وبساطتة التعامل معها.
Classical
Modern data
statistical
analysis
قامت العديد من هذه البرامج بالتكامل مع لغات البرمجة مثل analysis
البايثون وبالتالي يمكن للمستخدم التعامل مع كال نوعي البرامج
في نفس الوقت.
العينات والمسوح
تعريف البيانات المسحية والسجالت اإلدارية
• البيانات التي يتم تجميعها عن طريق مالمسوح اإلحصائية المختلفة
• السجل Recordهو قاعدة بيانات تم تجميعها مسبقا تشمل مجموعة من السمات أو
المتغيرات
البيانات المسحية
• المعاينة هي عملية تستخدم في التحليل اإلحصائي بغرض جمع بيانات من مجموعة محددة من المستجيبين
علم العينات يتم اختيارهم من مجتمع أكبر
• يتم استخدام تقنيات المعاينة لصعوبة جمع البيانات من كل المجتمع
• المجتمع :هو مجموعة من العناصر تتشارك في أنها محل اهتمام الدراسة أو الظاهرة
أهم التعريفات • المعاينة :عملية سحب مجموعة من المفردات من مجتمع ما لتقدير بعض خصائص هذا المجتمع
•العينة :صورة مصغرة من المجتمع ،فهي جزء منه يحتوي على جميع صفات هذا المجتمع
المستخدمة في علم • يمكن تقسيم العينات إلى قسمين أساسين :عينات عشوائية وعينات غير عشوائية
• تسمح العينات العشوائية لجميع مفردات المجتمع بالظهور في العينة بنفس االحتمال
العينات •.اإلطار والمجتمع المستهدف :هو قائمة تشمل جميع مفردات المجتمع المزمع سحب عينة منه
Date 15
البيانات المسحية :أنواع المسوح
مسوح مسوح
قائمة باستخدام مسوح
مسوح نقطة
لوحية/عرضي
تعدادات عينات عينات على ة
زمنية واحدة
غير عينات
عشوائية عشوائية
مسوح
مسوح
إلكترو
ورقية
نية
إجراءات ضبط الجودة بالبيانات المسحية )• 2
اوال مرحلة ما قبل جمع البيانات •
)2.1إجراءات ضبط الجودة قبل جمع البيانات
تحديد األهداف
تحديد مجتمع الدراسة
تصميم االستمارة
تجريب االستمارة
مراعاة انتقاالت والقيم المسموح بها لألسئلة أو المتغيرات
قياس المدى الزمني لالستمارة
بدء االستمارة بمقدمة عن المسح مع اإلشارة إلى سرية البيانات المجمعة
إضافة الرقم التسلسلي لكل استمارة
التأكد من شمولية االستمارة لجميع االسئلة محل الدراسة ،مع عدم وجود أي أسئلة زائدة عن الحاجة
تجنب االسئلة الموحية أو الغامضة أو المركبة
في حال األسئلة ذات اإلجابات الرقمية ،يجب تحديد وحدات القياس
تقسيم االطار الى مناطق وتحديد مناطق عمل جامعي البيانات منعا للتداخل
إجراءات ضبط الجودة قبل جمع البيانات :العينة )2.1
االستطالعية
Electr Paper
onic based
Surve surve
ys ys
) 3.1ضبط الجودة بالمسوح واالستبيانات اإللكترونية
(الطرق المجانية والمدفوعة األجر)
مزايا االستبيانات االلكترونية
يمكن أن تطبق باستخدام اإلنترنت أو بدونه •
يمكن تطبيق العديد من قواعد المراجعة بشكل آلي •
التحتاج إلى إدخال بيانات •
يمكن تصميم استبيانات أكثر جذبا من االستبيانات الورقي •
يمكن استعراض اإلجابات في أي وقت •
أكثر كفاءة من االستبيانات الورقية في حالة الرغبة في إجراء اي تعديل أثناء التطبيق •
توفر الوقت والجهد الالزم لطباعة ونقل االستمارات •
األنواع المجانية
• Google forms
• Microsoft form
األنواع غير
المجانية
• Survey Monkey
• Smart survey
• Jotform
• ....
How to determine
) طرق تحديد حجم العينة4
sample size
Unknown
Known population
population
العينة الطبقية