Lec 3 Part1

You might also like

You are on page 1of 17

Data Preprocessing

Lecture 5

Dr. Ibrahim Al-Baltah

2014-2015

1
Why data preprocessing?

2
‫تحضير (تهيئة) البيانات ‪Data preparation‬‬
‫‪‬‬ ‫?‪Why do we need data preprocessing‬‬
‫لجعل البيانات أكثر مناسبتًا لتنقيب البيانات‪.‬‬ ‫‪‬‬

‫لتحسين تحليل تنقيب البيانات من حيث الوقت‪ ,‬التكلفة‪ ,‬و الجودة‪.‬‬ ‫‪‬‬

‫?‪ Why is data preprocessing important‬‬

‫ألن جودة نتائج التنقيب تعتمد على جودة البيانات التي تم التنقيب فيها‪.‬‬ ‫‪‬‬

‫‪3‬‬
‫‪?Why Data Preprocessing‬‬
‫البيانات في العالم الحقيق ُم تسخة ‪.Dirty‬‬ ‫‪‬‬

‫‪ ‬غير مكتمل‪V‬ة ‪ :incomplete‬فق‪V‬د بعض قيم الص‪V‬فات ‪missing attribute‬‬


‫‪ ,values‬الحاجة الى بعض الصفات المهمة‪ ,‬تحتوي فقط بيانات ُم جمعة‬
‫‪.containing only aggregate data‬‬
‫‪ ‬مثال‪ :‬الوظيفة= ” “‪.‬‬
‫‪ :Noisy ‬تحتوي على أخطاء ‪ ,errors‬طرفيات ‪.outliers‬‬
‫‪ ‬متضارب ‪ :inconsistent‬تحتوي على أختالف أو تعارض في الترميز أو‬
‫التسمية‪.‬‬
‫‪ ‬مثل‪ ,‬العمر= ‪ 42‬تاريخ الميالد = ‪.1997\7\3‬‬
‫‪ ‬الدرجة كانت من‪ 1‬الى ‪ 100‬االن أصبحت ‪A, B, C, D, F‬‬
‫‪4‬‬
‫المهام الرئيسة لعملية تحضير البيانات‬
‫تنظيف البيانات ‪Data cleaning‬‬ ‫‪)1‬‬

‫تكامل البيانات ‪Data integration‬‬ ‫‪)2‬‬

‫تحويل البيانات ‪Data transformation‬‬ ‫‪)3‬‬

‫أختصار (تنقيص) البيانات ‪Data reduction‬‬ ‫‪)4‬‬

‫تحوي‪V‬ل األع‪V‬داد المس‪V‬تمرة الى متقطع‪V‬ة ‪Data discretization (for‬‬ ‫‪)5‬‬


‫)‪numerical data‬‬

‫‪5‬‬
‫تنظيف البيانات ‪Data cleaning‬‬
‫ُتعد عملية تنظيف البيانات المشكلة األولى في مخازن البيانات‪.‬‬ ‫‪‬‬

‫‪6‬‬
‫مهام تنظيف البيانات ‪Data cleaning tasks‬‬
‫ملئ البيانات المفقودة‬ ‫‪)1‬‬

‫‪Identify outliers and smooth out noisy data‬‬ ‫‪)2‬‬

‫تصحيح البيانات المتضاربة‬ ‫‪)3‬‬

‫حل مشكلة تكرار البيانات والتي تحدث بسبب عملية تكامل‬ ‫‪)4‬‬
‫البيانات‬
‫مهام تنظيف البيانات ‪Data cleaning tasks‬‬
‫ملئ البيانات المفقودة‪ :‬ألن البيانات التكون موفرة دائمًا‬ ‫‪‬‬

‫كيف نعالج مشكلة البيانات المفقودة؟‬ ‫‪‬‬

‫هناك عددة طرق لمعالجة البيانات المفقودة منها‪:‬‬


‫تجاهل السجل (الحقل)‬ ‫‪.a‬‬
‫ملئ البيانات المفقودة يدويًا‬ ‫‪.b‬‬

‫ملئ البيانات اليًا‪ ,‬مثًال المدينة =”“ ← المدينة = ‪Unknown‬‬ ‫‪.c‬‬

‫استخدام متوسط البيانات لملئ البيانات المفقودة‪ ,‬مثًال درجة طالب مفقودة الدرجة‬ ‫‪.d‬‬
‫=”“← الدرجة = متوسط درجات الطالب‪.‬‬

‫‪8‬‬
‫مهام تنظيف البيانات ‪Data cleaning tasks‬‬
‫‪ ‬بيانات مزعجة ‪Noisy data‬‬
‫‪ :Noise ‬تعني اخطاء عشوائية‬
‫‪ ‬كيف تعالج مشكلة البيانات المزعجة؟‬
‫ُتعالج مشكلة البيانات المزعجة كالتالي‪:‬‬
‫‪ :Clustering‬حيث يتم تقسيم البيانات الى مجموعات ‪ ,Clusters‬ومن‬ ‫‪‬‬
‫ثم اي بيانات خارج ‪ُ Clusters‬تعتبر بيانات ُم تطرفة‪.‬‬
‫األنحدار ‪ :regression‬يمكن جعل البيانات غير مزعجة ‪smooth‬‬ ‫‪‬‬
‫وذلك بتمثيل البيانات على دالة االنحدار‪.‬‬
‫‪ :Binning method‬انظر الى الشرائح التالية‬ ‫‪‬‬

‫‪9‬‬
Clustering

10
‫األنحدار ‪ :regression‬يمكن جعل البيانات غير مزعجة ‪smooth‬‬ ‫‪.c‬‬
‫وذلك بتمثيل البيانات على دالة االنحدار‪.‬‬

‫‪11‬‬
‫‪Binning method‬‬
‫يمكن وضع البيانات في صناديق ‪ bins‬وذلك لغرض جعل البيانات‬ ‫‪‬‬
‫غير مزعجة‪ .‬ولعمل ذلك يجب أن نرتب البيانات ثم نجزئها الى‬
‫(تكرارات متساوية) صناديق ‪ .bins‬ثم نجعل البيانات غير مزعجة‬
‫وذلك بواسطة الوسط الحسابي للبيانات ‪ means‬في كل صندوق‪ ,‬أو‬
‫بالمتوسط لكل صندوق ‪ ,median‬او بحدود ‪ boundaries‬الصناديق‪.‬‬

‫‪12‬‬
Binning method
 Sorted data for price (in dollars): 4, 8, 15, 21, 21, 24, 25, 28, 34
 Partition into (equal-frequency) bins:
 Bin 1: 4, 8, 15
 Bin 2: 21, 21, 24
 Bin 3: 25, 28, 34
 Smoothing by bin means:
 Bin 1: 9, 9, 9
 Bin 2: 22, 22, 22
 Bin 3: 29, 29, 29
 Smoothing by bin boundaries:
 Bin 1: 4, 4, 15
 Bin 2: 21, 21, 24
 Bin 3: 25, 25, 34

13
‫تكامل البيانات ‪Data integration‬‬
‫تكامل البيانات هي عملية دمج بيانات من مصادر مختلفة مثل قواعد‬ ‫‪‬‬
‫بيانات متعددة‪ ,data cubes ,‬أو ملفات‪.‬‬

‫‪14‬‬
‫تحويل البيانات ‪Data transformation‬‬
‫يتم في هذه المرحلة تحويل البيانات من صيغة الى صيغة مناسبة‬ ‫‪‬‬
‫للتنقيب‪.‬‬

‫تحويل البيانات يمكن ان يتظمن التالي‪:‬‬ ‫‪‬‬

‫‪ :Smoothing‬تم شرحة في الشرائح السابقة‪.‬‬ ‫‪.a‬‬

‫تجميع ‪ :aggregation‬حيث يتم تطبيق بعض عمليات التجميع على‬ ‫‪.b‬‬


‫البيانات‪ .‬مثًال بيانات المبيعات اليومية يمكن أن ًتجمع لحساب المجموع‬
‫الكلي للمبيعات الشهرية أو السنوية‪.‬‬

‫‪15‬‬
‫تنقيص البيانات ‪Data reduction‬‬
‫كما ذكرنا سابقًا‪ ,‬حجم البيانات في مخازن البيانات كبير جدًا األمر‬ ‫‪‬‬
‫الذي يجعل تحليل و تنقيب البيانات ُم عقد جدًا وايضًا قد يستغرق وقتًا‬
‫طويًال‪ ,‬وفي بعض األحيان قد ُيصبح تحليل وتنقيب البيانات غير‬
‫ممكن‪.‬‬

‫‪16‬‬
Activity
 Suppose that the data for analysis include the
attribute age. The age values for the data tuples are
(in increasing order): 13, 15, 16, 16, 19, 20, 20, 21,
22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36,
40, 45, 46, 52, 70.
Use smoothing by bin means to smooth the above data,
using a bin depth of 3. Illustrate your steps.

17

You might also like