Professional Documents
Culture Documents
Lec 3 Part1
Lec 3 Part1
Lec 3 Part1
Lecture 5
2014-2015
1
Why data preprocessing?
2
تحضير (تهيئة) البيانات Data preparation
?Why do we need data preprocessing
لجعل البيانات أكثر مناسبتًا لتنقيب البيانات.
لتحسين تحليل تنقيب البيانات من حيث الوقت ,التكلفة ,و الجودة.
ألن جودة نتائج التنقيب تعتمد على جودة البيانات التي تم التنقيب فيها.
3
?Why Data Preprocessing
البيانات في العالم الحقيق ُم تسخة .Dirty
5
تنظيف البيانات Data cleaning
ُتعد عملية تنظيف البيانات المشكلة األولى في مخازن البيانات.
6
مهام تنظيف البيانات Data cleaning tasks
ملئ البيانات المفقودة )1
حل مشكلة تكرار البيانات والتي تحدث بسبب عملية تكامل )4
البيانات
مهام تنظيف البيانات Data cleaning tasks
ملئ البيانات المفقودة :ألن البيانات التكون موفرة دائمًا
استخدام متوسط البيانات لملئ البيانات المفقودة ,مثًال درجة طالب مفقودة الدرجة .d
=”“← الدرجة = متوسط درجات الطالب.
8
مهام تنظيف البيانات Data cleaning tasks
بيانات مزعجة Noisy data
:Noise تعني اخطاء عشوائية
كيف تعالج مشكلة البيانات المزعجة؟
ُتعالج مشكلة البيانات المزعجة كالتالي:
:Clusteringحيث يتم تقسيم البيانات الى مجموعات ,Clustersومن
ثم اي بيانات خارج ُ Clustersتعتبر بيانات ُم تطرفة.
األنحدار :regressionيمكن جعل البيانات غير مزعجة smooth
وذلك بتمثيل البيانات على دالة االنحدار.
:Binning methodانظر الى الشرائح التالية
9
Clustering
10
األنحدار :regressionيمكن جعل البيانات غير مزعجة smooth .c
وذلك بتمثيل البيانات على دالة االنحدار.
11
Binning method
يمكن وضع البيانات في صناديق binsوذلك لغرض جعل البيانات
غير مزعجة .ولعمل ذلك يجب أن نرتب البيانات ثم نجزئها الى
(تكرارات متساوية) صناديق .binsثم نجعل البيانات غير مزعجة
وذلك بواسطة الوسط الحسابي للبيانات meansفي كل صندوق ,أو
بالمتوسط لكل صندوق ,medianاو بحدود boundariesالصناديق.
12
Binning method
Sorted data for price (in dollars): 4, 8, 15, 21, 21, 24, 25, 28, 34
Partition into (equal-frequency) bins:
Bin 1: 4, 8, 15
Bin 2: 21, 21, 24
Bin 3: 25, 28, 34
Smoothing by bin means:
Bin 1: 9, 9, 9
Bin 2: 22, 22, 22
Bin 3: 29, 29, 29
Smoothing by bin boundaries:
Bin 1: 4, 4, 15
Bin 2: 21, 21, 24
Bin 3: 25, 25, 34
13
تكامل البيانات Data integration
تكامل البيانات هي عملية دمج بيانات من مصادر مختلفة مثل قواعد
بيانات متعددة ,data cubes ,أو ملفات.
14
تحويل البيانات Data transformation
يتم في هذه المرحلة تحويل البيانات من صيغة الى صيغة مناسبة
للتنقيب.
15
تنقيص البيانات Data reduction
كما ذكرنا سابقًا ,حجم البيانات في مخازن البيانات كبير جدًا األمر
الذي يجعل تحليل و تنقيب البيانات ُم عقد جدًا وايضًا قد يستغرق وقتًا
طويًال ,وفي بعض األحيان قد ُيصبح تحليل وتنقيب البيانات غير
ممكن.
16
Activity
Suppose that the data for analysis include the
attribute age. The age values for the data tuples are
(in increasing order): 13, 15, 16, 16, 19, 20, 20, 21,
22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36,
40, 45, 46, 52, 70.
Use smoothing by bin means to smooth the above data,
using a bin depth of 3. Illustrate your steps.
17