Professional Documents
Culture Documents
Data mining
Radwan Mohammed
10/7/2014
Unit one الوحده االولى
Define Data? عرف البٌانات ؟
Data are any facts, numbers or text that هً حقائق أو ارقام أو نصوص تم معالجتها
can be processed by a computer. .بإستخدام الحاسوب
What are the types of data? عدد أنواع البٌانات ؟
Operational Data البٌانات التشغٌلٌه أو المتغٌره
Non-Operational Data ) البٌانات غٌر العملٌه ( مستقره
Meta Data البٌانات نفسها
What is the different between Relational ًماهو الفرق بٌن مخطط قواعد البٌانات العالئق
and Multidimensional database و المخطط متعدد االتجاهات ؟
structure?
In a relational structure data is فً مخطط العالقات ٌتم تخزٌن البٌانات
stored in tables permitting ad hoc فً جداول و السماح بإستعمال
queries. . االستعالمات للوصول الٌها
In a multidimensional structure on اما فً متعدده االتجاهات تكون البٌانات
other hands set of cubes are عباره عن مجموعه من المكعبات و
arranged in arrays with subset التً ٌتم ترتٌب البٌانات فٌها بشكل
created according to category. مصفوفات و إنشاء مجموعه فرعٌه
.منها
What are things that can provide us ماهً االشٌاء التً ٌمكن ان تزودنا بالمعلومات
information? ؟
Patterns االنماط
Associations المجموعات
Relationships العالقات
Note: information can be converted into المعلومات ٌمكن أن تتحول الى:مالحظه
knowledge about historical patterns and معرفه حول انماط تارٌخٌه معٌنه أو بإتجاه
future trends. المستقبل
Define Data mining? عرف تنقٌب البٌانات ؟
Is a process of extracting hidden patterns هً عملٌه إنتزاع االنماط المخفٌه من البٌانات
from data.
Explain The important of Data mining? أشرح اهمٌه تنقٌب البٌانات ؟
Data mining an increasingly تنقٌب البٌانات تعتبر من اهم االدوات
important tool to transform this التً تستخدم فً تحوٌل البٌانات الى
data into information. معلومات
Used in wide range of application تستخدم بشكل واسع فً التطبٌقات مثل
such as marketing and fraud and التسوق و اكتشاف الخدع و االكتشافات
scientific discovery. العلمٌه
Define knowledge discovery (Data m)? عرف إكتشاف المعرفه ( أو تنقٌب البٌانات ) ؟
Is the process of analyzing data from هً عملٌه تحلٌل البٌانات من أوجه مختلفه
different perspectives and summarizing it و تحلٌلها و تلخٌصها لتصبح معلومات مفٌده
into useful information.
Define data warehouse? عرف مستودع البٌانات ؟
Is a process of centralized data هو عملٌه إداره و إسترجاع البٌانات المركزٌه
management and retrieval.
Note: centralization of data is needed to البٌانات المركزه تحتاج الى مستخدم: مالحظه
maximize user access and analysis. . كحد اقصى للوصول للبٌانات و تحلٌلها
What are Data mining tasks? عدد مهام تنقٌب البٌانات ؟
Classification التصنٌف
Clustering المجموعات
Association الروابط
Regression االنحدار
Define the classification? عرف التصنٌف؟
Arranges the data into predefined groups هو عملٌه ترتٌب البٌانات داخل مجموعات
for example the Email . معرفه مثل االٌمٌل
Working with 2 algorithms Nearest وتعمل بخوارزمٌتٌن اقرب جار و الشبكه
neighbor and Neural network العصبٌه
Define clustering? عرف المجموعات ؟
Give a set of data point each having a set تعطً مجموعه من النقاط من البٌانات وكل
of attributes and similarity measure مجموعه تمتلك مجموعه من الخصائص و لها
Data in one cluster are more similar to one نفس المقٌاس
another كلما كانت نقطه البٌانات فً نفس المجموعه كان
التشابه كبٌر
Define Association Rule Discovery? عرف إكتشاف قاعده الربط ؟
Given a set of records each of which ٌعطً مجموعه من الحقول وكل حقل ٌحتوي
contain some number of items from a على مجموعه من العناصر
given collection. نالحظ أكثر العناصر إرتباطا مع العناصر
Searches for relationships between االخرى و نعتبرها هً قاعده االرتباط
variables. أو هً البحث بٌن المتغٌرات عن عالقه
تربطهم
Note: the clustering is like classification المجموعات تشبه التصنٌفات لكن:مالحظه
but the groups are not predefined المجموعات ال تكون معرفه
Define Regression? عرف االنحدار؟
Attempts to find a function which models هو محاوله أٌجاد داله لتشكٌل وتمثٌل البٌانات
the data with least error مع اقل عدد ممكن من االخطاء بإستخدام
And used Genetic programming البرمجه الوراثٌه
What are data mining elements? عدد عناصر تنقٌب البٌانات ؟
Extract, transform, and load تخزٌن و نقل البٌانات و تحمٌل
transaction data onto the data البٌانات الى نظام تخزٌن قواعد
warehouse system. البٌانات
Store and manage the data in a تخزٌن و إداره البٌانات بإستخدام
multidimensional database أنظمه قواعد البٌانات المتعدده
system. تمكٌن البٌانات من الوصول الى
Provide data access to business تحلٌل العملٌات و المعلومات
analysts and information االحترافٌه
technology professionals. تحلٌل البٌانات بواسطه التطبٌقات
تمثٌل البٌانات و تخزٌنها فً جداول
Analyse the data by application
software.
Present the data in a table.
Note: Organizations are using data لعمل إنتاج تحلٌلً ممٌز ٌتم: مالحظه
mining tools and data mining إستعمالهما معا ً االدوات و التطبٌقات و كالهما
applications together in an integrated متاح
environment for predictive analytics.
What are the goals of Data mining tools عدد المهام التً تقوم بها ادوات تنقٌب البٌانات
؟
Data mining tools provide both developers توفر للمستخدم الشاشات التً تساعده على
and business users with an interface for االكتشاف-
discovering, manipulating, and analysing المعالجه-
corporate data التحلٌل-
Explain Text mining and web mining? اشرح تنقٌب النصوص و تنقٌب االنترنت ؟
Recent advances have led to the فوائد جدٌده ٌمكن ان تقود الى مجموعه جدٌده
newest and hottest trends in data وموجهه من تنقٌب البٌانات
mining—text mining and Web mining. وهذه التقنٌات تغذي العمٌل بالبٌانات حٌث تسمح
These two data mining technologies له بإستعراضها خالل تصفح االنترنت و تحلٌلها
open a rich vein of customer data in وإضافه المعلومات الى السرفر
the form of textual comments from
survey research and log files from Web
servers
Unite TOW الوحده الثانٌه
Note: data mining is the core of KDD KDD تنقٌب البٌانات تعتبر نواه الـ:مالحظه
Define KDD (knowledge Discovery in عملٌه اكتشاف المعرفهKDD ماهو تعرٌف
Database)? فً قواعد البٌانات ؟
process of finding useful information and هً عملٌه اٌجاد المعلومات و االنماط المفٌده من
patterns in data. البٌانات
What are data mining algorithm ماهً مكونات خوارزمٌات تنقٌب البٌانات ؟
components?
Model representation : نموذج التمثٌل
descriptions of discovered patterns ٌقوم بوصف االنماط المكتشفه
Model evaluation criteria : نموذج تقدٌر المقٌاس
how well a pattern (model) meets وصف كٌف ٌمكن لهذه االنماط تحقٌق
goals االهداف
Search method : طرٌقه البحث
parameter search: optimization of معامل البحث ٌنظم االنماط العطاء
parameters for a given model ًنموذج تماثل
representation
Note: Data mining involves fitting models تنقٌب البٌانات ٌشمل تركٌب النماذج: مالحظه
to and determining patterns from و تحدٌد االنماط من مجموعه من النماذج
observed data المعروضه
What are the steps involved in KDD ؟KDD ماهً الخطوات التً تتم فً معالجه ال
process?
Selection: Obtain data from أختٌار البٌانات من: االختٌار
various sources. مصادر مختلفه
Preprocessing: data cleaning. تنظٌف البٌانات: االعداد
Transformation: Convert to نقل البٌانت الى إطار جدٌد: النقل
common format. Transform to أختٌار النتٌجه: تنقٌب البٌانات
new format. المطلوبه من خالل إستخدام أدوات
Data Mining: Obtain desired ومهام تنقٌب البٌانات
results by applying Data Mining عرض و تمثٌل النتائج: التفسٌر
tasks tools. . للمستخدم
Interpretation/Evaluation:
Present results to user in
meaningful manner.
What are the stages of data mining ماهً المراحل التً تتم فً عملٌه تنقٌب
process? البٌانات؟
Consists of three stages: : مراحل3 عملٌات تنقٌب البٌانات تتكون من
(1) The initial exploration, ً االستكشاف الداخل-1
(2) Model building بناء النموذج-2
(3) Deployment االنتشار-3
Explain Exploration? (stage one ) اشرح مفهوم االكتشاف االولً؟
This stage usually starts with data ًفً هذه المرحله نبداء بإعداد البٌانات و الت
preparation which may involve تشمل تنظٌف البٌانات و تحوٌلها وإختٌار
cleaning data, data transformations, الحقول الفرعٌه
selecting subsets of records.
Where EDA used? ؟EDA فً ماذا تستخدم تقنٌه
Exploratory Data Analysis (EDA) is used تستخدم فً توضٌح العالقات المنظمه بٌن
to identify systematic relations المتغٌرات عندما التكون مكتمله فٌقوم بتوقع
between variables when there are no العالقات الطبٌعٌه فٌها
(or not complete) expectations as to
the nature of those relations.
Explain Model Building? (stage tow ) اشرح معنى بناء النموذج؟
choose the suitable models to represent إختٌار النموذج المالئم لتمثٌل البٌانات
the explored data المكتشفه
Explain Deployment? ( stage three) اشرح معنى االنتشار ؟
in deployment ensure that the resultant هو التأكد بان االنماط الناتجه قابلت االنماط
patterns meet the required patterns for المطلوبه للتنبئ و إتخاذ القرار
prediction and decision making
Z-Score normalization:
ύ = v–Ã
A
where:
à is the mean value
A is the standard deviation
Consider min and max values for the attribute income are $12,000 and $98,000.
Map range = [0.0, 1.0] or minA = 0, maxA=1.0
then a value of v=$73.600 for income is transformed to:
What is the value of normalization?
73,600 – 12,000
×(1.0 – 0.0) +0= 0.716
98,000 – 12,000
Consider the mean and standard deviation of the values for the attribute
income are $54,000 and $16,000 respectively, with z-score normalization, a
value of $73,600 for income is transformed to:
73,600 – 54,000
= 1.225
16,000
Explain Data Reduction? أشرح عملٌه فصل البٌانات ؟
Data mining on huge amounts of data تنقٌب البٌانات فً محتوى ضخم من البٌانات
is impractical and takes a long time. . غٌر عملً وٌأخذ الكثٌر من الوقت
Data reduction is useful for obtaining فصل البٌانات مفٌد لكسب مجموعه من البٌانات
reduced data set without losing its بدون حدوث فقد فً البٌانات و جعلها متكامله
integrity.
There are some steps for reduction data? هناك عده مراحل لفصل البٌانات ماهً ؟
Data cube aggregation, Attribute subset البٌانات المجموعه المكعبه – إختٌار الخصائص
selection, Histograms الفرعٌه و المنحنى التكراري
Draw a 3-D data cube representation of the data in Table below according to time
, Time ,Item , and location ( Khartoum , Nyala , Kassala , Medani )
The answer :
MLE=
Coin toss five times: {H,H,H,H,T}
Assuming a perfect coin with H and T equally likely, the likelihood of this
sequence is:
O={50,93,67,78,87}
E=75
(50 – 75) ² +(93 – 75) ² +( 67- 75) ² + (78 – 75 ) ² + (87 – 75) ²
X²= =15.54
75 75 75 75 75
Examine the degree to which the values ٌفحص درجه كل القٌم لكل قٌمتٌن ٌتصرفان: الربط
for two variables behave similarly. بشكل متشابه
Correlation coefficient r: ً ٌكون إرتباط مثال1 = لو
1 = perfect correlation ً ٌكون إرتباط مثالً عكس-1 = لو
-1 = perfect but opposite correlation ال ٌوجد هناك إرتباط0 = لو
0 = no correlation
r
Good Luck
Radwan Mohammed
Aljaki2@live.com
7/10/2014 2:02 AM