You are on page 1of 16

Summary Of

Data mining
Radwan Mohammed

10/7/2014
Unit one ‫الوحده االولى‬
Define Data? ‫عرف البٌانات ؟‬
Data are any facts, numbers or text that ‫هً حقائق أو ارقام أو نصوص تم معالجتها‬
can be processed by a computer. .‫بإستخدام الحاسوب‬
What are the types of data? ‫عدد أنواع البٌانات ؟‬
 Operational Data ‫ البٌانات التشغٌلٌه أو المتغٌره‬
 Non-Operational Data ) ‫ البٌانات غٌر العملٌه ( مستقره‬
 Meta Data ‫ البٌانات نفسها‬
What is the different between Relational ً‫ماهو الفرق بٌن مخطط قواعد البٌانات العالئق‬
and Multidimensional database ‫و المخطط متعدد االتجاهات ؟‬
structure?
 In a relational structure data is ‫ فً مخطط العالقات ٌتم تخزٌن البٌانات‬
stored in tables permitting ad hoc ‫فً جداول و السماح بإستعمال‬
queries. . ‫االستعالمات للوصول الٌها‬
 In a multidimensional structure on ‫ اما فً متعدده االتجاهات تكون البٌانات‬
other hands set of cubes are ‫عباره عن مجموعه من المكعبات و‬
arranged in arrays with subset ‫التً ٌتم ترتٌب البٌانات فٌها بشكل‬
created according to category. ‫مصفوفات و إنشاء مجموعه فرعٌه‬
.‫منها‬
What are things that can provide us ‫ماهً االشٌاء التً ٌمكن ان تزودنا بالمعلومات‬
information? ‫؟‬
 Patterns ‫ االنماط‬
 Associations ‫ المجموعات‬
 Relationships ‫ العالقات‬
Note: information can be converted into ‫ المعلومات ٌمكن أن تتحول الى‬:‫مالحظه‬
knowledge about historical patterns and ‫معرفه حول انماط تارٌخٌه معٌنه أو بإتجاه‬
future trends. ‫المستقبل‬
Define Data mining? ‫عرف تنقٌب البٌانات ؟‬
Is a process of extracting hidden patterns ‫هً عملٌه إنتزاع االنماط المخفٌه من البٌانات‬
from data.
Explain The important of Data mining? ‫أشرح اهمٌه تنقٌب البٌانات ؟‬
 Data mining an increasingly ‫ تنقٌب البٌانات تعتبر من اهم االدوات‬
important tool to transform this ‫التً تستخدم فً تحوٌل البٌانات الى‬
data into information. ‫معلومات‬
 Used in wide range of application ‫ تستخدم بشكل واسع فً التطبٌقات مثل‬
such as marketing and fraud and ‫التسوق و اكتشاف الخدع و االكتشافات‬
scientific discovery. ‫العلمٌه‬
Define knowledge discovery (Data m)? ‫عرف إكتشاف المعرفه ( أو تنقٌب البٌانات ) ؟‬
Is the process of analyzing data from ‫هً عملٌه تحلٌل البٌانات من أوجه مختلفه‬
different perspectives and summarizing it ‫و تحلٌلها و تلخٌصها لتصبح معلومات مفٌده‬
into useful information.
Define data warehouse? ‫عرف مستودع البٌانات ؟‬
Is a process of centralized data ‫هو عملٌه إداره و إسترجاع البٌانات المركزٌه‬
management and retrieval.
Note: centralization of data is needed to ‫ البٌانات المركزه تحتاج الى مستخدم‬: ‫مالحظه‬
maximize user access and analysis. . ‫كحد اقصى للوصول للبٌانات و تحلٌلها‬
What are Data mining tasks? ‫عدد مهام تنقٌب البٌانات ؟‬
 Classification ‫ التصنٌف‬
 Clustering ‫ المجموعات‬
 Association ‫ الروابط‬
 Regression ‫ االنحدار‬
Define the classification? ‫عرف التصنٌف؟‬
Arranges the data into predefined groups ‫هو عملٌه ترتٌب البٌانات داخل مجموعات‬
for example the Email . ‫معرفه مثل االٌمٌل‬
Working with 2 algorithms Nearest ‫وتعمل بخوارزمٌتٌن اقرب جار و الشبكه‬
neighbor and Neural network ‫العصبٌه‬
Define clustering? ‫عرف المجموعات ؟‬
Give a set of data point each having a set ‫تعطً مجموعه من النقاط من البٌانات وكل‬
of attributes and similarity measure ‫مجموعه تمتلك مجموعه من الخصائص و لها‬
Data in one cluster are more similar to one ‫نفس المقٌاس‬
another ‫كلما كانت نقطه البٌانات فً نفس المجموعه كان‬
‫التشابه كبٌر‬
Define Association Rule Discovery? ‫عرف إكتشاف قاعده الربط ؟‬
Given a set of records each of which ‫ٌعطً مجموعه من الحقول وكل حقل ٌحتوي‬
contain some number of items from a ‫على مجموعه من العناصر‬
given collection. ‫نالحظ أكثر العناصر إرتباطا مع العناصر‬
Searches for relationships between ‫االخرى و نعتبرها هً قاعده االرتباط‬
variables. ‫أو هً البحث بٌن المتغٌرات عن عالقه‬
‫تربطهم‬
Note: the clustering is like classification ‫ المجموعات تشبه التصنٌفات لكن‬:‫مالحظه‬
but the groups are not predefined ‫المجموعات ال تكون معرفه‬
Define Regression? ‫عرف االنحدار؟‬
Attempts to find a function which models ‫هو محاوله أٌجاد داله لتشكٌل وتمثٌل البٌانات‬
the data with least error ‫مع اقل عدد ممكن من االخطاء بإستخدام‬
And used Genetic programming ‫البرمجه الوراثٌه‬
What are data mining elements? ‫عدد عناصر تنقٌب البٌانات ؟‬
 Extract, transform, and load ‫ تخزٌن و نقل البٌانات و تحمٌل‬
transaction data onto the data ‫البٌانات الى نظام تخزٌن قواعد‬
warehouse system. ‫البٌانات‬
 Store and manage the data in a ‫ تخزٌن و إداره البٌانات بإستخدام‬
multidimensional database ‫أنظمه قواعد البٌانات المتعدده‬
system. ‫ تمكٌن البٌانات من الوصول الى‬
 Provide data access to business ‫تحلٌل العملٌات و المعلومات‬
analysts and information ‫االحترافٌه‬
technology professionals. ‫ تحلٌل البٌانات بواسطه التطبٌقات‬
‫ تمثٌل البٌانات و تخزٌنها فً جداول‬
 Analyse the data by application
software.
 Present the data in a table.

What are analysis levels ? ‫عدد مستوٌات التحلٌل ؟‬


 Artificial neural networks: ً‫ ه‬:‫ الشبكه العصبٌٌه االصطناعٌه‬
Non-linear predictive models that learn ‫عباره عن نموذج غٌر خطً ٌتعلم‬
through training and resemble (imitate) ً‫بالتدرٌب وهو ٌشبه الجهاز العصب‬
biological neural networks in structure.
ً‫الطبٌع‬
 Genetic algorithms:
Optimization techniques that use
‫ هً عباره عن‬: ‫ الخوارزمٌه الجٌنٌه‬
processes such as genetic combination, ‫تقنٌات إختٌارٌه تستخدم مجموعه‬
mutation (change), and natural selection ً‫وراثٌه لتصمٌم المفاهٌم االساسٌه ف‬
in a design based on the concepts of ‫الوراثه الطبٌعٌه‬
natural evolution. ‫ هً تمثل نفس هٌكل‬:‫ شجره القرار‬
 Decision trees: ‫الشجره الطبٌعً وهً مجموعه من‬
o Tree-shaped structures that ‫القرارات التً تولد قواعد لتصنٌف‬
represent sets of decisions. ‫البٌانات‬
o These decisions generate rules for
‫ هً عملٌه‬: ‫ قاعده زٌاده االنتاجٌه‬
the classification of a data set.
) ‫إستخالص القواعد المهمه (إذا كان فإن‬
 Rule induction: The extraction of useful if-
then rules from data based on statistical
‫من البٌانات االساسٌه فً المستندات‬
significance. ‫االحصائٌه‬
 Data visualization: The visual ‫ هً تمثٌل‬: ‫ البٌانات االفتراضٌه‬
interpretation of complex relationships in ‫العالقات المعقده فً بٌانات متعدده‬
multidimensional data. ‫االبعاد‬
Note: data mining applications are ‫ تطبٌقات تنقٌب البٌانات متاحه فً كل‬: ‫مالحظه‬
available on all size systems for client/server , PC , mainframe ‫االنظمه‬
mainframe, client/server, PC platforms
Data mining do tow processes what are ‫ٌقوم تنقٌب البٌانات بعملٌتٌن رئٌسٌتٌن إذكرهما‬
this? ‫؟‬
 Discovery ‫ االستكشاف‬
 Prediction ‫ التنبئ‬
What are the applications that uses in ‫عدد التطبٌقات المستخدمه فً تنقٌب البٌانات؟‬
Data mining ?
 RapidMiner RapidMiner 
 Weka Weka 
 Art Art 
What are the data mining issues? ‫ماهً قضاٌا تنقٌب البٌانات ؟‬
 1. Business issues: analysing routine ‫ هً عملٌه تحلٌل‬:‫ القضاٌا التجارٌه‬
business transactions and ‫البٌانات التجارٌه الموجهه و تحوٌلها‬
classifications. . ‫و تصنٌفها‬
 2. social issues: ‫ القضاٌا االجتماعٌه‬
 3. Mining Methodology Issues: ‫ مناسبه ومالئمه‬: ‫ قضاٌا منهجٌه التنقٌب‬
Pertain to data mining approaches ‫لتنقٌب البٌانات و ٌطبق فً تحدٌدها‬
applied and their limitations. ً‫ عند حدوث توقف دراماتٌك‬: ‫ التكلفه‬
 4. Cost: While system hardware ‫لتكلفه فً السنوات الماضٌه فإن تنقٌب‬
ً‫البٌانات و تخزٌنها ٌوفر الدعم الذات‬
costs have dropped dramatically
‫لحل هذه المشكله‬
within the past few years, data
‫ المعرفه‬: ‫ قضاٌا واجهات المستخدم‬
mining and data warehousing tend
‫المكتشفه بواسطه تنقٌب البٌانات تكون‬
to be self-reinforcing ‫مفٌده ومفهومه للمستخدم وهو ٌحتاج‬
 5. User Interface Issues: ‫الى نتٌجه جٌده وتناظرٌه لتنقٌب‬
The knowledge discovered by data ‫البٌانات‬
mining tools is useful as long as it is ‫هً مجموعه‬: ‫ قضاٌا مصادر البٌانات‬
interesting, and above all ‫من البٌانات المنفذه و التً تظهر عندما‬
understandable by the user. ‫نمتلك الكثٌر من البٌانات التً ٌمكن ان‬
 6. Data Source issue: ‫نستعملها و قد تكون مجموعه من‬
An excess of data appear when we ‫االنواع المخزنه فً تشكٌله من االنماط‬
have more data than we can
handle - different types of data
are stored in a variety of repositories
What is Data mining software? ‫عرف برامج تنقٌب البٌانات ؟‬
Data mining software is one of a ‫هً واحده من االدوات المستعمله فً تحلٌل‬
number of analytical tools for analysing ‫البٌانات بحٌث ٌسمح للمستخدم بتحلٌل البٌانات‬
data. ‫من عدد كبٌر من المصادر و تلخٌصها و تحدٌد‬
It allows users to analyse data from . ‫عالقات الربط بٌنها‬
many different dimensions or angles,
categorize it, and summarize the
relationships identified.

What is Technically of Data mining? ‫عرف تقنٌه تنقٌب البٌانات ؟‬


Technically, data mining is the process ‫هً عملٌه إٌجاد إرتباطات و انماط من بٌن‬
of finding correlations or patterns ‫عشرات الحقول فً قواعد البٌانات العالئقٌه‬
among dozens of fields in large ‫الكبٌره‬
relational databases. : 2 ‫وٌتم تقسٌمها الى‬
And that are two groups data mining ‫ادوات تنقٌب البٌانات وتطبٌقات تنقٌب البٌانات‬
tools and data mining applications

Note: Organizations are using data ‫ لعمل إنتاج تحلٌلً ممٌز ٌتم‬: ‫مالحظه‬
mining tools and data mining ‫إستعمالهما معا ً االدوات و التطبٌقات و كالهما‬
applications together in an integrated ‫متاح‬
environment for predictive analytics.

What are the goals of Data mining tools ‫عدد المهام التً تقوم بها ادوات تنقٌب البٌانات‬
‫؟‬
Data mining tools provide both developers ‫توفر للمستخدم الشاشات التً تساعده على‬
and business users with an interface for ‫ االكتشاف‬-
discovering, manipulating, and analysing ‫ المعالجه‬-
corporate data ‫ التحلٌل‬-
Explain Text mining and web mining? ‫اشرح تنقٌب النصوص و تنقٌب االنترنت ؟‬
Recent advances have led to the ‫فوائد جدٌده ٌمكن ان تقود الى مجموعه جدٌده‬
newest and hottest trends in data ‫وموجهه من تنقٌب البٌانات‬
mining—text mining and Web mining. ‫وهذه التقنٌات تغذي العمٌل بالبٌانات حٌث تسمح‬
These two data mining technologies ‫له بإستعراضها خالل تصفح االنترنت و تحلٌلها‬
open a rich vein of customer data in ‫وإضافه المعلومات الى السرفر‬
the form of textual comments from
survey research and log files from Web
servers
Unite TOW ‫الوحده الثانٌه‬
Note: data mining is the core of KDD KDD ‫ تنقٌب البٌانات تعتبر نواه الـ‬:‫مالحظه‬
Define KDD (knowledge Discovery in ‫ عملٌه اكتشاف المعرفه‬KDD ‫ماهو تعرٌف‬
Database)? ‫فً قواعد البٌانات ؟‬
process of finding useful information and ‫هً عملٌه اٌجاد المعلومات و االنماط المفٌده من‬
patterns in data. ‫البٌانات‬
What are data mining algorithm ‫ماهً مكونات خوارزمٌات تنقٌب البٌانات ؟‬
components?
 Model representation : ‫نموذج التمثٌل‬ 
descriptions of discovered patterns ‫ٌقوم بوصف االنماط المكتشفه‬
 Model evaluation criteria : ‫نموذج تقدٌر المقٌاس‬ 
how well a pattern (model) meets ‫وصف كٌف ٌمكن لهذه االنماط تحقٌق‬
goals ‫االهداف‬
 Search method : ‫طرٌقه البحث‬ 
parameter search: optimization of ‫معامل البحث ٌنظم االنماط العطاء‬ 
parameters for a given model ً‫نموذج تماثل‬
representation
Note: Data mining involves fitting models ‫ تنقٌب البٌانات ٌشمل تركٌب النماذج‬: ‫مالحظه‬
to and determining patterns from ‫و تحدٌد االنماط من مجموعه من النماذج‬
observed data ‫المعروضه‬
What are the steps involved in KDD ‫ ؟‬KDD ‫ماهً الخطوات التً تتم فً معالجه ال‬
process?
 Selection: Obtain data from ‫ أختٌار البٌانات من‬: ‫االختٌار‬ 
various sources. ‫مصادر مختلفه‬
 Preprocessing: data cleaning. ‫ تنظٌف البٌانات‬: ‫االعداد‬ 
 Transformation: Convert to ‫ نقل البٌانت الى إطار جدٌد‬: ‫النقل‬ 
common format. Transform to ‫ أختٌار النتٌجه‬: ‫تنقٌب البٌانات‬ 
new format. ‫المطلوبه من خالل إستخدام أدوات‬
 Data Mining: Obtain desired ‫ومهام تنقٌب البٌانات‬
results by applying Data Mining ‫ عرض و تمثٌل النتائج‬: ‫التفسٌر‬ 
tasks tools. . ‫للمستخدم‬
 Interpretation/Evaluation:
Present results to user in
meaningful manner.
What are the stages of data mining ‫ماهً المراحل التً تتم فً عملٌه تنقٌب‬
process? ‫البٌانات؟‬
Consists of three stages: :‫ مراحل‬3 ‫عملٌات تنقٌب البٌانات تتكون من‬
(1) The initial exploration, ً‫ االستكشاف الداخل‬-1
(2) Model building ‫ بناء النموذج‬-2
(3) Deployment ‫ االنتشار‬-3
Explain Exploration? (stage one ) ‫اشرح مفهوم االكتشاف االولً؟‬
This stage usually starts with data ً‫فً هذه المرحله نبداء بإعداد البٌانات و الت‬
preparation which may involve ‫تشمل تنظٌف البٌانات و تحوٌلها وإختٌار‬
cleaning data, data transformations, ‫الحقول الفرعٌه‬
selecting subsets of records.
Where EDA used? ‫ ؟‬EDA ‫فً ماذا تستخدم تقنٌه‬
Exploratory Data Analysis (EDA) is used ‫تستخدم فً توضٌح العالقات المنظمه بٌن‬
to identify systematic relations ‫المتغٌرات عندما التكون مكتمله فٌقوم بتوقع‬
between variables when there are no ‫العالقات الطبٌعٌه فٌها‬
(or not complete) expectations as to
the nature of those relations.
Explain Model Building? (stage tow ) ‫اشرح معنى بناء النموذج؟‬
choose the suitable models to represent ‫إختٌار النموذج المالئم لتمثٌل البٌانات‬
the explored data ‫المكتشفه‬
Explain Deployment? ( stage three) ‫اشرح معنى االنتشار ؟‬
in deployment ensure that the resultant ‫هو التأكد بان االنماط الناتجه قابلت االنماط‬
patterns meet the required patterns for ‫المطلوبه للتنبئ و إتخاذ القرار‬
prediction and decision making

What are data mining functionalities? ‫ماهً وظائف تنقٌب البٌانات ؟‬


 -Characterization: summarization of ‫ هو ملخص للممٌزات العامه‬: ‫ الوصف‬
general features of objects and ‫للعناصر و إنتاج القواعـد الممٌزه‬
produces characteristics rules. ‫ مقارنه بٌن نوعٌن من‬:‫ االختالف‬
 - Discrimination: Comparison ‫التصنٌف ( تصنٌف الهدف و التصنٌف‬
between two classes, target class ) ‫المناقض‬
and contrasting class ‫ هو عملٌله تكرار‬: ‫ تحلٌل الروابط‬
 - Association analysis: the frequency ‫العناصر التً تحدث معا فً عملٌه نقل‬
of items occurring together in ‫قواعد البٌانات‬
transactional database. ً‫ هو تنظٌم البٌانات ف‬: ‫ التصنٌف‬
‫أصناف معطاه‬
 - Classification: Organization of data
in a given class.
What are the types of prediction? ‫ماهً أنواع التنبئ ؟‬
 predict some unavailable data ‫ التنبئ للقٌم الغٌر متاحه‬
values ‫ التنبئ بالتصنٌف لبعض البٌانات‬
 predict a class label for some data
What is Outlier analysis? ‫ماهو التحلٌل الخارجً؟‬
Outliers are data elements that cannot be ‫هً عباره عن بٌانات ال تستطٌع أن تكون‬
grouped in a given class or cluster. Known ‫مجموعه فً تصنٌف معٌن أو تجمع (تعرف‬
as exceptions or surprises. In some ) ‫باالستثنائات‬
applications they are noise, but they can ‫فً بعض التطبٌقات تعتبر ضوضاء لكن ٌمكن‬
reveal important knowledge in other ‫ان تكون مهمه فً بعض التطبٌقات االخرى‬
domains.
What is the different between Evolution ‫ماهو الفرق بٌن االنحراف المعٌاري و التدرج ؟‬
and deviation analysis?
 Evolution pertain to the study of ‫ هو دراسه‬:‫ االنحراف المعٌاري‬
time related data that changes in ‫التغٌرات التً تحصل فً التحلٌل خالل‬
time. .‫فتره زمنٌه معٌنه‬
 Deviation analysis considers ‫ هو الفرق بٌن القٌمه الفعلٌه‬:‫ التدرج‬
differences between measured .‫و القٌمه المتوقعه‬
values and expected values.
Unite three ‫الوحده الثالثه‬
What are data processes? ‫ماهً عملٌات البٌانات ؟‬
 Data Cleaning ‫ تنظٌف البٌانات‬
 Data Integration ‫ تكامل البٌانات‬
 Data Transformation ‫ تحوٌل البٌانات‬
 Data Reduction ‫ فصل البٌانات أو إختصارها‬
What are data cleaning capabilities ‫ماهً العملٌه التً تتم عند تنظٌف البٌانات؟‬
include?
 Smoothing noisy data ‫تنعٌم البٌانات المزعجه‬ 
 -Eliminate duplicate records ‫التخلص من الحقول المكرره‬ 
 -Identification of missing or ‫تعٌٌن البٌانات المفقوده و غٌر المكتمله‬ 
incomplete data ‫حذف و إزاله البٌانات المهمله او غٌر‬ 
 -Removal of obsolete (not used) ‫المستعمله‬
data
What is noise data? ‫ماهً البٌانات المزعجه ؟‬
Noise is a random error or variance in a ‫هً أخطاء عشوائٌه أو إختالف فً المقٌاس او‬
measured or recorded data ‫فً حقول البٌانات‬
How can we smoothing data in DM? ‫كٌف ٌمكن تنعٌم البٌانات فً تنقٌب البٌانات ؟‬
In data mining binning method is used to ‫ٌتم إستعمال الصنادٌق لتقسٌم و تصنٌف البٌانات‬
smooth data ‫ومن ثم تنعٌمها‬
Given a numerical attribute such as Price with data: 3,27,7,32,25,25,6,28,22
Using Binning (with three bins) will give
 Partitioning
Bin 1: 3 6 7
Bin 2: 22 25 25
Bin 3: 27 28 32
 Smoothing by Bin Mean (for the nearest recorded value)
Bin 1: 6 6 6
Bin 2: 25 25 25
Bin 3: 28 28 28
Suppose a group of 12 sales price records has been stored as following:
5,10,11,13,15,35,50,55,72,92,204,215
Partition them into three bins by each of the following methods :
a- Equal frequency partitioning
b- Equal width partitioning
c- Clustering
a- Bin 1: 5 10 11 13
Bin 2: 15 35 50 55
Bin 3: 72 92 204 215
b- ?
c- Clustering
A={ 5,10,15,35,50,55,215}
B={11,13,72,92,204}
What is data integration? ‫ماهو تكامل البٌانات ؟‬
Combining data from multiple data stores ‫خلط البٌانات من مخازن بٌانات متنوعه‬
into a coherent data store as in data ‫و البٌانات المتماسكه تم تخزٌنها فً مستودع‬
warehousing. ‫البٌانات‬
What are data transformation processes? ‫ماهً عملٌات تحوٌل البٌانات ؟‬
Aggregation,Generalization ‫االجمالً و عباره عامه و التطبٌع و تقٌٌم البناء‬
Normalization,Feature Construction
What is the meaning of normalization? ‫ماهو تطبٌع البٌانات ؟‬
In Normalization attribute data are scaled ‫هً عملٌه إختصار الخصائص الى مدى صغٌر‬
so as to fall within small specified range. ‫ومحدود وهو مفٌد لعملٌه التصنٌف والمجموعات‬
Useful for classification and clustering.
What are normalization techniques? ‫ماهً تقنٌات و انواع تطبٌع البٌانات ؟‬
 Min-Max Normalization ‫ التطبٌع االكبر و االصغر‬
 Z-Score normalization ً‫ التطبٌع النهائ‬
Min-Max Normalization:
v - minA
ύ= × (new_maxA - new_minA) new_minA
maxA-minA

Z-Score normalization:
ύ = v–Ã
A
where:
à is the mean value
A is the standard deviation

Consider min and max values for the attribute income are $12,000 and $98,000.
Map range = [0.0, 1.0] or minA = 0, maxA=1.0
then a value of v=$73.600 for income is transformed to:
What is the value of normalization?
73,600 – 12,000
×(1.0 – 0.0) +0= 0.716
98,000 – 12,000
Consider the mean and standard deviation of the values for the attribute
income are $54,000 and $16,000 respectively, with z-score normalization, a
value of $73,600 for income is transformed to:
73,600 – 54,000
= 1.225
16,000
Explain Data Reduction? ‫أشرح عملٌه فصل البٌانات ؟‬
Data mining on huge amounts of data ‫تنقٌب البٌانات فً محتوى ضخم من البٌانات‬
is impractical and takes a long time. . ‫غٌر عملً وٌأخذ الكثٌر من الوقت‬
Data reduction is useful for obtaining ‫فصل البٌانات مفٌد لكسب مجموعه من البٌانات‬
reduced data set without losing its ‫بدون حدوث فقد فً البٌانات و جعلها متكامله‬
integrity.
There are some steps for reduction data? ‫هناك عده مراحل لفصل البٌانات ماهً ؟‬
Data cube aggregation, Attribute subset ‫البٌانات المجموعه المكعبه – إختٌار الخصائص‬
selection, Histograms ‫الفرعٌه و المنحنى التكراري‬
Draw a 3-D data cube representation of the data in Table below according to time
, Time ,Item , and location ( Khartoum , Nyala , Kassala , Medani )
The answer :

Unite Four ‫الوحده الرابعه‬


What are data mining techniques? ‫ماهً تقنٌات تنقٌب البٌانات ؟‬
 Classification ‫ التصنٌفات‬
 Decision Tree ‫ شجره القرارات‬
 Neural Networks ‫ الشبكه الصناعٌه‬
 Genetic Algorithms ‫ الخوارزمٌه الجٌنٌه‬
Note: Prediction predicts unknown or ‫ التنبئ قد ٌتنبئ قٌم غٌر معروفه‬: ‫مالحظه‬
missing values. .‫او قٌم مفقوده‬
What is decision tree and what are his ‫ماهً شجره القرارات وماهً اجزائها ؟‬
parts?
is a computational model consisting of 3 ‫هً عباره عن نموذج حسابً ٌتكون من‬
three parts: : ‫اجزاء‬
• Decision Tree ‫ شجره القرار‬
• Algorithm to create the tree ‫ الخوارزمٌه النشاء الشجره‬
• Algorithm that applies the ‫ الخوارزمٌه التً تطبق الشجره على‬
tree to data ‫البٌانات‬
What are DT advantages/disadvantages? ‫ماهً ممٌزات و عٌوب شجره القرارات ؟‬
 Advantages: : ‫ الممٌزات‬
o Easy to understand. ‫ سهل فً الفهم‬o
o Easy to generate rules ‫ سهل فً تولٌد القواعد‬o
 Disadvantages: : ‫ عٌوبها‬
o May suffer from overfitting. ‫ ٌمكن ان تعانً من زٌاده‬o
o Classifies by rectangular ‫المقٌاس‬
partitioning. ‫ التصنٌف ٌكون بالمستطٌالت‬o
o Does not easily handle ‫المقسمه‬
‫ لٌست سهله للبٌانات غٌر العددٌه‬o
nonnumeric data.
‫ ٌمكن ان تكون ضخمه فً حاله‬o
o Can be quite large – pruning
‫ضروره التجزئه‬
is necessary.
What is neural network? ‫ماهً الشبكه االصطناعٌه؟‬
Is a collection of processing nodes ‫هً مجموعه من العقد المتحوله و النشطه‬
transferring activity to each other via ‫و المترابطه مع بعضها البعض مثل المخ‬
connections (the brain).
Explain Artificial network? ‫اشرح مفهوم الشبكه العصبٌه؟‬
In Artificial Neuron all signals can be 1 or - ‫فً الشبكه العصبٌه تكون كل القٌم و االشارات‬
1 as a binary case often called classic spin. 1- ,1 ‫بٌن‬
The neuron calculates a weighted sum (X) ‫نقوم بحساب مجموع االوزان المدخله ومقارنتها‬
of the inputs, and compare it with a T ‫مع قٌمه العتبه‬
Threshold (T). 1 = ‫اذا كانت اكبر منها‬
If the input is higher than Threshold T, the 1- = ‫اذا كانت اصغر منها‬
output is set to 1, otherwise to -1. 0 = ‫اذا كانت تساوٌها‬
Output S either 1 or -1.
What is feed forward approach? ‫ماهً التغذٌه العكسٌه ؟‬
NN is trained to classify certain patterns ‫تقود انماط التصنٌف الى مجموعات مركزٌه‬
into certain groups, and then used to ‫و استخدامها فً تصنٌف انماط جدٌده و تمثٌلها‬
classify new patterns presented to the net. ‫و عرضها فً االنترنت‬
What are the components of Genetic ‫ماهً مكونات الخوارزمٌه الجٌنٌه ؟‬
Algorithm?
 Flags ‫ اي اعرض‬1= ‫ له حالتان‬: ‫ االعالم‬
 Relation operator ‫الشرط الذي ٌتناسق مع الشرط‬
 Values ‫ اعرض الشرط الذي سوف ٌحذف‬0=
‫من القاعده‬
‫االرتباط له حالتان اذا كانت صرٌحه‬
<and = ‫= ومكمله‬and=
Explain OLAP? ‫ ؟‬OLAP ‫اشرح مفهوم الـ‬
On Line Analytical Processing performs ‫هً تحلٌل علمً ٌمثل أبعاد متعدده من تحلٌل‬
multidimensional analysis of business data ‫البٌانات التجارٌه و تزوٌدها بالكفائه و الخبره‬
and provide capability for sophisticated : ‫لها نوعٌن‬
data modelling. Relational OLAP - ROLAP ‫الـ‬
ROLAP - Relational OLAP Multidimensional OLAP – MOLAP ‫الـ‬
MOLAP - Multidimensional OLAP
Note: (OLAP): provides more complex ‫ ٌزودنا بإستعالمات معقده‬OLAP ‫ الـ‬: ‫مالحظه‬
queries than OLTP. OLTAP ‫أكثر من الـ‬
What are OLAP operations? ‫ ؟‬OLAP ‫عدد عملٌات الـ‬
 Single cell ‫ خلٌه فردٌه‬
 Multiple cell ‫ خلٌه متعدده‬
 Slice ‫ شرٌحه‬
 Dice ‫ نرد‬
Unit Five ‫الوحده الخامسه‬
What is Estimation Error? ‫ماهو توقع الخطاء؟‬
Difference between expected value and ‫هو االختالف او الفرق بٌن القٌمه المتوقعه‬
actual value. ‫و القٌمه الفعلٌه‬

MLE=
Coin toss five times: {H,H,H,H,T}
Assuming a perfect coin with H and T equally likely, the likelihood of this
sequence is:

However if the probability of a H is 0.8 then:


Variance( ‫ & )التباٌن‬Standard Deviation ( ‫) االنحراف المعٌاري‬

‫التباٌن‬ ‫االنحراف المعٌاري‬


Note:  = 0 only when there is no spread 0 = ‫ تكون قٌمه االنحراف المعٌاري‬: ‫مالحظه‬
‫عندما ال ٌكون هناك إنتشار‬
Explain Regression? ‫اشرح مفهوم االنحدار ؟‬
 The unknown parameters ‫ٌمكن ان ٌستخدم فً التنبئ داخل سلسله زمنٌه‬
denoted as β. This may be a ‫من البٌانات‬
scalar or a vector of length k. ‫= عنصرغٌر‬B , ‫ = تابع‬Y , ‫× = مستقل‬
 The independent variables, X. ‫معروف‬
 The dependent variable, Y.
Y = f (X, β)
‫قانون اٌجاد القٌمه المتوقعه‬

O={50,93,67,78,87}
E=75
(50 – 75) ² +(93 – 75) ² +( 67- 75) ² + (78 – 75 ) ² + (87 – 75) ²
X²= =15.54
75 75 75 75 75

Examine the degree to which the values ‫ ٌفحص درجه كل القٌم لكل قٌمتٌن ٌتصرفان‬: ‫الربط‬
for two variables behave similarly. ‫بشكل متشابه‬
Correlation coefficient r: ً‫ ٌكون إرتباط مثال‬1 = ‫لو‬
1 = perfect correlation ً‫ ٌكون إرتباط مثالً عكس‬-1 = ‫لو‬
-1 = perfect but opposite correlation ‫ ال ٌوجد هناك إرتباط‬0 = ‫لو‬
0 = no correlation
r
Good Luck

Radwan Mohammed

Aljaki2@live.com

7/10/2014 2:02 AM

You might also like