You are on page 1of 42

‫ورشة عمل‬

‫علم البيانات والبيانات الضخمة‬


‫‪/5-3‬آذار‪-‬مارس‪2020/‬‬
‫التعليم عن بعد‬

‫المعهد العربي للتدريب والبحوث االحصائية‬


‫د‪ .‬حسان أبو حسان‬
‫حسان أبو حسان‬
‫دكتوراه إحصاء تطبيقي‪ :‬جامعة جنوب إلينوي – أمريكا ‪2007‬‬ ‫•‬
‫ماجستير اقتصاد قياسي‪ :‬جامعة جنوب إلينوي – أمريكا ‪2008‬‬ ‫•‬
‫ماجستير رياضيات‪ :‬الجامعة األردنية ‪1991‬‬ ‫•‬
‫بكالوريوس رياضيات فرعي كمبيوتر‪ :‬جامعة اليرموك األردنية ‪1989‬‬ ‫•‬
‫أستاذ مساعد – دائرة الرياضيات – جامعة بير زيت‪2008 :‬‬ ‫•‬
‫مدير برنامج ماجستير اإلحصاء التطبيقي وعلم البيانات‪ 2018 :‬إلى‬ ‫•‬
‫تاريخه‬
‫خبير العينات في برنامج األمم المتحدة اإلنمائي ‪ – UNDP‬الكويت ‪2013‬‬ ‫•‬
‫إلى ‪2016‬‬
‫مدير دائرة المنهجيات والمعايير‪-‬الجهاز المركزي لإلحصاء الفلسطيني‪:‬‬ ‫•‬
‫‪ 1994‬إلى ‪2001‬‬
‫الخطوط العريضة‬

‫• البيانات والبيانات الكبيرة والتحديات‬


‫• علم البيانات‬
‫– المقدمة‬
‫– لماذا علم البيانات‬
‫• علماء البيانات‬
‫– ماذا يعملون؟‬
‫البيانات تحيط بنا‬

‫يتم جمع الكثير من البيانات وتخزينها‬ ‫•‬


‫بيانات الويب ‪ ،‬التجارة اإللكترونية‬ ‫•‬
‫المعامالت المالية ‪ ،‬والمعامالت المصرفية ‪ /‬االئتمان‬ ‫•‬
‫التداول والشراء عبر اإلنترنت‬ ‫•‬
‫الشبكات االجتماعية‬ ‫•‬
‫كم البيانات لدينا؟‬
‫• تعالج ‪Google 20 PB‬يوميًا (‪)2008‬‬
‫• يحتوي ‪Facebook‬على ‪ 60‬تيرابايت من السجالت اليومية‬
‫• لدى ‪ eBay 6.5 PB‬من بيانات المستخدم ‪ 50 +‬تيرابايت‬
‫في اليوم (‪)5/2009‬‬

‫تكلفة تخزين‪ 1‬تيرابايت ‪ 35 :‬دوالر‬ ‫•‬


‫الوقت لقراءة ‪ 1‬تيرابايت ‪ 3 :‬ساعات‬ ‫•‬
‫(‪ 100‬ميجابايت ‪ /‬ثانية)‬ ‫•‬
‫البيانات الكبيرة (الضخمة)‬
‫البيانات الكبيرة هي أي بيانات مكلفة في إدارتها ويصعب‬
‫استخراج القيم منها‬
‫‪ ‬الحجم‬
‫• حجم البيانات‬
‫‪ ‬السرعة‬
‫• حداثة معالجة البيانات نسبة إلى الطلب المتزايد علىها‬
‫‪ ‬التنوع والتعقيد‬
‫المصادر‬ ‫•‬
‫واألشكال‬ ‫•‬
‫والجودة‬ ‫•‬
‫بنية وتركيب البيانات ‪.Structure‬‬ ‫•‬
Big Data
‫أنواع البيانات لدينا‬

‫• البيانات العالئقية (الجداول ‪ /‬بيانات المعامالت)‬

‫• البيانات النصية (الويب)‬

‫• بيانات شبه منظمة ‪(XML) Semi-structured‬‬

‫• األشكال والرسومات البيانية‬

‫• الشبكة االجتماعية ‪ ،‬الويب الداللي )‪... ،)RDF‬‬

‫• تدفق البيانات‬
‫ماذا تفعل مع هذه البيانات؟‬
‫التجميع واستخراج إلحصاءات‬ ‫•‬
‫تخزين البيانات و المعالجة التحليلية عبر اإلنترنت(‪(OLAP‬‬ ‫•‬
‫الفهرسة والبحث واالستعالم‬ ‫•‬
‫البحث على أساس الكلمات الرئيسية ‪Keyword based‬‬ ‫•‬
‫‪search‬‬
‫مطابقة األنماط اكتشاف المعرفة‬ ‫•‬
‫تعدين البيانات‬ ‫•‬
‫النمذجة اإلحصائية‬ ‫•‬
Data Science – ‫علم البيانات‬
‫ما هو علم البيانات‬

‫• يتم من خالل علم البيانات تجميع‪ ،‬إدارة‪ ،‬ومعالجة‪،‬‬


‫واستخراج وتفسير المعرفة من البيانات الضخمة‬

‫ً‬
‫مجاال متعدد التخصصات للدراسة‬ ‫• يعد علم البيانات (‪)DS‬‬
‫بهدف مواجهة التحديات في البيانات الضخمة‬

‫‪https://hbr.org/2012/10/data-scientist-the-sexiest-job-of-the-21st-century/‬‬
‫ما هو علم البيانات‬
‫في علم البيانات‪ :‬يتم استخدام النظريات والتقنيات من العديد من المجاالت‬
‫والتخصصات لمعالجة كمية كبيرة من البيانات وتحليلها‪.‬‬
‫ما هي هذه التخصصات؟‬
‫• علوم الكمبيوتر‬
‫التعرف على األنماط ‪ ،‬التصور ‪ ،‬تخزين البيانات ‪ ،‬الحوسبة‬
‫عالية األداء ‪ ،‬قواعد البيانات ‪ ،‬الذكاء االصطناعى‬
‫• الرياضيات‬
‫النمذجة الرياضية‪ ،‬المصفوفات والجبر الخطي‬
‫• اإلحصاء‬
‫– االحتماالت والنمذجة اإلحصائية‪.‬‬
‫مواد تخصص علم البيانات‬

Matrices and ‫ الجبر الخطي والمصفوفات‬:‫• الرياضيات‬

Linear Algebra, and Mathematical Modelling.

Probability and Statistics ، ‫• اإلحصاء واالحتماالت‬

R, Python, Matlab, C++ :‫• لغات البرمجة‬


‫مواد تخصص علم البيانات‬

‫• إدارة البيانات – ‪Data Management‬‬

‫– يتطرق هذا الموضوع إلى التنقيب عن البيانات‪ ،‬استخراج البيانات‬

‫واسترجاع المعلومات‬

‫• تحليل البيانات ‪Data Analysis‬‬

‫– يشكل تحليل البيانات محورا رئيسيا في علم البيانات‬


‫مواد تخصص علم البيانات‬
‫• التعلم اآللي‪Machine Learning :‬‬
‫– يغطي مواضيع في التصنيف والروبوتات‬

‫• الخوارزميات‪Algorithms ،‬‬
‫– مجموعة من الخطوات الرياضية والمنطقية لحل المشاكل‬

‫• البيانات الضخمة‪Big Data :‬‬


‫‪ -‬يصعب معالجة هذه البيانات أو حتى التعامل معها وجمعها استنادا‬
‫على الطرق التقليدية‬
Data Science
‫أمثلة‬
‫• تتعلم الشركات أسرارك وأنماط التسوق والتفضيالت الخاصة‬
‫بك‪ :‬على سبيل المثال ‪ ،‬هل يمكننا معرفة ما إذا كانت المرأة‬
‫حامل ‪ ،‬من أنماط تسوقها‬
‫• علم البيانات واالنتخابات (‪)2012 ، 2008‬‬
‫‪ -‬قام مليون شخص بتثبيت تطبيق أوباما على ‪Facebook‬‬
‫والذي أتاح الوصول إلى المعلومات عن "األصدقاء"‬
‫• اإلعالنات المدفوعة على ‪ FaceBook‬تستهدف مجموعات‬
‫معينة‪.‬‬
‫• التصفح على ‪Google‬‬
‫علماء البيانات‬
‫• يعد علماء البيانات المفتاح لتحقيق الفرص التي توفرها‬
‫البيانات الضخمة‪ .‬فهم يقومون ب‪:‬‬

‫• إيجاد هيكل لها والعثور على أنماط مقنعة فيها‬

‫• إيجاد القصص‪ ،‬واستخراج المعرفة‪.‬‬

‫• تقديم المشورة للمديرين التنفيذيين بشأن اآلثار المترتبة على‬


‫المنتجات والعمليات والقرارات‬

‫• إنهم ليسوا مراسلين‬


‫ارتفاع الطلب على علماء البيانات‬
‫الوظيفة ذات أعلى طلب وعدم كفاية العرض‬ ‫•‬
‫احتاجت الواليات المتحدة إلى ‪ 190،000-140،000‬محلل تنبؤي و‬ ‫•‬
‫‪ 1.5‬مليون مدير ‪ /‬محلل بين عامي ‪ 2011‬و ‪.2018‬‬
‫معاهد علوم البيانات الجديدة التي يتم إنشاؤها ‪ -‬جامعة نيويورك ‪،‬‬ ‫•‬
‫كولومبيا ‪ ،‬واشنطن ‪ ،‬جامعة كاليفورنيا ‪... ،‬‬
‫برامج جديدة ‪ ،‬دورات ‪،edXHarvard, Data Camp, Coursera‬‬ ‫•‬
‫ورش عمل‪:‬‬
‫على سبيل المثال ‪ ،‬في بيركلي‪...Astronomy ،CS ،I-School ، Stats :‬‬
‫• مقترحات في العديد من األمكنة للحصول على ماجستير في "علوم‬
‫البيانات الكبيرة"‬
‫وظيفة مرتفعة األجر‬

‫• ال يزال متوسط راتب البدء لعالم البيانات مرتفعًا عند‬


‫‪ 95000‬دوالر‪.‬‬

‫• متوسط الراتب لعالم البيانات متوسط المستوى هو‬


‫‪.$ 128،750‬‬

‫ضا ‪ ،‬فسوف يرتفع‬


‫دورا إداريًا أي ً‬
‫• إذا كان لعالم البيانات هذا ً‬
‫متوسط الراتب إلى ‪ 185000‬دوالر‬
‫السمات الشخصية لرواد تخصص علك البيانات‬
‫السمات الشخصية لرواد تخصص علك البيانات‬
‫مجاالت عمل تخصص علم البيانات‬
‫• عالم بيانات‬

‫• االختصاص في البرمجة‪R , Python, SQL :‬‬

‫• إخصائي دعم تقني‬

‫• تحليل النظم وتصميمها وتطويرها‬

‫• تنقيب وتحليل البيانات‬

‫• االشراف على أعمال الكمبيوتر والروبوتات‬


‫مجاالت عمل تخصص علم البيانات‬
‫• االختصاص في قواعد البيانات‬

‫• العمل في مجال التعليم‬

‫• هندسة الكمبيوتر‬

‫• االختصاص في مجال التعلم اآللي‬

‫• العمل في المجاالت البحثية في علم الحاسوب‬

‫• العمل في مجال إدارة وحماية الشبكات‬

‫• ‪:‬‬
Examples: Find the needle in the haystack
Service
Data Science Service Change Result
Issue
NewOrleans
New Orleans Fire Nola’sanalytics
Nola’s analytics
New Orleans Fire Alarms

Nola FD used With no


Department
Fire (Nola team
teamused
used public
FD) distributes free data to identify the list to increase in
Department
fire alarms to public dataa high
homes with to resources or
(Nola
homes.FD) But many identify
probabilityhomes
of not
determine patrols, Nola FD
distributes
homes free
they visited with aa high
having fire alarm where to increased the
already had them,
fire alarms to and provided Nola
probability of offer fire
wasting Nola FD’s FD with a list.
hit rate of
homes.
resources.But not having a alarms. homes needing
many homes fire alarm and smoke alarms
they visited provided Nola by 2x.
already had FD with a list.
them, wasting
Nola FD’s
resources.
Examples: Find the needle in the haystack
Service
Data Science Service Change Result
Issue

New York City NYC analyzed The audit team With the same
New York City Tax Compliance

(NYC) conducts historical audit targeted the staff levels, the


corporate tax records and flagged cases audit team
audits. They are identified for audits. decreased the
time patterns of percent of
consuming and businesses. cases with no
37% have no Outliers were finding from 37
findings. They flagged as to 22%, leading
want to possible audit to increased
increase targets. revenues.
findings but
maintain their
number of
audits.
Examples: Flag “stuff” early
Service
Data Science Service Change Result
Issue
Lead Poisoning in Chicago

In Chicago, a The analytics They conducted Chicago


large number team built a targeted reached the
of children are model of inspections and most
thought to be exposure using provided vulnerable
exposed to lead data on homes, remediation families before
paint in older history of funding to severe health
houses. children’s homes effects from
exposure at identified in the lead
that address model. contamination
and conditions manifest.
of
neighborhood.
Examples: Optimize your resources
Service
Data Science Service Change Result
Issue

Targeting short
NOLA Ambulance Stand-by Location

In New Orleans, Analytics team Ambulances


ambulance used city wide deployed at response times
standby analysis of data new optimized to EMS calls
locations are on accident locations (Project
chosen based patterns, traffic currently in
on dispatcher patterns, and progress)
habits or crew readiness
instincts. to identify
optimal
standby
locations
‫أفضل الجامعات التي تدرس تخصص علم البيانات‬
Carnegie Mellon University ‫جامعة كارنيغي ميلون‬ •
Stanford University ‫جامعة ستانفورد‬ •
Santa Clara University ‫جامعة سانتا كالرا‬ •
University of Michigan ‫جامعة ميشيغان‬ •
University of Texas at Dallas ‫جامعة تكساس في داالس‬ •
University of Virginia ‫جامعة فرجينيا‬ •
University of Florida ‫جامعة فلوريدا‬ •
Purdue University ‫جامعة بوردو‬ •
‫دورات تقدم في علم البيانات‬
‫‪• Coursera – Data Science Specialization‬‬

‫• تقدم كورسيرا واحدة من أقدم برامج علم البيانات على‬


‫اإلنترنت ‪ ،‬من خالل جامعة جون هوبكنز‪.‬‬

‫• إنه ليس مجانيًا تما ًما ‪ -‬إذا كنت تستطيع تحمله ‪ ،‬فمن‬
‫المتوقع أن تدفع رسو ًما للدورة والشهادة‬

‫• ولكن يتم التنازل عن ذلك للطالب الذين ليس لديهم الموارد‬


‫المالية المتاحة‪.‬‬
‫يتبع ‪Coursera‬‬
‫تألف التخصص من ‪ 10‬دورات ‪ ،‬ويغطي‪:‬‬ ‫•‬
‫البرمجة اإلحصائية باستخدام برنامج ‪ R‬وتحليل المجموعات‬ ‫•‬
‫‪Cluster Analysis‬‬
‫ومعالجة اللغة الطبيعية ‪Natural Language NLP‬‬ ‫•‬
‫‪Processing‬‬
‫والتطبيقات العملية في التعلم اآللي ‪.Machin Learning‬‬ ‫•‬
‫إلكمال البرنامج ‪ ،‬يقوم الطالب بإنشاء منتج بيانات يمكن‬ ‫•‬
‫استخدامه لحل مشكلة حقيقية‪.‬‬
‫‪• EdX – Data Science Essentials‬‬
‫• يتم توفير هذه الدورة التدريبية من ِقبل ‪ Microsoft‬وتشكل جز ًءا‬
‫من شهادة البرنامج االحترافي في علوم البيانات ‪ ،‬على الرغم من أنه‬
‫ضا اعتبارها دورة مستقلة من خالل ‪EdX.‬‬ ‫يمكن أي ً‬
‫• يتوقع أن يكون لدى الطالب معرفة "تمهيدية" بـ ‪ R‬أو‬
‫عا لبرمجة علوم البيانات في‬
‫‪Python -‬وهما اللغتان األكثر شيو ً‬
‫الوقت الحالي‪.‬‬
‫• تشمل الموضوعات التي يتم تناولها االحتماالت واإلحصاء‬
‫واستكشاف البيانات وعرض البيانات ومقدمة في التعلم اآللي على‬
‫الرغم من أن جميع مواد الدورة التدريبية مجانية ‪ ،‬إال أنه يمكن‬
‫دوالرا) للحصول على شهادة رسمية عند االنتهاء‬ ‫ً‬ ‫للطالب الدفع (‪90‬‬
‫‪• Udacity – Intro to Machine Learning‬‬
‫• ال شك أن التعلم اآللي هو أحد الموضوعات الساخنة في علم‬
‫البيانات في الوقت الحالي ‪ ،‬وتهدف هذه الدورة إلى تقديم‬
‫نظرة عامة كاملة ‪ ،‬من النظرية إلى التطبيق العملي‪.‬‬
‫باإلضافة إلى مقدمة الختيار مصادر البيانات واختيار‬
‫الخوارزميات التي تناسب مشكلة معينة‪.‬‬

‫• هذه الدورة غير مجانية‬


‫‪• IBM – Data Science Fundamentals‬‬
‫• توفر ‪IBM‬عددًا من الدورات التدريبية المجانية عبر‬
‫اإلنترنت من خالل بوابتها التي كانت تُعرف سابقًا باسم‬
‫جامعة البيانات الكبيرة والتي تم تغيير اسمها اآلن إلى الفئة‬
‫المعرفية ‪.Cognitive Class‬‬
‫• يغطي هذا البرنامج علوم البيانات ‪ ، 101‬المنهجية ‪،‬‬
‫التطبيقات العملية ‪ ،‬البرمجة في البحث والتطوير وأدوات‬
‫المصدر المفتوح‪.‬‬
‫• إجماالً تستغرق حوالي ‪ 20‬ساعة إلكمالها‬
‫‪• California Institute of Technology – Learning from Data‬‬

‫• يركز هذا المساق على التعلم اآللي ويتم تقديمه كسلسلة من محاضرات‬
‫الفيديو إلى جانب الواجبات المنزلية واالمتحان النهائي‪ .‬باإلضافة إلى نظرة‬
‫عامة حول كيفية "تعلم" أجهزة الكمبيوتر‬

‫• تتعمق هذه العملية مع الرياضيات (من المتوقع أن يكون لدى الطالب‬


‫معرفة عملية بالمصفوفات وحساب التفاضل والتكامل ‪ ،‬وبالتالي فإن هذا‬
‫المساق ليس من أجل المبتدئين الجدد في الرياضيات)‪.‬‬
‫‪• Dataquest – Become a Data Scientist‬‬

‫• ‪Dataquest‬هي مزود تدريب مستقل عبر اإلنترنت بدالً من كونها‬

‫تابعة لجامعة مثل معظم مزودي التدريب اآلخرين‬

‫• يوفر الوصول المجاني إلى الكثير من مواد الدورة التدريبية الخاصة‬

‫ضا الدفع مقابل الخدمات المتميزة التي‬


‫به على الرغم من أنه يمكنك أي ً‬

‫تتضمن مشاريع خاصة‪.‬‬

‫• يقدم ثالثة مسارات ‪ -‬محلل البيانات ‪ ،‬عالم البيانات ومهندس البيانات‬


‫‪• KDNuggets – Data Mining Course‬‬
‫• ‪KDNuggets‬هو موقع معروف لألعمال التجارية وعلوم‬
‫البيانات وقد جمع منه ًجا مجانيًا للتدريب في موضوع تنقيب‬
‫البيانات ‪ .Data Mining‬هناك وحدات في‪:‬‬

‫• التعلم اآللي ‪، Machine Learning‬‬

‫• مفاهيم إحصائية مثل أشجار القرار ‪، Decision Trees‬‬


‫االنحدار ‪ ،Regression‬التجميع ‪ Clustering‬والتصنيف‬
‫‪Classification‬‬

‫• باإلضافة إلى مقدمة للتطبيقات العملية للتكنولوجيا‪.‬‬


‫‪• The Open Source Data Science Masters‬‬
‫• بدالً من أن يتم تقديمها من قِبل منظمة أو مؤسسة ‪ ،‬تتألف هذه الدورة من‬
‫مجموعة من المواد والموارد مفتوحة المصدر ‪ ،‬وهي متاحة مجانًا عبر‬
‫اإلنترنت‪ .‬تشمل الموضوعات التي يتم تناولها معالجة اللغة الطبيعية‬
‫لواجهة برمجة تطبيقات ‪Twitter‬باستخدام ‪Python‬و ‪Hadoop‬‬
‫‪MapReduce‬و وقواعد بيانات ‪ SQL ,noSQL‬وعرض البيانات‪ .‬ويشمل‬
‫ضا تأسيسا ً في الجبر واإلحصاء لفهم أساسيات علم البيانات‪ .‬بالطبع ال‬
‫أي ً‬
‫يوجد أي شهادة ولكن يمكن إكمال البرنامج بالسرعة الخاصة بك ويعمل‬
‫بشكل رائع كبوابة للمعلومات الوفيرة حول علوم البيانات المتاحة على‬
‫اإلنترنت‬
‫المنح التي تقدم في تخصص علم البيانات‬

‫• مبادرة مليون مبرمج‪ :‬مقدمة من الشيخ محمد بن راشد آل‬


‫مكتوم ‪http://www.arabcoders.ae/register‬‬
‫• تقدم منصة فرصة ‪ http://www.for9a.com‬دورات‬
‫مجانية دورات مجانية في شتى المجاالت ومنها في علم‬
‫البيانات‪.‬‬
References
• Introduction to Data Science Kamal Al Nasr, Matthew Hayes and Jean-Claude Pedjeu,
Computer Science and Mathematical Sciences, College of Engineering
Tennessee State University

• https://www.for9a.com/specialities/%D8%B9%D9%84%D9%85-
%D8%A7%D9%84%D8%A8%D9%8A%D8%A7%D9%86%D8%A7%D8%AA-Data-Science
Thank You
https://www.for9a.com/specialities/%D8%B
9%D9%84%D9%85-
%D8%A7%D9%84%D8%A8%D9%8A%D8
%A7%D9%86%D8%A7%D8%AA-Data-
Science

You might also like