Professional Documents
Culture Documents
Big Data (Part2)
Big Data (Part2)
Hadoop ecosystem:
- HDFS → Hadoop distributed file system
- YARN → Yet another resource negotiation
- MapReduce → Data processing using programming
- Spark → In memory data processing
- PIG, HIVE → Data processing services using Query (SQL – like)
- HBase → NoSQL database
- Mahout, Spark MLlib → Machine learning
- Apache Drill → SQL on Hadoop
- Zookeeper → Managing cluster
- Oozie → Job scheduling
- Flume, Sqoop → Data ingesting services
- Solr & Lucence → Searching & indexing
- Ambari → Provision, monitor and maintain cluster
Hadoop ecosystem:
- Stores different types of large data sets (structured, semi-structured and unstructured)
- HDFS creates a level of abstraction over the resources, from where we can see the whole HDFS as a
single unit.
- It Stores data across various resources and maintains the log file about the stored data. (metadata)
- HDFS has 2 core components, i.e., NameNode and DataNode
Nodes connected وهي مجموعة من الHadoop clusters من خالل الData بيخزن كل أنواع ال.Hadoop فالstorage unit هو الHDFS ال
Data الmanage اللي بيmanager هو الName nodes وعندنا الdata الhold اللي بتdata nodes الnodes عندنا نوعين من ال.مع بعض
. واحدهmachine اللي موجودة عندها كأنها متخزنه علىFiles هنا بيبقا شايف إن كل الuser ال.Hadoop clusters اللي موجودة فالnodes
Selected 4 – Chapter 6 – Big data & Analytics.
- Performs all your processing activities by allocating resources and scheduling tasks.
- Two services: Resources Manager and Node Manager
- Resource Manager: Manages resources and schedule applications running on top of YARN
- Node Manager: Manages containers and monitors resources utilization in each container
Map بمعني إني لو عنديresources to run a particular task on the Hadoop clusters الAllocate هو الحاجة اللي مسؤوله إنها تYARNال
اللي هتشاركnodes ف مين اللي مسؤول عشان ننفذ التاسك دي؟ ومين ال.Hadoop cluster دا على الCode وعايزين ننفذ الReduce task
عشان هو اللي بيحددلناYARN الContact الزم قبل أي حاجه ن.YARN دي كلها هو الResources فإننا ننفذ التاسك دي؟ اللي بيحدد ال
فدوره إن أول ما نبدأMaster ودا الResources manager ال2 components بيتكون منYARN وبالتالي ال.محتاجين ايه عشان ننفذ التاسكات
. اللي معانا فالتاسك ديresources الdetermine هو المسؤول إني يResource manager أي تاسك الsubmit ن
اللي محتاجها فالتاسك دي وابدأ انفذ التاسك فالNodes فيه الContainer بيبقا عندي.node manager التاني هو الComponentوال
. التاسكexecute ألنها بت.worker node أو بنقول عليهاnode manager دا بتشتغل كContainer وكل نود فال. ديContainer
Schema على الداتا بprocessing خليتنا نقدر نعملMap Reduce ال.get insights دي عشان نdata على الProcessing بنبدأ نعملHDFS
عن طريق إنه يlarge data sets لprocess فهو بيعمل. اللي كانت موجودة قبل كدهTranditional processing paradigm مختلفة عن ال
اللي فيهاNodes ناحية الmap logic الPush أول ما بن.Reduce () والMap () ال2 functions من خالل. ناحية الداتاprocessing logic الpush
الليPrimary language ال.concurrently اللي عندها بشكلdata على الMap logic الexecute وتprocess بتبدأ تNodes الdata ال
. برضوR أو الPython وممكن طبعا استخدم ال.map Reduce functions عشان اكتب الJAVA بستخدمها هي لغة ال
Pig Latin language بتتكون من جزئين الPig ال. سهلة وبسيطة جداhigh level language هي.Pig Latin مكتوبه بالQueries بProcessing
. تاسكMap Reduce يحولها لLogic بياخد الCompiler أو الPig Latin Runtime بتاعنا الlogic بعد ما بنكتب ال.Pig Latin Runtime وال
Selected 4 – Chapter 6 – Big data & Analytics.
اللي.HDFS اللي موجودة فالdata عالProcessing فيبقا سهل إنهم يعملوا. أويSQL وعملوا لغة قريبة من الrelational databases ال
.Map Reduce tasks لQueries بتبدأ تترجم الHIVE دي الQuery بيحصل إن بعد ما بنكتب ال
Codes from scratch دي بدل ما اكتب الLibrary فبالتالي لو عايز اعمل أي تاسك من دول هستخدم ال. وهكذاregression
بشكلData streams على داتا بتجيلي بشكلprocess هنا بتSpark أما ال.HDFS على داتا متخزنه فالProcess بتMap Reduce ال
بيتكتب عشانpost لكلProcess دلوقتي ومحتاجين نعملFacebook عالPosts زي مثال ناس بتكتب.real time وبتشتغل عليهاContinuous
.real time decisions فباخد. داPost الBlock لو في عنف أو تنمر أو أي حاجه سيئة يبدأ ي
. بتاعيApplication الداتا اللي متخزنه فيها من خالل الaccess عشان نقدر نApp لBackend وبقدر استخدمها ك.نخزن الداتا بأشكال مختلفة
Selected 4 – Chapter 6 – Big data & Analytics.
ويظبط شكلهQuery بيمسك الDrill فال.data source 1, 10, 20, 3 واقوله نفذها علىQuery يعني ممكن اكتب. واشتغل عليهمsource
وApache drill للresult ويبعت الQuery الexecute هيبدأ يData source اللي هيتعامل معاها وكلData source بحيث إنه يبقا مناسب لل
run automatically ف كل ساعة مثال لوحده بيبدأ ي.set of actions need to be executed periodically وداOozie workflow للto be executed
9 كل ساعتين أو كل يوم جمعة أو كل يومWorkflow يعني أقوله انه هينفذ الtime based عندنا طريقتين طريقة. المطلوبةjobs وينفذ ال
.فالشهر
أو مثال اول ما يجيلك داتا منAvailable تبقاData يعني بنفذه كل ما يحصل حاجه زي مثال أول ما الbased on specific event أو ممكن يبقا
data streams اللي جايالي بشكلData للimport وكمان بيخليني أقدر اعمل.Apache flume بعمل كده ب استخدام ال
.Library اللي بيستخدم الApp دا الApache solar وال.Apache Lucene library بستخدم ال
Zookeeper: Coordinator:
- An open-source server which enables highly reliable distributed coordination
- Apache Zookeeper coordinates with various Hadoop services in a distributed
environment
- Performs synchronization, configuration maintenance, grouping and naming.
Hadoop ecosystem اللي فالtools بتاعة هو إنه يتأكد إن الMain purpose الcoordinator هوZookeeper اخر حاجه بقا ال
tools والbroken system أنا هيبقا عنديZookeeper ومن غير ال.Interruption سوا من غير أيCommunicate بتقدر ت