Welcome to Scribd!

Skip carousel

Large-Scale Data Analytics: Traditional Database Systems

Uploaded by

venkata

0% found this document useful (0 votes)

9 views11 pages

Hadoop basics

Original Title

hadoop

Copyright

Available Formats

PPTX, PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Hadoop basics

Copyright:

Available Formats

Download as PPTX, PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

9 views11 pages

Large-Scale Data Analytics: Traditional Database Systems

Uploaded by

venkata

Hadoop basics

Copyright:

Available Formats

Download as PPTX, PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 11

Search inside document

Large-Scale Data Analytics

• MapReduce computing paradigm (E.g., Hadoop) vs. Traditional

database systems

Database
vs.

 Many enterprises are turning to Hadoop

 Especially applications generating big data
 Web applications, social networks, scientific applications

1
Why Hadoop is able to compete?
Database

vs.

Scalability (petabytes of data, Performance (tons of indexing,

thousands of machines) tuning, data organization tech.)

Flexibility in accepting all data

formats (no schema) Features:
- Provenance tracking
Efficient and simple fault-tolerant - Annotation management
mechanism - ….

Commodity inexpensive hardware

2
What is Hadoop
• Hadoop is a software framework for distributed processing
of large datasets across large clusters of computers
– Large datasets  Terabytes or petabytes of data
– Large clusters  hundreds or thousands of nodes
• Hadoop is open-source implementation for Google
MapReduce
• Hadoop is based on a simple programming model called
MapReduce
• Hadoop is based on a simple data model, any data will fit

3
What is Hadoop (Cont’d)

• Hadoop framework consists on two main layers

– Distributed file system (HDFS)
– Execution engine (MapReduce)

4
Hadoop Master/Slave Architecture
• Hadoop is designed as a master-slave shared-nothing architecture

Master node (single node)

Many slave nodes

5
Design Principles of Hadoop

• Need to process big data

• Need to parallelize computation across
thousands of nodes
• Commodity hardware
– Large number of low-end cheap machines working
in parallel to solve a computing problem
• This is in contrast to Parallel DBs
– Small number of high-end expensive machines
6
Design Principles of Hadoop

• Automatic parallelization & distribution

– Hidden from the end-user

• Fault tolerance and automatic recovery

– Nodes/tasks will fail and will recover
automatically

• Clean and simple programming abstraction

– Users only provide two functions “map” and 7
How Uses MapReduce/Hadoop

• Google: Inventors of MapReduce computing

paradigm
• Yahoo: Developing Hadoop open-source of
MapReduce
• IBM, Microsoft, Oracle
• Facebook, Amazon, AOL, NetFlex
• Many others + universities and research labs

8
Hadoop: How it Works

9
Hadoop Distributed File System (HDFS)

Centralized namenode
- Maintains metadata info about files

File F 1 2 3 4 5

Blocks (64 MB)

Many datanode (1000s)

- Store the actual data
- Files are divided into blocks
- Each block is replicated N times
(Default = 3)

10
Main Properties of HDFS

• Large: A HDFS instance may consist of

thousands of server machines, each storing
part of the file system’s data
• Replication: Each data block is replicated
many times (default is 3)
• Failure: Failure is the norm rather than
exception
• Fault Tolerance: Detection of faults and
quick, automatic recovery from them is a core
architectural goal of HDFS 11

Exploring Hadoop Ecosystem (Volume 1): Batch Processing
From Everand
Exploring Hadoop Ecosystem (Volume 1): Batch Processing
Wei Liu
No ratings yet
Hadoop Ecosystem
Document58 pages
Hadoop Ecosystem
pechaporn
No ratings yet
Learning Hadoop 2
From Everand
Learning Hadoop 2
Garry Turkington
Rating: 4 out of 5 stars
4/5 (1)
Hadoop and MR Programming: DR G Sudha Sadasivam Professor Cse, PSGCT
Document71 pages
Hadoop and MR Programming: DR G Sudha Sadasivam Professor Cse, PSGCT
VALANARR COMPUTERS
No ratings yet
SEN-762 Advanced Big Data Analytics
Document39 pages
SEN-762 Advanced Big Data Analytics
بالیراجپوت
No ratings yet
Unit 3 Da
Document43 pages
Unit 3 Da
aadityapawar210138
No ratings yet
Introduction To Big Data and Hadoop
Document29 pages
Introduction To Big Data and Hadoop
Manoj K Upadhyaya
100% (1)
Technologies For Handling Big Data: Prepared By: Saidatul Rahah Hamidi
Document49 pages
Technologies For Handling Big Data: Prepared By: Saidatul Rahah Hamidi
syahmina
No ratings yet
BD Merged
Document330 pages
BD Merged
Aman CSE050
No ratings yet
Fillatre Big Data
Document98 pages
Fillatre Big Data
satmania
No ratings yet
DSCI 5350 - Lecture 2 PDF
Document54 pages
DSCI 5350 - Lecture 2 PDF
Praz
No ratings yet
Module-2 PPT-1
Document126 pages
Module-2 PPT-1
Lahari bilimale
No ratings yet
Hadoop and Related Tools
Document57 pages
Hadoop and Related Tools
Prem Prasad
No ratings yet
Lecture 1
Document55 pages
Lecture 1
George Okemwa
No ratings yet
Lesson 1 - Introduction To Big Data and Hadoop
Document46 pages
Lesson 1 - Introduction To Big Data and Hadoop
PoojaSampath
No ratings yet
Hadoop, A Distributed Framework For Big Data
Document55 pages
Hadoop, A Distributed Framework For Big Data
sonia choudhary
No ratings yet
Unit-Iv CC&BD CS71
Document148 pages
Unit-Iv CC&BD CS71
Hael
No ratings yet
Hadoop, A Distributed Framework For Big Data
Document55 pages
Hadoop, A Distributed Framework For Big Data
HARISH REDDY B
No ratings yet
Hadoop Unit-4
Document44 pages
Hadoop Unit-4
Kishore Parimi
No ratings yet
Introduction: Hadoop's History and Advantages 2. Architecture in Detail 3. Hadoop in Industry
Document53 pages
Introduction: Hadoop's History and Advantages 2. Architecture in Detail 3. Hadoop in Industry
jainam dude
No ratings yet
Guided By:-Prof. K. Kakwani: Payal M. Wadhwani
Document24 pages
Guided By:-Prof. K. Kakwani: Payal M. Wadhwani
Ravi Joshi
No ratings yet
Exploring Bigdata With Hadoop: Dr.A.Bazila Banu Associate Professor Department of Cse
Document23 pages
Exploring Bigdata With Hadoop: Dr.A.Bazila Banu Associate Professor Department of Cse
MAMAN MYTHIEN S
No ratings yet
Apache Hadoop and Spark:: and Use Cases For Data Analysis
Document48 pages
Apache Hadoop and Spark:: and Use Cases For Data Analysis
satish.sathya.a2012
No ratings yet
2 Hadoop (Uploaded)
Document82 pages
2 Hadoop (Uploaded)
Prateek Pole
No ratings yet
Chapter 2 Introduction To Hadoop
Document31 pages
Chapter 2 Introduction To Hadoop
shubham.ojha2102
No ratings yet
Big Data Module 2
Document23 pages
Big Data Module 2
Srikanth M
No ratings yet
HDFS 79
Document74 pages
HDFS 79
bhargavi
No ratings yet
BigData Unit 2
Document56 pages
BigData Unit 2
Ravi Yadav
No ratings yet
Bda Unit 4 Material
Document37 pages
Bda Unit 4 Material
Siva Saikumar Reddy K
No ratings yet
Bda 18CS72 Mod-2
Document152 pages
Bda 18CS72 Mod-2
Dhathri Reddy
No ratings yet
Shortnotes For Cloud
Document22 pages
Shortnotes For Cloud
Mahi Mahi
No ratings yet
Introduction To Hadoop
Document5 pages
Introduction To Hadoop
Hanumanthu Gouthami
No ratings yet
Hadoop Important Lecture
Document38 pages
Hadoop Important Lecture
affanabbasi015
No ratings yet
Hadoop Overview Training Material
Document44 pages
Hadoop Overview Training Material
srinidk
No ratings yet
Hadoop: A Software Framework For Data Intensive Computing Applications
Document47 pages
Hadoop: A Software Framework For Data Intensive Computing Applications
vaibhavbdx
No ratings yet
Module 2. 16974328568170
Document113 pages
Module 2. 16974328568170
Sagar B S
No ratings yet
Untitled
Document37 pages
Untitled
asha
No ratings yet
CC Unit 5
Document43 pages
CC Unit 5
prassadyashwin
No ratings yet
Hadoop
Document13 pages
Hadoop
kajole7693
No ratings yet
Cloud Computing - Unit 3
Document38 pages
Cloud Computing - Unit 3
lightfreezzer
No ratings yet
Hadoop
Document58 pages
Hadoop
duggy
No ratings yet
Bda - Unit 2
Document56 pages
Bda - Unit 2
Kajal Vaniya
No ratings yet
Google Data Engineering ?
Document9 pages
Google Data Engineering ?
Md Javid
No ratings yet
Master Cheat Sheet
Document61 pages
Master Cheat Sheet
Aman kumar
No ratings yet
BDA Unit 3
Document6 pages
BDA Unit 3
Sp
No ratings yet
04 - Introduction To The Big Data Ecosystem
Document25 pages
04 - Introduction To The Big Data Ecosystem
Jose Evanan
No ratings yet
Hadoop Nishant Gandhi.
Document21 pages
Hadoop Nishant Gandhi.
Bhavesh Lodaliya
No ratings yet
Hadoop Overview
Document16 pages
Hadoop Overview
Sunil D Patil
100% (1)
Hadoop Chapter 1
Document6 pages
Hadoop Chapter 1
Swati
No ratings yet
Class: CS 237 Distributed Systems Middleware Instructor: Nalini Venkatasubramanian
Document55 pages
Class: CS 237 Distributed Systems Middleware Instructor: Nalini Venkatasubramanian
Pratheesh Kumar
No ratings yet
03 BigData DFS MapReduce Hadoop
Document66 pages
03 BigData DFS MapReduce Hadoop
Saikat Mondal
No ratings yet
BDA Presentations Unit-4 - Hadoop, Ecosystem
Document25 pages
BDA Presentations Unit-4 - Hadoop, Ecosystem
Ashish Chauhan
No ratings yet
Chapter 2 - 大数据生态系统
Document31 pages
Chapter 2 - 大数据生态系统
gs68295
No ratings yet
Map Reduce
Document3 pages
Map Reduce
jefferyleclerc
No ratings yet
School of Computer Engineering: Kalinga Institute of Industrial Technology Deemed To Be University Bhubaneswar-751024
Document260 pages
School of Computer Engineering: Kalinga Institute of Industrial Technology Deemed To Be University Bhubaneswar-751024
21053386
No ratings yet
Bigdata Module2 7th-Sem 18cs72
Document64 pages
Bigdata Module2 7th-Sem 18cs72
ram patil
No ratings yet
Hadoop
Document14 pages
Hadoop
Chaturvedi Tanya
No ratings yet
l1 Hadoop Introduction 2022s2
Document46 pages
l1 Hadoop Introduction 2022s2
Comp Scif
No ratings yet
Hadoop
Document40 pages
Hadoop
Jihen Bennaceur
No ratings yet
Hadoop
Document7 pages
Hadoop
jefferyleclerc
No ratings yet
Building and Securing A Corporate DMZ in Preparation For A Data Center Migration
Document24 pages
Building and Securing A Corporate DMZ in Preparation For A Data Center Migration
venkata
No ratings yet
RADIUS Setup: Figure 2. Configuring The RADIUS Settings
Document30 pages
RADIUS Setup: Figure 2. Configuring The RADIUS Settings
venkata
No ratings yet
35 Schemas
Document26 pages
35 Schemas
venkata
No ratings yet
RADIUS Setup: Figure 2. Configuring The RADIUS Settings
Document30 pages
RADIUS Setup: Figure 2. Configuring The RADIUS Settings
venkata
No ratings yet
Meeting Agenda-Minutes Template NYU
Document2 pages
Meeting Agenda-Minutes Template NYU
Hanna Anna
No ratings yet
DP Admin
Document4 pages
DP Admin
venkata
No ratings yet
XML Transformation Steps
Document1 page
XML Transformation Steps
venkata
No ratings yet
APCPDCLPGIResponse JSP PDF
Document1 page
APCPDCLPGIResponse JSP PDF
venkata
No ratings yet
IBM Connect Direct Redbook
Document448 pages
IBM Connect Direct Redbook
anamino13
No ratings yet
Basics of Hadoop
Document19 pages
Basics of Hadoop
venkata
No ratings yet
For IBM Released Versions (Non z/OS) : Type of Download Location
Document18 pages
For IBM Released Versions (Non z/OS) : Type of Download Location
venkata
No ratings yet
Data Power
Document136 pages
Data Power
venkata
No ratings yet
Core Java
Document7 pages
Core Java
venkata
No ratings yet
CertyIQ AZ-900 UpdatedExam Dumps - 2022 Part 3
Document29 pages
CertyIQ AZ-900 UpdatedExam Dumps - 2022 Part 3
Marcio Arruda
No ratings yet
Cloud
Document8 pages
Cloud
Anonymous JYQN5a
No ratings yet
Vivekanandan Srinivasan
Document2 pages
Vivekanandan Srinivasan
Vivek Ss
No ratings yet
Denologix Inc
Document3 pages
Denologix Inc
renz
No ratings yet
Apache Kafka
Document37 pages
Apache Kafka
Thomas Varghese
No ratings yet
SAP BW 7.5 SP4 Powered by SAP HANA Overview & Roadmap
Document33 pages
SAP BW 7.5 SP4 Powered by SAP HANA Overview & Roadmap
KumarPravasi
No ratings yet
Inndata Analytics PVT LTD December 2016 - Present: E-Mail: Phone
Document3 pages
Inndata Analytics PVT LTD December 2016 - Present: E-Mail: Phone
preeti d
No ratings yet
Mapreduce: Simplified Data Analysis of Big Data: Sciencedirect
Document9 pages
Mapreduce: Simplified Data Analysis of Big Data: Sciencedirect
mfs core
No ratings yet
BDA011GU01
Document83 pages
BDA011GU01
Praveen Hegde
No ratings yet
A6515 BDA Question Bank
Document9 pages
A6515 BDA Question Bank
Sheshikanth Don
No ratings yet
Start by Learning A Programming Language:: Introduction To Computer Science and Programming Using Python
Document4 pages
Start by Learning A Programming Language:: Introduction To Computer Science and Programming Using Python
askingspark
No ratings yet
Spark Scala Protected
Document211 pages
Spark Scala Protected
jeevan
No ratings yet
Hive Introduction
Document13 pages
Hive Introduction
Saeed Meethal
No ratings yet
004 - Hadoop Daemons (HDFS Only)
Document3 pages
004 - Hadoop Daemons (HDFS Only)
Srinivas Reddy
No ratings yet
Artificial Intelligance and Big Data
Document4 pages
Artificial Intelligance and Big Data
Boda Kishan
No ratings yet
IBM Big Data and Analytics PDF
Document24 pages
IBM Big Data and Analytics PDF
Sameer Paradkar
No ratings yet
A Fair Comparison of Message Queuing Systems
Document12 pages
A Fair Comparison of Message Queuing Systems
richyeiv
0% (1)
HGFFDD
Document2 pages
HGFFDD
Katraj Nawaz
No ratings yet
CSE Syl BOS 14-15 Draft-161-188
Document28 pages
CSE Syl BOS 14-15 Draft-161-188
prasath
No ratings yet
Chapter 3 Quiz
Document3 pages
Chapter 3 Quiz
naif arroished
No ratings yet
Software Requirements Specification: Final Year Project
Document51 pages
Software Requirements Specification: Final Year Project
Arooj Sajid
No ratings yet
Installing Multi Node Cluster - Handbook 2.0
Document2 pages
Installing Multi Node Cluster - Handbook 2.0
aadifx
No ratings yet
Statistical and Analytical Software Development: Sachu Thomas Isaac
Document10 pages
Statistical and Analytical Software Development: Sachu Thomas Isaac
Saurabh Nlyk
No ratings yet
Hadoop Installation
Document6 pages
Hadoop Installation
Pooja Ban
No ratings yet
Informatica Powercenter Real Time Edition: Integrate and Provision Operational Data in Real Time
Document8 pages
Informatica Powercenter Real Time Edition: Integrate and Provision Operational Data in Real Time
Karthik Reddy
No ratings yet
Ude My For Business Course List New
Document64 pages
Ude My For Business Course List New
AbhishekGuptaSarma
No ratings yet
How-To - Install CDH On Mac OSX 10
Document20 pages
How-To - Install CDH On Mac OSX 10
archsark
No ratings yet
BDA Lesson Plan 2020
Document2 pages
BDA Lesson Plan 2020
SunandaPerla
No ratings yet
SAP HANA Vora Installation Developer Guide en
Document78 pages
SAP HANA Vora Installation Developer Guide en
chiruyours
No ratings yet
Gujarat Technological University
Document1 page
Gujarat Technological University
Jigar
No ratings yet