Welcome to Scribd!

Skip carousel

Tìm Hiểu Nghiên Cứu Về Mapreduce

Uploaded by

nguyentthai96

0% found this document useful (0 votes)

7 views14 pages

Original Title

HE_CSDL_NC_Round01_MapReduce_Group07_presentation

Copyright

Available Formats

PPTX, PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PPTX, PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

7 views14 pages

Tìm Hiểu Nghiên Cứu Về Mapreduce

Uploaded by

nguyentthai96

Copyright:

Available Formats

Download as PPTX, PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 14

Search inside document

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN TP.HCM

KHOA CÔNG NGHỆ THÔNG TIN

Tìm hiểu nghiên cứu

về MapReduce
Báo cáo môn Các hệ cơ sở dữ liệu nâng cao

GVHD: Ts. Nguyễn Trần Minh Thư

Nhóm 07:
1. 19C11015 - Đỗ Huy Gia Cát
2. 21C12003 - Đào Thanh Danh
3. 21C11026 - Nguyễn Thành Thái
1
CONTENTS

• Overview about MapReduce

o Motivation
o History
o Application
• MapReduce define
o How MapReduce works?
o Example
• MapReduce extends
• Conclusion

2
What is MapReduce

• Motivation – the real-world problem

• History MapReduce

3
4
What is MapReduce

• MapReduce brings resolve

• Automatically parallelized and executed on a large cluster of machines
• Relate MapReduce and database management system competing or
completing paradigms?

5
What is MapReduce

• Use case of Google apply MapReduce

• Distributed grep
• Distributed sort
• Web link-graph reversal
• Term-vector per host
• Web access log stats
• Inverted index construction
• Document clustering
• Machine learning
• Statistical machine translation

6
How MapReduce Works

• Define MapReduce
• key-value pairs
• map
• Input: input key/value
• Output: intermediate key/value
• reduce
• Input: intermediate key/{value}
• Output: output key/value

7
How
MapReduce
Works
• Input Splits -> divided into
fixed-size pieces (jobs) => key-
value pairs
• Mapping -> each chunk split
passed into mapping function
• Shuffling -> task is to
consolidate the relevant
records
• Reducing -> value aggregate
combined and returns a single
output value
8
Example: Word Count Problem

9
MapReduce Extends

• MapReduce trades off flexibility in structuring computation for a model

for parallelizing the computation over a cluster => Computation
constraints exist
• Within a map task, you can only work on one aggregate
• Within a reduce task, you can only work on one single key
• It is required to have different approaches with these constraints

10
Multiple stages approach

• As the computation becomes more complex, it is more suitable to divide

the map-reduce into smaller steps

• Advantages:
• Easier to write and maintain
• Reusability

11
Incremental MapReduce approach

• Suitable for data with constant update

• Can be used to implement part of data instead of restarting from starch
• Need to persist the current data and combine with new data
• Map stages are easier to approach, while reduce stages are more
complex

12
Conclusion MapReduce
• Allow computations to be parallelized over a cluster, but has large latency.
• The map task reads data from an aggregate and boils it down to relevant key-value
pairs. Only read a single record at a time and can thus be parallelized.
• Reduce tasks take many values for a single key, output from map tasks and summarize
them into a single output. Parallelized by key
• Reducers can be combined into pipelines, improves parallelism and reduces data to
be transferred.
• Map-reduce operations can be composed into pipelines with multi map-reduce
others (map -> reduce -> map -> reduces...)
• Result of a map-reduce computation can be stored as a materialized view -> it can be
updated through incremental map-reduce operations (only recomputing changing)

13
15

Tìm Hiểu Nghiên Cứu Về Mapreduce
Document14 pages
Tìm Hiểu Nghiên Cứu Về Mapreduce
nguyentthai96
No ratings yet
Sen-762 Advanced Big Data Analytics: Mapreduce
Document46 pages
Sen-762 Advanced Big Data Analytics: Mapreduce
بالیراجپوت
No ratings yet
By Christian Mechem and Geoff Crowley
Document11 pages
By Christian Mechem and Geoff Crowley
Christian Mechem
No ratings yet
Introduction To Map Reduce
Document50 pages
Introduction To Map Reduce
KhAn Zainab
No ratings yet
Parallel Data Processing in The Cloud
Document25 pages
Parallel Data Processing in The Cloud
Vinu Davis
No ratings yet
Partitioning
Document37 pages
Partitioning
a00825006
No ratings yet
MapReduce BigData 09
Document9 pages
MapReduce BigData 09
Seikh Sadi
No ratings yet
777 1651400043 BD Module 4
Document21 pages
777 1651400043 BD Module 4
nimmy
No ratings yet
Lecturer 5
Document21 pages
Lecturer 5
Rebaz Mohsen
No ratings yet
Map Reduce
Document7 pages
Map Reduce
Diwyansh Katoch
No ratings yet
Term Paper Java
Document14 pages
Term Paper Java
Muskan Bharti
No ratings yet
The Map Reduce Programming
Document15 pages
The Map Reduce Programming
manjunath
No ratings yet
Big Data Unit5
Document57 pages
Big Data Unit5
Ananth Kallam
No ratings yet
He-Phan-Bo - Wyatt-Lloyd - L19-Big-Data - (Cuuduongthancong - Com)
Document16 pages
He-Phan-Bo - Wyatt-Lloyd - L19-Big-Data - (Cuuduongthancong - Com)
Hiếu Khổng
No ratings yet
HadoopMapreduce Summerization
Document24 pages
HadoopMapreduce Summerization
Atharv Chaudhari
No ratings yet
Dynamicmr: A Dynamic Slot Allocation Optimization Framework For Map Reduce Clusters
Document18 pages
Dynamicmr: A Dynamic Slot Allocation Optimization Framework For Map Reduce Clusters
Harikrishnan Shunmugam
No ratings yet
BDL8 PDF
Document41 pages
BDL8 PDF
Mrs. Usha Naidu S
No ratings yet
Hadoop (Mapreduce)
Document43 pages
Hadoop (Mapreduce)
Nisrine Mofakir
No ratings yet
Final - Module-4 Cloud Computing - May 8, 2023
Document88 pages
Final - Module-4 Cloud Computing - May 8, 2023
Shubham Pathak
No ratings yet
Map Reduce: Simplified Processing On Large Clusters
Document29 pages
Map Reduce: Simplified Processing On Large Clusters
Joy Bagdi
No ratings yet
Map Reduce On Red Green Blue Architecture
Document11 pages
Map Reduce On Red Green Blue Architecture
International Journal of Innovative Science and Research Technology
No ratings yet
Chapter 4 - Understanding Map Reduce Fundamentals
Document45 pages
Chapter 4 - Understanding Map Reduce Fundamentals
WEGENE ARGOW
No ratings yet
Unit 3 Bda
Document59 pages
Unit 3 Bda
teja.ksp1801
No ratings yet
Unit 3 - Big Data Technologies
Document42 pages
Unit 3 - Big Data Technologies
prakash N
No ratings yet
Lec04b-Processes and Mapping
Document26 pages
Lec04b-Processes and Mapping
agha
No ratings yet
Big Data Engines: Binary Batch Processing
Document12 pages
Big Data Engines: Binary Batch Processing
Sonakshi Gupta
No ratings yet
Unit - III Advanced Analytics Technology and Tools
Document44 pages
Unit - III Advanced Analytics Technology and Tools
Diksha Chhabra
No ratings yet
Report Title: Wasit University
Document8 pages
Report Title: Wasit University
bassam lateef
No ratings yet
347 VLDBJ2013 MapReduceSurvey
Document27 pages
347 VLDBJ2013 MapReduceSurvey
Jitendra Singh Rauthan
No ratings yet
Efficient Query Processing Framework For Big Data Warehouse - An Almost Join-Free Approach
Document13 pages
Efficient Query Processing Framework For Big Data Warehouse - An Almost Join-Free Approach
Ettaoufik Abdelaziz
No ratings yet
Module 3 (Part-1) - Big Data
Document46 pages
Module 3 (Part-1) - Big Data
sujith
No ratings yet
Best Practices When Building Maps
Document2 pages
Best Practices When Building Maps
Bruno Ricardo
No ratings yet
Introduction To: Ma Ed
Document42 pages
Introduction To: Ma Ed
Aditya Wijayanto
No ratings yet
Matchmaking: A New Mapreduce Scheduling Technique: Digitalcommons@University of Nebraska - Lincoln
Document9 pages
Matchmaking: A New Mapreduce Scheduling Technique: Digitalcommons@University of Nebraska - Lincoln
Netra Jjoshi
No ratings yet
Hadoop Admin
Document13 pages
Hadoop Admin
rsreddy.ch5919
No ratings yet
2 Hadoop Ecosystem
Document41 pages
2 Hadoop Ecosystem
tranngocbaooooo12062003
No ratings yet
Chapter 3MapReduce
Document30 pages
Chapter 3MapReduce
Komal
No ratings yet
MapReduce Online
Document15 pages
MapReduce Online
Vyhx
No ratings yet
Map Reduce
Document6 pages
Map Reduce
Rock Out
No ratings yet
Map-Reduce (Hadoop) Based Data Clustering For BigData A Survey
Document6 pages
Map-Reduce (Hadoop) Based Data Clustering For BigData A Survey
Pranali Sheth
No ratings yet
Con Currency Mapping
Document40 pages
Con Currency Mapping
Mazen Alkoa
No ratings yet
Map Reduce
Document14 pages
Map Reduce
Amanda Drew
No ratings yet
Introduction On Spark Anuj Jain
Document28 pages
Introduction On Spark Anuj Jain
anujgit
No ratings yet
T05 MapReduce
Document20 pages
T05 MapReduce
abdulazizbinyabtemp
No ratings yet
Shangjiang Cluster13
Document8 pages
Shangjiang Cluster13
Ali Raza
No ratings yet
Big Data and Analytics and MapReduce 29052023 054155pm
Document35 pages
Big Data and Analytics and MapReduce 29052023 054155pm
Talha Mughal
No ratings yet
Paper2014 - 9 Efficient Means Approximation With
Document11 pages
Paper2014 - 9 Efficient Means Approximation With
jefferyleclerc
No ratings yet
Lecture 5 Principles of Parallel Algorithm Design
Document30 pages
Lecture 5 Principles of Parallel Algorithm Design
nimranoor137
No ratings yet
7 Related Work: To Appear in OSDI 2004
Document1 page
7 Related Work: To Appear in OSDI 2004
p001
No ratings yet
A Data Parallel Approach To Modelling and Simulation of Large Crowd
Document11 pages
A Data Parallel Approach To Modelling and Simulation of Large Crowd
Layi
No ratings yet
Parallel Processors: Session4 Program Partitioning and Computational Granularity
Document39 pages
Parallel Processors: Session4 Program Partitioning and Computational Granularity
Tapti Soni
No ratings yet
Map Reduce
Document27 pages
Map Reduce
Andreas Rousalis
No ratings yet
Unit 3 MapReduce Part 1
Document12 pages
Unit 3 MapReduce Part 1
Ruparel Education Pvt. Ltd.
No ratings yet
An Introduction To Mapreduce:: Abstractions and Beyond!
Document18 pages
An Introduction To Mapreduce:: Abstractions and Beyond!
DSunte Wilson
No ratings yet
6 Module 3 Preliminaries 12-01-2023
Document86 pages
6 Module 3 Preliminaries 12-01-2023
Pranav Hiremath
No ratings yet
03-Task Decomposition and Mapping
Document62 pages
03-Task Decomposition and Mapping
Houri melkonian
No ratings yet
Parallel Algorithms
Document21 pages
Parallel Algorithms
Mvm Fatehpur
No ratings yet
Cloud
Document11 pages
Cloud
Debankan Ganguly
No ratings yet
Capacity Planning for Computer Systems
From Everand
Capacity Planning for Computer Systems
Tim Browning
Rating: 4 out of 5 stars
4/5 (1)
Graph Layout Support for Model-Driven Engineering
From Everand
Graph Layout Support for Model-Driven Engineering
Miro Spönemann
No ratings yet
Nosql Column-Family Stores
Document30 pages
Nosql Column-Family Stores
nguyentthai96
No ratings yet
Bart - Bartpho: Bartpho: Pre-Trained Sequence-To-Sequence Models For Vietnamese
Document19 pages
Bart - Bartpho: Bartpho: Pre-Trained Sequence-To-Sequence Models For Vietnamese
nguyentthai96
No ratings yet
State-of-Art Analysis of Image Denoising Methods Using Convolutional Neural Networks
Document15 pages
State-of-Art Analysis of Image Denoising Methods Using Convolutional Neural Networks
nguyentthai96
No ratings yet
Volume 7
Document202 pages
Volume 7
nguyentthai96
No ratings yet
Document 57 Dinh Nghia Broadcast Receiver Trong File Android Manifest
Document5 pages
Document 57 Dinh Nghia Broadcast Receiver Trong File Android Manifest
nguyentthai96
No ratings yet
Ajax Tutorial
Document27 pages
Ajax Tutorial
Arta Sitinjak
No ratings yet
ICallabck
Document8 pages
ICallabck
Santosh Kumar
100% (1)
Studentdatabasemanagementsystemfinale 130618022523 Phpapp01
Document28 pages
Studentdatabasemanagementsystemfinale 130618022523 Phpapp01
nguyentthai96
No ratings yet
Brochure - Sourav Sir's Classes 2020-2021
Document11 pages
Brochure - Sourav Sir's Classes 2020-2021
jyoti prakash
100% (1)
Running Fortios (Fortigate VM) in Vmware
Document15 pages
Running Fortios (Fortigate VM) in Vmware
Aneek Kumar
No ratings yet
Library Management System of University of Agriculture Faisalabad
Document23 pages
Library Management System of University of Agriculture Faisalabad
Faizan A Gondal
No ratings yet
Manual Honeywell
Document126 pages
Manual Honeywell
Alejandro Ramirez Morales
No ratings yet
30028
Document16 pages
30028
Syed Nadeem Ahmed
No ratings yet
FX Data Communication Programming Manual PDF
Document790 pages
FX Data Communication Programming Manual PDF
dmax2005
No ratings yet
KRAMER TP-583T Datasheet
Document3 pages
KRAMER TP-583T Datasheet
Hilary Jawa
No ratings yet
Networks Product Icons1
Document27 pages
Networks Product Icons1
greenisa
No ratings yet
4.non Linear Pipeline
Document20 pages
4.non Linear Pipeline
dev chauhan
88% (8)
CPT 168 HW#9 Answer Key
Document14 pages
CPT 168 HW#9 Answer Key
Jordan
50% (4)
Multi Touch Screens
Document16 pages
Multi Touch Screens
Devon Curtis
No ratings yet
Cybercrime and Cybercrime Trends
Document4 pages
Cybercrime and Cybercrime Trends
jim peterick sison
No ratings yet
Instruction Cycle: Universiti Teknologi MARA
Document10 pages
Instruction Cycle: Universiti Teknologi MARA
NUR ZAFIRA AMANI RUSLAN
No ratings yet
Velodyne - Subwoofer DD+ - User Manual
Document42 pages
Velodyne - Subwoofer DD+ - User Manual
Eletrônica Maia Comércio e Serviços
No ratings yet
Pearson BTEC Level 5 Higher National Diploma in Engineering (Electrical and Electronic Engineering)
Document3 pages
Pearson BTEC Level 5 Higher National Diploma in Engineering (Electrical and Electronic Engineering)
Minn Myat Maung
No ratings yet
Databases, Manajemen Data Dan Analisis Prediktif
Document43 pages
Databases, Manajemen Data Dan Analisis Prediktif
Selly Anastassia Amellia Kharis
No ratings yet
Huawei AirEngine 8760-X1-PRO Access Point Datasheet
Document15 pages
Huawei AirEngine 8760-X1-PRO Access Point Datasheet
Zekariyas Girma
No ratings yet
AC010 Unit 6 - Bank Accounting
Document17 pages
AC010 Unit 6 - Bank Accounting
Exie Costales
No ratings yet
Embedded Systems Handbook - CONTENTS: January 2005
Document3 pages
Embedded Systems Handbook - CONTENTS: January 2005
aleksandar7
No ratings yet
Checkpoint Tuning and Troubleshooting Guide
Document14 pages
Checkpoint Tuning and Troubleshooting Guide
gkiran_ch
No ratings yet
3HAC024480-011 Controlador IRC5 Armario
Document162 pages
3HAC024480-011 Controlador IRC5 Armario
Maxfox
No ratings yet
Apache Spark Tutorial
Document36 pages
Apache Spark Tutorial
vietpine
100% (3)
Informatica
Document11 pages
Informatica
Saket Sharan
No ratings yet
4CP0 02 Que 20211116
Document16 pages
4CP0 02 Que 20211116
Syed Umair Anwer
No ratings yet
Commonly Asked MongoDB Interview Questions (2023) - Interviewbit
Document21 pages
Commonly Asked MongoDB Interview Questions (2023) - Interviewbit
Sagar Chaudhari
No ratings yet
ERP - Evaluation Feedback 1.0
Document4 pages
ERP - Evaluation Feedback 1.0
Roshan naidu
No ratings yet
Process Modeling, Process Improvement, and ERP Implementation
Document19 pages
Process Modeling, Process Improvement, and ERP Implementation
Viet Hoa
No ratings yet
RTU Vs PLC
Document3 pages
RTU Vs PLC
rod8silva
No ratings yet
CIRED2017 - 0057 - Final RULES DRIVEN PROJECT SPECIFICATION IN THE CONTEXT OF IEC 61850 BASIC APPLICATION PROFILES
Document5 pages
CIRED2017 - 0057 - Final RULES DRIVEN PROJECT SPECIFICATION IN THE CONTEXT OF IEC 61850 BASIC APPLICATION PROFILES
Chris Parkinson
No ratings yet
Module Cloud Strategies &optimisation
Document7 pages
Module Cloud Strategies &optimisation
Jose Luis Lo Huang
No ratings yet