Welcome to Scribd!

Skip carousel

GitHub - Prince6635 - Movie-Ratings-By-Mapreduce-And-Hadoop - Big Data (Movie Ratings) Based On Hadoop and MapReduce

Uploaded by

mohammadkhaja.shaik

0% found this document useful (0 votes)

3 views11 pages

prince6635_movie-rating

Original Title

GitHub - prince6635_movie-ratings-by-mapreduce-and-hadoop_ Big data (movie ratings) based on Hadoop and MapReduce

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

prince6635_movie-rating

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

3 views11 pages

GitHub - Prince6635 - Movie-Ratings-By-Mapreduce-And-Hadoop - Big Data (Movie Ratings) Based On Hadoop and MapReduce

Uploaded by

mohammadkhaja.shaik

prince6635_movie-rating

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 11

Search inside document

3/29/24, 4:36 PM GitHub - prince6635/movie-ratings-by-mapreduce-and-hadoop: Big data (movie ratings) based on Hadoop and MapReduce

prince6635 / movie-ratings-by-mapreduce-and-hadoop Public

Big data (movie ratings) based on Hadoop and MapReduce

6 stars 9 forks Branches Tags Activity

Star Notifications

Code Issues Pull requests Actions Projects Security Insights

master 1 Branch 0 Tags Go to file Go to file Code

prince6635 Run MR job on AWS EMR 8 years ago

assets Run MR job on AWS EMR 8 years ago

.gitignore Initial commit 8 years ago

README.md Run MR job on AWS EMR 8 years ago

friends_by_age.py MapReduce example - average n… 8 years ago

min_temperatures_by_loc… MapReduce example - min temp… 8 years ago

most_popular_movie.py MapReduce example - movie rati… 8 years ago

most_popular_movie_with… MapReduce example - movie rati… 8 years ago

most_popular_superhero.py MapReduce example - Most pop… 8 years ago

movie_recommendation_… Run MR job on AWS EMR 8 years ago

process_marvel_data.py MapReduce example - find super… 8 years ago

superhero_relatons_by_BF… MapReduce example - find super… 8 years ago

total_amount_spent_by_c… MapReduce example - total amo… 8 years ago

word_frequency.py MapReduce example - word freq… 8 years ago

word_frequency_better.py MapReduce example - word freq… 8 years ago

word_frequency_sorted_b… MapReduce example - word freq… 8 years ago

word_frequency_with_co… MapReduce example - movie rati… 8 years ago

https://github.com/prince6635/movie-ratings-by-mapreduce-and-hadoop 1/11
3/29/24, 4:36 PM GitHub - prince6635/movie-ratings-by-mapreduce-and-hadoop: Big data (movie ratings) based on Hadoop and MapReduce

Big data (movie ratings) based on Hadoop and

MapReduce

Exmaple:

how many movies that each user has watched? => key: user_id and value: movie_id, now
duplicate keys are ok, since reducer will handle that later.

https://github.com/prince6635/movie-ratings-by-mapreduce-and-hadoop 2/11
3/29/24, 4:36 PM GitHub - prince6635/movie-ratings-by-mapreduce-and-hadoop: Big data (movie ratings) based on Hadoop and MapReduce

Map:

https://github.com/prince6635/movie-ratings-by-mapreduce-and-hadoop 3/11
3/29/24, 4:36 PM GitHub - prince6635/movie-ratings-by-mapreduce-and-hadoop: Big data (movie ratings) based on Hadoop and MapReduce

https://github.com/prince6635/movie-ratings-by-mapreduce-and-hadoop 4/11
3/29/24, 4:36 PM GitHub - prince6635/movie-ratings-by-mapreduce-and-hadoop: Big data (movie ratings) based on Hadoop and MapReduce

Reduce:

All:

Code snippet: # of movies for each rating?

https://github.com/prince6635/movie-ratings-by-mapreduce-and-hadoop 5/11
3/29/24, 4:36 PM GitHub - prince6635/movie-ratings-by-mapreduce-and-hadoop: Big data (movie ratings) based on Hadoop and MapReduce

Fields: user_id movie_id rating timestamp

Combiner: when mapper is done producing key-value pairs, do some reduction work in mapper,
like aggregating data before sending to reducer to save some network bandwidth.

ex: ./word_frequency_with_combiner.py

Attach config/data file with each MapReduce job across distributed nodes:
./most_popular_movie_with_name_lookup.py

README

https://github.com/prince6635/movie-ratings-by-mapreduce-and-hadoop 6/11
3/29/24, 4:36 PM GitHub - prince6635/movie-ratings-by-mapreduce-and-hadoop: Big data (movie ratings) based on Hadoop and MapReduce

How MapReduce scales / distributed computing:

Hadoop (Run MapReduce job in a distributed way)

https://github.com/prince6635/movie-ratings-by-mapreduce-and-hadoop 7/11
3/29/24, 4:36 PM GitHub - prince6635/movie-ratings-by-mapreduce-and-hadoop: Big data (movie ratings) based on Hadoop and MapReduce

HDFS (Hadoop Distributed File System): is used by Hadoop for distributing data and information
that Hadoop accesses, YARN manages how Hadoop jobs distributed across the cluster.

https://github.com/prince6635/movie-ratings-by-mapreduce-and-hadoop 8/11
3/29/24, 4:36 PM GitHub - prince6635/movie-ratings-by-mapreduce-and-hadoop: Big data (movie ratings) based on Hadoop and MapReduce

Apache YARN (Hadoop uses to figure out what mapper/reducer to run where, how to connect
them all together, keep tracking what's running, etc.)

https://github.com/prince6635/movie-ratings-by-mapreduce-and-hadoop 9/11
3/29/24, 4:36 PM GitHub - prince6635/movie-ratings-by-mapreduce-and-hadoop: Big data (movie ratings) based on Hadoop and MapReduce

AWS Elastic MapReduce

Tools
Python tool for big data: Enthought canopy
mrjob package: for MapReduce Editor -> !pip install mrjob
https://github.com/prince6635/movie-ratings-by-mapreduce-and-hadoop 10/11
3/29/24, 4:36 PM GitHub - prince6635/movie-ratings-by-mapreduce-and-hadoop: Big data (movie ratings) based on Hadoop and MapReduce

Sample data: http://grouplens.org/

datasets -> MovieLens 100K Dataset (ml-100k.zip)

Releases

No releases published

Packages

No packages published

Languages

Python 94.0% Perl 3.2% Shell 2.8%

https://github.com/prince6635/movie-ratings-by-mapreduce-and-hadoop 11/11

BigData - Hadoop - Spark - ES - 3 - Day Training
Document358 pages
BigData - Hadoop - Spark - ES - 3 - Day Training
seshuchoudary
No ratings yet
Hadoop Beginner's Guide
From Everand
Hadoop Beginner's Guide
Garry Turkington
Rating: 4 out of 5 stars
4/5 (7)
Python Geospatial Development - Third Edition
From Everand
Python Geospatial Development - Third Edition
Erik Westra
Rating: 4 out of 5 stars
4/5 (1)
Parallel Python with Dask
From Everand
Parallel Python with Dask
Tim Peters
No ratings yet
Parallel Python with Dask: Perform distributed computing, concurrent programming and manage large dataset
From Everand
Parallel Python with Dask: Perform distributed computing, concurrent programming and manage large dataset
Tim Peters
No ratings yet
Data Wrangling in R PDF
Document12 pages
Data Wrangling in R PDF
Arun Kumar
No ratings yet
Frank Kane's Taming Big Data with Apache Spark and Python
From Everand
Frank Kane's Taming Big Data with Apache Spark and Python
Frank Kane
No ratings yet
Hadoop Blueprints
From Everand
Hadoop Blueprints
Anurag Shrivastava
No ratings yet
Project Proposal 2
Document1 page
Project Proposal 2
potatoid
100% (3)
003 This Course 1
Document7 pages
003 This Course 1
Mauricio Micoski
No ratings yet
Chicago Crime (2013) Analysis Using Pig and Visualization Using R
Document61 pages
Chicago Crime (2013) Analysis Using Pig and Visualization Using R
Saurabh Sharma
No ratings yet
Bachelor of Engineering: C K Pithawalla College of Engineering & Technology, SURAT
Document14 pages
Bachelor of Engineering: C K Pithawalla College of Engineering & Technology, SURAT
Nishant M Gandhi
No ratings yet
Hadoop Vs MongoDB
Document11 pages
Hadoop Vs MongoDB
Mafrur Rischan
No ratings yet
Hadoop: Data Processing and Modelling
From Everand
Hadoop: Data Processing and Modelling
Garry Turkington
No ratings yet
Big Data
Document130 pages
Big Data
mahi
No ratings yet
Learning PySpark
From Everand
Learning PySpark
Tomasz Drabas
No ratings yet
Hadoop 1 Ref
Document4 pages
Hadoop 1 Ref
Rahul Naik
No ratings yet
HADOOP and PYTHON For BEGINNERS - 2 BOOKS in 1 - Learn Coding Fast! HADOOP and PYTHON Crash Course, A QuickStart Guide, Tutorial Book by Program Examples, in Easy Steps!
Document89 pages
HADOOP and PYTHON For BEGINNERS - 2 BOOKS in 1 - Learn Coding Fast! HADOOP and PYTHON Crash Course, A QuickStart Guide, Tutorial Book by Program Examples, in Easy Steps!
Antony George Sahayaraj
No ratings yet
Big Data Hadoop Stack
Document52 pages
Big Data Hadoop Stack
Yaser Ali Tariq
No ratings yet
Resume Columbia
Document1 page
Resume Columbia
Radhika Awasti
No ratings yet
Mining Public Datasets
Document45 pages
Mining Public Datasets
Mahout
100% (1)
Graphanalyticswitharangodbfeb2021 210215121042
Document56 pages
Graphanalyticswitharangodbfeb2021 210215121042
Adireddy Satyatrinadh
No ratings yet
Research Paper On Hadoop
Document5 pages
Research Paper On Hadoop
wlyxiqrhf
100% (1)
What Is Hadoop - Introduction, Architecture, Ecosystem, Components
Document8 pages
What Is Hadoop - Introduction, Architecture, Ecosystem, Components
Ahmed Mohamed
No ratings yet
BigData Nptel
Document813 pages
BigData Nptel
Jagat Chauhan
No ratings yet
Big Data Training
Document1 page
Big Data Training
RaajKumar
No ratings yet
Learning ROS for Robotics Programming - Second Edition
From Everand
Learning ROS for Robotics Programming - Second Edition
Enrique Fernandez
No ratings yet
R Vignette
Document47 pages
R Vignette
deenadayalancs
No ratings yet
DMBD - MBAA21013 - Apache Drill
Document11 pages
DMBD - MBAA21013 - Apache Drill
Arunima Singh
No ratings yet
1 - Big Data and Hadoop Framework
Document40 pages
1 - Big Data and Hadoop Framework
Prishita Kapoor
No ratings yet
Hadoop vs. Spark: The New Age of Big Data
Document7 pages
Hadoop vs. Spark: The New Age of Big Data
adnanbw
No ratings yet
Understanding Big Data
Document3 pages
Understanding Big Data
oraclebharadwaj
No ratings yet
Learning Cascading
From Everand
Learning Cascading
Michael Covert
No ratings yet
H1. Big Data With Hadoop & Spark - Introduction
Document47 pages
H1. Big Data With Hadoop & Spark - Introduction
wordpressbugs
No ratings yet
GPU-based Parallel Implementation of Swarm Intelligence Algorithms
From Everand
GPU-based Parallel Implementation of Swarm Intelligence Algorithms
Ying Tan
No ratings yet
Two For One - Querying Property Graph Databases Using SPARQL Via Gremlinator
Document5 pages
Two For One - Querying Property Graph Databases Using SPARQL Via Gremlinator
NT Minh
No ratings yet
Big Data Analytics
Document27 pages
Big Data Analytics
Chinmay Bhake
No ratings yet
Syllabus E63 2018 Fall PDF
Document3 pages
Syllabus E63 2018 Fall PDF
vinceRed
No ratings yet
Hands On Big Data
Document52 pages
Hands On Big Data
pratap
No ratings yet
Big Data Technologies
Document31 pages
Big Data Technologies
AdiTan00
No ratings yet
AAAI2011 Tutorial Slides
Document213 pages
AAAI2011 Tutorial Slides
sleakaeu
No ratings yet
100+ Hadoop Interview Questions From Interviews
Document32 pages
100+ Hadoop Interview Questions From Interviews
satish.sathya.a2012
No ratings yet
5 PIG Big Data Analytics Final Year
Document25 pages
5 PIG Big Data Analytics Final Year
RISHIKA ARORA
No ratings yet
SPIDER ASystemforScalableParallelDistributedEvaluationoflarge ScaleRDFData
Document5 pages
SPIDER ASystemforScalableParallelDistributedEvaluationoflarge ScaleRDFData
Kishore Kumar RaviChandran
No ratings yet
Hadoop 2 Quick Start Guide PDF
Document736 pages
Hadoop 2 Quick Start Guide PDF
SARANYA
100% (1)
Leading A Healthcare Company To The Big Data Promised Land
Document34 pages
Leading A Healthcare Company To The Big Data Promised Land
ssaurabh_ss
100% (1)
Research Paper On Big Data Hadoop
Document5 pages
Research Paper On Big Data Hadoop
t1tos1z0t1d2
100% (1)
Applications of Data Structures
Document6 pages
Applications of Data Structures
DãvínMâk
No ratings yet
SergeBazhievsky Introduction To Hadoop MapReduce v2
Document67 pages
SergeBazhievsky Introduction To Hadoop MapReduce v2
Sakthidevi Balakumar
No ratings yet
Mastering Hadoop
From Everand
Mastering Hadoop
Sandeep Karanth
No ratings yet
Research Paper On Hadoop Mapreduce
Document5 pages
Research Paper On Hadoop Mapreduce
fzgz6hyt
100% (1)
Kcs061 Unit 2
Document60 pages
Kcs061 Unit 2
Sachin
No ratings yet
Big Data
Document4 pages
Big Data
aryan kothambia
No ratings yet
GPUMap - A Transparently GPU-Accelerated Python Map Function
Document10 pages
GPUMap - A Transparently GPU-Accelerated Python Map Function
maf2014
No ratings yet
Hadoop Installation
Document39 pages
Hadoop Installation
mohan anand
No ratings yet
Syllabus E63 Spring2016-3
Document2 pages
Syllabus E63 Spring2016-3
Updates Nepal
No ratings yet
MapReduce Word Count Example - Javatpoint
Document12 pages
MapReduce Word Count Example - Javatpoint
mohammadkhaja.shaik
No ratings yet
Hadoop Training in Bangalore
Document38 pages
Hadoop Training in Bangalore
kellytechnologies
No ratings yet
My Jupyter Docker Full Stack
Document33 pages
My Jupyter Docker Full Stack
malliwi
No ratings yet
Effective Robotics Programming with ROS - Third Edition
From Everand
Effective Robotics Programming with ROS - Third Edition
Aaron Martinez
No ratings yet
MapReduce Word Count Example - Javatpoint
Document12 pages
MapReduce Word Count Example - Javatpoint
mohammadkhaja.shaik
No ratings yet
05 Movies Data Analysis Using Mapreduce
Document20 pages
05 Movies Data Analysis Using Mapreduce
mohammadkhaja.shaik
No ratings yet
Added Label For Scattered Graphs Atharvaunde - Data-Analytics-Lab@f75baf9 GitHub
Document2 pages
Added Label For Scattered Graphs Atharvaunde - Data-Analytics-Lab@f75baf9 GitHub
mohammadkhaja.shaik
No ratings yet
Pima Indians Diabetes Dataset Analysis - Notebook by Swapnil Gupta (Swapnilg4u) - Jovian
Document1 page
Pima Indians Diabetes Dataset Analysis - Notebook by Swapnil Gupta (Swapnilg4u) - Jovian
mohammadkhaja.shaik
No ratings yet
Bda Aids Syllabus
Document3 pages
Bda Aids Syllabus
mohammadkhaja.shaik
No ratings yet
IM0973567 Orlaco EMOS Photonview Configuration EN A01 Mail
Document14 pages
IM0973567 Orlaco EMOS Photonview Configuration EN A01 Mail
dumass27
No ratings yet
Refference 01 Sheethal Visa Rejection Reason Explanation
Document3 pages
Refference 01 Sheethal Visa Rejection Reason Explanation
Aniket Patel
No ratings yet
LESSON - STEM-based Research Problems
Document49 pages
LESSON - STEM-based Research Problems
Lee Jeno
No ratings yet
Chapter 01
Document26 pages
Chapter 01
zwright172
No ratings yet
Rectangular Wire Die Springs ISO-10243 Standard: Red Colour Heavy Load
Document3 pages
Rectangular Wire Die Springs ISO-10243 Standard: Red Colour Heavy Load
basha
No ratings yet
1 48 Volt Parallel Battery System PSS-SOC - Step-By-Step Volvo
Document11 pages
1 48 Volt Parallel Battery System PSS-SOC - Step-By-Step Volvo
Eyosyas Nathan
No ratings yet
ADAM
Document12 pages
ADAM
rey
No ratings yet
Chapter 3: Classical Production Models: News Vendor Model
Document85 pages
Chapter 3: Classical Production Models: News Vendor Model
mauriciovendramin
No ratings yet
Data Loss Prevention
Document20 pages
Data Loss Prevention
deepak4315
No ratings yet
Muhammad Safuan Othman (CD 4862)
Document24 pages
Muhammad Safuan Othman (CD 4862)
Andy
100% (1)
Compose Testing Cheatsheet
Document1 page
Compose Testing Cheatsheet
Estampados SIn Apellido
No ratings yet
Project Proposal - Articulation Sessions
Document8 pages
Project Proposal - Articulation Sessions
Jhay-are Pogoy
No ratings yet
1 Introduction To Pharmaceutical Dosage Forms Part1
Document32 pages
1 Introduction To Pharmaceutical Dosage Forms Part1
Joanna Carla Marmonejo Estorninos-Walker
100% (1)
Memorandum of Agreement
Document6 pages
Memorandum of Agreement
Jomar Jayme
No ratings yet
User Exits in Validations Substitutions
Document3 pages
User Exits in Validations Substitutions
sandeep
No ratings yet
4 3 3LeaseLinesigned
Document42 pages
4 3 3LeaseLinesigned
Jagat Brahma Patra
No ratings yet
In Coming Mail
Document4 pages
In Coming Mail
poetoet
100% (1)
Layer 3 Managed 8 10G Port Switch Controller: RTL9303-CG
Document55 pages
Layer 3 Managed 8 10G Port Switch Controller: RTL9303-CG
박윤지
100% (1)
COST v. MMWD Complaint 8.20.19
Document64 pages
COST v. MMWD Complaint 8.20.19
Will Houston
No ratings yet
Chapter 3 - A Top-Level View of Computer Function and Interconnection
Document8 pages
Chapter 3 - A Top-Level View of Computer Function and Interconnection
Chu Quang Huy
No ratings yet
Analytical Profiles Drug Substances and Excipien T S: Harry G. Brittain
Document693 pages
Analytical Profiles Drug Substances and Excipien T S: Harry G. Brittain
Nguyen Tri
No ratings yet
6398 14990 1 PB
Document8 pages
6398 14990 1 PB
Kent Ky Gilla
No ratings yet
GTT NO96 LNG Tanks
Document5 pages
GTT NO96 LNG Tanks
Edutam
No ratings yet
Comprehensive Case 2 - Question
Document7 pages
Comprehensive Case 2 - Question
Praveen Roshen
No ratings yet
Business Works Student User Guide
Document14 pages
Business Works Student User Guide
Akram Uddin
No ratings yet
Guidelines For New Students - 2022
Document14 pages
Guidelines For New Students - 2022
Ria Faye Paderanga
No ratings yet
Heirs of Tancoco v. CA
Document28 pages
Heirs of Tancoco v. CA
Chris Yap
No ratings yet
Definition of Sustainable Packaging PDF
Document10 pages
Definition of Sustainable Packaging PDF
Prof C.S.Purushothaman
No ratings yet
SAN MIGUEL CORPORATION, ANGEL G. ROA and MELINDA MACARAIG, vs. NATIONAL LABOR RELATIONS COMMISSION (Second Division), LABOR ARBITER EDUARDO J. CARPIO, ILAW AT BUKLOD NG MANGGAGAWA (IBM), ET AL
Document6 pages
SAN MIGUEL CORPORATION, ANGEL G. ROA and MELINDA MACARAIG, vs. NATIONAL LABOR RELATIONS COMMISSION (Second Division), LABOR ARBITER EDUARDO J. CARPIO, ILAW AT BUKLOD NG MANGGAGAWA (IBM), ET AL
Laila Ismael Salisa
No ratings yet
Electrical NTPC
Document24 pages
Electrical NTPC
Senthil Kumar
No ratings yet