Welcome to Scribd!

Skip carousel

Pig

Uploaded by

AMIT ARORA

0% found this document useful (0 votes)

10 views2 pages

Original Title

Pig.txt

Copyright

Available Formats

TXT, PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as TXT, PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

10 views2 pages

Pig

Uploaded by

AMIT ARORA

Copyright:

Available Formats

Download as TXT, PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 2

Search inside document

Since it is procedural, you could control of the execution of every step.

If you want to write your own UDF(User Defined Function) and inject in one specific
part in the pipeline,
it is straightforward.

Data Schema is not enforced explicitly but implicitly. I think this is big one,
too.
The debugging of pig scripts in my experience is %90 of time schema and since it
does not enforce an explicit schema, sometimes one data structure goes bytearray,
which is a �raw� data type and unless you coerce the fields even the strings, they
turn bytearray without notice.
This may propagate for other steps of the data processing.

You could write your UDFs in Python.

You have UDFs which you want to parallellize and utilize for large amounts of data,
then you are in luck.
Use Pig as a base pipeline where it does the hard work and you just apply your UDF
in the step that you want.

A class for Java programs to connect to Pig. Typically a program will create a
PigServer instance

pig -x local myscript.pig

pig

Basic commands

sh ls

clear

help

Execute pig commands

truck_events1 = LOAD '/user/centos/drivers.csv' USING PigStorage(',');

DESCRIBE truck_events1;

truck_events2 = LOAD '/user/centos/drivers.csv' USING PigStorage(',')

AS (driverId:int, truckId:int, eventTime:chararray,
eventType:chararray, longitude:double, latitude:double,
eventKey:chararray, correlationId:long, driverName:chararray,
routeId:long,routeName:chararray,eventDate:chararray);
DESCRIBE truck_events2;

truck_events_subset = LIMIT truck_events2 10;

DESCRIBE truck_events_subset;

DUMP truck_events_subset;

specific_columns = FOREACH truck_events_subset GENERATE driverId, eventTime,

eventType;
DESCRIBE specific_columns;
STORE specific_columns INTO 'output1/specific_columns' USING PigStorage(',')

orders = load '/user/centos/data1.csv' using PigStorage(',') as

(cstrId:int,itmId:int,orderDate:long,deliveryDate:long);
grpd = group orders by cstrId;
items_by_customer = foreach grpd generate group as cstrId, COUNT(orders) as
itemCnt;
describe items_by_customer;

orders = load '/user/centos/data1.csv' using PigStorage(',') as (cstrId:int,

itmId:int, orderDate:long, deliveryDate: long);
cstr_info = load '/user/centos/information.csv' using PigStorage(',') as
(cstrId:int, name:chararray, city:chararray);
jnd = join orders by cstrId, cstr_info by cstrId;
describe jnd;
jnd_grp = group jnd by (orders::itmId, cstr_info::city);
describe jnd_grp;
result = foreach jnd_grp generate FLATTEN(group) , COUNT(jnd) as cnt;
describe result;

Graded Unit 1
Document38 pages
Graded Unit 1
Yen Fa Chen
100% (1)
GCC Profile Guided Optimization
Document47 pages
GCC Profile Guided Optimization
Tuxology.net
No ratings yet
FCBA
Document5 pages
FCBA
Twilight
No ratings yet
Unit 4
Document5 pages
Unit 4
Prince Rathore
No ratings yet
Disclaimer: Design Notes Assignment 4
Document4 pages
Disclaimer: Design Notes Assignment 4
Saurabh Gupta
No ratings yet
Module 4 - Pig
Document65 pages
Module 4 - Pig
Aditya Raj
No ratings yet
Streaming: Big Data Huawei Course
Document19 pages
Streaming: Big Data Huawei Course
Thiago Siqueira
No ratings yet
Web Application Firewall (WAF) Evasion Techniques #2
Document22 pages
Web Application Firewall (WAF) Evasion Techniques #2
saddest joker
No ratings yet
Pig, Grunt, Hive: Presented By:Akila 20Spcs01
Document16 pages
Pig, Grunt, Hive: Presented By:Akila 20Spcs01
Tech Talk Paper Presentation
No ratings yet
BigData Module 2
Document18 pages
BigData Module 2
Sushmith Shettigar
No ratings yet
List of Experiments
Document30 pages
List of Experiments
Rocky Samuel
No ratings yet
Apache PIG by Sravanthi
Document31 pages
Apache PIG by Sravanthi
Richie James
No ratings yet
Unit Iv Part - 2
Document59 pages
Unit Iv Part - 2
Nithya Naraparaju
No ratings yet
BDP U4
Document58 pages
BDP U4
Durga Bisht
No ratings yet
Program No 13
Document3 pages
Program No 13
Harshit Rajput
No ratings yet
Lecture+Notes+ +PIG
Document21 pages
Lecture+Notes+ +PIG
Yuvaraj V, Assistant Professor, BCA
No ratings yet
Programming With Pcap
Document7 pages
Programming With Pcap
warisz
No ratings yet
491-Health HTB Official Writeup Tamarisk
Document15 pages
491-Health HTB Official Writeup Tamarisk
Daniyal Hassan
No ratings yet
A Pivot Cheatsheet For Pentesters
Document21 pages
A Pivot Cheatsheet For Pentesters
Vo Tinh
No ratings yet
FLUTTER Enotes
Document48 pages
FLUTTER Enotes
lava bhai
No ratings yet
Default - Parallel: You Can Set The Number of Reducers For A Map Job by Passing Any Whole Number As A
Document6 pages
Default - Parallel: You Can Set The Number of Reducers For A Map Job by Passing Any Whole Number As A
Vijay Yenchilwar
No ratings yet
Gaffer Documentation: Release 0.5.2
Document43 pages
Gaffer Documentation: Release 0.5.2
Junt
No ratings yet
Pig Setup and Test Run: by Kannan Kalidasan
Document17 pages
Pig Setup and Test Run: by Kannan Kalidasan
UtibeimaUkoh
No ratings yet
Pig Slides
Document46 pages
Pig Slides
Sreedhar Arikatla
No ratings yet
Backdoor
Document9 pages
Backdoor
Hariprasad Manchi
No ratings yet
Hadoop Pig Presentation
Document33 pages
Hadoop Pig Presentation
Vijay Reddy
No ratings yet
Pig Full Lecture
Document38 pages
Pig Full Lecture
Atharv Chaudhari
No ratings yet
What Is Multi Threading
Document64 pages
What Is Multi Threading
ronak_sp
100% (1)
MR YARN - Lab 2 - Cloud - Updated-V2.0
Document22 pages
MR YARN - Lab 2 - Cloud - Updated-V2.0
bender1686
No ratings yet
A Puppet/Fabric Build/Deploy System: Adrian Nye, Dimensional Fund Advisors
Document28 pages
A Puppet/Fabric Build/Deploy System: Adrian Nye, Dimensional Fund Advisors
gamezzzz
No ratings yet
Hadoop - PIG User Material
Document292 pages
Hadoop - PIG User Material
rahulneel
No ratings yet
Incognito Final Report PDF
Document25 pages
Incognito Final Report PDF
skill connect
No ratings yet
Back To The Basics - Solaris Default Processes and Init.d Part III
Document6 pages
Back To The Basics - Solaris Default Processes and Init.d Part III
Chakravarthy Pandranki
No ratings yet
(GSoC 2020) Integration of ArduPilot and Realsense D4xx Depth Camera For Simple Obstacle Avoidance - Blog - ArduPilot Discourse
Document9 pages
(GSoC 2020) Integration of ArduPilot and Realsense D4xx Depth Camera For Simple Obstacle Avoidance - Blog - ArduPilot Discourse
Nikita Shakya
No ratings yet
Quines (Self-Replicating Programs)
Document20 pages
Quines (Self-Replicating Programs)
sheikh153
No ratings yet
Apache Pig: Pig Is The Abstraction Over Mapreduce
Document4 pages
Apache Pig: Pig Is The Abstraction Over Mapreduce
prerna gupta
No ratings yet
Python Prac8 14
Document10 pages
Python Prac8 14
prasad Gade
No ratings yet
Hacking Metasploit2
Document32 pages
Hacking Metasploit2
ajsurkhi
No ratings yet
FOSS@Amrita Contribution Drive: Key Task
Document6 pages
FOSS@Amrita Contribution Drive: Key Task
Kalpesh Gupta
No ratings yet
Palak
Document10 pages
Palak
Dolly Mehra
No ratings yet
Pig Latin Modes
Document3 pages
Pig Latin Modes
yohetad
No ratings yet
14 Parallel Computing
Document23 pages
14 Parallel Computing
Jai Singh
No ratings yet
App-V Scripting Within An OSD File
Document5 pages
App-V Scripting Within An OSD File
userfrominternet
No ratings yet
Scet Unit 5
Document9 pages
Scet Unit 5
Devi Kondaveti
No ratings yet
UNIT 5 Notes by ARUN JHAPATE
Document21 pages
UNIT 5 Notes by ARUN JHAPATE
Ankit “अंकित मौर्य” Mourya
No ratings yet
Road Map To Start With Verification - SV, SVA, UVM and TB
Document4 pages
Road Map To Start With Verification - SV, SVA, UVM and TB
vivek narakala
No ratings yet
HP VuGen Certification
Document4 pages
HP VuGen Certification
goelshaswat
No ratings yet
Maxbox - Starter 45 Robotics
Document9 pages
Maxbox - Starter 45 Robotics
Max Kleiner
No ratings yet
Department of Compuetr Science and Engineering: Lab Manual Information Security
Document89 pages
Department of Compuetr Science and Engineering: Lab Manual Information Security
dkishore
No ratings yet
Stopwatch
Document16 pages
Stopwatch
Sasa Leung
No ratings yet
Using Dtrace To Demystify Watchpoints in The Sun Studio DBX Debugger
Document8 pages
Using Dtrace To Demystify Watchpoints in The Sun Studio DBX Debugger
Bangari Naidu
No ratings yet
Performance Analysis of Network Port Scanning When Using Sequential Processing, Multithreading and Multiprocessing in Python Programming Language
Document4 pages
Performance Analysis of Network Port Scanning When Using Sequential Processing, Multithreading and Multiprocessing in Python Programming Language
International Journal of Innovative Science and Research Technology
No ratings yet
Flutter Part 2
Document9 pages
Flutter Part 2
Faisal Ahmad
No ratings yet
Knife
Document9 pages
Knife
mafihokand123
No ratings yet
Que Sont Les Widgets Flutter ?
Document6 pages
Que Sont Les Widgets Flutter ?
Oussama Sghaier
No ratings yet
4.7 Local Execution: To Appear in OSDI 2004
Document1 page
4.7 Local Execution: To Appear in OSDI 2004
p001
No ratings yet
Hacking MAAS: Coding Style
Document7 pages
Hacking MAAS: Coding Style
Manuela Taveras
No ratings yet
Unit 4 Bba
Document10 pages
Unit 4 Bba
rajendrameena172003
No ratings yet
Footprinting, Reconnaissance, Scanning and Enumeration Techniques of Computer Networks
From Everand
Footprinting, Reconnaissance, Scanning and Enumeration Techniques of Computer Networks
Dr. Hidaia Mahmood Alassouli
No ratings yet
Hacking of Computer Networks: Full Course on Hacking of Computer Networks
From Everand
Hacking of Computer Networks: Full Course on Hacking of Computer Networks
Dr. Hidaia Mahmood Alassouli
No ratings yet
PHP Package Mastery: 100 Essential Tools in One Hour - 2024 Edition
From Everand
PHP Package Mastery: 100 Essential Tools in One Hour - 2024 Edition
Kanto
No ratings yet
Propeller Programming: Using Assembler, Spin, and C
From Everand
Propeller Programming: Using Assembler, Spin, and C
Sridhar Anandakrishnan
No ratings yet
25 Apr B5 P1
Document3 pages
25 Apr B5 P1
AMIT ARORA
No ratings yet
HBASE Practice
Document1 page
HBASE Practice
AMIT ARORA
No ratings yet
Hive
Document2 pages
Hive
AMIT ARORA
No ratings yet
Hive
Document2 pages
Hive
AMIT ARORA
No ratings yet
HBASE Practice
Document1 page
HBASE Practice
AMIT ARORA
No ratings yet
Hive
Document2 pages
Hive
AMIT ARORA
No ratings yet
Day2 Practical
Document2 pages
Day2 Practical
AMIT ARORA
No ratings yet
HBASE Practice
Document1 page
HBASE Practice
AMIT ARORA
No ratings yet
Hive
Document2 pages
Hive
AMIT ARORA
No ratings yet
Day2 Practical
Document2 pages
Day2 Practical
AMIT ARORA
No ratings yet
Mukesh Dubey Resume June 2019
Document2 pages
Mukesh Dubey Resume June 2019
Mukesh Dubey
No ratings yet
A Practical Applications of Virtual PLC Using LabVIEW Software
Document6 pages
A Practical Applications of Virtual PLC Using LabVIEW Software
Loc Huynh
No ratings yet
IV Pump Flo-Gard 6301
Document48 pages
IV Pump Flo-Gard 6301
Dba Biomedtech
No ratings yet
Video Cassette Recorder: Instruction Manual
Document24 pages
Video Cassette Recorder: Instruction Manual
Paweł Myczka
No ratings yet
Manual TV LG 50pj350
Document242 pages
Manual TV LG 50pj350
manolito454
No ratings yet
Data Sheet 7KG8501-0AA01-0AA0: Measuring Functions
Document3 pages
Data Sheet 7KG8501-0AA01-0AA0: Measuring Functions
tojeste
No ratings yet
Trees: Discrete Structures For Computing
Document48 pages
Trees: Discrete Structures For Computing
Lê Văn Hoàng
No ratings yet
Digital Design and Computer Architecture, 2: Edition
Document135 pages
Digital Design and Computer Architecture, 2: Edition
Сергей Капуста
No ratings yet
ROWE Scan 600 Manual PDF
Document157 pages
ROWE Scan 600 Manual PDF
Mārtiņš Dreijers
No ratings yet
Sat 2004 Maths Questions
Document3 pages
Sat 2004 Maths Questions
Sai Sumanth P
No ratings yet
Xii Cs Practical File kv2 2023-24
Document35 pages
Xii Cs Practical File kv2 2023-24
Mentalist
No ratings yet
Bluetooth Modules
Document15 pages
Bluetooth Modules
GUILHEM
No ratings yet
Inverter Documents-OM Textiles 4MW Rev00
Document18 pages
Inverter Documents-OM Textiles 4MW Rev00
Kalayanaraman Ramakrishnan
100% (1)
HUAWEI - SD-WAN Solution
Document235 pages
HUAWEI - SD-WAN Solution
buafac10
No ratings yet
Barter Bearer and Bitcoin - The Likely Future of Stateless Virtu
Document25 pages
Barter Bearer and Bitcoin - The Likely Future of Stateless Virtu
Cortney Smith
No ratings yet
C Basics
Document92 pages
C Basics
javed
No ratings yet
Gaz Classifieds 220514
Document6 pages
Gaz Classifieds 220514
Digital Media
No ratings yet
Layout Lec 02 Var Rel v01
Document31 pages
Layout Lec 02 Var Rel v01
Ahmed Metwaly
No ratings yet
Blues Scales PDF
Document2 pages
Blues Scales PDF
Wayne OnSax
No ratings yet
Overview On Sourcing: Oracle Fusion: 21D Updates
Document24 pages
Overview On Sourcing: Oracle Fusion: 21D Updates
Mathi Vathani
No ratings yet
Computer Basics
Document94 pages
Computer Basics
santhosh hk
No ratings yet
Computer Chapter 13
Document45 pages
Computer Chapter 13
Md. Sakib Hossain
No ratings yet
SPSSG 1009
Document32 pages
SPSSG 1009
Bogdan
100% (1)
François Roche - R&Sie (N) Architects
Document14 pages
François Roche - R&Sie (N) Architects
EmersonAagaard
No ratings yet
Installation
Document111 pages
Installation
Suma P R
No ratings yet
Mock
Document19 pages
Mock
Sourabh Jakhar
No ratings yet
INGLES 1. Ultima Version.
Document45 pages
INGLES 1. Ultima Version.
C̶r̶i̶s̶t̶h̶i̶a̶n̶ V̶e̶r̶a̶ ̶Al̶m̶e̶i̶d̶a̶
No ratings yet
FFmpeg Compilation in Windows 10
Document4 pages
FFmpeg Compilation in Windows 10
Columbus County
No ratings yet