Welcome to Scribd!

Profile Dataset Derive Attributes

Uploaded by

0% found this document useful (0 votes)

8 views1 page

This document provides a quick reference for preparing data with R. It outlines common data preparation tasks like deriving attributes, validating and standardizing data, handling missing values, combining and splitting datasets, and creating interfaces with Python and SQL. The tasks include filtering, aggregating, selecting, mutating, joining, sampling and cleaning data.

Original Description:

Original Title

5f42418d-635c-4ee3-af38-2d57bc6b300b

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

8 views1 page

Profile Dataset Derive Attributes

Uploaded by

Issaka Ouedraogo

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 1

Search inside document

Data Science – Data Prep with R – Quick Reference

PROFILE DATASET DERIVE ATTRIBUTES

Volume df2 <- df %>% Buckets/Binning mutate (attr1_bin = cut(x = attr1,
summarize (count = n()) breaks = c(0,50,100)))
Velocity df2 <- df %>% Date Parts mutate (month = format(date1,
group_by (date1) %>% format = "%m")
summarize (count = n())
Date Difference mutate (elapsed_days = difftime
Attribute df2 <- df %>% (date1, date2, units = ‘days’)
Selection select (c (‘attr1’ , ’attr2’))
Last Period mutate (last_year = as.numeric
Incomplete df2 <- df %>% (format(date1, "%Y"))-1
Records filter (!is.na (attr1)) mutate (gender_male = if_else
Dummy Encoding
(One Hot) (attr1 == ‘male’, 1, 0)
VALIDATE ATTRIBUTES
Domain distinct(df,attr1) COMBINE DATASETS
Missing Values df2 <- df %>% filter(is.na (attr1)) Join Horizontally df3 <- inner_join (x=df1, y=df2,
(Full Match) by=‘attr1’)
Range summary (df)
Join Horizontally df3 <- left_join (x=df1, y=df2,
Data Types str (df) (Optional Match) by=‘attr1’)

Outliers summary (df); hist (df$attr1) Union Vertically df3 <- rbind (df1, df2)
(Deduplicate) df4 <- df3 [match (unique
Distribution hist (df$attr1) (df3$attr1), df3$attr1), ]
Union Vertically df3 <- rbind (df1, df2)
STANDARDIZE ATTRIBUTES (No Deduplicate)

Data Types mutate (attr1 = as.integer (attr1),

attr2 = factor (attr2), SPLIT DATASETS
date1 = as.Date (date1))
Simple Filter df2 <- df %>%
Patterns mutate (attr1 = if_else filter(attr1>5)
(attr1 == ‘Street’, ’St’, attr1)
Filter Based on df2 <- df %>%
Formatting mutate (attr1 = toupper (attr1)) Aggregation filter(attr1 > mean(attr1))

Scaling mutate (attr1=scale (attr1)) Sampling set.seed (100)

(Random) df2 <- sample_n (df, 1000)
CLEAN ATTRIBUTES Sampling df2 <- df %>%
(Non-Random) filter (ntile (attr1, 4) == 4)
Outliers mutate (attr1 = if_else (attr1 > 1000
(Quantitative) | attr1 < 0, NA, attr1)
CREATE INTERFACE
Missing Values mutate(attr1 = if_else (is.na(attr1),
(At Random) mean(attr1, na.rm=TRUE), attr1)) Python library (reticulate)
Missing Values mutate(attr1 = if_else SQL library (dbi)
(Not at Random) (is.na (attr1), 1, attr1)
Incorrect mutate(attr1 = if_else All items assume dplyr is loaded from tidyverse package.
Values (attr1 == ‘bad’, ’good’, attr1)) df is a dataframe with attributes attr1, attr2, date1, date2.
Pugsley 2021

Python Cheat Sheet 8 Pages
Document8 pages
Python Cheat Sheet 8 Pages
arcukvana
No ratings yet
Data Science Basics Cheatsheet
Document1 page
Data Science Basics Cheatsheet
acutotu
67% (3)
IntraDay Trading
Document73 pages
IntraDay Trading
Issaka Ouedraogo
100% (1)
Design Your Ultimate Life With Lifebook Online
Document34 pages
Design Your Ultimate Life With Lifebook Online
Jày Dēep
43% (14)
(PDF) Fundamentals of Data Structure in C
Document202 pages
(PDF) Fundamentals of Data Structure in C
高之男
No ratings yet
Parallel Lines and Transversals
Document15 pages
Parallel Lines and Transversals
Jasmin Move-Ramirez
No ratings yet
The Essential R Reference
From Everand
The Essential R Reference
Mark Gardener
No ratings yet
Lithium Battery Guidance Document 2017 en
Document20 pages
Lithium Battery Guidance Document 2017 en
tim winkelman
100% (1)
Crash and Boom Strategy 2020
Document17 pages
Crash and Boom Strategy 2020
Issaka Ouedraogo
0% (2)
Centralization & Decentralization
Document26 pages
Centralization & Decentralization
Joginder Grewal
No ratings yet
WAF (Web Application Firewall)
Document5 pages
WAF (Web Application Firewall)
Syed Danish
No ratings yet
TAI - MAL Handbook PDF
Document25 pages
TAI - MAL Handbook PDF
Issaka Ouedraogo
100% (1)
Consumer Awareness Theory
Document7 pages
Consumer Awareness Theory
Vitz Igot
100% (1)
Exploratory Analysis
Document4 pages
Exploratory Analysis
tatohoo
No ratings yet
Dba Midterm Cheatsheet
Document2 pages
Dba Midterm Cheatsheet
Soo Bin Teo
No ratings yet
DATASCI112 Midterm Cheat Sheet
Document2 pages
DATASCI112 Midterm Cheat Sheet
Niall Thomas Kehoe
No ratings yet
Derivatives Formulas
Document5 pages
Derivatives Formulas
Anudeep Reddy
No ratings yet
20BCE1205 Lab4
Document7 pages
20BCE1205 Lab4
SHUBHAM OJHA
No ratings yet
Mathematica Quick Reference Card
Document2 pages
Mathematica Quick Reference Card
Giova Rossi
No ratings yet
R As A Calculator (For Scalars)
Document1 page
R As A Calculator (For Scalars)
keyojeli
No ratings yet
Materi 2-Fungsi Lain
Document20 pages
Materi 2-Fungsi Lain
amsstk
No ratings yet
FinAnalyticsSolutions1236 PDF
Document37 pages
FinAnalyticsSolutions1236 PDF
AY6061
No ratings yet
Statistical Learning in R
Document31 pages
Statistical Learning in R
Angela Ivanova
No ratings yet
BSC Practical Manual
Document34 pages
BSC Practical Manual
naveen
No ratings yet
222222
Document1 page
222222
siwarzr11
No ratings yet
Derivatives Formulas PDF
Document5 pages
Derivatives Formulas PDF
Joe Stone
No ratings yet
Introduction To Functional Programming in Racket: CS 270 Math Foundations of CS Jeremy Johnson
Document26 pages
Introduction To Functional Programming in Racket: CS 270 Math Foundations of CS Jeremy Johnson
Gulrez M
No ratings yet
BSC Honours in Statistics: HSTS 203: Time Series Analysis University of Zimbabwe
Document7 pages
BSC Honours in Statistics: HSTS 203: Time Series Analysis University of Zimbabwe
Keith Tanyaradzwa Mushininga
No ratings yet
20BCE1205 Lab4
Document7 pages
20BCE1205 Lab4
SHUBHAM OJHA
No ratings yet
Transformation Setting It Up. Library (Nycflights13) Library (Tidyverse)
Document3 pages
Transformation Setting It Up. Library (Nycflights13) Library (Tidyverse)
Bhaswati Panda
No ratings yet
Derivative Formulas
Document2 pages
Derivative Formulas
Zhi Wei Chow
No ratings yet
Worksheet3 Sol
Document4 pages
Worksheet3 Sol
icelon N
No ratings yet
Data Clearning
Document7 pages
Data Clearning
lequangtrung010389
No ratings yet
Computational Tools
Document27 pages
Computational Tools
Amelie
No ratings yet
All 1
Document3 pages
All 1
araz arta
No ratings yet
MATLAB2Python-Julia Cheatsheet
Document13 pages
MATLAB2Python-Julia Cheatsheet
Sina
No ratings yet
Def Findodd
Document3 pages
Def Findodd
Xavier Willison III Willison III
No ratings yet
Codes Workshop
Document13 pages
Codes Workshop
iqra mumtaz
No ratings yet
Q184476 - Calculus - Tasks & Questions
Document1 page
Q184476 - Calculus - Tasks & Questions
sivaram boppe
No ratings yet
R Refence Card
Document1 page
R Refence Card
MktNeutral
No ratings yet
Mathematics-V Lab Manual
Document28 pages
Mathematics-V Lab Manual
Ayshath Asna
No ratings yet
1 Lomax Concomitants
Document16 pages
1 Lomax Concomitants
shan
No ratings yet
Integral Tak Tentu (Antiderivatif) : D. Ertiningsih
Document24 pages
Integral Tak Tentu (Antiderivatif) : D. Ertiningsih
Birawa Balapati
No ratings yet
Analysis of Circular Plate Bending: Expressions For The Deflection
Document3 pages
Analysis of Circular Plate Bending: Expressions For The Deflection
fabri
No ratings yet
R Reference Card
Document1 page
R Reference Card
efiol
No ratings yet
Rec 11
Document49 pages
Rec 11
Tamer Sultany
No ratings yet
Sort em Python
Document5 pages
Sort em Python
adrianoucam
No ratings yet
R Cheat Sheet: Data Manipulation Files & Objects
Document1 page
R Cheat Sheet: Data Manipulation Files & Objects
Ramarcha Kumar
No ratings yet
Functional Programming: Hadley Wickham
Document58 pages
Functional Programming: Hadley Wickham
JM
No ratings yet
Week 7 Slides
Document29 pages
Week 7 Slides
Shahad Hussain Kavassery Sakeer
No ratings yet
Introduction To R
Document11 pages
Introduction To R
Maddy Il
No ratings yet
PDB Mids Sab Kuch PDF
Document2 pages
PDB Mids Sab Kuch PDF
Mariam shahid
No ratings yet
2023 B Aleph Sol
Document3 pages
2023 B Aleph Sol
moamin.shikha
No ratings yet
Common Functions Function Derivative: Radians
Document2 pages
Common Functions Function Derivative: Radians
Paarth Prakash
No ratings yet
R Studio Notes
Document10 pages
R Studio Notes
Smriti Inis
No ratings yet
List of Distribution
Document4 pages
List of Distribution
Swee Khen
No ratings yet
HW3 - Figure 5.5: Read Data From Table 3.4
Document9 pages
HW3 - Figure 5.5: Read Data From Table 3.4
梁嫚芳
No ratings yet
Maths
Document6 pages
Maths
shahmeer sultan
No ratings yet
CS 179: GPU Programming
Document40 pages
CS 179: GPU Programming
Rajul
No ratings yet
Function (DPP-1) : Part - I Single Correct Answer Type
Document2 pages
Function (DPP-1) : Part - I Single Correct Answer Type
Sunny Kumar
No ratings yet
DFD Lab Solutions
Document18 pages
DFD Lab Solutions
Aseded Ased
No ratings yet
Practicle6 (Code)
Document4 pages
Practicle6 (Code)
Pallavi Gaikwad
No ratings yet
Pandas Attribute
Document2 pages
Pandas Attribute
Manish Jain
No ratings yet
Blow Up
Document6 pages
Blow Up
Irfan Ali
No ratings yet
Norwegian Spruces - Main Effects and Interaction: 1 Model
Document4 pages
Norwegian Spruces - Main Effects and Interaction: 1 Model
araz arta
No ratings yet
Tapasaya Series OM SIR (Function & ITF)
Document4 pages
Tapasaya Series OM SIR (Function & ITF)
Naba Lmsm
No ratings yet
Código Puro en Rstudio
Document2 pages
Código Puro en Rstudio
Cristian CR
No ratings yet
Presentation 1
Document34 pages
Presentation 1
satishreddy71
No ratings yet
Equations For
Document2 pages
Equations For
盧森丘
No ratings yet
Anonymisation: Theory and Practice: Mark Elliot Manchester University UK Anonymisation Network
Document13 pages
Anonymisation: Theory and Practice: Mark Elliot Manchester University UK Anonymisation Network
Issaka Ouedraogo
No ratings yet
QGIS: Recommended User Settings: Crs Tab
Document4 pages
QGIS: Recommended User Settings: Crs Tab
Issaka Ouedraogo
No ratings yet
Dependence Modeling Using EVT and D Vine
Document22 pages
Dependence Modeling Using EVT and D Vine
Issaka Ouedraogo
No ratings yet
Introduction To Human Resources
Document16 pages
Introduction To Human Resources
muna moono
No ratings yet
Unit 2: Detailed Architecture and Runtime: Lesson: Business Example
Document36 pages
Unit 2: Detailed Architecture and Runtime: Lesson: Business Example
rajendrakumarsahu
No ratings yet
Feel The Blearn 6-16-2016 Revision
Document8 pages
Feel The Blearn 6-16-2016 Revision
Alex Rodriguez
No ratings yet
Translucent Lesson
Document2 pages
Translucent Lesson
api-302564009
No ratings yet
Competitive Intelligence PDF
Document4 pages
Competitive Intelligence PDF
efsunfrei
No ratings yet
Simplification PDF
Document51 pages
Simplification PDF
subapacet
No ratings yet
Risperidone-Induced Priapism: Bahrain Med Bull 2001 23 (3) :149-50
Document3 pages
Risperidone-Induced Priapism: Bahrain Med Bull 2001 23 (3) :149-50
AatishRooh
No ratings yet
Silent Sound Technology
Document23 pages
Silent Sound Technology
RAMYA S
No ratings yet
E500 FD Rel11 Part1 Overview
Document35 pages
E500 FD Rel11 Part1 Overview
Жорж Каназирски
No ratings yet
Personal Development Plan
Document5 pages
Personal Development Plan
MUHAMMAD UMER 16093
No ratings yet
ARK-1 / AR-1: Auto Ref / Keratometer / Auto Refractometer
$ARK-1 / AR-1: Auto Ref / Keratometer / Auto Refractometer$
Document6 pages
ARK-1 / AR-1: Auto Ref / Keratometer / Auto Refractometer
beni
No ratings yet
Interdisciplinary Research
Document17 pages
Interdisciplinary Research
Fazil Hassan
No ratings yet
Business Proposal
Document10 pages
Business Proposal
Thais Salles
No ratings yet
2076 Ent PRPRN TEST 1
Document2 pages
2076 Ent PRPRN TEST 1
Diwakar Pokharel
No ratings yet
Lesson 6
Document12 pages
Lesson 6
Debayn Oliquiano
No ratings yet
Health Fitness Unit w4 l1
Document5 pages
Health Fitness Unit w4 l1
api-212456719
No ratings yet
Reproduction
Document2 pages
Reproduction
Sanjita Das
No ratings yet
Nanorobotii in Aplicatii Medicale
Document9 pages
Nanorobotii in Aplicatii Medicale
Laura Cursaru
No ratings yet
Case Law Analysis
Document8 pages
Case Law Analysis
api-309579746
No ratings yet
1w1p Frequently Asked Questions
Document2 pages
1w1p Frequently Asked Questions
api-28727087
No ratings yet
Japanese Teens As Producers of Street Fashion
Document14 pages
Japanese Teens As Producers of Street Fashion
Mishiko Osishvili
No ratings yet
Julius Caesar LitChart
Document30 pages
Julius Caesar LitChart
Cric Freak
No ratings yet
Mariano vs. Callejas
Document3 pages
Mariano vs. Callejas
Joy Carmen Castillo
No ratings yet
Literary Review (2007-05)
Document65 pages
Literary Review (2007-05)
PMagnet
No ratings yet