0% found this document useful (0 votes)

115 views5 pages

ELT Using Pandas

This cheat sheet provides a comprehensive guide on using Pandas for Extract, Load, and Transform (ELT) processes, covering data extraction, loading, transformation, cleaning, and analysis. It includes various functions and methods for handling different data formats, performing advanced transformations, and optimizing performance. Additionally, it addresses data integration, serialization, and automation of ETL workflows.

Uploaded by

vamsitarak55

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

115 views5 pages

ELT Using Pandas

Uploaded by

vamsitarak55

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PDF, TXT or read online on Scribd

You are on page 1/ 5

# [ ELT Using Pandas ] ( CheatSheet )

1. Data Extraction

● Read CSV File: pd.read_csv('[Link]')

● Read Excel File: pd.read_excel('[Link]')
● Read JSON File: pd.read_json('[Link]')
● Read SQL Database: pd.read_sql(query, connection)
● Read HTML Table: pd.read_html('[Link]
● Read Parquet File: pd.read_parquet('[Link]')
● Read from Clipboard: pd.read_clipboard()
● Read from a Python Dictionary: [Link].from_dict(dict)
● Read from Multiple Files: [pd.read_csv(f) for f in file_list]

2. Data Loading

● Write to CSV File: df.to_csv('[Link]')

● Write to Excel File: df.to_excel('[Link]')
● Write to JSON File: df.to_json('[Link]')
● Write to SQL Database: df.to_sql(table_name, connection)
● Write to Parquet File: df.to_parquet('[Link]')
● Write to HTML File: df.to_html('[Link]')
● Append to Existing File or Database: df.to_sql(table_name, connection,
if_exists='append')
● Save to Python Pickle Format: df.to_pickle('[Link]')

3. Data Transformation

● Filtering Rows: df[df['column'] > value]

● Selecting Columns: df[['col1', 'col2']]
● Renaming Columns: [Link](columns={'old_name': 'new_name'})
● Dropping Columns: [Link](columns=['col1', 'col2'])
● Handling Missing Data: [Link](value) or [Link]()
● Type Conversion: [Link]({'col': 'int32'})
● String Operations: df['col'].[Link]()
● Datetime Conversion: pd.to_datetime(df['col'])
● Sorting Data: df.sort_values(by='col')
● Grouping and Aggregation: [Link]('col').sum()
● Pivot Tables: df.pivot_table(index='col1', values='col2', aggfunc='mean')

By: Waleed Mousa

● Merging DataFrames: [Link](df1, df2, on='col')
● Concatenating DataFrames: [Link]([df1, df2])
● Joining DataFrames: [Link](df2, on='col')
● Reshaping with Melt: [Link](df, id_vars=['col1'], value_vars=['col2'])
● Reshaping with Stack/Unstack: [Link]() or [Link]()
● Creating Dummy Variables: pd.get_dummies(df['col'])
● Applying Functions: [Link](lambda x: custom_function(x))
● Regular Expressions: df['col'].[Link]('(regex_pattern)')
● Handling Time Series Data: [Link]('D').mean()
● Rolling Window Calculations: [Link](window=5).mean()
● Conditional Logic: [Link](df['col'] > value, 'yes', 'no')
● Data Normalization: (df - [Link]()) / [Link]()

4. Advanced Data Transformation

● Binning Numerical Data: [Link](df['col'], bins)

● Discretizing Numerical Data: [Link](df['col'], q=4)
● Transforming with Map: df['col'].map(mapping_dict)
● Exploding List-Like Data: [Link]('list_col')
● Pivot Longer and Wider: df.pivot_longer() and df.pivot_wider() (Using
janitor library)
● Multi-Index Creation and Slicing: df.set_index(['col1', 'col2'])
● Cross-Tabulation: [Link](df['col1'], df['col2'])
● Aggregation with Custom Functions: [Link]('col').agg(custom_agg_func)
● Correlation Matrix: [Link]()
● Data Standardization for Machine Learning:
StandardScaler().fit_transform(df)

5. Data Cleaning

● Trimming Whitespace: df['col'].[Link]()

● Replacing Values: [Link]({'old_value': 'new_value'})
● Dropping Duplicates: df.drop_duplicates()
● Data Validation Checks: [Link].assert_frame_equal(df1, df2)
● Regular Interval Resampling for Time Series: [Link]('5T').mean()

6. Exploratory Data Analysis

● Descriptive Statistics: [Link]()

● Histograms for Distribution: df['col'].hist(bins=20)
By: Waleed Mousa
● Box Plots for Outliers: [Link](column='col')
● Pair Plots for Relationships: [Link](df)
● Heatmap for Correlation Analysis: [Link]([Link](), annot=True)

7. Handling Large Data

● Chunking Large Data Files: pd.read_csv('large_file.csv', chunksize=10000)

● Memory Usage of DataFrame: df.memory_usage(deep=True)
● Optimizing Data Types: [Link]({'col': 'category'})
● Lazy Evaluation with Dask: [Link].from_pandas(df)

8. Data Anonymization

● Hashing for Anonymization: df['col'].apply(lambda x:

hashlib.sha256([Link]()).hexdigest())
● Randomized Data Perturbation: df['col'] + [Link](0, 1,
[Link][0])

9. Text Data Specific Operations

● Word Count: df['text'].[Link]().[Link]()

● Text Cleaning (e.g., removing punctuation):
df['text'].[Link]('[^\w\s]', '', regex=True)
● Term Frequency: df['text'].[Link]().explode().value_counts()

10. Visualization for EDA

● Bar Plots: df['col'].value_counts().plot(kind='bar')

● Line Plots: [Link](kind='line', x='x_col', y='y_col')
● Scatter Plots: [Link](x='x_col', y='y_col')
● KDE Plots for Density: df['col'].[Link]()

11. Advanced Data Loading and Transformation

● Integrating with Web APIs: [Link](api_url)

● Loading Data from Remote Sources: pd.read_csv(remote_file_url)
● Complex Data Transformations: [Link](custom_complex_transformation)

12. Feature Engineering

By: Waleed Mousa

● Date Part Extraction: df['date_col'].[Link], df['date_col'].[Link],
etc.
● Lag Features for Time Series: df['feature'].shift(periods=1)
● Rolling Features for Time Series: df['feature'].rolling(window=5).mean()
● Differential Features: df['feature'].diff(periods=1)

13. Data Integration

● Combining Multiple Data Sources: [Link]([df1, df2], axis=0)

● Merging Data on Keys: [Link](df1, df2, on='key_column')
● Creating Database Connections for Extraction/Loading:
sqlalchemy.create_engine(db_string)

14. Performance Optimization

● Parallel Processing with Swifter: [Link](custom_function)

● Optimizing DataFrames with Eval/Query: [Link]('new_col = col1 + col2')
● Categorical Data Optimization: df['cat_col'] =
df['cat_col'].astype('category')

15. Error Handling and Data Quality

● Error Handling in Data Loading: try: pd.read_csv('[Link]') except:

handle_error()
● Data Quality Checks: assert df['column'].notnull().all()

16. Data Serialization and Compression

● Saving DataFrames in Compressed Format: df.to_csv('[Link]',

compression='gzip')
● Reading Compressed Data: pd.read_csv('[Link]', compression='gzip')

17. Using Pandas with Other Libraries for ETL/ELT

● Converting DataFrame to Spark DataFrame: [Link](df)

● Using Pandas with PySpark for Distributed Processing: spark_df =
[Link]('[Link]')
● Integration with NumPy for Mathematical Operations:
[Link](df['numeric_column'])

By: Waleed Mousa

18. Workflow Automation and Scripting

● Automating ETL Processes: [Link]().[Link]("10:30").do(etl_job)

● Running Pandas Operations in Scripts: python etl_script.py

19. Ensuring Data Consistency

● Data Type Validation: df['column'].dtype == 'expected_dtype'

● Consistency Checks Between DataFrames: [Link].assert_frame_equal(df1,
df2)

20. Reporting and Documentation

● Generating Summary Reports: profile = pandas_profiling.ProfileReport(df)

21. Database Specific Operations

● Querying Databases Directly: pd.read_sql_query('SELECT * FROM table',

engine)

By: Waleed Mousa

Cheat Sheet - Pandas
No ratings yet
Cheat Sheet - Pandas
6 pages
Pandas Trampas
No ratings yet
Pandas Trampas
9 pages
Pandas Dataframe Cheat Sheet
No ratings yet
Pandas Dataframe Cheat Sheet
3 pages
Pandas Fuction Notes
No ratings yet
Pandas Fuction Notes
3 pages
EDA Cheat Sheet
No ratings yet
EDA Cheat Sheet
7 pages
Pandas Roadmap
No ratings yet
Pandas Roadmap
6 pages
Pandas Data Manipulation Extended CheatSheet 1731972219
No ratings yet
Pandas Data Manipulation Extended CheatSheet 1731972219
9 pages
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
No ratings yet
Exploratory Data Analysis (Eda) With Pandas: (Cheatsheet)
7 pages
Pandas Library: Data Manipulation & Analysis Guide
No ratings yet
Pandas Library: Data Manipulation & Analysis Guide
9 pages
Pandas
No ratings yet
Pandas
2 pages
Dataframe in Pandas - Cheatsheet
No ratings yet
Dataframe in Pandas - Cheatsheet
8 pages
Essential Pandas Cheat Sheet Guide
No ratings yet
Essential Pandas Cheat Sheet Guide
5 pages
Test 1 Datasheet
No ratings yet
Test 1 Datasheet
3 pages
EDA With Pandas CheatSheet
No ratings yet
EDA With Pandas CheatSheet
3 pages
Interactive Data Analysis With Jupyter Cheatsheet 1731972443
No ratings yet
Interactive Data Analysis With Jupyter Cheatsheet 1731972443
10 pages
Python Data Cleaning Cheat Sheet
100% (4)
Python Data Cleaning Cheat Sheet
8 pages
EDA With Pandas
No ratings yet
EDA With Pandas
8 pages
Data Engineer Interview 1740985064
No ratings yet
Data Engineer Interview 1740985064
14 pages
Data Prep & EDA for Python Users
No ratings yet
Data Prep & EDA for Python Users
12 pages
Data Wrangling & Data Manipulation With Pandas
No ratings yet
Data Wrangling & Data Manipulation With Pandas
6 pages
Python Data Science Cheat Sheet
0% (1)
Python Data Science Cheat Sheet
3 pages
Pandas
No ratings yet
Pandas
35 pages
Data Wrangling With Dask CheatSheet 1731972488
No ratings yet
Data Wrangling With Dask CheatSheet 1731972488
7 pages
14oct Pandas 2024
No ratings yet
14oct Pandas 2024
13 pages
Python GPU DataFrames Guide
No ratings yet
Python GPU DataFrames Guide
2 pages
Pandas Guide for Beginners
No ratings yet
Pandas Guide for Beginners
18 pages
Pyspark Basics
No ratings yet
Pyspark Basics
16 pages
Pandas For Python Pro Level Cheat Sheet
No ratings yet
Pandas For Python Pro Level Cheat Sheet
14 pages
Dav 2 Unit
No ratings yet
Dav 2 Unit
55 pages
Universal Data Analytics Algorithm
No ratings yet
Universal Data Analytics Algorithm
51 pages
Data Manipulation in Python Using Pandas
No ratings yet
Data Manipulation in Python Using Pandas
12 pages
Data Wrangling and EDA with PySpark
No ratings yet
Data Wrangling and EDA with PySpark
10 pages
Pandas Operations Guide
No ratings yet
Pandas Operations Guide
6 pages
Pandas Library
No ratings yet
Pandas Library
6 pages
Pandas
No ratings yet
Pandas
6 pages
Pandas Notes
No ratings yet
Pandas Notes
6 pages
Pandas Research
No ratings yet
Pandas Research
14 pages
DataFrame 1
No ratings yet
DataFrame 1
3 pages
DAP 3 Module
No ratings yet
DAP 3 Module
62 pages
Pandas Top 30 With Code Clean
No ratings yet
Pandas Top 30 With Code Clean
3 pages
Content Pandas Cheat Sheet
No ratings yet
Content Pandas Cheat Sheet
9 pages
DevOps Session 3 Pandas
No ratings yet
DevOps Session 3 Pandas
33 pages
Learn Pandas
No ratings yet
Learn Pandas
37 pages
Pandas Cheat Sheet PDF
67% (3)
Pandas Cheat Sheet PDF
1 page
Python Cheat Sheet Code Academy
100% (1)
Python Cheat Sheet Code Academy
1 page
Unit 4 - Working With Graphs - Python
No ratings yet
Unit 4 - Working With Graphs - Python
49 pages
(Big Data Analytics With PySpark) (CheatSheet)
No ratings yet
(Big Data Analytics With PySpark) (CheatSheet)
7 pages
Essential Pandas DataFrame Operations
No ratings yet
Essential Pandas DataFrame Operations
20 pages
Pandas Practise Problems
No ratings yet
Pandas Practise Problems
8 pages
Usage of NumPy For Numerical Data in Detail
No ratings yet
Usage of NumPy For Numerical Data in Detail
52 pages
Pandas Tutorial
No ratings yet
Pandas Tutorial
9 pages
Pandas 1702216043
No ratings yet
Pandas 1702216043
86 pages
Unit-2 Bda
No ratings yet
Unit-2 Bda
11 pages
Pandas
No ratings yet
Pandas
13 pages
SQL For Data Science
No ratings yet
SQL For Data Science
8 pages
Python ML Methods Cheatsheet
No ratings yet
Python ML Methods Cheatsheet
6 pages
Python Lists, Sets, Tuples Guide
No ratings yet
Python Lists, Sets, Tuples Guide
5 pages
Power BI Keyboard Shortcuts Guide
No ratings yet
Power BI Keyboard Shortcuts Guide
5 pages
Power BI Developer Roadmap 2025
No ratings yet
Power BI Developer Roadmap 2025
7 pages
Comprehensive Python CheatSheet 1731972192
No ratings yet
Comprehensive Python CheatSheet 1731972192
10 pages
Web Scraping CheatSheet Guide
No ratings yet
Web Scraping CheatSheet Guide
10 pages
Python Basics: Syntax, Data Types, and More
No ratings yet
Python Basics: Syntax, Data Types, and More
11 pages
GitLab CI CD Operations CheatSheet 1731972419
No ratings yet
GitLab CI CD Operations CheatSheet 1731972419
11 pages
Power BI Deployment Guide
No ratings yet
Power BI Deployment Guide
10 pages
RFQ for 25 QM5 Speed Detectors
No ratings yet
RFQ for 25 QM5 Speed Detectors
2 pages
Saudi Aramco Test Report: Internal Cleanliness Report (Piping Systems & Equip) SATR-A-2008 30-Oct-17 Mech
No ratings yet
Saudi Aramco Test Report: Internal Cleanliness Report (Piping Systems & Equip) SATR-A-2008 30-Oct-17 Mech
2 pages
Limiter Diodes: Applications
No ratings yet
Limiter Diodes: Applications
8 pages
SCC 755 PS
No ratings yet
SCC 755 PS
2 pages
M!X B!N Mult!funct!on
No ratings yet
M!X B!N Mult!funct!on
4 pages
India's Social Network Shift 2008
No ratings yet
India's Social Network Shift 2008
5 pages
Excel Formula and Chart Analysis Quiz
No ratings yet
Excel Formula and Chart Analysis Quiz
26 pages
State Space Modeling and Analysis of Bicyle Dynamics Presentation
No ratings yet
State Space Modeling and Analysis of Bicyle Dynamics Presentation
19 pages
LysaghtSupraframe 75mm Open Stud W33N Wall
No ratings yet
LysaghtSupraframe 75mm Open Stud W33N Wall
4 pages
Pulsar NS 160 FI UG - ABS (12 - 02 - 2025)
No ratings yet
Pulsar NS 160 FI UG - ABS (12 - 02 - 2025)
95 pages
3116 Engine Cylinder Block
100% (1)
3116 Engine Cylinder Block
10 pages
Embedded Systems - An Introduction
No ratings yet
Embedded Systems - An Introduction
281 pages
Aviation Design Updates
No ratings yet
Aviation Design Updates
8 pages
Creative Coding and Music Education Profile
No ratings yet
Creative Coding and Music Education Profile
1 page
PV System Details
No ratings yet
PV System Details
1 page
Apitestcases 200822060622
No ratings yet
Apitestcases 200822060622
1 page
B.Tech CSE Mid-Term Exam 2020
No ratings yet
B.Tech CSE Mid-Term Exam 2020
1 page
Structure Problem Solutions
No ratings yet
Structure Problem Solutions
4 pages
01 Laboratory Exercise 1 - ARG
No ratings yet
01 Laboratory Exercise 1 - ARG
4 pages
Ex Single Data Sheet Safety Switch 8146 5 v37 301 50 0050 147855 en GB Rstahl
No ratings yet
Ex Single Data Sheet Safety Switch 8146 5 v37 301 50 0050 147855 en GB Rstahl
3 pages
Icfest 2025 - 20250219 - 155331 - 0000
No ratings yet
Icfest 2025 - 20250219 - 155331 - 0000
1 page
Celex 32022D1668 en TXT
No ratings yet
Celex 32022D1668 en TXT
11 pages
Siddha Sky
No ratings yet
Siddha Sky
21 pages
Media and Information
No ratings yet
Media and Information
19 pages
AWS Resume Tips and Structure Guide
No ratings yet
AWS Resume Tips and Structure Guide
2 pages
Azzurro PH Hyd zp1 en
No ratings yet
Azzurro PH Hyd zp1 en
1 page
TCS NQT First Level Shortlisted - Sairam
No ratings yet
TCS NQT First Level Shortlisted - Sairam
12 pages
Manage Your AT&T Bill Online
No ratings yet
Manage Your AT&T Bill Online
3 pages
VxRail Appliance - VxRail Recovery Procedures-Install, Configure and Activate SRS - SCG
No ratings yet
VxRail Appliance - VxRail Recovery Procedures-Install, Configure and Activate SRS - SCG
19 pages

ELT Using Pandas

Uploaded by

ELT Using Pandas

Uploaded by

# [ ELT Using Pandas ] ( CheatSheet )

● Read CSV File: pd.read_csv('[Link]')

● Write to CSV File: df.to_csv('[Link]')

● Filtering Rows: df[df['column'] > value]

By: Waleed Mousa

4. Advanced Data Transformation

● Binning Numerical Data: [Link](df['col'], bins)

● Trimming Whitespace: df['col'].[Link]()

6. Exploratory Data Analysis

● Descriptive Statistics: [Link]()

7. Handling Large Data

● Chunking Large Data Files: pd.read_csv('large_file.csv', chunksize=10000)

● Hashing for Anonymization: df['col'].apply(lambda x:

9. Text Data Specific Operations

● Word Count: df['text'].[Link]().[Link]()

10. Visualization for EDA

● Bar Plots: df['col'].value_counts().plot(kind='bar')

11. Advanced Data Loading and Transformation

● Integrating with Web APIs: [Link](api_url)

12. Feature Engineering

By: Waleed Mousa

13. Data Integration

● Combining Multiple Data Sources: [Link]([df1, df2], axis=0)

14. Performance Optimization

● Parallel Processing with Swifter: [Link](custom_function)

15. Error Handling and Data Quality

● Error Handling in Data Loading: try: pd.read_csv('[Link]') except:

16. Data Serialization and Compression

● Saving DataFrames in Compressed Format: df.to_csv('[Link]',

17. Using Pandas with Other Libraries for ETL/ELT

● Converting DataFrame to Spark DataFrame: [Link](df)

By: Waleed Mousa

● Automating ETL Processes: [Link]().[Link]("10:30").do(etl_job)

19. Ensuring Data Consistency

● Data Type Validation: df['column'].dtype == 'expected_dtype'

20. Reporting and Documentation

● Generating Summary Reports: profile = pandas_profiling.ProfileReport(df)

21. Database Specific Operations

● Querying Databases Directly: pd.read_sql_query('SELECT * FROM table',

By: Waleed Mousa

You might also like