Welcome to Scribd!

Lecture 4

Uploaded by

0% found this document useful (0 votes)

2 views14 pages

This document discusses machine learning techniques for chemical engineers. It covers topics like data preprocessing, outlier detection, dimensionality reduction, and data transformation. Multivariate outlier detection techniques like Mahalanobis distance and robust estimators are explained. Dimensionality reduction methods including variable selection, extraction, and feature selection are also summarized. References on these topics are provided.

Original Description:

Machine Learning for chemical engineers

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

2 views14 pages

Lecture 4

Uploaded by

sdsdsd

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 14

Search inside document

Machine Learning for Chemical Engineers

CHE F315

Ajaya Kumar Pani

BITS Pilani Department of Chemical Engineering
B.I.T.S-Pilani, Pilani Campus
Pilani Campus
Lecture-4
19-01-2024
BITS Pilani
Pilani Campus
Data Preprocessing
BITS Pilani
Pilani Campus
CHE F315 Machine Learning for Chemical Engineers

Recap

Missing value
Outlier detection - univariate methods
Descriptive statistics
Univariate
Multivariate

26 January 2024 4
BITS Pilani, Pilani Campus
CHE F315 Machine Learning for Chemical Engineers

Data preprocessing
Multivariate outlier detection

Pani, A. K., & Mohanta, H. K. (2016). Online monitoring of cement clinker quality using multivariate statistics and
Takagi-Sugeno fuzzy-inference technique. Control Engineering Practice, 57, 1-17.
26 January 2024 5
BITS Pilani, Pilani Campus
CHE F315 Machine Learning for Chemical Engineers

Data preprocessing

Multivariate outlier detection

Mahalanobis distance

If the underlying distribution is a multivariate normal distribution,

it is common to use the 0.975 quantile of a chi-square
distribution with p degrees of freedom 2p;0.975 as a cut off
value

Multivariate trimming (MVT)

Minimum covariance determinant (MCD) estimator
Minimum volume ellipsoid (MVE) estimator
Smallest half volume

26 January 2024 6
BITS Pilani, Pilani Campus
CHE F315 Machine Learning for Chemical Engineers

Pani, A. K., & Mohanta, H. K. (2016). Online monitoring of cement clinker quality using multivariate statistics and
Takagi-Sugeno fuzzy-inference technique. Control Engineering Practice, 57, 1-17.

26 January 2024 7
BITS Pilani, Pilani Campus
CHE F315 Machine Learning for Chemical Engineers

Useful References
https://www.machinelearningplus.com/statistics/mahalanobi
s-distance/
Chiang, L. H., Pell, R. J., & Seasholtz, M. B. (2003).
Exploring process data with the use of robust outlier
detection algorithms. Journal of Process Control, 13(5),
437-449.

26 January 2024 8
BITS Pilani, Pilani Campus
CHE F315 Machine Learning for Chemical Engineers

Data transformation (scaling)

Min-max
z-score

26 January 2024 9
BITS Pilani, Pilani Campus
CHE F315 Machine Learning for Chemical Engineers

Dimensionality reduction

Rallo, R., Ferre-Gine, J., Arenas, A.,

& Giralt, F. (2002). Neural virtual
sensor for the inferential
prediction of product quality from
process variables. Computers &
Chemical Engineering, 26(12),
1735-1754.

26 January 2024 10
BITS Pilani, Pilani Campus
CHE F315 Machine Learning for Chemical Engineers

Dimensionality reduction
As the number of dimensions increases time/computation
complexity increases
• Variable (feature) selection
Reduces dataset size by removing irrelevant variables
• Variable (feature) extraction (transformation)

26 January 2024 11
BITS Pilani, Pilani Campus
CHE F315 Machine Learning for Chemical Engineers

Dimensionality reduction

Variable (feature) selection

Filter based
– Stepwise forward selection
– Stepwise backward elimination

Wrapper based

26 January 2024 12
BITS Pilani, Pilani Campus
CHE F315 Machine Learning for Chemical Engineers

ACROSS
2. Mean and mode are examples of
______________ of univariate data.
4. Noisy data is
(normal/abnormal) data.
1
7. The branch of statistics that is used for
2
summarizing data is called ______
statistics.
10. Kurtosis characterized
the__________ of data.
3 12. The assumption of testing of data is
called a ___________ .
4 5
13. Raw facts are called _______.
6 14. Data wrangling refers to making data
suitable for processing. (Yes/ No)
7 8 9 15. Pairplot is used to visualize univariate
data. (Yes/No)
10

DOWN
1. The averaged square distance from
its mean is called ____________.
3. The characteristics of Big Data are
11
volume, velocity and
12
__________________.
5. The Dataset of two variables is
13 called __________________ data.
6. Visualiztion helps in presentation of
14 data. (Yes/ No)
8. Normalized covariance is called
________________.
9. Processed data is
________________.
15 11. Incorrect rejection of true
hypothesis is called _____________
error.
26 January 2024 13
BITS Pilani, Pilani Campus
CHE F315 Machine Learning for Chemical Engineers

26 January 2024
14 BITS Pilani, Pilani Campus

Deep Learning and Parallel Computing Environment for Bioengineering Systems
From Everand
Deep Learning and Parallel Computing Environment for Bioengineering Systems
Arun Kumar Sangaiah
No ratings yet
Lecture 2
Document18 pages
Lecture 2
sdsdsd
No ratings yet
Lecture 3
Document10 pages
Lecture 3
sdsdsd
No ratings yet
Lecture 9
Document16 pages
Lecture 9
sdsdsd
No ratings yet
Lecture 5
Document16 pages
Lecture 5
sdsdsd
No ratings yet
A Review of Current Machine Learning Techniques Used in Manufacturing Diagnosis
Document9 pages
A Review of Current Machine Learning Techniques Used in Manufacturing Diagnosis
Juan Pablo Salazar López
No ratings yet
D Tree Orange
Document9 pages
D Tree Orange
Will Do
No ratings yet
A Review of Current Machine Learning Techniques Used in Manufacturing Diagnosis
Document9 pages
A Review of Current Machine Learning Techniques Used in Manufacturing Diagnosis
Priyaprasad Panda
No ratings yet
Lecture 8
Document13 pages
Lecture 8
sdsdsd
No ratings yet
Neurocomputing: Xin Gao, Fang Deng, Xianghu Yue
Document8 pages
Neurocomputing: Xin Gao, Fang Deng, Xianghu Yue
Andre Van Zyl
No ratings yet
Zhang 2021
Document20 pages
Zhang 2021
Tosi Tutoriais
No ratings yet
Instrument Jurnal
Document9 pages
Instrument Jurnal
Kevin Rio
No ratings yet
Lecture 1
Document22 pages
Lecture 1
sdsdsd
No ratings yet
Sensors: CNN Training With Twenty Samples For Crack Detection Via Data Augmentation
Document17 pages
Sensors: CNN Training With Twenty Samples For Crack Detection Via Data Augmentation
Ezan Abbas
No ratings yet
Seminar_Report_template-2
Document27 pages
Seminar_Report_template-2
Ritik Sachdeva
No ratings yet
Comparison of Learning Techniques For Prediction of Customer Churn in Telecommunication
Document36 pages
Comparison of Learning Techniques For Prediction of Customer Churn in Telecommunication
Hsu Let Yee Hnin
No ratings yet
陌陌陌陌莫迪
Document9 pages
陌陌陌陌莫迪
363331272
No ratings yet
Minerals Engineering: J.W.D. Groenewald, C. Aldrich
Document11 pages
Minerals Engineering: J.W.D. Groenewald, C. Aldrich
Fernando Nicolas Ureta Godoy
No ratings yet
Computers and Chemical Engineering: Hao Wu, Jinsong Zhao
Document13 pages
Computers and Chemical Engineering: Hao Wu, Jinsong Zhao
Husnain Ali
No ratings yet
Investigation of Dataset Features For Just-in-Time Defect Prediction
Document8 pages
Investigation of Dataset Features For Just-in-Time Defect Prediction
Coe Coe
No ratings yet
Report Big Data-1
Document30 pages
Report Big Data-1
ntluan203
No ratings yet
A Machine Learning Model For Flight Delay Prediction: Certificate
Document17 pages
A Machine Learning Model For Flight Delay Prediction: Certificate
Ramesh Kumar
No ratings yet
Quality Prediction Modeling For Multistage Manufac
Document6 pages
Quality Prediction Modeling For Multistage Manufac
ronald christenkkson
No ratings yet
Generation of Complex Data For AI-based Predictive Maintenance
Document12 pages
Generation of Complex Data For AI-based Predictive Maintenance
the requiem Last
No ratings yet
Flight Delay Prediction: Project Synopsis On
Document13 pages
Flight Delay Prediction: Project Synopsis On
Ramesh Kumar
No ratings yet
Computers and Chemical Engineering: Shaodong Zheng, Jinsong Zhao
Document17 pages
Computers and Chemical Engineering: Shaodong Zheng, Jinsong Zhao
Husnain Ali
No ratings yet
Untoro 2020 J. Phys. Conf. Ser. 1477 032005
Document9 pages
Untoro 2020 J. Phys. Conf. Ser. 1477 032005
zhazhiy new
No ratings yet
Prediction of Students' Educational Status Using CART Algorithm, Neural Network, and Increase in Prediction Precision Using Combinational Model
Document5 pages
Prediction of Students' Educational Status Using CART Algorithm, Neural Network, and Increase in Prediction Precision Using Combinational Model
Abiy Mulugeta
No ratings yet
Combination of PCA With SMOTE Resampling To Boost The Prediction Rate in Lung Cancer Dataset
Document7 pages
Combination of PCA With SMOTE Resampling To Boost The Prediction Rate in Lung Cancer Dataset
Jiaxu Chen
No ratings yet
Churn PredictionITNACC
Document7 pages
Churn PredictionITNACC
Kakashi Hatake
No ratings yet
ISA Transactions: Te Han, Chao Liu, Wenguang Yang, Dongxiang Jiang
Document13 pages
ISA Transactions: Te Han, Chao Liu, Wenguang Yang, Dongxiang Jiang
Felipe Andres Figueroa Videla
No ratings yet
MIAEC Missing Data Imputation Based On The Evidence Chain
Document10 pages
MIAEC Missing Data Imputation Based On The Evidence Chain
Hosein Moradi
No ratings yet
JSPM'S Bhivarabai Sawant Institute of Technology & Research: Mini Project Report On
Document33 pages
JSPM'S Bhivarabai Sawant Institute of Technology & Research: Mini Project Report On
kirti reddy
No ratings yet
Prediction of Mental Health (Depression) Using Data Science Technique
Document6 pages
Prediction of Mental Health (Depression) Using Data Science Technique
IJRASETPublications
No ratings yet
Fusing Imperfect Experimental Data For Risk Assessment of Musculoskeletal Disorders in Construction Using Canonical Polyadic Decomposition
Document11 pages
Fusing Imperfect Experimental Data For Risk Assessment of Musculoskeletal Disorders in Construction Using Canonical Polyadic Decomposition
Aastha
No ratings yet
Neha Tabassum
Document58 pages
Neha Tabassum
Omkar Rajebhosale
No ratings yet
Kotlar et al. - 2021 - Novel Meta-Features for Automated Machine Learning Model Selection in Anomaly Detection
Document13 pages
Kotlar et al. - 2021 - Novel Meta-Features for Automated Machine Learning Model Selection in Anomaly Detection
iyousafzai1
No ratings yet
OPABP NidhiSrivastava
Document7 pages
OPABP NidhiSrivastava
Tripti Gautam
No ratings yet
Bug Detection and Report A Case Study On Dataset For Software Management Using Security Bug Report
Document24 pages
Bug Detection and Report A Case Study On Dataset For Software Management Using Security Bug Report
IJRASETPublications
No ratings yet
2.1 Specimen For Inspection
Document4 pages
2.1 Specimen For Inspection
lone rider
No ratings yet
Generative Adversarial Active Learning For Unsupervised Outlier Detection
Document13 pages
Generative Adversarial Active Learning For Unsupervised Outlier Detection
SAGNIK GHOSAL
No ratings yet
Improving Accuracy and Interpretability of CNN-Bas
Document21 pages
Improving Accuracy and Interpretability of CNN-Bas
lohithinfinite154
No ratings yet
Application of MCDM Model For Assessing Suitability of JIT Manufacturing
Document6 pages
Application of MCDM Model For Assessing Suitability of JIT Manufacturing
Journal of Computing
No ratings yet
1 s2.0 S0098135420301599 Main
Document22 pages
1 s2.0 S0098135420301599 Main
sanjibdsharma
No ratings yet
Mid1 Du Minimizing The Accumulated Trajectory Error To Improve Dataset Distillation
Document10 pages
Mid1 Du Minimizing The Accumulated Trajectory Error To Improve Dataset Distillation
perry1005
No ratings yet
1 s2.0 S0016003220302544 Main
Document22 pages
1 s2.0 S0016003220302544 Main
Cristian Bastias
No ratings yet
Final Paper
Document15 pages
Final Paper
Chen Jason
No ratings yet
AyushiGupta 1912940
Document20 pages
AyushiGupta 1912940
Banasthali Student
No ratings yet
Analisis4 Original
Document9 pages
Analisis4 Original
Alex Rojas Coaquira
No ratings yet
Computers in Industry: Christoph M. Flath, Nikolai Stein
Document10 pages
Computers in Industry: Christoph M. Flath, Nikolai Stein
ecsudca
No ratings yet
Data Science Report
Document35 pages
Data Science Report
Krishna Soni
No ratings yet
Risk and Reliability Assessment in Chemical
Document22 pages
Risk and Reliability Assessment in Chemical
ragul
No ratings yet
A Graph Based Approach To Manage CAE-Data in A Data-Lake
Document6 pages
A Graph Based Approach To Manage CAE-Data in A Data-Lake
ajayvg
No ratings yet
Rianto 2020 J. Phys. Conf. Ser. 1641 012061
Document9 pages
Rianto 2020 J. Phys. Conf. Ser. 1641 012061
Abdullah Arifin
No ratings yet
Industrial Remaining Useful Life Prediction by Partial Observation Using Deep Learning With Supervised Attention
Document11 pages
Industrial Remaining Useful Life Prediction by Partial Observation Using Deep Learning With Supervised Attention
Yannick Carrasco
No ratings yet
Analyzing Large-Scale Data To Solve Applied Problems in Materials R&D - B Meredig
Document25 pages
Analyzing Large-Scale Data To Solve Applied Problems in Materials R&D - B Meredig
mohammadmehrabi9640
No ratings yet
A Novel Scheme For Accurate Remaining Useful Life Prediction For Industrial IoTs by Using Deep Neural Network
Document9 pages
A Novel Scheme For Accurate Remaining Useful Life Prediction For Industrial IoTs by Using Deep Neural Network
Adam Hansen
No ratings yet
Semi-Supervised Bearing Fault Diagnosis and Classification Using Variational Autoencoder-Based Deep Generative Models
Document11 pages
Semi-Supervised Bearing Fault Diagnosis and Classification Using Variational Autoencoder-Based Deep Generative Models
Raouf Benabdesselam
No ratings yet
Optimized Design of Parity Relation-Based Residual Generator For Fault Detection Data-Driven Approaches
Document10 pages
Optimized Design of Parity Relation-Based Residual Generator For Fault Detection Data-Driven Approaches
Dr.Suresh Chavhan -IIITK
No ratings yet
Reference Dataset For Rate of Penetration Benchmar
Document12 pages
Reference Dataset For Rate of Penetration Benchmar
Chinedu Nwabueze
No ratings yet