Decision Trees for Data Scientists

Decision trees are a type of predictive model that can be used for both classification and regression problems. They have several advantages including being easy to interpret, requiring little data preprocessing, and making no assumptions about data distributions. However, they also have some disadvantages such as being sensitive to noise in data and potentially overfitting. Various techniques like bagging and boosting can help reduce overfitting. Decision trees also tend to perform poorly on imbalanced datasets, so balancing classes is important.

Uploaded by

M. Talha Nadeem

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

0% found this document useful (0 votes)

290 views28 pages

Decision Trees for Data Scientists

Uploaded by

M. Talha Nadeem

We take content rights seriously. If you suspect this is your content, claim it here.

Available Formats

Download as PPTX, PDF, TXT or read online on Scribd

Decision Trees

Pros
• Decision trees are easy to interpret and visualize.
• It can easily capture Non-linear patterns.
• It requires fewer data preprocessing from the user, for example, there
is no need to normalize columns.
• It can be used for feature engineering such as predicting missing
values, suitable for variable selection.
• The decision tree has no assumptions about distribution because of
the non-parametric nature of the algorithm.
Cons
• Sensitive to noisy data.
• It can overfit noisy data.
• The small variation(or variance) in data can result in the different
decision tree.
• This can be reduced by bagging and boosting algorithms.
• Decision trees are biased with imbalance dataset, so
• balance out the dataset before creating the decision tree.
• # Load libraries
• import pandas as pd
• # Import Decision Tree Classifier
• from sklearn.tree import DecisionTreeClassifier
• # Import train_test_split function
• from sklearn.model_selection import train_test_split
• #Import scikit-learn metrics module for accuracy calculation
• from sklearn import metrics
Loading Data

col_names = ['pregnant', 'glucose', 'bp', 'skin', 'insulin', 'bmi', 'pedigree', 'age', 'label']
# load dataset
pima = pd.read_csv("pima-indians-diabetes.csv", header=None, names=col_names)
pima.head()

glucose bp skin insulin bmi pedigree age label

pregnant
0 6 148 72 35 0 33.6 0.627 50 1
1 1 85 66 29 0 26.6 0.351 31 0
2 8 183 64 0 0 23.3 0.672 32 1
3 1 89 66 23 94 28.1 0.167 21 0
4 0 137 40 35 168 43.1 2.288 33 1
Feature Selection & Splitting
• #split dataset in features and target variable
• feature_cols = ['pregnant', 'insulin', 'bmi', 'age', 'glucose', 'bp',
'pedigree']
• X = pima[feature_cols] # Features
• y = pima.label # Target variable

• # Split dataset into training set and test set

• X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3,
random_state=1) # 70% training and 30% test
Building Decision Tree Model
• # Create Decision Tree classifer object
• clf = DecisionTreeClassifier()

• # Train Decision Tree Classifer

• clf = clf.fit(X_train,y_train)

• #Predict the response for test dataset

• y_pred = clf.predict(X_test)
Evaluating Model
• # Model Accuracy, how often is the classifier correct?
• print("Accuracy:",metrics.accuracy_score(y_test, y_pred))

• Accuracy: 0.6753246753246753
Optimizing Decision Tree Performance
• # Create Decision Tree classifer object
• clf = DecisionTreeClassifier(criterion="entropy", max_depth=3)
• # Train Decision Tree Classifer
• clf = clf.fit(X_train,y_train)

• #Predict the response for test dataset

• y_pred = clf.predict(X_test)
• # Model Accuracy, how often is the classifier correct?
• print("Accuracy:",metrics.accuracy_score(y_test, y_pred))

• Accuracy: 0.7705627705627706
Visualizing Decision Trees
• from sklearn.externals.six import StringIO
• from IPython.display import Image
• from sklearn.tree import export_graphviz
• import pydotplus
• dot_data = StringIO()
• export_graphviz(clf, out_file=dot_data,
• filled=True, rounded=True,
• special_characters=True, feature_names = feature_cols,class_names=['0','1'])
• graph = pydotplus.graph_from_dot_data(dot_data.getvalue())
• graph.write_png('diabetes.png')
• Image(graph.create_png())

Code Generation
No ratings yet
Code Generation
30 pages
Sorted Array Requirement for Binary Search
No ratings yet
Sorted Array Requirement for Binary Search
466 pages
Oops Through Java by Vikram Dunga
No ratings yet
Oops Through Java by Vikram Dunga
165 pages
Compilers: Basic Compiler Functions
No ratings yet
Compilers: Basic Compiler Functions
51 pages
Data Engineering Curriculum Overview
No ratings yet
Data Engineering Curriculum Overview
33 pages
Understanding Data Rate and Bandwidth
No ratings yet
Understanding Data Rate and Bandwidth
23 pages
Data Abstraction and Independence in DBMS
No ratings yet
Data Abstraction and Independence in DBMS
1 page
Algorithm Design MCQs with Answers
100% (1)
Algorithm Design MCQs with Answers
12 pages
Bda Unit 4 - Mam
No ratings yet
Bda Unit 4 - Mam
57 pages
Efficient Crop Yield Prediction Using ML
No ratings yet
Efficient Crop Yield Prediction Using ML
4 pages
Data Processing Techniques Overview
100% (1)
Data Processing Techniques Overview
6 pages
Data Mining Term Project Machine Learning With WEKA: Weka Explorer Tutorial For Version 3.4.3
No ratings yet
Data Mining Term Project Machine Learning With WEKA: Weka Explorer Tutorial For Version 3.4.3
42 pages
Big Data Analytics Unit Test-I Answers Bank
No ratings yet
Big Data Analytics Unit Test-I Answers Bank
10 pages
Bda U-5
No ratings yet
Bda U-5
30 pages
OS - GATE and NET PYQ
No ratings yet
OS - GATE and NET PYQ
82 pages
Email Alerts via WhatsApp Integration
No ratings yet
Email Alerts via WhatsApp Integration
12 pages
Unit I
No ratings yet
Unit I
176 pages
Introduction to PHP: History & Features
No ratings yet
Introduction to PHP: History & Features
65 pages
Unit 4 Hadoop Ecosystem - HIVE and PIG
No ratings yet
Unit 4 Hadoop Ecosystem - HIVE and PIG
157 pages
Expert Systems Programming Guide
No ratings yet
Expert Systems Programming Guide
2 pages
Parallel Coordinates and Data Visualization
No ratings yet
Parallel Coordinates and Data Visualization
9 pages
Unit 2 - Bda Notes
No ratings yet
Unit 2 - Bda Notes
37 pages
04 The Problem of Over Fitting Model Assessment
No ratings yet
04 The Problem of Over Fitting Model Assessment
3 pages
UNIT-1 Material
No ratings yet
UNIT-1 Material
26 pages
Decision Tree Induction
No ratings yet
Decision Tree Induction
52 pages
Unit-5 DWDM Material
No ratings yet
Unit-5 DWDM Material
19 pages
SQL Lookup Table in Data Warehousing
No ratings yet
SQL Lookup Table in Data Warehousing
41 pages
What Is Query Tree?: Dbms Da - 2 REG NO: 18BCE0341 Name: K. Raksha Query Tree and Query Graph
No ratings yet
What Is Query Tree?: Dbms Da - 2 REG NO: 18BCE0341 Name: K. Raksha Query Tree and Query Graph
3 pages
Syntax-Directed Translation Guide
No ratings yet
Syntax-Directed Translation Guide
16 pages
Data Mining MCQs and Answers Guide
No ratings yet
Data Mining MCQs and Answers Guide
8 pages
SKP Engineering College: A Course Material On
No ratings yet
SKP Engineering College: A Course Material On
212 pages
Hive Quiz and Questions
No ratings yet
Hive Quiz and Questions
6 pages
Python Web Development Essentials
No ratings yet
Python Web Development Essentials
243 pages
IBM Big Data Engineer Quiz Prep
No ratings yet
IBM Big Data Engineer Quiz Prep
30 pages
Classification and Regression Trees (CART - I) : Dr. A. Ramesh
No ratings yet
Classification and Regression Trees (CART - I) : Dr. A. Ramesh
34 pages
Introduction to Java Beans Overview
No ratings yet
Introduction to Java Beans Overview
32 pages
DWDM Unit 6 Cluster Analysis
No ratings yet
DWDM Unit 6 Cluster Analysis
183 pages
Overview of Apache Pig and Pig Latin
No ratings yet
Overview of Apache Pig and Pig Latin
55 pages
CSE Students' MEAN Stack Guide
No ratings yet
CSE Students' MEAN Stack Guide
115 pages
Compiler Code Optimization Guide
No ratings yet
Compiler Code Optimization Guide
25 pages
M 1.4 Multidimensional Data Model
No ratings yet
M 1.4 Multidimensional Data Model
72 pages
UNIT 1 INTRODUCTION TO BIGDATA by MIT
No ratings yet
UNIT 1 INTRODUCTION TO BIGDATA by MIT
12 pages
Introduction To Data Science UNIT - IV
No ratings yet
Introduction To Data Science UNIT - IV
45 pages
2mark With Answer
No ratings yet
2mark With Answer
38 pages
Unit Iii Greedy and Dynamic Programming
No ratings yet
Unit Iii Greedy and Dynamic Programming
120 pages
Randomized Algorithms
No ratings yet
Randomized Algorithms
23 pages
Compare DFS & BFS Graph Traversals
No ratings yet
Compare DFS & BFS Graph Traversals
6 pages
ADS & A Unit-5 Study Material
No ratings yet
ADS & A Unit-5 Study Material
50 pages
Algorithm and Programming Concepts, Sample Question
No ratings yet
Algorithm and Programming Concepts, Sample Question
7 pages
Btech Cse & Aids DWDM Material - 2025
100% (1)
Btech Cse & Aids DWDM Material - 2025
45 pages
AI Unit-4
No ratings yet
AI Unit-4
58 pages
M. Tech. Semester - I: Advanced Computer Architecture (MCSCS102IBMCSCS 902)
No ratings yet
M. Tech. Semester - I: Advanced Computer Architecture (MCSCS102IBMCSCS 902)
12 pages
Database Management Principles Quiz
No ratings yet
Database Management Principles Quiz
8 pages
AI Game Strategies Explained
No ratings yet
AI Game Strategies Explained
21 pages
Big Data Analytics - Lecture Slides
No ratings yet
Big Data Analytics - Lecture Slides
72 pages
Code Optimization
0% (1)
Code Optimization
90 pages
AIML Unit 06 PPT
No ratings yet
AIML Unit 06 PPT
24 pages
Unit 4
No ratings yet
Unit 4
153 pages
Decision Tree Classifier on Diabetes Data
No ratings yet
Decision Tree Classifier on Diabetes Data
2 pages
Diabetes Prediction with Decision Trees
No ratings yet
Diabetes Prediction with Decision Trees
1 page
C++ Access Specifiers Explained
No ratings yet
C++ Access Specifiers Explained
6 pages
Spring 2017 Midterm Exam SPM CS-5310
No ratings yet
Spring 2017 Midterm Exam SPM CS-5310
9 pages
Understanding Constructors in OOP
No ratings yet
Understanding Constructors in OOP
13 pages
Introduction To Software Engineering: Mid Term Exam Fall-2015
100% (1)
Introduction To Software Engineering: Mid Term Exam Fall-2015
4 pages
Java Programming Paradigm Exam Solutions
No ratings yet
Java Programming Paradigm Exam Solutions
5 pages
Understanding Expert Systems in AI
No ratings yet
Understanding Expert Systems in AI
22 pages
Car Mileage Prediction with AI Model
No ratings yet
Car Mileage Prediction with AI Model
17 pages
Software Project Management Exam
No ratings yet
Software Project Management Exam
8 pages
Project Report On Virtual Assistant Subm PDF
50% (2)
Project Report On Virtual Assistant Subm PDF
30 pages
1) Choose The Correct Option: (10) : Page 1 of 3
No ratings yet
1) Choose The Correct Option: (10) : Page 1 of 3
3 pages
Java Midterm Exam Paper 2014
No ratings yet
Java Midterm Exam Paper 2014
11 pages
HCI and Usability in Software Design
No ratings yet
HCI and Usability in Software Design
33 pages
Software Engineering Midterm Exam 2017
No ratings yet
Software Engineering Midterm Exam 2017
7 pages
Project Procurement Management Overview
No ratings yet
Project Procurement Management Overview
17 pages
Understanding Android Intents and Usage
No ratings yet
Understanding Android Intents and Usage
46 pages
CH 10-SPM B
No ratings yet
CH 10-SPM B
41 pages
Interactive System Design Fundamentals
No ratings yet
Interactive System Design Fundamentals
83 pages
Understanding Android Content Providers
No ratings yet
Understanding Android Content Providers
38 pages
User Support in Interactive Systems
No ratings yet
User Support in Interactive Systems
16 pages
New Text Document
No ratings yet
New Text Document
7 pages
Project Quality Management Essentials
No ratings yet
Project Quality Management Essentials
40 pages
Effective IT Project HR Management
No ratings yet
Effective IT Project HR Management
29 pages
Evaluation Techniques for Interactive Systems
No ratings yet
Evaluation Techniques for Interactive Systems
46 pages
Project Time Management Overview
No ratings yet
Project Time Management Overview
70 pages
Chapter 7:project Cost Management
No ratings yet
Chapter 7:project Cost Management
49 pages
Android ListViews and Adapters Overview
No ratings yet
Android ListViews and Adapters Overview
53 pages
Understanding Android Services and Lifecycle
No ratings yet
Understanding Android Services and Lifecycle
40 pages
SQLite Database Guide for Android Apps
No ratings yet
SQLite Database Guide for Android Apps
23 pages
Diabetes Mellitus Prediction and Classifier Comparitive Study
No ratings yet
Diabetes Mellitus Prediction and Classifier Comparitive Study
7 pages
Android File Handling and Storage Methods
No ratings yet
Android File Handling and Storage Methods
40 pages
YouTube Channel Customization Guide
No ratings yet
YouTube Channel Customization Guide
5 pages
WP GynaeExams4
No ratings yet
WP GynaeExams4
37 pages
Bits-Pilani Cyber Security Course
No ratings yet
Bits-Pilani Cyber Security Course
4 pages
Proposal SKM-EV For Trainer
No ratings yet
Proposal SKM-EV For Trainer
7 pages
Teaching Complex Sentences and Phrases
No ratings yet
Teaching Complex Sentences and Phrases
6 pages
UIUC 2019-2020 Academic Calendar
No ratings yet
UIUC 2019-2020 Academic Calendar
2 pages
Creative Problem Solving Techniques
No ratings yet
Creative Problem Solving Techniques
14 pages
Grade 12 Weekly Learning Plan: MIL
100% (1)
Grade 12 Weekly Learning Plan: MIL
9 pages
Occupational Therapy Discharge Summary
No ratings yet
Occupational Therapy Discharge Summary
3 pages
Structure of Conceptual Pedagogy by Miguel de Zubiría
No ratings yet
Structure of Conceptual Pedagogy by Miguel de Zubiría
4 pages
Syllabus - Ib WR 20
No ratings yet
Syllabus - Ib WR 20
6 pages
Defining Similar Triangles in Geometry
No ratings yet
Defining Similar Triangles in Geometry
8 pages
MOCK - 8 Results
No ratings yet
MOCK - 8 Results
9 pages
Historical Foundations of Education - Docx Chapter 2
No ratings yet
Historical Foundations of Education - Docx Chapter 2
9 pages
MMPI-2 Validity Scales
67% (3)
MMPI-2 Validity Scales
7 pages
Edwards - Play Article Six Culture Study
No ratings yet
Edwards - Play Article Six Culture Study
13 pages
Technical Career Resume: Nitin Baliyan
No ratings yet
Technical Career Resume: Nitin Baliyan
2 pages
Childrens Myth Book Project Outline
No ratings yet
Childrens Myth Book Project Outline
7 pages
English Grammar Exercise Sheet
No ratings yet
English Grammar Exercise Sheet
3 pages
Class X
No ratings yet
Class X
6 pages
Data Compilation For Border Security A Powerful Tool
No ratings yet
Data Compilation For Border Security A Powerful Tool
9 pages
APES Command Terms Explained
No ratings yet
APES Command Terms Explained
1 page
Am I Pretty
No ratings yet
Am I Pretty
3 pages
Guideline PTPTN Application
No ratings yet
Guideline PTPTN Application
1 page
Module 03: Setting Up Physics: ANSYS Fluent Getting Started - Part 1
No ratings yet
Module 03: Setting Up Physics: ANSYS Fluent Getting Started - Part 1
15 pages
Exam Media Kit 11
No ratings yet
Exam Media Kit 11
30 pages
Department of Education: Pulungmasle National High School
No ratings yet
Department of Education: Pulungmasle National High School
3 pages
Nitttr FDP Brochure Cbit - 07!07!2025
No ratings yet
Nitttr FDP Brochure Cbit - 07!07!2025
1 page
Medication Dosage Calculations Guide
No ratings yet
Medication Dosage Calculations Guide
2 pages
Smoking Cessation Survey
No ratings yet
Smoking Cessation Survey
5 pages

Decision Trees for Data Scientists

Uploaded by

Decision Trees for Data Scientists

Uploaded by

Decision Trees

glucose bp skin insulin bmi pedigree age label

• # Split dataset into training set and test set

• # Train Decision Tree Classifer

• #Predict the response for test dataset

• #Predict the response for test dataset

You might also like