BMEN-589 Lab #12: Naive Bayes: Useful Libraries

BMEN-589 Lab #12: Naive Bayes
Shrey Patel
11/13/2020
Useful Libraries
library(tidyverse)
## ── Attaching packages ─────────────────────────────────────── tidyverse

1.3.0 ──
## ✓ ggplot2 3.3.2 ✓ purrr 0.3.4

## ✓ tibble 3.0.4 ✓ dplyr 1.0.2
## ✓ tidyr 1.1.2 ✓ stringr 1.4.0
## ✓ readr 1.4.0 ✓ forcats 0.5.0
## ── Conflicts ──────────────────────────────────────────
tidyverse_conflicts() ──
## x dplyr::filter() masks stats::filter()
## x dplyr::lag() masks stats::lag()
library(ggplot2)
library(caret)
## Loading required package: lattice
##
## Attaching package: 'caret'
## The following object is masked from 'package:purrr':

##
## lift
library(caretEnsemble)
##
## Attaching package: 'caretEnsemble'
## The following object is masked from 'package:ggplot2':

##
## autoplot
library(psych)
##
## Attaching package: 'psych'
## The following objects are masked from 'package:ggplot2':
##
## %+%, alpha
library(Amelia)
## Loading required package: Rcpp
## ##
## ## Amelia II: Multiple Imputation
## ## (Version 1.7.6, built: 2019-11-24)
## ## Copyright (C) 2005-2020 James Honaker, Gary King and Matthew Blackwell
## ## Refer to http://gking.harvard.edu/amelia/ for more information
## ##
library(mice)
##
## Attaching package: 'mice'
## The following objects are masked from 'package:base':

##
## cbind, rbind
library(GGally)
## Registered S3 method overwritten by 'GGally':

## method from
## +.gg ggplot2
library(rpart)
library(randomForest)
## randomForest 4.6-14
## Type rfNews() to see new features/changes/bug fixes.
##
## Attaching package: 'randomForest'
## The following object is masked from 'package:psych':

##
## outlier
## The following object is masked from 'package:dplyr':

##
## combine
## The following object is masked from 'package:ggplot2':

##
## margin
library(e1071)
Import Data
diabetes <- read.csv("diabetes.csv")
str(diabetes)
## 'data.frame': 768 obs. of 9 variables:

## $ Pregnancies : int 6 1 8 1 0 5 3 10 2 8 ...
## $ Glucose : int 148 85 183 89 137 116 78 115 197 125 ...
## $ BloodPressure : int 72 66 64 66 40 74 50 0 70 96 ...
## $ SkinThickness : int 35 29 0 23 35 0 32 0 45 0 ...
## $ Insulin : int 0 0 0 94 168 0 88 0 543 0 ...
## $ BMI : num 33.6 26.6 23.3 28.1 43.1 25.6 31 35.3
30.5 0 ...
## $ DiabetesPedigreeFunction: num 0.627 0.351 0.672 0.167 2.288 ...
## $ Age : int 50 31 32 21 33 30 26 29 53 54 ...
## $ Outcome : int 1 0 1 0 1 0 1 0 1 1 ...
Clean Data
# Setting Diabetes variables as categorical
diabetes$Outcome <- factor(diabetes$Outcome, levels = c(0,1), labels =
c("No", "Yes"))
str(diabetes)
## 'data.frame': 768 obs. of 9 variables:

## $ Pregnancies : int 6 1 8 1 0 5 3 10 2 8 ...
## $ Glucose : int 148 85 183 89 137 116 78 115 197 125 ...
## $ BloodPressure : int 72 66 64 66 40 74 50 0 70 96 ...
## $ SkinThickness : int 35 29 0 23 35 0 32 0 45 0 ...
## $ Insulin : int 0 0 0 94 168 0 88 0 543 0 ...
## $ BMI : num 33.6 26.6 23.3 28.1 43.1 25.6 31 35.3
30.5 0 ...
## $ DiabetesPedigreeFunction: num 0.627 0.351 0.672 0.167 2.288 ...
## $ Age : int 50 31 32 21 33 30 26 29 53 54 ...
## $ Outcome : Factor w/ 2 levels "No","Yes": 2 1 2 1 2 1 2
1 2 2 ...
# Get overview of data

summary(diabetes)
## Pregnancies Glucose BloodPressure SkinThickness

## Min. : 0.000 Min. : 0.0 Min. : 0.00 Min. : 0.00
## 1st Qu.: 1.000 1st Qu.: 99.0 1st Qu.: 62.00 1st Qu.: 0.00
## Median : 3.000 Median :117.0 Median : 72.00 Median :23.00
## Mean : 3.845 Mean :120.9 Mean : 69.11 Mean :20.54
## 3rd Qu.: 6.000 3rd Qu.:140.2 3rd Qu.: 80.00 3rd Qu.:32.00
## Max. :17.000 Max. :199.0 Max. :122.00 Max. :99.00
## Insulin BMI DiabetesPedigreeFunction Age
## Min. : 0.0 Min. : 0.00 Min. :0.0780 Min. :21.00
## 1st Qu.: 0.0 1st Qu.:27.30 1st Qu.:0.2437 1st Qu.:24.00
## Median : 30.5 Median :32.00 Median :0.3725 Median :29.00
## Mean : 79.8 Mean :31.99 Mean :0.4719 Mean :33.24
## 3rd Qu.:127.2 3rd Qu.:36.60 3rd Qu.:0.6262 3rd Qu.:41.00
## Max. :846.0 Max. :67.10 Max. :2.4200 Max. :81.00
## Outcome
## No :500
## Yes:268
##
##
##
##
describe(diabetes) # another way to get an overview
## vars n mean sd median trimmed mad min

## Pregnancies 1 768 3.85 3.37 3.00 3.46 2.97 0.00
## Glucose 2 768 120.89 31.97 117.00 119.38 29.65 0.00
## BloodPressure 3 768 69.11 19.36 72.00 71.36 11.86 0.00
## SkinThickness 4 768 20.54 15.95 23.00 19.94 17.79 0.00
## Insulin 5 768 79.80 115.24 30.50 56.75 45.22 0.00
## BMI 6 768 31.99 7.88 32.00 31.96 6.82 0.00
## DiabetesPedigreeFunction 7 768 0.47 0.33 0.37 0.42 0.25 0.08
## Age 8 768 33.24 11.76 29.00 31.54 10.38 21.00
## Outcome* 9 768 1.35 0.48 1.00 1.31 0.00 1.00
## max range skew kurtosis se
## Pregnancies 17.00 17.00 0.90 0.14 0.12
## Glucose 199.00 199.00 0.17 0.62 1.15
## BloodPressure 122.00 122.00 -1.84 5.12 0.70
## SkinThickness 99.00 99.00 0.11 -0.53 0.58
## Insulin 846.00 846.00 2.26 7.13 4.16
## BMI 67.10 67.10 -0.43 3.24 0.28
## DiabetesPedigreeFunction 2.42 2.34 1.91 5.53 0.01
## Age 81.00 60.00 1.13 0.62 0.42
## Outcome* 2.00 1.00 0.63 -1.60 0.02
# Convert '0' values into NA

diabetes[, 2:7][diabetes[, 2:7] == 0] <- NA
# How many NA's are in the diabetes data set

sum(is.na(diabetes))
## [1] 652
# Visualize the missing data

missmap(diabetes)
# Use mice package to predict missing values
# method = 'rf' , uses a random forest tree method to assign missing
variables
# random forest: another way to grow trees that reduces variability
mice_mod <- mice(diabetes[,
c("Glucose","BloodPressure","SkinThickness","Insulin","BMI")], method='rf')
##
## iter imp variable
## 1 1 Glucose BloodPressure SkinThickness Insulin BMI
mice_complete <- mice::complete(mice_mod)
#Transfer the predicted missing values into the main data set
diabetes$Glucose <- mice_complete$Glucose
diabetes$BloodPressure <- mice_complete$BloodPressure
diabetes$SkinThickness <- mice_complete$SkinThickness
diabetes$Insulin<- mice_complete$Insulin
diabetes$BMI <- mice_complete$BMI
# Check for remaining missing vlues with missmap() function

missmap(diabetes)
Data Visualization
# Frequency Distributions
diabetes %>%
gather(-Outcome, key = "var", value = "value") %>%
ggplot(aes(x = value, y = ..count.. , colour = Outcome)) +
geom_density() +
scale_color_manual(values=c("#008000", "#FF0000"))+
facet_wrap(~var, scales = "free", nrow = 2) +
theme_bw()
ggpairs(diabetes) # this fuction gives a quick analysis of coorleation

between variables and looks at freqency distributions
## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

Create Training & Test Sets
# randomly split your data in to 70% training set and 30% test set
set.seed(1234)
# randomly extract row numbers in diabetes dataset which will be included in

the training set
spt <- sample(1:nrow(diabetes), size = round(nrow(diabetes)*0.70), replace =
FALSE)
# subset the diabetes data set to include only the rows found in spt - 70%
train.diabetes <- diabetes[spt, ]
# subset the diabetes data set to include only the rows NOT found in spt -
30%
test.diabetes <- diabetes[-spt, ]
# look for effectiveness of training and testing sets with the prop.table()
function
# what propotion of yes/no do we have in our full diabetes Outcome variable
prop.table(table(diabetes$Outcome)) * 100
##
## No Yes
## 65.10417 34.89583
# what propotion of yes/no do we have in our training data set Outcome
variable
prop.table(table(train.diabetes$Outcome)) * 100
##
## No Yes
## 67.28625 32.71375
# what propotion of yes/no do we have in our testing data set Outcome

variable
prop.table(table(test.diabetes$Outcome)) * 100
##
## No Yes
## 60 40
# Note: to create uniform training and testing sets you need the same
proportions of yes/no for each full training and testing set
Alternative for Creating Training & Testing Sets

# randomly split your data in to 70% training set and 30% test set
set.seed(1234)
# library(caret)
# randomly extract row numbers in diabetes dataset which will be included in
the training set
spt <- createDataPartition(y = diabetes$Outcome, p = 0.75, list = FALSE)
# subset the diabetes data set to include only the rows found in spt - 70%
train.diabetes <- diabetes[spt, ]
# subset the diabetes data set to include only the rows NOT found in spt -
30%
test.diabetes <- diabetes[-spt, ]
# look for effectiveness of training and testing sets with the

createDataPartition() function
# what proportion of yes/no do we have in our full diabetes Outcome variable
prop.table(table(diabetes$Outcome)) * 100
##
## No Yes
## 65.10417 34.89583
# what proportion of yes/no do we have in our training data set Outcome

variable
prop.table(table(train.diabetes$Outcome)) * 100
##
## No Yes
## 65.10417 34.89583
# what proportion of yes/no do we have in our testing data set Outcome
variable
prop.table(table(test.diabetes$Outcome)) * 100
##
## No Yes
## 65.10417 34.89583
# Note: t the createDataPartition() function did a slightly better job at

partitioning the data equally. Now there is an equalivant proportion of
yes/no across the Training and Testing data sets
Naive Bayes Classifier Using “caret” Package

# use the train() function in the caret package to build a Naive Bayes
classification model. First, the train() function requires that the predictor
variables are seperate from the target variables
# create objects x which holds the predictor variables and y which holds the
target variable
x <- train.diabetes[,-9]
y <- train.diabetes$Outcome
# Create Naive Bayes Classifier (You may need to download additional

packages)
model <- train(x, y, method = 'nb', trControl = trainControl(method ='cv',
number = 10))
## Warning in FUN(X[[i]], ...): Numerical 0 probability for all classes with

## observation 1

## observation 2

## observation 3

## observation 4

## observation 5

## observation 6

## observation 7

## observation 8
## observation 9

## observation 10

## observation 11

## observation 12

## observation 13

## observation 14

## observation 15

## observation 16

## observation 17

## observation 18

## observation 19

## observation 20

## observation 21

## observation 22

## observation 23

## observation 24

## observation 25

## observation 26
## observation 27

## observation 28

## observation 29

## observation 30

## observation 31

## observation 32

## observation 33

## observation 34

## observation 35

## observation 36

## observation 37

## observation 38

## observation 39

## observation 40

## observation 41

## observation 42

## observation 43

## observation 44
## observation 45

## observation 46

## observation 47

## observation 48

## observation 49

## observation 50

## observation 51

## observation 52

## observation 53

## observation 54

## observation 55

## observation 56

## observation 57

## observation 58

## observation 1

## observation 2

## observation 3

## observation 4
## observation 5

## observation 6

## observation 7

## observation 8

## observation 9

## observation 10

## observation 11

## observation 12

## observation 13

## observation 14

## observation 15

## observation 16

## observation 17

## observation 18

## observation 19

## observation 20

## observation 21

## observation 22
## observation 23

## observation 24

## observation 25

## observation 26

## observation 27

## observation 28

## observation 29

## observation 30

## observation 31

## observation 32

## observation 33

## observation 34

## observation 35

## observation 36

## observation 37

## observation 38

## observation 39

## observation 40
## observation 41

## observation 42

## observation 43

## observation 44

## observation 45

## observation 46

## observation 47

## observation 48

## observation 49

## observation 50

## observation 51

## observation 52

## observation 53

## observation 54

## observation 55

## observation 56

## observation 57

## observation 58
## observation 1

## observation 2

## observation 3

## observation 4

## observation 5

## observation 6

## observation 7

## observation 8

## observation 9

## observation 10

## observation 11

## observation 12

## observation 13

## observation 14

## observation 15

## observation 16

## observation 17

## observation 18
## observation 19

## observation 20

## observation 21

## observation 22

## observation 23

## observation 24

## observation 25

## observation 26

## observation 27

## observation 28

## observation 29

## observation 30

## observation 31

## observation 32

## observation 33

## observation 34

## observation 35

## observation 36
## observation 37

## observation 38

## observation 39

## observation 40

## observation 41

## observation 42

## observation 43

## observation 44

## observation 45

## observation 46

## observation 47

## observation 48

## observation 49

## observation 50

## observation 51

## observation 52

## observation 53

## observation 54
## observation 55

## observation 56

## observation 57

## observation 58

## observation 1

## observation 2

## observation 3

## observation 4

## observation 5

## observation 6

## observation 7

## observation 8

## observation 9

## observation 10

## observation 11

## observation 12

## observation 13

## observation 14
## observation 15

## observation 16

## observation 17

## observation 18

## observation 19

## observation 20

## observation 21

## observation 22

## observation 23

## observation 24

## observation 25

## observation 26

## observation 27

## observation 28

## observation 29

## observation 30

## observation 31

## observation 32
## observation 33

## observation 34

## observation 35

## observation 36

## observation 37

## observation 38

## observation 39

## observation 40

## observation 41

## observation 42

## observation 43

## observation 44

## observation 45

## observation 46

## observation 47

## observation 48

## observation 49

## observation 50
## observation 51

## observation 52

## observation 53

## observation 54

## observation 55

## observation 56

## observation 57

## observation 58

## observation 1

## observation 2

## observation 3

## observation 4

## observation 5

## observation 6

## observation 7

## observation 8

## observation 9

## observation 10
## observation 11

## observation 12

## observation 13

## observation 14

## observation 15

## observation 16

## observation 17

## observation 18

## observation 19

## observation 20

## observation 21

## observation 22

## observation 23

## observation 24

## observation 25

## observation 26

## observation 27

## observation 28
## observation 29

## observation 30

## observation 31

## observation 32

## observation 33

## observation 34

## observation 35

## observation 36

## observation 37

## observation 38

## observation 39

## observation 40

## observation 41

## observation 42

## observation 43

## observation 44

## observation 45

## observation 46
## observation 47

## observation 48

## observation 49

## observation 50

## observation 51

## observation 52

## observation 53

## observation 54

## observation 55

## observation 56

## observation 57

## observation 1

## observation 2

## observation 3

## observation 4

## observation 5

## observation 6

## observation 7
## observation 8

## observation 9

## observation 10

## observation 11

## observation 12

## observation 13

## observation 14

## observation 15

## observation 16

## observation 17

## observation 18

## observation 19

## observation 20

## observation 21

## observation 22

## observation 23

## observation 24

## observation 25
## observation 26

## observation 27

## observation 28

## observation 29

## observation 30

## observation 31

## observation 32

## observation 33

## observation 34

## observation 35

## observation 36

## observation 37

## observation 38

## observation 39

## observation 40

## observation 41

## observation 42

## observation 43
## observation 44

## observation 45

## observation 46

## observation 47

## observation 48

## observation 49

## observation 50

## observation 51

## observation 52

## observation 53

## observation 54

## observation 55

## observation 56

## observation 57

## observation 1

## observation 2

## observation 3

## observation 4
## observation 5

## observation 6

## observation 7

## observation 8

## observation 9

## observation 10

## observation 11

## observation 12

## observation 13

## observation 14

## observation 15

## observation 16

## observation 17

## observation 18

## observation 19

## observation 20

## observation 21

## observation 22
## observation 23

## observation 24

## observation 25

## observation 26

## observation 27

## observation 28

## observation 29

## observation 30

## observation 31

## observation 32

## observation 33

## observation 34

## observation 35

## observation 36

## observation 37

## observation 38

## observation 39

## observation 40
## observation 41

## observation 42

## observation 43

## observation 44

## observation 45

## observation 46

## observation 47

## observation 48

## observation 49

## observation 50

## observation 51

## observation 52

## observation 53

## observation 54

## observation 55

## observation 56

## observation 57

## observation 58
## observation 1

## observation 2

## observation 3

## observation 4

## observation 5

## observation 6

## observation 7

## observation 8

## observation 9

## observation 10

## observation 11

## observation 12

## observation 13

## observation 14

## observation 15

## observation 16

## observation 17

## observation 18
## observation 19

## observation 20

## observation 21

## observation 22

## observation 23

## observation 24

## observation 25

## observation 26

## observation 27

## observation 28

## observation 29

## observation 30

## observation 31

## observation 32

## observation 33

## observation 34

## observation 35

## observation 36
## observation 37

## observation 38

## observation 39

## observation 40

## observation 41

## observation 42

## observation 43

## observation 44

## observation 45

## observation 46

## observation 47

## observation 48

## observation 49

## observation 50

## observation 51

## observation 52

## observation 53

## observation 54
## observation 55

## observation 56

## observation 57

## observation 58

## observation 1

## observation 2

## observation 3

## observation 4

## observation 5

## observation 6

## observation 7

## observation 8

## observation 9

## observation 10

## observation 11

## observation 12

## observation 13

## observation 14
## observation 15

## observation 16

## observation 17

## observation 18

## observation 19

## observation 20

## observation 21

## observation 22

## observation 23

## observation 24

## observation 25

## observation 26

## observation 27

## observation 28

## observation 29

## observation 30

## observation 31

## observation 32
## observation 33

## observation 34

## observation 35

## observation 36

## observation 37

## observation 38

## observation 39

## observation 40

## observation 41

## observation 42

## observation 43

## observation 44

## observation 45

## observation 46

## observation 47

## observation 48

## observation 49

## observation 50
## observation 51

## observation 52

## observation 53

## observation 54

## observation 55

## observation 56

## observation 57

## observation 1

## observation 2

## observation 3

## observation 4

## observation 5

## observation 6

## observation 7

## observation 8

## observation 9

## observation 10

## observation 11
## observation 12

## observation 13

## observation 14

## observation 15

## observation 16

## observation 17

## observation 18

## observation 19

## observation 20

## observation 21

## observation 22

## observation 23

## observation 24

## observation 25

## observation 26

## observation 27

## observation 28

## observation 29
## observation 30

## observation 31

## observation 32

## observation 33

## observation 34

## observation 35

## observation 36

## observation 37

## observation 38

## observation 39

## observation 40

## observation 41

## observation 42

## observation 43

## observation 44

## observation 45

## observation 46

## observation 47
## observation 48

## observation 49

## observation 50

## observation 51

## observation 52

## observation 53

## observation 54

## observation 55

## observation 56

## observation 57

## observation 1

## observation 2

## observation 3

## observation 4

## observation 5

## observation 6

## observation 7

## observation 8
## observation 9

## observation 10

## observation 11

## observation 12

## observation 13

## observation 14

## observation 15

## observation 16

## observation 17

## observation 18

## observation 19

## observation 20

## observation 21

## observation 22

## observation 23

## observation 24

## observation 25

## observation 26
## observation 27

## observation 28

## observation 29

## observation 30

## observation 31

## observation 32

## observation 33

## observation 34

## observation 35

## observation 36

## observation 37

## observation 38

## observation 39

## observation 40

## observation 41

## observation 42

## observation 43

## observation 44
## observation 45

## observation 46

## observation 47

## observation 48

## observation 49

## observation 50

## observation 51

## observation 52

## observation 53

## observation 54

## observation 55

## observation 56

## observation 57

## observation 1

## observation 2

## observation 3

## observation 4

## observation 5
## observation 6

## observation 7

## observation 8

## observation 9

## observation 10

## observation 11

## observation 12

## observation 13

## observation 14

## observation 15

## observation 16

## observation 17

## observation 18

## observation 19

## observation 20

## observation 21

## observation 22

## observation 23
## observation 24

## observation 25

## observation 26

## observation 27

## observation 28

## observation 29

## observation 30

## observation 31

## observation 32

## observation 33

## observation 34

## observation 35

## observation 36

## observation 37

## observation 38

## observation 39

## observation 40

## observation 41
## observation 42

## observation 43

## observation 44

## observation 45

## observation 46

## observation 47

## observation 48

## observation 49

## observation 50

## observation 51

## observation 52

## observation 53

## observation 54

## observation 55

## observation 56

## observation 57

## observation 1

## observation 2
## observation 3

## observation 4

## observation 5

## observation 6

## observation 7

## observation 8

## observation 9

## observation 10

## observation 11

## observation 12

## observation 13

## observation 14

## observation 15

## observation 16

## observation 17

## observation 18

## observation 19

## observation 20
## observation 21

## observation 22

## observation 23

## observation 24

## observation 25

## observation 26

## observation 27

## observation 28

## observation 29

## observation 30

## observation 31

## observation 32

## observation 33

## observation 34

## observation 35

## observation 36

## observation 37

## observation 38
## observation 39

## observation 40

## observation 41

## observation 42

## observation 43

## observation 44

## observation 45

## observation 46

## observation 47

## observation 48

## observation 49

## observation 50

## observation 51

## observation 52

## observation 53

## observation 54

## observation 55

## observation 56
## observation 57

## observation 58

## observation 1

## observation 2

## observation 3

## observation 4

## observation 5

## observation 6

## observation 7

## observation 8

## observation 9

## observation 10

## observation 11

## observation 12

## observation 13

## observation 14

## observation 15

## observation 16
## observation 17

## observation 18

## observation 19

## observation 20

## observation 21

## observation 22

## observation 23

## observation 24

## observation 25

## observation 26

## observation 27

## observation 28

## observation 29

## observation 30

## observation 31

## observation 32

## observation 33

## observation 34
## observation 35

## observation 36

## observation 37

## observation 38

## observation 39

## observation 40

## observation 41

## observation 42

## observation 43

## observation 44

## observation 45

## observation 46

## observation 47

## observation 48

## observation 49

## observation 50

## observation 51

## observation 52
## observation 53

## observation 54

## observation 55

## observation 56

## observation 57

## observation 58

## observation 1

## observation 2

## observation 3

## observation 4

## observation 5

## observation 6

## observation 7

## observation 8

## observation 9

## observation 10

## observation 11

## observation 12
## observation 13

## observation 14

## observation 15

## observation 16

## observation 17

## observation 18

## observation 19

## observation 20

## observation 21

## observation 22

## observation 23

## observation 24

## observation 25

## observation 26

## observation 27

## observation 28

## observation 29

## observation 30
## observation 31

## observation 32

## observation 33

## observation 34

## observation 35

## observation 36

## observation 37

## observation 38

## observation 39

## observation 40

## observation 41

## observation 42

## observation 43

## observation 44

## observation 45

## observation 46

## observation 47

## observation 48
## observation 49

## observation 50

## observation 51

## observation 52

## observation 53

## observation 54

## observation 55

## observation 56

## observation 57

## observation 58

## observation 1

## observation 2

## observation 3

## observation 4

## observation 5

## observation 6

## observation 7

## observation 8
## observation 9

## observation 10

## observation 11

## observation 12

## observation 13

## observation 14

## observation 15

## observation 16

## observation 17

## observation 18

## observation 19

## observation 20

## observation 21

## observation 22

## observation 23

## observation 24

## observation 25

## observation 26
## observation 27

## observation 28

## observation 29

## observation 30

## observation 31

## observation 32

## observation 33

## observation 34

## observation 35

## observation 36

## observation 37

## observation 38

## observation 39

## observation 40

## observation 41

## observation 42

## observation 43

## observation 44
## observation 45

## observation 46

## observation 47

## observation 48

## observation 49

## observation 50

## observation 51

## observation 52

## observation 53

## observation 54

## observation 55

## observation 56

## observation 57

## observation 58

## observation 1

## observation 2

## observation 3

## observation 4
## observation 5

## observation 6

## observation 7

## observation 8

## observation 9

## observation 10

## observation 11

## observation 12

## observation 13

## observation 14

## observation 15

## observation 16

## observation 17

## observation 18

## observation 19

## observation 20

## observation 21

## observation 22
## observation 23

## observation 24

## observation 25

## observation 26

## observation 27

## observation 28

## observation 29

## observation 30

## observation 31

## observation 32

## observation 33

## observation 34

## observation 35

## observation 36

## observation 37

## observation 38

## observation 39

## observation 40
## observation 41

## observation 42

## observation 43

## observation 44

## observation 45

## observation 46

## observation 47

## observation 48

## observation 49

## observation 50

## observation 51

## observation 52

## observation 53

## observation 54

## observation 55

## observation 56

## observation 57

## observation 1
## observation 2

## observation 3

## observation 4

## observation 5

## observation 6

## observation 7

## observation 8

## observation 9

## observation 10

## observation 11

## observation 12

## observation 13

## observation 14

## observation 15

## observation 16

## observation 17

## observation 18

## observation 19
## observation 20

## observation 21

## observation 22

## observation 23

## observation 24

## observation 25

## observation 26

## observation 27

## observation 28

## observation 29

## observation 30

## observation 31

## observation 32

## observation 33

## observation 34

## observation 35

## observation 36

## observation 37
## observation 38

## observation 39

## observation 40

## observation 41

## observation 42

## observation 43

## observation 44

## observation 45

## observation 46

## observation 47

## observation 48

## observation 49

## observation 50

## observation 51

## observation 52

## observation 53

## observation 54

## observation 55
## observation 56

## observation 57

## observation 1

## observation 2

## observation 3

## observation 4

## observation 5

## observation 6

## observation 7

## observation 8

## observation 9

## observation 10

## observation 11

## observation 12

## observation 13

## observation 14

## observation 15

## observation 16
## observation 17

## observation 18

## observation 19

## observation 20

## observation 21

## observation 22

## observation 23

## observation 24

## observation 25

## observation 26

## observation 27

## observation 28

## observation 29

## observation 30

## observation 31

## observation 32

## observation 33

## observation 34
## observation 35

## observation 36

## observation 37

## observation 38

## observation 39

## observation 40

## observation 41

## observation 42

## observation 43

## observation 44

## observation 45

## observation 46

## observation 47

## observation 48

## observation 49

## observation 50

## observation 51

## observation 52
## observation 53

## observation 54

## observation 55

## observation 56

## observation 57

## observation 58

## observation 1

## observation 2

## observation 3

## observation 4

## observation 5

## observation 6

## observation 7

## observation 8

## observation 9

## observation 10

## observation 11

## observation 12
## observation 13

## observation 14

## observation 15

## observation 16

## observation 17

## observation 18

## observation 19

## observation 20

## observation 21

## observation 22

## observation 23

## observation 24

## observation 25

## observation 26

## observation 27

## observation 28

## observation 29

## observation 30
## observation 31

## observation 32

## observation 33

## observation 34

## observation 35

## observation 36

## observation 37

## observation 38

## observation 39

## observation 40

## observation 41

## observation 42

## observation 43

## observation 44

## observation 45

## observation 46

## observation 47

## observation 48
## observation 49

## observation 50

## observation 51

## observation 52

## observation 53

## observation 54

## observation 55

## observation 56

## observation 57

## observation 58
model
## Naive Bayes
##
## 576 samples
## 8 predictor
## 2 classes: 'No', 'Yes'
##
## No pre-processing
## Resampling: Cross-Validated (10 fold)
## Summary of sample sizes: 518, 518, 519, 518, 519, 519, ...
## Resampling results across tuning parameters:
##
## usekernel Accuracy Kappa
## FALSE 0.7535693 0.4509402
## TRUE 0.7552934 0.4614451
##
## Tuning parameter 'fL' was held constant at a value of 0
## Tuning
## parameter 'adjust' was held constant at a value of 1
## Accuracy was used to select the optimal model using the largest value.
## The final values used for the model were fL = 0, usekernel = TRUE and
adjust
## = 1.
Model Evaluation
# Model Evaluation
model.predict <- predict(model, newdata = test.diabetes)

## observation 1

## observation 2

## observation 3

## observation 4

## observation 5

## observation 6

## observation 7

## observation 8

## observation 9

## observation 10

## observation 11

## observation 12

## observation 13

## observation 14

## observation 15
## observation 16

## observation 17

## observation 18

## observation 19

## observation 20

## observation 21

## observation 22

## observation 23

## observation 24

## observation 25

## observation 26

## observation 27

## observation 28

## observation 29

## observation 30

## observation 31

## observation 32

## observation 33
## observation 34

## observation 35

## observation 36

## observation 37

## observation 38

## observation 39

## observation 40

## observation 41

## observation 42

## observation 43

## observation 44

## observation 45

## observation 46

## observation 47

## observation 48

## observation 49

## observation 50

## observation 51
## observation 52

## observation 53

## observation 54

## observation 55

## observation 56

## observation 57

## observation 58

## observation 59

## observation 60

## observation 61

## observation 62

## observation 63

## observation 64

## observation 65

## observation 66

## observation 67

## observation 68

## observation 69
## observation 70

## observation 71

## observation 72

## observation 73

## observation 74

## observation 75

## observation 76

## observation 77

## observation 78

## observation 79

## observation 80

## observation 81

## observation 82

## observation 83

## observation 84

## observation 85

## observation 86

## observation 87
## observation 88

## observation 89

## observation 90

## observation 91

## observation 92

## observation 93

## observation 94

## observation 95

## observation 96

## observation 97

## observation 98

## observation 99

## observation 100

## observation 101

## observation 102

## observation 103

## observation 104

## observation 105
## observation 106

## observation 107

## observation 108

## observation 109

## observation 110

## observation 111

## observation 112

## observation 113

## observation 114

## observation 115

## observation 116

## observation 117

## observation 118

## observation 119

## observation 120

## observation 121

## observation 122

## observation 123
## observation 124

## observation 125

## observation 126

## observation 127

## observation 128

## observation 129

## observation 130

## observation 131

## observation 132

## observation 133

## observation 134

## observation 135

## observation 136

## observation 137

## observation 138

## observation 139

## observation 140

## observation 141
## observation 142

## observation 143

## observation 144

## observation 145

## observation 146

## observation 147

## observation 148

## observation 149

## observation 150

## observation 151

## observation 152

## observation 153

## observation 154

## observation 155

## observation 156

## observation 157

## observation 158

## observation 159
## observation 160

## observation 161

## observation 162

## observation 163

## observation 164

## observation 165

## observation 166

## observation 167

## observation 168

## observation 169

## observation 170

## observation 171

## observation 172

## observation 173

## observation 174

## observation 175

## observation 176

## observation 177
## observation 178

## observation 179

## observation 180

## observation 181

## observation 182

## observation 183

## observation 184

## observation 185

## observation 186

## observation 187

## observation 188

## observation 189

## observation 190

## observation 191

## observation 192
# Get the confusion matrix to see accuracy value and other parameter values
confusionMatrix(model.predict, test.diabetes$Outcome)
## Confusion Matrix and Statistics

##
## Reference
## Prediction No Yes
## No 103 17
## Yes 22 50
##
## Accuracy : 0.7969
## 95% CI : (0.733, 0.8514)
## No Information Rate : 0.651
## P-Value [Acc > NIR] : 7.184e-06
##
## Kappa : 0.5606
##
## Mcnemar's Test P-Value : 0.5218
##
## Sensitivity : 0.8240
## Specificity : 0.7463
## Pos Pred Value : 0.8583
## Neg Pred Value : 0.6944
## Prevalence : 0.6510
## Detection Rate : 0.5365
## Detection Prevalence : 0.6250
## Balanced Accuracy : 0.7851
##
## 'Positive' Class : No
##
# Plot variable performance

varper <- varImp(model)
plot(varper)
# Glucose is the most significant variable for predicting the outcome of
diabetes

BMEN-589 Lab #12: Naive Bayes: Useful Libraries

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

BMEN-589 Lab #12: Naive Bayes: Useful Libraries

Uploaded by

Copyright:

Available Formats

BMEN-589 Lab #12: Naive Bayes

## ── Attaching packages ─────────────────────────────────────── tidyverse

## ✓ ggplot2 3.3.2 ✓ purrr 0.3.4

## Loading required package: lattice

## The following object is masked from 'package:purrr':

## The following object is masked from 'package:ggplot2':

## Loading required package: Rcpp

## The following objects are masked from 'package:base':

## Registered S3 method overwritten by 'GGally':

## Type rfNews() to see new features/changes/bug fixes.

## The following object is masked from 'package:psych':

## The following object is masked from 'package:dplyr':

## The following object is masked from 'package:ggplot2':

## 'data.frame': 768 obs. of 9 variables:

## 'data.frame': 768 obs. of 9 variables:

# Get overview of data

## Pregnancies Glucose BloodPressure SkinThickness

describe(diabetes) # another way to get an overview

## vars n mean sd median trimmed mad min

# Convert '0' values into NA

# How many NA's are in the diabetes data set

# Visualize the missing data

mice_complete <- mice::complete(mice_mod)

# Check for remaining missing vlues with missmap() function

ggpairs(diabetes) # this fuction gives a quick analysis of coorleation

## `stat_bin()` using `bins = 30`. Pick better value with `binwidth`.

# randomly extract row numbers in diabetes dataset which will be included in

# what propotion of yes/no do we have in our testing data set Outcome

Alternative for Creating Training & Testing Sets

# look for effectiveness of training and testing sets with the

# what proportion of yes/no do we have in our training data set Outcome

# Note: t the createDataPartition() function did a slightly better job at

Naive Bayes Classifier Using “caret” Package

# Create Naive Bayes Classifier (You may need to download additional

## Warning in FUN(X[[i]], ...): Numerical 0 probability for all classes with

## Warning in FUN(X[[i]], ...): Numerical 0 probability for all classes with

## Warning in FUN(X[[i]], ...): Numerical 0 probability for all classes with

## Warning in FUN(X[[i]], ...): Numerical 0 probability for all classes with

## Warning in FUN(X[[i]], ...): Numerical 0 probability for all classes with

## Warning in FUN(X[[i]], ...): Numerical 0 probability for all classes with

## Warning in FUN(X[[i]], ...): Numerical 0 probability for all classes with

## Warning in FUN(X[[i]], ...): Numerical 0 probability for all classes with

## Warning in FUN(X[[i]], ...): Numerical 0 probability for all classes with

## Warning in FUN(X[[i]], ...): Numerical 0 probability for all classes with

## Warning in FUN(X[[i]], ...): Numerical 0 probability for all classes with

## Warning in FUN(X[[i]], ...): Numerical 0 probability for all classes with

## Warning in FUN(X[[i]], ...): Numerical 0 probability for all classes with

## Warning in FUN(X[[i]], ...): Numerical 0 probability for all classes with

## Warning in FUN(X[[i]], ...): Numerical 0 probability for all classes with

## Warning in FUN(X[[i]], ...): Numerical 0 probability for all classes with

## Warning in FUN(X[[i]], ...): Numerical 0 probability for all classes with

## Warning in FUN(X[[i]], ...): Numerical 0 probability for all classes with

## Warning in FUN(X[[i]], ...): Numerical 0 probability for all classes with

## Warning in FUN(X[[i]], ...): Numerical 0 probability for all classes with

## Warning in FUN(X[[i]], ...): Numerical 0 probability for all classes with

## Warning in FUN(X[[i]], ...): Numerical 0 probability for all classes with

## Warning in FUN(X[[i]], ...): Numerical 0 probability for all classes with

## Warning in FUN(X[[i]], ...): Numerical 0 probability for all classes with

## Warning in FUN(X[[i]], ...): Numerical 0 probability for all classes with

## Warning in FUN(X[[i]], ...): Numerical 0 probability for all classes with

## Warning in FUN(X[[i]], ...): Numerical 0 probability for all classes with

## Warning in FUN(X[[i]], ...): Numerical 0 probability for all classes with

## Warning in FUN(X[[i]], ...): Numerical 0 probability for all classes with