You are on page 1of 67

Intelligent Data Analysis: From Data

Gathering to Data Comprehension


Deepak Gupta
Visit to download the full and correct content document:
https://ebookmass.com/product/intelligent-data-analysis-from-data-gathering-to-data-
comprehension-deepak-gupta/
Intelligent Data Analysis
Intelligent Data Analysis

From Data Gathering to Data Comprehension

Edited by

Deepak Gupta
Maharaja Agrasen Institute of Technology
Delhi, India

Siddhartha Bhattacharyya
CHRIST (Deemed to be University)
Bengaluru, India

Ashish Khanna
Maharaja Agrasen Institute of Technology
Delhi, India

Kalpna Sagar
KIET Group of Institutions
Uttar Pradesh, India
This edition first published 2020
© 2020 John Wiley & Sons Ltd

All rights reserved. No part of this publication may be reproduced, stored in a retrieval system, or transmitted, in
any form or by any means, electronic, mechanical, photocopying, recording or otherwise, except as permitted by
law. Advice on how to obtain permission to reuse material from this title is available at http://www.wiley.com/go/
permissions.

The right of Deepak Gupta, Siddhartha Bhattacharyya, Ashish Khanna, and Kalpna Sagar to be identified as the
authors of the editorial material in this work has been asserted in accordance with law.

Registered Offices
John Wiley & Sons, Inc., 111 River Street, Hoboken, NJ 07030, USA
John Wiley & Sons Ltd, The Atrium, Southern Gate, Chichester, West Sussex, PO19 8SQ, UK

Editorial Office
The Atrium, Southern Gate, Chichester, West Sussex, PO19 8SQ, UK

For details of our global editorial offices, customer services, and more information about Wiley products visit us at
www.wiley.com.

Wiley also publishes its books in a variety of electronic formats and by print-on-demand. Some content that
appears in standard print versions of this book may not be available in other formats.

Limit of Liability/Disclaimer of Warranty


MATLABⓇ is a trademark of The MathWorks, Inc. and is used with permission. The MathWorks does not warrant
the accuracy of the text or exercises in this book. This work’s use or discussion of MATLABⓇ software or related
products does not constitute endorsement or sponsorship by The MathWorks of a particular pedagogical approach
or particular use of the MATLABⓇ software.

While the publisher and authors have used their best efforts in preparing this work, they make no representations
or warranties with respect to the accuracy or completeness of the contents of this work and specifically disclaim
all warranties, including without limitation any implied warranties of merchantability or fitness for a particular
purpose. No warranty may be created or extended by sales representatives, written sales materials or promotional
statements for this work. The fact that an organization, website, or product is referred to in this work as a citation
and/or potential source of further information does not mean that the publisher and authors endorse the
information or services the organization, website, or product may provide or recommendations it may make. This
work is sold with the understanding that the publisher is not engaged in rendering professional services. The
advice and strategies contained herein may not be suitable for your situation. You should consult with a specialist
where appropriate. Further, readers should be aware that websites listed in this work may have changed or
disappeared between when this work was written and when it is read. Neither the publisher nor authors shall be
liable for any loss of profit or any other commercial damages, including but not limited to special, incidental,
consequential, or other damages.

Library of Congress Cataloging-in-Publication Data

Names: Gupta, Deepak, editor.


Title: Intelligent data analysis : from data gathering to data
comprehension / edited by Dr. Deepak Gupta, Dr. Siddhartha
Bhattacharyya, Dr. Ashish Khanna, Ms. Kalpna Sagar.
Description: Hoboken, NJ, USA : Wiley, 2020. | Series: The Wiley series in
intelligent signal and data processing | Includes bibliographical
references and index.
Identifiers: LCCN 2019056735 (print) | LCCN 2019056736 (ebook) | ISBN
9781119544456 (hardback) | ISBN 9781119544449 (adobe pdf) | ISBN
9781119544463 (epub)
Subjects: LCSH: Data mining. | Computational intelligence.
Classification: LCC QA76.9.D343 I57435 2020 (print) | LCC QA76.9.D343
(ebook) | DDC 006.3/12–dc23
LC record available at https://lccn.loc.gov/2019056735
LC ebook record available at https://lccn.loc.gov/2019056736

Cover Design: Wiley


Cover Image: © gremlin/Getty Images

Set in 9.5/12.5pt STIXTwoText by SPi Global, Chennai, India

10 9 8 7 6 5 4 3 2 1
Deepak Gupta would like to dedicate this book to his father, Sh. R.K. Gupta, his mother,
Smt. Geeta Gupta, his mentors for their constant encouragement, and his family members,
including his wife, brothers, sisters, kids and the students.
Siddhartha Bhattacharyya would like to dedicate this book to his parents, the late Ajit Kumar
Bhattacharyya and the late Hashi Bhattacharyya, his beloved wife, Rashni, and his research
scholars, Sourav, Sandip, Hrishikesh, Pankaj, Debanjan, Alokananda, Koyel, and Tulika.
Ashish Khanna would like to dedicate this book to his parents, the late R.C. Khanna and
Smt. Surekha Khanna, for their constant encouragement and support, and to his wife,
Sheenu, and children, Master Bhavya and Master Sanyukt.
Kalpna Sagar would like to dedicate this book to her father, Mr. Lekh Ram Sagar, and her
mother, Smt. Gomti Sagar, the strongest persons of her life.
vii

Contents

List of Contributors xix


Series Preface xxiii
Preface xxv

1 Intelligent Data Analysis: Black Box Versus White Box Modeling 1


Sarthak Gupta, Siddhant Bagga, and Deepak Kumar Sharma
1.1 Introduction 1
1.1.1 Intelligent Data Analysis 1
1.1.2 Applications of IDA and Machine Learning 2
1.1.3 White Box Models Versus Black Box Models 2
1.1.4 Model Interpretability 3
1.2 Interpretation of White Box Models 3
1.2.1 Linear Regression 3
1.2.2 Decision Tree 5
1.3 Interpretation of Black Box Models 7
1.3.1 Partial Dependence Plot 7
1.3.2 Individual Conditional Expectation 9
1.3.3 Accumulated Local Effects 9
1.3.4 Global Surrogate Models 12
1.3.5 Local Interpretable Model-Agnostic Explanations 12
1.3.6 Feature Importance 12
1.4 Issues and Further Challenges 13
1.5 Summary 13
References 14

2 Data: Its Nature and Modern Data Analytical Tools 17


Ravinder Ahuja, Shikhar Asthana, Ayush Ahuja, and Manu Agarwal
2.1 Introduction 17
2.2 Data Types and Various File Formats 18
2.2.1 Structured Data 18
2.2.2 Semi-Structured Data 20
2.2.3 Unstructured Data 20
2.2.4 Need for File Formats 21
2.2.5 Various Types of File Formats 22
2.2.5.1 Comma Separated Values (CSV) 22
viii Contents

2.2.5.2 ZIP 22
2.2.5.3 Plain Text (txt) 23
2.2.5.4 JSON 23
2.2.5.5 XML 23
2.2.5.6 Image Files 24
2.2.5.7 HTML 24
2.3 Overview of Big Data 25
2.3.1 Sources of Big Data 27
2.3.1.1 Media 27
2.3.1.2 The Web 27
2.3.1.3 Cloud 27
2.3.1.4 Internet of Things 27
2.3.1.5 Databases 27
2.3.1.6 Archives 28
2.3.2 Big Data Analytics 28
2.3.2.1 Descriptive Analytics 28
2.3.2.2 Predictive Analytics 28
2.3.2.3 Prescriptive Analytics 29
2.4 Data Analytics Phases 29
2.5 Data Analytical Tools 30
2.5.1 Microsoft Excel 30
2.5.2 Apache Spark 33
2.5.3 Open Refine 34
2.5.4 R Programming 35
2.5.4.1 Advantages of R 36
2.5.4.2 Disadvantages of R 36
2.5.5 Tableau 36
2.5.5.1 How TableauWorks 36
2.5.5.2 Tableau Feature 37
2.5.5.3 Advantages 37
2.5.5.4 Disadvantages 37
2.5.6 Hadoop 37
2.5.6.1 Basic Components of Hadoop 38
2.5.6.2 Benefits 38
2.6 Database Management System for Big Data Analytics 38
2.6.1 Hadoop Distributed File System 38
2.6.2 NoSql 38
2.6.2.1 Categories of NoSql 39
2.7 Challenges in Big Data Analytics 39
2.7.1 Storage of Data 40
2.7.2 Synchronization of Data 40
2.7.3 Security of Data 40
2.7.4 Fewer Professionals 40
2.8 Conclusion 40
References 41
Contents ix

3 Statistical Methods for Intelligent Data Analysis: Introduction


and Various Concepts 43
Shubham Kumaram, Samarth Chugh, and Deepak Kumar Sharma
3.1 Introduction 43
3.2 Probability 43
3.2.1 Definitions 43
3.2.1.1 Random Experiments 43
3.2.1.2 Probability 44
3.2.1.3 Probability Axioms 44
3.2.1.4 Conditional Probability 44
3.2.1.5 Independence 44
3.2.1.6 Random Variable 44
3.2.1.7 Probability Distribution 45
3.2.1.8 Expectation 45
3.2.1.9 Variance and Standard Deviation 45
3.2.2 Bayes’ Rule 45
3.3 Descriptive Statistics 46
3.3.1 Picture Representation 46
3.3.1.1 Frequency Distribution 46
3.3.1.2 Simple Frequency Distribution 46
3.3.1.3 Grouped Frequency Distribution 46
3.3.1.4 Stem and Leaf Display 46
3.3.1.5 Histogram and Bar Chart 47
3.3.2 Measures of Central Tendency 47
3.3.2.1 Mean 47
3.3.2.2 Median 47
3.3.2.3 Mode 47
3.3.3 Measures of Variability 48
3.3.3.1 Range 48
3.3.3.2 Box Plot 48
3.3.3.3 Variance and Standard Deviation 48
3.3.4 Skewness and Kurtosis 48
3.4 Inferential Statistics 49
3.4.1 Frequentist Inference 49
3.4.1.1 Point Estimation 50
3.4.1.2 Interval Estimation 50
3.4.2 Hypothesis Testing 51
3.4.3 Statistical Significance 51
3.5 Statistical Methods 52
3.5.1 Regression 52
3.5.1.1 Linear Model 52
3.5.1.2 Nonlinear Models 52
3.5.1.3 Generalized Linear Models 53
3.5.1.4 Analysis of Variance 53
3.5.1.5 Multivariate Analysis of Variance 55
x Contents

3.5.1.6 Log-Linear Models 55


3.5.1.7 Logistic Regression 56
3.5.1.8 Random Effects Model 56
3.5.1.9 Overdispersion 57
3.5.1.10 Hierarchical Models 57
3.5.2 Analysis of Survival Data 57
3.5.3 Principal Component Analysis 58
3.6 Errors 59
3.6.1 Error in Regression 60
3.6.2 Error in Classification 61
3.7 Conclusion 61
References 61

4 Intelligent Data Analysis with Data Mining: Theory and


Applications 63
Shivam Bachhety, Ramneek Singhal, and Rachna Jain
Objective 63
4.1 Introduction to Data Mining 63
4.1.1 Importance of Intelligent Data Analytics in Business 64
4.1.2 Importance of Intelligent Data Analytics in Health Care 65
4.2 Data and Knowledge 65
4.3 Discovering Knowledge in Data Mining 66
4.3.1 Process Mining 67
4.3.2 Process of Knowledge Discovery 67
4.4 Data Analysis and Data Mining 69
4.5 Data Mining: Issues 69
4.6 Data Mining: Systems and Query Language 71
4.6.1 Data Mining Systems 71
4.6.2 Data Mining Query Language 72
4.7 Data Mining Methods 73
4.7.1 Classification 74
4.7.2 Cluster Analysis 75
4.7.3 Association 75
4.7.4 Decision Tree Induction 76
4.8 Data Exploration 77
4.9 Data Visualization 80
4.10 Probability Concepts for Intelligent Data Analysis (IDA) 83
Reference 83

5 Intelligent Data Analysis: Deep Learning and Visualization 85


Than D. Le and Huy V. Pham
5.1 Introduction 85
5.2 Deep Learning and Visualization 86
5.2.1 Linear and Logistic Regression and Visualization 86
5.2.2 CNN Architecture 89
Contents xi

5.2.2.1 Vanishing Gradient Problem 90


5.2.2.2 Convolutional Neural Networks (CNNs) 91
5.2.3 Reinforcement Learning 91
5.2.4 Inception and ResNet Networks 93
5.2.5 Softmax 94
5.3 Data Processing and Visualization 97
5.3.1 Regularization for Deep Learning and Visualization 98
5.3.1.1 Regularization for Linear Regression 98
5.4 Experiments and Results 102
5.4.1 Mask RCNN Based on Object Detection and Segmentation 102
5.4.2 Deep Matrix Factorization 108
5.4.2.1 Network Visualization 108
5.4.3 Deep Learning and Reinforcement Learning 111
5.5 Conclusion 112
References 113

6 A Systematic Review on the Evolution of Dental Caries Detection


Methods and Its Significance in Data Analysis Perspective 115
Soma Datta, Nabendu Chaki, and Biswajit Modak
6.1 Introduction 115
6.1.1 Analysis of Dental Caries 115
6.2 Different Caries Lesion Detection Methods and Data Characterization 119
6.2.1 Point Detection Method 120
6.2.2 Visible Light Property Method 121
6.2.3 Radiographs 121
6.2.4 Light-Emitting Devices 123
6.2.5 Optical Coherent Tomography (OCT) 125
6.2.6 Software Tools 125
6.3 Technical Challenges with the Existing Methods 126
6.3.1 Challenges in Data Analysis Perspective 127
6.4 Result Analysis 129
6.5 Conclusion 129
Acknowledgment 131
References 131

7 Intelligent Data Analysis Using Hadoop Cluster – Inspired


MapReduce Framework and Association Rule Mining on Educational
Domain 137
Pratiyush Guleria and Manu Sood
7.1 Introduction 137
7.1.1 Research Areas of IDA 138
7.1.2 The Need for IDA in Education 139
7.2 Learning Analytics in Education 139
7.2.1 Role of Web-Enabled and Mobile Computing in Education 141
7.2.2 Benefits of Learning Analytics 142
xii Contents

7.2.3 Future Research Directions of IDA 142


7.3 Motivation 142
7.4 Literature Review 143
7.4.1 Association Rule Mining and Big Data 143
7.5 Intelligent Data Analytical Tools 145
7.6 Intelligent Data Analytics Using MapReduce Framework in an Educational
Domain 149
7.6.1 Data Description 149
7.6.2 Objective 150
7.6.3 Proposed Methodology 150
7.6.3.1 Stage 1 Map Reduce Algorithm 150
7.6.3.2 Stage 2 Apriori Algorithm 150
7.7 Results 151
7.8 Conclusion and Future Scope 153
References 153

8 Influence of Green Space on Global Air Quality Monitoring: Data


Analysis Using K-Means Clustering Algorithm 157
Gihan S. Pathirana and Malka N. Halgamuge
8.1 Introduction 157
8.2 Material and Methods 159
8.2.1 Data Collection 159
8.2.2 Data Inclusion Criteria 159
8.2.3 Data Preprocessing 159
8.2.4 Data Analysis 161
8.3 Results 161
8.4 Quantitative Analysis 163
8.4.1 K-Means Clustering 163
8.4.2 Level of Difference of Green Area 167
8.5 Discussion 167
8.6 Conclusion 169
References 170

9 IDA with Space Technology and Geographic Information System 173


Bright Keswani, Tarini Ch. Mishra, Ambarish G. Mohapatra, Poonam Keswani,
Priyatosh Sahu, and Anish Kumar Sarangi
9.1 Introduction 173
9.1.1 Real-Time in Space 176
9.1.2 Generating Programming Triggers 178
9.1.3 Analytical Architecture 178
9.1.4 Remote Sensing Big Data Acquisition Unit (RSDU) 180
9.1.5 Data Processing Unit 180
9.1.6 Data Analysis and Decision Unit 181
9.1.7 Analysis 181
9.1.8 Incorporating Machine Learning and Artificial Intelligence 181
Contents xiii

9.1.8.1 Methodologies Applicable 182


9.1.8.2 Support Vector Machines (SVM) and Cross-Validation 182
9.1.8.3 Massively Parallel Computing and I/O 183
9.1.8.4 Data Architecture and Governance 183
9.1.9 Real-Time Spacecraft Detection 185
9.1.9.1 Active Phased Array 186
9.1.9.2 Relay Communication 186
9.1.9.3 Low-Latency Random Access 186
9.1.9.4 Channel Modeling and Prediction 186
9.2 Geospatial Techniques 187
9.2.1 The Big-GIS 187
9.2.2 Technologies Applied 187
9.2.2.1 Internet of Things and Sensor Web 188
9.2.2.2 Cloud Computing 188
9.2.2.3 Stream Processing 188
9.2.2.4 Big Data Analytics 188
9.2.2.5 Coordinated Observation 188
9.2.2.6 Big Geospatial Data Management 189
9.2.2.7 Parallel Geocomputation Framework 189
9.2.3 Data Collection Using GIS 189
9.2.3.1 NoSQL Databases 190
9.2.3.2 Parallel Processing 190
9.2.3.3 Knowledge Discovery and Intelligent Service 190
9.2.3.4 Data Analysis 191
9.3 Comparative Analysis 192
9.4 Conclusion 192
References 194

10 Application of Intelligent Data Analysis in Intelligent Transportation


System Using IoT 199
Rakesh Roshan and Om Prakash Rishi
10.1 Introduction to Intelligent Transportation System (ITS) 199
10.1.1 Working of Intelligent Transportation System 201
10.1.2 Services of Intelligent Transportation System 201
10.1.3 Advantages of Intelligent Transportation System 203
10.2 Issues and Challenges of Intelligent Transportation System (ITS) 204
10.2.1 Communication Technology Used Currently in ITS 205
10.2.2 Challenges in the Implementation of ITS 206
10.2.3 Opportunity for Popularity of Automated/Autonomous/Self-Driving
Car or Vehicle 207
10.3 Intelligent Data Analysis Makes an IoT-Based Transportation
System Intelligent 208
10.3.1 Introduction to Intelligent Data Analysis 208
10.3.2 How IDA Makes IoT-Based Transportation Systems Intelligent 210
10.3.2.1 Traffic Management Through IoT and Intelligent Data Analysis 210
xiv Contents

10.3.2.2 Tracking of Multiple Vehicles 211


10.4 Intelligent Data Analysis for Security in Intelligent Transportation System 212
10.5 Tools to Support IDA in an Intelligent Transportation System 215
References 217

11 Applying Big Data Analytics on Motor Vehicle Collision Predictions


in New York City 219
Dhanushka Abeyratne and Malka N. Halgamuge
11.1 Introduction 219
11.1.1 Overview of Big Data Analytics on Motor Vehicle Collision Predictions 219
11.2 Materials and Methods 220
11.2.1 Collection of Raw Data 220
11.2.2 Data Inclusion Criteria 220
11.2.3 Data Preprocessing 220
11.2.4 Data Analysis 221
11.3 Classification Algorithms and K-Fold Validation Using Data Set Obtained from
NYPD (2012–2017) 223
11.3.1 Classification Algorithms 223
11.3.1.1 k-Fold Cross-Validation 223
11.3.2 Statistical Analysis 225
11.4 Results 225
11.4.1 Measured Processing Time and Accuracy of Each Classifier 225
11.4.2 Measured p-Value in each Vehicle Group Using K-Means Clustering/One-Way
ANOVA 227
11.4.3 Identified High Collision Concentration Locations of Each Vehicle Group 229
11.4.4 Measured Different Criteria for Further Analysis of NYPD Data Set
(2012–2017) 229
11.5 Discussion 233
11.6 Conclusion 237
References 238

12 A Smart and Promising Neurological Disorder Diagnostic System:


An Amalgamation of Big Data, IoT, and Emerging Computing
Techniques 241
Prableen Kaur and Manik Sharma
12.1 Introduction 241
12.1.1 Difference Between Neurological and Psychological Disorders 241
12.2 Statistics of Neurological Disorders 243
12.3 Emerging Computing Techniques 244
12.3.1 Internet of Things 244
12.3.2 Big Data 245
12.3.3 Soft Computing Techniques 245
12.4 Related Works and Publication Trends of Articles 249
12.5 The Need for Neurological Disorders Diagnostic System 251
12.5.1 Design of Smart and Intelligent Neurological Disorders Diagnostic System 251
Contents xv

12.6 Conclusion 259


References 260

13 Comments-Based Analysis of a Bug Report Collection System


and Its Applications 265
Arvinder Kaur and Shubhra Goyal
13.1 Introduction 265
13.2 Background 267
13.2.1 Issue Tracking System 267
13.2.2 Bug Report Statistics 267
13.3 Related Work 268
13.3.1 Data Extraction Process 268
13.3.2 Applications of Bug Report Comments 270
13.3.2.1 Bug Summarization 270
13.3.2.2 Emotion Mining 271
13.4 Data Collection Process 272
13.4.1 Steps of Data Extraction 273
13.4.2 Block Diagram for Data Extraction 274
13.4.3 Reports Generated 274
13.4.3.1 Bug Attribute Report 274
13.4.3.2 Long Description Report 275
13.4.3.3 Bug Comments Reports 275
13.4.3.4 Error Report 275
13.5 Analysis of Bug Reports 275
13.5.1 Research Question 1: Is the Performance of Software Affected by Open Bugs
that are Critical in Nature? 275
13.5.2 Research Question 2: How Can Test Leads Improve the Performance of Software
Systems? 277
13.5.3 Research Question 3: Which Are the Most Error-Prone Areas that Can Cause
System Failure? 277
13.5.4 Research Question 4: Which Are the Most Frequent Words and Keywords to
Predict Most Critical Bugs? 279
13.5.5 Research Questions 5: What Is the Importance of Frequent Words Mined from
Bug Reports? 281
13.6 Threats to Validity 284
13.7 Conclusion 284
References 286

14 Sarcasm Detection Algorithms Based on Sentiment Strength 289


Pragya Katyayan and Nisheeth Joshi
14.1 Introduction 289
14.2 Literature Survey 291
14.3 Experiment 294
14.3.1 Data Collection 294
14.3.2 Finding SentiStrengths 294
xvi Contents

14.3.3 Proposed Algorithm 295


14.3.4 Explanation of the Algorithms 297
14.3.5 Classification 300
14.3.5.1 Explanation 300
14.3.6 Evaluation 302
14.4 Results and Evaluation 303
14.5 Conclusion 305
References 305

15 SNAP: Social Network Analysis Using Predictive Modeling 307


Samridhi Seth and Rahul Johari
15.1 Introduction 307
15.1.1 Types of Predictive Analytics Models 307
15.1.2 Predictive Analytics Techniques 308
15.1.2.1 Regression Techniques 308
15.1.2.2 Machine Learning Techniques 308
15.2 Literature Survey 309
15.3 Comparative Study 313
15.4 Simulation and Analysis 313
15.4.1 Few Analyses Made on the Data Set Are Given Below 314
15.4.1.1 Duration of Each Contact Was Found 314
15.4.1.2 Total Number of Contacts of Source Node with Destination Node Was Found for
all Nodes 314
15.4.1.3 Total Duration of Contact of Source Node with Each Node Was Found 315
15.4.1.4 Mobility Pattern Describes Direction of Contact and Relation Between Number
of Contacts and Duration of Contact 315
15.4.1.5 Unidirectional Contact, that is, Only 1 Node is Contacting Second Node but
Vice Versa Is Not There 317
15.4.1.6 Graphical Representation for the Duration of Contacts with Each Node is Given
below 317
15.4.1.7 Rank and Percentile for Number of Contacts with Each Node 320
15.4.1.8 Data Set Is Described for Three Days Where Time Is Calculated in Seconds.
Data Set can be Divided Into Three Days. Some of the Analyses Conducted on
the Data set Day Wise Are Given Below 326
15.5 Conclusion and Future Work 329
References 329

16 Intelligent Data Analysis for Medical Applications 333


Moolchand Sharma, Vikas Chaudhary, Prerna Sharma, and R. S. Bhatia
16.1 Introduction 333
16.1.1 IDA (Intelligent Data Analysis) 335
16.1.1.1 Elicitation of Background Knowledge 337
16.1.2 Medical Applications 337
16.2 IDA Needs in Medical Applications 338
16.2.1 Public Health 339
Contents xvii

16.2.2 Electronic Health Record 339


16.2.3 Patient Profile Analytics 339
16.2.3.1 Patient’s Profile 339
16.3 IDA Methods Classifications 339
16.3.1 Data Abstraction 339
16.3.2 Data Mining Method 340
16.3.3 Temporal Data Mining 341
16.4 Intelligent Decision Support System in Medical Applications 341
16.4.1 Need for Intelligent Decision System (IDS) 342
16.4.2 Understanding Intelligent Decision Support: Some Definitions 342
16.4.3 Advantages/Disadvantages of IDS 344
16.5 Conclusion 345
References 345

17 Bruxism Detection Using Single-Channel C4-A1 on Human Sleep S2


Stage Recording 347
Md Belal Bin Heyat, Dakun Lai, Faijan Akhtar, Mohd Ammar Bin Hayat, Shafan
Azad, Shadab Azad, and Shajan Azad
17.1 Introduction 347
17.1.1 Side Effect of Poor Snooze 348
17.2 History of Sleep Disorder 349
17.2.1 Classification of Sleep Disorder 349
17.2.2 Sleep Stages of the Human 351
17.3 Electroencephalogram Signal 351
17.3.1 Electroencephalogram Generation 351
17.3.1.1 Classification of Electroencephalogram Signal 352
17.4 EEG Data Measurement Technique 352
17.4.1 10–20 Electrode Positioning System 352
17.4.1.1 Procedure of Electrode placement 353
17.5 Literature Review 354
17.6 Subjects and Methodology 354
17.6.1 Data Collection 354
17.6.2 Low Pass Filter 355
17.6.3 Hanning Window 355
17.6.4 Welch Method 356
17.7 Data Analysis of the Bruxism and Normal Data Using EEG Signal 356
17.8 Result 358
17.9 Conclusions 361
Acknowledgments 363
References 364

18 Handwriting Analysis for Early Detection of Alzheimer’s Disease 369


Rajib Saha, Anirban Mukherjee, Aniruddha Sadhukhan, Anisha Roy, and Manashi De
18.1 Introduction and Background 369
18.2 Proposed Work and Methodology 376
xviii Contents

18.3 Results and Discussions 379


18.3.1 Character Segmentation 380
18.4 Conclusion 384
References 385

Index 387
xix

List of Contributors

Ambarish G. Mohapatra R.S. Bhatia


Silicon Institute of Technology National Institute of Technology
Bhubaneswar Kurukshetra
India India

Anirban Mukherjee Bright Keswani


RCC Institute of Information Technology Suresh Gyan Vihar University
West Bengal Jaipur
India India

Aniruddha Sadhukhan
Dakun Lai
RCC Institute of Information Technology
University of Electronic Science and
West Bengal
Technology of China
India
Chengdu
China
Anisha Roy
RCC Institute of Information Technology
Deepak Kumar Sharma
West Bengal
Netaji Subhas University of Technology
India
New Delhi
India
Arvinder Kaur
Guru Gobind Singh Indraprastha
Dhanushka Abeyratne
University
Yellowfin (HQ)
India
The University of Melbourne
Ayush Ahuja Australia
Jaypee Institute of Information Technology
Noida Faijan Akhtar
India Jamia Hamdard
New Delhi
Biswajit Modak India
Nabadwip State General Hospital
Nabadwip
India
xx List of Contributors

Gihan S. Pathirana Moolchand Sharma


Charles Sturt University Maharaja Agrasen Institute of Technology
Melbourne (MAIT)
Australia Delhi
India
Huy V. Pham
Ton Duc Thang University Nabendu Chaki
Vietnam University of Calcutta
Kolkata
Malka N. Halgamuge India
The University of Melbourne
Nisheeth Joshi
Australia
Banasthali Vidyapith
Rajasthan
Manashi De
India
Techno India
West Bengal Om Prakash Rishi
India University of Kota
India
Manik Sharma
DAV University Poonam Keswani
Jalandhar Akashdeep PG College
India Jaipur
India
Manu Agarwal
Jaypee Institute of Information Technology Prableen Kaur
Noida DAV University
India Jalandhar
India
Manu Sood
Pragya Katyayan
University Shimla
Banasthali Vidyapith
India
Rajasthan
India
Md Belal Bin Heyat
University of Electronic Science and Pratiyush Guleria
Technology of China University Shimla
Chengdu India
China
Prerna Sharma
Mohd Ammar Bin Hayat Maharaja Agrasen Institute of Technology
Medical University (MAIT)
India Delhi
India
List of Contributors xxi

Rachna Jain Sarthak Gupta


Bharati Vidyapeeth’s College of Netaji Subhas University of Technology
Engineering New Delhi
New Delhi India
India
Shadab Azad
Rahul Johari Chaudhary Charan Singh University
GGSIP University Meerut
New Delhi India
India
Shafan Azad
Rajib Saha Dr. A.P.J. Abdul Kalam Technical
RCC Institute of Information Technology University
West Bengal Uttar Pradesh
India India

Rakesh Roshan Shajan Azad


Institute of Management Studies Hayat Institute of Nursing
Ghaziabad Lucknow
India India

Ramneek Singhal Shikhar Asthana


Bharati Vidyapeeth’s College of Jaypee Institute of Information Technology
Engineering Noida
New Delhi India
India
Shivam Bachhety
Ravinder Ahuja Bharati Vidyapeeth’s College of
Jaypee Institute of Information Technology Engineering
Noida New Delhi
India India

Samarth Chugh Shubham Kumaram


Netaji Subhas University of Technology Netaji Subhas University of Technology
New Delhi New Delhi
India India

Samridhi Seth Shubhra Goyal


GGSIP University Guru Gobind Singh Indraprastha
New Delhi University
India India
xxii List of Contributors

Siddhant Bagga Than D. Le


Netaji Subhas University of Technology University of Bordeaux
New Delhi France
India
Vikas Chaudhary
Soma Datta KIET
University of Calcutta Ghaziabad
Kolkata India
India

Tarini Ch. Mishra


Silicon Institute of Technology
Bhubaneswar
India
xxiii

Series Preface

Dr. Siddhartha Bhattacharyya, CHRIST (Deemed to be


University), Bengaluru, India (Series Editor)

The Intelligent Signal and Data Processing (ISDP) book series is aimed at fostering
the field of signal and data processing, which encompasses the theory and practice of
algorithms and hardware that convert signals produced by artificial or natural means into
a form useful for a specific purpose. The signals might be speech, audio, images, video,
sensor data, telemetry, electrocardiograms, or seismic data, among others. The possible
application areas include transmission, display, storage, interpretation, classification,
segmentation, or diagnosis. The primary objective of the ISDP book series is to evolve
future-generation scalable intelligent systems for faithful analysis of signals and data.
ISDP is mainly intended to enrich the scholarly discourse on intelligent signal and image
processing in different incarnations. ISDP will benefit a wide range of learners, including
students, researchers, and practitioners. The student community can use the volumes in
the series as reference texts to advance their knowledge base. In addition, the monographs
will also come in handy to the aspiring researcher because of the valuable contributions
both have made in this field. Moreover, both faculty members and data practitioners are
likely to grasp depth of the relevant knowledge base from these volumes.
The series coverage will contain, not exclusively, the following:

1. Intelligent signal processing


a) Adaptive filtering
b) Learning algorithms for neural networks
c) Hybrid soft-computing techniques
d) Spectrum estimation and modeling
2. Image processing
a) Image thresholding
b) Image restoration
c) Image compression
d) Image segmentation
e) Image quality evaluation
f) Computer vision and medical imaging
g) Image mining
xxiv Series Preface

h) Pattern recognition
i) Remote sensing imagery
j) Underwater image analysis
k) Gesture analysis
l) Human mind analysis
m) Multidimensional image analysis
3. Speech processing
a) Modeling
b) Compression
c) Speech recognition and analysis
4. Video processing
a) Video compression
b) Analysis and processing
c) 3D video compression
d) Target tracking
e) Video surveillance
f) Automated and distributed crowd analytics
g) Stereo-to-auto stereoscopic 3D video conversion
h) Virtual and augmented reality
5. Data analysis
a) Intelligent data acquisition
b) Data mining
c) Exploratory data analysis
d) Modeling and algorithms
e) Big data analytics
f) Business intelligence
g) Smart cities and smart buildings
h) Multiway data analysis
i) Predictive analytics
j) Intelligent systems
xxv

Preface

Intelligent data analysis (IDA), knowledge discovery, and decision support have recently
become more challenging research fields and have gained much attention among a large
number of researchers and practitioners. In our view, the awareness of these challenging
research fields and emerging technologies among the research community will increase
the applications in biomedical science. This book aims to present the various approaches,
techniques, and methods that are available for IDA, and to present case studies of their
application.
This volume comprises 18 chapters focusing on the latest advances in IDA tools and tech-
niques.
Machine learning models are broadly categorized into two types: white box and black box.
Due to the difficulty in interpreting their inner workings, some machine learning models
are considered black box models. Chapter 1 focuses on the different machine learning mod-
els, along with their advantages and limitations as far as the analysis of data is concerned.
With the advancement of technology, the amount of data generated is very large. The
data generated has useful information that needs to be gathered by data analytics tools in
order to make better decisions. In Chapter 2, the definition of data and its classifications
based on different factors is given. The reader will learn about how and what data is and
about the breakup of the data. After a description of what data is, the chapter will focus on
defining and explaining big data and the various challenges faced by dealing with big data.
The authors also describe various types of analytics that can be performed on large data
and six data analytics tools (Microsoft Excel, Apache Spark, OpenRefine, R, Hadoop, and
Tableau).
In recent years, the widespread use of computers and the internet has led to the genera-
tion of data on an unprecedented scale. To make an effective use of this data, it is necessary
that data must be collected and analyzed so that inferences can be made to improve vari-
ous products and services. Statistics deals with the collection, organization, and analysis of
data. The organization and description of data is studied under these statistics in Chapter
3 while analysis of data and how to make predictions based on it is dealt with in inferential
statistics.
After having an idea about various aspects of IDA in the previous chapters, Chapter 4
deals with an overview of data mining. It also discusses the process of knowledge discovery
in data along with a detailed analysis of various mining methods including classification,
xxvi Preface

clustering, and decision tree. In addition to that, the chapter concludes with a view of data
visualization and probability concepts for IDA.
In Chapter 5, the authors demonstrate one of the most crucial and challenge areas in
computer vision and the IDA field based on manipulating the convergence. This subject is
divided into a deep learning paradigm for object segmentation in computer vision and visu-
alization paradigm for efficiently incremental interpretation in manipulating the datasets
for supervised and unsupervised learning, and online or offline training in reinforcement
learning. This topic recently has had a large impact in robotics and autonomous systems,
food detection, recommendation systems, and medical applications.
Dental caries is a painful bacterial disease of teeth caused mainly by Streptococcus
mutants, acid, and carbohydrates, and it destroys the enamel, or the dentine, layer of
the tooth. As per the World Health Organization report, worldwide, 60–90% of school
children and almost 100% of adults have dental caries. Dental caries and periodontal
disease without treatment for long periods causes tooth loss. There is not a single method
to detect caries in its earliest stages. The size of carious lesions and early caries detection
are very challenging tasks for dental practitioners. The methods related to dental caries
detection are the radiograph, QLF or or quantitative light-induced fluorescence, ECM,
FOTI, DIFOTI, etc. In a radiograph-based technique, dentists analyze the image data.
In Chapter 6, the authors present a method to detect caries by analyzing the secondary
emission data.
With the growth of data in the education field in recent years, there is a need for intelligent
data analytics, in order that academic data should be used effectively to improve learning.
Educational data mining and learning analytics are the fields of IDA that play important
roles in intelligent analysis of educational data. One of the real challenges faced by students
and institutions alike is the quality of education. An equally important factor related to
the quality of education is the performance of students in the higher education system.
The decisions that the students make while selecting their area of specialization is of grave
concern here. In the absence of support systems, the students and the teachers/mentors
fall short when making the right decisions for the furthering of their chosen career paths.
Therefore, in Chapter 7, the authors attempt to address the issue by proposing a system that
can guide the student to choose and to focus on the right course(s) based on their personal
preferences. For this purpose, a system has been envisaged by blending data mining and
classification with big data. A methodology using MapReduce Framework and association
rule mining is proposed in order to derive the right blend of courses for students to pursue
to enhance their career prospects.
Atmospheric air pollution is creating significant health problems that affect millions of
people around the world. Chapter 8 analyzes the hypothesis about whether or not global
green space variation is changing the global air quality. The authors perform a big data
analysis with a data set that contains more than 1M (1 048 000) green space data and air
quality data points by considering 190 countries during the years 1990 to 2015. Air quality
is measured by considering particular matter (PM) value. The analysis is carried out using
multivariate graphs and a k-mean clustering algorithm. The relative geographical changes
of the tree areas, as well as the level of the air quality, were identified and the results indi-
cated encouraging news.
Preface xxvii

Space technology and geotechnology, such as geographic information systems, plays a


vital role in the day-to-day activities of a society. In the initial days, the data collection
was very rudimentary and primitive. The quality of the data collected was a subject of
verification and the accuracy of the data was also questionable. With the advent of newer
technology, the problems have been overcome. Using modern sophisticated systems, space
science has been changed drastically. Implementing cutting-edge spaceborne sensors has
made it possible to capture real-time data from space. Chapter 9 focuses on these aspects in
detail.
Transportation plays an important role in our overall economy, conveying products and
people through progressively mind-boggling, interconnected, and multidimensional trans-
portation frameworks. But, the complexities of present-day transportation can’t be managed
by previous systems. The utilization of IDA frameworks and strategies, with compelling
information gathering and data dispersion frameworks, gives openings that are required
to building the future intelligent transportation systems (ITSs). In Chapter 10, the authors
exhibit the application of IDA in IoT-based ITS.
Chapter 11 aims to observe emerging patterns and trends by using big data analysis to
enhance predictions of motor vehicle collisions using a data set consisting of 17 attributes
and 998 193 collisions in New York City. The data is extracted from the New York City Police
Department (NYPD). The data set has then been tested in three classification algorithms,
which are k-nearest neighbor, random forest, and naive Bayes. The outputs are captured
using k-fold cross-validation method. These outputs are used to identify and compare clas-
sifier accuracy, and random forest node accuracy and processing time. Further, an analysis
of raw data is performed describing the four different vehicle groups in order to detect signif-
icance within the recorded period. Finally, extreme cases of collision severity are identified
using outlier analysis. The analysis demonstrates that out of three classifiers, random forest
gives the best results.
Neurological disorders are the diseases that are related to the brain, nervous system,
and the spinal cord of the human body. These disorders may affect the walking, speaking,
learning, and moving capacity of human beings. Some of the major human neurologi-
cal disorders are stroke, brain tumors, epilepsy, meningitis, Alzheimer’s, etc. Additionally,
remarkable growth has been observed in the areas of disease diagnosis and health infor-
matics. The critical human disorders related to lung, kidney, skin, and brain have been
successfully diagnosed using different data mining and machine learning techniques. In
Chapter 12, several neurological and psychological disorders are discussed. The role of dif-
ferent computing techniques in designing different biomedical applications are presented.
In addition, the challenges and promising areas of innovation in designing a smart and
intelligent neurological disorder diagnostic system using big data, internet of things, and
emerging computing techniques are also highlighted.
Bug reports are one of the crucial software artifacts in open-source software. Issue
tracking systems maintain enormous bug reports with several attributes, such as long
description of bugs, threaded discussion comments, and bug meta-data, which includes
BugID, priority, status, resolution, time, and others. In Chapter 13, bug reports of 20
open-source projects of the Apache Software Foundation are extracted using a tool named
the Bug Report Collection System for trend analysis. As per the quantitative analysis of
data, about 20% of open bugs are critical in nature, which directly impacts the functioning
xxviii Preface

of the system. The presence of a large number of bugs of this kind can put systems into
vulnerability positions and reduces the risk aversion capability. Thus, it is essential to
resolve these issues on a high priority. The test lead can assign these issues to the most con-
tributing developers of a project for quick closure of opened critical bugs. The comments
are mined, which help us identify the developers resolving the majority of bugs, which is
beneficial for test leads of distinct projects. As per the collated data, the areas more prone
to system failures are determined such as input/output type error and logical code error.
Sentiments are the standard way by which people express their feelings. Sentiments are
broadly classified as positive and negative. The problem occurs when the user expresses
with words that are different than the actual feelings. This phenomenon is generally known
to us as sarcasm, where people say something opposite the actual sentiments. Sarcasm
detection is of great importance for the correct analysis of sentiments. Chapter 14 attempts
to give an algorithm for successful detection of hyperbolic sarcasm and general sarcasm in
a data set of sarcastic posts that are collected from pages dedicated for sarcasm on social
media sites such as Facebook, Pinterest, and Instagram. This chapter also shows the initial
results of the algorithm and its evaluation.
Predictive analytics refers to forecasting the future probabilities by extracting information
from existing data sets and determining patterns from predicted outcomes. Predictive ana-
lytics also includes what-if scenarios and risk assessment. In Chapter 15, an effort has been
made to use principles of predictive modeling to analyze the authentic social network data
set, and results have been encouraging. The post-analysis of the results have been focused on
exhibiting contact details, mobility pattern, and a number of degree of connections/minutes
leading to identification of the linkage/bonding between the nodes in the social network.
Modern medicine has been confronted by a major challenge of achieving promise and
capacity of tremendous expansion in medical data sets of all kinds. Medical databases
develop huge bulk of knowledge and data, which mandates a specialized tool to store
and perform analysis of data and as a result, effectively use saved knowledge and data.
Information is extracted from data by using a domain’s background knowledge in the
process of IDA. Various matters dealt with regard use, definition, and impact of these
processes and they are tested for their optimization in application domains of medicine.
The primary focus of Chapter 16 is on the methods and tools of IDA, with an aim to
minimize the growing differences between data comprehension and data gathering.
Snoozing, or sleeping, is a physical phenomenon of the human life. When human snooze
is disturbed, it generates many problems, such as mental disease, heart disease, etc. Total
snooze is characterized by two stages, viz., rapid eye movement and nonrapid eye move-
ment. Bruxism is a type of snooze disorder. The traditional method of the prognosis takes
time and the result is in analog form. Chapter 17 proposes a method for easy prognosis of
snooze bruxism.
Neurodegenerative diseases like Alzheimer’s and Parkinson’s impair the cognitive and
motor abilities of the patient, along with memory loss and confusion. As handwriting
involves proper functioning of the brain and motor control, it is affected. Alteration in
handwriting is one of the first signs of Alzheimer’s disease. The handwriting gets shaky,
due to loss of muscle control, confusion, and forgetfulness. The symptoms get progres-
sively worse. It gets illegible and the phonological spelling mistakes become inevitable. In
Chapter 18, the authors use a feature extraction technique to be used as a parameter for
Preface xxix

diagnosis. A variational auto encoder (VAE), a deep unsupervised learning technique, has
been applied, which is used to compress the input data and then reconstruct it keeping the
targeted output the same as the targeted input.
This edited volume on IDA gathers researchers, scientists, and practitioners interested
in computational data analysis methods, aimed at narrowing the gap between extensive
amounts of data stored in medical databases and the interpretation, understandable, and
effective use of the stored data. The expected readers of this book are researchers, scien-
tists, and practitioners interested in IDA, knowledge discovery, and decision support in
databases, particularly those who are interested in using these technologies. This publica-
tion provides useful references for educational institutions, industry, academic researchers,
professionals, developers, and practitioners to apply, evaluate, and reproduce the contribu-
tions to this book.

May 07, 2019


New Delhi, India Deepak Gupta
Bengaluru, India Siddhartha Bhattacharyya
New Delhi, India Ashish Khanna
Uttar Pradesh, India Kalpna Sagar
1

Intelligent Data Analysis: Black Box Versus White Box Modeling


Sarthak Gupta, Siddhant Bagga, and Deepak Kumar Sharma
Division of Information Technology, Netaji Subhas University of Technology, New Delhi, India,

1.1 Introduction

In the midst of all of the societal challenges of today’s world, digital transformation is rapidly
becoming a necessity. The number of internet users is growing at an unprecedented rate.
New devices, sensors, and technologies are emerging every day. These factors have led
to an exponential increase in the volume of data being generated. According to a recent
research [1], users of the internet generate 2.5 quintillion bytes of data per day.

1.1.1 Intelligent Data Analysis


Data is only as good as what you make of it. The sheer amount of data being generated calls
for methods to leverage its power. With the proper tools and methodologies, data analysis
can improve decision making, lower the risks, and unearth hidden insights. Intelligent data
analysis (IDA) is concerned with effective analysis of data [2, 3].
The process of IDA consists of three main steps (see Figure 1.1):

1. Data collection and preparation: This step involves acquiring data, and converting it into
a format suitable for further analysis. This may involve storing the data as a table, taking
care of empty or null values, etc.
2. Exploration: Before a thorough analysis can be performed on the data, certain character-
istics are examined like number of data points, included variables, statistical features, etc.
Data exploration allows analysts to get familiar with the dataset, and create prospective
hypotheses. Visualization is extensively used in this step. Various visualization tech-
niques will be discussed in depth later in this chapter.
3. Analysis: Various machine learning and deep learning algorithms are applied at this step.
Data analysts build models that try to find the best possible fit to the data points. These
models can be classified as white box or black box models.

A more comprehensive introduction to data analysis can be found in prior pieces of


literature [4–6].
Intelligent Data Analysis: From Data Gathering to Data Comprehension,
First Edition. Edited by Deepak Gupta, Siddhartha Bhattacharyya, Ashish Khanna, and Kalpna Sagar.
© 2020 John Wiley & Sons Ltd. Published 2020 by John Wiley & Sons Ltd.
2 1 Intelligent Data Analysis: Black Box Versus White Box Modeling

Data collection
Exploration Analysis
and preparation

Figure 1.1 Data analysis process.

1.1.2 Applications of IDA and Machine Learning


IDA and machine learning can be applied to a multitude of products and services, since
these models have the ability to make fast, data-driven decisions at scale. We’re surrounded
by live examples of machine learning in things we use in day-to-day life.
A primary example is web page ranking [7, 8]. Whenever we search for anything on a
search engine, the results that we get are presented to us in the order of relevance. To achieve
this, the search engine needs to “know” which pages are more relevant than others.
A related application is collaborative filtering [9, 10]. Collaborative filtering filters
information based on recommendations of other people. It is based on the premise that
people who agreed in their evaluation of certain items in the past are likely to agree again
in the future.
Another application is automatic translation of documents from one language to another.
Manually doing this is an extremely arduous task and would take a significant amount
of time.
IDA and machine learning models are also being used for many other tasks [11, 12]
like object classification, named entity recognition, object localization, stock prices
prediction, etc.

1.1.3 White Box Models Versus Black Box Models


IDA aims to analyze the data to create predictive models. Suppose that we’re given a dataset
D(X,T), where X represents inputs and T represents target values (i.e., known correct values
with respect to the input). The goal is to learn a function (or map) from inputs (X) to out-
puts (T). This is done by employing supervised machine learning algorithms [13]. A model
refers to the artifact that is created by the training (or learning) process. Models are broadly
categorized into two types:

1. White box models: The models whose predictions are easily explainable are called white
box models. These models are extremely simple, and hence, not very effective. The accu-
racy of white box models is usually quite low. For example – simple decision trees, linear
regression, logistic regression, etc.
2. Black box models: The models whose predictions are difficult to interpret or explain are
called black box models. They are difficult to interpret because of their complexity. Since
they are complex models, their accuracy is usually high. For example – large decision
trees, random forests, neural networks, etc.

So, IDA and machine learning models suffer from accuracy-explainability trade-off.
However, with advances in IDA, the explainability gap in black box models is reducing.
1.2 Interpretation of White Box Models 3

1.1.4 Model Interpretability


If black box models have better accuracy, why not use them all the time? The problem is
that a single metric, such as classification accuracy, is an incomplete description of most
real-world tasks [14, 15]. Sometimes in low-risk environments, where decisions don’t have
severe consequences, it might be sufficient to just know that the model performed well on
some test dataset without the need for an explanation. However, machine learning models
are being extensively used in high-risk environments like health care, finance, data security,
etc. where the impact of decisions is huge. Therefore, it’s extremely important to bridge the
explainability gap in black box models, so that they can be used with confidence in place of
white box models to provide better accuracy.
Interpretability models may be local or global. Global methods try to explain the model
itself, thereby explaining all possible outcomes. On the other hand, local models try to
explain why a particular decision was made.
As artificial intelligence (AI)-assisted decision making is becoming commonplace, the
ability to generate simple explanations for black box systems is going to be extremely
important, and is already an area of active research.

1.2 Interpretation of White Box Models

White box models are extremely easy to interpret, since interpretability is inherent in their
nature. Let’s talk a few white box models and how to interpret them.

1.2.1 Linear Regression


Linear regression [16, 17] attempts to model the relationship between input variables and
output by fitting a linear equation to the observed data (see Figure 1.2). A linear regression
equation is of the form:
y = w0 + w1 x1 + w2 x2 + · · · + wp xp (1.1)
where,
y is the output variable,
x1, x2,…, xp are “p” input variables,
w1, w2,…, wp are the weights associated with input variables, and
w0 makes sure that the regression line works even if the data is not centered around
origin (along the output dimension).
The weights are calculated using techniques like ordinary least squares and gradient
descent. The details of these techniques are beyond the scope of this chapter; we will focus
more on the interpretability of these models.
The interpretation of the weights of a linear model is quite obvious. An increase by one
unit in the feature xj results in a corresponding increase by wj in the output.
Another metric for interpreting linear models is R2 measurement [18]. R2 value tells us
about how much variance of target outcomes is explained by the model. R2 value ranges
4 1 Intelligent Data Analysis: Black Box Versus White Box Modeling

Predicted value yi

Residual ei

Target value ti

Figure 1.2 Linear regression.

from 0 to 1. Higher the R2 value, better the model explains the data. R2 is calculated as:

R2 = 1 − SSr ∕SSt (1.2)

where

SSr is the squared sum of residuals, and


SSt is the total sum of squares (proportional to variance of the data)

Residual ei is defined as:

ei = yi − ti (1.3)

where

yi is the model’s predicted output, and


ti is the target value in the dataset.

Hence, SSr is calculated as:



n

n
SSr = (yi − ti )2 = e2i (1.4)
i=1 i=1

And SSt is calculated as:


n ( )2

SSt = ti − t (1.5)
i=1

where t is the mean of all target values.


1.2 Interpretation of White Box Models 5

But, there is a problem with R2 value. It increases with number of features, even if they
carry no information about the target values. Hence, adjusted R2 value (R2 ) is used, which
takes into account the number of input features:
n−1
R2 = 1 − (1 − R2 ) (1.6)
n−p−1
Where

R2 is the adjusted R2 value,


n is the number of data points, and
p is the number of input features (or input variables)

1.2.2 Decision Tree


Decision trees [19] are classifiers – they classify a given data point by posing a series of
questions about the features associated with the data item (see Figure 1.3).
Unlike linear regression, decision trees are able to model nonlinear data. In a decision
tree, nodes represent features, each edge or link represents a decision, and leaf nodes rep-
resent outcomes.
The general algorithm for decision trees is given below:

1. Pick the best attribute/feature. Best feature is that which separates the data in the best
possible way. The optimal split would be when all data points belonging to different
classes are in separate subsets after the split.
2. For each value of the attribute, create a new child node of the current node.
3. Divide data into the new child nodes.
4. For each new child node:
a. If all the data points in that node belong to the same class, then stop.
b. Else, go to step 1 and repeat the process with current node as decision node.

Condition for
feature 1

yes no

CLASS 1 Condition for


feature 2

yes no

CLASS 2 CLASS 3

Figure 1.3 Decision tree.


6 1 Intelligent Data Analysis: Black Box Versus White Box Modeling

High Information Gain Low Information Gain

Figure 1.4 Distribution of points in case of high and low information gain.

Many algorithms like ID3 [20] and CART [21] can be used to find the best feature.
In ID3, information gain is calculated for each attribute, and the attribute with highest
information gain is chosen as best attribute (see Figure 1.4).
For calculating information gain, we first calculate entropy (H) for each feature (F) over
the set of data points in that node (S):

HF (S) = − pv × log(pv ) (1.7)
v∈values(F)

where values(F) denotes the values that feature F can take.


Note that the entropy is 0 if all data points in S lie in the same class. Information gain (G)
is then calculated as:
Information Gain = Entropy(parent) − AverageEntropy(children)
∑ nv
GF (S) = HF (S) − × HF (Sv ) (1.8)
v∈values(F)
n
where
Sv denotes the subset of data points in S who have value v for feature F, and
nv denotes the number of data points in Sv , and
n denotes the number of data points in S.
Then, the feature with maximum information gain is selected.
Another algorithm for selecting best feature is CART. It uses the Gini Index to decide
which feature is the best. The Gini Index is calculated as:

GiniF (S) = 1 − p2v (1.9)
v∈values(F)

Minimum value of the Gini Index is 0 when all data points in S belong to the same class.
Interpreting decision trees is extremely simple. To explain any decision made by the deci-
sion tree, just start from the root node, and move downward according to the input features.
Eventually, a leaf node will be reached, which the prediction is made by the decision tree.
Hence, it is clear that if a decision tree is small, then it may be considered white box. But
for large decision trees, it’s not possible to say which factor has how much effect on the final
outcome. So, large decision trees are considered black box models.
There are a lot of other white box IDA algorithms like naive Bayes, decision rules,
k-nearest neighbors, etc. whose predictions are easy to explain.
1.3 Interpretation of Black Box Models 7

1.3 Interpretation of Black Box Models

In case of white box models, being interpretable is a property of the model itself. Hence,
we studied a few white box models and learned how to interpret them. However, in case
of black box models, special algorithms are needed for their interpretability. These algo-
rithms are model-agnostic, i.e., they do not depend on a particular model. This has a huge
advantage – flexibility.
We will discuss a few of these algorithms in this section.

1.3.1 Partial Dependence Plot


This technique was developed by Friedman [22]. Partial dependence plot (PDP) reveals
the marginal effect of a feature on the predicted outcome of a model. The chosen features
are varied, while the other features are fixed at their average value to visualize the type of
relationship between the chosen features and the model’s outcome. For example, in case of
linear regression, PDP will always show a linear relationship because the outcome depends
linearly on every feature.
Let xs be a subset of the set of all features, and let xc be the complement of xs . Here, xs is
the set of selected features for which partial dependence function should be plotted, and xc
is the set of other features used in the model. Usually, there are one or two features in xs .
This is because visualizing and interpreting a two-dimensional or three-dimensional plot
is easy. Let the model be represented by f . Then, partial dependence function of f on xs is
given by:
[ ]
fs = Exc f (xs , xc ) = f (xs , xc )dP(xc ) (1.10)

Each subset of features xs has its own partial dependence function f s , which gives the aver-
age value of f at a certain fixed value of xs , while xc varies over its marginal distribution
dP(xc ). Partial dependence marginalizes the output predictions of the model f over the dis-
tribution of features xc . Hence, the function f s shows the relationship between xs and the
predicted outcome.
Since dP(xc ) is not known, it is estimated by taking average over all data points in the
training data:

1∑
n
fs = f (xs , xci ) (1.11)
n i=1
where

n is the number of training examples, and


xci is the set of features xc in the ith training example.

If f s is evaluated at all xs observed in data, then we’ll have n pairs of the type (xs , f s ), which
can be plotted to see how the machine learning model f varies with the set of features xs .
Figure 1.5 [23] shows the partial dependence of house value for on various fea-
tures – median income (MedInc), average occupants per household (AvgOccup), and
median house age (HouseAge).
8 1 Intelligent Data Analysis: Black Box Versus White Box Modeling
Partial dependence

Partial dependence

Partial dependence
1 1 1

0 0 0

1.5 3.0 4.5 6.0 7.5 2.0 2.5 3.0 3.5 4.0 0 10 20 30 40 50
Medlnc AveOccup HouseAge

Figure 1.5 Partial dependence plots from a gradient boosting regressor trained on California
housing dataset [23].

1.0

1.0 Partial dependence 0.8


0.8
0.6 0.6
0.4
0.2 0.4
0.0
0.2
2.0
2.5
50 3.0 cup
40 3.5 Oc
Hous 30 20 4.0 Ave
0.0
eAge 10

Figure 1.6 Partial dependence plot from a gradient boosting regressor trained on California
housing dataset [23].

PDP can also be plotted for two features in xs instead of one, as shown in Figure 1.6 [23]
(partial dependence of house value on house age and average occupancy).
However, PDP sometimes gives incorrect results too. As an example [24], consider the
following data generation process:

Y = 0.2 × X1 − 5 × X2 + 10 × 𝟙X3 ≥0 (X2 ) + 𝜀 (1.12)

where

X 1 , X 2 , X 3 are random variables uniformly


{distributed over (−1,1)
1 if x ∈ A
𝟙is indicator function, defined as 𝟙A(x) = , and
0 if x ∉ A
𝜀 is a random variable normally distributed over (0,1).

1,000 observations were generated from this equation, and a stochastic gradient boosting
model was fit to the generated data. Figure 1.7a [24] shows the scatter plot between X 2 and
Y , and Figure 1.7b [24] shows the partial dependence of Y on X 2 . The PDP shows that there
is no meaningful relationship between the two variables, but we can clearly see from the
scatter plot that this interpretation is wrong.
1.3 Interpretation of Black Box Models 9

6
4

4
2

2
partial yhat
0

0
y

–2
–2

–4
–4

–6
–1.0 –0.5 0.0 0.5 1.0 –1.0 –0.5 0.0 0.5 1.0
x_2 x_2
(a) Scatterplot of Y versus X2 (b) PDP

Figure 1.7 Relationship between X2 and Y [24].

These plots sometimes produce wrong results because of averaging, which is an inherent
property of PDPs. Moreover, PDPs provide a useful summary only when the dependence of
selected features on the remaining features is not too strong.
To overcome some of the issues with PDP, individual conditional expectation (ICE) plots
are used.

1.3.2 Individual Conditional Expectation


ICE [24] plots basically disperse the output of PDPs. Instead of averaging over the other
(nonselected) features, ICE plots make one line for each data point, representing how the
prediction of that data point changes when the selected feature changes. So, a PDP is the
average of all lines of the corresponding ICE plot.
More formally, for the observations {(xsi , xci )}ni=1 , a curve fsi is plotted against xsi , while xci
is kept fixed. The individual plots taken collectively {fsi }ni=1 constitute ICE plot for a set of
selected features xs .
Consider the example given above. The ICE plot for the same is shown in Figure 1.8 [24]:
From Figures 1.7b and 1.8, we can see that ICE plot shows the relationship between X 2
and Y in a much better way than PDP.
However, ICE plots are not able to resolve one issue with PDPs. When the feature of
interest is correlated with the other features, the joint feature distribution is not taken into
account and as a result, the plots might provide incorrect interpretations. To overcome this
problem, accumulated local effects (ALE) plots are used.

1.3.3 Accumulated Local Effects


ALE [25] describe how features affect the predictions of a machine learning model. They
are unbiased to correlation between features, unlike a PDP.
10 1 Intelligent Data Analysis: Black Box Versus White Box Modeling

6
4
2
partial yhat
0
–2
–4
–6

–1.0 –0.5 0.0 0.5 1.0


x_2

Figure 1.8 ICE plot between feature X_2 and Y [24].

marginal
1.0

1.0

distribution
p2(x2)
conditional
0.8
0.8

distribution
p2|1(x2|0.3)
0.6

0.6

x2 x2
0.4

0.4
0.2
0.2

PD plot at x1 = 0.3 M plot at x1 = 0.3


averages f(0.3,X2) averages f(0.3,X2)
over the marginal
0.0

0.0

over the conditional


distribution of X2 distribution of X2|X1 = 0.3

0.0 0.2 0.4 0.6 0.8 1.0 0.0 0.2 0.4 0.6 0.8 1.0
x1 x1
(a) (b)

Figure 1.9 Calculation of PDP and M-plot [25].

The equation for calculating partial dependence of f on xs is given by:


[ ]
fs,PDP (xs ) = EXc f (xs , Xc ) = f (xs , xc )P(xc )dxc (1.13)
∫xc
Where X represents a random variable and x represents observed values of X.
In Figure 1.9 [25], the two variables x1 and x2 are highly correlated.
Figure 1.9a shows how the partial dependence is calculated for x1 = 0.3. According to
the equation above, f s is calculated as the integration of marginal distribution of x2 over
the entire vertical line x = 0.3 shown in the figure. This would require extrapolation much
beyond the envelope of the training data. This problem occurs because marginal distribu-
tion is not concentrated around the data.
To overcome this problem, marginal plots (M-plots) [26] are used (see Figure 1.9b),
which replaces conditional probability for marginal probability. In case of highly correlated
1.3 Interpretation of Black Box Models 11

variables, conditional probability is more or less concentrated around the data as shown in
the figure. So, the formula for calculating M-plot is:
[ ]
fs,M (xs ) = EXc |Xs f (Xs , Xc )|Xs = xs = f (xs , xc )P(xc |xs )dxc (1.14)
∫xc
Integrating the conditional distribution has the advantage that excessive extrapolation is
not required. However, averaging the local predictions leads to mixing the effects of both
features, which is undesirable.
ALE addresses this problem by taking the differences, instead of averages over the con-
ditional probability distribution. Ale is calculated as follows:
xs [ ]
fs,ALE (xs ) = EXc |Xs f s (Xs , Xc )|Xs = zs dzs − constant (1.15)
∫z0,1
xs
fs,ALE (xs ) = f s (zs , xc )P(xc |zs )dxc dzs − constant (1.16)
∫z0,1 ∫xc
where
𝛿f (xs , xc )
f s (xs , xc ) = (1.17)
𝛿xs
There are quite a few changes as compared to M-plots. First, we average over the changes of
predictions, not the predictions themselves (f s instead of f ). Second, there is an additional
integration over z. z0, 1 is some value chosen just below the effective support of the prob-
ability distribution over the selected features xs . The choice of z0,1 is not important, since
it only affects the vertical translation of ALE plot, and the constant is chosen to vertically
center the plot.
ALE calculates prediction differences, and then integrates the differential (see Figure 1.10
[6]). The derivative effectively isolates the effect of the features of interest, and blocks the
1.0
0.8

conditional
distribution
p2|1(x2|0.3)
0.6

X2
0.4

ALE plot at x1 = 0.3


averages and accumulates the
𝜕f(x1,x2)
0.2

local effect
𝜕x1 x = 0.3
1
over the conditional
0.0

distribution of X2|X1 = 0.3

0.0 0.2 0.4 0.6 0.8 1.0


X1

Figure 1.10 Calculation of ALE plot [25].


12 1 Intelligent Data Analysis: Black Box Versus White Box Modeling

effect of correlated features, thereby overcoming the correlation problem of PDPs and
ICE plots.

1.3.4 Global Surrogate Models


A global surrogate model is an interpretable model that is trained to approximate the pre-
dictions of a black box model. Interpretation of the black box model can then be done by
simply interpreting the surrogate model.
Formally, we want the approximation g of a black box model f to be as close as possible
to f under the constraint that model g is interpretable. So, any white box model can be used
as the function g (like linear regression, decision tree, etc.).
R2 measure can be used to determine how well the surrogate model replicates the black
box model:
∑n ∗ 2
SS i=1 (yi − yi )
R2 = 1 − e = 1 − ∑n (1.18)
SSt i=1 (yi − yi )
2
where
y∗i is the prediction of the surrogate model,
yi is the prediction of the black box model, and
yi is average of black box model predictions.
A major disadvantage of this method is that we can never be sure how well the surrogate
model replicates the black box model. It may happen that the interpretable surrogate model
is very close to the black box model for a subset of the data, but diverges for another subset.

1.3.5 Local Interpretable Model-Agnostic Explanations


Local interpretable model-agnostic explanations (LIME) [27] can be thought of as a local
surrogate method. LIME says that to understand the model, we need to perturb the input
values, and see how the predictions change. Instead of learning a global surrogate model,
it focuses on fitting local surrogate models to explain why a single prediction was made.
To explain a single prediction, that particular input data point is perturbed over and over
again, and a white box model is trained based on the predictions from the black box model.
This provides a good local approximation of the model around that data point.
This provides an advantage over global surrogate models – the learned model should be
a good approximation of the black box model locally, but it does not have to be so globally,
thus overcoming a major shortcoming of global surrogate models.

1.3.6 Feature Importance


A feature’s importance is calculated by the change in model’s prediction error after per-
muting the feature [28]. If the model error increases, it means that the feature is important,
because the model relied on it for its prediction. A feature is considered unimportant if
permuting its value doesn’t change the model’s prediction error.
This method suffers from the same problem as PDP – correlated features. If features are
correlated, then permuting the values creates unlikely data points and gives false interpre-
tation results.
1.5 Summary 13

1.4 Issues and Further Challenges


Although a lot of work is being done to understand these white box and black box models,
but there are still a lot of issues that need to be tackled.
A major issue is the distinction between correlation and causation. Figure 1.11 [29] makes
it clear why correlation does not imply causation.
However, machine learning models cannot distinguish between the two. This is an
issue with such models. Hence, interpretability is of paramount importance, so that false
causations could be detected and removed from these models.
Another issue is that machine learning models operate in high dimensional vector
spaces, and it’s usually beyond human perception to visualize and interpret more than
three dimensions. So, one option is try to explain only one or two features at a time, while
the other option is dimensionality reduction, which leads to some loss in data. Internal
states of machine learning models are extremely difficult to interpret; hence most of the
interpretability algorithms try to explain the predictions instead of trying to understand
the model.
Another challenge is the testing of these interpretability models, which as of now relies
mostly on humans, since automating it is significantly hard.

1.5 Summary
In this chapter, the types of IDA models have been discussed, namely white box models
and black box models. These models are caught in the explainability-accuracy trade-off.
White box models have low accuracy, but are able to produce high-quality explanations of
the decisions made by the model. Black box models, on the other hand, are more accurate
models, but suffer from low explainability. To highlight the differences between the two
models, various interpretability techniques have been reviewed.
White box models (like linear regression, decision trees, naive Bayes, etc.) are inherently
interpretable. A few of these models have been discussed, along with ways to interpret their
predictions.
Age of Miss America
correlates with
Murders by steam, hot vapours and hot objects
Correlation: 87.01% (r=0.870127)
1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
25 yrs 8 murders
Age of Miss America

23.75 yrs
Murders by steam

6 murders
22.5 yrs

21.25 yrs
4 murders
20 yrs

18.75 yrs 2 murders


1999 2000 2001 2002 2003 2004 2005 2006 2007 2008 2009
Murders by steam Age of Miss America

Figure 1.11 Correlation does not imply causation [29].


14 1 Intelligent Data Analysis: Black Box Versus White Box Modeling

However, to explain the decisions of black box models, special algorithms have been
developed. A few of these “model interpretability algorithms” have been discussed in
this chapter, namely, PDPs, ICE, ALE, global and local surrogate models, and feature
importance.
Although researchers have made tremendous progress, a lot of challenges still remain
untackled. A few shortcomings of machine learning models have also been presented.

References

1 Data Never Sleeps 5.0. www.domo.com/learn/data-never-sleeps-5 (accessed


02 November 2018).
2 Berthold, M.R. and Hand, D.J. (eds.) (2007). Intelligent Data Analysis: An Introduction.
Berlin, Heidelberg: Springer.
3 Cohen, P. and Adams, N. (2009, August). Intelligent data analysis in the 21st century.
In: International Symposium on Intelligent Data Analysis (eds. N.M. Adams, C. Robardet,
A. Siebes and J.F. Boulicaut), 1–9. Berlin, Heidelberg: Springer.
4 Bendat, J.S. and Piersol, A.G. (2000). Random Data: Analysis and Measurement Proce-
dures, vol. 729. Hoboken, NJ: Wiley.
5 Var, I. (1998). Multivariate data analysis. Vectors 8 (2): 125–136.
6 Mosteller, F. and Tukey, J.W. (1977). Data Analysis and Regression: A Second Course
in Statistics. In: Addison-Wesley Series in Behavioral Science: Quantitative Methods.
Addison-Wesley Publishing.
7 Page, L., Brin, S., Motwani, R., and Winograd, T. (1999). The PageRank Citation Rank-
ing: Bringing Order to the Web. Stanford InfoLab.
8 Sharma, D.K. and Sharma, A.K. (2010). A comparative analysis of web page rank-
ing algorithms. International Journal on Computer Science and Engineering 2 (08):
2670–2676.
9 Linden, G., Smith, B., and York, J. (2003). Amazon.com recommendations: item-to-item
collaborative filtering. IEEE Internet Computing 7 (1): 76–80.
10 Breese, J.S., Heckerman, D., and Kadie, C. (1998). Empirical analysis of predictive
algorithms for collaborative filtering. In: Proceedings of the Fourteenth Conference on
Uncertainty in Artificial Intelligence, 43–52. Madison, WI: Morgan Kaufmann Publishers
Inc.
11 Segre, A.M. (1992). Applications of machine learning. IEEE Expert 7 (3): 30–34.
12 Langley, P. and Simon, H.A. (1995). Applications of machine learning and rule induc-
tion. Communications of the ACM 38 (11): 54–64.
13 Kotsiantis, S.B., Zaharakis, I., and Pintelas, P. (2007). Supervised machine learning:
a review of classification techniques. Emerging Artificial Intelligence Applications in
Computer Engineering 160: 3–24.
14 Doshi-Velez, F., & Kim, B. (2017). Towards a Rigorous Science of Interpretable Machine
Learning. arXiv:1702.08608.
15 Vellido, A., Martín-Guerrero, J.D., and Lisboa, P.J. (2012). Making machine learning
models interpretable. In: ESANN, vol. 12, 163–172.
References 15

16 Seber, G.A. and Lee, A.J. (2012). Linear Regression Analysis, vol. 329. Hoboken, NJ:
Wiley.
17 Montgomery, D.C., Peck, E.A., and Vining, G.G. (2012). Introduction to Linear Regres-
sion Analysis, vol. 821. Hoboken, NJ: Wiley.
18 Cameron, A.C. and Windmeijer, F.A. (1997). An R-squared measure of goodness of fit
for some common nonlinear regression models. Journal of Econometrics 77 (2): 329–342.
19 Safavian, S.R. and Landgrebe, D. (1991). A survey of decision tree classifier methodol-
ogy. IEEE Transactions on Systems, Man, and Cybernetics 21 (3): 660–674.
20 Quinlan, J.R. (1986). Induction of decision trees. Machine Learning 1 (1): 81–106.
21 Breiman, L. (2017). Classification and Regression Trees. New York: Routledge.
22 Friedman, J.H. (2001). Greedy function approximation: a gradient boosting machine.
Annals of Statistics 29 (5): 1189–1232.
23 Partial Dependence Plots. http://scikit-learn.org/stable/auto_examples/ensemble/plot_
partial_dependence.html (accessed 02 November 2018).
24 Goldstein, A., Kapelner, A., Bleich, J., and Pitkin, E. (2015). Peeking inside the black
box: visualizing statistical learning with plots of individual conditional expectation.
Journal of Computational and Graphical Statistics 24 (1): 44–65.
25 Apley, D. W. (2016). Visualizing the Effects of Predictor Variables in Black Box Super-
vised Learning Models. arXiv:1612.08468.
26 Cook, R.D. and Weisberg, S. (1997). Graphics for assessing the adequacy of regression
models. Journal of the American Statistical Association 92 (438): 490–499.
27 Ribeiro, M.T., Singh, S., and Guestrin, C. (2016). Why should i trust you?: explaining
the predictions of any classifier. In: Proceedings of the 22nd ACM SIGKDD International
Conference on Knowledge Discovery and Data Mining, 1135–1144. ACM.
28 Breiman, L. (2001). Random forests. Machine Learning 45 (1): 5–32.
29 Spurious Correlations. http://tylervigen.com/spurious-correlations (accessed
02 November 2018).
17

Data: Its Nature and Modern Data Analytical Tools


Ravinder Ahuja, Shikhar Asthana, Ayush Ahuja, and Manu Agarwal
Computer Science and Engineering Department, Jaypee Institute of Information Technology, Noida, India

2.1 Introduction

Data is a collection of values that pertain to qualitative or quantitative variables. Data is


a vital and irreplaceable asset to any form of an organization or an enterprise. From the
smallest scale, up to a multinational corporation, data is always omnipresent. Whether it’s
internal to the four walls of the organization or outside, data is always there – just waiting
to be organized and analyzed. Data without any processing or order, in its most primitive
form, is called raw data [1]. In essence, raw data is just an unordered set of qualitative or
quantitative variables with very little or no processing done. Even though raw data has a
major perspective of becoming “information,” it requires selective extraction, formatting,
organizing, and analysis for transforming itself into it. For example, a broker transaction ter-
minal in a busy open stock market collects huge volumes of raw data each day, but this data,
even though having the capacity to, does not yield much information until it has under-
gone processing. Once processed, the data may indicate the specific units of stock that each
buyer or seller has bought or sold, respectively. Hence, from the raw data, we get processed
data, from which we get information, and from this information, we derive our end point,
which is insight [2] as shown in Figure 2.1. That means that the information we obtain from
processed data can derive insights that help us better understand and perceive the future.
Returning to our stock market example, once the processed data is acquired, we can
obtain the general trend of the stock, which is right now being bought the most. This, in
turn, will provide us with the insight pertaining to the probability of that stock’s price being
increased, which will be very high due to intense demand for that stock. And on the basis of
this insight, one can plan whether he or she wants to invest in that stock or if selling off an
already owned stock would serve them better. As more and more data is taken up for con-
sideration, the information and insights derived from them start getting more accurate and
serve as a better representative for the general trend. As the stakes and competition between
various organizations and enterprises are rising day by day, these obtained insights are what
make the difference between the leading organizations and others. Hence, the need of the
hour is to better understand, manage, analyze, and process the humongous amounts of data
available to obtain valuable insights. Depending on the field of operation and type of values
Intelligent Data Analysis: From Data Gathering to Data Comprehension,
First Edition. Edited by Deepak Gupta, Siddhartha Bhattacharyya, Ashish Khanna, and Kalpna Sagar.
© 2020 John Wiley & Sons Ltd. Published 2020 by John Wiley & Sons Ltd.
18 2 Data: Its Nature and Modern Data Analytical Tools

Raw Data Information Insight

Figure 2.1 Various stages of data.

Digital Data

Semi Structured
Structured Data Unstructured Data
Data

Figure 2.2 Classifications of digital data.

and variables, data can be divided into a lot of categories, but for the sake of this chapter,
we would be focusing on the digital data and we will loosely use data and digital data inter-
changeably. Digital data, as shown in Figure 2.2, can be broadly classified into structured,
semi-structured, and unstructured data. We will explore each of these categories one by one
in the upcoming sections and understand their definitions, sources, and the ease or unease
of working with and processing them.
The rest of the chapter is organized as follows: Section 2.2 contains various data types
and different file formats, Section 2.3 contains an overview of big data, Section 2.4 contains
various phases of data analytics, Section 2.5 contains various data analytics tools, Section 2.6
contains database management tools for big data, Section 2.7 contains challenges in big data
analytics, and finally, Section 2.8 contains conclusion.

2.2 Data Types and Various File Formats

There are different data types and different file formats, which are described as follows:

2.2.1 Structured Data


Structured data is the data that is in an organized form. In simpler terms, structured data
refers to information having a high degree of organization (recall that since the term used
is information, it means that the data in question is already processed). We will be focusing
mainly on structured data as it is the most used data in terms of data analytics. Struc-
tured data conforms to a predefined schema or structure, such that its integration into a
relational database is smooth and effortlessly searchable by various search algorithms and
operations. This ease of accessibility also augments the ability to analyze, update, modify,
and delete a certain part or the whole of the data. Data stored in databases is an example
of structured data. In structured data, there exist relationships between entities of data,
such as classes and their instances. From an understanding point of view, structured data
should be synonymous with data model – any model with the intent to provide a way to
Another random document with
no related content on Scribd:
—Mais, s’écria l’un de ces ergoteurs sans pitié qui se rencontrent
si souvent dans le monde, le père n’a peut-être fait un beau mariage
que parce qu’il s’était enrichi. Le moindre de ses bonheurs n’a-t-il
donc pas toujours été un fruit du crime?
—La discussion est en elle-même une sentence! Il est des
choses sur lesquelles un homme ne délibère pas, s’écria mon
ancien tuteur qui crut éclairer l’assemblée par une saillie d’ivresse.
—Oui! dit le secrétaire d’ambassade.
—Oui! s’écria le prêtre.
Ces deux hommes ne s’entendaient pas.
Un doctrinaire auquel il n’avait guère manqué que cent cinquante
voix sur cent cinquante-cinq votants pour être élu, se leva.
—Messieurs, cet accident phénoménal de la nature intellectuelle
est un de ceux qui sortent le plus vivement de l’état normal auquel
est soumise la société, dit-il. Donc, la décision à prendre doit être un
fait extemporané de notre conscience, un concept soudain, un
jugement instructif, une nuance fugitive de notre appréhension
intime assez semblable aux éclairs qui constituent le sentiment du
goût. Votons.
—Votons! s’écrièrent mes convives.
Je fis donner à chacun deux boules, l’une blanche, l’autre rouge.
Le blanc, symbole de la virginité, devrait proscrire le mariage; et la
boule rouge, l’approuver. Je m’abstins de voter par délicatesse. Mes
amis étaient dix-sept, le nombre neuf formait la majorité absolue.
Chacun alla mettre sa boule dans le panier d’osier à col étroit où
s’agitent les billes numérotées quand les joueurs tirent leurs places à
la poule, et nous fûmes agités par une assez vive curiosité, car ce
scrutin de morale épurée avait quelque chose d’original. Au
dépouillement du scrutin, je trouvai neuf boules blanches! Ce
résultat ne me surprit pas; mais je m’avisai de compter les jeunes
gens de mon âge que j’avais mis parmi mes juges. Ces casuistes
étaient au nombre de neuf, ils avaient tous eu la même pensée.
—Oh! oh! me dis-je, il y a unanimité secrète pour le mariage et
unanimité pour me l’interdire! Comment sortir d’embarras?
—Où demeure le beau-père? demanda étourdiment un de mes
camarades de collége, moins dissimulé que les autres.
—Il n’y a plus de beau-père, m’écriai-je. Jadis ma conscience
parlait assez clairement pour rendre votre arrêt superflu. Et si
aujourd’hui sa voix s’est affaiblie, voici les motifs de ma couardise.
Je reçus, il y a deux mois, cette lettre séductrice.
Je leur montrai l’invitation suivante, que je tirai de mon
portefeuille.

«Vous êtes prié d’assister aux convoi, service et


enterrement de M. JEAN-FRÉDÉRIC TAILLEFER, de la
maison Taillefer et compagnie, ancien fournisseur des
vivres-viandes, en son vivant chevalier de la Légion
d’honneur et de l’Éperon d’or, capitaine de la première
compagnie de grenadiers de la deuxième légion de la
garde nationale de paris, décédé le premier mai dans
son hotel, rue joubert, et qui se feront a... etc.»
«De la part de... etc.»

—Maintenant, que faire? repris-je. Je vais vous poser la question


très-largement. Il y a bien certainement une mare de sang dans les
terres de mademoiselle Taillefer, la succession de son père est un
vaste hacelma. Je le sais. Mais Prosper Magnan n’a pas laissé
d’héritiers; mais il m’a été impossible de retrouver la famille du
fabricant d’épingles assassiné à Andernach. A qui restituer la
fortune? Et doit-on restituer toute la fortune? Ai-je le droit de trahir un
secret surpris, d’augmenter d’une tête coupée la dot d’une innocente
jeune fille, de lui faire faire de mauvais rêves, de lui ôter une belle
illusion, de lui tuer son père une seconde fois, en lui disant: Tous vos
écus sont tachés? J’ai emprunté le Dictionnaire des Cas de
conscience à un vieil ecclésiastique, et n’y ai point trouvé de solution
à mes doutes. Faire une fondation pieuse pour l’âme de Prosper
Magnan, de Walhenfer, de Taillefer? nous sommes en plein dix-
neuvième siècle. Bâtir un hospice ou instituer un prix de vertu? le
prix de vertu sera donné à des fripons. Quant à la plupart de nos
hôpitaux, ils me semblent devenus aujourd’hui les protecteurs du
vice! D’ailleurs ces placements plus ou moins profitables à la vanité
constitueront-ils des réparations? et les dois-je? Puis j’aime, et
j’aime avec passion. Mon amour est ma vie! Si je propose sans motif
à une jeune fille habituée au luxe, à l’élégance, à une vie fertile en
jouissances d’arts, à une jeune fille qui aime à écouter
paresseusement aux Bouffons la musique de Rossini, si donc je lui
propose de se priver de quinze cent mille francs en faveur de
vieillards stupides ou de galeux chimériques, elle me tournera le dos
en riant, ou sa femme de confiance me prendra pour un mauvais
plaisant; si, dans une extase d’amour, je lui vante les charmes d’une
vie médiocre et ma petite maison sur les bords de la Loire, si je lui
demande le sacrifice de sa vie parisienne au nom de notre amour,
ce sera d’abord un vertueux mensonge; puis, je ferai peut-être là
quelque triste expérience, et perdrai le cœur de cette jeune fille,
amoureuse du bal, folle de parure, et de moi pour le moment. Elle
me sera enlevée par un officier mince et pimpant, qui aura une
moustache bien frisée, jouera du piano, vantera lord Byron, et
montera joliment à cheval. Que faire? Messieurs, de grâce, un
conseil?...
L’honnête homme, cette espèce de puritain assez semblable au
père de Jenny Deans, de qui je vous ai déjà parlé, et qui jusque-là
n’avait soufflé mot, haussa les épaules en me disant:—Imbécile,
pourquoi lui as-tu demandé s’il était de Beauvais!

Paris, mai 1831.


L’ÉLIXIR DE LONGUE VIE

AU LECTEUR.

Au début de la vie littéraire de l’auteur, un ami, mort depuis


longtemps, lui donna le sujet de cette Étude, que plus tard il trouva
dans un recueil publié vers le commencement de ce siècle; et, selon
ses conjectures, c’est une fantaisie due à Hoffmann de Berlin,
publiée dans quelque almanach d’Allemagne, et oubliée dans ses
œuvres par les éditeurs. La Comédie Humaine est assez riche en
inventions pour que l’auteur avoue un innocent emprunt; comme le
bon La Fontaine, il aura traité d’ailleurs à sa manière, et sans le
savoir, un fait déjà conté. Ceci ne fut pas une de ces plaisanteries à
la mode en 1830, époque à laquelle tout auteur faisait de l’atroce
pour le plaisir des jeunes filles. Quand vous serez arrivé à l’élégant
parricide de don Juan, essayez de deviner la conduite que
tiendraient, en des conjonctures à peu près semblables, les
honnêtes gens qui, au dix-neuvième siècle, prennent de l’argent à
rentes viagères, sur la foi d’un catarrhe, ou ceux qui louent une
maison à une vieille femme pour le reste de ses jours?
Ressusciteraient-ils leurs rentiers? Je désirerais que des peseurs-
jurés de conscience examinassent quel degré de similitude il peut
exister entre don Juan et les pères qui marient leurs enfants à cause
des espérances? La société humaine, qui marche, à entendre
quelques philosophes, dans une voie de progrès, considère-t-elle
comme un pas vers le bien, l’art d’attendre les trépas? Cette science
a créé des métiers honorables, au moyen desquels on vit de la mort.
Certaines personnes ont pour état d’espérer un décès, elles le
couvent, elles s’accroupissent chaque matin sur un cadavre, et s’en
font un oreiller le soir: c’est les coadjuteurs, les cardinaux, les
surnuméraires, les tontiniers, etc. Ajoutez-y beaucoup de gens
délicats, empressés d’acheter une propriété dont le prix dépasse
leurs moyens, mais qui établissent logiquement et à froid les
chances de vie qui restent à leurs pères ou à leurs belles-mères,
octogénaires ou septuagénaires, en disant:—«Avant trois ans,
j’hériterai nécessairement, et alors...» Un meurtrier nous dégoûte
moins qu’un espion. Le meurtrier a cédé peut-être à un mouvement
de folie, il peut se repentir, s’ennoblir. Mais l’espion est toujours
espion; il est espion au lit, à table, en marchant, la nuit, le jour; il est
vil à toute minute. Que serait-ce donc d’être meurtrier comme un
espion est vil? Hé! bien, ne venez-vous pas de reconnaître au sein
de la société une foule d’êtres amenés par nos lois, par nos mœurs,
par les usages, à penser sans cesse à la mort des leurs, à la
convoiter? Ils pèsent ce que vaut un cercueil en marchandant des
cachemires pour leurs femmes, en gravissant l’escalier d’un théâtre,
en désirant aller aux Bouffons, en souhaitant une voiture. Ils
assassinent au moment où de chères créatures, ravissantes
d’innocence, leur apportent, le soir, des fronts enfantins à baiser en
disant: «Bonfoir, père!» Ils voient à toute heure des yeux qu’ils
voudraient fermer, et qui se rouvrent chaque matin à la lumière,
comme celui de Belvidéro dans cette Étude. Dieu seul sait le
nombre des parricides qui se commettent par la pensée! Figurez-
vous un homme ayant à servir mille écus de rentes viagères à une
vieille femme, et qui, tous deux, vivent à la campagne, séparés par
un ruisseau, mais assez étrangers l’un à l’autre pour pouvoir se haïr
cordialement sans manquer à ces convenances humaines qui
mettent un masque sur le visage de deux frères dont l’un aura le
majorat, et l’autre une légitime. Toute la civilisation européenne
repose sur L’HÉRÉDITÉ comme sur un pivot, ce serait folie que de le
supprimer; mais ne pourrait-on, comme dans les machines qui font
l’orgueil de notre Age, perfectionner ce rouage essentiel.
Si l’auteur a conservé cette vieille formule AU LECTEUR dans un
ouvrage où il tâche de représenter toutes les formes littéraires, c’est
pour placer une remarque relative à quelques Études, et surtout à
celle-ci. Chacune de ses compositions est basée sur des idées plus
ou moins neuves, dont l’expression lui semble utile, il peut tenir à la
priorité de certaines formes, de certaines pensées qui, depuis, ont
passé dans le domaine littéraire, et s’y sont parfois vulgarisées. Les
dates de la publication primitive de chaque Étude ne doivent donc
pas être indifférentes à ceux des lecteurs qui voudront lui rendre
justice.
La lecture nous donne des amis inconnus, et quel ami qu’un
lecteur! nous avons des amis connus qui ne lisent rien de nous!
l’auteur espère avoir payé sa dette en dédiant cette œuvre DIIS
IGNOTIS.

Dans un somptueux palais de Ferrare, par une soirée d’hiver,


don Juan Belvidéro régalait un prince de la maison d’Este. A cette
époque, une fête était un merveilleux spectacle que de royales
richesses ou la puissance d’un seigneur pouvaient seules ordonner.
Assises autour d’une table éclairée par des bougies parfumées, sept
joyeuses femmes échangeaient de doux propos, parmi d’admirables
chefs-d’œuvre dont les marbres blancs se détachaient sur des
parois en stuc rouge et contrastaient avec de riches tapis de
Turquie. Vêtues de satin, étincelantes d’or et chargées de pierreries
qui brillaient moins que leurs yeux, toutes racontaient des passions
énergiques, mais diverses comme l’étaient leurs beautés. Elles ne
différaient ni par les mots ni par les idées; l’air, un regard, quelques
gestes ou l’accent servaient à leurs paroles de commentaires
libertins, lascifs, mélancoliques ou goguenards.
L’une semblait dire:—Ma beauté sait réchauffer le cœur glacé
des vieillards.
L’autre:—J’aime à rester couchée sur des coussins, pour penser
avec ivresse à ceux qui m’adorent.
Une troisième, novice de ces fêtes, voulait rougir:—Au fond du
cœur je sens un remords! disait-elle. Je suis catholique, et j’ai peur
de l’enfer. Mais je vous aime tant, oh! tant et tant, que je puis vous
sacrifier l’éternité.
La quatrième, vidant une coupe de vin de Chio, s’écriait:—Vive la
gaieté! Je prends une existence nouvelle à chaque aurore!
Oublieuse du passé, ivre encore des assauts de la veille, tous les
soirs j’épuise une vie de bonheur, une vie pleine d’amour!
La femme assise auprès de Belvidéro le regardait d’un œil
enflammé. Elle était silencieuse.—Je ne m’en remettrais pas à des
bravi pour tuer mon amant, s’il m’abandonnait! Puis elle avait ri; mais
sa main convulsive brisait un drageoir d’or miraculeusement sculpté.
—Quand seras-tu grand-duc? demanda la sixième au prince
avec une expression de joie meurtrière dans les dents, et du délire
bachique dans les yeux.
—Et toi, quand ton père mourra-t-il? dit la septième en riant, en
jetant son bouquet à don Juan par un geste enivrant de folâtrerie.
C’était une innocente jeune fille accoutumée à jouer avec toutes les
choses sacrées.
—Ah! ne m’en parlez pas, s’écria le jeune et beau don Juan
Belvidéro, il n’y a qu’un père éternel dans le monde, et le malheur
veut que je l’aie!
Les sept courtisanes de Ferrare, les amis de don Juan et le
prince lui-même jetèrent un cri d’horreur. Deux cents ans après et
sous Louis XV, les gens de bon goût eussent ri de cette saillie. Mais
peut-être aussi, dans le commencement d’une orgie, les âmes
avaient-elles encore trop de lucidité? Malgré le feu des bougies, le
cri des passions, l’aspect des vases d’or et d’argent, la fumée des
vins, malgré la contemplation des femmes les plus ravissantes, peut-
être y avait-il encore, au fond des cœurs, un peu de cette vergogne
pour les choses humaines et divines qui lutte jusqu’à ce que l’orgie
l’ait noyée dans les derniers flots d’un vin pétillant? Déjà néanmoins
les fleurs avaient été froissées, les yeux s’hébétaient, et l’ivresse
gagnait, selon l’expression de Rabelais, jusqu’aux sandales. En ce
moment de silence, une porte s’ouvrit; et, comme au festin de
Balthazar, Dieu se fit reconnaître, il apparut sous les traits d’un vieux
domestique en cheveux blancs, à la démarche tremblante, aux
sourcils contractés; il entra d’un air triste, flétrit d’un regard les
couronnes, les coupes de vermeil, les pyramides de fruits, l’éclat de
la fête, la pourpre des visages étonnés et les couleurs des coussins
foulés par le bras blanc des femmes; enfin, il mit un crêpe à cette
folie en disant ces sombres paroles d’une voix creuse:—Monsieur,
votre père se meurt.
Don Juan se leva en faisant à ses hôtes un geste qui peut se
traduire par: «Excusez-moi, ceci n’arrive pas tous les jours.»
La mort d’un père ne surprend-elle pas souvent les jeunes gens
au milieu des splendeurs de la vie, au sein des folles idées d’une
orgie? La mort est aussi soudaine dans ses caprices qu’une
courtisane l’est dans ses dédains; mais plus fidèle, elle n’a jamais
trompé personne.
Quand don Juan eut fermé la porte de la salle et qu’il marcha
dans une longue galerie froide autant qu’obscure, il s’efforça de
prendre une contenance de théâtre; car, en songeant à son rôle de
fils, il avait jeté sa joie avec sa serviette. La nuit était noire. Le
silencieux serviteur qui conduisait le jeune homme vers une
chambre mortuaire éclairait assez mal son maître, en sorte que la
MORT, aidée par le froid, le silence, l’obscurité, par une réaction
d’ivresse, peut-être, put glisser quelques réflexions dans l’âme de ce
dissipateur, il interrogea sa vie et devint pensif comme un homme en
procès qui s’achemine au tribunal.
Bartholoméo Belvidéro, père de don Juan, était un vieillard
nonagénaire qui avait passé la majeure partie de sa vie dans les
combinaisons du commerce. Ayant traversé souvent les
talismaniques contrées de l’Orient, il y avait acquis d’immenses
richesses et des connaissances plus précieuses, disait-il, que l’or et
les diamants, desquels alors il ne se souciait plus guère.—Je préfère
une dent à un rubis, et le pouvoir au savoir, s’écriait-il parfois en
souriant. Ce bon père aimait à entendre don Juan lui raconter une
étourderie de jeunesse, et disait d’un air goguenard, en lui
prodiguant l’or:—Mon cher enfant, ne fais que les sottises qui
t’amuseront. C’était le seul vieillard qui éprouvât du plaisir à voir un
jeune homme, l’amour paternel trompait sa caducité par la
contemplation d’une si brillante vie. A l’âge de soixante ans,
Belvidéro s’était épris d’un ange de paix et de beauté. Don Juan
avait été le seul fruit de cette tardive et passagère amour. Depuis
quinze années, le bonhomme déplorait la perte de sa chère Juana.
Ses nombreux serviteurs et son fils attribuaient à cette douleur de
vieillard les habitudes singulières qu’il avait contractées. Réfugié
dans l’aile la plus incommode de son palais, Bartholoméo n’en
sortait que très-rarement, et don Juan lui-même ne pouvait pénétrer
dans l’appartement de son père sans en avoir obtenu la permission.
Si ce volontaire anachorète allait et venait dans le palais ou par les
rues de Ferrare, il semblait chercher une chose qui lui manquait; il
marchait tout rêveur, indécis, préoccupé comme un homme en
guerre avec une idée ou avec un souvenir. Pendant que le jeune
homme donnait des fêtes somptueuses et que le palais retentissait
des éclats de sa joie, que les chevaux piaffaient dans les cours, que
les pages se disputaient en jouant aux dés sur les degrés,
Bartholoméo mangeait sept onces de pain par jour et buvait de l’eau.
S’il lui fallait un peu de volaille, c’était pour en donner les os à un
barbet noir, son compagnon fidèle. Il ne se plaignait jamais du bruit.
Durant sa maladie, si le son du cor et les aboiements des chiens le
surprenaient dans son sommeil, il se contentait de dire:—Ah! c’est
don Juan qui rentre! Jamais sur cette terre un père si commode et si
indulgent ne s’était rencontré; aussi le jeune Belvidéro, accoutumé à
le traiter sans cérémonie, avait-il tous les défauts des enfants gâtés;
il vivait avec Bartholoméo comme vit une capricieuse courtisane
avec un vieil amant, faisant excuser une impertinence par un sourire,
vendant sa belle humeur, et se laissant aimer. En reconstruisant, par
une pensée, le tableau de ses jeunes années, don Juan s’aperçut
qu’il lui serait difficile de trouver la bonté de son père en faute. En
entendant, au fond de son cœur, naître un remords, au moment où il
traversait la galerie, il se sentit près de pardonner à Belvidéro d’avoir
si longtemps vécu. Il revenait à des sentiments de piété filiale,
comme un voleur devient honnête homme par la jouissance possible
d’un million, bien dérobé. Bientôt le jeune homme franchit les hautes
et froides salles qui composaient l’appartement de son père. Après
avoir éprouvé les effets d’une atmosphère humide, respiré l’air
épais, l’odeur rance qui s’exhalaient de vieilles tapisseries et
d’armoires couvertes de poussière, il se trouva dans la chambre
antique du vieillard, devant un lit nauséabond, auprès d’un foyer
presque éteint. Une lampe, posée sur une table de forme gothique,
jetait, par intervalles inégaux, des nappes de lumière plus ou moins
forte sur le lit, et montrait ainsi la figure du vieillard sous des aspects
toujours différents. Le froid sifflait à travers les fenêtres mal fermées;
et la neige, en fouettant sur les vitraux, produisait un bruit sourd.
Cette scène formait un contraste si heurté avec la scène que don
Juan venait d’abandonner, qu’il ne put s’empêcher de tressaillir. Puis
il eut froid quand, en approchant du lit, une assez violente rafale de
lueur, poussée par une bouffée de vent, illumina la tête de son père:
les traits en étaient décomposés, la peau collée fortement sur les os
avait des teintes verdâtres que la blancheur de l’oreiller, sur lequel le
vieillard reposait, rendait encore plus horribles; contractée par la
douleur, la bouche entr’ouverte et dénuée de dents laissait passer
quelques soupirs dont l’énergie lugubre était soutenue par les
hurlements de la tempête. Malgré ces signes de destruction, il
éclatait sur cette tête un caractère incroyable de puissance. Un
esprit supérieur y combattait la mort. Les yeux, creusés par la
maladie, gardaient une fixité singulière. Il semblait que Bartholoméo
cherchât à tuer, par son regard de mourant, un ennemi assis au pied
de son lit. Ce regard, fixe et froid, était d’autant plus effrayant, que la
tête restait dans une immobilité semblable à celle des crânes posés
sur une table chez les médecins. Le corps entièrement dessiné par
les draps du lit annonçait que les membres du vieillard gardaient la
même roideur. Tout était mort, moins les yeux. Les sons qui sortaient
de la bouche avaient enfin quelque chose de mécanique. Don Juan
éprouva une certaine honte d’arriver auprès du lit de son père
mourant en gardant un bouquet de courtisane dans son sein, en y
apportant les parfums d’une fête et les senteurs du vin.
—Tu t’amusais! s’écria le vieillard en apercevant son fils.
Au même moment, la voix pure et légère d’une cantatrice qui
enchantait les convives, fortifiée par les accords de la viole sur
laquelle elle s’accompagnait, domina le râle de l’ouragan, et retentit
jusque dans cette chambre funèbre. Don Juan voulut ne rien
entendre de cette sauvage affirmation donnée à son père.
Bartholoméo dit:—Je ne t’en veux pas, mon enfant.
Ce mot plein de douceur fit mal à don Juan, qui ne pardonna pas
à son père cette poignante bonté.
—Quel remords pour moi, mon père! lui dit-il hypocritement.
—Pauvre Juanino, reprit le mourant d’une voix sourde, j’ai
toujours été si doux pour toi, que tu ne saurais désirer ma mort?
—Oh! s’écria don Juan, s’il était possible de vous rendre la vie en
donnant une partie de la mienne! (Ces choses-là peuvent toujours
se dire, pensait le dissipateur, c’est comme si j’offrais le monde à ma
maîtresse!) A peine sa pensée était-elle achevée, que le vieux
barbet aboya. Cette voix intelligente fit frémir don Juan, il crut avoir
été compris par le chien.
—Je savais bien, mon fils, que je pouvais compter sur toi, s’écria
le moribond. Je vivrai. Va, tu seras content. Je vivrai, mais sans
enlever un seul des jours qui t’appartiennent.
—Il a le délire, se dit don Juan. Puis il ajouta tout haut:—Oui,
mon père chéri, vous vivrez, certes, autant que moi, car votre image
sera sans cesse dans mon cœur.
—Il ne s’agit pas de cette vie-là, dit le vieux seigneur en
rassemblant ses forces pour se dresser sur son séant, car il fut ému
par un de ces soupçons qui ne naissent que sous le chevet des
mourants.—Écoute, mon fils, reprit-il d’une voix affaiblie par ce
dernier effort, je n’ai pas plus envie de mourir, que tu ne veux te
passer de maîtresses, de vin, de chevaux, de faucons, de chiens et
d’or.
—Je le crois bien, pensa encore le fils en s’agenouillant au
chevet du lit et en baisant une des mains cadavéreuses de
Bartholoméo.—Mais, reprit-il à haute voix, mon père, mon cher père,
il faut se soumettre à la volonté de Dieu.
—Dieu, c’est moi, répliqua le vieillard en grommelant.
—Ne blasphémez pas, s’écria le jeune homme en voyant l’air
menaçant que prirent les traits de son père. Gardez-vous-en bien,
vous avez reçu l’extrême-onction, et je ne me consolerais pas de
vous voir mourir en état de péché.
—Veux-tu m’écouter! s’écria le mourant dont la bouche grinça.
Don Juan se tut. Un horrible silence régna. A travers les
sifflements lourds de la neige, les accords de la viole et la voix
délicieuse arrivèrent encore, faibles comme un jour naissant. Le
moribond sourit.
—Je te remercie d’avoir invité des cantatrices, d’avoir amené de
la musique! Une fête, des femmes jeunes et belles, blanches, à
cheveux noirs! tous les plaisirs de la vie, fais-les rester, je vais
renaître.
—Le délire est à son comble, dit don Juan.
—J’ai découvert un moyen de ressusciter. Tiens! Cherche dans
le tiroir de la table, tu l’ouvriras en pressant un ressort caché par le
griffon.
—J’y suis, mon père.
—Là, bien, prends un petit flacon de cristal de roche.
—Le voici.
—J’ai employé vingt ans à... En ce moment, le vieillard sentit
approcher sa fin, et rassembla toute son énergie pour dire:—Aussitôt
que j’aurai rendu le dernier soupir, tu me frotteras tout entier de cette
eau, je renaîtrai.
—Il y en a bien peu, répliqua le jeune homme.
Si Bartholoméo ne pouvait plus parler, il avait encore la faculté
d’entendre et de voir; sur ce mot, sa tête se tourna vers don Juan
par un mouvement d’une effrayante brusquerie, son cou resta tordu
comme celui d’une statue de marbre que la pensée du sculpteur a
condamnée à regarder de côté, ses yeux agrandis contractèrent une
hideuse immobilité. Il était mort, mort en perdant sa seule, sa
dernière illusion. En cherchant un asile dans le cœur de son fils, il y
trouvait une tombe plus creuse que les hommes ne la font
d’habitude à leurs morts. Aussi, ses cheveux furent-ils éparpillés par
l’horreur, et son regard convulsé parlait-il encore. C’était un père se
levant avec rage de son sépulcre pour demander vengeance à Dieu!
—Tiens! le bonhomme est fini, s’écria don Juan.
Empressé de présenter le mystérieux cristal à la lueur de la
lampe, comme un buveur consulte sa bouteille à la fin d’un repas, il
n’avait pas vu blanchir l’œil de son père. Le chien béant contemplait
alternativement son maître mort et l’élixir, de même que don Juan
regardait tour à tour son père et la fiole. La lampe jetait des flammes
ondoyantes. Le silence était profond, la viole muette. Belvidéro
tressaillit en croyant voir son père se remuer. Intimidé par
l’expression roide de ses yeux accusateurs, il les ferma, comme il
aurait poussé une persienne battue par le vent pendant une nuit
d’automne. Il se tint debout, immobile, perdu dans un monde de
pensées. Tout à coup un bruit aigre, semblable au cri d’un ressort
rouillé, rompit ce silence. Don Juan, surpris, faillit laisser tomber le
flacon. Une sueur, plus froide que ne l’est l’acier d’un poignard, sortit
de ses pores. Un coq de bois peint surgit au-dessus d’une horloge et
chanta trois fois. C’était une de ces ingénieuses machines à l’aide
desquelles les savants de cette époque se faisaient éveiller à l’heure
fixée pour leurs travaux. L’aube rougissait déjà les croisées. Don
Juan avait passé dix heures à réfléchir. La vieille horloge était plus
fidèle à son service qu’il ne l’était dans l’accomplissement de ses
devoirs envers Bartholoméo. Ce mécanisme se composait de bois,
de poulies, de cordes, de rouages, tandis que lui avait ce
mécanisme particulier à l’homme, et nommé un cœur. Pour ne plus
s’exposer à perdre la mystérieuse liqueur, le sceptique don Juan la
replaça dans le tiroir de la petite table gothique. En ce moment
solennel, il entendit dans les galeries un tumulte sourd: c’était des
voix confuses, des rires étouffés, des pas légers, les froissements de
la soie, enfin le bruit d’une troupe joyeuse qui tâche de se recueillir.
La porte s’ouvrit, et le prince, les amis de don Juan, les sept
courtisanes, les cantatrices apparurent dans le désordre bizarre où
se trouvent des danseuses surprises par les lueurs du matin, quand
le soleil lutte avec les feux pâlissants des bougies. Ils arrivaient tous
pour donner au jeune héritier les consolations d’usage.
—Oh! oh! le pauvre don Juan aurait-il donc pris cette mort au
sérieux, dit le prince à l’oreille de la Brambilla.
—Mais son père était un bien bon homme, répondit-elle.
Cependant les méditations nocturnes de don Juan avaient
imprimé à ses traits une expression si frappante, qu’elle imposa
silence à ce groupe. Les hommes restèrent immobiles. Les femmes,
dont les lèvres étaient séchées par le vin, dont les joues avaient été
marbrées par des baisers, s’agenouillèrent et se mirent à prier. Don
Juan ne put s’empêcher de tressaillir en voyant les splendeurs, les
joies, les rires, les chants, la jeunesse, la beauté, le pouvoir, toute la
vie personnifiée se prosternant ainsi devant la mort. Mais, dans cette
adorable Italie, la débauche et la religion s’accouplaient alors si bien,
que la religion y était une débauche et la débauche une religion! Le
prince serra affectueusement la main de don Juan; puis, toutes les
figures ayant formulé simultanément une même grimace mi-partie de
tristesse et d’indifférence, cette fantasmagorie disparut, laissant la
salle vide. C’était bien une image de la vie! En descendant les
escaliers, le prince dit à la Rivabarella:—Hein! qui aurait cru don
Juan un fanfaron d’impiété? Il aime son père!
—Avez-vous remarqué le chien noir? demanda la Brambilla.
—Le voilà immensément riche, repartit en soupirant la Bianca
Cavatolino.
—Que m’importe! s’écria la fière Varonèse, celle qui avait brisé le
drageoir.
—Comment, que t’importe? s’écria le duc. Avec ses écus il est
aussi prince que moi.
D’abord don Juan, balancé par mille pensées, flotta entre
plusieurs partis. Après avoir pris conseil du trésor amassé par son
père, il revint, sur le soir, dans la chambre mortuaire, l’âme grosse
d’un effroyable égoïsme. Il trouva dans l’appartement tous les gens
de sa maison occupés à rassembler les ornements du lit de parade
sur lequel feu monseigneur allait être exposé le lendemain, au milieu
d’une superbe chambre ardente, curieux spectacle que tout Ferrare
devait venir admirer. Don Juan fit un signe, et ses gens s’arrêtèrent
tous, interdits, tremblants.
—Laissez-moi seul ici, dit-il d’une voix altérée, vous n’y rentrerez
qu’au moment où j’en sortirai.
Quand les pas du vieux serviteur qui s’en allait le dernier ne
retentirent plus que faiblement sur les dalles, don Juan ferma
précipitamment la porte, et, sûr d’être seul, il s’écria:—Essayons!
Le corps de Bartholoméo était couché sur une longue table. Pour
dérober à tous les yeux le hideux spectacle d’un cadavre qu’une
extrême décrépitude et la maigreur rendaient semblable à un
squelette, les embaumeurs avaient posé sur le corps un drap qui
l’enveloppait, moins la tête. Cette espèce de momie gisait au milieu
de la chambre; et le drap, naturellement souple, en dessinait
vaguement les formes, mais aiguës, roides et grêles. Le visage était
déjà marqué de larges taches violettes qui indiquaient la nécessité
d’achever l’embaumement. Malgré le scepticisme dont il était armé,
don Juan trembla en débouchant la magique fiole de cristal. Quand il
arriva près de la tête, il fut même contraint d’attendre un moment,
tant il frissonnait. Mais ce jeune homme avait été, de bonne heure,
savamment corrompu par les mœurs d’une cour dissolue; une
réflexion digne du duc d’Urbin vint donc lui donner un courage
qu’aiguillonnait un vif sentiment de curiosité, il semblait même que le
démon lui eût soufflé ces mots qui résonnèrent dans son cœur:—
Imbibe un œil! Il prit un linge, et, après l’avoir parcimonieusement
mouillé dans la précieuse liqueur, il le passa légèrement sur la
paupière droite du cadavre. L’œil s’ouvrit.
—Ah! ah! dit don Juan en pressant le flacon dans sa main
comme nous serrons en rêvant la branche à laquelle nous sommes
suspendus au-dessus d’un précipice.
Il voyait un œil plein de vie, un œil d’enfant dans une tête de
mort, la lumière y tremblait au milieu d’un jeune fluide; et, protégée
par de beaux cils noirs, elle scintillait pareille à ces lueurs uniques
que le voyageur aperçoit dans une campagne déserte, par les soirs
d’hiver. Cet œil flamboyant paraissait vouloir s’élancer sur don Juan,
et il pensait, accusait, condamnait, menaçait, jugeait, parlait, il criait,
il mordait. Toutes les passions humaines s’y agitaient. C’était les
supplications les plus tendres: une colère de roi, puis l’amour d’une
jeune fille demandant grâce à ses bourreaux; enfin le regard profond
que jette un homme sur les hommes en gravissant la dernière
marche de l’échafaud. Il éclatait tant de vie dans ce fragment de vie,
que don Juan épouvanté recula, il se promena par la chambre, sans
oser regarder cet œil, qu’il revoyait sur les planchers, sur les
tapisseries. La chambre était parsemée de pointes pleines de feu,
de vie, d’intelligence. Partout brillaient des yeux qui aboyaient après
lui!
—Il aurait bien revécu cent ans, s’écria-t-il involontairement au
moment où, ramené devant son père par une influence diabolique, il
contemplait cette étincelle lumineuse.
Tout à coup la paupière intelligente se ferma et se rouvrit
brusquement, comme celle d’une femme qui consent. Une voix eût
crié: «Oui!» don Juan n’aurait pas été plus effrayé.
—Que faire? pensa-t-il. Il eut le courage d’essayer de clore cette
paupière blanche. Ses efforts furent inutiles.
—Le crever? Ce sera peut-être un parricide? se demanda-t-il.
—Oui, dit l’œil par un clignotement d’une étonnante ironie.
—Ha! ha! s’écria don Juan, il y a de la sorcellerie là-dedans. Et il
s’approcha de l’œil pour l’écraser. Une grosse larme roula sur les
joues creuses du cadavre, et tomba sur la main de Belvidéro.
—Elle est brûlante, s’écria-t-il en s’asseyant.
Cette lutte l’avait fatigué comme s’il avait combattu, à l’exemple
de Jacob, contre un ange.
Enfin il se leva en se disant:—Pourvu qu’il n’y ait pas de sang!
Puis, rassemblant tout ce qu’il faut de courage pour être lâche, il
écrasa l’œil, en le foulant avec un linge, mais sans le regarder. Un
gémissement inattendu, mais terrible, se fit entendre. Le pauvre
barbet expirait en hurlant.
—Serait-il dans le secret, se demanda don Juan en regardant le
fidèle animal.
Don Juan Belvidéro passa pour un fils pieux. Il éleva un
monument de marbre blanc sur la tombe de son père, et en confia
l’exécution des figures aux plus célèbres artistes du temps. Il ne fut
parfaitement tranquille que le jour où la statue paternelle,
agenouillée devant la Religion, imposa son poids énorme sur cette
fosse, au fond de laquelle il enterra le seul remords qui ait effleuré
son cœur dans les moments de lassitude physique. En inventoriant
les immenses richesses amassées par le vieil orientaliste, don Juan
devint avare, n’avait-il pas deux vies humaines à pourvoir d’argent?
Son regard profondément scrutateur pénétra dans le principe de la
vie sociale, et embrassa d’autant mieux le monde qu’il le voyait à
travers un tombeau. Il analysa les hommes et les choses pour en
finir d’une seule fois avec le Passé, représenté par l’Histoire; avec le
Présent, configuré par la Loi; avec l’Avenir, dévoilé par les Religions.
Il prit l’âme et la matière, les jeta dans un creuset, n’y trouva rien, et
dès lors il devint don Juan!
Maître des illusions de la vie, il s’élança, jeune et beau, dans la
vie, méprisant le monde, mais s’emparant du monde. Son bonheur
ne pouvait pas être cette félicité bourgeoise qui se repaît d’un bouilli
périodique, d’une douce bassinoire en hiver, d’une lampe pour la nuit
et de pantoufles neuves à chaque trimestre. Non, il se saisit de
l’existence comme un singe qui attrape une noix, et sans s’amuser
longtemps il dépouilla savamment les vulgaires enveloppes du fruit
pour en discuter la pulpe savoureuse. La poésie et les sublimes
transports de la passion humaine ne lui allèrent plus au cou-de-pied.
Il ne commit point la faute de ces hommes puissants qui, s’imaginant
parfois que les petites âmes croient aux grandes, s’avisent
d’échanger les hautes pensées de l’avenir contre la petite monnaie
de nos idées viagères. Il pouvait bien, comme eux, marcher les
pieds sur terre et la tête dans les cieux; mais il aimait mieux
s’asseoir, et sécher, sous ses baisers, plus d’une lèvre de femme
tendre, fraîche et parfumée; car, semblable à la Mort, là où il passait,
il dévorait tout sans pudeur, voulant un amour de possession, un
amour oriental, aux plaisirs longs et faciles. N’aimant que la femme
dans les femmes, il se fit de l’ironie une allure naturelle à son âme.
Quand ses maîtresses se servaient d’un lit pour monter aux cieux où
elles allaient se perdre au sein d’une extase enivrante, don Juan les
y suivait, grave, expansif, sincère autant que sait l’être un étudiant
allemand. Mais il disait JE, quand sa maîtresse, folle, éperdue, disait
nous! Il savait admirablement bien se laisser entraîner par une
femme. Il était toujours assez fort pour lui faire croire qu’il tremblait
comme un jeune lycéen qui dit à sa première danseuse, dans un bal:
«Vous aimez la danse?» Mais il savait aussi rugir à propos, tirer son
épée puissante et briser les commandeurs. Il y avait de la raillerie
dans sa simplicité et du rire dans ses larmes, car il sut toujours
pleurer autant qu’une femme, quand elle dit à son mari: «Donne-moi
un équipage, ou je meurs de la poitrine.» Pour les négociants, le
monde est un ballot ou une masse de billets en circulation; pour la
plupart des jeunes gens, c’est une femme; pour quelques femmes,
c’est un homme; pour certains esprits, c’est un salon, une coterie, un
quartier, une ville; pour don Juan, l’univers était lui! Modèle de grâce
et de noblesse, d’un esprit séduisant, il attacha sa barque à tous les
rivages; mais en se faisant conduire, il n’allait que jusqu’où il voulait
être mené. Plus il vit, plus il douta. En examinant les hommes, il
devina souvent que le courage était de la témérité; la prudence, une
poltronnerie; la générosité, finesse; la justice, un crime; la
délicatesse, une niaiserie; la probité, une organisation: et, par une
singulière fatalité, il s’aperçut que les gens vraiment probes, délicats,
justes, généreux, prudents et courageux, n’obtenaient aucune
considération parmi les hommes.—Quelle froide plaisanterie! se dit-
il. Elle ne vient pas d’un dieu. Et alors, renonçant à un monde
meilleur, il ne se découvrit jamais en entendant prononcer un nom,
et considéra les saints de pierre dans les églises comme des
œuvres d’art. Aussi, comprenant le mécanisme des sociétés
humaines, ne heurtait-il jamais trop les préjugés, parce qu’il n’était
pas aussi puissant que le bourreau; mais il tournait les lois sociales
avec cette grâce et cet esprit si bien rendus dans sa scène avec
monsieur Dimanche. Il fut en effet le type du Don Juan de Molière,
du Faust de Gœthe, du Manfred de Byron et du Melmoth de Maturin.
Grandes images tracées par les plus grands génies de l’Europe, et
auxquelles les accords de Mozart ne manqueront pas plus que la
lyre de Rossini peut-être! Images terribles que le principe du mal,
existant chez l’homme, éternise, et dont quelques copies se
retrouvent de siècle en siècle: soit que ce type entre en pourparler
avec les hommes en s’incarnant dans Mirabeau; soit qu’il se
contente d’agir en silence, comme Bonaparte; ou de presser
l’univers dans une ironie, comme le divin Rabelais; ou bien encore
qu’il se rie des êtres, au lieu d’insulter aux choses, comme le
maréchal de Richelieu; et mieux peut-être, soit qu’il se moque à la
fois des hommes et des choses, comme le plus célèbre de nos
ambassadeurs. Mais le génie profond de don Juan Belvidéro
résuma, par avance, tous ces génies. Il se joua de tout. Sa vie était
une moquerie qui embrassait hommes, choses, institutions, idées.
Quant à l’éternité, il avait causé familièrement une demi-heure avec
le pape Jules II, et à la fin de la conversation, il lui dit en riant:—S’il
faut absolument choisir, j’aime mieux croire en Dieu qu’au diable; la
puissance unie à la bonté offre toujours plus de ressource que n’en
a le Génie du Mal.
—Oui, mais Dieu veut qu’on fasse pénitence dans ce monde...
—Vous pensez donc toujours à vos indulgences? répondit
Belvidéro. Eh! bien, j’ai, pour me repentir des fautes de ma première
vie, toute une existence en réserve.
—Ah! si tu comprends ainsi la vieillesse, s’écria le pape, tu
risques d’être canonisé.
—Après votre élévation à la papauté, l’on peut tout croire.
Et ils allèrent voir les ouvriers occupés à bâtir l’immense
basilique consacrée à saint Pierre.
—Saint Pierre est l’homme de génie qui nous a constitué notre
double pouvoir, dit le pape à don Juan, il mérite ce monument. Mais
parfois, la nuit, je pense qu’un déluge passera l’éponge sur cela, et
ce sera à recommencer...
Don Juan et le pape se prirent à rire, ils s’étaient entendus. Un
sot serait allé, le lendemain, s’amuser avec Jules II chez Raphaël ou
dans la délicieuse Villa-Madama; mais Belvidéro alla le voir officier
pontificalement, afin de se convaincre de ses doutes. Dans une
débauche, La Rovère aurait pu se démentir et commenter
l’Apocalypse.
Toutefois cette légende n’est pas entreprise pour fournir des
matériaux à ceux qui voudront écrire des mémoires sur la vie de don
Juan, elle est destinée à prouver aux honnêtes gens que Belvidéro
n’est pas mort dans son duel avec une pierre, comme veulent le
faire croire quelques lithographes. Lorsque don Juan Belvidéro
atteignit l’âge de soixante ans, il vint se fixer en Espagne. Là, sur
ses vieux jours, il épousa une jeune et ravissante Andalouse. Mais,
par calcul, il ne fut ni bon père ni bon époux. Il avait observé que
nous ne sommes jamais si tendrement aimés que par les femmes
auxquelles nous ne songeons guère. Dona Elvire saintement élevée
par une vieille tante au fond de l’Andalousie, dans un château, à
quelques lieues de San-Lucar, était tout dévouement et tout grâce.
Don Juan devina que cette jeune fille serait femme à longtemps
combattre une passion avant d’y céder, il espéra donc pouvoir la
conserver vertueuse jusqu’à sa mort. Ce fut une plaisanterie
sérieuse, une partie d’échecs qu’il voulut se réserver de jouer
pendant ses vieux jours. Fort de toutes les fautes commises par son
père Bartholoméo, don Juan résolut de faire servir les moindres
actions de sa vieillesse à la réussite du drame qui devait s’accomplir
sur son lit de mort. Ainsi la plus grande partie de ses richesses resta
enfouie dans les caves de son palais à Ferrare, où il allait rarement.
Quant à l’autre moitié de sa fortune, elle fut placée en viager, afin
d’intéresser à la durée de sa vie et sa femme et ses enfants, espèce
de rouerie que son père aurait dû pratiquer; mais cette spéculation
de machiavélisme ne lui fut pas très-nécessaire. Le jeune Philippe
Belvidéro, son fils, devint un Espagnol aussi consciencieusement
religieux que son père était impie, en vertu peut-être du proverbe: à
père avare, enfant prodigue. L’abbé de San-Lucar fut choisi par don
Juan pour diriger les consciences de la duchesse de Belvidéro et de
Philippe. Cet ecclésiastique était un saint homme, de belle taille,
admirablement bien proportionné, ayant de beaux yeux noirs, une
tête à la Tibère, fatiguée par les jeûnes, blanche de macérations, et
journellement tenté comme le sont tous les solitaires. Le vieux
seigneur espérait peut-être pouvoir encore tuer un moine avant de
finir son premier bail de vie. Mais, soit que l’abbé fût aussi fort que
don Juan pouvait l’être lui-même, soit que dona Elvire eût plus de
prudence ou de vertu que l’Espagne n’en accorde aux femmes, don
Juan fut contraint de passer ses derniers jours comme un vieux curé
de campagne, sans scandale chez lui. Parfois il prenait plaisir à
trouver son fils ou sa femme en faute sur leurs devoirs de religion, et
voulait impérieusement qu’ils exécutassent toutes les obligations
imposées aux fidèles par la cour de Rome. Enfin il n’était jamais si

You might also like