You are on page 1of 53

Big Data Analytics Tools and

Technology for Effective Planning 1st


Edition Arun K. Somani
Visit to download the full and correct content document:
https://textbookfull.com/product/big-data-analytics-tools-and-technology-for-effective-
planning-1st-edition-arun-k-somani/
More products digital (pdf, epub, mobi) instant
download maybe you interests ...

Big Data Analytics Tools and Technology for Effective


Planning 1st Edition Arun K. Somani

https://textbookfull.com/product/big-data-analytics-tools-and-
technology-for-effective-planning-1st-edition-arun-k-somani-2/

Emerging Technologies in Computer Engineering


Microservices in Big Data Analytics Second
International Conference ICETCE 2019 Jaipur India
February 1 2 2019 Revised Selected Papers Arun K.
Somani
https://textbookfull.com/product/emerging-technologies-in-
computer-engineering-microservices-in-big-data-analytics-second-
international-conference-icetce-2019-jaipur-india-
february-1-2-2019-revised-selected-papers-arun-k-somani/

Emerging Technology and Architecture for Big data


Analytics 1st Edition Anupam Chattopadhyay

https://textbookfull.com/product/emerging-technology-and-
architecture-for-big-data-analytics-1st-edition-anupam-
chattopadhyay/

Cognitive Computing for Big Data Systems Over IoT


Frameworks Tools and Applications 1st Edition Arun
Kumar Sangaiah

https://textbookfull.com/product/cognitive-computing-for-big-
data-systems-over-iot-frameworks-tools-and-applications-1st-
edition-arun-kumar-sangaiah/
Big data and analytics for insurers 1st Edition Boobier

https://textbookfull.com/product/big-data-and-analytics-for-
insurers-1st-edition-boobier/

Proceedings of First International Conference on Smart


System Innovations and Computing SSIC 2017 Jaipur India
1st Edition Arun K. Somani

https://textbookfull.com/product/proceedings-of-first-
international-conference-on-smart-system-innovations-and-
computing-ssic-2017-jaipur-india-1st-edition-arun-k-somani/

Big Data Analytics for Intelligent Healthcare


Management 1st Edition Nilanjan Dey

https://textbookfull.com/product/big-data-analytics-for-
intelligent-healthcare-management-1st-edition-nilanjan-dey/

From Big Data to Big Profits Success with Data and


Analytics 1st Edition Russell Walker

https://textbookfull.com/product/from-big-data-to-big-profits-
success-with-data-and-analytics-1st-edition-russell-walker/

Big Data Analytics for Cloud IoT and Cognitive


Computing 1st Edition Kai Hwang

https://textbookfull.com/product/big-data-analytics-for-cloud-
iot-and-cognitive-computing-1st-edition-kai-hwang/
Big Data Analytics
Tools and Technology for Effective Planning
Chapman & Hall/CRC
Big Data Series

SERIES EDITOR
Sanjay Ranka

AIMS AND SCOPE


This series aims to present new research and applications in Big Data, along with the computa-
tional tools and techniques currently in development. The inclusion of concrete examples and
applications is highly encouraged. The scope of the series includes, but is not limited to, titles in the
areas of social networks, sensor networks, data-centric computing, astronomy, genomics, medical
data analytics, large-scale e-commerce, and other relevant topics that may be proposed by poten-
tial contributors.

PUBLISHED TITLES
FRONTIERS IN DATA SCIENCE
Matthias Dehmer and Frank Emmert-Streib
BIG DATA OF COMPLEX NETWORKS
Matthias Dehmer, Frank Emmert-Streib, Stefan Pickl, and Andreas Holzinger
BIG DATA COMPUTING: A GUIDE FOR BUSINESS AND TECHNOLOGY
MANAGERS
Vivek Kale
BIG DATA : ALGORITHMS, ANALYTICS, AND APPLICATIONS
Kuan-Ching Li, Hai Jiang, Laurence T. Yang, and Alfredo Cuzzocrea
BIG DATA MANAGEMENT AND PROCESSING
Kuan-Ching Li, Hai Jiang, and Albert Y. Zomaya
BIG DATA ANALYTICS: TOOLS AND TECHNOLOGY FOR EFFECTIVE
PLANNING
Arun K. Somani and Ganesh Chandra Deka
BIG DATA IN COMPLEX AND SOCIAL NETWORKS
My T. Thai, Weili Wu, and Hui Xiong
HIGH PERFORMANCE COMPUTING FOR BIG DATA
Chao Wang
NETWORKING FOR BIG DATA
Shui Yu, Xiaodong Lin, Jelena Mišić, and Xuemin (Sherman) Shen
Big Data Analytics
Tools and Technology for Effective Planning

Edited by
Arun K. Somani
Ganesh Chandra Deka
CRC Press
Taylor & Francis Group
6000 Broken Sound Parkway NW, Suite 300
Boca Raton, FL 33487-2742

© 2018 by Taylor & Francis Group, LLC


CRC Press is an imprint of Taylor & Francis Group, an Informa business

No claim to original U.S. Government works

Printed on acid-free paper

International Standard Book Number-13: 978-1-138-03239-2 (Hardback)

This book contains information obtained from authentic and highly regarded sources. Reasonable efforts have been made to
publish reliable data and information, but the author and publisher cannot assume responsibility for the validity of all materi-
als or the consequences of their use. The authors and publishers have attempted to trace the copyright holders of all material
reproduced in this publication and apologize to copyright holders if permission to publish in this form has not been obtained.
If any copyright material has not been acknowledged please write to let us know so we may rectify in any future reprint.

Except as permitted under U.S. Copyright Law, no part of this book may be reprinted, reproduced, transmitted, or utilized in
any form by any electronic, mechanical, or other means, now known or hereafter invented, including photocopying, micro-
filming, and recording, or in any information storage or retrieval system, without written permission from the publishers.

For permission to photocopy or use material electronically from this work, please access www.copyright.com (http://www​
.copyright.com/) or contact the Copyright Clearance Center, Inc. (CCC), 222 Rosewood Drive, Danvers, MA 01923, 978-750-
8400. CCC is a not-for-profit organization that provides licenses and registration for a variety of users. For organizations that
have been granted a photocopy license by the CCC, a separate system of payment has been arranged.

Trademark Notice: Product or corporate names may be trademarks or registered trademarks, and are used only for identifi-
cation and explanation without intent to infringe.

Library of Congress Cataloging‑in‑Publication Data

Names: Somani, Arun K., author. | Deka, Ganesh Chandra, 1969- author.
Title: Big data analytics : tools and technology for effective planning / [edited by] Arun K. Somani, Ganesh
Chandra Deka.
Description: Boca Raton : CRC Press, [2018] | Series: Chapman & Hall/CRC Press big data series | Includes
bibliographical references and index.
Identifiers: LCCN 2017016514| ISBN 9781138032392 (hardcover : acid-free paper) | ISBN 9781315391250
(ebook) | ISBN 9781315391243 (ebook) | ISBN 9781315391236 (ebook)
Subjects: LCSH: Big data.
Classification: LCC QA76.9.B45 B548 2018 | DDC 005.7--dc23
LC record available at https://lccn.loc.gov/2017016514

Visit the Taylor & Francis Web site at


http://www.taylorandfrancis.com

and the CRC Press Web site at


http://www.crcpress.com
Contents

Preface............................................................................................................................................. vii
About the Editors............................................................................................................................ix
Contributors.....................................................................................................................................xi

1. Challenges in Big Data........................................................................................................... 1


Pothireddy Venkata Lakshmi Narayana Rao, Pothireddy Siva Abhilash, and PS Pavan Kumar

2. Challenges in Big Data Analytics...................................................................................... 37


Balamurugan Balusamy, Vegesna Tarun Sai Varma, and Sohil Sri Mani Yeshwanth Grandhi

3. Big Data Reference Model................................................................................................... 55


Kevin Berwind, Andrei Voronov, Matthias Schneider, Marco Bornschlegl, Felix Engel,
Michael Kaufmann, and Matthias Hemmje

4. A Survey of Tools for Big Data Analytics......................................................................... 75


K. G. Srinivasa, Zeeshan Ahmad, Nabeel Siddiqui, and Abhishek Kumar

5. Understanding the Data Science behind Business Analytics...................................... 93


Mayank Mishra, Pratik Mishra, and Arun K. Somani

6. Big Data Predictive Modeling and Analytics................................................................ 117


Mydhili K. Nair, Arjun Rao, and Mipsa Patel

7. Deep Learning for Engineering Big Data Analytics.................................................... 151


Kin Gwn Lore, Daniel Stoecklein, Michael Davies, Baskar Ganapathysubramanian,
and Soumik Sarkar

8. A Framework for Minimizing Data Leakage from Nonproduction Systems......... 167


Jacqueline Cope, Leandros A. Maglaras, Francois Siewe, Feng Chen, and Helge Janicke

9. Big Data Acquisition, Preparation, and Analysis Using Apache Software


Foundation Tools................................................................................................................. 195
Gouri Ginde, Rahul Aedula, Snehanshu Saha, Archana Mathur, Sudeepa Roy Dey,
Gambhire Swati Sampatrao, and BS Daya Sagar

10. Storing and Analyzing Streaming Data: A Big Data Challenge............................... 229
Devang Swami, Sampa Sahoo, and Bibhudatta Sahoo

11. Big Data Cluster Analysis: A Study of Existing Techniques and Future
Directions.............................................................................................................................. 247
Piyush Lakhawat and Arun K. Somani

12. Nonlinear Feature Extraction for Big Data Analytics.................................................. 267


Adil Omari, Juan José Choquehuanca Zevallos, and Roberto Díaz Morales

v
vi Contents

13. Enhanced Feature Mining and Classifier Models to Predict Customer Churn
for an e-Retailer................................................................................................................... 293
Karthik B. Subramanya and Arun K. Somani

14. Large-Scale Entity Clustering Based on Structural Similarities


within Knowledge Graphs................................................................................................ 311
Mahmoud Elbattah, Mohamed Roushdy, Mostafa Aref, and Abdel-Badeeh M. Salem

15. Big Data Analytics for Connected Intelligence with the Internet of Things......... 335
Mohammad Samadi Gharajeh

16. Big Data-Driven Value Chains and Digital Platforms: From Value
Co-creation to Monetization............................................................................................. 355
Roberto Moro Visconti, Alberto Larocca, and Michele Marconi

17. Distant and Close Reading of Dutch Drug Debates in Historical


Newspapers: Possibilities and Challenges of Big Data Analysis in Historical
Public Debate Research...................................................................................................... 373
Berrie van der Molen and Toine Pieters

Index.............................................................................................................................................. 391
Preface

Three central questions concerning Big Data are how to classify Big Data, what are the
best methods for managing Big Data, and how to accurately analyze Big Data. Although
various methods exist to answer these questions, no single or globally accepted methodol-
ogy is recognized to perform satisfactorily on all data and can be accepted since Big Data
Analytics tools have to deal with the large variety and large scale of data sets. For example,
some of the use cases of Big Data Analytics tools include real-time intelligence, data dis-
covery, and business reporting. These all present a different challenge.
This edited volume, titled Big Data Analytics: Tools and Technology for Effective Planning,
deliberates upon these various aspects of Big Data Analytics for effective planning. We
start with Big Data challenges and a reference model, and then dwell into data mining,
algorithms, and storage methods. This is followed by various technical facets of Big Data
analytics and some application areas.
Chapter 1 and 2 discuss Big Data challenges. Chapter 3 presents the Big Data reference
model. Chapter 4 covers Big Data analytic tools.
Chapters 5 to 9 focus on the various advanced Big Data mining technologies and
algorithms.
Big Data storage is an important and very interesting topic for researchers. Hence, we
have included a chapter on Big Data storage technology (Chapter 10).
Chapters 11 to 14 consider the various technical facets of Big Data analytics such as non-
linear feature extraction, enhanced feature mining, classifier models to predict customer
churn for an e-retailer, and large-scale entity clustering on knowledge graphs for topic
discovery and exploration.
In the Big Data world, driven by the Internet of Things (IoT), a majority of the data is gen-
erated by IoT devices. Chapter 15 and Chapter 16 discuss two application areas: connected
intelligence and traffic analysis, respectively. Finally, Chapter 17 is about the possibilities
and challenges of Big Data analysis in humanities research.
We are confident that the book will be a valuable addition to the growing knowledge
base, and will be impactful and useful in providing information on Big Data analytics
tools and technology for effective planning. As Big Data becomes more intrusive and per-
vasive, there will be increasing interest in this domain. It is our hope that this book will
not only showcase the current state of art and practice but also set the agenda for future
directions in the Big Data analytics domain.

vii
http://taylorandfrancis.com
About the Editors

Arun K. Somani is currently serving as associate dean for research for the College of
Engineering and Anson Marston Distinguished Professor of Electrical and Computer
Engineering at Iowa State University. Somani’s research interests are in the areas of
dependable and high-performance system design, algorithms, and architecture; wave-
length-division multiplexing-based optical networking; and image-based navigation tech-
niques. He has published more than 300 technical papers, several book chapters, and one
book, and has supervised more than 70 MS and more than 35 PhD students. His research
has been supported by several projects funded by the industry, the National Science
Foundation (NSF), and the Defense Advanced Research Projects Agency (DARPA). He
was the lead designer of an antisubmarine warfare system for the Indian navy, a Meshkin
fault-tolerant computer system architecture for the Boeing Company, a Proteus multicom-
puter cluster-based system for the Coastal Navy, and a HIMAP design tool for the Boeing
Commercial Company. He was awarded the Distinguished Engineer member grade of
the Association for Computing Machinery (ACM) in 2006, and elected Fellow of IEEE in
1999 for his contributions to “theory and applications of computer networks.” He was also
elected as a Fellow of the American Association for the Advancement of Science (AAAS)
in 2012.

Ganesh Chandra Deka is currently deputy director of Training at Directorate General


of Training, Ministry of Skill Development and Entrepreneurship, Government of India,
New Delhi, India. His research interests include e-governance, Big Data analytics, NoSQL
databases, and vocational education and training. He has authored two books on cloud
computing published by LAP Lambert (Germany). He has also coauthored four text-
books on computer science, published by Moni Manik Prakashan (India). So far he has
edited seven books (four for IGI Global, three for CRC Press) on Big Data, NoSQL, and
cloud computing, and authored seven book chapters. He has published eight research
papers in various reputed journals (two for IEEE, one for Elsevier). He was also guest
editor of three special issues of reputed indexed international journals. He has published
nearly 50 research papers for various IEEE conferences, and organized 8 IEEE International
Conferences as technical chair in India. He is a member of the editorial board and reviewer
for various journals and international conferences. He is a member of IEEE, the Institution
of Electronics and Telecommunication Engineers, India; and associate member of the
Institution of Engineers, India.

ix
http://taylorandfrancis.com
Contributors

Pothireddy Siva Abhilash Jacqueline Cope


Southern New Hampshire University School of Computer Science and
Manchester, New Hampshire Informatics De Montfort University
Leicester, United Kingdom
Rahul Aedula
PESIT Bangalore South Campus Michael Davies
Bangalore, India Department of Computer Science
Iowa State University
Zeeshan Ahmad Ames, Iowa
SAP Labs India Pvt Ltd
Bengaluru, India Sudeepa Roy Dey
PESIT Bangalore South Campus
Mostafa Aref Bangalore, India
Faculty of Computer and Information
Sciences Mahmoud Elbattah
Ain Shams University College of Engineering and Informatics
Cairo, Egypt National University of Ireland
Galway, Ireland
Balamurugan Balusamy
School of Information Technology Felix Engel
Vellore Institute of Technology Faculty of Mathematics and Computer
Vellore, Tamil Nadu, India Science
University of Hagen
Kevin Berwind Hagen, Germany
Faculty of Mathematics and Computer
Science Baskar Ganapathysubramanian
University of Hagen Department of Computer Science
Hagen, Germany Iowa State University
Ames, Iowa
Marco Bornschlegl
Faculty of Mathematics and Computer Mohammad Samadi Gharajeh
Science Young Researchers and Elite Club
University of Hagen Tabriz Branch
Hagen, Germany Islamic Azad University
Tabriz, Iran
Feng Chen
School of Computer Science and Informatics Gouri Ginde
De Montfort University PESIT Bangalore South Campus
Leicester, United Kingdom Bangalore, India

xi
xii Contributors

Matthias Hemmje Michele Marconi


Faculty of Mathematics and Computer Department of Life and Environmental
Science Sciences
University of Hagen Università Politecnica delle Marche
Hagen, Germany Ancona, Italy

Helge Janicke Archana Mathur


School of Computer Science and PESIT Bangalore South Campus
Informatics Bangalore, India
De Montfort University
Leicester, United Kingdom Mayank Mishra
Department of Electrical and Computer
Michael Kaufmann Engineering
Lucerne University of Applied Sciences Iowa State University
and Arts School of Information Ames, Iowa
Technology
Zug-Rotkreuz, Switzerland Pratik Mishra
Department of Electrical and Computer
Abhishek Kumar Engineering
JP Morgan Iowa State University
Bengaluru, India Ames, Iowa

PS Pavan Kumar Roberto Díaz Morales


Sri Paladugu Parvathidevi Engineering University Carlos III (UC3M)
College and Technology Madrid, Spain
Andhra Pradesh, India
Mydhili K. Nair
Piyush Lakhawat Department of Information Science and
Department of Electrical and Computer Engineering
Engineering M.S. Ramaiah Institute of Technology
Iowa State University Bangalore, India
Ames, Iowa
Adil Omari
Alberto Larocca Department of Computer Science
Head of R&D Cosmo Ltd. Universidad Autónoma de Madrid
Accra, Ghana Madrid, Spain

Kin Gwn Lore Mipsa Patel


Department of Mechanical Engineering Department of Computer Science and
Iowa State University Engineering
Ames, Iowa M.S. Ramaiah Institute of Technology
Bangalore, India
Leandros A. Maglaras
School of Computer Science and Toine Pieters
Informatics Descartes Centre for the History and
De Montfort University Philosophy of the Sciences and the Arts
Leicester, United Kingdom Freudenthal Institute
Utrecht University
Utrecht, the Netherlands
Contributors xiii

Arjun Rao Soumik Sarkar


Department of Information Science and Department of Mechanical Engineering
Engineering Iowa State University
M.S. Ramaiah Institute of Technology Ames, Iowa
Bangalore, India
Matthias Schneider
Pothireddy Venkata Lakshmi Narayana Faculty of Mathematics and Computer
Rao Science
Kampala International University University of Hagen
Kampala, Uganda Hagen, Germany

Mohamed Roushdy Francois Siewe


Faculty of Computer and Information School of Computer Science and
Sciences Informatics
Ain Shams University Cairo, Egypt De Montfort University
Leicester, United Kingdom
BS Daya Sagar
Indian Statistical Institute Nabeel Siddiqui
Bangalore, India Sr. Developer SAP LABS INDIA PVT LTD
Bengaluru
Snehanshu Saha
PESIT Bangalore South Campus Arun K. Somani
Bangalore, India Department of Electrical and Computer
Engineering
Bibhudatta Sahoo Iowa State University
Department of Computer Science and Ames, Iowa
Engineering
National Institute of Technology Rourkela K. G. Srinivasa
Rourkela, Odisha, India Department of Information Technology
CBP Government Engineering College
Sampa Sahoo New Delhi, India
Department of Computer Science and
Engineering Daniel Stoecklein
National Institute of Technology Rourkela Department of Mechanical Engineering
Rourkela, Odisha, India Iowa State University
Ames, Iowa
Abdel-Badeeh M. Salem
Faculty of Computer and Information Karthik B. Subramanya
Department of Electrical and Computer
Sciences
Engineering
Ain Shams University Cairo, Egypt
Iowa State University
Ames, Iowa
Gambhire Swati Sampatrao
PESIT Bangalore South Campus
Devang Swami
Bangalore, India
Department of Computer Science and
Engineering
National Institute of Technology Rourkela
Rourkela, Odisha, India
xiv Contributors

Berrie van der Molen Andrei Voronov


Descartes Centre for the History and Faculty of Mathematics and Computer
Philosophy of the Sciences and the Arts Science
Freudenthal Institute University of Hagen
Utrecht University Hagen, Germany
Utrecht, the Netherlands
Sohil Sri Mani Yeshwanth Grandhi
Vegesna Tarun Sai Varma School of Information Technology
School of Information Technology Vellore Institute of Technology
Vellore Institute of Technology Vellore, Tamil Nadu, India
Vellore, Tamil Nadu, India
Juan José Choquehuanca Zevallos
Roberto Moro Visconti University Carlos III (UC3M)
Department of Business Administration Madrid, Spain
Universita Cattolica del Sacro Coure
Milan, Italy
1
Challenges in Big Data

Pothireddy Venkata Lakshmi Narayana Rao,


Pothireddy Siva Abhilash, and PS Pavan Kumar

CONTENTS
Introduction......................................................................................................................................2
Background..................................................................................................................................2
Goals and Challenges of Analyzing Big Data......................................................................... 2
Paradigm Shifts...........................................................................................................................3
Organization of This Paper........................................................................................................4
Algorithms for Big Data Analytics........................................................................................... 4
k-Means.................................................................................................................................... 4
Classification Algorithms: k-NN..........................................................................................5
Application of Big Data: A Case Study.................................................................................... 5
Economics and Finance.........................................................................................................5
Other Applications.................................................................................................................6
Salient Features of Big Data............................................................................................................ 7
Heterogeneity..............................................................................................................................7
Noise Accumulation...................................................................................................................8
Spurious Correlation................................................................................................................... 9
Coincidental Endogeneity........................................................................................................ 11
Impact on Statistical Thinking................................................................................................. 13
Independence Screening.......................................................................................................... 15
Dealing with Incidental Endogeneity.................................................................................... 16
Impact on Computing Infrastructure..................................................................................... 17
Literature Review........................................................................................................................... 19
MapReduce................................................................................................................................ 19
Cloud Computing.....................................................................................................................22
Impact on Computational Methods.......................................................................................22
First-Order Methods for Non-Smooth Optimization........................................................... 23
Dimension Reduction and Random Projection.................................................................... 24
Future Perspectives and Conclusion........................................................................................... 27
Existing Methods....................................................................................................................... 27
Proposed Methods......................................................................................................................... 29
Probabilistic Graphical Modeling........................................................................................... 29
Mining Twitter Data: From Content to Connections........................................................... 29
Late Work: Location-Specific Tweet Detection and Topic Summarization
in Twitter............................................................................................................................... 29
Tending to Big Data Challenges in Genome Sequencing and RNA Interaction
Prediction...................................................................................................................................30
Single-Cell Genome Sequencing........................................................................................ 30

1
2 Big Data Analytics

RNA Structure and RNA–RNA Association Expectation............................................... 30


Identifying Qualitative Changes in Living Systems............................................................ 31
Acknowledgments......................................................................................................................... 31
References....................................................................................................................................... 31
Additional References for Researchers and Advanced Readers for Further Reading.........34
Key Terminology and Definitions...............................................................................................34

Introduction
Enormous data guarantee new levels of investigative disclosure and financial quality.
What is new about Big Data and how they vary from the conventional little or medium-
scale information? This paper outlines the open doors and difficulties brought by Big Data,
with accentuation on the recognized elements of Big Data and measurable and computa-
tional technique and in addition registering engineering to manage them.

Background
We are entering the time of Big Data, a term that alludes to the blast of data now accessible.
Such a Big Data development is driven by the way that gigantic measures of h­ igh-dimensional
or unstructured information are consistently delivered and are presented in a much less
“­luxurious” format than they used to be. For instance, in genomics we have seen an enor-
mous drop in costs for sequencing of an entire genome [1]. This is likewise valid in many
different scientific areas, for example, online network examination, biomedical imaging,
high-recurrence money transactions, investigation of reconnaissance recordings, and retail
deals. The current pattern for these vast amounts of information to be delivered and stored in
an inexpensive manner is likely to keep up or even quicken in the future [2]. This pattern will
have a profound effect on science, designing, and business. For instance, logical advances are
turning out to be increasingly information driven, and specialists will increasingly consider
themselves customers of information. The monstrous measures of high-dimensional infor-
mation convey both open doors and new difficulties to information examination. Substantial
measurable investigations for Big Data handling are turning out to be progressively essential.

Goals and Challenges of Analyzing Big Data


What are the purposes of violation depressed Big Data? As per Fan and Lu [3], two principal
objectives of high-dimensional information investigation are to create powerful strategies that
can precisely anticipate the future perceptions and in the meantime gain ­understanding into
the relationship between the elements and reactions for experimental purposes. In addition,
because of the extensive specimen size, Big Data offers an ascent to two more objectives: to
comprehend heterogeneity and shared traits across various subpopulations.
At the end of the day, Big Data gives guarantees for:

1. Investigating the shrouded structures of every subpopulation of the information,


which is generally not possible and may even be dealt with as “exceptions” when
the specimen size is small; and
2. Extricating imperative regular elements across numerous subpopulations not-
withstanding the expansive individual varieties of data.
Challenges in Big Data 3

What are the difficulties of investigating Big Data? Big Data is portrayed by high dimen-
sionality and substantial specimen size. These two elements raise three one-of-a-kind
difficulties:

1. High dimensionality brings clamor gathering, spurious relationships, and coinci-


dental homogeneity;
2. High dimensionality consolidated with vast specimen size brings additional con-
siderations, for example, regarding substantial computational expense and algo-
rithmic flimsiness;
3. The gigantic examples in Big Data are regularly totaled from various sources at
various times, utilizing distinctive advances. This creates issues regarding hetero-
geneity, trial varieties, and factual predispositions and obliges us to employ more
versatile and hardy methodologies.

Paradigm Shifts
To handle the troubles of Big Data, we require new quantifiable derivation and computa-
tional techniques. As an example, various standard systems that perform well for moderate
test sizes don’t scale to enormous amounts of data. Basically, various truthful methodolo-
gies that perform well for low-dimensional data are going up against basic troubles in
separating high-dimensional data. To plot effective, truthful strategies for exploring and
anticipating Big Data, we need to address Big Data issues, for instance, heterogeneity, hul-
labaloo gathering, spurious connections, and fortuitous endogeneity, despite changing the
quantifiable precision and computational profitability.
With respect to exactness, estimation diminishment, and variable determination are crit-
ical parts in exploring high-dimensional data. We will address these disturbing, building
issues. As a case in point, in a high-dimensional portrayal, Fan and Fan [4] and Pittelkow
and Ghosh [5] reported that a standard course of action using all parts plays out no bet-
ter than any subjective guess, due to racket gathering. This induces new regularization
methods [6–10] and without question calls for self-sufficiency screening [11–13]. In addi-
tion, high dimensionality presents spurious connections between responses and arbitrary
covariates, which may incite wrong truthful reasoning and false exploratory conclusions
[14]. High dimensionality also give rise to adventitious endogeneity, a wonder that various
irregular covariates may obviously be connected with the remaining tumults. The endoge-
neity makes true inclinations and causes model determination inconsistency that can lead
to wrong trial exposures [15,16]. In any case, most true techniques rely upon suspicious
exogenous suppositions that can’t be endorsed by data (see our discussion of unplanned
endogeneity region, below) [17]).
New quantifiable frameworks in light of these issues are basically required. As for effi-
ciency, Big Data convinces the headway of new computational base and data stockpiling
procedures. Streamlining is consistently a mechanical assembly, not a target, for Big Data
examination. Such a perspective change has provoked colossal advances on upgrades of
speedy configurations that are versatile to handle huge data amounts with high dimen-
sionality. This fabricates cross-mediations for different fields, including bits of knowledge,
change, and applied mathematics. As a case in point, Donoho and Elad [18] showed that
the nondeterministic polynomial–time hard (NP-hard) best subset backslide can be recast
as an L1-standard rebuffed smallest-squares issue, which can be comprehended within a
point procedure.
4 Big Data Analytics

Elective figurings to animate this L1-standard rebuffed smallest-squares issues, for


instance, least edge backslide [19], edge incline dive [20], coordinate drop [21,22], and itera-
tive shrinkage-thresholding computations [23,24], are proposed. Other than limitless scale
upgrade counts, Big Data in a like manner stirs the progression of majorization–minimization
computations [25–27], “extensive-scale screening and little-scale streamlining” framework
[28], parallel figuring strategies [29–31], and evaluated estimations that are versatile to tre-
mendous sample sizes.

Organization of This Paper


The next section focuses on analytics to handle the increases in Big Data [32] and outlines
the issue from the perspectives of science, urban planning, and social science. The salient
features of the Big Data portion of this chaper clear up some unique segments of Big Data
and their consequences for quantifiable conclusions. Quantifiable strategies that handle
these Big Data issues are discussed in the section on impact on truthful considering [33].
The impact on enrolling base section gives an outline on a flexible figuring base for Big
Data stockpiling and taking care of it. The section on the impact on computational meth-
ods covers the computational pieces of Big Data and introduces some recent advances.
Finally, we present our conclusions and anticipated future directions.

Algorithms for Big Data Analytics


k-Means
What does it do? k-Means implies k bunches from a group of articles arranged so that the
individuals from a gathering are more comparable. It is a prevalent bunch examination
system for investigating a data set. What is bunch investigation? Bunch investigation is a
group of calculations intended to shape gatherings such that the gathered individual data
are more comparative versus nonbunch individuals. Bunches and gatherings are synony-
mous in the realm of group examination. Is there a case for this? Certainly, assuming we
have a data set of patients. In group examination, these are called perceptions. We know
different things about every patient, like age, heartbeat, pulse, VO2(max), cholesterol, and
so forth [34]. This is a vector speaking to the patient.
You can essentially think about a vector as a rundown of numbers we consider about
the patient. This rundown can likewise be deciphered as directions in multidimensional
space. Heartbeat can be one measurement, pulse another measurement, etc.
You may ponder, given this arrangement of vectors, how would we group together
patients that have comparable age, beat, circulation strains, and so on? We need to know
the best part.
k-implies determines what number of bunches you need. k-implies can deal with the
rest. How does k-implies deal with the rest? k-implies has heaps of varieties to enhance for
specific sorts of information. At an abnormal state, they all accomplish something like this:

1. k-implies picks foci in multidimensional space to speak to each of the k groups.


These are called centroids.
2. Every patient will be nearest to one of these k centroids. They ideally will not all be
nearest to the same one, so they can shape a group around their closest centroid.
3. What we have then are k bunches, and every patient is considered an individual
from a group.
Challenges in Big Data 5

4. k-implies then finds the inside for each of the k groups in light of its bunch indi-
viduals (correct, utilizing the patient vectors).
5. This focus turns into the new centroid for the bunch.
6. Since the centroid is in a better place now, patients may now be nearer to different
centroids. At the end of the day, they may change bunch enrollment.
7. Steps 2 to 6 are rehashed until the centroids change no more and the bunch enroll-
ments balance out. This is called meeting.

Is it safe to say whether this is managed or unsupervised? It depends, yet most would
group the k-implies as unsupervised. Other than determining the quantity of groups,
k-signifies “takes in” the bunches all alone with no data about which group a percep-
tion has a place. k-means can be semidirected. Why use k-implies? I don’t think many
researchers will have an issue with this [35]. The key offering purpose of k-means is its
straightforwardness. Its straightforwardness means it is for the most part quicker and
more proficient than other calculations, particularly over huge data sets. It shows signs of
improvement.
k-means can be utilized to prebunch an enormous data set after a more costly group
investigation on the subgroups. k-means can likewise be utilized to quickly “play” with k
and investigate whether there are disregarded examples or connections in the data set. It’s
not all smooth cruising.
Two key shortcomings of k-means are its vulnerability to anomalies and its vulnerabil-
ity to the underlying decision of centroids. One last thing to remember is that k-means
are intended to work on ceaseless information; one will have to run a few iterations to
motivate it to chip away at discrete information [36]. Where is it utilized? A huge amount
of executions for k-implies grouping are accessible online, through the programs Apache
Mahout, Julia, R, SciPy, Weka, MATLAB, and SAS.
If decision trees and clustering do not impress you, you are going to love the next
algorithm.

Classification Algorithms: k-NN


The k-nearest neighbor (k-NN) classifier is a standout among the most surely under-
stood techniques in information mining, on account of its viability and effortlessness.
Nonetheless, it does not have the versatility to oversee enormous data sets. The funda-
mental issues found for managing vast scales of information are runtimes and memory
utilization.

Application of Big Data: A Case Study


Economics and Finance
Over the previous decade, more undertakings accepted the data-driven approach
to management that was more centered around organizations, decreasing risks and
improving execution. The undertakings are executing specific data examination tasks
to accumulate, store, regulate, and separate tremendous data sets to the extent of
sources to perceive key business bits of learning that can be handled to support better
essential initiatives. As a case in point, available cash-related data sources join stock
costs, coin, and subordinate trades, trade records, high-repeat trades, unstructured
6 Big Data Analytics

news and compositions, clients’ sureness, and business sentiments secured in Web
system administration and the Web, among others. Separating these immense data
sets helps to measure a firm’s perils and, furthermore, methodical threats. It requires
specialists who are familiar with advanced real frameworks in a portfolio organiza-
tion system, securities heading, prohibitive trading, cash-related directing, and peril
organization [37].
Inspecting a limitless leading body of financial and budgetary data is trying. As a
case in point, a basic contraption in inspecting the joint advancement of the macroeco-
nomics time game plan, the standard vector autoregressive (VAR) consolidates nearly 10
variables, given the way that the amount of parameters creates quadratic partners with
the degree of the model. In any case, nowadays econometricians need to examine multi-
variate time plans with more than numerous variables. Merging all information into the
VAR model will achieve great overfitting and unpleasant conjecture execution. One plan
is to rely on upon sparsity suppositions, under which new quantifiable gadgets have
been made [38,39]. Another important topic is portfolio upgrade and threat organization
[40,41]. Regarding this issue, assessing the covariance and opposite covariance systems
of the benefits of the points of interest in the portfolio are a crucial part, except that we
have 1,000 stocks to be supervised. There are 500 covariance parameters to be surveyed
[42]. Despite the likelihood that we could evaluate each individual parameter definitely,
the cumulated screw up of the whole grid estimation can be broadly under system mea-
sures. This requires new quantifiable procedures. It could not be any more self-evident,
for occurrence [43–49], on evaluating immense covariance systems and their regressive
nature.

Other Applications
Big Data has different diverse applications. Taking casual group data examination for
an exampl, huge measures of social gathering information are being made by Twitter,
Facebook, LinkedIn, and YouTube. These data reveal different individuals’ qualities and
have been mishandled in various fields. In a like manner, Web systems administration
and internet contain a massive measure of information on customer preferences and con-
fidences [50], driving money-related perspectives markers, business cycles, political dis-
positions, and the financial and social states of an overall population. It is predicted that
the casual group data will continue to impact and be abused for some new applications. A
couple of other new applications that are getting the opportunity to be possible in the Big
Data era include the following:

1. Personalized organizations. With more individual data accumulated, business


endeavors can give tweaked organizations information regarding individual
preferences. As a case in point, Target (a retailing association in the United
States) can expect a customer’s needs by looking at that person’s accumulated
trade records.
2. Internet security. Right when a framework-based strike happens, undeniable data
on framework development may allow us to gainfully recognize the source and
centers of the ambush.
3. Personalized medicine. Additional satisfaction-associated limits, for example, indi-
vidual subnuclear qualities, human activities, human affinities, and environmental
Challenges in Big Data 7

components, are as of now available. Using these bits of information, it is possible


to dissect an individual’s disease [51] and select individualized drugs.
4. Digital humanities. Nowadays, various records are being digitized. For example,
Google has checked countless and recognized about every word in every one of all
published books. This produces an enormous amount of data and engages subjects
in the humanities, for instance, mapping the transportation structure in ancient
Rome, envisioning the money-related relationships in Chinese history, a focus on
how typical vernaculars are created after some time, or separating unquestionable
events.

Salient Features of Big Data


Big Data makes segments stand out that are not shared by the routine data sets. These
components stance basic troubles to data examination and goad the progression of new
true systems. Not at all like standard data sets, where the example size is customarily
greater than the estimation, Big Data is depicted by a colossal illustration size and high
dimensionality. To begin with, we discuss here the impact of boundless size on perception
heterogeneity: from one perspective [52], tremendous example size grants us to uncover cov-
ered plans associated with little subpopulations and feeble shared characteristic over the
whole mass of data. Of course, showing the trademark heterogeneity of Big Data requires
more progressed quantifiable strategies. In addition, we discuss a couple of exceptional
miracles associated with high dimensionality, including disturbance accumulation, spu-
rious relationship, and circumstantial endogeneity. These fascinating components make
traditional quantifiable methodologies off base. Shockingly, most high-dimensional quan-
tifiable frameworks address simple fuss-accumulating and spurious association issues,
but not unplanned endogeneity. They rely on upon erogeneity suspicions that consistently
cannot be endorsed by assembled data, due to unplanned endogeneity.

Heterogeneity
Big Data is routinely created through conglomeration from various data sources contrast-
ing with different subpopulations. Each subpopulation may show some wonderful parts
not shared by others [53]. In built-up settings where the example size is small or moder-
ate, data centers from small subpopulations are generally delegated exemptions, and it
is hard to proficiently show them on account of lacking observations. In any case, in the
Big Data time frame, the significant case size engages us to better understand hetero-
geneity, uncovering knowledge toward concentrates, for instance, researching the rela-
tionship between certain covariates (e.g., qualities or single-nucleotide polymorphisms
[SNPs]) and unprecedented results (e.g., unprecedented contaminations or illnesses in
little masses) and understanding why certain medications (e.g., chemotherapy) provide
an advantage to a subpopulation and harm another subpopulation. To better demonstrate
this point, we exhibit this with a mix model for the people:

λ1 p1 ( y ; θ1(x)) +  ⋅ + λm pm ( y ; θm(x))
8 Big Data Analytics

where λj ≥ 0 addresses the degree of jth subpublic, p j y; θ j (x) is the likelihood movement of
the response of jth submass accepted that the covariates x with θ j (x) as the parameter vec-
tor. Eventually, various subpopulations are every so often viewed, i.e., λj is small. Exactly
when the case size n is moderate, nλj can be small, making it infeasible that it affects the
covariate-subordinate parameters θ j (x) in light of the nonattendance of information. In
any case, in light of the fact that Big Data is portrayed by a considerable illustration size,
n, the example size nλj for the jth subpopulation can be unobtrusively broad, paying little
respect to the likelihood that λj is small [54]. This enables us to more absolutely understand
about the subpopulation parameters θ j (·). Essentially, the purpose of inclination brought
by Big Data is to understand the heterogeneity of subpopulations, for instance, the upsides
of certain modified treatments, which are infeasible when the sample size is small or
moderate.
Big Data also allows us to reveal slight shared qualities across whole masses, due to tre-
mendous illustration sizes. As a case in point, the benefit for the heart of one refreshment
of red wine each night can be difficult to estimate without an incomprehensible case size.
Basically, prosperity risks to presentation of certain normal components must be more con-
vincingly surveyed when the illustration sizes are adequately broad [55]. More than the previ-
ously expressed central focuses, the heterogeneity of Big Data in a like manner brings basic
challenges to quantifiable derivation. Reasoning the mix model in the above equation for
gigantic data sets requires utilization of quantifiable and computational procedures. With
low-power estimations, standard frameworks, for instance, the expectation–maximization
computation for constrained mix models can be associated. In high-power estimations,
nevertheless, we need to purposely regularize the evaluation method to refrain from over-
fitting or upheaval of the total data set and to devise extraordinary computations.

Noise Accumulation
Looking at Big Data obliges us to in the meantime gauge or test various parameters.
Estimation errors accumulate (noise accumulation) when a decision or gauge standard
depends upon innumerable parameters. The effect of such noise is especially genuine in
high-power estimations and may even order the honest-to-goodness signs. It is normally
dealt with by the sparsity suspicion [2]. Take a high-dimensional plan for an event [56]. A poor
gathering is a result of the nearness of various weak segments that do not add to the
diminishing of request errors [4]. For delineation, we consider a gathering issue where the
data are from two classes:

X1, … , Xn ~ Nd (µ1, Id) and Y1, … , Yn ~ Nd (µ 2 , Id)

This groups another recognition Z ∈ Rd into either the first or the modest. To diagram
the impact of commotion conglomeration in this portrayal, we used n = 100 and then d =
1,000. We set μ1 to 0 and μ2 to remain insufficient, i.e., simply the underlying 10 areas of μ2
were nonzero with a value 3 and the dissimilar units were 0. Figure 1.1 plots the underly-
ing two first sections by using the fundamental m = 2, 40, or 200 components and the whole
1,000 components. As shown in these plots, when m = 2, we obtain high discriminative
power. Regardless, the discriminative power ends up being low when m is excessively
broad, in light of noise accumulation. The underlying 10 highlights add to groupings, and
the remaining components do not. In this way, when m is >10, the procedure does not
receive any additional banners, yet the hoard uproars: the greater the m, the more the total
Challenges in Big Data 9

Composed of t samples
Map Reduce
TS Setup()
1 2 … k
1 2 … k 1
1
2 CDreducer
2 …
CD1
TR1 … t
t Initially all distances are+infinitive
Reduce() While maps running
1 2 … k
1 1 2 … k
2 1
CD2
TR2 … 2 CDreducer
TR t …
t
Update
1 2 … k
Cleanup()
1
2 Majority voting
CDM
TRM … Pred1 Pred2 Predt
t

FIGURE 1.1
Flowchart of the proposed MR-kNN algorithm.

tumult increases, which separates the course of action system with dimensionality. For
m = 40, the gathered signs reimburse the assembled tumult, so that the underlying two
fundamental fragments still have awesome discriminative power. At whatever point
m = 200, the amassed confusion surpasses the sign increases. The above examination
rouses the utilization of lacking models and variable decision to beat the effect of noice
accumulating. Case in point, in the game plan model [2], instead of using every one of the
segments, we could pick a subset of components which fulfill the best banner-to-confusion
extent [57]. Such a meager model gives more improved gathering execution. By the day’s
end, variable decision plays a crucial part in overcoming clatter, gathering all together and
backslide conjecture. In any case, variable willpower in tall approximations is trying a
straight result of spurious association, incidental endogeneity, heterogeneity, and estima-
tion botches.

Spurious Correlation
High dimensionality in a like manner brings spurious association, implying the way that
various uncorrelated unpredictable variables may have high example connections in high
estimations. A spurious relationship may achieve false legitimate revelations and wrong
quantifiable inductions [58]. Consider the issue of evaluating the coefficient vector β of an
immediate model:

y = Xβ + Var() = σ 2 Id[x1, … , xn ]T
10 Big Data Analytics

∈Rn×d addresses the design cross-section, ∈Rn addresses a free self-assertive noise vector,
and Id is the d × d character matrix. To adjust to the tumult gathering issue, when the esti-
mation d is like or greater than the case size n, it is renowned to acknowledge that selective
somewhat number of variables add to the response, i.e., β is a lacking vector. Under this
sparsity assumption, variable decision can be directed to keep up a key separation from
clatter accumulating, improve the execution of figure, and redesign the interpretability of
the model with closefisted demonstration. In high approximations, notwithstanding for a
perfect as clear as (3), variable determination is attempting a result of the proximity of spu-
rious association. In particular, Ref. [11] exhibited that, when the dimensionality is high,
the imperative variables can be especially compared with a couple of spurious variables
which are deductively unimportant [59]. We consider an essential case to demonstrate this
wonder. Let x1,..., xn be without n impression of a d-dimensional Gaussian unpredictable
vector X = (X1,..., Xd)T ∼Nd (0, Id). We again and again copy the data with n = 60 and d =
800 and 6,400 for 1,000 times. Figure 1.2 exhibits the observational transport of the most
compelling incomparable case relationship coefficient between the essential variable with
the staying ones described as follows:

r = max j ≥ 2 Corr X1, X j

Where Corr (X1, Xj) is the example relationship amongst the variables X1 and Xj. We
comprehend that the best aggregate illustration association gets the chance to be higher
as dimensionality additions. Additionally, we can enlist the most compelling aggregate
different relationship amongst X1 and straight mixes of a couple of pointless spurious
variables:

R = max S = 4 max{βj} 4 j = 1 Corr( X1, j ∈S βj X j)

This equation plots the definite scattering of the most great incomparable illustration
association coefficient between X1 and j ∈ SβjXj, where S is any size four subset of {2,..., d}
and βj is the scarcest squares backslide coefficient of Xj while backsliding X1 on {Xj}j ∈ S.
Afresh, we see that in spite of the way that X1 is totally free of X2,..., Xd, the association

Uml diagrams

Use case diagram:

Login

Insert data

Edit data

Status search
Admin Cluster search
Search categories

Logout

FIGURE 1.2
Data Mining with Big Data.
Challenges in Big Data 11

amongst X1 and the closest direct blend of any four variables of {Xj}j = 1 to X1 can be high.
We imply [14] about more theoretical results on depicting the solicitations of r.
The spurious association has basic impact on variable decision and may provoke false
exploratory exposures. Let XS = (X j) j∈S be the sub-discretionary vector recorded by S
and let S be the picked set that has the higher spurious association with X1. For example,
when n = 60 and d = 6,400, we see that X1 is in every way that really matters unclear
from X S for a set S with |S| = 4. If X1 addresses the expression level of a quality that
is accountable for a disease, we can’t remember it from the other four qualities in S that
have an equivalent judicious power, notwithstanding the way that they are deductively
unimportant.
Other than variable decision, spurious association may in like manner incite wrong
quantifiable finding. We illuminate this by considering again the same straight model as
in (3). Here we might need to assess the standard bumble σ of the remaining, which is
prominently highlighted in quantifiable deductions of backslide coefficients, model deter-
mination, honesty of-fit test and immaterial backslide. Allow S to be an arrangement of
chose flexible and P S be the figure matrix on the segment space of X S. The standard wait-
ing change estimator, in perspective of the picked variables, is

σ2 = yT (In − PS)y n −|S|.

The ideal is right. All things considered, the situation is absolutely particular when the
variables are picked in light of data. In particular, Ref. [14] showed that when there are
various spurious variables, σ2 is really considered little, which drives further to wrong
verifiable inductions including model determination or vitality tests, and false consistent
revelations, for instance, finding inaccurately qualities for nuclear instruments. They also
propose a refitted cross-acknowledgment methodology to contrast the issue.

Coincidental Endogeneity
Coincidental endogeneity is another unpretentious issue raised by high dimensionality. In
a relapse setting Y = dj = 1 βj X j + ε, the term “endogeneity” implies that a few indicators
{Xj} connect with the lingering commotion ε. The ordinary inadequate model expect is

Y = j βj X j + ε , and E (εX j) = 0 for j = 1, … , d,

with a little set S = {j: βj = 0}. The exogenous supposition in (7) that the leftover clamor ε is
uncorrelated with every one of the indicators is essential for legitimacy of most existing
measurable systems, including variable choice consistency. In spite of the fact that this
suspicion looks honest, it is anything but difficult to be damaged in high measurements, as
some of variables {Xj} are of course related to ε, making most high-dimensional strategies
factually invalid. To clarify the endogeneity issue in more detail, assume that obscure to
us, the reaction Y is identified with three covariates as takes after:

Y = X1 + X 2 + X 3 + ε , with Eε X j = 0, for j = 1, 2 , 3.

In the information-gathering stage, we don’t have the foggiest idea about the genuine
model, and in this way gather however many covariates that are conceivably identified
12 Big Data Analytics

with Y as could be allowed, as we would like to incorporate all individuals in S in (7). By


the way, some of those Xjs (for j = 1, 2, 3) may be associated with the remaining clamor ε.
This negates the exogenous demonstrating suspicion in (7). Indeed, the more covariates
that are gathered or measured, the harder it is to fulfill this suspicion. Dissimilar to spuri-
ous connections, coincidental endogeneity alludes to the honest-to-goodness presence of
relationships between variables inadvertently, both because of high dimensionality.
The previous is practically equivalent to discovering that two persons resemble each; how-
ever, they have no hereditary connection. The latter is like finding an associate, as you both
are effortlessly happening in a major city. All the more by and large, endogeneity happens as
a consequence of choice predispositions, estimation blunders, and excluded variables. These
marvels emerge much of the time in the investigation of Big Data, essentially because of two
reasons: With the advantage of new high-throughput estimation methods, researchers can
and tend to gather whatever amount mechanisms as could be predictable below the condi-
tions. This in like manner expands the likelihood that some of them may be associated with
the lingering clamor, by the way. Big Data is generally amassed from numerous sources with
possibly diverse information-creating plans. This builds the likelihood of determination incli-
nation and estimation mistakes, which additionally cause potential accidental endogeneity.
Whether coincidental endogeneity shows up in genuine datasets and by what method
might we test it by and by? We consider a genomics study in which 148 microarray tests are
downloaded from the GEO database and Array Express. These specimens are made under
the Affymetrix HGU1 [60] a stage for human subjects with prostate malignancy. The acquired
data set contains 22,283 tests, comparing 12,719 qualities. In this case, we are keen on the qual-
ity named discoid in area receptor family, part 1 (abridged as DDR1). DDR1 encodes receptor
tyrosine kinases, which assume an imperative part in the correspondence of cells with their
microenvironment. DDR1 is known not exceedingly with prostate tumors, and we wish to
study its relationship with different qualities in patients with prostate malignancy. We took
the quality articulations of DDR1 as the reaction variable Y and the outflows of all the remain-
ing 12,718 qualities as pointers. The leftward panel of Figure 1.3 shows the investigational
circulation of the connections between the reaction and individual indicators.

m=2 m = 40
6 6
4 4

2 2

0 0
−2
−2
−4
−2 0 2 4 −4 −2 0 2
(a) m = 200 (b) m = 1000
5.0
5
2.5

0.0 0

−2.5 −5

−5.0 −10
−6 −4 −2 0 2 4 −5 0 5 10
(c) (d)

FIGURE 1.3
Scatter plots for projection of the observed data (n = 100 from each class) on to the first two principal compo-
nents of the best m-dimensional selected feature space. A projected data with the filled circle indicates the first
and the filled triangle indicates the second class.
Challenges in Big Data 13

To show the presence of endogeneity, we fit an L1-punished minimum squares relapse


(Lasso) on the information, and the punishment is naturally chosen by means of 10-fold
cross-acceptance (37 qualities are chosen). Whether refit a standard slightest-squares
relapse on the chose model to ascertain the leftover vector. In the right board of Figure
1.3, we plot the exact conveyance of the relationships between the indicators and the
residuals. We see the remaining commotion is very closely associated with numerous
indicators. To ensure these connections are not absolutely brought about by a spurious
relationship, we present an invalid dispersion of the spurious connections by arbitrarily
permuting the requests of columns in the outline grid, such that the indicators are in
reality free of the lingering commotion. By looking at the two disseminations, we see
that the dispersion of connections among indicators and lingering clamor on the crude
information has a heavier tail than that on the permuted information. This outcome
gives stark confirmation of endogeneity in the information. The above talk demonstrates
that coincidental endogeneity is prone to happen in Big Data. The issue of managing
endogenous variables is not surely new in high-dimensional measurements. What is the
result of this endogeneity? Ref. [16] demonstrated that endogeneity causes irregularity
in model choice. Specifically, they gave intensive investigation to delineate the effect of
endogeneity on high-dimensional factual induction and proposed elective strategies to
lead direct relapse with consistency ensured under weaker conditions. See likewise the
accompanying segment.

Impact on Statistical Thinking


As discussed in the previous section, huge specimen size and high dimensionality bring
heterogeneity, clamor collection, spurious connection, and accidental endogeneity. These
elements of Big Data make customary measurable techniques invalid. In this segment,
we present new factual strategies that can deal with these difficulties. To handle the com-
motion-gathering issue, we accept that the model parameter β as in (3) is meager. The
traditional model determination hypothesis proposes to pick a parameter vector β that
minimizes the negative punished semiprobability:

− QL (β) + λ0

where QL(β) is the semiprobability of β and · 0 speaks to the L0 pseudostandard (i.e., the
quantity of nonzero sections in a vector). Here, λ > 0 is a regularization parameter that
controls the predisposition difference tradeoff. The answer for the streamlining issue in
(8) has decent factual properties. Nonetheless, it is basically combinatorics improvement
and does not scale to expansive scale issues. The estimator in (8) can be stretched out to a
more broad structure

n (β) + d j = 1 P λ , γ (βj)

where the term n (β) processes the heavens of the appropriateness of the perfect with limit

β and dj = 1 P λ , γ (βj)

is a sparsity-actuating punishment that empowers sparsity, in which λ is again the tun-


ing parameter that controls the predisposition difference tradeoff and γ is a conceivable
14 Big Data Analytics

calibrate parameter which controls the level of concavity of the punishment capacity [8].
Famous decisions of the punishment capacity Pλ, γ (·) incorporate the hard-­thresholding
punishment, softthresholding punishment [6], easily cut pardon deviation (SCAD) [8]
and mini-max concavity punishment (MCP) [10]. Figure 1.4 envisions these punishment
capacities for λ = 1. We see that all punishment capacities are collapsed sunken, yet the
softthresholding (L1-) punishment is additionally raised. The parameter γ in SCAD and
MCP controls the level of concavity. From Figure 1.4, we see that a littler estimation of γ
results in more inward punishments. At the point when γ gets to be bigger, SCAD and
MCP focalize to the delicate thresholding punishment. MCP is a speculation of the hard-
thresholding punishment which relates to y = 1.
In what manner might we pick among these punishment capacities? In applications, we
prescribe to utilize either SCAD or MCP thresholding, since they join the benefits of both
hard- and delicate-thresholding administrators. Numerous effective calculations have
been proposed for taking care of the enhancement issue in (9) with the above four pun-
ishments (see the section on “Effect on processing infrastructure”). The punished semi-
probability estimator (9) is somewhat strange. A firmly related technique is the sparsest
arrangement in the high certainty set, presented in the late book section in Ref. [17], which
has a much better measurable instinct. It is for the most part a material rule that isolates
the information, data, and the sparsity supposition. Assume that the information data are
abridged by the capacity n (β) in (9). This can be a probability, semiprobability, or misfor-
tune capacity. The underlying parameter vector β0 more often than not fulfills (β0) = 0,
where (·) is the angle vector of the normal misfortune capacity (β) = E n (β). In this manner,
a characteristic certainty set for β0 is

Cn = {β ∈ Rd: n (β) ∞ ≤ γn },

Dimension Dimension
d = 800 d = 800
d = 6400 d = 6400

10 10
Density

Density

5 5

0 0

0.3 0.4 0.5 0.6 0.5 0.6 0.7 0.8


Maximum absolute correlation Maximum absolute correlation

FIGURE 1.4
Illustration of spurious correlation. (Left) Distribution of the Maximum absolute sample correlation coefficients
between X1 and {Xi}j ≠ 1. (Right) Distribution of the maximum absolute sample correlation between X1 and
the closest linear projections of any four members of {Xj}i ≠ 1 to X1. Here the dimension d is 800 and 6400, the
sample size n is 60. The result is based on 1,000 situations.
Another random document with
no related content on Scribd:
seulement immense, il était infini. Ces sentiments n’avaient pu
s’abolir, ils s’étaient sans doute agrandis en se reproduisant sous
une autre forme. Elle si noble, si généreuse et si craintive, allait faire
retentir incessamment aux oreilles de ce grand homme le mot argent
et le son de l’argent; lui montrer les plaies de la misère, lui faire
entendre les cris de la détresse, quand il entendrait les voix
mélodieuses de la Renommée. Peut-être l’affection que Balthazar
avait pour elle s’en diminuerait-elle? Si elle n’avait pas eu d’enfant
elle aurait embrassé courageusement et avec plaisir la destinée
nouvelle que lui faisait son mari. Les femmes élevées dans
l’opulence sentent promptement le vide que couvrent les jouissances
matérielles; et quand leur cœur, plus fatigué que flétri, leur a fait
trouver le bonheur que donne un constant échange de sentiments
vrais, elles ne reculent point devant une existence médiocre, si elle
convient à l’être par lequel elles se savent aimées. Leurs idées, leurs
plaisirs sont soumis aux caprices de cette vie en dehors de la leur;
pour elles, le seul avenir redoutable est de la perdre. En ce moment
donc, ses enfants séparaient Pépita de sa vraie vie, autant que
Balthazar Claës s’était séparé d’elle par la Science; aussi, quand
elle fut revenue de vêpres, et qu’elle se fut jetée dans sa bergère,
renvoya-t-elle ses enfants en réclamant d’eux le plus profond
silence; puis, elle fit demander à son mari de venir la voir; mais
quoique Lemulquinier, le vieux valet de chambre, eût insisté pour
l’arracher à son laboratoire, Balthazar y était resté. Madame Claës
avait donc eu le temps de réfléchir. Et elle aussi demeura songeuse,
sans faire attention à l’heure ni au temps, ni au jour. La pensée de
devoir trente mille francs et de ne pouvoir les payer, réveilla les
douleurs passées, les joignit à celles du présent et de l’avenir. Cette
masse d’intérêts, d’idées, de sensations la trouva trop faible, elle
pleura. Quand elle vit entrer Balthazar dont alors la physionomie lui
parut plus terrible, plus absorbée, plus égarée qu’elle ne l’avait
jamais été; quand il ne lui répondit pas, elle resta d’abord fascinée
par l’immobilité de ce regard blanc et vide, par toutes les idées
dévorantes que distillait ce front chauve. Sous le coup de cette
impression elle désira mourir. Quand elle eut entendu cette voix
insouciante exprimant un désir scientifique au moment où elle avait
le cœur écrasé, son courage revint; elle résolut de lutter contre cette
épouvantable puissance qui lui avait ravi un amant, qui avait enlevé
à ses enfants un père, à la maison une fortune, à tous le bonheur.
Néanmoins, elle ne put réprimer la constante trépidation qui l’agita,
car, dans toute sa vie, il ne s’était pas rencontré de scène si
solennelle. Ce moment terrible ne contenait-il pas virtuellement son
avenir, et le passé ne s’y résumait-il pas tout entier?
Maintenant, les gens faibles, les personnes timides, ou celles à
qui la vivacité de leurs sensations agrandit les moindres difficultés
de la vie, les hommes que saisit un tremblement involontaire devant
les arbitres de leur destinée peuvent tous concevoir les milliers de
pensées qui tournoyèrent dans la tête de cette femme, et les
sentiments sous le poids desquels son cœur fut comprimé, quand
son mari se dirigea lentement vers la porte du jardin. La plupart des
femmes connaissent les angoisses de l’intime délibération contre
laquelle se débattit madame Claës. Ainsi celles même dont le cœur
n’a encore été violemment ému que pour déclarer à leur mari
quelque excédant de dépense ou des dettes faites chez la
marchande de modes, comprendront combien les battements du
cœur s’élargissent alors qu’il s’en va de toute la vie. Une belle
femme a de la grâce à se jeter aux pieds de son mari, elle trouve
des ressources dans les poses de la douleur; tandis que le
sentiment de ses défauts physiques augmentait encore les craintes
de madame Claës. Aussi, quand elle vit Balthazar près de sortir, son
premier mouvement fut-il bien de s’élancer vers lui; mais une cruelle
pensée réprima son élan, elle allait se mettre debout devant lui! ne
devait-elle pas paraître ridicule à un homme qui, n’étant plus soumis
aux fascinations de l’amour, pourrait voir juste. Joséphine eût
volontiers tout perdu, fortune et enfants, plutôt que d’amoindrir sa
puissance de femme. Elle voulut écarter toute chance mauvaise
dans une heure si solennelle, et appela fortement:—Balthazar? Il se
retourna machinalement et toussa; mais sans faire attention à sa
femme, il vint cracher dans une de ces petites boîtes carrées
placées de distance en distance le long des boiseries, comme dans
tous les appartements de la Hollande et de la Belgique. Cet homme,
qui ne pensait à personne, n’oubliait jamais les crachoirs, tant cette
habitude était invétérée. Pour la pauvre Joséphine, incapable de se
rendre compte de cette bizarrerie, le soin constant que son mari
prenait du mobilier, lui causait toujours une angoisse inouïe; mais,
dans ce moment, elle fut si violente, qu’elle la jeta hors des bornes,
et lui fit crier d’un ton plein d’impatience où s’exprimèrent tous ses
sentiments blessés:—Mais, monsieur, je vous parle!
—Qu’est-ce que cela signifie, répondit Balthazar en se retournant
vivement et lançant à sa femme un regard où la vie revenait et qui
fut pour elle comme un coup de foudre.
—Pardon, mon ami, dit-elle en pâlissant. Elle voulut se lever et
lui tendre la main, mais elle retomba sans force.—Je me meurs! dit-
elle d’une voix entrecoupée par des sanglots.
A cet aspect, Balthazar eut, comme tous les gens distraits, une
vive réaction et devina pour ainsi dire le secret de cette crise; il prit
aussitôt madame Claës dans ses bras, ouvrit la porte qui donnait sur
la petite antichambre, et franchit si rapidement le vieil escalier de
bois, que la robe de sa femme ayant accroché une gueule des
tarasques qui formaient les balustres, il en resta un lez entier
arraché à grand bruit. Il donna, pour l’ouvrir, un coup de pied à la
porte du vestibule commun à leurs appartements; mais il trouva la
chambre de sa femme fermée.
Il posa doucement Joséphine sur un fauteuil en se disant:—Mon
Dieu, où est la clef?
—Merci, mon ami, répondit madame Claës en ouvrant les yeux,
voici la première fois depuis bien long-temps que je me suis sentie si
près de ton cœur.
—Bon Dieu! cria Claës, la clef, voici nos gens.
Joséphine lui fit signe de prendre la clef qui était attachée à un
ruban le long de sa poche. Après avoir ouvert la porte, Balthazar jeta
sa femme sur un canapé, sortit pour empêcher ses gens effrayés de
monter en leur donnant l’ordre de promptement servir le dîner, et vint
avec empressement retrouver sa femme.
—Qu’as-tu, ma chère vie? dit-il en s’asseyant près d’elle et lui
prenant la main qu’il baisa.
—Mais je n’ai plus rien, répondit-elle, je ne souffre plus!
Seulement, je voudrais avoir la puissance de Dieu pour mettre à tes
pieds tout l’or de la terre.
—Pourquoi de l’or, demanda-t-il. Et il attira sa femme sur lui, la
pressa et la baisa de nouveau sur le front.—Ne me donnes-tu pas
de plus grandes richesses en m’aimant comme tu m’aimes, chère et
précieuse créature, reprit-il.
—Oh! mon Balthazar, pourquoi ne dissiperais-tu pas les
angoisses de notre vie à tous, comme tu chasses par ta voix le
chagrin de mon cœur? Enfin, je le vois, tu es toujours le même.
—De quelles angoisses parles-tu, ma chère?
—Mais nous sommes ruinés, mon ami!
—Ruinés, répéta-t-il. Il se mit à sourire, caressa la main de sa
femme en la tenant dans les siennes, et dit d’une voix douce qui
depuis longtemps ne s’était pas fait entendre:—Mais demain, mon
ange, notre fortune sera peut-être sans bornes. Hier en cherchant
des secrets bien plus importants, je crois avoir trouvé le moyen de
cristalliser le carbone, la substance du diamant. O ma chère
femme!... dans quelques jours tu me pardonneras mes distractions.
Il paraît que je suis distrait quelquefois. Ne t’ai-je pas brusquée tout
à l’heure? Sois indulgente pour un homme qui n’a jamais cessé de
penser à toi, dont les travaux sont tout pleins de toi, de nous.
—Assez, assez, dit-elle, nous causerons de tout cela ce soir,
mon ami. Je souffrais par trop de douleur, maintenant je souffre par
trop de plaisir.
Elle ne s’attendait pas à revoir cette figure animée par un
sentiment aussi tendre pour elle qu’il l’était jadis, à entendre cette
voix toujours aussi douce qu’autrefois, et à retrouver tout ce qu’elle
croyait avoir perdu.
—Ce soir, reprit-il, je veux bien, nous causerons. Si je
m’absorbais dans quelque méditation, rappelle-moi cette promesse.
Ce soir, je veux quitter mes calculs, mes travaux, et me plonger dans
toutes les joies de la famille, dans les voluptés du cœur; car, Pépita,
j’en ai besoin, j’en ai soif!
—Tu me diras ce que tu cherches, Balthazar?
—Mais, pauvre enfant, tu n’y comprendrais rien.
—Tu crois?... Hé! mon ami, voici près de quatre mois que j’étudie
la chimie pour pouvoir en causer avec toi. J’ai lu Fourcroy, Lavoisier,
Chaptal, Nollet, Rouelle, Berthollet, Gay-Lussac, Spallanzani,
Leuwenhoëk, Galvani, Volta, enfin tous les livres relatifs à la Science
que tu adores. Va, tu peux me dire tes secrets.
—Oh! tu es un ange, s’écria Balthazar en tombant aux genoux de
sa femme et versant des pleurs d’attendrissement qui la firent
tressaillir, nous nous comprendrons en tout!
—Ah! dit-elle, je me jetterais dans le feu de l’enfer qui attise tes
fourneaux pour entendre ce mot de ta bouche et pour te voir ainsi.
En entendant le pas de sa fille dans l’antichambre, elle s’y élança
vivement.—Que voulez-vous, Marguerite? dit-elle à sa fille aînée.
—Ma chère mère, monsieur Pierquin vient d’arriver. S’il reste à
dîner, il faudrait du linge, et vous avez oublié d’en donner ce matin.
Madame Claës tira de sa poche un trousseau de petites clefs et
les remit à sa fille, en lui désignant les armoires en bois des îles qui
tapissaient cette antichambre, et lui dit:—Ma fille, prenez à droite
dans les services Graindorge.
—Puisque mon cher Balthazar me revient aujourd’hui, rends-le-
moi tout entier? dit-elle en rentrant et donnant à sa physionomie une
expression de douce malice. Mon ami, va chez toi, fais-moi la grâce
de t’habiller, nous avons Pierquin à dîner. Voyons, quitte ces habits
déchirés. Tiens, vois ces taches? N’est-ce pas de l’acide muriatique
ou sulfurique qui a bordé de jaune tous ces trous? Allons, rajeunis-
toi, je vais t’envoyer Mulquinier quand j’aurai changé de robe.
Balthazar voulut passer dans sa chambre par la porte de
communication, mais il avait oublié qu’elle était fermée de son côté.
Il sortit par l’antichambre.
—Marguerite, mets le linge sur un fauteuil, et viens m’habiller, je
ne veux pas de Martha, dit madame Claës en appelant sa fille.
Balthazar avait pris Marguerite, l’avait tournée vers lui par un
mouvement joyeux en lui disant:—Bonjour, mon enfant, tu es bien
jolie aujourd’hui dans cette robe de mousseline, et avec cette
ceinture rose. Puis il la baisa au front et lui serra la main.
—Maman, papa vient de m’embrasser, dit Marguerite en entrant
chez sa mère; il paraît bien joyeux, bien heureux!
—Mon enfant, votre père est un bien grand homme, voici bientôt
trois ans qu’il travaille pour la gloire et la fortune de sa famille, et il
croit avoir atteint le but de ses recherches. Ce jour doit être pour
nous tous une belle fête...
—Ma chère maman, répondit Marguerite, nos gens étaient si
tristes de le voir refrogné, que nous ne serons pas seules dans la
joie. Oh! mettez donc une autre ceinture, celle-ci est trop fanée.
—Soit, mais dépêchons-nous, je veux aller parler à Pierquin: Où
est-il?
—Dans le parloir, il s’amuse avec Jean.
—Où sont Gabriel et Félicie?
—Je les entends dans le jardin.
—Hé! bien, descendez vite; veillez à ce qu’ils n’y cueillent pas de
tulipes! votre père ne les a pas encore vues de cette année, et il
pourrait aujourd’hui vouloir les regarder en sortant de table. Dites à
Mulquinier de monter à votre père tout ce dont il a besoin pour sa
toilette.
Quand Marguerite fut sortie, madame Claës jeta un coup d’œil à
ses enfants par les fenêtres de sa chambre qui donnaient sur le
jardin, et les vit occupés à regarder un de ces insectes à ailes
vertes, luisantes et tachetées d’or, vulgairement appelés des
couturières.
—Soyez sages, mes bien-aimés, dit-elle en faisant remonter une
partie du vitrage qui était à coulisse et qu’elle arrêta pour aérer sa
chambre. Puis elle frappa doucement à la porte de communication
pour s’assurer que son mari n’était pas retombé dans quelque
distraction. Il ouvrit, et elle lui dit d’un accent joyeux en le voyant
déshabillé:—Tu ne me laisseras pas long-temps seule avec
Pierquin, n’est-ce pas? Tu me rejoindras promptement.
Elle se trouva si leste pour descendre, qu’en l’entendant, un
étranger n’aurait pas reconnu le pas d’une boiteuse.
—Monsieur, en emportant madame, lui dit le valet de chambre
qu’elle rencontra dans l’escalier, a déchiré la robe, ce n’est qu’un
méchant bout d’étoffes; mais il a brisé la mâchoire de cette figure et
je ne sais pas qui pourra la remettre. Voilà notre escalier déshonoré,
cette rampe était si belle!
—Bah! mon pauvre Mulquinier, ne la fais pas raccommoder, ce
n’est pas un malheur.
—Qu’arrive-t-il donc, se dit Mulquinier, pour que ce ne soit pas un
désastre? mon maître aurait-il trouvé l’absolu?
—Bonjour, monsieur Pierquin, dit madame Claës en ouvrant la
porte du parloir.
Le notaire accourut pour donner le bras à sa cousine, mais elle
ne prenait jamais que celui de son mari; elle remercia donc son
cousin par un sourire et lui dit:—Vous venez peut-être pour les trente
mille francs?
—Oui, madame, en rentrant chez moi, j’ai reçu une lettre d’avis
de la maison Protez et Chiffreville qui a tiré, sur monsieur Claës, six
lettres de change de chacune cinq mille francs.
—Hé! bien, n’en parlez pas à Balthazar aujourd’hui, dit-elle.
Dînez avec nous. Si par hasard il vous demandait pourquoi vous
êtes venu, trouvez quelque prétexte plausible, je vous en prie.
Donnez-moi la lettre, je lui parlerai moi-même de cette affaire. Tout
va bien, reprit-elle en voyant l’étonnement du notaire. Dans quelques
mois, mon mari remboursera probablement les sommes qu’il a
empruntées.
En entendant cette phrase dite à voix basse, le notaire regarda
mademoiselle Claës qui revenait du jardin, suivie de Gabriel et de
Félicie, et dit:—Je n’ai jamais vu mademoiselle Marguerite aussi jolie
qu’elle l’est en ce moment.
Madame Claës, qui s’était assise dans sa bergère et avait pris
sur ses genoux le petit Jean, leva la tête, regarda sa fille et le notaire
en affectant un air indifférent.
Pierquin était de taille moyenne, ni gras, ni maigre, d’une figure
vulgairement belle et qui exprimait une tristesse plus chagrine que
mélancolique, une rêverie plus indéterminée que pensive; il passait
pour misanthrope, mais il était trop intéressé, trop grand mangeur
pour que son divorce avec le monde fût réel. Son regard
habituellement perdu dans le vide, son attitude indifférente, son
silence affecté semblaient accuser de la profondeur, et couvraient en
réalité le vide et la nullité d’un notaire exclusivement occupé
d’intérêts humains, mais qui se trouvait encore assez jeune pour être
envieux. S’allier à la maison Claës aurait été pour lui la cause d’un
dévouement sans bornes, s’il n’avait pas eu quelque sentiment
d’avarice sous-jacent. Il faisait le généreux, mais il savait compter.
Aussi, sans se rendre raison à lui-même de ses changements de
manières, ses attentions étaient-elles tranchantes, dures et bourrues
comme le sont en général celles des gens d’affaires, quand Claës lui
semblait ruiné; puis elles devenaient affectueuses, coulantes et
presque serviles, quand il soupçonnait quelque heureuse issue aux
travaux de son cousin. Tantôt il voyait en Marguerite Claës une
infante de laquelle il était impossible à un simple notaire de province
d’approcher; tantôt il la considérait comme une pauvre fille trop
heureuse s’il daignait en faire sa femme. Il était homme de province,
et Flamand, sans malice; il ne manquait même ni de dévouement ni
de bonté; mais il avait un naïf égoïsme qui rendait ses qualités
incomplètes, et des ridicules qui gâtaient sa personne. En ce
moment, madame Claës se souvint du ton bref avec lequel le notaire
lui avait parlé sous le porche de l’église Saint-Pierre, et remarqua la
révolution que sa réponse avait faite dans ses manières; elle devina
le fond de ses pensées, et d’un regard perspicace elle essaya de lire
dans l’âme de sa fille pour savoir si elle pensait à son cousin; mais
elle ne vit en elle que la plus parfaite indifférence. Après quelques
instants, pendant lesquels la conversation roula sur les bruits de la
ville, le maître du logis descendit de sa chambre où, depuis un
instant, sa femme entendait avec un inexprimable plaisir des bottes
criant sur le parquet. Sa démarche, semblable à celle d’un homme
jeune et léger, annonçait une complète métamorphose, et l’attente
que son apparition causait à madame Claës fut si vive qu’elle eut
peine à contenir un tressaillement quand il descendit l’escalier.
Balthazar se montra bientôt dans le costume alors à la mode. Il
portait des bottes à revers bien cirées qui laissaient voir le haut d’un
bas de soie blanc, une culotte de casimir bleu à boutons d’or, un
gilet blanc à fleurs, et un frac bleu. Il avait fait sa barbe, peigné ses
cheveux, parfumé sa tête, coupé ses ongles, et lavé ses mains avec
tant de soin qu’il semblait méconnaissable à ceux qui l’avaient vu
naguère. Au lieu d’un vieillard presque en démence, ses enfants, sa
femme et le notaire voyaient un homme de quarante ans dont la
figure affable et polie était pleine de séductions. La fatigue et les
souffrances que trahissaient la maigreur des contours et l’adhérence
de la peau sur les os avaient même une sorte de grâce.
—Bonjour, Pierquin, dit Balthazar Claës.
Redevenu père et mari, le chimiste prit son dernier enfant sur les
genoux de sa femme, et l’éleva en l’air en le faisant rapidement
descendre et le relevant alternativement.
—Voyez ce petit? dit-il au notaire. Une si jolie créature ne vous
donne-t-elle pas l’envie de vous marier? Croyez moi, mon cher, les
plaisirs de famille consolent de tout.—Brr! dit-il en enlevant Jean.
Pound! s’écriait-il en le mettant à terre. Brr! Pound!
L’enfant riait aux éclats de se voir alternativement en haut du
plafond et sur le parquet. La mère détourna les yeux pour ne pas
trahir l’émotion que lui causait un jeu si simple en apparence et qui,
pour elle, était toute une révolution domestique.
—Voyons comment tu vas, dit Balthazar en posant son fils sur le
parquet et s’allant jeter dans une bergère. L’enfant courut à son
père, attiré par l’éclat des boutons d’or qui attachaient la culotte au-
dessus de l’oreille des bottes.—Tu es un mignon! dit le père en
l’embrassant, tu es un Claës, tu marches droit.—Hé bien! Gabriel,
comment se porte le père Morillon? dit-il à son fils aîné en lui
prenant l’oreille et la lui tortillant, te défends-tu vaillamment contre
les thèmes, les versions? mords-tu ferme aux mathématiques?
Puis Balthazar se leva, vint à Pierquin, et lui dit avec cette
affectueuse courtoisie qui le caractérisait:—Mon cher, vous avez
peut-être quelque chose à me demander? Il lui donna le bras et
l’entraîna dans le jardin, en ajoutant:—Venez voir mes tulipes?...
Madame Claës regarda son mari pendant qu’il sortait, et ne sut
pas contenir sa joie en le revoyant si jeune, si affable, si bien lui-
même; elle se leva, prit sa fille par la taille, et l’embrassa en disant:
—Ma chère Marguerite, mon enfant chérie, je t’aime encore mieux
aujourd’hui que de coutume.
—Il y avait bien long-temps que je n’avais vu mon père si
aimable, répondit-elle.
Lemulquinier vint annoncer que le dîner était servi. Pour éviter
que Pierquin lui offrît le bras, madame Claës prit celui de Balthazar,
et toute la famille passa dans la salle à manger.
Cette pièce dont le plafond se composait de poutres apparentes,
mais enjolivées par des peintures, lavées et rafraîchies tous les ans,
était garnie de hauts dressoirs en chêne sur les tablettes desquelles
se voyaient les plus curieuses pièces de la vaisselle patrimoniale.
Les parois étaient tapissées de cuir violet sur lequel avaient été
imprimés, en traits d’or, des sujets de chasse. Au-dessus des
dressoirs, çà et là, brillaient soigneusement disposés des plumes
d’oiseaux curieux et des coquillages rares. Les chaises n’avaient
pas été changées depuis le commencement du seizième siècle et
offraient cette forme carrée, ces colonnes torses, et ce petit dossier
garni d’une étoffe à franges dont la mode fut si répandue que
Raphaël l’a illustrée dans son tableau appelé la Vierge à la chaise.
Le bois en était devenu noir, mais les clous dorés reluisaient comme
s’ils eussent été neufs, et les étoffes soigneusement renouvelées
étaient d’une couleur rouge admirable. La Flandre revivait là tout
entière avec ses innovations espagnoles. Sur la table, les carafes,
les flacons avaient cet air respectable que leur donnent les ventres
arrondis du galbe antique. Les verres étaient bien ces vieux verres
hauts sur patte qui se voient dans tous les tableaux de l’école
hollandaise ou flamande. La vaisselle en grès et ornée de figures
coloriées à la manière de Bernard de Palissy, sortait de la fabrique
anglaise de Wedgwood. L’argenterie était massive, à pans carrés, à
bosses pleines, véritable argenterie de famille dont les pièces, toutes
différentes de ciselure, de mode, de forme, attestaient les
commencements du bien-être et les progrès de la fortune de Claës.
Les serviettes avaient des franges, mode tout espagnole. Quant au
linge, chacun doit penser que chez les Claës, le point d’honneur
consistait à en posséder de magnifique. Ce service, cette argenterie
étaient destinés à l’usage journalier de la famille. La maison de
devant, où se donnaient les fêtes, avait son luxe particulier, dont les
merveilles réservées pour les jours de gala, leur imprimaient cette
solennité qui n’existe plus quand les choses sont déconsidérées
pour ainsi dire par un usage habituel. Dans le quartier de derrière,
tout était marqué au coin d’une naïveté patriarcale. Enfin, détail
délicieux, une vigne courait en dehors le long des fenêtres que les
pampres bornaient de toutes parts.
—Vous restez fidèle aux traditions, madame, dit Pierquin en
recevant une assiettée de cette soupe au thym, dans laquelle les
cuisinières flamandes ou hollandaises mettent de petites boules de
viandes roulées et mêlées à des tranches de pain grillé, voici le
potage du dimanche en usage chez nos pères! Votre maison et celle
de mon oncle Des Raquets sont les seuls où l’on retrouve cette
soupe historique dans les Pays-Bas. Ah! pardon, le vieux monsieur
Savaron de Savarus la fait encore orgueilleusement servir à Tournay
chez lui, mais partout ailleurs la vieille Flandre s’en va. Maintenant
les meubles se fabriquent à la grecque, on n’aperçoit partout que
casques, boucliers, lances et faisceaux. Chacun rebâtit sa maison,
vend ses vieux meubles, refond son argenterie, ou la troque contre
la porcelaine de Sèvres qui ne vaut ni le vieux Saxe ni les
chinoiseries. Oh! moi je suis Flamand dans l’âme. Aussi mon cœur
saigne-t-il en voyant les chaudronniers acheter pour le prix du bois
ou du métal, nos beaux meubles incrustés de cuivre ou d’étain. Mais
l’État social veut changer de peau, je crois. Il n’y a pas jusqu’aux
procédés de l’art qui ne se perdent! Quand il faut que tout aille vite,
rien ne peut être consciencieusement fait. Pendant mon dernier
voyage à Paris, l’on m’a mené voir les peintures exposées au
Louvre. Ma parole d’honneur, c’est des écrans que ces toiles sans
air, sans profondeur où les peintres craignent de mettre de la
couleur. Et ils veulent, dit-on, renverser notre vieille école. Ah!
ouin?...
—Nos anciens peintres, répondit Balthazar, étudiaient les
diverses combinaisons et la résistance des couleurs, en les
soumettant à l’action du soleil et de la pluie. Mais vous avez raison:
aujourd’hui les ressources matérielles de l’art sont moins cultivées
que jamais.
Madame Claës n’écoutait pas la conversation. En entendant dire
au notaire que les services de porcelaine étaient à la mode, elle
avait aussi conçu la lumineuse idée de vendre la pesante argenterie
provenue de la succession de son frère, espérant ainsi pouvoir
acquitter les trente mille francs dus par son mari.
—Ah! ah! disait Balthazar au notaire quand madame Claës se
remit à la conversation, l’on s’occupe de mes travaux à Douai?
—Oui, répondit Pierquin, chacun se demande à quoi vous
dépensez tant d’argent. Hier, j’entendais monsieur le premier
président déplorer qu’un homme de votre sorte cherchât la pierre
philosophale. Je me suis alors permis de répondre que vous étiez
trop instruit pour ne pas savoir que c’était se mesurer avec
l’impossible, trop chrétien pour croire l’emporter sur Dieu, et comme
tous les Claës, trop bon calculateur pour changer votre argent contre
de la poudre à Perlimpinpin. Néanmoins je vous avouerai que j’ai
partagé les regrets que cause votre retraite à toute la société. Vous
n’êtes vraiment plus de la ville. En vérité, madame, vous eussiez été
ravie si vous aviez pu entendre les éloges que chacun s’est plu à
faire de vous et de monsieur Claës.
—Vous avez agi comme un bon parent en repoussant des
imputations dont le moindre mal serait de me rendre ridicule,
répondit Balthazar. Ah! les Douaisiens me croient ruiné! Eh! bien,
mon cher Pierquin, dans deux mois je donnerai, pour célébrer
l’anniversaire de mon mariage, une fête dont la magnificence me
rendra l’estime que nos chers compatriotes accordent aux écus.
Madame Claës rougit fortement. Depuis deux ans cet
anniversaire avait été oublié. Semblable à ces fous qui ont des
moments pendant lesquels leurs facultés brillent d’un éclat inusité,
jamais Balthazar n’avait été si spirituel dans sa tendresse. Il se
montra plein d’attentions pour ses enfants, et sa conversation fut
séduisante de grâce, d’esprit, d’à-propos. Ce retour de la paternité,
absente depuis si long-temps, était certes la plus belle fête qu’il pût
donner à sa femme pour qui sa parole et son regard avaient repris
cette constante sympathie d’expression qui se sent de cœur à cœur
et qui prouve une délicieuse identité de sentiment.
IMP. S RAÇON

LEMULQUINIER
avait conçu pour son maître un
sentiment superstitieux mêlé de terreur,
d’admiration et d’égoïsme.

(LA RECHERCHE DE L’ABSOLU.)

Le vieux Lemulquinier paraissait se rajeunir, il allait et venait avec


une allégresse insolite causée par l’accomplissement de ses
secrètes espérances. Le changement si soudainement opéré dans
les manières de son maître était encore plus significatif pour lui que
pour madame Claës. Là où la famille voyait le bonheur, le valet de
chambre voyait une fortune. En aidant Balthazar dans ses
manipulations, il en avait épousé la folie. Soit qu’il eût saisi la portée
de ses recherches dans les explications qui échappaient au chimiste
quand le but se reculait sous ses mains, soit que le penchant inné
chez l’homme pour l’imitation lui eût fait adopter les idées de celui
dans l’atmosphère duquel il vivait, Lemulquinier avait conçu pour son
maître un sentiment superstitieux mêlé de terreur, d’admiration et
d’égoïsme. Le laboratoire était pour lui, ce qu’est pour le peuple un
bureau de loterie, l’espoir organisé. Chaque soir il se couchait en se
disant: «Demain, peut-être nagerons-nous dans l’or!» Et le
lendemain il se réveillait avec une foi toujours aussi vive que la
veille. Son nom indiquait une origine toute flamande. Jadis les gens
du peuple n’étaient connus que par un sobriquet tiré de leur
profession, de leur pays, de leur conformation physique ou de leurs
qualités morales. Ce sobriquet devenait le nom de la famille
bourgeoise qu’ils fondaient lors de leur affranchissement. En
Flandre, les marchands de fil de lin se nommaient des mulquiniers,
et telle était sans doute la profession de l’homme qui, parmi les
ancêtres du vieux valet, passa de l’état de serf à celui de bourgeois
jusqu’à ce que les malheurs inconnus rendissent le petit-fils du
mulquinier à son primitif état de serf, plus la solde. L’histoire de la
Flandre, de son fil et de son commerce se résumait donc en ce vieux
domestique, souvent appelé par euphonie Mulquinier. Son caractère
et sa physionomie ne manquaient pas d’originalité. Sa figure de
forme triangulaire était large, haute et couturée par une petite-vérole
qui lui avait donné de fantastiques apparences, en y laissant une
multitude de linéaments blancs et brillants. Maigre et d’une taille
élevée, il avait une démarche grave, mystérieuse. Ses petits yeux,
orangés comme la perruque jaune et lisse qu’il avait sur la tête, ne
jetaient que des regards obliques. Son extérieur était donc en
harmonie avec le sentiment de curiosité qu’il excitait. Sa qualité de
préparateur initié aux secrets de son maître sur les travaux duquel il
gardait le silence, l’investissait d’un charme. Les habitants de la rue
de Paris le regardaient passer avec un intérêt mêlé de crainte, car il
avait des réponses sybilliques et toujours grosses de trésors. Fier
d’être nécessaire à son maître, il exerçait sur ses camarades une
sorte d’autorité tracassière, dont il profitait pour lui-même en
obtenant de ces concessions qui le rendaient à moitié maître au
logis. Au rebours des domestiques flamands, qui sont extrêmement
attachés à la maison, il n’avait d’affection que pour Balthazar. Si
quelque chagrin affligeait madame Claës, ou si quelque événement
favorable arrivait dans la famille, il mangeait son pain beurré, buvait
sa bière avec son flegme habituel.
Le dîner fini, madame Claës proposa de prendre le café dans le
jardin, devant le buisson de tulipes qui en ornaient le milieu. Les pots
de terre dans lesquels étaient les tulipes dont les noms se lisaient
sur des ardoises gravées, avaient été enterrés et disposés de
manière à former une pyramide au sommet de laquelle s’élevait une
tulipe Gueule-de-dragon que Balthazar possédait seul. Cette fleur,
nommée tulipa Claësiana, réunissait les sept couleurs, et ses
longues échancrures semblaient dorées sur les bords. Le père de
Balthazar, qui en avait plusieurs fois refusé dix mille florins, prenait
de si grandes précautions pour qu’on ne pût en voler une seule
graine, qu’il la gardait dans le parloir et passait souvent des journées
entières à la contempler. La tige était énorme, bien droite, ferme,
d’un admirable vert; les proportions de la plante se trouvaient en
harmonie avec le calice dont les couleurs se distinguaient par cette
brillante netteté qui donnaient jadis tant de prix à ces fleurs
fastueuses.
—Voilà pour trente ou quarante mille francs de tulipes, dit le
notaire en regardant alternativement sa cousine et le buisson aux
mille couleurs. Madame Claës était trop enthousiasmée par l’aspect
de ces fleurs que les rayons du soleil couchant faisaient ressembler
à des pierreries, pour bien saisir le sens de l’observation notariale—
A quoi cela sert-il, reprit le notaire en s’adressant à Balthazar, vous
devriez les vendre.
—Bah! ai-je donc besoin d’argent! répondit Claës en faisant le
geste d’un homme à qui quarante mille francs semblaient être peu
de chose.
Il y eut un moment de silence pendant lequel les enfants firent
plusieurs exclamations.
—Vois donc, maman, celle-là.
—Oh! qu’en voilà une belle!
—Comment celle-ci se nomme-t-elle?
—Quel abîme pour la raison humaine, s’écria Balthazar en levant
les mains et les joignant par un geste désespéré. Une combinaison
d’hydrogène et d’oxygène fait surgir par ses dosages différents,
dans un même milieu et d’un même principe, ces couleurs qui
constituent chacune un résultat différent.
Sa femme entendait bien les termes de cette proposition qui fut
trop rapidement énoncée pour qu’elle la conçût entièrement,
Balthazar songea qu’elle avait étudié sa Science favorite, et lui dit,
en lui faisant un signe mystérieux:—Tu comprendrais, tu ne saurais
pas encore ce que je veux dire! Et il parut retomber dans une de ces
méditations qui lui étaient habituelles.
—Je le crois, dit Pierquin en prenant une tasse de café des
mains de Marguerite. Chassez le naturel, il revient au galop, ajouta-
t-il tout bas en s’adressant à madame Claës. Vous aurez la bonté de
lui parler vous-même, le diable ne le tirerait pas de sa contemplation.
En voilà pour jusqu’à demain.
Il dit adieu à Claës qui feignit de ne pas l’entendre, embrassa le
petit Jean que la mère tenait dans ses bras, et, après avoir fait une
profonde salutation, il se retira. Lorsque la porte d’entrée retentit en
se fermant, Balthazar saisit sa femme par la taille, et dissipa
l’inquiétude que pouvait lui donner sa feinte rêverie en lui disant à
l’oreille:—Je savais bien comment faire pour le renvoyer.
Madame Claës tourna la tête vers son mari sans avoir honte de
lui montrer les larmes qui lui vinrent aux yeux, elles étaient si
douces! puis elle appuya son front sur l’épaule de Balthazar et laissa
glisser Jean à terre.
—Rentrons au parloir, dit-elle après une pause.
Pendant toute la soirée, Balthazar fut d’une gaieté presque folle;
il inventa mille jeux pour ses enfants, et joua si bien pour son propre
compte, qu’il ne s’aperçut pas de deux ou trois absences que fit sa
femme. Vers neuf heures et demie, lorsque Jean fut couché, quand
Marguerite revint au parloir après avoir aidé sa sœur Félicie à se
déshabiller, elle trouva sa mère assise dans la grande bergère, et
son père qui causait avec elle en lui tenant la main. Elle craignit de
troubler ses parents et paraissait vouloir se retirer sans leur parler;
madame Claës s’en aperçut et lui dit:—Venez, Marguerite, venez,
ma chère enfant. Puis elle l’attira vers elle et la baisa pieusement au
front en ajoutant:—Emportez votre livre dans votre chambre, et
couchez-vous de bonne heure.
—Bonsoir, ma fille chérie, dit Balthazar.
Marguerite embrassa son père et s’en alla. Claës et sa femme
restèrent pendant quelques moments seuls, occupés à regarder les
dernières teintes du crépuscule, qui mouraient dans les feuillages du
jardin déjà devenus noirs, et dont les découpures se voyaient à
peine dans la lueur. Quand il fit presque nuit, Balthazar dit à sa
femme d’une voix émue:—Montons.
Long-temps avant que les mœurs anglaises n’eussent consacré
la chambre d’une femme comme un lieu sacré, celle d’une
Flamande était impénétrable. Les bonnes ménagères de ce pays
n’en faisaient pas un apparat de vertu, mais une habitude contractée
dès l’enfance, une superstition domestique qui rendait une chambre
à coucher un délicieux sanctuaire où l’on respirait les sentiments
tendres, où le simple s’unissait à tout ce que la vie sociale a de plus
doux et de plus sacré. Dans la position particulière où se trouvait
madame Claës, toute femme aurait voulu rassembler autour d’elle
les choses les plus élégantes; mais elle l’avait fait avec un goût
exquis, sachant quelle influence l’aspect de ce qui nous entoure
exerce sur les sentiments. Chez une jolie créature c’eût été du luxe,
chez elle c’était une nécessité. Elle avait compris la portée de ces
mots: On se fait jolie femme? maxime qui dirigeait toutes les actions
de la première femme de Napoléon et la rendait souvent fausse
tandis que madame Claës était toujours naturelle et vraie. Quoique
Balthazar connût bien la chambre de sa femme, son oubli des
choses matérielles de la vie avait été si complet, qu’en y entrant il
éprouva de doux frémissements comme s’il l’apercevait pour la
première fois. La fastueuse gaieté d’une femme triomphante éclatait
dans les splendides couleurs des tulipes qui s’élevaient du long cou
de gros vases en porcelaine chinoise, habilement disposés, et dans
la profusion des lumières dont les effets ne pouvaient se comparer
qu’à ceux des plus joyeuses fanfares. La lueur des bougies donnait
un éclat harmonieux aux étoffes de soie gris de lin dont la monotonie
était nuancée par les reflets de l’or sobrement distribué sur quelques
objets, et par les tons variés des fleurs qui ressemblaient à des
gerbes de pierreries. Le secret de ces apprêts, c’était lui, toujours
lui!... Joséphine ne pouvait pas dire plus éloquemment à Balthazar
qu’il était toujours le principe de ses joies et de ses douleurs.
L’aspect de cette chambre mettait l’âme dans un délicieux état, et
chassait toute idée triste pour n’y laisser que le sentiment d’un
bonheur égal et pur. L’étoffe de la tenture achetée en Chine jetait cet
odeur suave qui pénètre le corps sans le fatiguer. Enfin, les rideaux
soigneusement tirés trahissaient un désir de solitude, une intention
jalouse de garder les moindres sons de la parole, et d’enfermer là
les regards de l’époux reconquis. Parée de sa belle chevelure noire
parfaitement lisse et qui retombait de chaque côté de son front
comme deux ailes de corbeau, madame Claës enveloppée d’un
peignoir qui lui montait jusqu’au cou et que garnissait une longue
pèlerine où bouillonnait la dentelle alla tirer la portière en tapisserie
qui ne laissait parvenir aucun bruit du dehors. De là, Joséphine jeta
sur son mari qui s’était assis près de la cheminée un de ces gais
sourires par lesquels une femme spirituelle et dont l’âme vient
parfois embellir la figure sait exprimer d’irrésistibles espérances. Le
charme le plus grand d’une femme consiste dans un appel constant
à la générosité de l’homme, dans une gracieuse déclaration de
faiblesse par laquelle elle l’enorgueillit, et réveille en lui les plus
magnifiques sentiments. L’aveu de la faiblesse ne comporte-t-il pas
de magiques séductions? Lorsque les anneaux de la portière eurent
glissé sourdement sur leur tringle de bois, elle se retourna vers son
mari, parut vouloir dissimuler en ce moment ses défauts corporels
en appuyant la main sur une chaise, pour se traîner avec grâce.
C’était appeler à son secours. Balthazar, un moment abîmé dans la
contemplation de cette tête olivâtre qui se détachait sur ce fond gris
en attirant et satisfaisant le regard, se leva pour prendre sa femme
et la porta sur le canapé. C’était bien ce qu’elle voulait.
—Tu m’as promis, dit-elle en lui prenant la main qu’elle garda
entre ses mains électrisantes, de m’initier au secret de tes
recherches. Conviens, mon ami, que je suis digne de le savoir,
puisque j’ai eu le courage d’étudier une science condamnée par
l’Église, pour être en état de te comprendre; mais je suis curieuse,
ne me cache rien. Ainsi, raconte-moi par quel hasard, un matin tu
t’es levé soucieux, quand la veille je t’avais laissé si heureux?
—Et c’est pour entendre parler chimie que tu t’es mise avec tant
de coquetterie?
—Mon ami, recevoir une confidence qui me fait entrer plus avant
dans ton cœur, n’est-ce pas pour moi le plus grand des plaisirs,
n’est-ce pas une entente d’âme qui comprend et engendre toutes les
félicités de la vie? Ton amour me revient pur et entier, je veux savoir
quelle idée a été assez puissante pour m’en priver si long-temps.
Oui, je suis plus jalouse d’une pensée que de toutes les femmes
ensemble. L’amour est immense, mais il n’est pas infini; tandis que
la Science a des profondeurs sans limites où je ne saurais te voir
aller seul. Je déteste tout ce qui peut se mettre entre nous. Si tu
obtenais la gloire après laquelle tu cours, j’en serais malheureuse;
ne te donnerait-elle pas de vives jouissances? Moi seule, monsieur,
dois être la source de vos plaisirs.
—Non, ce n’est pas une idée, mon ange, qui m’a jeté dans cette
belle voie, mais un homme.
—Un homme, s’écria-t-elle avec terreur.
—Te souviens-tu, Pépita, de l’officier polonais que nous avons
logé, chez nous, en 1809?
—Si je m’en souviens! dit-elle. Je me suis souvent impatientée
de ce que ma mémoire me fît si souvent revoir ses deux yeux
semblables à des langues de feu, les salières au-dessus de ses
sourcils où se voyaient des charbons de l’enfer, son large crâne
sans cheveux, ses moustaches relevées, sa figure anguleuse,
dévastée!... Enfin quel calme effrayant dans sa démarche!... S’il y
avait eu de la place dans les auberges, il n’aurait certes pas couché
ici.
—Ce gentilhomme polonais se nommait monsieur Adam de
Wierzchownia, reprit Balthazar. Quand le soir tu nous eus laissés

You might also like