DATA COLLECTIONhhh

Uploaded by

kelvinngoma552

0% found this document useful (0 votes)

4 views2 pages

Copyright

Available Formats

DOCX, PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as DOCX, PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

4 views2 pages

DATA COLLECTIONhhh

Uploaded by

kelvinngoma552

Copyright:

Available Formats

Download as DOCX, PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 2

Search inside document

DATA COLLECTION

Data collection involves gathering the relevant data required to build the model. It involves
the following steps:

1. DATA SOURCES: Identifying sources of data that are relevant to the problem. The
sources include structured databases. One might collect data from a relational
database like MySQL or PostgreSQL that sores customer information, sales
transactions or user interactions ( Rautmare et al 2016). Another is unstructured text
data that involves gathering text data from customer reviews, support tickets or social
media posts. Sensor data is another source that involves collecting data from sensors
such as humidity, temperature
2. DATA ACQUISITION: once data sources are identified one needs to acquire data. It
involves querying databases that is using sequential query language to extract relevant
data from databases (Buneman et al 1982). Web scraping involves collecting data
from websites that do not provide APIs, web scarping libraries like Selenium can be
used to extract required information from web pages. API integration is used if data is
available through APIs where programming languages like Python are used to make
APII requests and retrieve data. For example one might use the Twitter API to collect
tweets related to a specific topic
3. DATA QUALITY ASSESSMENT: After acquiring data it is essential to assess
quality and suitability of data. It involves checking potential issues such as missing
values, duplicates records inconsistent formatting. It includes techniques such outlier
detection. This is where one might employ statistical techniques such as z-score or
box plots to identify and handle outliers either by removing them or applying
appropriate transformations (Asikoglu 2017). For missing values one might use
methods like imputation or deleting rows with missing values depending on the
impact of missing data on the problem.
4. DATA INTERGRATION AND MERGING: In some cases one might need to
combine data from multiple sources to create a comprehensive dataset (Curran and
Hussong 2009). This can involve merging datasets based on common identifiers or
performing joins across different tables in a database. For example joining tables
involves one having customer data in one table and sales data in another table , one
might join them based on customer ID to create a unified dataset
5. DATA PRIVACY AND ETHICS: Ensure that one complies with data privacy
regulations and ethical considerations while collecting and handling the data. This
includes acquiring necessary permissions, anonymizing sensitive information, and
protecting security of data.

REFERENCE LIST

Buneman, P., Frankel, R.E. and Nikhil, R., 1982. An implementation technique for database
query languages. ACM Transactions on Database Systems (TODS), 7(2), pp.164-186.

Asikoglu, O., 2017. Outlier detection in extreme value series. neural networks, 4(5).

Rautmare, S. and Bhalerao, D.M., 2016, October. MySQL and NoSQL database comparison
for IoT application. In 2016 IEEE international conference on advances in computer
applications (ICACA) (pp. 235-238). IEEE.

Curran, P.J. and Hussong, A.M., 2009. Integrative data analysis: the simultaneous analysis of
multiple data sets. Psychological methods, 14(2), p.81.

Sample Goals List
Document29 pages
Sample Goals List
Surajit Mitra
No ratings yet
LV 1 Note 10 Principles of Lateral Stability PDF
Document4 pages
LV 1 Note 10 Principles of Lateral Stability PDF
Artjom Samsonov
No ratings yet
Basics of Data Analytics
Document4 pages
Basics of Data Analytics
SathyendraKumar
No ratings yet
File
Document2 pages
File
Hola Hola
71% (7)
Complaint (Estafa) Elements.2
Document4 pages
Complaint (Estafa) Elements.2
Richard Gomez
No ratings yet
Data Mining: Fundamentals and Applications
From Everand
Data Mining: Fundamentals and Applications
Fouad Sabry
No ratings yet
DM Unit-1 Notes
Document47 pages
DM Unit-1 Notes
balijagudam shashank
No ratings yet
Introduction To Data Mining: Dr. Dipti Chauhan Assistant Professor SCSIT, SUAS Indore
Document16 pages
Introduction To Data Mining: Dr. Dipti Chauhan Assistant Professor SCSIT, SUAS Indore
roochin
No ratings yet
Metaris Vane Products
Document20 pages
Metaris Vane Products
Fernanda Domecg
No ratings yet
Infinity - Acheron Cascade (2d20)
Document153 pages
Infinity - Acheron Cascade (2d20)
Ricardo Okabe
No ratings yet
The HRM of Unilever's Vietnam
Document18 pages
The HRM of Unilever's Vietnam
Đào Thị Thùy Trang
100% (1)
Election Law: Election Commission of India Indian Civil Service Indian Administrative Service
Document27 pages
Election Law: Election Commission of India Indian Civil Service Indian Administrative Service
rao
No ratings yet
Imp Answers
Document29 pages
Imp Answers
NAVANEETH 09
No ratings yet
Data Analytics Source of Things
Document5 pages
Data Analytics Source of Things
memc vignesh
No ratings yet
Lecture Notes 2
Document5 pages
Lecture Notes 2
vivek gupta
No ratings yet
Data Science Introduction
Document82 pages
Data Science Introduction
Abhi Giri
No ratings yet
RapidMiner For ML
Document9 pages
RapidMiner For ML
basirma.info.officer.2017
No ratings yet
BIG DATA 1 Unit
Document17 pages
BIG DATA 1 Unit
Ishika Singh
No ratings yet
Data Mining: Encyclopedic Style Neutral
Document12 pages
Data Mining: Encyclopedic Style Neutral
Alex Lee
No ratings yet
1 ST Review Document
Document37 pages
1 ST Review Document
sumanice
No ratings yet
Datamining 2
Document5 pages
Datamining 2
Manoj Manu
No ratings yet
Dmdw-Unit-1 R16
Document17 pages
Dmdw-Unit-1 R16
Arun
No ratings yet
D-Unit-1 R16
Document17 pages
D-Unit-1 R16
JAGADISH M
No ratings yet
Web Intelligence: What Is Webintelligence?
Document25 pages
Web Intelligence: What Is Webintelligence?
Rajesh Rathod
No ratings yet
Unit 1
Document11 pages
Unit 1
Kushal settulari
No ratings yet
Chapter 2 Preparing To Model
Document49 pages
Chapter 2 Preparing To Model
Shreeji Modh
No ratings yet
A Study On Big Data Modeling Techniques: Article
Document9 pages
A Study On Big Data Modeling Techniques: Article
soffian hj usop
No ratings yet
Lecture 1 - Introductory To Data Analytics
Document11 pages
Lecture 1 - Introductory To Data Analytics
Zakwan Wan
No ratings yet
A Review Paper On Big Data Analytics Tools: Article
Document7 pages
A Review Paper On Big Data Analytics Tools: Article
ECE A
No ratings yet
Chandrakanth
Document64 pages
Chandrakanth
Suresh Dhamathoti
No ratings yet
Data Mining Moodle Notes U1
Document11 pages
Data Mining Moodle Notes U1
Sahu Sahu Subham
No ratings yet
A Survey On Data Mining
Document4 pages
A Survey On Data Mining
International Organization of Scientific Research (IOSR)
No ratings yet
Big Data Analytics
Document64 pages
Big Data Analytics
Sameer Memon
No ratings yet
DWDM R19 Unit 1
Document27 pages
DWDM R19 Unit 1
GAYATHRI KAMMARA 19MIS7006
No ratings yet
DMWH M1
Document25 pages
DMWH M1
vani_V_prakash
No ratings yet
1.1 Introduction To Data Mining: 1.1.1 Moving Toward The Information Age
Document14 pages
1.1 Introduction To Data Mining: 1.1.1 Moving Toward The Information Age
Songa Sowjanya
No ratings yet
Unit 1
Document19 pages
Unit 1
thakursahabonhunt1
No ratings yet
Fake Video
Document25 pages
Fake Video
Salman Awan
No ratings yet
IV Unit Big Data Analysis
Document17 pages
IV Unit Big Data Analysis
gowrishankar nayana
No ratings yet
Dwdm-Unit-1 R16
Document17 pages
Dwdm-Unit-1 R16
Manaswini Bhaskaruni
No ratings yet
Syllabus: Unit-I Why We Need Data Mining?
Document21 pages
Syllabus: Unit-I Why We Need Data Mining?
Pradeepkumar 05
No ratings yet
Data Mining and Data Warehouse
Document11 pages
Data Mining and Data Warehouse
api-19799369
No ratings yet
975 ArticleText 3963 1 10 20221008
Document12 pages
975 ArticleText 3963 1 10 20221008
blackfnbird
No ratings yet
Module1 DataMining Ktustudents - in
Document24 pages
Module1 DataMining Ktustudents - in
jeslin job
No ratings yet
Data Mining Concepts and Applications: Six Factors Behind The Sudden Rise in Popularity of Data Mining
Document36 pages
Data Mining Concepts and Applications: Six Factors Behind The Sudden Rise in Popularity of Data Mining
Ongudi Tiberius
No ratings yet
Unit-2 DS
Document10 pages
Unit-2 DS
rajkumarmtech
No ratings yet
Unit 2
Document58 pages
Unit 2
radhikakumbhar2978
No ratings yet
Review Paper On Big Data Analytics in Cloud Computing: July 2017
Document6 pages
Review Paper On Big Data Analytics in Cloud Computing: July 2017
Ogbodu Ejiro Desmond
No ratings yet
R15a0530 Bda PDF
Document43 pages
R15a0530 Bda PDF
Dhruvi
No ratings yet
Book Exercises NayelliAnswers
Document3 pages
Book Exercises NayelliAnswers
Nayelli Valeria Pc
No ratings yet
Use of Database in Data Warehousing: What Motivated Data Mining? Why Is It Important?
Document19 pages
Use of Database in Data Warehousing: What Motivated Data Mining? Why Is It Important?
mecool86
No ratings yet
Data Mining Tools
Document13 pages
Data Mining Tools
Musta Mustapha
No ratings yet
Introduction To Data Acquisition AI
Document5 pages
Introduction To Data Acquisition AI
SIDDHANT JAIN 20SCSE1010186
No ratings yet
Chapter Two
Document14 pages
Chapter Two
Tade Garoma
No ratings yet
Data Mining and Data Warehouse BY: Dept. of Computer Science Engineering
Document10 pages
Data Mining and Data Warehouse BY: Dept. of Computer Science Engineering
api-19799369
No ratings yet
Use of Database in Data Warehousing: What Motivated Data Mining? Why Is It Important?
Document19 pages
Use of Database in Data Warehousing: What Motivated Data Mining? Why Is It Important?
mecool86
No ratings yet
Introduction To Data Mining
Document8 pages
Introduction To Data Mining
Ihsan baust
No ratings yet
DWDM All Units
Document102 pages
DWDM All Units
A Raghava Chowdary maddipati
No ratings yet
Machine Learning Spectrum For Web Data Analytics: Abstract
Document4 pages
Machine Learning Spectrum For Web Data Analytics: Abstract
International Journal of Engineering and Techniques
No ratings yet
Datamining With Big Data - Siva
Document69 pages
Datamining With Big Data - Siva
Venkatesh Gardas
No ratings yet
Knowledge Discovery in Databases
Document17 pages
Knowledge Discovery in Databases
Sarvesh Dharme
No ratings yet
DBMS Study Material-1
Document10 pages
DBMS Study Material-1
Jayant Rana
No ratings yet
Big Data Ingestion and Preparation Tools
Document16 pages
Big Data Ingestion and Preparation Tools
soukaina el krissii
No ratings yet
Database Reporting Tools To Query and Manage Data in Relational Database Management Systems Use (SQL)
Document2 pages
Database Reporting Tools To Query and Manage Data in Relational Database Management Systems Use (SQL)
noumi
No ratings yet
Data Structures: Notes For Lecture 12 Introduction To Data Mining by Samaher Hussein Ali
Document4 pages
Data Structures: Notes For Lecture 12 Introduction To Data Mining by Samaher Hussein Ali
samaher hussein
No ratings yet
Big Data and Data Science: Case Studies: Priyanka Srivatsa
Document5 pages
Big Data and Data Science: Case Studies: Priyanka Srivatsa
Yasir Butt
No ratings yet
Emerging Technology
Document18 pages
Emerging Technology
Gudeta n
No ratings yet
Semantic Translation: Fundamentals and Applications
From Everand
Semantic Translation: Fundamentals and Applications
Fouad Sabry
No ratings yet
Draft NEP Regulation UG Courses 07012022
Document69 pages
Draft NEP Regulation UG Courses 07012022
Ka Ha
No ratings yet
Remoteness of Damages in Light of Tort
Document6 pages
Remoteness of Damages in Light of Tort
AST TROLLING
No ratings yet
s1 30 Merged
Document490 pages
s1 30 Merged
Shivanshu Soni
No ratings yet
Iso-Iec Guides PDF
Document2 pages
Iso-Iec Guides PDF
Alex Vargas
No ratings yet
CHN Concepts
Document48 pages
CHN Concepts
JOSHUA DICHOSO
No ratings yet
Minimum Alternate Tax MAT PDF
Document6 pages
Minimum Alternate Tax MAT PDF
muskan khatri
No ratings yet
PoF Formulae and Graphs
Document4 pages
PoF Formulae and Graphs
Diego Carrara
No ratings yet
Container Closure Systems For Packaging Human Drugs and Biologics - Questions and Answers
Document4 pages
Container Closure Systems For Packaging Human Drugs and Biologics - Questions and Answers
chaand G
No ratings yet
Course Outline: Reference: CHED Memorandum Order No. 92 Series 2017
Document18 pages
Course Outline: Reference: CHED Memorandum Order No. 92 Series 2017
John David Romasanta
No ratings yet
SI3000 Pono Datasheet PDF
Document2 pages
SI3000 Pono Datasheet PDF
Jose Jose
No ratings yet
Fuels
Document14 pages
Fuels
Jan Marvin Tamse
No ratings yet
CPLA-20-QG06 AVI50219 Schedule 9 Nov 20 - V1.5 - Aug 20 PDF
Document1 page
CPLA-20-QG06 AVI50219 Schedule 9 Nov 20 - V1.5 - Aug 20 PDF
kevin
No ratings yet
Morrison - Distinguishing Between Forensic Science and Forensic Pseudoscience
Document12 pages
Morrison - Distinguishing Between Forensic Science and Forensic Pseudoscience
Sara Valencia Sánchez
No ratings yet
Persuasive Writing Prompts
Document8 pages
Persuasive Writing Prompts
viv
No ratings yet
For Details, Click On:: Hr-India@giz - de
Document3 pages
For Details, Click On:: Hr-India@giz - de
shruti hurmade
No ratings yet
E-Circular: Mobile Banking Service (MBS) Fraud Reported
Document3 pages
E-Circular: Mobile Banking Service (MBS) Fraud Reported
mevrick_guy
No ratings yet
PMI Case Study: Nasa Autonomous Rotorcraft Project
Document5 pages
PMI Case Study: Nasa Autonomous Rotorcraft Project
Alexander Villanueva
No ratings yet
Receipt of Choice Filling
Document1 page
Receipt of Choice Filling
patleakash193
No ratings yet
TICA Phase II Checklist Final
Document7 pages
TICA Phase II Checklist Final
Ian O'Byrne
No ratings yet
Askari 2015
Document17 pages
Askari 2015
zhor El hallaoui
No ratings yet
Erlang - Definition
Document19 pages
Erlang - Definition
Nathan Mills
No ratings yet
7 - Class 7
Document81 pages
7 - Class 7
Zum Bii
No ratings yet