Proposal

Uploaded by

umair104172

0% found this document useful (0 votes)

2 views7 pages

Copyright

Available Formats

PPTX, PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PPTX, PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

2 views7 pages

Proposal

Uploaded by

umair104172

Copyright:

Available Formats

Download as PPTX, PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 7

Search inside document

Problem Understanding

• Problem Statement: Need an automated system that links two similar

items within same database or in different database. The features of
items could be exactly same or partially same.
• Challenges: No unique ID, spelling variation, different abbreviation of
same word, word order is different etc.
Exactive Summary
• Data deduplication / Similar data is a fundamental activity in the pipeline of data
integration and data cleansing.
• It identifies and removes the disguised duplicates in a dataset.
• The duplicate records can either be “exact duplicates” or more commonly occurring
“near duplicates”.
• The solution to this problem is Record Linkage.
• Record linkage is a process of identifying the records referring the same entity across
two or more datasets.
• Record linkage has a wide range of applications pertaining to business, government
agencies, health sector, digital libraries and so on.
• The absence of a unique identifier, data heterogeneity, data noise and data size makes
record linkage a really challenging task.
Steps of Record linkage (OurApproach)

Data pre- Blocking (use Record pairs Classification

processing to index the comparisons (grouping into
(Character records) (using relevant
normalization, Unsupervised category)
Word Machine
Normalization, learning /
Stemming, Supervised
Abbreviation Machine
handling etc Learngin)
Record Linkage Process
Dataset Pre-Processing

Record Pairs Record Pairs

Reduction using Comparisons using
Blocking Filter Linkage Key

Record Pairs
Classification

Non Matches Possible Matches Matches

Data Preporcssing
• Stopword list (a, on, the)
• Character level normilzation (Naive  Naïve)
• Word level normalization (Colour  Color)
• Lematization / Stemming (Descriptions  Description)
• Synonims handling (Low fat  Reduced fat)
• Abbrivation handling (ltr, lt, l) etc
CRISP DM
• For such projects, we follow standard CRISP-DM
Approach.
• Business understanding is already accomplished.
• We will start with the Data Understanding phase.
• The deployment, objective is to provide a light-weight
model or parameters for the target device.
Data Science Approach
Roll out
Phase-2 (Machine Learning • Model training for all items
• Testing of existing model
Phase-1 (Rule based + based appraoch)
• Deployment
Unsupervised) For Selected • Preparation of data for
Itemsthe data
• Understanding Supervised Machine
• Preparation of Domain Learning
Specific stop-word list. • Feature engineering
• Applying NLP techniqes to • Development of Supervised
standardize the dataset Machine Learning algorithm
• Indexing strategy for similarity matching
• Using Unsupervised • Evaluation and
Machine Learning algorithm improvement of Algorithms
for identification of Similar
records

10 -12 weeks 8-12 weeks 8-12 weeks

Scope of this proposal

Predict Your Dream HDB Resale Flat in 1 Day: © Parallebs, 2018
Document28 pages
Predict Your Dream HDB Resale Flat in 1 Day: © Parallebs, 2018
baah
No ratings yet
Bhatt Pds Print - 77-85
Document9 pages
Bhatt Pds Print - 77-85
Harsh Shah
No ratings yet
Java Programming Notes
Document401 pages
Java Programming Notes
Purva
100% (1)
Chapter4 BI
Document22 pages
Chapter4 BI
KIEU NGUYEN THI BICH
No ratings yet
Data Pre-Processing Python For Beginner
Document12 pages
Data Pre-Processing Python For Beginner
Bongkar Taktik
No ratings yet
Data Pre-Processing Python For Beginner
Document12 pages
Data Pre-Processing Python For Beginner
Bongkar Taktik
No ratings yet
Data Preprocessing
Document38 pages
Data Preprocessing
Pradhana Riza
No ratings yet
Roadmap To Become A Data Scientist in 2024
Document12 pages
Roadmap To Become A Data Scientist in 2024
Durgesh
No ratings yet
C106363GC10 - PRODUCTION - Machine Learning On Autonomous Database A Practical Example
Document24 pages
C106363GC10 - PRODUCTION - Machine Learning On Autonomous Database A Practical Example
Tran Quoc Dung
No ratings yet
Total Documentation
Document21 pages
Total Documentation
Sowmya Lakshmi
No ratings yet
Sentiment Analysis With WEKA-ITSOct19 PDF
Document69 pages
Sentiment Analysis With WEKA-ITSOct19 PDF
Raditya Novidianto
No ratings yet
Unit-1 PPT (DS)
Document215 pages
Unit-1 PPT (DS)
Tripti Gupta
No ratings yet
15Cs201J-Data Structures: Unit-I
Document127 pages
15Cs201J-Data Structures: Unit-I
karri maheswar
No ratings yet
Audit Course Review
Document11 pages
Audit Course Review
rahul suryawanshi
No ratings yet
Machine Learning Applications: Linear Regression I
Document3 pages
Machine Learning Applications: Linear Regression I
Tofel Emed
No ratings yet
Best Data Science Online Training in Hyderabad
Document9 pages
Best Data Science Online Training in Hyderabad
bharath.tsofttech
No ratings yet
PPT4 W3 S4 R0 Predictive Analytics I Data Mining Process
Document50 pages
PPT4 W3 S4 R0 Predictive Analytics I Data Mining Process
Ismail Rohaga
No ratings yet
WIP - ML-22-DEC Weekend
Document40 pages
WIP - ML-22-DEC Weekend
kumarswamy gorrepati
No ratings yet
CH 5
Document16 pages
CH 5
21dce106
No ratings yet
AI321: Theoretical Foundations of Machine Learning: Dr. Motaz El-Saban
Document44 pages
AI321: Theoretical Foundations of Machine Learning: Dr. Motaz El-Saban
Sherif Magdy
No ratings yet
Roger Pressman, Software Engineering, A Practitioner's Approach
Document32 pages
Roger Pressman, Software Engineering, A Practitioner's Approach
study hub
No ratings yet
A Crash Course in Data Science Review
Document11 pages
A Crash Course in Data Science Review
huka
No ratings yet
Building Good Training Sets UNIT 1 PART2
Document46 pages
Building Good Training Sets UNIT 1 PART2
Aditya Sharma
No ratings yet
Data Structures and Algorithms: Aamir Zia
Document19 pages
Data Structures and Algorithms: Aamir Zia
M Naveed Shakir
No ratings yet
S2 - Datascience Lifecycle
Document19 pages
S2 - Datascience Lifecycle
mmtharindu
No ratings yet
Topic Analysis Presentation
Document23 pages
Topic Analysis Presentation
Nader AlFakeeh
No ratings yet
Deeplearning - Ai Deeplearning - Ai
Document91 pages
Deeplearning - Ai Deeplearning - Ai
Jian Quan
No ratings yet
Handout-Software Lifecycle Models
Document60 pages
Handout-Software Lifecycle Models
Madinatul Munawaroh
No ratings yet
Consolidated Presentation v2
Document24 pages
Consolidated Presentation v2
Kieran Walsh
No ratings yet
Presentation 1
Document8 pages
Presentation 1
Tathagata Dey
No ratings yet
Week 01
Document37 pages
Week 01
Osii C
No ratings yet
Machine Learning
Document10 pages
Machine Learning
Md Shadman Sakib
No ratings yet
Big Data Analytics For Smart Manufacturing Systems Report
Document9 pages
Big Data Analytics For Smart Manufacturing Systems Report
kumarveepan958
No ratings yet
Introduction and Performance Analysis
Document53 pages
Introduction and Performance Analysis
Pratham Agarwal
No ratings yet
Silabus Data Science & Machine Learning JakartaLabs 2022
Document13 pages
Silabus Data Science & Machine Learning JakartaLabs 2022
luthfighinabarka
No ratings yet
Performance Measurement Tools and Techniques
Document50 pages
Performance Measurement Tools and Techniques
Lintang Prasasti
No ratings yet
Syl
Document3 pages
Syl
lokesh k
No ratings yet
Big Data Informatica Certification Details
Document7 pages
Big Data Informatica Certification Details
nmadhulika
No ratings yet
S1A Intro To Business Analytics
Document39 pages
S1A Intro To Business Analytics
Prajwal Komarla Swaminath
No ratings yet
Chapter - 2 Machine Learning Overview
Document90 pages
Chapter - 2 Machine Learning Overview
dejenedagime999
No ratings yet
Introduction To OOPS and C++
Document48 pages
Introduction To OOPS and C++
Pooja Anjali
100% (1)
Data - Structure Lecture - 1
Document20 pages
Data - Structure Lecture - 1
Abdalla Nasr
No ratings yet
Framework Training - Day 1
Document17 pages
Framework Training - Day 1
kuttyparu
No ratings yet
Fintech ML Using Azure
Document51 pages
Fintech ML Using Azure
Vikram Pandya
No ratings yet
Pattern Recognition Application
Document43 pages
Pattern Recognition Application
Khaled Omar
No ratings yet
Keynote Edbt2014 Boncz
Document76 pages
Keynote Edbt2014 Boncz
xu fei
No ratings yet
Deep Learning Based Complaint Classification For Telecommunication Company's Call Center
Document17 pages
Deep Learning Based Complaint Classification For Telecommunication Company's Call Center
Shinta Lukitasari
No ratings yet
Pertemuan 1 or
Document22 pages
Pertemuan 1 or
ali aflah muzakki
No ratings yet
02 Machine Learning Overview
Document103 pages
02 Machine Learning Overview
Dhouha Benzina
No ratings yet
Sai Resume
Document5 pages
Sai Resume
arpit.k
No ratings yet
INF30036 DataTypes Lecture2-1
Document42 pages
INF30036 DataTypes Lecture2-1
Yehan Abayasinghe
No ratings yet
Datameer
Document8 pages
Datameer
pedro_luna_43
No ratings yet
AWS Certified Machine Learning Specialty Exam Guide
Document7 pages
AWS Certified Machine Learning Specialty Exam Guide
Deepak Gupta
No ratings yet
AWS Certified Machine Learning Specialty Exam Guide
Document7 pages
AWS Certified Machine Learning Specialty Exam Guide
Deepak Gupta
No ratings yet
Data Science With Python
Document23 pages
Data Science With Python
Hafiza Maria
No ratings yet
Curriculum
Document6 pages
Curriculum
Vimal Raj
No ratings yet
2 - Basics of Machine Learning
Document10 pages
2 - Basics of Machine Learning
HERiTAGE1981
No ratings yet
Chapter 2 Data Preprocessing
Document23 pages
Chapter 2 Data Preprocessing
liyu agye
No ratings yet
Machine Learning Using Python
Document2 pages
Machine Learning Using Python
Narendra Singh
No ratings yet
DATA MINING and MACHINE LEARNING. PREDICTIVE TECHNIQUES: ENSEMBLE METHODS, BOOSTING, BAGGING, RANDOM FOREST, DECISION TREES and REGRESSION TREES.: Examples with MATLAB
From Everand
DATA MINING and MACHINE LEARNING. PREDICTIVE TECHNIQUES: ENSEMBLE METHODS, BOOSTING, BAGGING, RANDOM FOREST, DECISION TREES and REGRESSION TREES.: Examples with MATLAB
César Pérez López
No ratings yet
Face Prep For 2023 Batch Students Registered List - Jain University
Document10 pages
Face Prep For 2023 Batch Students Registered List - Jain University
dalavai srikanth
No ratings yet
Professional Practices: Free Powerpoint Templates
Document22 pages
Professional Practices: Free Powerpoint Templates
warda rashid
No ratings yet
Algorithm and Flow Chart
Document8 pages
Algorithm and Flow Chart
Ahmad Shahbaz
No ratings yet
Lecture 06 - Algorithm Analysis PDF
Document6 pages
Lecture 06 - Algorithm Analysis PDF
sonam
No ratings yet
VESDA IE MOXA Application Note 12474
Document16 pages
VESDA IE MOXA Application Note 12474
sanizam79
No ratings yet
Course Syllabus: Welcome Fundamentals Course. This Is The First of Four Courses Required For The Google Cloud
Document4 pages
Course Syllabus: Welcome Fundamentals Course. This Is The First of Four Courses Required For The Google Cloud
Tharun
No ratings yet
3 Year Cybersecurity Career Roadmap
Document21 pages
3 Year Cybersecurity Career Roadmap
akuardit
No ratings yet
PowerMax+and+VMAX+Family+Configuration+and+Business+Continuity+Administration Lab+Guide Typo Corrected
Document176 pages
PowerMax+and+VMAX+Family+Configuration+and+Business+Continuity+Administration Lab+Guide Typo Corrected
Satya
No ratings yet
5330flex ESI Catalog
Document2 pages
5330flex ESI Catalog
AIPAS KD05
No ratings yet
Unit - 2 Linear Data Structures - Array & Stack
Document19 pages
Unit - 2 Linear Data Structures - Array & Stack
Darshna Sharma
No ratings yet
My Letter of Motivation 1
Document1 page
My Letter of Motivation 1
Usman Fazal
100% (1)
AWS & SANS - 2023 Cloud Security Trends (Shackleford)
Document23 pages
AWS & SANS - 2023 Cloud Security Trends (Shackleford)
David Bey
No ratings yet
NetBeans IDE Java Quick Start Tutorial
Document5 pages
NetBeans IDE Java Quick Start Tutorial
Risa Chan
No ratings yet
TMSCrypto
Document5 pages
TMSCrypto
Raga Silinapas
No ratings yet
Ch15 System and User Security
Document16 pages
Ch15 System and User Security
Zahrul Romadhon
No ratings yet
STM32 HTTP Camera
Document8 pages
STM32 HTTP Camera
engin kavak
No ratings yet
Scala
Document5 pages
Scala
vaishuvyshu3
No ratings yet
Notes For C Programming For BCA, MCA, BSc. MSC, BE & B.tech 1st Year
Document464 pages
Notes For C Programming For BCA, MCA, BSc. MSC, BE & B.tech 1st Year
Arun Umrao
100% (1)
DSA Computer Lab Manual
Document132 pages
DSA Computer Lab Manual
Wardaddy
No ratings yet
Nikola PC
Document54 pages
Nikola PC
Nikola Cvetanovic
No ratings yet
3ESPCD
Document2 pages
3ESPCD
Freddy Sanchez Luck
No ratings yet
DR Husari Control Notes
Document149 pages
DR Husari Control Notes
Firas Qasem
No ratings yet
Data Structures and Algorithms: Lecture Notes 1
Document35 pages
Data Structures and Algorithms: Lecture Notes 1
manasa008
No ratings yet
Test Automation Estimate Template: Automation Type Project Name
Document6 pages
Test Automation Estimate Template: Automation Type Project Name
Santosh Prasad Ulpi
No ratings yet
Investigating IO Interrupts
Document5 pages
Investigating IO Interrupts
pdparthasarathy03
No ratings yet
SWOOD 2021 SP4.2 Release Notes
Document11 pages
SWOOD 2021 SP4.2 Release Notes
Đức Lê Việt
No ratings yet
Slaa 703 A
Document10 pages
Slaa 703 A
Alien Awe
No ratings yet
eCPPTv3 Labs-3 PDF
Document11 pages
eCPPTv3 Labs-3 PDF
Rachid Moyse Polania
No ratings yet
DrayTek Datasheet Vigor 3910
Document2 pages
DrayTek Datasheet Vigor 3910
mohamed alghazaly
No ratings yet
Networking Essentials 6Th Edition Beasley Full Chapter
Document67 pages
Networking Essentials 6Th Edition Beasley Full Chapter
heather.bekis553
100% (7)