Welcome to Scribd!

Skip carousel

LubnaAlhenaki Project4

Uploaded by

viju001

0% found this document useful (0 votes)

7 views20 pages

Original Title

LubnaAlhenaki-Project4

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

7 views20 pages

LubnaAlhenaki Project4

Uploaded by

viju001

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 20

Search inside document

TEXT DOCUMENT CLUSTERING

Lubna Alhenaki
Outline
01 Introduction

02 Methodology Design

03 Results and Discussion

04 Conclusion and Future Work

Problem Statement
Solution?

Clustering
Text Document Clustering
• Text document clustering: Grouping of text documents into meaningful clusters in an unsupervised manner.

• Cluster Hypothesis : Relevant documents tend to be more similar to each other than to non-relevant ones.
Documents Clustering Methodology Design

Documents Collection Documents Cleaning Features Extraction Documents Clustering

Description of Text Document Dataset

Dataset Name:
20-Newsgroup

Date Donated :
1999-09-09

Dataset collected by:

it was originally collected by Ken Lang

Number of Instance:
18846 documents
Documents Clustering Methodology Design

Documents Collection Documents Cleaning Features Extraction Documents Clustering

Pre-Processing Steps

Cleaning : Cleaning
01 Make all text lower case

Remove punctuation and

Tokenizing
02 special character

03 Remove numerical values Removing Stop

words

Stemming
Documents Clustering Methodology Design

Documents Collection Documents Cleaning Features Extraction Documents Clustering

Dimensiona Reduction / Topic Modeling

• Vectorize using TFIDF (min_df=10) • Vectorize using TFIDF (min_df=10,

• Normalize (default by TFIDF) max_df=.5)
• SVD (# of component=20) • Normalize(default by TFIDF)
• NMF (# of component=20)

Baseline Experiment 2 Experiment 3 Experiment 4

• Vectorize using TFIDF (min_df=
• NMF (# of component=20)
500)
• Normalize (default by TFIDF)
• SVD (# of component=20)
Documents Clustering Methodology Design

Documents Collection Documents Cleaning Features Extraction Documents Clustering

Text Document Clustering
- K-means Clustering Algorithm
- Number of clusters = 20

Best Model Vs Baseline

Let’s inspect
the results of
clustering J
What is each
cluster talking
about?
Example
Conclusion and Future Work

Text document clustering groups similar documents to form

a coherent cluster, while documents that are diﬀerent have
separated apart into diﬀerent clusters.

In this project, k-means algorithm applied into 20-newsgreoup

dataset and get approximately good clustering results.

For Future work, features selection and other popular text dataset su
ch as Reuters dataset could be used. Furthermore, other algorithm
such as Genetic algorithm
Thank You
Any Questions?
Appendix:
Appendix:

Introduction Open Sees
Document27 pages
Introduction Open Sees
Hamidreza Sarmadi
No ratings yet
Mastering Python
From Everand
Mastering Python
Rick van Hattem
No ratings yet
Mastering Objectoriented Python
From Everand
Mastering Objectoriented Python
Steven F. Lott
Rating: 5 out of 5 stars
5/5 (2)
Pearson Knowledge Management An Integrated Approach 2nd Edition 0273726854
Document377 pages
Pearson Knowledge Management An Integrated Approach 2nd Edition 0273726854
karel de klerk
No ratings yet
Group Case Study: Premier Automotive Services Limited
Document2 pages
Group Case Study: Premier Automotive Services Limited
Kryzel Jean Tumbaga Valdez
No ratings yet
Ns 2 Simulation
Document27 pages
Ns 2 Simulation
akomble
No ratings yet
Query Processing + Optimization: Outline: Operator Evaluation Strategies
Document53 pages
Query Processing + Optimization: Outline: Operator Evaluation Strategies
Anupam Dubey
No ratings yet
CSE508: Information Retrieval Assignment 2: Question 1 - (40 Points) Scoring and Term-Weighting
Document3 pages
CSE508: Information Retrieval Assignment 2: Question 1 - (40 Points) Scoring and Term-Weighting
Pranshu Patel
No ratings yet
Deep learning time series Keras case study
Document34 pages
Deep learning time series Keras case study
JorgeMoises
No ratings yet
BCS Topic
Document66 pages
BCS Topic
ShahidUmar
No ratings yet
Text Mining Concepts and Techniques CS822
Document45 pages
Text Mining Concepts and Techniques CS822
Muhammad Umair
No ratings yet
NLP DL Lecture1
Document48 pages
NLP DL Lecture1
thanh.tien.96.vn
No ratings yet
ns2 - Packet Classifiers PDF
Document27 pages
ns2 - Packet Classifiers PDF
vijay_pdm2111
No ratings yet
Lec 2
Document14 pages
Lec 2
mohamed
No ratings yet
ML7 - Text Classification
Document13 pages
ML7 - Text Classification
param_email
No ratings yet
Dbms Assignment 9
Document6 pages
Dbms Assignment 9
nikita.aher
No ratings yet
Lec 3
Document43 pages
Lec 3
Mado Saeed
No ratings yet
Unit - 5 - Chapter 3 - Creating, Updating, and Deleting Documents in MongoDB
Document60 pages
Unit - 5 - Chapter 3 - Creating, Updating, and Deleting Documents in MongoDB
Shamanth Edge
No ratings yet
03 Indexing-NDN
Document25 pages
03 Indexing-NDN
Farish Lupa Pass Word
No ratings yet
sim(D,Q) = 1 + 1 + 1 + 1 = 4Weighted: – D = 0.5, 0.3, 0.2, 0, 0.1, 0.3, 0 – Q = 0.2, 0, 0.4, 0, 0, 0.3, 0.1
Document29 pages
sim(D,Q) = 1 + 1 + 1 + 1 = 4Weighted: – D = 0.5, 0.3, 0.2, 0, 0.1, 0.3, 0 – Q = 0.2, 0, 0.4, 0, 0, 0.3, 0.1
Rihab BEN LAMINE
No ratings yet
ITETL0001
Document23 pages
ITETL0001
api-3754320
0% (1)
Week 11 Lecture
Document61 pages
Week 11 Lecture
Sasi Dharan
No ratings yet
For Synthesis From: Deductive Techniques Inductive Specifications
Document30 pages
For Synthesis From: Deductive Techniques Inductive Specifications
Yuvraj Singh
No ratings yet
KDD Process
Document56 pages
KDD Process
AYUSH AGRAWAL
No ratings yet
Introduction to Databases Concepts and Design
Document11 pages
Introduction to Databases Concepts and Design
fcvgbhnj
No ratings yet
Lec6 QP Indexing
Document40 pages
Lec6 QP Indexing
Previzsla
No ratings yet
Assign 3
Document1 page
Assign 3
Tayub khan.A
No ratings yet
Getting Started With OpenSees and OpenSees on NEEShub
Document34 pages
Getting Started With OpenSees and OpenSees on NEEShub
unayah farida
No ratings yet
Chapter 4 IR Models
Document43 pages
Chapter 4 IR Models
Tolosa Tafese
No ratings yet
Implement MongoDB Queries
Document8 pages
Implement MongoDB Queries
Pratik Kotkar
No ratings yet
Aim: Objective:: Design and Implement Any 5 Query Using Mongodb
Document8 pages
Aim: Objective:: Design and Implement Any 5 Query Using Mongodb
Pratik Kotkar
No ratings yet
C++ Training
Document233 pages
C++ Training
Akanksha Mehta
No ratings yet
Lec3&4 - 2023
Document68 pages
Lec3&4 - 2023
hussienboss99
No ratings yet
Data Preprocessing: - Why Preprocess The Data? - Data Cleaning - Data Integration and Transformation
Document20 pages
Data Preprocessing: - Why Preprocess The Data? - Data Cleaning - Data Integration and Transformation
Kumar Vasimalla
No ratings yet
Data Science Toc Srinivas
Document4 pages
Data Science Toc Srinivas
muthukumar550
No ratings yet
TFIDF Information Retrieval
Document47 pages
TFIDF Information Retrieval
N Mahesh
No ratings yet
NLP_Manual
Document21 pages
NLP_Manual
1nt21ai012.vynavi
No ratings yet
L N - 10 B S T (BST) : AB O Inary Earch REE
Document5 pages
L N - 10 B S T (BST) : AB O Inary Earch REE
ali
No ratings yet
Distributed Information Systems: Lecture 4 - Linq
Document19 pages
Distributed Information Systems: Lecture 4 - Linq
Saitej
No ratings yet
2019 USA Pres-The Database Forensic File Format and Df-Toolkit-1
Document27 pages
2019 USA Pres-The Database Forensic File Format and Df-Toolkit-1
Ai Adhi
No ratings yet
CS317 Information Retrieval Course Overview
Document20 pages
CS317 Information Retrieval Course Overview
Hatim Juzer Khambatwala
No ratings yet
Memoryhierarchy Indexing
Document9 pages
Memoryhierarchy Indexing
sumareddy2305
No ratings yet
L4 Linq
Document19 pages
L4 Linq
Saitej
No ratings yet
IR - ch5 - Vector Space Model
Document23 pages
IR - ch5 - Vector Space Model
Bushra Mamoud
No ratings yet
Intel (R) Threading Building Blocks: Getting Started Guide
Document12 pages
Intel (R) Threading Building Blocks: Getting Started Guide
Torste Aikio
No ratings yet
Dedupe Documentation: Release 2.0.0
Document60 pages
Dedupe Documentation: Release 2.0.0
Sathish C
No ratings yet
PRACTICAL CONSIDERATIONS OF INTERNAL AND EXTERNAL SORTING
Document20 pages
PRACTICAL CONSIDERATIONS OF INTERNAL AND EXTERNAL SORTING
rishi srivastava
No ratings yet
Boolean and Vector Space Retrieval Models
Document27 pages
Boolean and Vector Space Retrieval Models
Đàn Ông Lai
No ratings yet
1664473609-Unit 5 - Database Management - MongoDB
Document23 pages
1664473609-Unit 5 - Database Management - MongoDB
WhatsApp status
No ratings yet
Efficient Codebook Design For Image Compression Using Vector Quantization
Document12 pages
Efficient Codebook Design For Image Compression Using Vector Quantization
Rajani Sharma
No ratings yet
Lecture 1
Document41 pages
Lecture 1
minhquangbvmi
No ratings yet
Detect Fraudulent Bank Notes Using Neural Network
Document3 pages
Detect Fraudulent Bank Notes Using Neural Network
harith danish
No ratings yet
SparkSQL: A Compiler from Queries to RDDs
Document44 pages
SparkSQL: A Compiler from Queries to RDDs
franc.peralta6200
No ratings yet
IP TERM-1 Study Material (Session 2021-22)
Document84 pages
IP TERM-1 Study Material (Session 2021-22)
AARTI BARWAL
No ratings yet
06 Query Processing (2) - NDN
Document31 pages
06 Query Processing (2) - NDN
MUHAMMAD ABU RIJAL KUSNAEDI
No ratings yet
IR Models: - Why IR Models? - Boolean IR Model - Vector Space IR Model - Probabilistic IR Model
Document46 pages
IR Models: - Why IR Models? - Boolean IR Model - Vector Space IR Model - Probabilistic IR Model
kerya ibrahim
No ratings yet
Implementation
Document16 pages
Implementation
Rihab BEN LAMINE
No ratings yet
Routines Advance 3
Document51 pages
Routines Advance 3
sam2sung2
No ratings yet
Data Science Formats Beyond CSV and Hdfs
Document54 pages
Data Science Formats Beyond CSV and Hdfs
ferney_09
No ratings yet
Python Course Outline
Document24 pages
Python Course Outline
abhaygupta1206
No ratings yet
MMIS-OPL10 - ZTQT - GEPDB Plant Link
Document1 page
MMIS-OPL10 - ZTQT - GEPDB Plant Link
duran_jxcs
No ratings yet
NET Framework Explained
Document71 pages
NET Framework Explained
Sathishkumar Kotha
No ratings yet
Air Quality2
Document11 pages
Air Quality2
viju001
No ratings yet
Journal Pone 0247330
Document14 pages
Journal Pone 0247330
viju001
No ratings yet
Silviu Risco Thesis
Document308 pages
Silviu Risco Thesis
viju001
No ratings yet
A Detailed Excursion On Machine Learning Approach, Algorithms and Applications
Document8 pages
A Detailed Excursion On Machine Learning Approach, Algorithms and Applications
viju001
No ratings yet
Semi-Supervised Learning A Brief Review
Document6 pages
Semi-Supervised Learning A Brief Review
Reshma Khemchandani
No ratings yet
2910 6721 1 PB
Document8 pages
2910 6721 1 PB
viju001
No ratings yet
Energy Efficiency Techniques in Cloud Co
Document7 pages
Energy Efficiency Techniques in Cloud Co
viju001
No ratings yet
Handling Missing Data Analysis of A Challenging Data Set Using Multiple Imputation
Document20 pages
Handling Missing Data Analysis of A Challenging Data Set Using Multiple Imputation
viju001
No ratings yet
Database Demo Appendices
Document14 pages
Database Demo Appendices
viju001
No ratings yet
Home Loan Interest Certificate
Document1 page
Home Loan Interest Certificate
viju001
100% (1)
Software Requirements Specification: Version 1.0 Approved
Document28 pages
Software Requirements Specification: Version 1.0 Approved
Mahima Mohan
No ratings yet
Deep Recurrent Level Set for Segmenting Brain Tumors
Document8 pages
Deep Recurrent Level Set for Segmenting Brain Tumors
viju001
No ratings yet
Jurisoo Tarkvaratehnika 2017
Document45 pages
Jurisoo Tarkvaratehnika 2017
viju001
No ratings yet
Data Mining Analysis of The Parkinsons Disease
Document107 pages
Data Mining Analysis of The Parkinsons Disease
viju001
No ratings yet
Fingerprint Orientation Field Enhancement: April 2011
Document9 pages
Fingerprint Orientation Field Enhancement: April 2011
viju001
No ratings yet
Big Data Analytics in Supply Chain Management: A Systematic Literature Review and Research Directions
Document29 pages
Big Data Analytics in Supply Chain Management: A Systematic Literature Review and Research Directions
viju001
No ratings yet
Iot Based Biometric Attendance System Using Arduino
Document108 pages
Iot Based Biometric Attendance System Using Arduino
viju001
No ratings yet
Biometric Fingerprint Student Attendance System: Software Requirement Specifications
Document19 pages
Biometric Fingerprint Student Attendance System: Software Requirement Specifications
viju001
No ratings yet
A New Adaptive Cuckoo Search Algorithm:, Maheshwari Rashmita Nath
Document5 pages
A New Adaptive Cuckoo Search Algorithm:, Maheshwari Rashmita Nath
viju001
No ratings yet
Fingerprint Segmentation Review: Adaptive and Directional Models
Document5 pages
Fingerprint Segmentation Review: Adaptive and Directional Models
viju001
No ratings yet
Support Vector Machine Classification for Large Data Sets via Minimum Enclosing Ball Clustering
Document9 pages
Support Vector Machine Classification for Large Data Sets via Minimum Enclosing Ball Clustering
viju001
No ratings yet
14 Chapter6
Document22 pages
14 Chapter6
viju001
No ratings yet
09 Chapter1
Document30 pages
09 Chapter1
viju001
No ratings yet
Biometric Fingerprint Student Attendance System: Software Requirement Specifications
Document19 pages
Biometric Fingerprint Student Attendance System: Software Requirement Specifications
viju001
No ratings yet
Biometric Fingerprint Student Attendance System: Software Requirement Specifications
Document19 pages
Biometric Fingerprint Student Attendance System: Software Requirement Specifications
viju001
No ratings yet
10 - Chapter 1
Document22 pages
10 - Chapter 1
viju001
No ratings yet
14 Chapter6
Document22 pages
14 Chapter6
viju001
No ratings yet
06 - Chapter 3
Document36 pages
06 - Chapter 3
viju001
No ratings yet
Literature Survey of Fingerprint Recognition Systems
Document24 pages
Literature Survey of Fingerprint Recognition Systems
viju001
No ratings yet
Technical Report Writing For Ca2 Examination
Document6 pages
Technical Report Writing For Ca2 Examination
Aishee Dutta
No ratings yet
Challan Form
Document2 pages
Challan Form
Singh Karamvir
No ratings yet
Adaboost With Totally Corrective Updates For Fast Face Detection
Document6 pages
Adaboost With Totally Corrective Updates For Fast Face Detection
Nguyen Quoc Trieu
No ratings yet
QBD Dry Powders
Document13 pages
QBD Dry Powders
Tausif Alam
No ratings yet
Chapter 14: Redundant Arithmetic: Keshab K. Parhi
Document21 pages
Chapter 14: Redundant Arithmetic: Keshab K. Parhi
InJune Yeo
No ratings yet
Toyota Camry ANCAP PDF
Document2 pages
Toyota Camry ANCAP PDF
carbasemy
No ratings yet
G8 - Light& Heat and Temperature
Document49 pages
G8 - Light& Heat and Temperature
Jhen Bon
No ratings yet
I - Refracted Energy
$I - Refracted Energy$
Document6 pages
I - Refracted Energy
Ammad Ali Qureshi
No ratings yet
QP 7721-Sobha-B+g+8-2town-Pahse Ii
Document2 pages
QP 7721-Sobha-B+g+8-2town-Pahse Ii
rajat
No ratings yet
Mitspeck 2014 e Version
Document130 pages
Mitspeck 2014 e Version
VedantDomkondekar
No ratings yet
Final Portfolio Cover Letter
Document2 pages
Final Portfolio Cover Letter
api-321017157
No ratings yet
Identifying The Orders of AR and MA Terms in An ARIMA Model
Document11 pages
Identifying The Orders of AR and MA Terms in An ARIMA Model
Neha Gill
No ratings yet
Iloc and Loc Uses PDF
Document16 pages
Iloc and Loc Uses PDF
saurabh
No ratings yet
720-C-001 (Vent Wash Column)
Document4 pages
720-C-001 (Vent Wash Column)
idilfitri
No ratings yet
Lun Mapping Disks
Document11 pages
Lun Mapping Disks
Karn Gusain
No ratings yet
Guia Instalacion ENTEC
Document15 pages
Guia Instalacion ENTEC
Hislim Said
No ratings yet
Alejandro D. Ramos - Tourism Development Economics, Management - 2008 PDF
Document258 pages
Alejandro D. Ramos - Tourism Development Economics, Management - 2008 PDF
Sanjiv Rudrakar
No ratings yet
Experiences in The Operation
Document7 pages
Experiences in The Operation
Usama Bin Sabir
No ratings yet
Engine Parts Location Guide
Document4 pages
Engine Parts Location Guide
varenzia
No ratings yet
Enterprise Architecture Roadmap: Sustain EA Best Practices
Document1 page
Enterprise Architecture Roadmap: Sustain EA Best Practices
Chen Yoo
No ratings yet
CSR of DABUR Company..
Document7 pages
CSR of DABUR Company..
Rupesh kumar mishra
No ratings yet
Intro To Factor Analysis
Document52 pages
Intro To Factor Analysis
Rawnak Jahan
No ratings yet
Word Shortcuts
Document3 pages
Word Shortcuts
Raju B
No ratings yet
June 28th Altran Capital Market Day Presentation Deck
Document52 pages
June 28th Altran Capital Market Day Presentation Deck
venkata.krishnan
100% (1)
3.4 Linearization of Nonlinear State Space Models: 1 F X Op 1 F X Op 2 F U Op 1 F U Op 2
Document3 pages
3.4 Linearization of Nonlinear State Space Models: 1 F X Op 1 F X Op 2 F U Op 1 F U Op 2
Ilija Tomic
No ratings yet
MA 7 Transcript
Document82 pages
MA 7 Transcript
Bob Andrepont
No ratings yet
TMF1014 System Analysis & Design Semester 1, 2020/2021 APPENDIX C: Group Assignment Assessment Rubric
Document4 pages
TMF1014 System Analysis & Design Semester 1, 2020/2021 APPENDIX C: Group Assignment Assessment Rubric
We Xa
No ratings yet
How to Critique a Work in 40 Steps
Document16 pages
How to Critique a Work in 40 Steps
Gavrie Talaboc
No ratings yet