Welcome to Scribd!

Skip carousel

Getting Started With Weka: The HIV Data Management and Data Mining Workshop

Uploaded by

Rodrigo Barreto

0% found this document useful (0 votes)

7 views23 pages

Intro to WEKA

Original Title

WekaIntro

Copyright

Available Formats

PDF, TXT or read online from Scribd

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Report this Document

Intro to WEKA

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

0% found this document useful (0 votes)

7 views23 pages

Getting Started With Weka: The HIV Data Management and Data Mining Workshop

Uploaded by

Rodrigo Barreto

Intro to WEKA

Copyright:

Available Formats

Download as PDF, TXT or read online from Scribd

Flag for inappropriate content

Jump to Page

You are on page 1of 23

Search inside document

Getting started with

Weka
The HIV Data Management and
Data Mining Workshop.

December, 13-16th 2004

Durban, South Africa
Contents

1. What is Weka and why use it?

2. First view on the Weka explorer
3. Importing a data set in Weka
4. Preprocess-tab
5. Visualize-tab
What is Weka?

• “Waikato Environment for

Knowledge Analysis”
• Weka is a collection of
machine learning
algorithms for data mining
• Open Source Machine
Learning Software in Java

http://www.cs.waikato.ac.nz/ml/weka/
Why use Weka?

• It contains tools for a whole range of data

mining tasks:
– Data pre-processing
– Classification
– Regression
– Clustering
– Association
– Visualization
• You can download it for free!
Launching Weka

• We will only make

use of the
‘Explorer’ user
interface
First view on the Weka Explorer
Tabs for
different tasks:
•preprocessing
•classification
•clustering
•association
•attribute
selection
•visualization
Importing a data set (1)
Importing a data set (2)

• Format of your data:

– ARFF-format: special Weka format
– CSV format (can be exported from Excell)
Importing a data set (3)

• ARFF-format:
@RELATION stanford_data
@ATTRIBUTE Subtype { "D", "K", "F1", "C", "A1", "B", "A2", "G", ""}
@ATTRIBUTE Bootstrap numeric
@ATTRIBUTE eNFV { "n", "y"}
@ATTRIBUTE SeqId { "NDK_198301", "SE554_199808", "SE474_199808", …,
"KDR_pat152_200101", "IL210_200104"}
@ATTRIBUTE PR2 { "Q", "K", "R", "H", "*", "E"}
…
@ATTRIBUTE PR99 { "F", "N", "Y", "L"}
@DATA
"D", "38.0", "n", "NDK_198301", "Q", "I", "T", "L", "W", "Q", "R", "P", "L", "V", "T", …, "F"
"F1", "50.0", "n", "CDC7944_199501", "Q", "I", "T", "L", "W", "Q", "R", "P", "L", "V", …, "F"
Importing a data set (4)

• CSV format:
can be
exported
from Excel

eNFV,subtype,bootstrap,seqid,PR2,PR3,PR4, …,PR97,PR98,PR99

n,D,44,NDK_198301,Q,I,T,…,L,N,F
n,C,95,BRP2139_200208,Q,I,P,…,L,N,F
y,C,97,TCDD13_200103, ,I,T,…,L,N,F
Preprocess-tab
Preprocess-tab
gives
information
about the
loaded data
and allows you
to preprocess it
further
Preprocess-tab

Filters can be applied

to preprocess the data
Preprocess-tab

describes the current

relation:
• nb of instances
• nb of attributes
Preprocess-tab
list of all attributes

allows you to
remove selected
attributes
Preprocess-tab
gives info about
attribute selected
from list

for nominal attributes:

possible values and
number of times each
value occurs
Preprocess-tab

for numeric attributes:

minimum, maximum,
mean, standard
deviation
Preprocess-tab
visualizes the
selected attribute
with colours
according to
selected class
attribute

D N V
Preprocess-tab
visualizes the
selected attribute
with colours
according to
selected class
attribute

instances without instances with

therapy experience therapy experience
Visualize-tab

• Preprocess-tab allows you to look at

interactions between two different
attributes (eg. PR30 and eNFV)
• Visualize-tab allows you to look at
interactions between three different
attributes (eg. PR90, PR30 and eNFV)
Visualize-tab
plot matrix of all
attributes plotted
increase the against each other
PlotSize, PointSize
and Jitter

click update!

select the target

attribute eNFV for
the colouring
Visualize-tab
click a plot to
see it in more
detail
Visualize-tab
Practice

• Import the data set and play with the

visualization tools
1. Do these visualizations agree with all
the IAS mutations for Nelfinavir? (30N,
36I, 46I, 63P, 71V, 77I, 84V, 88D, 90M)
2. Do you see any other protease
positions that seem to correlate with
therapy experience?

OSIX System Description 5.6
Document177 pages
OSIX System Description 5.6
Rodrigo Barreto
No ratings yet
IPMVP Core Concepts
Document28 pages
IPMVP Core Concepts
Waleed A. Shreim
100% (1)
Advanced C++ Interview Questions You'll Most Likely Be Asked: Job Interview Questions Series
From Everand
Advanced C++ Interview Questions You'll Most Likely Be Asked: Job Interview Questions Series
Vibrant Publishers
No ratings yet
115 Mscug
Document894 pages
115 Mscug
madesuenda
100% (1)
Heat
Document27 pages
Heat
Shobab
No ratings yet
Iso 27001:2005
Document116 pages
Iso 27001:2005
Mohsen Mojabi
0% (1)
RDBMS Concepts
Document73 pages
RDBMS Concepts
Minaxi Mantri
100% (1)
Ms 98-367
Document38 pages
Ms 98-367
Toka Barisovi Barisovi
No ratings yet
Bio Tutorial PDF
Document19 pages
Bio Tutorial PDF
fallenangelm
No ratings yet
Percobaan Visualisasi Data: Menggunakan EXCEL, Octave/Matlab, R, Dan Python
Document26 pages
Percobaan Visualisasi Data: Menggunakan EXCEL, Octave/Matlab, R, Dan Python
Elma Lyrics
No ratings yet
Weka Lab
Document11 pages
Weka Lab
Ahmad Alsharef
No ratings yet
DMlab - FilE prINCE
Document27 pages
DMlab - FilE prINCE
Rajput Prince Singh Kachhwaha
No ratings yet
Introduction To Weka-A Toolkit For Machine Learning
Document11 pages
Introduction To Weka-A Toolkit For Machine Learning
Risa
No ratings yet
Empirical Software Engineering (Swe504) : Practical File
Document27 pages
Empirical Software Engineering (Swe504) : Practical File
yankit kumar
No ratings yet
2021 Data Science, Heristem
Document67 pages
2021 Data Science, Heristem
Gina_Albina
No ratings yet
Data Minig Lab File
Document25 pages
Data Minig Lab File
savitaannu07
No ratings yet
Experiment 1 Aim:: Introduction To ML Lab With Tools (Hands On WEKA On Data Set (Iris - Arff) ) - (A) Start Weka
Document55 pages
Experiment 1 Aim:: Introduction To ML Lab With Tools (Hands On WEKA On Data Set (Iris - Arff) ) - (A) Start Weka
Jayesh bansal
No ratings yet
2021 ITS665 - ISP565 - GROUP PROJECT-revMac21
Document6 pages
2021 ITS665 - ISP565 - GROUP PROJECT-revMac21
Umairah Ibrahim
No ratings yet
Confusion Matrix
Document6 pages
Confusion Matrix
amir
No ratings yet
Rintro Wekacomplete
Document135 pages
Rintro Wekacomplete
pragya
No ratings yet
Machine Learning: Algorithms and Applications: Quang Nhat Nguyen
Document16 pages
Machine Learning: Algorithms and Applications: Quang Nhat Nguyen
api-19780718
No ratings yet
Virtual Instrumentation Systems Lab Record: Exp No:5
Document4 pages
Virtual Instrumentation Systems Lab Record: Exp No:5
Yeswanth Golla
No ratings yet
Tableau Desktop Training: About Intellipaat
Document10 pages
Tableau Desktop Training: About Intellipaat
Joshi
No ratings yet
Linear Discriminant Analysis
Document12 pages
Linear Discriminant Analysis
MohamedAbdelrazek
No ratings yet
WEKA Manual
Document25 pages
WEKA Manual
sagar
No ratings yet
Weka-: Data Warehousing and Data Mining Lab Manual-Week 9
Document8 pages
Weka-: Data Warehousing and Data Mining Lab Manual-Week 9
pakizaamin436
100% (1)
SMB-R Programming Lab
Document57 pages
SMB-R Programming Lab
ẞãï Kríßhñä Baythapudi
No ratings yet
What Is A Data Structure?: Data Structures in Data Science
Document24 pages
What Is A Data Structure?: Data Structures in Data Science
Meghna Choudhary
No ratings yet
Statistics Toolbox 7: Perform Statistical Analysis, Modeling, and Algorithm Development
Document6 pages
Statistics Toolbox 7: Perform Statistical Analysis, Modeling, and Algorithm Development
NavitalaiBilivalu
No ratings yet
Unit 2 ML
Document93 pages
Unit 2 ML
Siti Hariksa Amalia
No ratings yet
My R Report
Document52 pages
My R Report
Faguni guha
No ratings yet
Econometrics Eviews 1
Document16 pages
Econometrics Eviews 1
Farid Schikhamiroff
No ratings yet
Data Structure FF - Red
Document19 pages
Data Structure FF - Red
nurayjumayeva
No ratings yet
Introduction To Weka
Document38 pages
Introduction To Weka
sandyguru05
No ratings yet
Pattern Recognition
Document26 pages
Pattern Recognition
Aryan Attri
No ratings yet
Introduction To Object-Oriented Programming in Matlab
Document6 pages
Introduction To Object-Oriented Programming in Matlab
aikisai Aikikai
No ratings yet
5 MIS510 Weka NetDraw
Document33 pages
5 MIS510 Weka NetDraw
gauravgd16
No ratings yet
Task 0: Weka Introduction
Document11 pages
Task 0: Weka Introduction
Web wizards
No ratings yet
Erm Spss Example
Document17 pages
Erm Spss Example
J
No ratings yet
2023 Its665 - Isp565 - Group Project
Document6 pages
2023 Its665 - Isp565 - Group Project
2021826386
No ratings yet
Demo Class 15 and 16102022 (Pandas in Python)
Document45 pages
Demo Class 15 and 16102022 (Pandas in Python)
Oskar Nguyen
No ratings yet
Ai 8
Document3 pages
Ai 8
meesam2021
No ratings yet
Week 2 - Spreadsheet Data Analysis
Document37 pages
Week 2 - Spreadsheet Data Analysis
Aung Zaw Latt
No ratings yet
Pattern Recognition
Document33 pages
Pattern Recognition
akarthi2223
No ratings yet
1 WEKA Introduction Preprocessing
Document35 pages
1 WEKA Introduction Preprocessing
Giorgio
No ratings yet
Introduction To Matlab Lecture Advanced Data Analysis Jan2012
Document50 pages
Introduction To Matlab Lecture Advanced Data Analysis Jan2012
dinban1
No ratings yet
Lab 3
Document17 pages
Lab 3
Mohammed Mustafa
No ratings yet
DWDM - Case Study On Weka - Ceb624
Document13 pages
DWDM - Case Study On Weka - Ceb624
CEB524SreejitGNair
No ratings yet
Trifacta
Document3 pages
Trifacta
rajasekhar
No ratings yet
Research Papers
Document33 pages
Research Papers
Harshal Bangar Patil
No ratings yet
Print
Document296 pages
Print
Mohammed Zameer
No ratings yet
Experiment 8: AIM: Implementation of Visualize Technique On ARFF Files Using WEKA Theory
Document5 pages
Experiment 8: AIM: Implementation of Visualize Technique On ARFF Files Using WEKA Theory
Shivam Dhar
No ratings yet
Lab 2
Document16 pages
Lab 2
Joseph
No ratings yet
Machine Learning Using R An Introduction To R Mrs. Lijetha C Jaffrin Ap/It Veltech
Document32 pages
Machine Learning Using R An Introduction To R Mrs. Lijetha C Jaffrin Ap/It Veltech
lijetha
No ratings yet
Dav Exps - Merged - Merged
Document99 pages
Dav Exps - Merged - Merged
Sahil Surve
No ratings yet
DSC L2 CQL
Document40 pages
DSC L2 CQL
Ahtasham Hassan
No ratings yet
Machine Learning Notes
Document6 pages
Machine Learning Notes
Nikhita Nair
No ratings yet
Pattern Recognition
Document33 pages
Pattern Recognition
okuwobi
No ratings yet
Weka Tutorial
Document8 pages
Weka Tutorial
Vairavasundaram Vairam
No ratings yet
R Programming For BIA B452F
Document21 pages
R Programming For BIA B452F
Nile Seth
No ratings yet
Experiment No. 7
Document4 pages
Experiment No. 7
yepop93638
No ratings yet
Data Base Management Key Points
Document8 pages
Data Base Management Key Points
vishnu vardhan
No ratings yet
Statistical Data Analysis: Studi Independen - 2022
Document16 pages
Statistical Data Analysis: Studi Independen - 2022
ARCHANA R
No ratings yet
16 Hybris DataModel
Document18 pages
16 Hybris DataModel
ravikanchu
No ratings yet
DWDM Record With Alignment
Document69 pages
DWDM Record With Alignment
navya
No ratings yet
Data Warehouse Lab Manual
Document60 pages
Data Warehouse Lab Manual
spartansheik
No ratings yet
Statistical Classification: Fundamentals and Applications
From Everand
Statistical Classification: Fundamentals and Applications
Fouad Sabry
No ratings yet
Iot Security at Each Layer of The Stack: Enrico Milanese
Document3 pages
Iot Security at Each Layer of The Stack: Enrico Milanese
Rodrigo Barreto
No ratings yet
Aeriscellulariotsecurityimcseptember 22 Final 1663614487835
Document8 pages
Aeriscellulariotsecurityimcseptember 22 Final 1663614487835
Rodrigo Barreto
No ratings yet
Iotdayspanelkeyfactorsept 20221663612048583
Document4 pages
Iotdayspanelkeyfactorsept 20221663612048583
Rodrigo Barreto
No ratings yet
Aerissecurityv 721663682410091
Document6 pages
Aerissecurityv 721663682410091
Rodrigo Barreto
No ratings yet
5G Call Flow
Document3 pages
5G Call Flow
eswar Slr02
No ratings yet
WEKA Explorer Tutorial
Document45 pages
WEKA Explorer Tutorial
Michel De Almeida Silva
No ratings yet
7 Key Factors To Consider When Designing Wi Fi Networks
Document16 pages
7 Key Factors To Consider When Designing Wi Fi Networks
asinghanand
No ratings yet
Alex Optimizationguidelines Retainabilityhuawei Rev 130821135800 Phpapp02
Document37 pages
Alex Optimizationguidelines Retainabilityhuawei Rev 130821135800 Phpapp02
Rodrigo Barreto
No ratings yet
Admission Presection
Document49 pages
Admission Presection
Adithya Ampolu
No ratings yet
1 2 3 4 5 6 7 8 TD17 Text Display Simatic Hmi: Equipment Manual
Document66 pages
1 2 3 4 5 6 7 8 TD17 Text Display Simatic Hmi: Equipment Manual
DavidL83
No ratings yet
Parte 2 154
Document190 pages
Parte 2 154
Marlon Ortiz
No ratings yet
Homework # 02 Answers: Mr. Mahmoud Moussa AS CS 9618
Document6 pages
Homework # 02 Answers: Mr. Mahmoud Moussa AS CS 9618
Eyad Usama
No ratings yet
Lab 2. Binomial Heaps and Fibonacci Heaps
Document16 pages
Lab 2. Binomial Heaps and Fibonacci Heaps
eu_seby_u
No ratings yet
Imd 253
Document3 pages
Imd 253
bobot91
No ratings yet
Cloud Computing With Amazon Web Services
Document46 pages
Cloud Computing With Amazon Web Services
dharma
No ratings yet
Well Test Design Analysis
Document3 pages
Well Test Design Analysis
abdounou
No ratings yet
Ce700a KVM Extender Ss en
Document1 page
Ce700a KVM Extender Ss en
hewhc85
No ratings yet
ACAD Residential Design
Document46 pages
ACAD Residential Design
Saad Ullah
No ratings yet
3-Excel (2000) 2002 (XP) - 2003 Advanced
Document102 pages
3-Excel (2000) 2002 (XP) - 2003 Advanced
Henry Stewart
No ratings yet
Eulaedrawing
Document2 pages
Eulaedrawing
gumus34
No ratings yet
Cybersecurity For Kids Resources
Document3 pages
Cybersecurity For Kids Resources
Liviu Liviu
No ratings yet
8th Sem Syllabus
Document9 pages
8th Sem Syllabus
Engineer Bhaiya
No ratings yet
7502.9037 MANUAL Schindler 300A
Document61 pages
7502.9037 MANUAL Schindler 300A
habibulla
No ratings yet
Optimization Notes 2
Document6 pages
Optimization Notes 2
Divya Gautam
No ratings yet
Report
Document9 pages
Report
mitrajsinh
100% (1)
What Exactly Is Quality Content?
Document8 pages
What Exactly Is Quality Content?
calcapart
No ratings yet
Error Guide
Document224 pages
Error Guide
Sadiq Basha
No ratings yet
p68 - 0x0f - Similarities For Fun and Profit - by - Pouik & G0rfi3ld
Document433 pages
p68 - 0x0f - Similarities For Fun and Profit - by - Pouik & G0rfi3ld
Atul Tripathi
No ratings yet
300+ Keyboard Shortcuts For Word 2007
Document18 pages
300+ Keyboard Shortcuts For Word 2007
Mujahid khan
No ratings yet
Multiple Integrals: MATH23-1 Calculus 3
Document31 pages
Multiple Integrals: MATH23-1 Calculus 3
Raging Potato
67% (3)
Recursion
Document8 pages
Recursion
Danish
No ratings yet
Pattern Based Indonesian Question Answering System
Document6 pages
Pattern Based Indonesian Question Answering System
Eri Zuliarso
No ratings yet