10.the Basics of Data Classification
10.the Basics of Data Classification
Classification
Data Classification
Choropleth Maps
This map uses a 5-class equal interval classification
แมน scheme (1-10, 11-20, …).
• Most choropleth maps (and graduated
symbol maps) employ some method of data
classification.
• The point of classification is to take a large
number of observations and group them into
การ ดก มอ ล คน าน
data ranges or classes. ทใ เ ด ค ถาม
• If you want to be safe, make a map • The key question is how much เ น าย
with 3–7 data classes. Of course, your generalization do you want? A map
goals and data should also play into with 3 classes/colors (e.g., low,
this decision: เ น า ยาก
จะ แ ว เ ละเ ยด
ม
medium, high) will be easy to see and
• For example, political maps in the United remember, but may gloss over some อ ระ ง แ
States often have only 2 classes (the well- very important aspects of the data 3 น อย น
อาจ
known red state / blue state maps) or a and create artificial geographic อ ลไ ก ม แโด ก ม อ 2 เด ไป
map that wants to simply highlight places patterns by lumping together many 3 ท ใ การ ดก ม อง
บางกร ใ จ นวน • The more classes you use, the less data
above and below a national average.
places that are in fact quite different. 5 น
• แต่อาจปั ดส่วนที่สาคัญมากของข้อมูลและสร้างรูปแบบทาง
น มากก า ง โ
generalization (which is good), but this
comes at the expense of legibility and the ภูมศิ าสตร์เทียมโดยการรวมสถานที่หลายแห่งที่จริง
วง วาแ ง
น เผยร associated risk of map reading errors ค่อนข้างมากเข้าด้วยกัน แตกต่าง.
since more colors are harder to see and • There is no ideal number of classes for
ไป ห อใ เยอะ print reliably (which is bad). a map, so experiment.
เ าไห
อเ ย
ง ด
ไ ไอเ ย าแ ง ไ
ใน
น
ส่
ต่
คื
ดี
สู
ช่
ง่
ดู
ว่
ก็
ข้
มีข้
น้
มั
มี
ต้
ด้
มี
ข้
สี
ว่
ที่
ช็
ต่
ยู่
ด้
ท่
ห็
มี
ชั้
บ่
ลุ่
ำ
ำ
ลุ่
ต่
ห็
ด้
ห่
ล้
ชั้
ม่
ชั้
สิ่
สุ
วั
ริ่
มู
รื
ดี
ช้
ขึ้
อี
ช้
บ่
จั
ำ
ชั้
ชั้
ชั้
ชิ้
มี
ดี
ห้
สี
ลุ่
ร่
ว่
ณี
ป็
ญ่
Number of Data Classes
า เรา ไ แ ใจ าควรแ ง น
Classification Method •
•
ให้ดฮู ิสโตแกรม (หรือแผนภาพกระจาย) เพื่อกาหนด 'รูปแบบ' ของการสังเกตของคุณ
เหนือสิ่งอื่นใด เป้าหมายของการจัดประเภทข้อมูลคือการวางสถานที่ท่ีมีอตั ราค่าบริการ
ตลาด
ใกล้เคียงกันในชัน้ เดียวกัน และแยกสถานที่ท่ีมีอตั ราต่างกันมากออกเป็ นชัน้ ต่างๆ
ไ าน ไหน ดไ แง
า
ส
/
two really large outlier values.
• Outliers in that case will likely produce empty
classes, wasting perfectly good classes with
↳
no observations in them. เ าๆ น
Classification Method •
•
ปัญหาเกี่ยวกับควอนไทล์คือคุณสามารถลงเอยด้วยคลาสที่มีชว่ งตัวเลขต่างกันมาก (เช่น
1-4, 4-9, 9-250…คลาสสุดท้ายนัน้ ใหญ่มาก)
ควอนไทล์ยงั สามารถแยกตาแหน่งที่มีอตั ราใกล้เคียงกัน และจัดกลุม่ สถานที่ท่ีมีอตั รา
ต่างกันมากเข้าด้วยกัน ซึ่งเป็ นสิ่งที่ไม่พงึ ปรารถนาอย่างยิ่ง ดังนัน้ ให้ใช้ฮิสโตแกรมเพื่อดู
น 5 ประเภท
ว่าสิ่งนีเ้ กิดขึน้ หรือไม่เหนือสิ่งอื่นใด เป้าหมายของการจัดประเภทข้อมูลคือการวาง
แ ละ สถานที่ท่ีมีอตั ราค่าบริการใกล้เคียงกันในชัน้ เดียวกัน และแยกสถานที่ท่ีมีอตั ราต่างกัน
QUANTILES มากออกเป็ นชัน้ ต่างๆ
• will create attractive maps that place an equal • รวมส่วนหนึ่งของคลัสเตอร์ท่ีสามกลับเข้าไปในคลาส 2 แม้วา่ จะใกล้เคียงมาก (เชิง
number of observations in each class: If you have ตัวเลข)
30 counties and 6 data classes, you’ll have 5
counties in each class.
• The problem with quantiles is that you can end up
with classes that have very different numerical ใ
ก ด
อกม 2
Classification Method •
แตกต่างระหว่างคลาสให้ได้มากที่สดุ
ข้อเสียประการหนึ่งของวิธีนีค้ ือชุดข้อมูลแต่ละชุดสร้างโซลูชนั การจาแนกประเภทเฉพาะ
และหากคุณต้องการเปรียบเทียบระหว่างแผนที่ตา่ งๆ เช่น ในแผนที่หรือชุดข้อมูล (เช่น
แต่ละแผนที่สาหรับปี 1980, 1990, 2000)
อ ล
ดง ด และ แ ง
NATURAL BREAKS
• is a kind of “optimal” classification
scheme that finds class breaks that (for a
given number of classes) will minimize
within-class variance and maximize
between-class differences.
• One drawback of this approach is each
dataset generates a unique classification
solution, and if you need to make
comparison across maps, such as in an
atlas or a series (e.g., one map each for
1980, 1990, 2000)
• you might want to use a single scheme
that can be applied across all of the นอ บการกระจาย
ด
maps. ไป น
แ ละ
ไ สนใจ จะ แ ง
เ า น ย และ
า
ดูจุ
ข้
ว่
จั
ปี
ท่
ขึ้
บ่
ชั้
ต่
บ่
มั้
ม่
สู
มู
ยู่
กั
กั
สุ
• เช่นเดียวกับที่ไม่มีจานวนคลาสที่ถกู ต้อง ไม่มีวิธีเดียวที่ดีท่ีสุดในการจาแนกข้อมูลของ
คุณออกเป็ นช่วง
Classification Method •
•
ให้ดฮู ิสโตแกรม (หรือแผนภาพกระจาย) เพื่อกาหนด 'รูปแบบ' ของการสังเกตของคุณ
เหนือสิ่งอื่นใด เป้าหมายของการจัดประเภทข้อมูลคือการวางสถานที่ท่ีมีอตั ราค่าบริการ
ใกล้เคียงกันในชัน้ เดียวกัน และแยกสถานที่ท่ีมีอตั ราต่างกันมากออกเป็ นชัน้ ต่างๆ
MANUAL
• There are many times we need to manually set
one or all of the class breaks.
• For example; Are there important break points
that need to be “hardwired” into your class
breaks?
• Does one of the class breaks need to be the mean?
• Is this map part of a series that needs the same
classes across all of the maps (so that the colors
always refer to the same numbers on any map)?
• Do any of the other methods get you close to a
good solution that could be improved with a few
slight adjustments those classes?
• If so, do not hesitate to set these class breaks
yourself.
How to Generate Classification Schemes
• GIS software such as QGIS and เ น ยอด ยด ด
น
ArcGIS include the capability to
classify your data using a variety
of methods (or manually) and to
see your data distribution as a
histogram to assist in
classification.
ตื้
ผิ
จุ
ห็
มั้