Professional Documents
Culture Documents
plot(1:20) # 산점도를 그림
1. 데이터 시각화 기법
R 그래프 전체 구성 결정
함수 이용 )
가상 화면 분할 해제를 해주어야 함
1. 데이터 시각화 기법
R 그래프 전체 구성 결정
작성하면 열부터 채움 )
분할함
3. x 축과 y 축 넣기
4. 그래프 제목 , x 축과 y 축의 레이블 넣기
5. 기존 그래프에 추가 그래프 넣기
6. 주석 추가하기
1. 데이터 시각화 기법
x 데이터를 이용해서 꺽은선 그래프 작성
[ 코드 7-3]
x <- c(100, 200, 180, 150, 160)
y <- c(220, 300, 280, 190, 240)
z <- c(310, 330, 320, 290, 220)
# X 데이터의 꺽은선 그래프 , 빨간색으로 0~400 까지 Y 축 범위 지정 , X,Y 축 표시 및 레이블 표시 안함 .
plot(x, type="o", col="red", ylim=c(0,400), axes=F, ann=F)
1. 데이터 시각화 기법
Axis() 로 그래프에 x, y 축을 그리는 함수
[ 코드 7-4]
x <- c(100, 200, 180, 150, 160)
y <- c(220, 300, 280, 190, 240)
z <- c(310, 330, 320, 290, 220)
plot(x, type="o", col="red", ylim=c(0,400), axes=F, ann=F)
axis(1, at=1:5, lab=c(" 가 "," 나 "," 다 ", " 라 ", " 마 "))
axis(2, ylim=c(0,400))
1. 데이터 시각화 기법
title() 로 그래프에 제목을 추가하는 함수
x 축 , y 축의 이름과 색을 설정할 수 있음
[ 코드 7-5]
코드 8-4 내용 이후
- 코드 생략 -
title(main="Numer of book pages", col.main = "orange", font.main=4)
title(xlab="Book", col.lab="black")
title(ylab="Pages", col.lab="black")
1. 데이터 시각화 기법
기존 그래프에 추가로 그래프를 그릴 때 lines() 를 사용 ( 선을 그리는 함수 )
코드 8-6 내용 이후
- 코드 생략 -
title(ylab="Pages", col.lab="black")
lines(y, type="b", pch=17, col="green", lty=2)
lines(z, type="b", pch=11, col="blue", lty=1)
1. 데이터 시각화 기법
선그래프에서의 모양과 선의 종류
https://www.statmethods.net/advgraphs/parameters.html
1. 데이터 시각화 기법
legend() 를 사용하여 주석 위치를 지정하고 내용 , 색 , 크기를 설정
[ 코드 7-7]
- 코드 생략 -
lines(z, type="b", pch=11, col="blue", lty=1)
legend(4, 400, c("Science", "Engligh", "Math"), cex=0.8, col=c("red", "green", "blue"), pch=21, lty=1:3)
1. 데이터 시각화 기법
그래프 -> 이미지 파일로 저장
[Save as Image] 를 클릭하면 JPEG, PNG 등의 이미지 파일로 저장할 수 있고 , [Save as PDF] 를
폴더에 파일이 생성
시각화할 때 사용함 .
막대그래프에서는 막대의 면적이 의미가 없지만 히스토그램에서는 막대의 면적도 의미가 있기 때문에 이 둘을 구분할 필요가 있음
2. 기본 R 그래프
매개변수 las : x 축에 표시되는 값들의 출력 방향을 조절할 수 있는 역할
las=2 는 글씨를 세로 방향으로 출력되며 , 1 은 가로 방향이 됨
Breaks : 구간을 몇 개로 나눌지를 조절하는 역할을 함 .
(breaks 값이 커지면 구간의 개수도 늘어나고 , breaks 값이 작아지면 구간의 개수도 줄어듬 )
[ 코드 7-11]
원그래프 : 하나의 원 안에서 각 자료값이 차지하는 비율을 넓이로 나타낸 그래프 ( 색은 지정하지
[ 실행결과 ]
blood_type
A AB B O
4213
하나의 그래프로 데이터의 분포 형태를 포함한 다양한 정보를 전달하기 때문에 단일변수 수치형
자료를 파악하는 데 자주 사용
데이터가 어떤 범위에 걸쳐 존재하며 , 데이터를 대표하는 평균 값이 데이터의 분포 중 어느 위치에
있는지를 쉽게 파악할 수 있으며 , 특이값을 파악하는 방법으로 많이 사용
특정 데이터가 전체 데이터의 범주를 벗어나는지 , 얼마만큼 벗어나는지를 확인하기 위한 좋은
그래프
2. 기본 R 그래프
[ 코드 7-13]
값들이 좁은 지역에
모여 있음
( 꽃잎의 길이가 비
슷)
자료의 분포가 넓게
퍼져 있음
( 꽃잎의 길이가 다양
함)
상자 그림이 의미하는 내용
상자그림 값 설명
[ 코드 7-15]
head(mtcars)
mosaicplot(~cyl+gear, # 모자이크 플롯 대상 변수 지정
data = mtcars, # 모자이크 플롯 데이터셋
color = c("blue", "brown", "yellow"), # y 축 변수의 그룹별 색상
main = " 실린더수와 기어 형태 ") # 모자이크 플롯 제목
[ 코드 7-16]
library(treemap) # tree 패키지 불러오기
head(state.x77) # state.x77 데이터확인하기
state<-data.frame(state.x77) # 매트릭스를 데이터프레임으로 변환
state<-data.frame(state, StName=rownames(state)) # 1 열에 이름 StName 추가
treemap(state,
index=c("StName"), # 타일에 주 이름 표기
vSize="Area", # 타일의 크기 ( 면적 )
vColor="Murder", # 타일의 색상 ( 살인율 )
type="value", # 타일의 컬러링 방법
title="10 만명당 미국 도시의 살인율 (1970 년 )") # 트리맵의 제목
2. 기본 R 그래프
[ 실행결과 ]
#state.x77 데이터확인하기
Population Income Illiteracy Life Exp Murder HS Grad Frost Area
Alabama 3615 3624 2.1 69.05 15.1 41.3 20 50708
Alaska 365 6315 1.5 69.31 11.3 66.7 152 566432
Arizona 2212 4530 1.8 70.55 7.8 58.1 15 113417 • 타일색 ( 살인율 ) 이 높을수록 진한
Arkansas 2110 3378 1.9 70.66 10.1 39.9 65 51945 초록색에 가깝고 낮을수록 노랑색에
가까움
California 21198 5114 1.1 71.71 10.3 62.6 20 156361
• Alaska( 알래스카 주 ) 가 면적이
Colorado 2541 4884 0.7 72.06 6.8 63.9 166 103766 가장 넓지만 ,
범죄율은 Alabama( 앨라배마 주 )
# 매트릭스를 데이터프레임으로 변환 이 가장 높은 것을 확인
#1 열에 이름 StName 추가
Population Income Illiteracy Life.Exp Murder HS.Grad Frost Area StName
Alabama 3615 3624 2.1 69.05 15.1 41.3 20 50708 Alabama
Alaska 365 6315 1.5 69.31 11.3 66.7 152 566432 Alaska
Arizona 2212 4530 1.8 70.55 7.8 58.1 15 113417 Arizona
Arkansas 2110 3378 1.9 70.66 10.1 39.9 65 51945 Arkansas
California 21198 5114 1.1 71.71 10.3 62.6 20 156361 California
Colorado 2541 4884 0.7 72.06 6.8 63.9 166 103766 Colorado