You are on page 1of 5

BÀI 1: CÀI ĐẶT R, R-STUDIO, Rcmdr, NHẬP LIỆU VÀ BIÊN TẬP

DỮ LIỆU
I. Cơ sở lý thuyết
1. Cài đặt
- Đăng nhập http://cran.r-project.org/mirrors.html để chọn một “mirror” (quốc gia) gần
bạn nhất
- Chọn hệ điều hành mà bạn đang sử dụng (Linux, Mac, hoặc Windows) (Click on your
favorite operating system (Linux, Mac, or Windows)
- Tải và cài đặt “base” (Download and install the “base”)
 Cài đặt các packages phụ trợ
- Khởi động R trong máy tính của bạn
- Chọn đề mục thích hợp trong danh mục các “Package”
Rcmdr
Vào R, install package chọn Rcmdr
Nếu chưa có, tải phần mềm từ trang https://cran.r-project.org/ và cài đặt
R-studio
Tải phần mềm R-studio từ trang https://www.rstudio.com/products/rstudio/download/ và cài
đặt
2. Code nhập liệu và biên tập dữ liệu:
Nhiệm vụ Code lệnh
Nhập Nhập trực tiếp: data.frame()
liệu
Nhập từ file text: setwd(“c:/works/stats”)
chol <- read.table("chol.txt", header=TRUE)
Nhập từ file excel CSV setwd(“c:/works/stats”)
(Comma delimited) gh <- read.csv ("excel.csv", header=TRUE)
Biên Tách file subset(data, cond)
tập dữ vd: nam <- subset(chol, sex==”Nam”)
liệu nu <- subset(chol, sex==”Nu”)
Tách data chol thành hai file có tên nam và nu
Chiết số liệu tu data.frame Chol[ row, col]
Vd: data2 <- chol[, c(1,3,7)]
Chiết số liệu từ file chol lấy cột 1, 3, 7 và tất cả các
hàng.
Nhập hai data.frame Merge(data1,data2, by= “variable”, all= TRUE)
Vd: d <- merge(d1, d2, by="id", all=TRUE)
Nhập hai file d1 và d2 lại với nhau dựa vào biến
chùng id (với đk hai file phải có cùng biến chung)
Mã hóa (data coding) Vd:
bmd <- c(-0.92,0.21,0.17,-3.21,-1.80,-2.60,-
2.00,1.71,2.12,-2.11)
# tạm thời cho biến số diagnosis bằng bmd
diagnosis <- bmd
# biến đổi bmd thành diagnosis
diagnosis[bmd <= -2.5] <- 1
diagnosis[bmd > -2.5 & bmd <= 1.0] <- 2
diagnosis[bmd > -1.0] <- 3
# tạo thành một data frame
data <- data.frame(bmd, diagnosis)
# liệt kê để kiểm tra xem lệnh có hiệu quả không>
data
Mã hóa một dãy số liệu bằng các chữ số hoặc ký tự
nhất định.
Biến đổi thành yếu tố factor(data)
(factor) vd: diag<- factor(diagnosis)
Chuyển biến số học thành biến yếu tố và không thể
tính toán được.
Chia nhóm cut Vd: cut(age, 2)
table(cut(age, 2))
ageg <- cut(age, 3, labels=c("low", "medium",
"high"))
table(ageg)
cut biến age thành 2 hay 3 group số liệu.
Chia nhóm cut2 library(Hmisc)
bmd <- c(-0.92,0.21,0.17,-3.21,-1.80,-2.60,-
2.00,1.71,2.12,-2.11)
# chia biến số bmd thành 2 nhóm và để trong đối
tượng group
group <- cut2(bmd, g=2)
table(group)
cut2 cũng chia biến thành nhiều group số liệu.

II. Bài thực hành:


1, Nhập liệu trực tiếp và nhập bằng file.txt, file.csv bảng số liệu (data)sau:
id Sex weight hight
1 Male 60 165
2 Female 55 153
3 Female 45 158
4 Male 75 175
5 Female 50 155
6 Male 66 172
7 Male 70 174
8 Male 68 168
9 Female 60 160
10 Male 78 177
2, Tách data thành hai data có tên mới male (chỉ có Male) và female (chỉ có Female); tách
thành hai data với tên D1 (gồm những bạn Male có chiều cao trên 170) và D2 (gồm những
bạn Female có weight >=55).
3, Chiết dữ liệu từ data thành data.new1 không có cột weight; chiết dữ liệu data thành
data.new2 chỉ có 5 dòng đầu và cột id, weight, hight.
4, Nhập liệu data2:
id Sex tc
1 M 2.2
2 F 1.8
3 F 1.0
4 M 2.4
5 F 2.0
6 M 1.2
7 M 2.6
8 M 3.0
9 F 1.7
10 M 2.5
11 F 2.0
12 F 1.4
Nhập hai bảng số liệu data và data2.
Mã hóa biến tc trong bảng số liệu data2 với điều kiện tc>=2.0 ký hiệu là B, tc<2.0 ký hiệu
A; ghép cột mã hóa vào bảng số liệu data2.
5. Cho biến dữ liệu:
Cholesterol: 2.4, 3.2, 4.3, 1.8, 4.5, 3.1, 4.0, 4.6, 2.5, 1.6, 3.7, 2.9, 4.5
Chia biến dữ liệu thành 2 nhóm và mã hóa hai nhóm thành A, B.
III. Kiểm tra:
Bài đánh giá năng lực
Thời gian: 30 phút
Họ và tên sinh viên: …………………MSSV………………Ngày:……/………/…
Câu hỏi bài tập
Thông tin bài toán: Anh/Chị được cung cấp các code lệnh như sau
>igf <- read.table("D:/Datanew/”chol.csv”, header=TRUE) [*]
> names(igf)
[1] "id" "sex" "age" "weight" "height" "ethnicity"
[7] "igfi" "igfbp3" "als" "pinp" "ictp" "p3np"
Câu 1: Tên dữ liệu là gì:……………………………Câu lệnh [*]:  Đúng  Sai
Câu 2: Lệnh names (igf) có nghĩa là gì:
…………………………………………………………………………………………………
Câu 3: Kiểm tra số biến của dữ liệu sử dụng câu lệnh gì:
………………………………………………………………………………………………….
Câu 4: Kiểm tra cấu trúc của dữ liệu sử dụng câu lệnh gì:
………………………………………………………………………………………………….
Câu 5. Tạo dữ liệu mới tên igfnew bỏ đi cột id sử dụng câu lệnh gì
………………………………………………………………………………………………….
Câu 6. Tạo dữ liệu mới tên igfage với điều kiện tuổi (age >19) và giới tính sex là Female
sử dụng câu lệnh gì
……………………………………………………………………………….
Câu 7. Ghép hai bảng dữ liệu igf và igfnew dùng câu lệnh
gì…………………………………
……………………………………………………………………………….
Câu 8: Tạo ra bảng dữ liệu mới ifgweight với biến weight và biến D là biến mã hóa với
điều kiện weight >=70 mã hóa thành B, <70 mã hóa thành A.
…………………………………………………………………………………………………
…………………………………………………………………………………………………
………………………………………………………………………………………………..
Đáp án
Bài tập 1
Nhập dữ liệu trực tiếp
> id<- c(1:10)
> sex<-c("Male","Female","Female","Male","Female","Male","Male","Male","Female",
"Male")
> weight<- c(60,55,45,75,50,66,70,68,60,78)
> hight<- c(165, 153, 158, 175, 155, 172, 174, 168, 160, 177)
> databt1<- data.frame(id,sex,weight,hight)
> databt1
id sex weight hight
1 1 Male 60 165
2 2 Female 55 153
3 3 Female 45 158
4 4 Male 75 175
5 5 Female 50 155
6 6 Male 66 172
7 7 Male 70 174
8 8 Male 68 168

You might also like