You are on page 1of 53

MỞ ĐẦU

R VÀ XỬ LÝ DỮ LIỆU TRÊN R

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 1 / 53
R LÀ GÌ ?

R: Phần mềm dành cho phân tích và đồ họa thống kê + Nó cũng là


một ngôn ngữ lập trình.
R xuất hiện năm 1993 + Bắt đầu bởi Ross Ihaka và Robert
Gentleman, tại Đại học Auckland, New Zealand .
R: Mã nguồn mở + Miễn phí nhưng rất mạnh mẽ.
R: Nhiều người cộng đồng nghiên cứu và phân tích số liệu chuyển
sang sử dụng

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 2 / 53
Hình: Ross Ihaka và Robert Gentleman

Tên phần mềm R một phần xuất phát từ chữ cái đầu trong tên của hai
tác giả tạo ra nó.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 3 / 53
I. CÀI ĐẶT VÀ KHỞI ĐỘNG R

Địa chỉ tải phần mềm R:


http://cran.r-project.org/bin/windows/base/
Or search on Google with keyword: download R
Địa chỉ tải phần mềm RStudio
posit.co/download/rstudio-desktop
Or search on Google with keyword: RStudio
Quá trình cài đặt tiến hành như bình thường.
Khi cài đặt xong, kích đúp vào biểu tượng R (của RStudio) để sử
dụng R.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 4 / 53
II. TÍNH TOÁN CƠ BẢN

1 Cộng: +, trừ: -, nhân: *, chia: z.


2 Khai căn bậc hai của x: sqrt(x), nâng lũy thừa số mũ a của x: xˆa.
3 Số các tổ hợp chập k của n phần tử: choose(n, k).
4 Tính tích của các số a, b, c ...: prod(a, b, c, ...) .

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 5 / 53
Lưu ý: ta dùng n : m để ký hiệu dãy các số nguyên liên tiếp từ n đến m.
Do đó, ví dụ
prod(10:20) sẽ tính tích các số nguyên liên tiếp từ 10 đến 20,
choose(20, 10:15) sẽ cho ta dãy các tổ hợp chập 20 của 10, 11, 12 ...
15 phần tử.
Kỹ thuật trên có thể áp dụng cho nhiều hàm số khác!

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 6 / 53
MỘT VÀI LƯU Ý

Lịch sử làm việc của R Vào cửa sổ con phía trên, bên phải của RStudio
ñ chọn thẻ History.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 7 / 53
Sau khi lấy lại lịch sử làm việc, ta có thể chọn một/nhiều dòng lệnh và
chuyển sang cửa sổ làm việc bằng cách nhấn vào To Console, tiếp tục
nhấn Enter để chạy lại một/nhiều dòng lệnh đã chọn.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 8 / 53
Ghi chú trong R Việc ghi chú được thực hiệu sau dấu thăng (#).

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 9 / 53
Câu lệnh chưa hoàn chỉnh Khi câu lệnh chưa đầy đủ mà ta đã gõ Enter,
dấu cộng (+) xuất hiện để ta hoàn thành nốt câu lệnh.

Ta cũng có thể thoát ra khỏi câu lệnh (và gõ lại câu lệnh từ đầu) bằng
cách nhấn phím Esc.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 10 / 53
Trợ giúp trong R Tìm đến thẻ Help, gõ từ khoá vào ô tìm kiếm.

Thường có nhiều ví dụ minh hoạ liên quan, ta có thể chạy lại các ví dụ
này để hiểu hơn về đối tượng đang tìm kiếm.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 11 / 53
Lưu ý khác
1 Xóa của sổ làm việc của R: Ctrl + l (hoặc nhấn vào biểu tượng chiếc
chổi).
2 Mặc dù xóa của sổ làm việc của R nhưng các dòng lệnh đã gõ vẫn
còn lưu lại trong bộ nhớ của R (cho phiên làm việc hiện tại). Ta có
thể xem lại (và sửa nếu cần) những dòng lệnh đó bằng cách dùng các
phím mũi tên lên/xuống.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 12 / 53
Bài tập:
1 Xoá cửa sổ làm việc của R.
2 Thực hiện các phép tính sau:
c 40  50
a. p30 25q
1
3 b.
13
3 7 30!
c. C10 C10 d.
10!
3 Lưu lại lịch sử tính toán ở trên.
4 Lấy lại lịch sử làm việc và chuyển một số câu lệnh sang cửa sổ
Console.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 13 / 53
Bài tập về nhà: Thực hiện các phép tính sau:
c 213
a. 30  29  28      11 3 150
b.
130 511
2
c. C10  10! d. pC10 q
2 3!

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 14 / 53
III. VÉC TƠ DỮ LIỆU

A. Nhập một véc tơ dữ liệu


1 Cách 1: dùng hàm Tên=c(...).
2 Cách 2: dùng hàm Tên=scan().

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 15 / 53
Chú ý:
Ưu điểm của cách 1: ta có thể sửa lại dữ liệu nếu nhập sai (bằng cách
dùng mũi tên lên, xuống gọi lại câu lệnh nhập dữ liệu sai và sửa), cho
phép nhập dữ liệu dạng chữ (cách 2 không chấp nhận dữ liệu dạng
chữ). Ưu điểm của cách 2: có thể nhập một cột dữ liệu trong một tệp
Excel (copy cột dữ liệu rồi paste trong hàm scan()).
R phân biệt hai loại dữ liệu: dạng số và dạng chữ, số liệu dạng chữ
phải được đặt giữa hai dấu nháy.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 16 / 53
Chú ý: về cách đặt tên một đối tượng trong R
Tên đối tượng phải được viết liền. Ví dụ: Tuoi Sinh Vien là một tên
không được chấp nhận).
R phân biệt cách đặt tên với chữ in hoa và chữ in thường. Ví dụ: hai
tên TuoiSinhVien và Tuoisinhvien là khác nhau.
Khi đặt tên các chữ được viết liền nhau đôi khi khó đọc, ta có thể sử
dụng dấu chấm để tách rời tên cho dễ đọc. Ví dụ: có thể đặt tên là
Tuoi.SinhVien, Tuoi.GiaoVien.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 17 / 53
b. Các lệnh cơ bản đối với một véc tơ dữ liệu
Giả sử x là một véc tơ dữ liệu nào đó. Khi đó các lệnh sau sẽ cho ta kết
quả với ý nghĩa tương ứng ở bên cạnh.
1 max(x), min(x): phần tử lớn nhất, nhỏ nhất trong x,
2 sum(x), prod(x): tổng, tích tất cả các phần tử của x,
3 mean(x): trung bình cộng các phần tử của x,
4 length(x): độ dài của x,
5 x[i]: phần tử thứ i của x,
6 x[i:j]: các phần tử từ thứ i đến thứ j của x,
7 x[x>a]: các phần tử lớn hơn a của x,
8 x[x>a& x< b]: các phần tử lớn hơn a và nhỏ hơn b của x,
9 x[x>a | x< b]: các phần tử lớn hơn a hoặc nhỏ hơn b của x,
Chú ý: một vài loại so sánh trong R: <, <=, >, >=, == (so sánh bằng,
= là phép gán)

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 18 / 53
Bài tập: Cho biết điểm trung bình của 15 sinh viên mới tốt nghiệp của
trường Thăng Long như sau:

5, 6, 7, 5, 8, 8, 7, 8, 5, 7, 9, 6, 6, 7, 7

1 Nhập dữ liệu thành một véc tơ có tên Diem.TK.


2 Thực hành các lệnh cơ bản cho véc tơ dữ liệu trên.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 19 / 53
c. Biên tập dữ liệu
Tạo một bản copy: DuLieu.Copy=DuLieu (bây giờ DuLieu.Copy là
một bản sao của DuLieu, ta có thể thay đổi số liêu trong DuLieu mà
không sợ mất dữ liệu gốc - ban đầu đã được lưu trong DuLieu.Copy).
Sửa dữ liệu: fix(DuLieu).
Ghép hai véc tơ dữ liệu: DuLieu.Moi=c(DuLieu1, DuLieu2) (DuLieu1
và DuLieu2 được nối vào nhau tạo thành một véc tơ dữ liệu mới được
đặt tên là DuLieu.Moi).

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 20 / 53
Bài tập: Cho biết điểm trung bình của 15 sinh viên mới tốt nghiệp của
trường Thăng Long như sau:

5, 6, 7, 5, 8, 8, 7, 8, 5, 7, 9, 6, 6, 7, 7

1 Nhập dữ liệu thành một véc tơ có tên Diem.TK.


2 Thực hành các lệnh cơ bản cho véc tơ dữ liệu trên.
3 Tạo một bản sao cho véc tơ dữ liệu trên.
4 Sửa điểm tổng kết của người thứ 2, 4, 5 thành 6, 7.2, 5.1.
5 Thêm điểm trung bình của người thứ 16, 17, 18, 19, 20 tương ứng
là 9, 6.2, 6.1, 5, 5.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 21 / 53
Bài tập về nhà: Trong R ta khởi tạo một véc tơ ngẫu nhiên, đặt tên là
DuLieu, bằng câu lệnh DuLieu=sample(1:100, 1500, replace=T).
1 Thực hành các lệnh cơ bản cho véc tơ dữ liệu trên.
2 Tạo một bản sao cho véc tơ dữ liệu trên.
3 Sửa dữ liệu thứ 90 đến 100 tương ứng thành các số: 100, 99, ... 90.
4 Thêm dãy số 100, 99, . . . 50 vào đầu véc tơ DuLieu.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 22 / 53
Chú ý: ta có thể kết hợp các véc tơ có cùng độ dài
Cho x  c px1 , x2 , . . . , xn q, y  c py1, y2, . . . , yn q là hai véc tơ cùng độ dài
n. Khi đó:
x y  px1 y1, x2 y2, . . . , xn yn q.
x  y  px1  y1 , x2  y2 , . . . , xn  yn q.
x  y  px1 y1 , x2 y2 , . . . , xn yn q.
x {y  px1 {y1 , x2 {y2 , . . . , xn {yn q.
x 2  px12 , x22 , . . . , xn2 q.
2  x  p2  x1 , 2  x2 , . . . , 2  xn q.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 23 / 53
Bài tập về nhà: Cho kết quả của các biểu thức sau:
1 1  100 2  99 3  98  100  1.
2 1
100
2
99
3
98  100
1 .
3 12  100 22  99 32  98    1002  1.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 24 / 53
IV. BẢNG DỮ LIỆU

I. Nhập một bảng dữ liệu


1. Nhập trực tiếp bảng dữ liệu trong R
Ta dùng câu lệnh: TenBang=edit(data.frame()).
Khi thay đổi tên các cột, lưu ý rằng tên các cột vẫn phải tuân theo
các quy tắc đặt tên (không có dấu cách, ...).
Lưu ý chọn đúng kiểu dữ liệu cho mỗi cột (numeric: dữ liệu dạng số,
character: dữ liệu dạng chữ).

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 25 / 53
Chú ý: về việc thay đổi thư mục làm việc của R

Ở mỗi thời điểm R làm việc với một thư mục nào đó, muốn biết xem
R đang làm việc với thư mục nào, ta dùng lệnh getwd() (getwd:
get working directory).
Thay đổi thư mục làm việc của R: Vào
Session Ñ Set Working Directory Ñ Choose Directory ... (hoặc đơn
giản bấm tổ hợp phím Ctrl+Shift+H) rồi tìm đến thư mục mà ta
muốn thay đổi, cuối cùng nhấn Ok.
Sau đây, khi lấy dữ liệu từ các nguồn có sẵn đang được đặt trong một
thư mục nào đó, ta cần thay đổi thư mục làm việc của R đến thư
mục chứa dữ liệu này.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 26 / 53
2. Nhập dữ liệu từ một tệp excel dạng *.csv
Trong R, lấy dữ liệu từ tệp *.csv bằng lệnh: TênBảng=read.csv(’TênTệp.
csv’, header=T). Tham số header=T có nghĩa dòng dầu tiên trong tệp
*.csv đóng vai trò là tên các cột.
3. Nhập dữ liệu từ một tệp excel dạng *.xls
Bước 1: Đổi định dạng *.xls thành định dạng *.csv: vào File Ñ Save as, ở
mục Save as type chọn CSV (Comma delimited) *. csv, cuối cùng lưu lại.

Bước 2: Lấy dữ liệu từ tệp *.csv với cách thức đã được trình bày ở mục
trước.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 27 / 53
4. Nhập dữ liệu từ một tệp text dạng *.txt
Ta dùng lệnh: TênBảng=read.table(’TênTệp. txt’, header=T). Tham số
header=T có nghĩa dòng dầu tiên trong tệp *.txt đóng vai trò là tên các
cột.
5. Nhập dữ liệu từ một tệp R dạng *.rda
Trong R gõ print(load(’TênTệp.rda’)), một dòng chữ hiện ra, đây chính là
tên của đối tượng được lưu trữ trong tệp *.rda, muốn biết xem đối tượng
này là gì và chứa những dữ liệu nào chỉ việc gọi tên đối tượng này ra và
gõ Enter.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 28 / 53
Bài tập về nhà: Vào elearning lấy dữ liệu dùng để làm bài tập. Chuyển
dữ liệu vào địa điểm thích hợp trong máy tính của bạn. Mở R/Rstudio và
tập cách lấy dữ liệu từ các định dạng tệp khác nhau (*.csv, *.xls, *.txt,
*.rda).

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 29 / 53
II. Làm việc với một bảng dữ liệu
1 Sửa bảng dữ liệu: fix(TenBang) (sửa bảng TenBang).
2 Xem một số hàng đầu tiên của bảng: head(TenBang).
3 Tìm số hàng, số cột của bảng: dim(TenBang) (dim: dimension).
4 Truy cập vào hàng trong bảng: TenBang[3, ] (đưa ra danh sách gồm
chỉ một hàng 3) hoặc TenBang[5:10, ] (đưa ra danh sách gồm các
hàng từ hàng 5 đến hàng 10).

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 30 / 53
3. Truy cập vào cột trong bảng, có 2 cách:
Cách 1: TenBang$TenCot (truy cập vào cột TenCot).
Cách 2: Khi thường xuyên làm việc với các cột của một
bảng dữ liệu nào đó, ta có thể dùng lệnh
attach(TenBang) để thông báo cho R rằng kể từ thời
điểm này ta sẽ làm việc với bảng TenBang. Và từ thời
điểm này ta truy cập vào một cột trong bảng bằng cách
gọi thẳng tên cột TenCot, không cần cấu trúc
TenBang$TenCot.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 31 / 53
4. Trích dữ liệu từ một bảng. (quan trọng)
TenBangCon=subset(TenBang/hoặc TenCot, TenBang$Cot1
> a & BangDuLieu$Cot2 < b).
(Lấy ra danh sách - đặt tên là TenBangCon - bao gồm
những hàng có tính chất Cot1 > a và Cot2 < b trong bảng
TenBang/hoặc cột TenCot)

Một số toán tử logic thường dùng: & (và - phép hội), |


(hoặc - phép tuyển), ! (phép lấy phủ định).
Muốn biết xem bảng con có bao nhiêu hàng ta lại dùng
hàm dim(TenBangCon).

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 32 / 53
5. Đếm dữ liệu. (quan trọng)
Khi đếm số lượng dữ liệu có một tính chất nào đó trong một
bảng dữ liệu ta dùng lệnh

sumpBangDuLieu$Cot1 ¡ a & BangDuLieu$Cot2 bq

(Đếm số lượng dữ liệu có tính chất Cot1 >a và Cot2 < b


trong bảng TenBang)

Chú ý phân biệt sự giống và khác nhau giữa lệnh đếm


dữ liệu sum và lệnh trích dữ liệu subset.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 33 / 53
III. Lưu một đối tượng trong R
Ta có thể lưu một đối tượng trong R (một véc tơ dữ liệu, một bảng dữ
liệu . . . ) (để lần sau dùng lại) dưới dạng một tệp dạng *.rda. Ví dụ đối
tượng là DuLieu, ta lưu dưới dạng một tệp dạng *.rda có tên gọi là
TênTệp, ta dùng câu lệnh: save(DuLieu, file=’TênTệp.rda’). TênTệp.rda
được lưu ở thư mục làm việc hiện tại của R.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 34 / 53
Bài tập về nhà
Bài 1. Lấy dữ liệu từ tệp Kids.txt.
1 Sửa dữ liệu nằm ở hàng 5 cột 3 thành 8.
2 Bảng dữ liệu có bao nhiêu hàng, bao nhiêu cột?
3 Để xem một số hàng đầu tiên của bảng ta dùng câu lệnh nào?
4 Lấy ra danh sách con đặt tên là DanhSachCon bao gồm các hàng từ
hàng 10 đến hàng 30. Lưu danh sách con này thành một tệp có tên
là DanhSachCon_Luu.rda.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 35 / 53
Bài 2. (tiếp theo)
1 Lấy ra danh sách con (tức bảng con) bao gồm những người học lớp 5
(xem cột Lop). Danh sách này có bao nhiêu người (dùng lệnh dim)?
2 Đưa ra danh sách trường học (xem cột school) của những người
học lớp 5.
3 Có bao nhiêu người học lớp 5 (dùng lệnh sum)
4 Lấy ra danh sách con bao gồm những người nam (xem cột GioiTinh)
và học lớp 5 và có độ tuổi khác 7 (xem cột Tuoi). Danh sách này có
bao nhiêu người (dùng lệnh dim)?
5 Đưa danh sách nơi ở (xem cột NoiO) của những người nam học lớp
5, có độ tuổi khác 7.
6 Có bao nhiêu người nam học lớp 5 và có độ tuổi khác 7 (dùng lệnh
sum)?

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 36 / 53
V. Tự tìm hiểu: tạo dãy dữ liệu

1 Tạo dãy dữ liệu cách đều: seq().


2 Tạo dãy dữ liệu lặp lại: rep().
3 Chọn mẫu ngẫu nhiên: sample().
Lưu ý: Ta có thể vào mục help (cửa sổ bên phải, phía dưới của Rstudio;
chọn thẻ Help; nhập từ khoá tìm kiếm) để tra cứu cách sử dụng và các ví
dụ cho các hàm.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 37 / 53
Bài tập: Tạo các dãy dữ liệu sau:
1 Dãy cách đều nhau 2 đơn vị, bắt đầu từ 51, kết thúc bằng 1999.
2 Dãy cách đều nhau 5 đơn vị, bắt đầu từ 100, độ dài dãy là 200.
3 Dãy cách đều nhau bắt đầu từ 1000, kết thúc bằng 100, độ dài dãy là
50.
4 Dãy chữ tên gọi: Tung, Tuan, Tan, Tren, Tung, Tuan, Tan, Tren,
. . . (nhóm Tung, Tuan, Tan, Tren lặp lại 50 lần).
5 Dãy chữ tên gọi: Tung, . . . Tung, Tuan . . . Tuan, Tan . . . Tan, Tren
. . . Tren (mỗi tên gọi lặp lại 20 lần).
6 Dãy chữ tên gọi: Tung, . . . Tung, Tuan . . . Tuan, Tan . . . Tan, Tren
. . . Tren (Tung lặp lại 20 lần, Tuan lặp lại 30 lần, Tan lặp lại 40 lần,
Tren lặp lại 50 lần).
7 Chọn ngẫu nhiên 100 số (không lặp lại) trong các số từ 500 đến 1000.
8 Chọn ngẫu nhiên 30 quân bài từ bộ bài có 4 chất Rô, Cơ, Bích, Nhép
(lưu ý ta chỉ quan tâm đến chất của 30 quân bài được lấy ra).

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 38 / 53
CHƯƠNG 4: TÓM TẮT DỮ LIỆU

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 39 / 53
I. TÍNH TẦN SỐ, TẦN SUẤT

1. Tính tần số:


table(x): tính tần số của vector x.
table(x, y): tính tần số chéo giữa vector x và vector y.
2. Tính tần suất:
prop.table(table(x)): tính tần suất của vector x.
prop.table(table(x, y)): tính tần suất chéo giữa vector x và vector y.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 40 / 53
Bài tập về nhà: Lấy dữ liệu từ tệp Kids.txt. Dùng các câu lệnh tính tần
số, tần số chéo, tần suất, tần suất chéo tính toán và trả lời các câu hỏi
sau.
1 Có bao nhiêu trẻ ở Ngoại Ô?
2 Có bao nhiêu trẻ có mức độ yêu thích thể thao là 2?
3 Có bao nhiêu trẻ ở Nội Thành và có học lực là 3?
4 Có bao nhiêu trẻ lớp 4 và ở trường E?

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 41 / 53
II. PHÂN TỔ DỮ LIỆU

1. Phân tổ dữ liệu:
table(cut(TênVector, n)): phân vector TênVector thành n tổ có độ
dài bằng nhau.
table(cut(TênVector, breaks=c(b1 , b1 , . . . ))): phân vector
TênVector thành các tổ với các điểm chia là b1 , b2 , . . . .

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 42 / 53
Bài tập về nhà: Lấy dữ liệu từ tệp SoLieu.csv.
1 Phân tổ cột Tuổi thành các tổ với các điểm chia tùy chọn.
2 Phân tổ cột Thu Nhập thành các tổ với các điểm chia cách đều
nhau 10 đơn vị. (Gợi ý: có thể sử dụng câu lệnh tạo dãy dữ liệu cách
đều để tạo ra danh sách các các điểm chia tổ)
3 Ta có thể phân tổ cho cột Khu Vực, cột Giới Tính được không? tại
sao?

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 43 / 53
III. VẼ BIỂU ĐỒ TRONG R

1. Biểu đồ tần số

hist(TênVector)
hoặc hist(TênVector, breaks=c(..., ..., . . . ))
Trong đó TênVector là một véc tơ dữ liệu. breaks=c(..., ..., . . . ) là
danh sách các điểm chia tổ.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 44 / 53
Nhận xét một biểu đồ

Nhìn vào biểu đồ ta có thể biết được dữ liệu có phân bố đều không? tập
trung nhiều ở đâu? có tính đối xứng không? vv...

Một số tham số vẽ hình

1 Thêm màu: col=’red’, ’green’,. . . , rainbow(5), rainbow(6). . .


2 Thêm tên cho trục hoành, trục tung: xlab= ’...’, ylab= ’...’
3 Tên biểu đồ: main=’...’, sub=’...’

Lưu biểu đồ

Ở cửa sổ đồ hoạ, vào Export Ñ save as Image...


(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 45 / 53
2. Biểu đồ thanh

barplot(table(TênVector))

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 46 / 53
3. Biểu đồ tròn

pie(table(TênVector))

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 47 / 53
4. Biểu đồ thân và lá

stem(TênVector)
Ví dụ: Ta tạo một véc tơ ngẫu nhiên
DuLieu.NgauNhien=sample(1:100, 50). Sau đó, ta có thể vẽ biểu đồ
thân và lá: stem(DuLieu.NgauNhien).

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 48 / 53
Tự tìm hiểu: các loại thang đo (khái niệm và ví dụ)

Thang đo định danh.


Thang đo thứ bậc.
Thang đo khoảng.
Thang đo tỷ lệ.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 49 / 53
Bài tập: Lấy dữ liệu từ tệp SoLieu.csv.
1 Vẽ biểu đồ tần số với các điểm chia tùy ý cho cột Tuổi.
2 Thêm các tham số và các thông tin vẽ hình vào biểu đồ ở trên, rồi
lưu lại biểu đồ.
3 Lập biểu đồ thân và lá cho cột Tuổi.
4 Tính tần số cho cột Khu Vực, vẽ biểu đồ thanh và biểu đồ tròn cho
cột Khu Vực này.
5 Đối với hai loại dữ liệu (dl định tính, dl định lượng), đối với các loại
biểu đồ đã học (bđ tần số, bđ thanh, bđ tròn, bđ thân và lá). Loại
biểu đồ nào phù hợp với loại dữ liệu nào?
6 Mỗi cột trong bảng dữ liệu được đo bởi thang đo nào?

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 50 / 53
IV. CÁC ĐẠI LƯỢNG THỐNG KÊ MÔ TẢ

1. Tự tìm hiểu: ý nghĩa và câu lệnh tính trong R của các đại lượng:

1 Max, min,
2 trung bình cộng,
3 trung vị, các tứ phân vị,
4 mode,
5 độ lệch chuẩn, phương sai.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 51 / 53
2. Biểu đồ hộp và râu

1 boxplot(TênVector)
2 hoặc boxplot(TênVector, horizontal=T, col=’red’)

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 52 / 53
Bài tập về nhà: Lấy dữ liệu từ tệp SoLieu.csv.
1 Tính toán các đại lượng thống kê mô tả (max, min ...) cho cột Thu
Nhập. Giải thích ý nghĩa các con số/đại lượng vừa tính được.
2 Vẽ biểu đồ hộp và râu cho cột Thu Nhập và nhận xét biểu đồ.

(ĐH THĂNG LONG) Bài tập Xác suất thống kê Ngày 30 tháng 10 năm 2023 53 / 53

You might also like