You are on page 1of 62

Chöông 1: DỮ LIỆU VÀ THỐNG

Trong môi trường kinh doanh và


kinh tế toàn cầu hiện nay, ai cũng có thể
truy cập một lượng lớn thông tin thống
kê.

1.1 Ứng dụng


Các công ty kiểm toán sử dụng các thủ tục lấy
mẫu thống kê khi tiến hành kiểm toán cho khách
hàng,…. Ví dụ, nhân viên kiểm toán lấy mẫu các
Kế tài khoản phải thu từ bảng cân đối của khách
toán hàng,
hàng sau khi xem xét tính chính xác của các tài
khoản này và rút ra kết luận các tài khoản phải thu
thể hiện trên bảng cân đối của khách hàng có chấp
nhận được hay không.
Các chuyên viên tài chính sử dụng các thông tin
thống kê để hướng dẫn khuyến nghị đầu tư. tư Ví
Tài dụ, thông tin thông kê về tỷ suất cổ tức cho thấy
chính cổ tức của tập đoàn kinh tế nào cao hơn tập đoàn
nào, sẽ giúp các nhà phân tích đưa ra khuyến
nghị mua, bán hoặc giữ cổ phiếu
Máy quét điện tử tại quầy tính tiền tại
điểm bán lẻ thu thập dữ liệu cho hàng loạt
các ứng dụng nghiên cứu thị trường. Nhiều
Marketing
công ty mua dữ liệu từ máy quét tại điểm
bán của cửa hàng thực phẩm, xử lý dữ liệu
và sau đó bán thống kê tóm tắt của dữ liệu
này cho các nhà sản xuất,….
Ngày nay người ta đặc biệt chú trọng vào chất
lượng đã làm cho kiểm soát chất lượng trở
thành một ứng dụng quan trọng của thống kê
Sản trong sản xuất. Có nhiều biểu đồ kiểm soát
xuất chất lượng thống kê được sử dụng để giám
sát đầu ra của một quá trình sản xuất (xem
QTSX).
Kinh tế học

Để dự báo về tương lai của nền kinh tế hoặc một


khía cạnh nào đó của nền kinh tế, các nhà kinh tế
học đã và đang sử dụng một loạt các thông tin
thống kê.
Ví dụ, trong dự báo lạm phát, họ đã sử dụng
thông tin thống kê về các chỉ số như chỉ số giá
sản xuất, tỷ lệ thất nghiệp, và sử dụng năng lực
sản xuất.
1.2 Dữ liệu
Dữ liệu là những sự kiện và con số được
thu thập, phân tích và tổng hợp để trình bày
và giải thích.
Tất cả các dữ liệu thu thập trong một
nghiên cứu cụ thể gọi là tập dữ liệu nghiên
cứu.
cứu
Ví dụ, bảng 1.1 dưới đây cho thấy một
tập dữ liệu chứa thông tin của 5 công ty được
chọn bởi Standard & Poor’s.
Ví dụ 1.1: Danh sách 1 số cty được chọn bởi Standard
& Poor’s.
Tên cty Thị Mã Xếp hạng Giá cổ Lợi
trường cổ phiếu của Business phiếu, nhuận/cổ
CK week usd phiếu
Abbott N ABT 90 46 2,02

Apollo NQ APOL 174 74 0,90


Group
Bank of N BK 305 30 1,85
New York
IBM N IBM 216 93 4,94

eBay NQ EBAY 19 43 0,57

… … … … … …

N –TTCK New York; NQ – TTCK Nasdaq National


Phần tử là các thực thể mà từ đó dữ liệu được
thu thập.
Từ bảng 1.1, cổ phiếu của mỗi công ty là một phần tử,
với 5 loại cổ phiếu tập dữ liệu chứa 5 phần tử.
Biến là một đặc tính (tính chất) quan tâm của
phần tử

Từ bảng 1.1, có 5 biến:


• Exchange (TTCK): Nơi cổ phiếu được giao dịch
• Ticker Symbol (Mã cổ phiếu): tên tắt để phân biệt các
cổ phiếu được niêm yết.
• Business Week Rank (xếp hạng của BW)
• Share Price: Giá vào thời điểm đóng cửa
• Earnings per Share (usd): Lợi nhuận trên cổ phần
Quan sát: Tập hợp các số đo thu được của
một phần tử được gọi là một quan sát.
Từ bảng 1.1, tập hợp các số đo của phần tử
đầu tiên (Abbott Laboratories) là N, ABT, 90, 46
và 2,02 là một quan sát.
Một tập dữ liệu với n phần tử có n
quan sát.
 Tổng số giá trị của dữ liệu trong một tập
dữ liệu hoàn chỉnh là số phần tử nhân với số
biến.
Dữ liệu, Tập dữ liệu,
Phần tử, Biến, và Quan sát
Quan sát Biến

Tên các
phần tử Stock Annual Earn/
Company Exchange Sales($M) Share($)

Dataram NQ 73.10 0.86


EnergySouth N 74.00 1.67
Keystone N 365.70 0.86
LandCare NQ 111.40 0.33
Psychemedics N 17.60 0.13

Tập dữ liệu
Thang đo:
Quyết định lượng thông tin chứa trong các dữ
liệu.
Cách tóm tắt dữ liệu.
Phân tích thống kê phù hợp.
Tuyø theo tính chaát cuûa döõ
lieäu coù caùc loaïi thang ño: Danh
nghĩa, thứ bậc, khoảng hay tỷ lệ.
Thang đo danh nghĩa: Được sử dụng khi dữ
liệu của biến là nhãn hiệu hay tên để phân biệt
một thuộc tính của phần tử.
Ví dụ từ bảng 1.1, thang đo biến thị
trường là danh nghĩa vì N hay NQ là nhãn được
sử dụng để nhận biết nơi cổ phiếu được giao
dịch. Ta có thể mã hóa bằng cách cho:
1 biểu thị cho thị trường CK NY
2 biểu thị cho thị trường Nasdaq
 Thang đo danh nghĩa


Ví ddụụ::
Sinh
Sinh viên
viên đđạ
ạii hhọ đượ
ọcc đ ượcc phân
phân loloạạii theo
theo
trườ
tr ường,
ng, trong
trong đó
đó chúng
chúng ta ta ssử
ửd dụ
ụng
ng nhãn
nhãn kýký
tự như
tự nh ư Kinh
Kinh doanh,
doanh, Nhân văn, SSư
Nhân văn, phạ
ư ph ạm…
m…
Hoặ
Ho mã ssố
ặcc mã ốđđượ
ượcc dùng
dùng cho biế
cho bi trườ
ếnn tr ườngng
(ví dụ
(ví d ụ 11 làlà Kinh
Kinh doanh,
doanh, 22 làlà Nhân
Nhân Văn,
Văn, 33 làlà
SSự phạ
ự ph ạm…)
m…)
Thang ño thöù baäc – Ordinary ñöôïc
söû duïng khi maø caùc bieåu hieän cuûa
döõ lieäu coù söï hôn keùm, khaùc bieät veà
thöù baäc. Ví dụ:
□ Trình ñoä học vấn: Primary –
Secondary – Tertiary
□ Các loại huy chương Olympic: Vàng – Bạc –
Đồng;
□ Thứ hạng của các công ty theo xếp hạng của
tạp chí Business Week (dựa theo sức mạnh của công ty
□ Kích cở quần áo: S – M – L – XL
□ Product satisfaction: Very Unsatisfied
– Fairly Unsatisfied – Neutral – Fairly
Thứ bậc

Ví ddụ
Ví ụ::
Sinh viên ccủ
Sinh viên ủaa mmộộtt tr
trườ ng đđạạii hhọọcc đđượ
ường ượcc phân
phân loloạạii
theo
theo niên
niên khóa
khóa và và chúng
chúng ta ta ssử
ử ddụ ng nhãn
ụng nhãn ký ký tự
tự
như
nh ư Năm
Năm nh nhấất,t, năm
năm 2,2, năm
năm 3, 3, năm
năm 44
Ngoài
Ngoài rara mã
mã số số có thểể đđượ
có th ượcc dùng
dùng chocho bibiếếnn niên
niên
khóa hhọọcc (ví
khóa (ví ddụụ 11 là
là năm
năm nh nhấất,t, 22 là
là năm
năm 2, 2, ttươ
ươngng
ttự
ự).).
Thang ño thứ bậc coù öu ñieåm laø
cho thaáy söï khaùc bieät, söï hôn keùm
giöõa caùc bieåu hieän của dữ liệu
nhöng söï hôn keùm ñoù khoâng
nhaát thieát phaûi baèng nhau vaø
khoâng bieát cuï theå laø bao
nhieâu, neân
Dữ liệu khoâng
thứ bậc có thể thöïc hieän
là số hay ñöôïc
không phải
caùc
là số pheùp tính thoáng keâ ñoái vôùi
chuùng.
Thang đo khoảng: Được sử dụng đối với
một biến nếu dữ liệu của nó có tất cả các thuộc
tính của dữ liệu thứ bậc và khoảng cách giữa các
giá trị được thể hiện dưới dạng đơn vị đo lường cố
định.

Dữữ liliệệuu kho


D khoảảng
ng luôn là ddữữ liliệệuu ssốố..
luôn là
Ví dụ: Điểm số SAT (scholastic Aptitude Test) là một ví
dụ về dữ liệu của thang đo khoảng. 3 sinh viên có điểm
SAT là 620, 550 và 470 có thể được xếp hạng từ thành
tích tốt nhất đến thành tích kém nhất.
Chênh lệch giữa các điểm số có ý nghĩa.
Thang ño khoảng khoâng coù ñieåm
0 treân thöïc teá, neáu coù thì ñoù chæ
laø quy öôùc, ví duï, trò soá 00C chæ laø
quy öôùc; vaät ôû 300C (860F) khoâng
phaûi noùng gaáp ñoâi vaät ôû 150C
(590F).
Neáu duøng cho bieán ñònh tính, ví
duï, ño löôøng sôû thích cuûa khaùch
haøng veà 1 loaïi saûn phaåm naøo ñoù,
coù theå duøng thang ño khoaûng:
Raát khoâng thích 1 2 3 4 5
Thang đo tỷ lệ:
lệ Được sữ dụng đối
với một biến nếu dữ liệu có tất cả các đặc tính của
dữ liệu khoảng và tỷ lệ của hai giá trị là có ý
nghĩa.
Thang ño tyû leä laø thang ño
ñònh löôïng maïnh meõ nhaát trong hệ
thoáng thang ño. Vôùi thang ño naøy ta
coù theå thöïc hieän taát caû caùc coâng
cuï toaùn thoáng keâ ñeå tính toaùn vaø
phaân tích soá lieäu.
Ví dụ: Các biến như chiều cao (in
centimetres); Cân nặng (in kilograms),
Tiền lương (in American dollars or
Dữ liệu phân loại và Dữ liệu định
lượng

Dữ liệu phân loại bao gồm nhãn hay


tên dùng để phân biệt các phần tử. Dữ liệu phân
loại còn được gọi là dữ liệu định tính.
Để thu thập dữ liệu định tính dùng một
trong hai loại thang đo danh nghĩa hoặc thứ bậc.
Döõ lieäu ñònh löôïng: phaûn aùnh
möùc ñộ. Nó đòi hỏi giá trị bằng số chỉ ra
how much or how many
Dữ liệu định lượng thu thập được bằng
thang đo khoảng hoặc thang đo tỷ lệ.
Dữ
D liệ
ữ li ệu
uđđịịnh
nh llượ
ượng
ng luôn
luôn là
là số
số..

Nhữ
Nh ững
ng phép
phép tínhtính ssốố hhọ
ọcc thông thườ
thông th ường
ng phù
phù
hhợ
ợpp vvớ dữ
ớii d ữ liliệ địịnh
ệuu đ nh llượ
ượng.
ng.
Thang đo

Dữ liệu

Phân loại Định lượng

Số Không phải số Số

Danh
Danh Thứ Danh Thứ bậc Khoảng Tỷ lệ
nghĩa
nghĩa bậ c nghĩa
Phân loại biến

Biến định tính (Qualitative or Categorical


variables) - là biến không thể nhận giá trị bằng
số nhưng có thể phân thành hai hay nhiều nhóm
không bằng số nói lên ñaëc ñieåm hay loaïi
hình cuûa phần tử hay ñôn vò toång
theå.
Ngắn gọn, biến định tính là biến với
dữ liệu định tính.
Ví duï: Màu tóc, giôùi tính, quoác
tòch, toân giaùo, nhãn hiệu của PC, ….
Phân loại biến

Bieán ñònh löôïng (Quantitative


variables) laø bieán coù bieåu hieän tröïc
tieáp baèng con soá. Ñoù laø keát quaû
cuûa quaù trình caân, ñong, ño, ñeám,
Ví duï: Soá nhaân khaåu trong
moät gia ñình, tuoåi thoï cuûa saûn
phaåm, thu nhập bình quân đầu người
v.v…
Ngắn gọn, biến định lượng là biến
với dữ liệu định lượng.
Töø caùc giá trò cuï theå cuûa bieán
ñònh löôïng maø phaân bieät thaønh hai
loaïi:
Biến định lượng rời rạc (Discrete variables):
Caùc giaù trò coù theå coù cuûa noù laø
höõu haïn hay voâ haïn vaø coù theå ñeám
ñöôïc,
Ví duï: Soá cuộc gọi trong mỗi 15 phút,
soá loãi trong moät trang saùch in, số con
của một cặp vợ chồng, v.v..
Biến định lượng liên tục (Continuous
Variables): Caùc giaù trò coù theå coù cuûa
noù coù theå laáp kín caû moät khoaûng
treân truïc soá
Phân tích thống kê phù hợp phụ thuộc vào
biến định tính hay biến định lượng.
Nếu là biến định tính phân tích thống kê bị
hạn chế. Tóm tắt dữ liệu định tính chủ yếu bằng
cách đếm số quan sát trong mỗi phân loại hay
bằng cách tính tỷ lệ các quan sát trong mỗi phân
loại (phép tính cộng, trừ, nhân, chia không cho ra
kết quả có ý nghĩa)
Dữ liệu thời điểm và dữ liệu chuỗi thời gian

Dữ liệu thời điểm là dữ liệu được thu thập ở


cùng hoặc xấp xỉ vào cùng một thời điểm. Ví dụ
1.1 là thời điểm vì nó mô tả 5 biến của 5 công ty tại
cùng một thời điểm.
Ví ddụ
Ví Dữ
ụ:: D ữ liliệ
ệuu chi tiế
chi ti ếtt ssố
ố llượ
ượng giấ
ng gi ấyy phép
phép xây
xây
dự
d ựng
ng đãđã ban
ban hành
hành vàovào tháng
tháng haihai năm 2010 ccủ
năm 2010 mỗ
ủaa m ỗii
quậ
qu ậnn ởở Ohio.
Ohio.
Dữ liệu chuỗi thời gian là dữ liệu thu thập được
qua nhiều giai đoạn thời gian


Ví dụ
dụ:: DDữữ liliệệuu chi
chi titiếếtt ssốố llượ
ượng giấấyy phép
ng gi phép
xây ddựựng
xây ng đđượ
ượcc ban hành ởở qu
ban hành quậậnn Lucas,
Lucas,
Ohio
Ohio trong
trong 36
36 tháng
tháng qua.qua.
Dữ liệu chuỗi thời gian

U.S. Average Price Per Gallon


For Conventional Regular Gasoline

Source: Energy Information Administration, U.S. Department of Energy, May 2009.


1.3 Nguồn dữ liệu
• Nguồn có sẳn
• Từ các cuộc khảo sát
Nguồn có sẳn:
Các công ty duy trì nhiều cơ sở dữ
liệu về nhân viên,
viên khách hàng (tuổi, giới
tính, mức thu nhập, quy mô hộ, sở thích)
và các hoạt động kinh doanh (doanh số
bán hàng, chi phí quảng cáo, chi phí phân
phối, lượng tồn kho và số lượng sản xuất).
 Dử liệu sẵn có từ Hồ sơ nội bộ công ty

H ồ sơ Một số dữ liệu sẵn có

Hồ sơ nhân viên Tên, địa chỉ, số an sinh xã hội


Hồ sơ sản xuất Số bộ phận, số lượng sản xuất, chi phí
nhân công trực tiếp, chi phí nguyên liệu
Hồ sơ tồn kho Số bộ phận, số lượng tồn kho, mức đặt
hàng lại, số lượng đơn hàng
Hồ sơ bán hàng Số sản phẩm, lượng hàng bán,
lượng hàng bán theo vùng.
Hồ sơ tín dụng Tên khách hàng, hạn mức tín
dụng, khoản phải thu
Hồ sơ khách hàng Tuổi, giới tính, thu nhập, số người trong hộ
 Dữ liệu có sẵn từ các cơ quan chính phủ

Cơ quan chính phủ Một số dữ liệu có sẵn


Cục Điều tra Dân số Mỹ Số liệu dân số, số hộ gia đình, thu
www.census.gov nhập hộ
Cục Dự trữ Liên Bang Mỹ Dữ liệu về cung tiền, tỷ giá hối đoái,
www.federalreserve.gov lãi suất chiết khấu.
Cục QL hành chánh và NS
Dữ liệu về thu, chi, nợ chính phủ
www.whitehouse.gov/omb
Bô Thương mại Mỹ Dữ liệu hoạt động kinh doanh, doanh
www.doc.gov số, lợi nhuận ngành công nghiệp.

Cục Thống kê lao động Mỹ Chi tiêu dùng, tỷ lệ thất nghiệp, thu
www.bls.gov nhập theo giờ, an toàn lao động
Ở Việt Nam
□ Döõ lieäu töø caùc aán phaåm
nhaø nöôùc (nieân giaùm thoáng keâ
cuûa toång cuïc thoáng keâ hoaëc cuïc
thoáng keâ caùc tænh, thaønh phoá);
□ Döõ lieäu töø caùc cô quan tröïc
thuoäc chính phuû (boä, cô quan ngang
boä, uûy ban nhaân daân tænh, thaønh
phoá);
□ Baùo, taïp chí;
□ Döõ lieäu töø caùc toå chöùc,
hieäp hoäi, coâng ty nghieân cöùu thò
tröôøng;
Bảng 1.2 Ví dụ về dữ liệu có sẳn từ một số cơ quan chính phủ Mỹ

Cơ quan Chính phủ Một số dữ liệu có sẳn


Cục Điều tra dân số Mỹ Dữ liệu dân số, số lượng hộ, thu
www.census.gov nhập hộ,..
Cục dự trữ Liên Bang Mỹ Dữ liệu về cung tiền, tín dụng trả
www.federalreserve.gov góp, tỷ giá, tỷ suất chiết khấu
Cục Quản lý hành chính và Ngân Dữ liệu về thu, chi và nợ của
sách Mỹ www.whitehouse.gov chính phủ liên bang
Bộ thương mại Mỹ Dữ liệu về hoạt động kinh doanh,
www.doc.gov doanh số theo ngành công
nghiệp, mức lợi nhuận theo
ngành CN,…
Cục thống kê Lao động Mỹ Chi tiêu dùng, tiền lương giờ, tỷ
www.bls.gov lệ thất nghiệp, hồ sơ an toàn và
Thống kê quốc tế
Bảng 1.2 Ví dụ về dữ liệu có sẳn từ một số cơ quan chính phủ VN
Chính phủ http://www.chinhphu.vn
Bộ Công thương http://www.moi.gov.vn
Bộ giáo dục và Đào tạo http://www.moet.gov.vn
Bộ LĐ – TB -XH http://www.molisa.gov.vn
Bộ xây dựng http://www.moc.gov.vn
Tổng cục thống kê http://www.gso.gov.vn
Tổng cục thuế http://www.gdt.gov.vn
Ngân hàng Nhà nước http://www.sbv.gov.vn
Tp.Hà nội http://www.hanoi.gov.vn
Tp. Đà nẳng http://www.danang.gov.vn
Tỉnh Đồng Nai http://www.dongnai.gov.vn
Tỉnh Bình Dương http://www.binhduong.gov.vn
V.v…
TP.Hồ Chí Minh http://www.hochiminhcity.gov.vn

Cục Thống kê TP.HCM http://www.pso.hochiminhcity.gov.vn

Cục Thuế TP.HCM http://www.hcmtax.gov.vn

Sở kế hoạch đầu tư tp.HCM http://www.dpi.hochiminhcity.gov.vn

Sở Công thương tp.HCM http://www.cong thuong.hochiminhcity.gov.vn

Cục Hải quan tp.HCM http://www.haiquan.hochiminhcity.gov.vn


Sở giao dịch chứng khoán tp.HCM http://www.vse.org.vn
Hiệp hội Bất động sản tp.HCM http://www.horea.org.vn
UB Kinh tế - XH Châu Á – Thái Bình http://www.unescap.org/stat/
Dương (LHQ)
Trang web UB Thống kê Liên Hiệp Quốc http://www.unstats.un.org/unsd/default.htm

Trang web của IMF http://www.imf.org/external/index.htm


Trang web của Word Bank http://www.wordbank.org/
Trang web của Ngân hàng phát triển Châu http://www.adb.org/
Á
Nghiên cứu thống kê
Đôi khi dữ liệu cần thiết cho một
nghiên cứu thống kê ứng dụng không có sẳn
tại các nguồn hiện có. Do vậy, dữ liệu có thể
thu thập bằng cách tiến hành một nghiên
cứu thống kê (có thể được phân loại là
nghiên cứu thực nghiệm hay nghiên cứu
quan sát)
sát
Trong nghiên cứu thực nghiệm,
nghiệm biến quan
tâm được xác định đầu tiên,
tiên sau đó một hay nhiều
biến khác được xác định và kiểm soát sao cho dữ
liệu thu thập được phản ánh cách chúng ảnh hưởng
đến biến quan tâm.
Ví dụ, công ty dược phẩm thực hiện một thử
nghiệm về loại thuốc mới ảnh hưởng đến huyết áp
như thế nào. Huyết áp là biến quan tâm. Mức độ
(liều lượng) thuốc mới là biến được hy vọng là có
ảnh hưởng nhân quả lên huyết áp).
Nghiên cứu quan sát là nghiên cứu thống
kê không cần kiểm soát đến biến quan tâm.
Loại nghiên cứu quan sát phổ biến nhất là
khảo sát.
Ví dụ, trong một cuộc khảo sát phỏng vấn
cá nhân, trước hết xác định các câu hỏi, sau đó
thiết kế bảng câu hỏi và phát hoặc phỏng vấn
từng cá nhân. Một số nhà hàng sử dụng nghiên
cứu quan sát để có dữ liệu về ý kiến khách
hàng về chất lượng thực phẩm, chất lượng dịch
vụ, không gian,…
We are happy you stopped by Lobster Pot Restaurant (LPR) and want to
make sure you will come back. So, if you have a little time, we will
really appreciate it if you will fill out this card. Your comments and
suggestions are extremely important to us. Thank you!

Server’s Name _______________________________________


Excellent Good Satisfactory Unsatisfactory
Food Quality □ □ □ □
Friendly Service □ □ □ □
Prompt Service □ □ □ □
Cleanliness □ □ □ □
Management □ □ □ □
Comment ____________________________________________
What promted your visit to us ____________________________

Prompt = mau lẹ, nhanh nhẹn


Lưu ý khi thu thập dữ liệu

Thời gian yêu cầu


• Tìm kiếm thông tin phải tính đến thời gian.
• Thông tin có thể không mang tính thời sự vì nó có sẵn.
Chi phí thu thập
• Công ty thường phải trả phí cho thông tin ngay cả
khi nó không phải là hoạt động kinh doanh chính của
họ.
Lỗi trong thu thập dữ liệu
• Sử dụng dữ liệu sai còn tồi tệ hơn không sử
dụng bất kỳ dữ liệu nào.
• Xảy ra khi giá trị dữ liệu thu thập được
không bằng giá trị thực sự
Xảy ra trong một số trường hợp:
• Người phỏng vấn có thể mắc lỗi nghe
• Người trả lời phỏng vấn hiểu sai câu hỏi và
cung cấp một trả lời không đúng
Khắc phục: Kiểm tra tính nhất quán nội bộ
của dữ liệu
1.4 Thống kê mô tả
Hầu hết các thông tin thống kê trên báo, tạp
chí, báo cáo công ty và các ấn phẩm khác chứa dữ
liệu tổng hợp và trình bày cho người đọc dễ hiểu.
Những tóm tắt dữ liệu có thể là bảng, đồ thị, hoặc
bằng số, được gọi là thống kê mô tả.
Bên cạnh bảng và đồ thị, thống kê mô tả bằng
số cũng được sử dụng để tóm tắt dữ liệu.
Thống kê mô tả số phổ biến nhất là mức trung
bình nó cho thấy một thước đo xu hướng trung tâm,
hoặc vị trí trung tâm của dữ liệu của biến đó.
Ví dụ: Hudson Auto Repair

Quản lý của Hudson Auto muốn biết về chi


phí của các bộ phân liên quan đến điều chỉnh
động cơ được thực hiện trong cửa hàng của cô
ấy.

Cô ấy kiểm tra 50 hóa đơn của khách hàng có


nhu cầu điều chỉnh động cơ. Chi phí của các bộ
phận được làm tròn đến đồng đô la và được
trình bày ở slide kết tiếp.
Ví dụ: Hudson Auto Repair

 Ví dụ chi phí các bộ phận (đô la) của 50 khách hàng


điều chỉnh động cơ

91 78 93 57 75 52 99 80 97 62
71 69 72 89 66 75 79 75 72 76
104 74 62 68 97 105 77 65 80 109
85 97 88 68 83 68 71 69 67 74
62 82 98 101 79 105 79 69 62 73
Bảng tóm tắt: Tần số và Tần suất

 Ví dụ: Hudson Auto

Chi phí Tần số Tần suất


(đô la)
50-59 2 4
60-69 13 26
(2/50)100
(2/50)100
70-79 16 32
80-89 7 14
90-99 7 14
100-109 5 10
50 100
Đồ thị tóm tắt: Histogram

18
Chi phí điều chỉnh động cơ
16
14
12
Tần số

10
8
6
4
2
Chi phí
5059 6069 7079 8089 9099 100-110 (đô la)
1.5 Thống kê suy diễn
Nhiều tình huống đòi hỏi thông tin về nhóm
lớn phần tử (cá nhân, công ty, cử tri, hộ gia đình,
sản phẩm, khách hàng,…). Nhưng do thời gian,
chi phí, và điều kiện khác có hạn, chỉ có thể thu
thập dữ liệu được từ một phần nhỏ của nhóm này.

Tập hợp tất cả phần tử được quan tâm


trong một nghiên cứu cụ thể được gọi là tổng thể
(population), và nhóm nhỏ hơn này gọi là mẫu
(sample)
A Population is the set of all elements of interest
in a particular study (tập hợp tất cả phần tử được
quan tâm trong một nghiên cứu cụ thể).

A Sample is a subset of the pupolation (là một


tập hợp con của tổng thể)

Quá trình tiến hành khảo sát để thu thập


dữ liệu trên toàn bộ tổng thể gọi là điều tra
tổng thể.
thể
Quá trình tiến hành khảo sát để thu thập
dữ liệu trên một mẫu gọi là điều tra mẫu.
Đóng góp lớn của thống kê là sử dụng dữ liệu từ
một mẫu đại diện ước lượng và kiểm định giả
thuyết về các đặc tính của một tổng thể thông qua
một quá trình gọi là suy diễn thống kê.

Chính phủ Mỹ tiến hành điều tra tổng thể


10 năm một lần. Các công ty nghiên cứu thị
trường thực hiện điều tra chọn mẫu mỗi ngày.
Khi sử dụng một mẫu để ước lượng một
đặc tính tổng thể, các nhà thống kê thường đưa ra
một tuyên bố về chất lượng hoặc độ chính xác
liên quan đến việc ước lượng.
Ví dụ, công ty Norris Electronics – nơi sản
xuất bóng đèn cường độ cao. Vừa qua công ty
phát triển một sợi đốt bóng mới. Để đánh giá ưu
điểm của sợi đốt mới, 200 bóng với sợi đốt
bóng được sản xuất và kiểm tra thấy tổng số giờ
hoạt động cho đến khi cháy của 200 bóng là
15.200 giờ. Như vậy tuổi thọ trung bình của
tổng thể bóng đèn là 76 giờ với sai số biên là 4
giờ. Như vậy khoảng ước lượng tuổi thọ trung
bình của tất cả bóng với sợi đốt mới là từ 72 giờ
đến 80 giờ.
1. Tổng thể bao
gồm tất cả bóng đèn 2. Mẫu 200 bóng được
được SX với sợi đốt sản xuất với sợi đốt
mới. Tuổi thọ trung mới
bình chưa biết

4. Trung bình mẫu được 3. Dữ liệu mẫu cung cấp


dùng để ước lượng trung tuổi thọ trung bình mẫu là
bình tổng thể 76 giờ/bóng
1.6 Máy tính và Phân tích thống kê
Phân tích thống kê thường liên quan
đến lượng lớn dữ liệu vì vậy các nhà phân
tích thường sử dụng phần mềm máy tính.
Trong tài liệu Anderson, Sweeney and
Williams đã giới thiệu sử dụng các thủ tục
thống kê với Minitab và Excel. Ngoài ra các
bạn sinh viên có thể dùng phần mềm SPSS
để xử lý dữ liệu.
Kho dữ liệu

 Các tổ chức thu được dữ liệu lớn hàng ngày bằng


các đầu đọc thẻ từ, máy quét mã vạch, các điểm kết
nối bán hàng và màn hình cảm ứng.
 Wall-Mart thu thập dữ liệu được trên 20-30 triệu
giao dịch mỗi ngày
 Visa xử lý 6.800 giao dịch thanh toán mỗi giây.
 Thu thập, lưu trữ và duy trì dữ liệu, gọi là kho
dữ liệu, một công việc có ý nghĩa.
Khai thác dữ liệu
 Phân tích các dữ liệu trong kho dữ liệu có thể giúp
cho việc ra quyết định cho chiến lược mới và mang lại
lợi nhuận cao hơn cho tổ chức.
 Sử dụng kết hợp các thủ tục thống kê, toán học,
và khoa học máy tính, phân tích “mỏ dữ liệu ” để
chuyển đổi nó thành thông tin hữu ích.

 Các hệ thống khai thác dữ liệu hiệu quả nhất sử


dụng các thủ tục tự động để khám phá các mối quan hệ
trong dữ liệu và dự đoán kết quả tương lai,…thông qua
những yêu cầu có vẻ là chung chung, thậm chí là mơ hồ
bởi người dùng.
Các ứng dụng khai thác dữ liệu

 Các ứng dụng chính của khai thác dữ liệu đã được


thực ở nhiều công ty chủ yếu là ở mảng khách hàng như
bán lẻ, tài chính, và truyền thông.

 Khai thác dữ liệu được sử dụng đề tìm hiểu các sản


phẩm liên quan có khả năng mua cùng khi khách hàng
mua một sản phẩm cụ thể (và sau đó cửa sổ pop-ups
được dùng để thu hút sự chú ý cho những sản phẩm
liên quan) giúp bán được nhiều hàng hơn.
 Một ví dụ khác, khai thác dữ liệu được sử dụng
để xác định khách hàng nào sẽ nhận được những ưu
đãi đặc biệt dựa trên lịch sử mua hàng trong quá khứ.
Những yêu cầu khai thác dữ liệu

 Phương pháp thống kê như hồi quy, hồi quy


logistic, tương quan thường được dùng nhiều.
 Cũng cần đến khoa học máy tính liên quan đến trí
tuệ nhân tạo và học máy.
 Một sự đầu tư đáng kể về thời gian và tiền bạc là
xứng đáng.
Mô hình khai thác dự liệu đáng tin cậy

 Tìm được một mô hình thống kê hiệu quả cho một


mẫu dữ liệu cụ thể không nhất thiết nó sẽ phù hợp,
đáng tin cậy khi áp dụng cho bộ dữ liệu khác.

 Với lượng dữ liệu lớn có sẵn, có thể chia dữ liệu


thành hai tập con, một tập dữ liệu thực hiện ( để xây
dựng mô hình) và một tập dữ liệu kiểm tra (để kiểm
tra lại mô hình)
 Tuy nhiên thật nguy hiểm khi dùng mô hình bám
thật sát các điểm dữ liệu có thể dẫn đến gợi ý sai mối
liên hệ
 Giải thích cẩn thận kết quả và thử nghiệm rộng
rãi là rất quan trọng.
Nguyên tắc đạo đức trong thực hành thống kê

 Trong nghiên cứu thống kê, hành vi vi phạm đạo


đức bao gồm:
• Lấy mẫu không đúng
• Các phân tích không phù hợp với dữ liệu
• Xây dựng đồ thị gây hiểu lầm
• Sử dụng số liệu tóm tắt thống kê không phù hợp.
• Giải thích sai lệch kết quả thống kê
 Bạn phải luôn cố gắng công bằng, toàn diện, khách
quan và trung lập khi thu thập, phân tích và trình bày dữ
liệu.
 Là một người dùng số liệu bạn nên lưu ý những
hành vi vi phạm đạo đức của những người khác.
Nguyên tắc đạo đức trong thực hànhthống kê

 Hiệp hội thống kê Mỹ phát hành báo cáo “Nguyên


tắc đạo đức trong thực hành thống kê”.

 Báo cáo gồm 67 nguyên tắc chia thành 8 lĩnh vực:


•Tính chuyên nghiệp

•Trách nhiệm trong các ấn phẩm và các bằng chứng


•Trách nhiệm của đối tượng nghiện cứu
•Trách nhiệm của các nhóm nghiên cứu.
•Trách nhiệm của các nhà thống kê/học viên
•Trách nhiệm tố giác các hành vi sai trái
•Trách nhiệm của nhà tuyền dụng bao gồm: Tổ chức, cá nhân, luật sư,
khách hàng
BÀI TẬP TÌNH HUỐNG – ÔN TẬP

Cục du khách thu thập dữ liệu về khách đến Hawaii.


Các câu hỏi sau đây trích ra từ 16 câu trong một
bảng câu hỏi phát cho hành khách trong các chuyến
bay đến trong tháng 6/2009
1/ Chuyến bay của tôi đến Hawaii là lần thứ:1,2,3,,,
2/ Lý do chính của chuyến đi này là: (10 loại bao
gồm kỳ nghỉ, hội nghị, tuần trăng mật,..
3/ Kế hoạch nghỉ ở đâu: (11 loại bao gồm: khách
sạn, căn hộ, người thân,…
4/ Tổng số ngày ở Hawaii.
A.Tổng thể nghiên cứu là gì?
B.Việc sử dụng bảng câu hỏi có phải là cách tốt
đề tiếp cận với tổng thể hành khách bay đến.
BÀI TẬP TÌNH HUỐNG – ÔN TẬP

Một cuộc khảo sát 131 nhà quản lý đầu tư trung bình chọn
Barron Big Money cho thấy:
•43% nhà quản lý tự phân loại mình là lạc quan hay rất lạc
quan về thị trường chứng khoán
•Lợi nhuận vốn trung bình dự kiến trong 12 tháng tới là 11,2%
•21% lựa chọn chăm sóc sức khỏe như lĩnh vực có nhiều khả
năng dẫn dắt thị trường trong 12 tháng kế tiếp
•Khi được hỏi ước tính bao lâu nữa thị cổ phiếu công nghệ và
viễn thông trở lại tăng trưởng bền vững , trả lời trung bình của
các nhà quản lý là 2,5 năm.
•a/ Hãy trích dẫn 2 thống kê mô tả
•b/ hãy suy diễn về lợi nhuận trên vốn trung bình dự kiến
trong 12 tháng tiếp theo của tổng thể các nhà quản lý đầu
tư.

You might also like