You are on page 1of 8

第 2 章 數據分析 29

2-2 二維數據分析
一、散布圖
1 散布圖:
將二維數據(xi﹐yi),i=1,2,……,n,以點標示在坐標平面上所得的圖形
稱為散布圖。
2 觀察散布圖時,主要是觀察兩個變量之間是否有關係,可分為正相關、負相關
與零相關。
1 正相關:兩個變量的變動有一致的趨勢,即同時增加或是同時減少。
2 負相關:兩個變量的變動趨勢相反,即一個增加(減少),則另一個就會減
少(增加)

3 完全正相關:資料全部在一條斜率為正的直線上。
4 完全負相關:資料全部在一條斜率為負的直線上。
5 零相關:兩個變量沒有直線關聯(正斜率或負斜率)。

二、相關係數
1 由標準化數據求相關係數:
設二維數據(xi﹐yi) ,i=1,2,……,n,其中 xi 的平均數為 mx,標準差為
sx;yi 的平均數為 my,標準差為 sy。
1 將二維數據(xi﹐yi)標準化得(Xi﹐Yi),其中 i=1,2,……,n 且
xi-mx yi-my
Xi= ,Yi= 。
sx sy
X1Y1+X2Y2+……+XnYn
2 標準化數據的相關係數為 r= 。
n
2 由原始資料求相關係數:
原始二維數據(x1﹐y1),(x2﹐y2),……,(xn﹐yn),其中 xi、yi 的平均數分別
為 mx、my,則相關係數為
(y1-my)+(x2-mx)
(y2-my)+…+(xn-mx) (yn-my)
k(x1-mx)2l+(x2-mx)2+l…+(xn-mx)2.k(y1-my)2l+(y2-my)2l+…+(yn-my)2
(x1-mx)
r= 。

3 相關係數的性質:
1 r>0 表示兩變量為正相關,r<0 表示兩變量為負相關,r=0 為零相關。
2 -1NrN1。
3 r=1 表示兩變量為完全正相關,r=-1 表示兩變量為完全負相關。
4 ∣r∣愈大表示兩變量的相關程度愈強。
30 高中數學(2).習作 A

4 伸縮平移後的相關係數:
若二維數據(xi﹐yi),i=1,2,……,n 的相關係數為 r,令 xi'=axi+b,
yi'=cyi+d,則新的二維數據(xi'﹐yi')的相關係數如下:
1 若 a,c 同號,則(xi'﹐yi')的相關係數為 r。
2 若 a,c 異號,則(xi'﹐yi')的相關係數為-r。

三、最適直線
1 標準化數據的最適直線:
將二維數據(xi﹐yi )標準化,得(Xi﹐Yi ),則 Y 對 X 的最適直線方程式為
Y=rX,其中 r 為相關係數。
2 原始數據的最適直線:
原始二維數據(xi﹐yi ) ,i=1,2,……,n 的最適直線必過(mx﹐my),且斜率
sy
為r ,則 y 對 x 的最適直線方程式為
sx
sy
y-my=r ,其中 r 為相關係數
(x-mx)
sx

(y1-my)+(x2-mx)
(x1-mx) (y2-my)+……+(xn-mx)
(yn-my)
y-my= 2 2 2 (x-mx),
(x1-mx)+(x2-mx)+……+(xn-mx)

(x1 y1+x2 y2+……+xn yn)-nmxmy
y-my= 2 2 2 2 (x-mx)。
(x1 +x2 +……+xn )-nmx
第 2 章 數據分析 31

基礎 題
1. 試比較下列選項A~F的散布圖中,x,y 相關係數的大小。(8 分)
A B C

D E F

x A r=1
B r=-1
C r=0
D-1<r<0
E 0<r<1
F r=0
故得B<D<C=F<E<A

2. 下列選項中,哪些圖形的相關係數與右圖的相關係數相等?(8 分)
A B C

D E

x 假設題圖的 9 個點為(xi﹐yi),其中 i=1,2,……,9,相關係數為 a


A點(xi﹐2yi-1),相關係數為 a
B點(6-xi﹐yi),相關係數為-a
C點(xi﹐4-yi),相關係數為-a
D點(6-xi﹐4-yi),相關係數為 a
E點(yi﹐xi)
,相關係數為 a
故選ADE
32 高中數學(2).習作 A

3. 一組二維數據(xi﹐yi)經標準化後(Xi﹐Yi)的數據如下表所示,試求:
xi-mx
Xi= 1.5 -1.5 -1 -0.5 1 0.5 0
sx
yi-my
Yi= 1 -1.5 0 -1 1.5 0.5 -0.5
sy
1(Xi﹐Yi)的相關係數。(4 分)
2 在標準化數據時,Y 對 X 的最適直線方程式。(4 分)
x 1 標準化數據(Xi﹐Yi)之相關係數
X1 Y1+X2 Y2+……+X7 Y7
r=
7
1.5×1+(-1.5)×(-1.5)+(-1)×0+(-0.5)×(-1)+1×1.5+0.5×0.5+0×(-0.5)

7
6

7
6
2 Y 對 X 的最適直線方程式為 Y=rX,即 Y= X
7

4. 某超市依據過去的銷售紀錄,平均氣溫在 20nC 到 36nC 時,每日平均售出的冰淇淋數


量與當天的平均氣溫之相關係數為 0.99,部分紀錄如下表。
平均氣溫(nC) 22 24 26 28 30 32
平均售出量(盒) 135 203 279 361 437 512
若某日平均氣溫為 33nC,依據上述資訊推測,試問該日賣出的冰淇淋數量應接近下列
哪一個選項?(8 分)
A 530 盒 B 550 盒 C 570 盒 D 590 盒 E 620 盒
x 因為相關係數接近 1,所以數據幾乎散布於一條直線附近
假設平均氣溫 33nC 時,賣出 y 盒,則
y-512 512-135
= ! y=549.7~550(盒)
33-32 32-22
故選B
第 2 章 數據分析 33

5. 有 20 筆數據(xi﹐yi)
,i=1,2,……,20,若 xi 與 yi 的算術平均數分別為 mx 與 my,
1 已知(x1-mx)(y1-my) (y2-my)+……+(x20-mx)
+(x2-mx) (y20-my)=36,
2 2 2
(x1-mx)+ (x2-mx)+……+(x20-mx)=36,
2 2 2
(y1-my)+ (y2-my)+……+(y20-my)=49,
試求 x 與 y 的相關係數。(四捨五入至小數點後第二位)(4 分)
2 2 2
2 已知 x1+x2+……+x20=40,x1 +x2 +……+x20 =105,y1+y2+……+y20=60,
2 2 2
y1 +y2 +……+y20 =216,x1 y1+x2 y2+……+x20 y20=144,
試求 x 與 y 的相關係數。(4 分)
x 1 依定義,相關係數
(y1-my)+(x2-mx)
(y2-my)+…+(x20-mx)(y20-my)
k
(x1-mx)
(x1-mxl)+(x2-mx)+…l+(x20-mx))×((ly1-my)+(y2-myl)+…+(y20-my))
r= 2 2 2 2 2 2

36 6
h36×49
= = ~0.86
7
故 x 與 y 的相關係數約為 0.86
x1+x2+……+x20 40
2 mx= = =2,
20 20
y1+y2+……+y20 60
my= = =3,得
20 20
(x1 y1+x2 y2+……+x20 y20)-20mxmy
k
(x1 +x2 l+……+x20 )-20mx k(y1 +y2 + l ……+y202)-20my2
r= 2 2
2 2 2 2

144-20×2×3
kl105-20×22 kl216-20×32

24
= =0.8
5×6
故 x 與 y 的相關係數為 0.8
備註:
(y1-my)
(x1-mx) (y2-my)+……+(xn-mx)
+(x2-mx) (yn-my)
(x1 y1+x2 y2+……+xn yn)
= -(x1+x2+……+xn)my-(y1+y2+……+yn)mx+nmx my
=(x1 y1+x2 y2+……+xn yn)-nmx my-nmx my+nmx my
=(x1 y1+x2 y2+……+xn yn)-nmx my
34 高中數學(2).習作 A

6. 有一組二維數據(xi﹐yi) ,i=1,2,……,n,
1 若平均數 mx=10,my=20,標準差 sx=2,sy=4,且 x 與 y 的相關係數為 r=0.8,
試求 y 對 x 的最適直線方程式。(4 分)
2 若平均數 mx=5,my=2,標準差 sx=3,sy=8,且 y 對 x 的最適直線過點(3﹐6),
試求 x 與 y 的相關係數。(4 分)
x sy
1 y 對 x 的最適直線方程式為 y-my=r (x-mx)
sx
4
即 y-20=0.8× (x-10)! y=1.6x+4
2
sy
2 y 對 x 的最適直線方程式為 y-my=r (x-mx)
sx
8
即 y-2=r× (x-5),又此直線通過點(3﹐6)
3
8 3
得 6-2=r× (3-5)! r=-
3 4
3
故 x 與 y 的相關係數為-
4

7. 已知二維數據(xi﹐1-yi )的相關係數 r=0.8,則:


1 新數據(2xi-3﹐4yi+1)的相關係數 r1 為何?(4 分)
2 新數據(2-3xi﹐4yi-5)的相關係數 r2 為何?(4 分)
x 二維數據伸縮平移後的相關係數,與伸縮倍數的正負號有關
已知二維數據(xi﹐1-yi)的相關係數 r=0.8,可得(xi﹐yi)的相關係數 r0=-0.8
1 數據(2xi-3﹐4yi+1)與(xi﹐yi)的伸縮倍數同號
故 r1=r0=-0.8
2 數據(2-3xi﹐4yi-5)與(xi﹐yi)的伸縮倍數異號
故 r2=-r0=0.8
第 2 章 數據分析 35

進階 題
8. 圖1是項目 A(x 軸)與項目 C(y 軸)的散布圖,
圖2是項目 B(x 軸)與項目 C(y 軸)的散布圖,
試繪製項目 A(x 軸)與項目 B(y 軸)的散布圖,
並觀察是正相關還是負相關?(8 分)
x 利用圖1、圖2製表並繪
製項目 A(x 軸)與項目 圖1 圖2

B(y 軸)的散布圖如左, 項目 A 項目 B 項目 C
觀察可知為負相關 10 65 26
17 60 28
20 55 37
22 50 41
30 45 44
34 40 50
42 35 56
47 30 61
53 25 63
54 20 72

9. 已知有 20 筆數據(xi﹐yi),i=1,2,……,20,若已知平均數 mx=3、my=4,x 與 y 的


相關係數 r=0.8,且 y 對 x 的最適直線經過點(2﹐0),則下列選項哪些正確?(8 分)
A y 對 x 的最適直線過點(3﹐4)
B y 對 x 的最適直線方程式為 y=4x+8
C x 的標準差大於 y 的標準差
D當 x=4 時,可預測 y=8
E新數據(2xi-3﹐4-5yi)的相關係數仍為 0.8
x A ○:最適直線必過點(mx﹐my)=(3﹐4)
sy sy
B ×:y-my=r (x-mx)! y-4=m(x-3),其中 m=r
sx sx
代入(2﹐0)可得斜率 m=4,故最適直線方程式為 y=4x-8
sy sy 4
C ×:由B知 r =m ! = =5 ! sy>sx
sx sx 0.8
D ○:將 x=4 代入最適直線方程式 y=4x-8,可得 y=8
E ×:新數據(2xi-3﹐4-5yi)的相關係數為-0.8
故選AD
36 高中數學(2).習作 A

10. 測量五位同學的身高(x)與體重(y),結果如右 身高(公分) 160 164 168 172 176


表,試求: 體重(公斤) 48 46 50 54 52
1 身高與體重的相關係數。(4 分)
2 體重對身高的最適直線方程式。(4 分)
3 利用最適直線,預測當身高是 173 公分時,體重約為多少公斤?(4 分)
x x y x-mx
2 2
y-my (x-mx) (y-my) (x-mx)
(y-my)
160 48 -8 -2 64 4 16
164 46 -4 -4 16 16 16
168 50 0 0 0 0 0
172 54 4 4 16 16 16
176 52 8 2 64 4 16
mx=168 my=50 160 40 64
64
d160 ×s40
1 相關係數 r= =0.8

64
2 體重對身高的最適直線斜率為 m=
160
64
即 y-50= (x-168)! y=0.4x-17.2
160
故體重對身高的最適直線方程式為 y=0.4x-17.2
3 當 x=173 時,代入 y=0.4x-17.2,可得 y=52(公斤)

11. 假設二維數據(ai﹐bi)的相關係數 r=0.9,已知 ai 的算術平均數 ma=3,標準差


sa=1,bi 的算術平均數 mb=2,標準差 sb=2。令 xi=3ai-1,yi=3-2bi,試求:
1 xi 的算術平均數 mx 與標準差 sx。(4 分)
2 yi 的算術平均數 my 與標準差 sy。(4 分)
3(xi﹐yi)的相關係數 R。(4 分)
4 y 對 x 的最適直線方程式。(4 分)
x 12 由數據的平移與伸縮可得
mx=3ma-1=8,sx=|3|sa=3
my=3-2mb=-1,sy=|-2|sb=4
3 因 xi=3ai-1,yi=3-2bi 之 ai 與 bi 的係數異號
故 R=-r=-0.9
sy
4 y 對 x 的最適直線方程式 y-my=R (x-mx)
sx
4
即 y-(-1)=(-0.9)× ×(x-8)! y=-1.2x+8.6
3

You might also like