Professional Documents
Culture Documents
授課老師:高銘鴻
2020/03
本章重點
次級資料的用途及優缺點
外部次級資料的來源和搜尋管道
次級資料的評估
資料探勘的功能與架構
行銷研究 Chapter 7 次級
資料 7-2
次級資料與初級資料
進入資料蒐集階段,應該......
1.先找既有的【次級資料Secondary data】
2.沒有可用的,才親自調查【初級資料Primary
data】
次級資料 定期出版物
政府出版物
不定期出版物
出版物
定期出版物
非政府出版物
不定期出版物
外部次級資料
行銷資訊系統之 定期調查報告
商業調查報告
2.行銷情報(決策) 不定期調查報告
線上資料庫
系統
問題解決
7
台灣的生育率
出生人數 出生人數與生育率 生育率 0/00
600,000 100
出生人數
有偶婦女一般生育率(0/00) 90
500,000
育齡婦女一般生育率(0/00) 80
70
400,000
60
300,000 50
40
200,000 246,758
30
166,473 20
100,000
10
0 0
2002 2003 2004 2005 2006 2007 2008 2009 2010 2011
資料來源:台湾内政部戸政司
8
次級資料的優缺點
優點 缺點(詳見下頁)
◦ 經濟 ◦ 資料適合性問題
◦ 快速 ◦ 資料正確性問題
◦ 完整 ◦ 資料時效性問題
政府普查、同業公會統計
◦ 唯一來源,無法嫌棄
例如政府統計、工商普查
◦ 資料正確性問題
例:有線電視普及率:內政部資料vs. NCC資料 (一個
用戶籍,一個用家庭)
◦ 資料時效性問題
行銷研究 Chapter 7 次級 7-
資料 10
台灣的青年失業率
16% 14.7%
失業率
14%
12.7%
12% 11.3%
10%
20~24歲
8%
全国平均 5.9%
6%
4.4%
4% 5.2%
2%
0%
2002 2003 2004 2005 2006 2007 2008 2009 2010 2011
資料來源:台湾行政院主計總處
11
分組界線的適合性
可支配所得=所得收入總計─非消費支出(利息、賦稅支出、經常移轉支出)
民 國 100 年 民 國 101 年
可支配所得組別 人 數 佔比 累計佔比 可支配所得組別 人 數 佔比 累計佔比
總 計 13,373,384 總 計 13,537,783
2,500,000元及以上 57,894 0.4% 0.4% 2,500,000元及以上 53,924 0.4% 0.4%
1,800,000~2,499,999 85,821 0.6% 1.1% 1,800,000~2,499,999 102,828 0.8% 1.2%
1,400,000~1,799,999 171,696 1.3% 2.4% 1,400,000~1,799,999 181,786 1.3% 2.5%
1,250,000~1,399,999 139,989 1.0% 3.4% 1,250,000~1,399,999 151,916 1.1% 3.6%
1,150,000~1,249,999 157,842 1.2% 4.6% 1,150,000~1,249,999 161,786 1.2% 4.8%
1,070,000~1,149,999 182,363 1.4% 5.9% 1,070,000~1,149,999 179,380 1.3% 6.1%
1,000,000~1,069,999 198,826 1.5% 7.4% 1,000,000~1,069,999 196,713 1.5% 7.6%
940,000~999,999 222,349 1.7% 9.1% 940,000~999,999 226,423 1.7% 9.3%
880,000~939,999 257,623 1.9% 11% 880,000~939,999 282,191 2.1% 11%
830,000~879,999 253,896 1.9% 13% 830,000~879,999 285,112 2.1% 13%
790,000~829,999 251,723 1.9% 15% 790,000~829,999 256,146 1.9% 15%
750,000~789,999 242,834 1.8% 17% 750,000~789,999 275,619 2.0% 17%
720,000~749,999 230,058 1.7% 18% 720,000~749,999 193,682 1.4% 19%
690,000~719,999 230,805 1.7% 20% 690,000~719,999 235,719 1.7% 21%
660,000~689,999 257,531 1.9% 22% 660,000~689,999 269,038 2.0% 23%
640,000~659,999 225,583 1.7% 24% 640,000~659,999 201,250 1.5% 24%
620,000~639,999 199,548 1.5% 25% 620,000~639,999 222,054 1.6% 26%
600,000~619,999 210,802 1.6% 27% 600,000~619,999 252,193 1.9% 28%
12
13
2,500,000元及以上
2,000,000~ 2,499,999
M型化(書名亂寫)在哪裡?
1,750,000~ 1,999,999
1,500,000~ 1,749,999
1,250,000~ 1,499,999
1,000,000~ 1,249,999
900,000~ 999,999
圖5 我國年所得收入者人數佔比%─按可支配所得組別分
580,000~ 599,999
560,000~ 579,999
540,000~ 559,999
520,000~ 539,999
500,000~ 519,999
480,000~ 499,999
460,000~ 479,999
440,000~ 459,999
420,000~ 439,999
400,000~ 419,999
380,000~ 399,999
360,000~ 379,999
340,000~ 359,999
320,000~ 339,999
300,000~ 319,999
資料來源:行政院主計處
280,000~ 299,999
260,000~ 279,999
240,000~ 259,999
220,000~ 239,999
200,000~ 219,999
180,000~ 199,999
160,000~ 179,999
6.00%
5.00%
4.00%
3.00%
2.00%
1.00%
0.00%
外部次級資料的來源
政府機構統計調查報告
◦ 行政院主計總處─總體統計資料庫
◦ 經濟部統計處
非政府機構資料來源
◦ 工商同業公會
◦ 廣告公司和媒體代理業 (e.g.聯合知識庫)
◦ 私人商業調查機構(e.g. MIC資策會產業情報)
◦ 學術研究機構(e.g.碩博士論文、台經院)
◦ 其他機構
14
外部次級資料的來源
15
外部次級資料的來源
16
外部次級資料的搜尋管道
去圖書館找
拜訪學者專家
翻閱出版品目錄或名人錄
查詢光碟資料庫(期刊之摘要及目錄; 已落伍)
使用網路搜尋引擎
◦ 重點在關鍵字的使用技巧:【“不希望被切開查詢的關鍵字”】、
【關鍵字-排除掉的字】、【關鍵字A or 關鍵字B】
17
如何搜尋已出版之次級資料來源
7-
行銷研究 Chapter 7 次級資料 18
評估次級資料品質好壞的準則
準則 議題 說明
7-
行銷研究 Chapter 7 次級資料 19
評估次級資料的準則
設計說明
◦ 蒐集資料的方法
誤差
時效性
◦ 使用時要註明資料的時間點
目標
◦ 此次級資料原本的調查目的
性質
◦ 對資料的定義,例:經常上網人口是如何定義的
可靠性
◦ 那個機構自己調查獲得的原始來源(可)
◦ 它已是引用自別處的次次級來源(不可)
20
資料探勘 Data Mining
21
資料探勘的功能與架構
整理與分析data
行銷研究問題
發掘資料庫中各變數之間
資料探勘方法
隱藏的關係
以發掘有價值的現象 資料探勘執行
視覺的資料探勘
行銷研究 Chapter 7 次級 7-
資料 22
資料探勘方法
決策樹
◦ 使用樹狀結構去將顧客分成若干區隔市場或其他相關群體。
法則歸納
◦ 發展「如果……就會……」(if ... then ...)法則將資料庫中的個人加以
分類。
神經網絡
◦ 這是一種非線性的預測模式,用來學習如何查出可與特定現象相配
的型態。
模糊邏輯
◦ 這是用來處理不精確的觀念(如小、大、年輕、高、低等)的一種
方法。這種方法是較有彈性的。
基因法
◦ 這不是用來發現型態,而是用來引導神經網絡的學習過程。
7-
行銷研究 Chapter 7 次級資料 23
資料探勘的架構
基因演算法:
◦ 一種新的資料探勘技術,它以適應函數來決定搜尋的方向
◦ 再搭配模擬生物的人工運算過程,例如選擇、複製、交配
和突變等進行演化,週而復始地模擬自然界的演化方式,
以求得一個最佳的結果
◦ 經常與類神經網路技術結合運作。
例:『哪一種函數與存貨曲線是最吻合,可用來預測存貨?』
例:『應用基因演算法於股市投資策略』
人工智慧:(大數據+深度學習)
7-
行銷研究 Chapter 7 次級資料 24