You are on page 1of 20

大數據的理念與應用

和沛科技股份有限公司 總經理 翟本喬


CC-BY-NC-SA 3.0 License, 2015 Hope Bay Technologies, Inc. 和沛科技 1
什麼是大數據?

 Big data is the term for a collection of dat


a sets so large and complex that it beco
mes difficult to process using on-hand dat
abase management tools or traditional dat
a processing applications.

 意思就是說 DB2/Oracle/MSSQL/MySQL
沒辦法處理的資料

CC-BY-NC-SA 3.0 License, 2015 Hope Bay Technologies, Inc. 和沛科技 2


大數據和數據不一樣在哪裡?

 Volume (amount of data)


 Velocity (speed of data in and out)
 Variety (range of data types and sources)
 Veracity (truthfulness of the data)

 意思就是說 DB2/Oracle/MSSQL/MySQL
沒辦法處理

CC-BY-NC-SA 3.0 License, 2015 Hope Bay Technologies, Inc. 和沛科技 3


大數據只是這樣嗎?

 多、快、變、錯,又怎麼樣?

 傳統計算科學思維:讓我的電腦快一千倍
,這個問題就解得出來!
• 有一個問題,找出一組答案
 新式計算科學思維:讓我的資料多一千倍
,這個問題才解得出來!
• 有一堆資料,找出有用的情報

CC-BY-NC-SA 3.0 License, 2015 Hope Bay Technologies, Inc. 和沛科技 4


大數據範例:電腦翻譯

 傳統方法:字典 + 文法規則 + 例外資料庫…


• 初期效果不錯,但不會進步
• 語言用法會變,例外越來越多
 統計翻譯:比對同一文章之不同語言版本
,建立統計模式
• 初期功能不佳,但越練越强
• 不懂語言也能翻譯,自動成長

CC-BY-NC-SA 3.0 License, 2015 Hope Bay Technologies, Inc. 和沛科技 5


電腦翻譯需要多大的數據?
阿拉伯文翻英文正確率
53.5
52.5 +weblm =
51.5 219B words of
50.5 AE BLEU[%] web data!
49.5
48.5
47.5

CC-BY-NC-SA 3.0 License, 2015 Hope Bay Technologies, Inc. 和沛科技 6


大數據範例:英文拼字校正

 傳統方法:建立字典,對不在字典裡的字
找差距最小的字。可是:
• 專有名詞 ( 人名、商標 ) 不在字典裡
• 有時錯成另一個在字典裡的字
• 有時有好幾個可能
 Google 方法:看大家都怎麼打
• Britney Spears  brittany spears, brittney spe
ars, britany spears, britny spears, briteny spe
ars, britteny spears, brine spears, …

CC-BY-NC-SA 3.0 License, 2015 Hope Bay Technologies, Inc. 和沛科技 7


小甜甜的三百個拼法…

CC-BY-NC-SA 3.0 License, 2015 Hope Bay Technologies, Inc. 和沛科技 8


也要看上下文…

 Kofi Annan 沒有拼錯 ( 聯合國秘書長 )

 Kofee Annan  Kofi Annan

 Kofee Shop  Coffee Shop

CC-BY-NC-SA 3.0 License, 2015 Hope Bay Technologies, Inc. 和沛科技 9


大數據範例:偵測呆帳

 傳統方法:看 FICO 信用評分


 MIT 方法:運用機器學習,分析客戶銀行
及信用卡紀錄中數百個變數

 台大教授用類似方法降低東森退貨率 35%

CC-BY-NC-SA 3.0 License, 2015 Hope Bay Technologies, Inc. 和沛科技 10


大數據範例:誰在談戀愛?

CC-BY-NC-SA 3.0 License, 2015 Hope Bay Technologies, Inc. 和沛科技 11


大數據潛在運用可能

 Voice of Customer
• iPhone 金 / 黑 / 白 各該生產多少?

 Sentiment Analysis
• 產品反應
• 選舉

CC-BY-NC-SA 3.0 License, 2015 Hope Bay Technologies, Inc. 和沛科技 12


大數據系統架構

資料分析程式

資料分析系統 驚人結果

資料儲存系統

資料來源 資料來源 資料來源 資料來源

CC-BY-NC-SA 3.0 License, 2015 Hope Bay Technologies, Inc. 和沛科技 13


大數據的層次

 存得起來的,就是 storage (儲存)


 看得到的,才是 data (資料)
 看得懂的,叫做 information (資訊)
 用得出來的,才能稱為 intelligence (情
報)

CC-BY-NC-SA 3.0 License, 2015 Hope Bay Technologies, Inc. 和沛科技 14


大數據系統架構

資料分析程式
Data  Information

資料分析系統
Data Analysis Tool 驚人結果
Intelligence

資料儲存系統
Data Storage

資料來源 資料來源 資料來源 資料來源

CC-BY-NC-SA 3.0 License, 2015 Hope Bay Technologies, Inc. 和沛科技 15


誰能用得上大數據的應用?

 擁用大量資料的人
 看得到大量資料中資訊所在的人
 看得出如何把資訊轉換成情報的人
 知道如何用這些情報賺錢的人

CC-BY-NC-SA 3.0 License, 2015 Hope Bay Technologies, Inc. 和沛科技 16


誰能從大數據賺到錢?

 擁用大量資料的人
 看得到大量資料中資訊所在的人
 看得出如何把資訊轉換成情報的人
 知道如何用這些情報賺錢的人

CC-BY-NC-SA 3.0 License, 2015 Hope Bay Technologies, Inc. 和沛科技 17


Process vs. Art

 企業系統
• 連失敗一次都不行

 戰鬥系統
• 只要成功一次就好

CC-BY-NC-SA 3.0 License, 2015 Hope Bay Technologies, Inc. 和沛科技 18


大數據還在剛起步…

1952: UNIVAC I 電腦預測出美國總統大選艾森豪大勝

CC-BY-NC-SA 3.0 License, 2015 Hope Bay Technologies, Inc. 和沛科技 19


Q&A

BEN.JAI@HOPEBAYTECH.COM

CC-BY-NC-SA 3.0 License, 2015 Hope Bay Technologies, Inc. 和沛科技 20

You might also like