You are on page 1of 89

數據的收集與存儲

Department Refrigeration
AdvancedofElectrical and AirLab.
Control Conditioning and Energy
Department Engineering,
of Electrical National Chin
Engineering Yi University
National of Technology
Chung-Hsing University
課程綱要

 何謂資料
 資料數位化
 資料的來源
 如何收集資料
 資料的整理
 資料特徵
 特徵工程
 如何存儲資料
 資料存儲
 資料安全

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 2/88
何謂資料

 人類為了思維及溝通,創造了各種符號,並利用這些符號
組成資料並對其進行儲存,或藉由處理獲得資訊以利分析
和傳遞,從中產生知識並進行累積,逐漸形成智慧
 將個人對人、事、物的認知資訊與經驗進行整理,利用資料進行
紀錄、存儲與累積,透過不同人繼續對資料當中資訊的解讀、理
解以及轉述,甚至再次匯整為資料紀錄的過程,讓知識得以進行
交流、傳承與發展
 資料與知識的累積,讓後人能夠繼續基於前人經驗以及自身經驗
與觀點持續淬煉並累積為個人智慧,進而發展為各種不同的思維
與思辯內容,並在共同的領域內逐漸形成學科
 經由知識的累積、技術的發展,在不同生活圈內逐漸形成一系列
共有的概念、價值觀和行為準則,就變成為不同的文化
 人類主要透過知識的交流、傳承與發展,形成文化與科技,建立
互動與交流更加密集的社會,並逐步改善生活

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 3/88
何謂資料

 符號 (Symbol):
 特定意義的表徵∕表現手段
 主要用來交流、表達或紀錄
 聲音、光線、顏色、圖形(圖案、圖標)、形狀(幾何、排列、
抽象形體∕表徵) 、文字(字元、字母)、波形(聲波、光波、
電波)、動作(肢體語言、手語)等都可以是符號

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 4/88
何謂資料

 資料 (Data):
 從相關情境 (Context)中獲得的事實和觀察
 可看做對於人、事、物的了解
 狹義來看為通過觀測得到的數字性的特徵
 通常由一連串的符號組成,可以是一堆整理或未整理過的文字、
數字、檔案等,有利於進行分享、交流與存儲
 經過測量、收集、報告和分析後便可進行不同的應用
 也能以圖表、圖像或者其他分析工具進行視覺化,輔助進行資訊
的傳達、個人的判讀與分析

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 5/88
何謂資料

 資訊 (Information):
 將資料套入有意義的情境中所獲得的結果
 可看做對資料的理解這種抽象概念
 在經過儲存、分析與解釋等處理後可得到相應的意義,但結果可
能因人而異
 即便是同一人,在不同的時空背景下對於同樣的資料的理解也可
能出現歧異,但並非資料出現偏差或是出現分歧,而是受到個人
知識、觀點與各種外在因素的影響導致
 紀錄為資料的方式或媒介也會影響資訊的傳達結果

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 6/88
何謂資料

 知識 (Knowledge):
 根據資訊內容從而相信或重視的事物
 是一種已知的狀態或事實,可看做被人類理解、發現或學習內容
的加總
 從他人經驗得來的了解,人們對於某樣人、事、物的共同理解
(共識)
 他人的認知、體驗與經驗的累積

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 7/88
何謂資料

 智慧 (Intelligence):
 基於神經器官(物質基礎)形成的綜合能力
 包含有:感知、知識、記憶、理解、聯想、情感、邏輯、辨別、
計算、分析、判斷、文化、中庸、包容、決定等
 可以深刻地理解各種人事物與情境,擁有思考、分析、探求真理
的能力
 個人的認知、體驗與經驗的累積

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 8/88
何謂資料

作業環境 資料 資訊 智慧
Operational
Data Information Intelligence
Environment

收集 處理與開發 分析並生成
Collection Processing & Exploitation Analysis & Production

Source: Joint Intelligence / Joint Publication 2.0 (Joint Chiefs of Staff)

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 9/88
何謂資料

 在不同領域中,資料與資訊在定義上可能相通或有所不同
 當資料被置於情境之下審視或經過分析之後,就會變為資訊
 而在學術課題論述中,資料是組成資訊的單元
 在計算機(電腦)領域中,資料會被轉成字元、欄位、記錄、檔
案和資料庫等形式進行存儲或演算
 對資料進行處理後,得到的可用訊息則被稱為資訊
 在數據分析領域當中,資料代表一組關於一個或多個人事物的定
性或定量變數,而資訊則是處理過且有用的的資料
 整理∕處理指的是針對原始資料進行移除異常值和明顯的儀器或登錄
誤差來進行糾正的過程,通常會分多個階段進行不同處理
 原始資料是相對進行處理前的資料,而資料的處理∕整理通常是分為
多個階段的,因此前一階段整理過的資料將會成為下一階段相對的原
始資料
 資料與資訊最大的差別不在是否「處理過」,而在於是否「有意義」
 處理的過程可能會讓資料變得有意義

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 10/88
資料的類型
 廣義的資料的分類如下圖所示
資料
Data

非結構化資料 結構化資料
Unstructured Structured

轉換

定性資料 定量資料
Qualitative Quantitative

定類資料 定序資料 定距資料 定比資料


Nominal Ordinal Interval Ratio
(Categorical)

資料呈現:資料視覺化/描述性統計
Visualize / Descriptive Statistics

 在電腦內紀錄的數位化的資料的分類主要包括:
 數值資料:可執行算術運算的數字,定點數及浮點數或資料組
 音源、圖像與影像資料可透過相應方式進行演算,通常歸於此類
 非數值資料:算術運算無法執行的資料,如文字資料

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 11/88
各類型結構化資料特性
描述性 統計量
等級 特性 實例 圖表
統計 眾數 中位數 極值 平均值 標準差

定類 離散 二分法 頻率/佔比 長條圖


(Nominal) O X X X X
無序 顏色 眾數 圓餅圖
(Categorical)

頻率
排名 長條圖
定序 有序類別
程度
眾數
圓餅圖 O O O X X
(Ordinal) 比較 中位數
順序 莖葉圖
百分位數

頻率
溫度 眾數
定距 數字差別
震度 中位數 O O O O O
(Interval) 有意義
級風 平均值
標準差

連續
定比 可乘除
金額 平均值 直方圖
有時有 O O O O
(Ratio) 重量 標準差 盒狀圖
絕對零點

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 12/88
資料的數位化(電子化)

 在現代社會中,各種資料的存儲、分析與處理,大多需要
仰賴電腦進行,因此如何將資料數位化是相當重要的
 資料電子化的特性
 速度快(以MIPS (Million Instruction Per Second)為單位)
 可重複處理,且正確性高
 大量資料儲存的能力(TB  PB  EB  ZB  YB)(210=1,024進制)
Tera Peta Exa Zetta Yotta
 資訊品質高
 儲存資料的單位由小到大依序為
 位元  位元組  字元  字組  欄位  記錄  檔案  資料庫
bit Byte Character Word Field Record File Database
 1 byte = 8 bits
 1 Character = 1 byte (英數、符號) / 2 bytes (中文)
 1 Word = 2 bytes = 16 bits
 欄位與紀錄通常為資料庫的組成基礎

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 13/88
資料的數位化(電子化)
 數位化 (Digitization)
 數位化指的是將資訊電子化(轉化為數位媒介)的過程,
可包括文字、圖片、音訊等
 大部分轉化過程是使用感測器或掃瞄儀器進行,主要是針對資訊
本身進行轉化動作
 數位相機拍下的照片便是一種常見的資訊數位化媒介
 數碼化∕技術數位化 (Digitalization)
 主要目的是要採用數位科技的技術或是方式來改進企業的營運模
式或是客戶體驗
 不同於數位化,數碼化更加強調數位化的「過程」,亦即流程的
數位化,包括人與人、組織與組織的互動與溝通媒介的數位化
 在組織當中,數碼化時常泛指通過結合數位科技到既有的營運流
程、營運模式當中的過程 ,以及組織部份營運程序的自動化
 包括Email、社群媒體、整合企業功能的API、以及各式各樣能夠
讓內部營運流程在數位渠道上完成的軟體等內容都是常見的例子

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 14/88
資料的數位化(電子化)
 在各種物理系統當中,我們所能觀
察∕量測到的訊號,都是一連串持
續進行的動態變化,稱為類比訊號
 這些連續的類比訊號,在經過取樣
與保持過程後,將成為離散訊號
 離散訊號再經由量化成為二進制數
值後,就成為在固定時間週期的階
段訊號變化,亦即數位訊號
 二進制的數位訊號可直接送入數位
電路進行運算,亦方便進行存儲
 電腦內的運算基本單元以二進制位
元為基礎,再透過指令堆疊實現各
種複雜的運算內容

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 15/88
資料的數位化(電子化)

 資料處理的基本作業
 資料建立 (Create):依據檔案內容選擇電子檔案類型
 資料轉換 (Conversion):轉存成為不同的媒體
 資料排序 (Sort):依順序進行排列
 資料合併 (Merge):將同性質同主題的檔案合併為同一檔案
 資料分配 (Distribute):依條件與規格將資料分配至不同檔案
 資料搜尋 (Search):依某關鍵值找到所需資料或檔案
 計算及列表 (Compute & Listing):依指令計算資料或列出結果
 資料更新 (Update):對資料進行編修、附加或刪減等動作
 資料核對 (Check):配合搜尋與比對針對資料內容進行確認

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 16/88
大數據資料(數位資料)的發展

 大數據資料(數位資料)原本指的是來自各種不同來源的
結構化/非結構化資料的集合
 其資料量之龐大,無法以傳統資料庫系統進行管理,必須透過多
台伺服器(可能達上千台並行)(電腦叢集)進行分散式運算

 而現今主要著重於以下方面(短時間大量的複雜資料)
 量(Volume):資料大小
 速度(Velocity):資料輸出入速度∕ 資料量
單位時間資料吞吐量 (Volume) 正確性
(Veracity)
 多變(Variety):資料的多樣性 價值
 真實性∕正確性(Veracity):資料的真實性 (Value) (產生/更新)
多樣性 速度
(Variety) (Velocity)

大數據資料特性:
大量、快速、多元、不確定性

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 17/88
大數據資料(數位資料)的發展

 大數據的處理,不同於傳統資料統計的抽樣分析,而是著
重於觀察或追蹤既有資料,並嘗試透過觀察或統計方式找
出其規律並進行決策分析,也因此產生了許多相關技術
 大規模並列處理(MPP)資料庫
 資料探勘
 分散式檔案系統
 分散式資料庫
 雲端運算平台
 邊緣運算技術
 基於網際網路之可延伸的儲存系統

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 18/88
大數據資料(數位資料)的發展

資料來源:Teradata, Inc.

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 19/88
大數據資料(數位資料)的發展
資料速度
Data Velocity

即時
(Real Time)

近即時
(Near Real Time)

週期
(Periodic)

批量
(Batch)
資料量
社交互動 試算表 MB GB TB PB Data Volme
表格
(Social)
圖像 資料庫
影像 網頁
音源
非結構 行動資訊
資料多樣性 (Mobile)
Data Variety

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 20/88
為何要數位化

 環境中的所有資訊,包括我們耳朵聽到的聲音、眼睛看見
的影像、皮膚感受的觸覺等,都是不同的訊號
 若希望針對這些資訊進行保存,可以透過錄音、攝影、記述等方
式,將這些內容保存為資料,如錄音帶、照片、影片、文檔等
 這些資料需要透過實體媒介保存起來,如磁帶、紙本等,但存儲
時需考量所佔用的空間以及其維護工作

 資料數位化後,主要有以下優點:
 方便進行保存與紀錄
 可透過加解密演算法保護資料
 方便進行交換傳輸
 可透過壓縮、解壓縮演算法減少資料容量,有利於保存與傳輸
 方便進行編修處理,不易造成原始資料毀損
 容易進行分析、處理、偵錯與除錯

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 21/88
為何要數位化

 透過資料數位化,除了能利用電腦進行處理外,還能讓嵌
入式系統(晶片)對環境持續進行感測,藉此對環境資訊
產生認知結果,以將環境資訊轉換為數位資料存儲分析
 配合物聯網技術讓設備上線,便可透過遠端資料庫進行資料存儲
 除了便於設備狀態監測,更能進行遠端操控,讓設備的應用與部
屬更為方便
 生活中常用的各種電器裝置,若透過網路互相串聯,並配置各種
環境感測器收集環境資訊,再配合有一定控制演算能力的嵌入式
核心進行統整與分析,便能實現各種生活智慧化的應用
 這些持續性收集的大量資料,包括環境資訊以及設備運作狀況,
便是大數據資料的重要基礎
 如何將這些收集起來的資料進行整理、存儲與分析,賦予其意義
與價值便是大數據分析當中最主要的課題

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 22/88
嵌入式系統

 嵌入式系統(Embedded Systems)
 泛指嵌入受控目標,為特定應用所設計之微電腦系統
 系統必須小型化,以利整合並嵌入目標
 與一般處理器不同的是,除了執行、運算程式之能力外,更加強
調其獨立性,通常會在系統晶片中加入所需的周邊硬體模組,以
最低限度的有限硬體資源執行工作
 其中針對特定目標而設計的軟體程式被稱為韌體
 通常該系統並不會是獨立的系統,而是作為大型裝置的子系統

 然而隨著科技進步,部分嵌入式系統也需要更為複雜的演
算能力
 以複雜的使用者介面的部分為甚(如隨身行動裝置)
 個人電腦核心的微處理器(CPU)與嵌入式控制器(MCU)間的分別也
逐漸模糊,逐漸以微控制器統稱

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 23/88
嵌入式系統

 微控制器
(Micro Controller Unit, MCU)
 為嵌入式控制器與微處理機
等晶片系統的統稱
 能獨立並有效的進行硬體控
制及資料運算處理

 微控制器的基本組成包括:
 中央處理單元
(Central Processing Unit,CPU)
 記憶體
(Memory,包含RAM、ROM)
 輸出輸入單元
(INPUT/OUTPUT,I/O)
 其他模組單元

 微控制器就如同將具基本功
能之電腦單元濃縮於單一晶
片當中,因此又常稱作微電
腦控制器或單晶片控制器

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 24/88
嵌入式系統
External Interrupt

Interrupt Timer 1
Control ROM RAM
Timer 0

 MPU是電腦系統的基本單元 CPU
Counter

集成,包括CPU (ALU+CU)、
BUS I/O Serial
內部記憶體、匯流排跟輸出 OSC Control Port COM

入埠等 Modules
P0 P1 P2 P3 P4
TX RX

 而MCU則是基於MPU,另 (MPU)
外將周邊電路以及擴充的外
部記憶體集成於晶片內
 對於電腦而言,一向只有高
度集成的CPU為核心,其餘
都是外部周邊,透過主機板
集結為一體

(MCU)

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 25/88
嵌入式系統

[8051] [PIC] MicroChip [FPGA] ALTERA / Terasic [DSP] TI


Explorer 16 De0-Nano (Cyclone IV) Launchpad (MSP430)

[AVR] ATMEL [ARM] STM32 [ARM] MediaTek [Tensilica] Ai-Thinker


Arduino UNO Nucleo F446-RE LinkIt 7697 (MT7697) ESP8266 / ESP32
(ATmega) (Cortex-M4) (Cortex-M4) (Tensilica Xtensa)

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 26/88
嵌入式系統

Wemos D1 mini
(ESP8266)

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 27/88
嵌入式系統

 隨著晶片技術的發展,目前的電控系統都可透過強而有力
的嵌入式運算核心將整體控制系統整入小型主板內
 嵌入式核心的運算能力也逐漸接近桌上型個人電腦,目前在核心
的選用上變成注重低功耗以及系統散熱
 許多週邊關鍵模組也變為自帶演算核心,能獨自處理演算
並直接提供結果,省去許多以往需要站用運算核心進行計
算的內容,等效的提升了整體系統的運作效率
 承上,目前的電控系統也常採用這種透過不同的子系統核心分別
處理不同的感測分析或是換算,最後透過不同核心間的通訊彙整
資料至主核心進行主要控制演算的方式運作
 將不同子系統核心獨立分開運作,只利用網路連接將其結果彙整
合併處理的分散式系統架構,以及用以整合不同的分散子系統的
軟體運算並管理資源的分散式作業系統,也在高速、高頻寬、低
延遲的5G網路的實現而逐漸成熟

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 28/88
嵌入式系統

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 29/88
物聯網技術

 互聯網∕網際網路(Internet)指的是透過網路與網路之間串
聯起來的巨大的複雜化網路,並提供標準化服務,可用來
處理大量資料的交互與共享,甚至提供虛擬服務

 物聯網(Internet of Thing, IoT)則是基於互聯網的架構,配


合各種有線或無線的子網路架構將物品∕設備上的資料上
傳至網路,讓設備的監控與操作變成可透過遠端執行
 甚至可以透過物聯網串接工廠內所有設備至中控伺服器來進行統
一管理,並配合機器學習或人工智慧方式進行生產管理決策,以
實現智慧自動化工廠的目標
 簡化的概念性敘述為『物物互聯』

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 30/88
物聯網技術

 物聯網相較於原始的互連網之間最大的差異,在於應用層
通訊協定的簡化應用或重構
 初期是依照原始互連網當中OSI七層架構進行修訂
 隨著技術內容的擴充與改進,逐漸形成自己的技術生態系統
 IoT的技術生態系統,主要可分為裝置、資料、連線能力
和技術使用者這幾個層面進行探討
 感知∕裝置層:由感應器、傳動器、硬體、軟體、連線能力和閘
道所組成,構成與網路連接及互動的裝置
 網路∕通訊層:進行資料交換傳輸時,裝置的連接媒介(連線方
式)和資料交換方式(通訊協定),採簡化的五層架構
 應用層:IoT技術的應用功能,或是所謂的IoT平台

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 31/88
物聯網技術

 感知∕裝置層
 嵌入式系統:包含硬體和軟體,並管理大型系統相關的特定功能,
以微處理器(MPU)或微控制器(MCU)為主要控制核心
 微處理器單元 (MPU):將 CPU 功能裝載在單一或多個整合線路上
雖然微處理器需有周邊設備才能完成工作,但因其只含 CPU,所以可
以大幅降低處理成本
 微控制器單元 (MCU):內嵌在微晶片上,具備小型電腦應有之功能,
並包含 CPU、RAM 和 ROM,雖然微控制器含有執行簡單工作所需的
元素,但其功率限制比微處理器更多(功耗較大)
 換能器:將某種能量形式轉換成其他能量形式的實體裝置
 感測器:偵測環境中的變更,並透過電子脈衝訊號傳達給控制核心
 致動器:為因應感應器識別到的變更而進行動作所需的控制對像
 智慧型裝置:具有運算能力、能主動對環境進行感知的裝置,通常
也包含了微控制器以進行統合控制。基於嵌入式系統建置的單元
 感知、辨識技術:因應簡單控制需求而為設備加入基本運算能力,
讓終端設備可直接基於量測結果獨立運作,資料另行上傳雲端
Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 32/88
物聯網技術

 網路∕通訊層
 IoT閘道 (Getway):從IoT裝置收集的資料會透過閘道移動、在邊
緣節點進行前置處理,然後將IoT裝置連接到雲端(不需要直接存
取網際網路),主要用於異質網路連結
 連接媒介(連線方式):低功率短距離網路、低功率廣域網路
 主要包括WiFi、藍牙、ZigBee、Z-Wave、NB-IoT/Cat-M2、4G LTE
IoT、LTE Cat-M1、Cat-0、Cat-1、5G IoT、Sigfox、窄頻等
 資料交換方式(通訊協定):基於開放系統互相連線 (OSI) 模型,
針對簡化的五層架構應對不同層之間的資料交換,進行相應的通訊
協定的選用(甚至實現跨平台、跨系統進行資料交換)
 由於物聯網架構下,感測節點本身多半採用小型MCU且以電池供電,
故M2M (Machine to Machine)協定必須考量在有限的硬體能力及功耗
等條件下,在進行網路傳輸時,有較高的Throughput、低延遲、低電
力耗損,甚至提供不同的QoS (Quality of Service)
 資訊安全技術:近期開始針對資料在傳輸過程中的安全性加密技術
進行發展,主要是為了避免簡化的通訊過程造成資料容易被竊取

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 33/88
物聯網技術

 應用層(IoT平台)
 針對IoT應用提供服務,或是建立相關平台
 常見應用包括
 人機互動∕監控用資訊平台
 Web APP整合應用(前端、後端應用程式)
 驗證、裝置管理與介接API
 雲端閘道、雲端伺服器,雲端運算與服務平台
 預測性維護
 從目前的資料中識別出相同的趨勢,預測設備何時可能需要進行維護
 分析與決策輔助平台
 重點關聯技術包括
 人工智慧  開放原始碼
 虛擬實境  無伺服器運作
 區塊鏈  容器叢集管理系統
 量子運算  用於自動部署、擴充和管理容器化應用程式(Container)
 Kubernetes (K8s)
Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 34/88
應用程式層 進階訊息佇列通訊協定 在傳訊中介軟體之間建立互通性的軟體層,產業規模的標準化傳訊機制
(Advanced Message Queuing Protocol, AMQP)
使用者與裝置之間
的互動介面 限制應用程式通訊協定 有限頻寬和有限網路通訊協定,專為連接能力有限的裝置而設計,輕量化的
(The Constrained Application Protocol, CoAP) TCP/UDP通訊協定,透過伺服器將裝置提供的簡單資訊轉為HTTP協定上網
資料散發服務 多功能的點對點通訊協定,可簡化部署、提高可靠性,並降低複雜度
(Data Distribution Service, DDS)

訊息佇列遙測傳輸 針對輕量型M2M通訊而設計的通訊協定,主要用於與遠端位置的低頻寬連接
(Message Queueing Telemetry Transport, MQTT) 由訂閱者(Subscriber)、發佈者(Publisher)及仲介(Broker)組成的資料交換架構

傳輸層 傳輸控制通訊協定 大部分網際網路連線使用的主要通訊協定,提供主機對主機通訊,將大量資


(Transmission Control Protocol, TCP) 料切分成個別的封包,並視需要重新傳送及重組封包
資料在各層之間傳
輸時,確保資料通 使用者資料包通訊協定 基於IP (Internet Protocol)執行的通訊協定,可確保處理序對處理序的通訊,
訊並保障通訊安全 (User Datagram Protocol, UDP) UDP可改進透過TCP傳輸資料的速率,適合需要無失真資料傳輸

網路層 6LoWPAN 低功率版IPv6,可縮短傳輸時間


協助裝置與路由器 IPv6 可路由網際網路的流量、識別網路上的裝置並加以定位定址(IP)
溝通

資料連結層 IEEE 802.15.4 適用於低功率無線連接的無線電標準,可搭配 Zigbee、6LoWPAN 和其他標


準使用建置無線內嵌網路
在系統架構內傳輸
資料,找出並修正 LPWAN 這種網路類型的通訊距離可達 500 公尺以上。LoRaWAN 是 LPWAN 針對低
實體層中錯誤 耗電量最佳化的一個代表

實體層 低功耗藍牙 大幅降低耗電量和成本,並維持傳統藍牙的範圍與效能,成本低廉,電池使


(Bluetooth Low Energy, BLE) 用時間長,消費性電子產品最常使用的技術
建立通訊通道,讓
裝置能夠在指定的 乙太網路 有線連接傳輸,費用較低、可提供快速的資料連接和低延遲
環境內連接
長期演進技術 適用於行動裝置和資料終端機的無線寬頻通訊標準,可增加無線網路的容量
(Long Term Evolution, LTE) 和速度,並支援多點傳送和廣播串流
近場無線通訊 使用電磁場的通訊協定,其可讓距離4cm內(短距)的兩個裝置通訊常用於身分
(Near Field Communication, NFC) 識別門卡、非接觸式行動支付、票證和智慧卡等應用
無線射頻識別 使用電磁場追蹤不具電源的被動式電子標籤。相容的硬體可提供電源(觸發)
(Radio Frequency IDentification, RFID) 並與這些標籤通訊,同時讀取其資訊以進行識別和驗證
Wi-Fi/802.11 住家和辦公室的標準選項,範圍有限,全天候持續耗電

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 35/88
雲端運算 (Cloud Computing)

 雲端運算是透過共用的軟硬體資源和資訊,按需求提供給
電腦各種終端和其他裝置動態易擴充而且資源虛擬化的一
種運算方式∕虛擬運算環境
 主要強調其動態配置與使用彈性
 雲端運算的服務特徵,和自然界的雲、水迴圈有一定的相似性而
得名
 網際網路上匯聚的運算資源、儲存資源、資料資源和應用資源正
隨著網際網路規模的擴大而不斷增加,也因此網際網路正在從傳
統意義的通訊平台轉化為泛在、智慧型的運算平台
 雲端運算主要依賴資源的共用以達成規模經濟,服務提供者整合
大量的資源供多個用戶使用,用戶可以輕易的請求∕租借資源,
並視需求調整使用量,釋放不需要的資源回歸系統架構

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 36/88
雲端運算 (Cloud Computing)

 目前大多是由供應商負責系統底層維護,開放給使用者租
用,使用者不須了解詳細底層內容便依所提供功能可用來
實現不同應用的架構
 軟體即服務
(Software as a Service, SaaS)
 基礎設施即服務
(Infrastructure as a Service, IaaS)
 平台即服務 混合雲

(Platform as a Service, PaaS) 私有雲


公有雲
 桌面即服務
(Desktop as a Service, DaaS) 資料雲

社群雲
Community

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 37/88
邊緣運算(Edge Computing)

 邊緣運算主要是因應現今大數據於雲端之應用當中,若等
所有資訊都上傳至雲端,才進行監督、控制、分析等動作
,有時將緩不濟急,故會希望在資料彙集的現場終端∕閘
道器(Gateway) 加入演算能力,使其能做到即時監督、即
時分析與反應等功能,也就是相對資料雲的邊緣(Edge)上
的運算與處理
 Cisco所提出的霧運算(Fog Computing)也算是類似的概念,都是
透過強化現場端的運算來強化整體算力,但更加上了網路內各節
點上的運算力以及各節
點間的運算力、運算資
源可以相互調度挪用借
用的感測器∕終端設備
通訊網路的概念

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 38/88
雲端運算與邊緣運算
雲端運算 邊緣運算
雲端計算分析、服務 雲端存儲、服務
判斷是否為 分析資料存儲
已登錄住戶 判斷結果存儲
即時事件通知 即時事件通知
分析結果

判斷是否為
分析結果 已登錄住戶
邊緣裝置
計算分析

是否要 是否要
觸發警報 觸發警報

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 39/88
物聯網技術

 物聯網在生活中的應用,與各式數位服務息息相關
 生活中的物聯網將透過感知我們的行為自動做出響應(服務)
 較常見的應用以由使用者主動接觸,提供諮詢的對話機器人為主
 與穿戴式裝置相關的結合應用,隨之發展的還有個人健康管理、運動
管理、數位醫療等
 其他還有較難察覺的社交軟體推播、購物網站推薦商品、網路廣告等
 與此同時,也會將使用者的動作(行為)同步到雲端,成為服務
提供商繼續發展的資料來源
 但同時也存在這些隱私性資料是否能在未授權狀況下讓廠商使用
 此外也衍生出透過物聯網裝置竊取資訊的資安問題
 隨著生活環境當中的各項設施實現數位化連線以及裝置智慧化,
物聯網與智慧家庭、智慧城市的相關應用將會促進相關技術與產
業的下一波爆發式發展

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 40/88
為何要數位化

 針對行為模式、管理流程的數位化整合
 除了資料的數位化,營運流程、行銷業務等也能透過整合各種數
位科技將其數碼化(著重於過程),以實現效率的改善與提升。
這個步驟∕流程被稱為企業或組織的數位轉型
 建立標準流程以及行為流程數位化管理後,還能套用不同的商業
管理模型進行分析或調整,以期達成既定目標

 針對行政流程、行政資料的數位化整合
 透過電子公文簽核系統,配合不受空間限制的網際網路傳輸,可
以讓行政效率更加提升
 將行政資料數位化,除了方便進行傳遞簽核節省時間外,更能實
現無紙化,減少資源的浪費並落實環境保護
 資料數位化同時對資料的保存與查閱有所助益,更能配合行政體
系的資料透明化公開共享,打造更完整的數位環境

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 41/88
數位轉型 (Digital Transformation) (DX)
 「數位轉型」為結合數位科技與既存營運流程的過程,亦即組織全面性
的整合數位科技,包括營運流程、行銷業務、數據分析以及基礎建設等
,時常與數位化或數碼化一併而談
 數位轉型也指更為廣泛的應用數位科技,亦即在組織的各個層面皆整合
應用數位科技以效率化流程,使其更為理性且靈敏,其中包括:
 營運流程 (Operational Process)
 行銷與業務 ((Marketing & Sales)
 輔助功能 (Supporting Functions)
 創新與研發 (Research & Development)
 資訊科技 (Information Technology)
 數位再造 (Digital Reinvention)
 完成數位再造的組織,不論何種產業,都可以被定義為科技公司,因其營運流程
與數位科技已然密不可分
 數位再造也能說是對於整個組織價值主張的重新定義
 簡而言之,透過數位科技的新技術,大幅改變產業、生活、市場,創造
出新的價值或傳遞方式,就是數位轉型

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 42/88
數位再造與數位轉型

 歷經數位再造的組織,將重新定義了品牌,並讓組織的營
運模式與數位科技更完整的結合
 不論在研發、行銷、業務、客服、
運營等企業功能都將圍繞著客戶
體驗與客戶價值為核心 建立新營運模式 顧客互動與體驗
New Business Model Market Activation
 企業將通過創新的科技、產品、
服務以及每個接觸點的體驗,與
客戶間建立更強的品牌黏著度
 組織核心價值的根本轉化,從根
良好的顧客體驗 顧客洞悉深層化
本開始探討目前提供的產品與服 組織人才資本化
Restless Talents Experience Actionable Insight
務,徹底審視並深入洞悉顧客,
重新定義價值主張,找出需要被
優化或是新增的環節點,最後建
立明確的策略以最有效的執行
精心策劃的生態系統 組織運作響應化
Orchestrated Ecosystem Responsive Operation

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 43/88
數位轉型在不同層面中的內容

營運模式 (Operational) 行銷與業務 (Sales & Marketing)


在生產鏈與服務鏈中提高產量與獲利性 精準鎖定客群並控制預算,提升效能效率
• 企業架構 • 數據科學
• 大數據架構 • 數位行銷
• 物聯網(IoT)的導入 • 客戶關係管理軟體
• 產業特定的數位科技結合 (Customer Relationship Management, CRM)
• 追蹤程式

輔助功能 (Support Function) 創新與研發 (Innovation and R&D)


調整輔助功能架構,降低開支並提升效能 更有根據與策略的更有意義的大量研發
• 整合第三方軟體 • 將研發方向建立於市場機制上
• 簡化各部門間的溝通渠道 • 加速消費者回饋、產品發想與設計時間
• 部份功能外包(委託專業平台供應商) • 鼓勵部門與部門之間的戰略溝通

資訊科技 (Information Technology)


重新審視並建構最能配合轉型的IT基礎建設,加速決策擬定,建立強大的分析能力,藉
此成為更為靈敏的組織

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 44/88
數位轉型時需兼顧的五大層面

組織與文化 人才與能力
• 水平與垂直的無磨擦溝通 硬實力(數據處理、管理、大數據分析)
• 跨部門的資源共享與合作 軟實力(適應能力、學習能力、同理心)
• 勇於實驗與測試的精神 • 對技術操作熟悉且持續精進的技術人才
• 靈敏的運作流程 • 具長遠視野的領導人才
• 以用戶為中心發展的設計思維 • 對數據靈敏的分析人才
與策略 • 對於客戶具同理心的服務與設計人才

科技與工具 數據生態系統管理 數位轉型策略


• 導入科技至不同的運營流 • 數據的獲取 • 明確定義價值主張
程,以驅動商業模式的更 • 數據的架構 • 商業分析、探勘價值
新及轉變 • 數據的治理 • 快速部署、頻繁測試
• 要對應用面與價值面進行 • Scaling & Killing
• 數據的應用
審視,維持整體建全發展 • 進一步的驅動數位發展
的平衡 • 持續變革管理、培養
數位文化與能力建立

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 45/88
數位轉型策略
 產品、服務、流程、想法的創新,都是數位轉型的一部份
 產品、服務的轉換
 透過數位科技,各個產業都有機會改良、發展出多元的智慧產品及服
務,讓生活變得更加便利
 例:AI醫療監控、行動支付、智慧路燈、物流無人機
 生產流程的轉換
 引入數位科技改變原本的生產流程,並連動更多內外部的資訊
 以大量高彈性客製化生產為目標
 透過遠端監控即可掌握生產流程概況,透過分析找出並解決問題
 例:資料儀錶板、智慧化訂單、智慧化機台
 生產思維的轉換
 打破思維框架的破壞式創新,建立新的商業模式
 社會透過協作來生產、共用以及管理分享∕共享經濟
 在邊際成本極低的社會中,數位化商品與服務將會趨近於免費,但取
而代之的是市場占有率與品牌黏著度的競爭
 例:共享經濟(共享交通工具)、雲端串流、應用軟體的訂閱式銷售
Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 46/88
數位轉型策略

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 47/88
數位轉型策略

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 48/88
為何要數位化
https://theme.ndc.gov.tw/lawout/LawContent.aspx?id=GL000198
文書及檔案管理電腦化作業規範(電子化作業、電子公文)
一、目的
(一)為提高文書製作品質、加速文書核擬效率、掌握文書處理流程、提升公文交換效
率、增進檔案管理效能、便利民眾申請應用,並建立文書檔案合一之電腦化標準作業
流程及共通準則,特訂定本規範。
(二)為達成節能減紙之目標,各機關文書及檔案管理相關作業,如文書製作、文書核
擬、流程管理、傳遞交換及檔案管理等,應建立全程電子化作業系統,明訂節能減紙
指標,邁向少紙化,並確保文書檔案依其保存年限維持可用性。
(三)為促進文書檔案由紙本作業轉為電子化作業,其原有作業程序得予簡化。

四、用詞定義
(十四)統合交換中心:指於電子交換架構中,實際擔負電子交換及集中管理
工作之層級,主要建構於主管部會或直轄市、縣(市)政府內,並統合相關
機關群組,形成管理架構集中之電子交換中心。此中心並做為集中交換管理
核心,針對所轄之交換機關,提供電子交換之管理服務;對外交換時,則為
分散式交換架構;訊息技術遵循ebXML交換標準。
(十五)自建交換中心:指部分機關自行委商建置之內部公文電子交換中心;
主要提供內部交換用,對外交換則需經由閘道交換。
Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 49/88
為何要數位化

(十六)電子檔案:指電腦可處理之文字或非文字資料,且符合檔案法及相關
法令規定等。
(十七)詮釋資料 (metadata):指用以描述檔案有關資料背景、內容、關聯性
及資料控制等相關資訊。
(十八)封裝檔:指將電子檔案與其詮釋資料及驗證檔案真實性、完整性之資
訊,以包裹方式儲存之檔案。
(十九)真實性(authenticity):指可鑑別與確保電子檔案產生、蒐集及修改
過程之合法性。
(二十)完整性(integrity):指電子檔案管理過程,應確保儲存電子檔案內容
、詮釋資料及儲存結構之完整。
(二十一)可及性(accessibility):指藉由電子檔案保存機制,配合法定保存
年限,維持電子檔案及其管理系統可供使用。

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 50/88
資料的來源

 資料來源繁複,內容多樣,這些資料有些是透過人類所產
生∕紀錄,有些則由機器所產生∕紀錄
 有些資料存放在政府機關或企業內部,一般人難以拜訪存取
 有些資料則屬於外部公開來源,所有人都可以自由存取
 也有透過學校研究機關建立的特定公開研究資料庫
 個人進行的研究調查與其公開分享資料內容也包含於其中

 透過將世界各地的節點串連在一起的網際網路,這些資料
的查詢與存取變得更為輕鬆
 但也因為資料的取得變得簡單,對於資料內容的可信度以及有效
度的確認也變得更為重要
 也因為資料的維度與數量都大幅增加,對於資料的驗證、梳理以
及過濾難度也隨之提升,需要靠各種輔助工具進行

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 51/88
資料的來源

 實體媒介資料
 最常見的就是圖書館或是博物館內的各式館藏,大多為紙本,也
包含各種文物、展示品、資料或影像光碟等內容
 對於資料的檢索與調查需要透過人工花費大量時間進行
 對於需要節錄的資料會需要透過複印、翻攝、抄錄等方式建立複
本,再以數位化方式進行匯整與處理
 通常會有是否允許建立複本或是否授權使用的問題
 即便收藏館方有針對保管的文物進行電子化數位建檔,通常還是
需要透過申請才能取得相關電子資料的閱覽與備份使用授權
 部份展示的實體文物已開始結合虛擬實境技術,將實體的三維掃
描形體結合表面影像重建為虛擬空間中的展示品,讓參觀者可以
透過VR或AR形式觀看,甚至與其互動

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 52/88
資料的來源

 企業∕機關單位資料
 企業或機關內部累積的資料,主要以資料庫 (Data Base)或是資料
倉儲 (Data warehouse)形式進行累積
 主要源自於企業或政府機關內的各種資訊系統
 包括銷售系統、人力資源管理系統、進銷庫存系統、顧客關係管理系
統、企業資源規劃系統、供應鏈管理系統和公開網站等
 目前政府機關單位逐漸開始推動資料公開、透明化的作業
 同質企業間也常透過共組策略聯盟的方式進行相關的資料共享,
以期共同提升產業發展

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 53/88
資料的來源

 雲端資料∕網路資料
 雲端∕網路資料的來源與種類都很多,舉凡網路文章、評論,各
類社群網站陳列的公開個人資料,個人∕企業網站的公開資料等
 引用網路資料時要注意資料授權或是該資料是否為可使用的公開
資料,以及是否有適當的去識別化以免侵犯個人資料隱私權等
 若是透過網路探勘的方式,透過程式自動的將網路使用者在網路
平台上留下的紀錄擷取下來加以分析時,同樣也要注意相關問題
 一般會將蒐集到的相關資料進行整理後轉換為統計資料基礎(原
始資料不公開),或是索取授權後再進行相關引用

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 54/88
資料的來源

 開放資料
 開放資料 (Open Data)主要源自科學界將研究資料公開給其他研
究者進行後續的研究的過程
 網際網路開始蓬勃發展後,貢獻者開始在網路上發表各式資料或
內容,更開始出現如維基百科這種基於社群的協作式寫作
 Wiki透過世界各地的貢獻者共同編撰或修改條目,並透過社群協助進
行維護與審查以避免惡意竄改,甚至能視為體現人類知識的網路系統
(Organization for Economic Co-operation and Development, OECD)
 經濟合作與發展組織的各會員國更簽署了共同聲明,明定會員國
當中,由公家機關出資所收集的資料,都必需被公開共享
 主要針對氣象、生態、經濟、地理等共同合作發展相關資料,不包含
軍事或其他牽涉國家事務的機密事項
 目前許多政府機關、非營利組織也都陸續在網路上針對特定的領
域公開各種資料,藉此交由公民與全體人類共同監管相關公共事
務或議題,協助共同進行維護環境、經濟、文化等共同議題

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 55/88
資料的來源

 物聯資料
 物聯網 (Internet of Things, IoT)技術的發展,讓研究者可透過各種
偵測裝置,紀錄各式各樣的資料,甚至讓這些感測裝置與設備結
合,透過持續對環境與設備狀態的監控完成研究或確保生產效率
 與物聯網相對應的科技應用與服務持續發展,再搭配人工智慧技
術演進,兩者結合而呈現的智慧物聯網 (Artificial Intelligence with
IoT, AIoT),使物聯網不僅能接收數據、設備聯網,更能藉由人工
智慧協助分析數據並輔助進行決策判斷,成為持續朝向萬物互聯
擴展的關鍵
 隨著AIoT的發展,除了針對環境與設備的資料收集外,更多了使
用者的使用數據與習慣的收集與分析的需求,將大數據分析成果
轉換成更貼近使用者習慣的服務,更可進一步地讓物聯網產品做
出更準確的預測及判斷,提升產品的智慧性與效能
 然而這部份相當容易不小心侵犯了使用者的隱私權外,更出現了若這
些隱私資料外洩所會造成的侵害問題

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 56/88
如何收集資料

 除了透過網路與開源資料庫進行資料的收集外,主要還是
透過實驗、觀察以及設置資料收集節點等方式來實現
 實驗式的收集資料的方式,就是設計一種統計實驗(試驗),根
據某些可以控制的因素的變化以得到關於這些因素對研究的變數
的影響的資訊。而將那些控制因素以外的條件保持不變,或將控
制因素以外的 其他因素的影響用隨機化的方法加以平衡抵消
 觀察性研究是在不對研究對象施加任何干預措施的情況下,通過
觀察或訪問的方法,客觀地記錄被研究事物的狀況,由於沒有干
預措施,也被稱為非實驗研究
 資料收集節點(資料收集器)則是透過環境感測器直接進行資料
採集,透過設定固定擷取時間間隔,定時量測並進行紀錄
 使用本地 (Local)存儲的離線式資料收集節點
 使用雲端 (Cloud)存儲的線上式資料收集節點
 混合式資料收集節點

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 57/88
如何收集資料

010110000111001011
1110101001010111…

雲端伺服器
Cloud Server

物聯網感測器 終端用戶設備
IoT Sensors Client Devices

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 58/88
如何收集資料

 資料採集器 (Data acquisition, DAQ),又稱監控儀表


 對測量真實世界物理條件的信號進行採樣,並將生成的樣本轉換
為可以由計算機操作的數字數值的設備
 主要組成元件包括有
 感測器:將物理參數轉換為電信號
 信號調變電路:將感測器信號轉換為可擷取的形式
 類比-數位轉換器 (A/D converter, ADC):
將調節後的感測器訊號轉為數值
 處理核心:負責控制裝置週邊進行量測處理,與電腦通訊以回傳資料
 通訊介面:MCU與電腦進行資料交換用的介面,常用USB或UART

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 59/88
如何收集資料

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 60/88
如何收集資料

 資料採集以往需要透過專用設備進行,近年因自造者活動盛行,
相關量測模組與微控制器設備蓬勃發展,已可自行選用需要的感
測模組或通訊模組,透過微控制器的整合式開發環境撰寫控制程
式,建構自組的資料收集器
 模組化的各種感測與致動模組,除了搭配基本的微控制器
組成小型嵌入式系統使用外,也能搭配目前各種小型低功
耗單板電腦進行應用
 將電腦的基本單元晶片化集成在單一電路板上,故稱之單板電腦
 大多採用開源的Linux作業系統,可進行各種複雜處理,甚至能直
接架設小型伺服器

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 61/88
如何收集資料

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 62/88
如何收集資料 http://www.janspace.com/b2evolution/arduino.php/2010/06/26/scooterputer

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 63/88
如何收集資料
資料採集與處理 數據資料庫 資料可視化

運算與分析
單板電腦 (SBC)
(Single Board Computer)

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 64/88
資料的整理

 每天的日常生活中,不論是各行各業的工作中,或是進行
各種活動時,都會接觸甚至產生數據
 這些數據來源多元化、種類繁多、數量龐大(大數據資料)
 為了正確解讀資料當中隱含的意義,從中轉化為有效率的決策或
是產生有價值的結果,便是進行大數據分析的主要目的
 然而有些資料是可視的,有些則是雜亂無章,或有可能是固定的
針對某項固定事物的大量追蹤紀錄
 因此在進行分析前,有必要先對資料進行整理

 對資料的整理,主要是為了篩選出有用且正確的資料再進
行存儲,一方面可節省存儲空間,一方面方便直接利用
 存儲前就先做好分類處理並區分為子資料叢集進行存儲,可在調
用資料時更快速的進行索引,或只直接存取需要的部份

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 65/88
資料的整理

 常見的資料整理∕數據整理(清洗與擴增)內容主要包括
 清除資料不合理部份
 辨識遺漏值、異常值
 剔除無效(有害∕異常)資料
 針對缺漏部份進行填補
 資料調整
 資料的正規化 (Normalization)∕標準化 (Standardization)
 資料維度轉換
 建構資料特徵(建立、新增與刪除)

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 66/88
資料的整理

 遺漏值
 針對量表類型資料源能直接確認缺漏(未作答)部份
 量測類型資料則可能是突然出現0又跳回與先前接近的量或是直接
出現無法辨識的數值(N/A),則此筆通常會當作遺漏值
 通常會使用前後資料的均值進行線性插補的填補作業
 過大或過小再跳回與先前接近的量,一般則是當作異常值處理
 數值資料能利用統計量(眾數插補、平均數插補或迴歸插補)協
助分析並進行資料填補;而類別資料就較難進行,一般不建議填
補而是直接紀錄缺漏
 若整筆資料當中缺漏值過多,則會視為無效資料排除

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 67/88
資料的整理

 異常值
 若能掌握資料類型與內容,決定出可能的值域範圍以及作答內容
的數據類型,則能藉此確認異常值的存在
 針對量表統計資料,評分選項僅1~5,但卻出現0(無作答)或6這種
超出範圍的數值;或是數值資料出現文字;又或是在複選項目中的互
斥項目同時出現的邏輯謬誤,這些都代表這項為異常值
 而包含這項作答的這筆資料(這個受測者的回答)有必要確認是否為
無效(有害∕異常)資料(單題誤填、單題無法作答或是整份量表亂
填),再確認是否整筆不採用(亂作答部份)
 若資料為連續的資料,若當中出現相較附近數字存在特別大的誤
差,則可以相對於整筆資料進行觀察並確認是否為異常值
 量測數據當中,突然出現瞬間拔升至高處或掉落至低處的急遽變化
(Peak)時,可能是受干擾或是量測錯誤所產生的異常值
 可依照量測目標是否會瞬間產生如此大幅動(如溫度不會急遽變化)
來判斷是否直接移除此異常值,或是透過均值濾波等方法重新整理整
筆資料,藉此抑制量測雜訊

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 68/88
資料的整理

 資料的篩選(刪除無效資料)
 會先透過檢查遺漏值跟異常值標記有疑慮資料
 針對遺漏值佔整體的百分比評估是否有需要刪除
 一般認為超過10%的資料有遺漏或是量表中有10%缺漏或未作答,將
會影響此份樣本的偏差,因此會予以剔除或是分開作剔除前後的統計
結果的比較,再確認結果是否有參考性
 針對異常值出現位置或異常內容進行評估
 若出現頻率(比例)不高,仍可計入使用
 有時會在量表內直接插入評估用問題(例如直接指示本題請選某值)
便可先透過篩檢該題是否異常來確認是否刪除資料
 也可透過信度與效度檢測評估是否保留

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 69/88
資料的整理

 在比較分析兩組數據資料時,可能會因單位的不同(身高
與體重),或數字大小的代表性不同(人數與比例),造
成各自變化的程度不一,進而影響統計分析的結果
 透過資料正規化 (Normalization)與資料標準化 (Standardization)
將將原始資料轉換成無因次 (Dimensionless)的純量後,再進行數
據的比較及分析
 除了能提升模型收斂速度(減少梯度下降法的收斂時間)外,還
能提高模型精準度(讓每個特徵值對結果做出相近程度的貢獻)
 資料的標準化,能將原始資料轉換成符合標準常態分佈的樣態
(平均值=0、標準差=1)
 資料的正規化則能將資料在保持原始的樣態下縮放入 [0,1] 區間中

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 70/88
特徵工程

 特徵工程的整個過程包括資料選取、前置處理、轉換、資
料分析及解釋與評估等,可切分為以下步驟
 去除雜訊與不一致的資料 (Data Cleaning)
 整合不同來源的資料 (Data Integration)
 挑選出與分析內容相關的資料 (Data Selection)
 將資料轉換成適當的格式 (Data Transformation)
 以特定演算方式找出規則∕模式 (Data Mining)
 確定規則∕模式的有用性 (Pattern Evaluation)
 進行視覺化呈現 (Knowledge Presentation)

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 71/88
特徵工程

 因資料量、屬性與維度急遽的增加,得以大量的收集及儲
存資料,建立大數據之海
 但僅僅進行累積的大量資料不僅佔用儲存空間,也無法直接產生
或增加價值,因此需要進行資料分析與萃取
 資料採礦 (Data Mining)便是近年快速發展,用以找出隱藏在資料
中的趨勢特徵及相關性的技術,能由以存在的資料中挖掘出新的
事實及發現專家尚且不知的新關係
 資料採礦是為要發現出有意義的樣型或規則,而從大量資料之中以自
動或是半自動的方式來探索和分析資料,藉此選定資料中有效的,新
的,可能有用的並且最終能被模式化的資料的過程
 資料探勘又常被稱做在資料庫中挖掘知識(knowledge mining from
databases) 、 知 識 萃 取 (knowledge extraction) 、 資 料 規 則 分 析
(data/pattern analysis)、資料考古學(data archaeology)、資料採集
(data dredging)等

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 72/88
特徵工程

 特徵萃取 (Feature extraction)


 特徵提取是從一個初始的資料集合開始,從中建構出富含資訊性
而且不冗餘的導出值的過程
 特徵提取是處理變數組合並維持資料充足的準確性的資料整理手段
 特徵提取是一個降低維度的步驟,初始的資料集合被降到更容易
管理的族群(特徵)以便進行分析,但同時又能保持描述原始資
料集的精準性與完整性
 在針對較為複雜、資訊量較大的影像資料的處理,更是有著許多專門
的特徵萃取的演算法,發展出計算機圖學與影像處理等學科
 對萃取後的子資料集的分析,通常會再針對分析命題進行特徵選
取,以排除不相關、多餘或高度相關的特徵
 若取出的資料特徵屬於定性資料,可能還會需要另外進行資料編
碼的動作(給與相應數值以利進行處理與分析)

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 73/88
特徵工程

 資料維度轉換
 針對大量、高維度(多特徵)的大數據資料,可以透過降維降低
模型的計算量並減少模型執行時間,也能降低噪音變數資訊對於
模型結果的影響(但不是所有的高維資料都需要進行資料降維)
 也能透過維度變數代表的物件∕意義之間的關連性將其結構化,
整理為容易理解與分析的關聯性階層式多維度矩陣∕資料表
 在網站分析與數位行銷當中尤其常用線上分析處理(OLAP)∕多維度
分析(MDA)來產生關聯式資料庫,以協助進行分析並有效減少冗餘重
複資料,常應用於商業智慧(BI)當中
 會將原始資料解析為數個透過不同索引維度
組成的資料方塊(Cube),以利進行檢視分析
 關聯資料庫則會透過將累積資訊彙整以建立
事實資料表 (Fact Table),再透過維度結構
與索引鍵 (Key)建立多個與其關聯的維度資
料表 (Dimension Table),並以不同結構連
接,同時移除同質性冗餘資料

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 74/88
特徵工程

 基於特徵選擇的資料降維
 經驗法則:
基於經驗對資料的基本特徵以及對後期資料處理和建模的影響來
選擇或排除維度
 測試演算:
通過不斷測試多種維度的選擇參與計算,通過結果來反覆驗證和
調整並最終找到要保留的最佳特徵
 統計分析:
通過相關性分析不同維度間的線性相關性,在相關性高的維度中
進行人工去除或者篩選
 機器學習:
通過演算法得到不同特徵的特徵值或權重,然後再根據權重來選
擇較大的特徵,保留了原有維度特徵的基礎上進行降維

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 75/88
特徵工程

 基於維度變換的資料降維
 主成分分析 (PCA)
 獨立成分分析 (ICA)
 因子分析 (FA)
 線性判別分析 (LDA)
 核主成分分析 (Kernel PCA)
 將給定的一組相關變數通過數學模型將高維空間的資料點對映到低緯
度空間中,然後利用對映後變數的特徵來表示原有變數的總體特徵
 主要分為線性降維與非線性降維兩類
 多維度分析 (MDA)

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 76/88
特徵工程

 多維度分析 (Multi-Dimensional Analysis, MDA)


 主要應用在關聯式資料庫當中,有利於提升資料查詢、匯總作業
的效能,又能提供利於分析的多種面向的檢視
 首先將所有資料反正規化 (Denormalization),建立將所有資料欄未匯
整於其中的大資料表(事實資料表 (Fact Table))
 透過正規化可簡化資料量並減少不必要的更新,相對的查詢緩慢
 透過反正規化可合併複雜的資料結構且改善效能,但可能造成資料重複
與資料更新異常(更新時會有大量空缺須跳過)
 接著再透過多層次結構的維度表示,在多重維度的交集處產生資料點
,並將相應的資料值賦與該點,形成多維(三維)的資料方塊
(Cube)
 最後再從資料方塊中建立相應的維度資料表 (Dimension Table)與相
應主要索引鍵 (Primary Key)、屬性 (Attribute)(唯一且不重複,用來
描述此物件的敘述性欄位)
 各個維度資料表透過索引鍵與事實資料表相連,並以事實資料表為中
心,呈現向外擴張的星形結構或雪花結構

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 77/88
特徵工程
時間
第一季
帳戶 一月 二月 三月 第一季
預算 實際 預算 實際 預算 實際 預算 實際
銷售額 300 350 300 325 325 325 925 1000
COGS 175 185 175 175 185 190 535 550
毛利 125 165 125 150 140 135 390 450
毛利率 42 47 42 46 43 42 42 45
維度資料表
(Dimensional
Table)
維度資料表
(Dimensional
Table)
維度資料表 維度資料表 事實資料表 維度資料表
(Dimensional (Dimensional (Dimensional
Table) Table) (Fact Table) Table)
維度資料表
(Dimensional
Table)
維度資料表 事實資料表 維度資料表 維度資料表
(Dimensional (Dimensional (Dimensional
Table) (Fact Table) Table) Table)

維度資料表 維度資料表 維度資料表 維度資料表


(Dimensional (Dimensional (Dimensional (Dimensional
Table) Table) Table) Table)

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 78/88
如何存儲資料

 資料儲存是利用資訊科技,將您每天生活所需大大小小的
數位資料予以存檔、組織和共享的過程,從應用程式到網
路協定、文件到媒體、通訊錄到使用者偏好等,是大數據
分析的核心元素之一
 數位化的資料主要透過將二進制的數位電磁資料(電荷的
有無)轉換為儲存單元狀態(磁性物質的極性∕染料層被
蝕刻的深淺∕電晶體內的電子數量或導通效果)的存儲
 資料寫入與讀取時的對應位址∕位置,則是透過系統進行
紀錄、定址、資料分割與分配叢集等管理動作
 根據資料類型、使用頻率以及處理排程,將其分配至不同
空間或不同媒介長期存儲或暫存

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 79/88
如何存儲資料

 資料的儲存,已由本機存儲、行動存儲,演進至連結網路
並由軟體來管理(包括虛擬化軟體、儲存管理等軟體定義
儲存(SDS)技術,將軟體與硬體分離以任意進行搭配)
 虛擬化技術主要執行包括網路、資源集中、使用者介面、配置能
力,以及自動資源控管∕分配等工作,需要額外的管理和作業系
統與自動化軟體來建立介面、進行監控、分配資源
 雲端存儲則是基於虛擬化技術的基礎,分離硬體框架後提供相關
服務,基礎硬體與管理、作業系統軟體由服務商管理,不影響使
用者接受服務
 雲端運算則是以雲端存儲加上演算伺服器以及相關附加功能,協
助使用者由遠端伺服器進行分析與運算直接獲得結果

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 80/88
如何存儲資料

 儲存虛擬化能增進儲存系統的效能,目前主要的挑戰在於
如何有一個能夠進行整合儲存硬體、軟體與網路的開放標
準與架構
 而虛擬主機技術則是將實體硬體資源(主體)透過建立虛
擬機器(VM)(客體),並將主體的運算資源(如 CPU、
記憶體和儲存空間等)當作可重新分配的資源庫,讓不同
讓客體可依需求動態獲得所需資源
 儲存虛擬化、虛擬主機再搭配上低延遲的網路,讓服務商
不再只提供存儲服務,而開始配合雲端運算技術推出各項
便利的數位服務,讓數據的應用更加方便

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 81/88
如何存儲資料
 網路儲存技術採用包括光纖通道、磁碟陣列、磁帶櫃、光
碟櫃的各種技術進行實體存儲,再透過管理系統與軟體配
合虛擬化技術進行使用
 儲存區域網路 (Storage Area Network, SAN)
 連接到伺服器的儲存裝置,將被作業系統視為直接連接的儲存裝置
 不包含快取同步的共享機制,使用上有可能會造成資料遺失
 網路附加儲存 (Network Attached Storage, NAS)
 透過只提供只提供了資料儲存、資料存取、以及相關管理功能的作業
系統與軟體,提供異質網路使用者的集中式資料存儲
 使用基於檔案的通信協定,請求存取的是抽象檔案的一段內容而非指
定的儲存裝置上的存取位址
 可看作雲端存儲中的私有雲
 雲端儲存 (Cloud Storage)
 儲存空間利用管理和自動化軟體來虛擬化和調度後,透過網路將資料
上傳至資料伺服器
 資料伺服器中的資源分配並非定額,而是依需求動態管理

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 82/88
如何存儲資料

 檔案儲存
 負責編排並重現資料給使用者,可由上至下的分層檔案目錄處理資
料,通常配合NAS使用
 利用特定的數據傳輸協定與區塊化的儲存系統進行通訊,資料會以
與用戶端(電腦)所見完全相同的樣式呈現(僅可見)
 使用便利但可能有路徑累積過長、耗費資源、缺乏效率等問題

 區塊儲存
 將資料分解成固定大小的資料區塊,每個區塊都擁有獨特的標識符
,需建立區塊表供檢索,可存儲在任意地方,將資料與其儲存環境
脫鉤
 每個區塊都各自獨立,享有完整的配置能力,可使用本身的數據傳
輸協定和作業系統來進行格式化
 無須像檔案系統額外處理搜尋、索引或啟動應用程式
 存儲速度快,配置靈活,因此常作為原始伺服器儲存或媒體資料庫

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 83/88
如何存儲資料

 物件儲存 (Object-based Storage)


 資料以稱為「物件」的分散單位儲存,可配合分散式系統儲存在
任何地方並進行應用,屬於扁平式的應用架構,利於大規模存取
 物件中包含資料以及與其配對的中繼資料 (metadata)
 記敘性資料
 描述用於發現與辨別意義的資源,如標題、摘要、作者和關鍵字等
 結構性資料
 描述關於資料容器內容,指示如何整理其中複合的物件,如頁面依甚
麼排序方式組成章節
 管理性資料
 描述關於管理資源的資訊,如資料產生的時間和方式、檔案種類、存
取權限和其它技術資訊

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 84/88
資料安全
 資料安全的防禦範疇並不僅只於網路,存儲本身的完整性
以及資料備份等也是重要課題,尤其資料本身的價值日趨
重要,防範資料損害也必須從各個面向來探討

 以儲存為主的安全防護可以從兩方面來討論
 如何確保資料的可靠性與可用性
 選用適當儲存媒介,確保儲存環境符合需求,降低人為因素干擾
 適當維護與使用,以延長儲存媒介的壽命
 配合需求與媒介的儲存規劃,資料轉移與建立備份
 建立異地備份
 資料存放過程的生命周期與機密防護
 實體媒介或裝置的搬運、轉移以及存儲管理
 數位資料加密、完整存取紀錄、儲存媒介與電子設備的追蹤管理
 通訊傳輸加密、網路資訊安全的管理與防駭
 資料銷毀內部流程化、建立標準管理與處理步驟,以避免資料外洩

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 85/88
問題探討

 名詞解釋
Glossary

 請解釋資料與資訊的差別
What’s the difference between “data” and “information”?

 符號、資料、資訊、知識與智慧之間的關聯
Relationships between symbols, data, information, knowledge and
intelligence.

 廣義的資料的分類(類別)
Classification of “data”.

 資料的數位化與數碼化(技術數位化)
What’s digitization and digitalization?

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 86/88
問題探討

 資料處理的基本作業
Operations of data processing.

 資料的數位化有哪些優點
Why digitize (digitization)?

 什麼是嵌入式系統?
What’s embedded systems?

 什麼是物聯網?
What’s internet of things (IoT)?

 請列舉物聯網技術的三層架構∕五層架構
Please list the three-layer / five-layer architecture of IoT.

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 87/88
問題探討

 數位轉型的六項內容∕轉型時要注意的五大層面
Six contents of digital transformation.
Five aspects needs to pay attention to when DX.

 請列舉五項資料來源
Please list five different data sources.

 試說明資料整理的內容
Please explain about the collation of data

 特徵工程的步驟
Steps of feature engineering.

 資料存儲技術與儲存架構
Data storage technology and storage architecture

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology 88/88
Q&A

Department of Refrigeration and Air Conditioning and Energy Engineering, National Chin Yi University of Technology

You might also like