You are on page 1of 4

고장 패턴 추출을 위한 Dynamic time segment 기반의 다변량 이산화 기법

Multivariate discretization via dynamic time segment for fault pattern extraction

백수정, 백운상 김덕영

{sjbaek, wsbaek, dykim}@unist.ac.kr

Abstract 데이터에서 시스템의 상태를 정확하게 설명할

데이터 이산화 기법은 의미 있는 패턴들을 수 있는 패턴을 추출하는 것은 쉽지 않기

최대한 유지하면서 데이터의 양을 줄이는 때문에, 의미 있는 센서 데이터의 변화 등을

방법으로써, 패턴 추출, Trend 분석 등을 위한 찾기 위해서는 시스템에서 수집된 센서

전처리 기법으로 많이 사용되었다. 이산화 데이터에 적절한 전처리 과정이 필요하다 [2].

기법을 수행하는 데 있어 일반적으로 Fixed 데이터 이산화 기법(Discretization)이


time segment를 많이 활용하나 이와 같은 경우 데이터의 유의한 변동들을 유지하면서
고정된 길이의 Time segment으로 인해 Time 데이터의 양을 줄이는 방법으로 고장 패턴
series내의 의미 있는 패턴들이 끊어져 손실될 추출을 위한 전처리 기법으로 많이 사용되어
확률이 매우 크다. 그러므로 본 연구에서는 왔다. 그 중 다변량 데이터 이산화 기법은
Amplitude의 변화에 따른 Dynamic time 수집된 센서 데이터뿐만 아니라 데이터가
segment를 고려하였다. 자동차 가솔린 엔진의 수집에 관한 시간정보 역시 변환되며, Fixed
고장 패턴을 분석할 결과 Labelling에 관련된 time segment를 활용하여 같은 길이의 시간
파라미터는 유의한 효과를 보였으나, Dynamic 구간 정보로 변환하는 것이 일반적으로 가장
time segment에서는 통계적으로 유의함을 간단한 방법이다. 그러나 Fixed time segment로
발견할 수 없었다. 진행할 경우 고정된 길이로 인해 의미 있는
데이터의 변동을 추출하지 못하거나, 데이터의
변동이 원본과 다르게 추출될 수도 있다 [3].
1. 서론
그러므로 본 논문의 목표는 여러
가지 Dynamic time segment 중, Amplitude의
데이터 기반 고장 감지 기법이란 시스템의 변화에 따라 Time segment의 길이를 조절하는
상태를 잘 설명할 수 있는 센서 데이터들을 기법을 적용하여 고장 패턴을 추출하는
이용하여 현재 시스템의 고장 여부를 것이다. 또한 고안된 기법의 성능을
판별하는 방법을 의미한다 [1]. 데이터 기반의 평가하고자, 자동차 고장 시뮬레이터에서
고장 감지 기법 중 시스템의 비정상적인 수집된 센서 데이터를 활용하였으며, 민감도
상태와 관련된 패턴을 추출하여 이를 분석을 통해 다변량 이산화 기법을
시스템의 상태 예측을 위해 사용하는 기법을 수행하는데 있어서 필요한 파라미터들의
고장 패턴 추출 기법이라 한다. 원본 센서 유의성을 평가하였다.

1751
2. 관련 연구 Step 3. 추가 Time segment(ΔW) 내의 신호의
평균을 계산한다.

Fixed time segment를 이용하여 이산화 기법은 Step 4.1 W0와 ΔW의 평균값이 데이터
고정된 Time segment 길이에 맞추어 전체 Amplitude 축의 같은 구간에 존재한다면 𝑊0 +
데이터를 유한한 구간의 데이터로 변환하는 ∆𝑊를 W0로 변환한 후 Step 3를 진행한다.
방법이다. 이는 매우 간단한 방법인 반면 Step 4.2 두 평균 값이 다르다면, 현재까지
사전에 정해진 Time segment의 길이에 영향을 W0까지를 이산화한 후 Step 2부터 재 시행한다.
많이 받고 고정된 길이로 의해 원본 데이터의
Multivariate time series에 본 기법을
변동을 놓치거나 다르게 해석할 수 있다 [3].
적용하게 될 경우 각각의 센서 데이터에 따라
Sliding window를 이용한 Time 다른 Time segment set을 가지고 있어 Sensor
segmentation 기법은 이러한 문제를 해결하기 fusion을 진행하는 데 있어 어려움이 발생한다.
위한 방법 중 하나로써 Time segment 내의 그러므로 본 논문에서는 이를 간단하게
최신 데이터가 다음 Time segment에 중복되어 해결하고자, Multivariate time series에서 발생한
이산화 기법을 수행한다 [4]. 본 방법의 경우 모든 Time segment sets의 합집합을 이용하여
Time segment에 의해 끊어져 데이터 내의 최종 Time segmentation 결과로 사용하였다.
패턴이 손실될 확률은 낮으나, 연산할
데이터의 양이 많아지는 단점이 있다.
3.2 고장 패턴 추출 결과
Dynamic time segment의 경우
기본(최소) Time segment를 기반으로 시작하여 최종 성능에 영향을 미치는 네 가지 이산화
Growing time segment만큼 점점 Time segment의 파라미터의 값을 아래의 Table 1과 같이
길이를 사용자가 정의한 기준까지 늘려나가는 다르게 설정하여 고장 패턴 추출 성능을 비교
방법이다 [5]. Dynamic time segment를 사용할 분석하였다. 다변량 이산화 기법 및 고장 패턴
경우 데이터 내의 패턴이 Time segment에 의해 추출 과정에 의해 도출되는 결론은 확정적
끊어질 확률이 낮으면서 Sliding window (Deterministic) 수치이므로 반복 실험을
기법에 비해 연산할 데이터 양이 비교적 적다. 진행하지는 않았다.

Table 1 Discretization parameter levels for sensitivity


3. Dynamic time segmentation 및 분석 결과 analysis
Discretization
Levels
parameters
3.1 Dynamic time segmentation 기법 Δw [1 2 5 10]
b [3 5 7]
본 연구에서 적용한 Dynamic time segment는
bw [10 20 30 40 50 60 70 80 90]
Amplitude의 변화에 따라 Time segment의 linearT [True False]
크기를 증감하는 방법으로 아래와 같은
방법에 따라 진행된다.
그 결과 Table 2와 같이 6가지
Step 1. 하나의 센서 데이터에 대해 Estimation
파라미터 조합을 설정할 경우 총 50개의 고장
of probability distribution 기법을 이용하여
상태에서 46개의 동일한 고장 패턴을 발견할
데이터 Amplitude 축의 구간을 나눈다 [6].
수 있었다. 반면에 Table 3과 같은 조건의
Step 2. 기본 Time segment(W0) 내의 신호의 경우에는 50개의 고장 중에서 하나의 고장
평균을 계산한다. 패턴조차 찾을 수 없었다. 이는 다시 말해
고장 상태에서의 센서 데이터의 변동이 정상

1752
상태에서도 모두 발견되었음을 의미한다. 민감도 분석 결과를 정량적으로
평가하기 위하여 Kolmogorov-Smirnov (KS)
다변량 이산화 기법을 응용한
거리를 측정하였다 [7]. 그 결과 Bin width
파라미터 중 Bin width threshold의 경우 고장
threshold는 고장 패턴 추출에 가장 민감하게
패턴 추출의 결과가 좋은 경우와 나쁜 경우,
영향을 미치는 반면, Δw 는 유의한 영향을
모두에서 뚜렷하게 차이가 나는 양상을
미치지 않았다.
보였다. Bin width threshold를 80%로 설정할
경우 고장 패턴에 도움을 주었으나, 10% 또는 Table 4 KS distance obtained by MPSA method
90%로 설정할 경우 오히려 부정적인 영향을 Discretization
Δw b bw linearT
미쳤다. parameters

Table 2 Discretization parameter levels which KS distance 0.03 0.31 0.67 0.08
produces an acceptable/good performance
(acceptable performance ≥80%)
4. 결론
Δw b bw linearT
1 3, 5, 7 80 False
2 3, 5, 7 80 False 본 연구에서는 고장 패턴 추출을 위해서
5 5, 7 80 False Amplitude의 변화에 따라 Time segment의
10 3, 5, 7 80 False 길이를 조정하는 Dynamic time segment를
이용한 다변량 이산화 기법을 적용하였다. 그
Table 3 Discretization parameter levels which
produces a worst performance (worst 결과, 고장 패턴 추출에 Dynamic time
performance ≤ 5%) segment의 길이는 통계적으로 유의한 영향을
미치지 않은 반면, Labelling에 영향을 미치는
Δw b bw linearT
파라미터는 패턴 추출에 민감하게 작용하였다.
1 3 10, 20, 30 False
그러므로 본 연구에서 고안된 기법을 사용할
2 3 10, 20 False 경우, Time segmentation보다 Labelling이 최종
10 3 60 False 고장 패턴 추출에 더 유의한 영향을 미치고
1, 2, 5, 10 3, 5, 7 90 False 있음을 확인하였다.

그러나, 본 연구에서 사용된 데이터와


달리 신호의 Amplitude의 변동이 고장 상태에
3.3 파라미터 민감도 분석 결과 연관이 있지 않을 경우 본 연구에서 제안한
효과적인 고장 패턴 추출을 위한 이산화 방법이 통계적으로 유의하지 않을 수 있다.
파라미터 설정을 위해서 Multi Parametric 그러므로 추가적인 데이터를 확보하여 향후
Sensitivity Analysis (MPSA)를 활용하여 추가 연구가 필요하다.
추가적인 파라미터 민감도 분석을 수행하였다.
MPSA는 모델에 영향을 미치는 파라미터들의
감사의 글
상대적 유의성/중요성을 평가하기 위해
고안된 방법이다. 기존의 MPSA 기법은
파라미터 값으로 균일 분포(Uniform 본 연구과제는 “2015 년도 미래창조과학부
distribution)에서부터 통계적으로 유의한 양의 (1 세부) 사물인터넷 제조융합 테스트베드
독립적인 랜덤 변수를 생성한다. 그러나 본 구축 (B03641510030004003)” 과제의 지원을
연구에서는 사전에 미리 설정된 값을 받아 수행된 것임.
사용하였다.

1753
참고 문헌

[1] 백수정, 김덕영. (2015). "Sampling rate의


다차원 이산화 기법을 응용한 고장 감지
성능에 미치는 영향 분석."
대한산업공학회 춘계학술대회 논문집.
1905-1910.
[2] V. Venkatasubramanian, R. Rengaswamy, S.
Kavuri, and K. Yin. (2003). "A review of process
fault detection and diagnosis: Part III: Process
history based methods." Computers & Chemical
Engineering. 27(3). 327-346.
[3] T. Fu. "A review on time series data mining."
Engineering Applications of Artificial
Intelligence. 24(1). 164-181.
[4] U. Rebbapragada, P. Protopapas, C. Brodley, and
C. Alcock. (2009). "Finding anomalous periodic
time series." Machine Learning. 74(3). 281-313.
[5] U. Appel and A. Brandt. (1983). "Adaptive
Sequential Segmentation of Piecewise
Stationary Time Series." Information Sciences.
29(1). 27-56.

[6] 백수정, 이양지, 김덕영. (2012).


"고장원인분석을 위한 지능형 이산화
기법." 대한산업공학회 추계학술대회
논문집. 581-585.

[7] C. Tiemann, J. Vanlier, M. Oosterveer, A. Groen,


P. Hilbers, and N. Riel. (2013). "Parameter
trajectory analysis to identify treatment effects
of pharmacological interventions." PLOS
Computational Biology. 9(8). 1-15.

1754

You might also like