Professional Documents
Culture Documents
Kci Fi002710300
Kci Fi002710300
https://doi.org/10.37727/jkdas.2021.23.2.553
요약
최근 많은 국가통계기관에서 소매점의 거래 정보를 담은 스캐너 자료 를 활용하여 (scanner data)
소비자물가지수와 같은 다양한 통계 지수를 산출하는 연구를 활발하게 하고 있다 일반적으로 .
이러한 통계 수치들은 국가의 정책을 결정하는 데 중요한 정보를 제공하기 때문에 만약 자료의 ,
이상점을 탐지하지 못해 각종 지수를 잘못 산정한다면 큰 혼란을 야기하게 된다 따라서 스캐너 . ,
자료의 이상점 탐지는 매우 중요한 연구주제 중 하나이다 기존에는 스캐너 자료에 대한 이상점 .
을 탐지하기 위해서 가격변화율의 정보만 사용하였는데 스캐너 자료는 가격변화율 이외에도 판 ,
매량이나 소매점 형태 등에 관한 다양한 정보를 포함하고 있다 이에 은 스캐너 . Kim et al.(2020)
자료에 대한 이상점 탐지방법으로 다른 정보를 활용할 수 있는 새로운 방법을 제안하였다 즉 . ,
품목의 거래량을 공변량으로 하여 가격 변화율의 분산을 추정하고 이를 이용하여 이상점을 탐 ,
지하는 방법을 제안하였다 하지만 실제로 가격 변화율의 분산이 거래량에 따라 달라진다는 가
.
정이 성립하는가에 대한 엄밀한 논의가 없어 본 연구에서는 순열검정 절차를 고안하여 거래량 ,
에 관한 가격변화율 분산의 동질성을 검정할 수 있는 간단한 절차를 제안하였다 또한 대한상공 . ,
회의소에서 수집한 스캐너 자료에 적용해 실제로 거래 가격 분산이 거래량에 따라 달라지는지
적용해 보았다 .
1. 서론
스캐너 자료는 소매점에서 소비자와의 거래가 발생할 때 바코드 리더 등의 전자판독기를 이용
해 수집되는 자료로 품명 금액 수량 거래 시점뿐 아니라 제조업체 용량이나 무게 등 상세한 정
, , , , ,
보를 담고 있으며 자료라고도 한다 영국 일본과 같은 국가는 스캐너 자료의
, POS(Point of Sales) . ,
활용을 위한 연구를 진행 중이고 노르웨이 스위스 스웨 (Bhardwaj et al., 2017; Abe, Tonogi, 2010), , ,
덴 호주 등 주요국 통계작성 기관은 이미 스캐너 자료를 물가지수 작성에 활용하고 있다
, (Mayhew,
고 알려져 있다 또한 스캐너 자료는 소매업체의 거래에 대한 정보들을 포함하고 있기 때문
2017) . ,
2. 모형과 절차
2.1. 자료소개
이 절에서는 스캐너 자료로부터 거래량에 관한 가격변화율의 분산 동질성 검정에 사용할 데이
터를 소개하기로 한다 먼저 어떤 품목이 시점에서 거래된 단위가격이 거래량이 라 하면
. , ,
. ,
⋯
이라 정의하자 가격 변화율 를 모니터링하면서 갑작스러운 할인 또는 상승이 있는 시점의 거래
. ,
오른쪽 꼬리의 이상점에 대해서는 민감하게 왼쪽 꼬리의 이상점에 대해서는 둔감하게 반응하는
,
문제가 있다 이와 같은 가면 효과는 일반적으로 데이터를 자연로그 변환을 이용해 문
(Rais, 2008).
스캐너 자료에서 거래량에 관한 가격 변화율 분산의 동질성 검정 555
제를 해결할 수 있다고 알려져 있다 ï 이에 시점
(Sa di, Rubin-Bleuer, 2005; Thompson, Sigman, 1999).
의 가격변화율에 자연로그변환을 한 로그 가격변화율 log ⋯ 을 모니터링 하
는 것이 거래가격의 이상여부를 판단하는데 좀 더 합리적인 것을 알 수 있다 본 연구에서는 의
, .
, , .
2.2. 모형
, . ,
. (1)
는 절차를 제안하고자 한다 .
2.3. 순열검정 절차
log log
T log
(4)
log log
log log log log log log
556 김영래, 임요한, 이성임
정한다 .
arg min
. (5)
이때 ,
∈ ⋯ ,
n
log
log yt log
x t x t log log y log
t
t (6)
각 반복 에 대해 ,
바뀐 자료를 ⋯ 라 한다 .
단계 수식 에서 구한 통계량 T의 값이 보다 크면 귀무가설 를
6. (2) ,
기각한다 .
스캐너 자료에서 거래량에 관한 가격 변화율 분산의 동질성 검정 557
위 절차는 귀무가설 에 대한 유의수준 검정법으로 가격 변화율의 분산이
,
3. 예제 스캐너 자료에의 응용
:
스캐너 자료 소개
3.1.
부르기로 한다 .
탐색적 분석
3.2.
Figure 1. A plot of log versus , sales volume at time . The solid line indicates the estimates of the
variance of log(price ratio) from local polynomial regression, and the dotted lines show the 99% confidence interval.
558 김영래, 임요한, 이성임
시점의 거래량 가 커질수록 로그 가격 변화율 의 분산이 작아지는 경향을 갖고 있으며
(Figure
Figure 2. A plot of log versus , sales volume at time . The solid line indicates the estimates of the
variance of log(price ratio) from local polynomial regression, and the dotted lines show the 99% confidence interval.
순열검정 결과
3.3.
Figure 3. Reference distribution for test statistic . The solid line shows the 95th percentile of , and the dotted
line the observed value from the data
과 유의한 관계가 있을 것으로 생각하여 본 논문에서 제안한 순열검정 절차를 이용해 확인해 보
,
스캐너 자료에서 거래량에 관한 가격 변화율 분산의 동질성 검정 559
고자 한다 절의 순열검정 절차를 적용하기 위해 검정통계량의 표본분포를 생성하기 위한 반복
. 2.3 ,
경우 과
Figure 1 에서 알 수 있듯이 거래량이 비교적 일정한 품목이어서 검정 통계량의 값
Figure 2
4. 결론
본 연구에서는 스캐너 자료로부터 거래량을 활용한 가격 변화율의 이상점 탐지를 수행함에 있
어 가격 변화율의 산포가 거래량에 의존한다는 가정을 검토하기 위한 분산의 동질성 검정 절차를
,
제안하고 이를 실제 문제에 적용해 보았다 기존의 연구에서는 가정에 대한 엄밀한 검토가 없었기
, .
때문에 본 논문의 연구결과는 거래량을 활용한 이상점 탐지방법의 타당성을 검토하는 데 도움을
,
References
Abe, N., Tonogi, A. (2010). Micro and macro price dynamics in daily data, Journal of Monetary Economics, 57(6),
716-728. DOI: https://doi.org/10.1016/j.jmoneco.2010.05.016
Bhardwaj, H., Flower, T., Lee, P., Mayhew, M. (2017). Research indices using web scraped price data, Office for
Natioal Statistics.
Bradley, R. (1997). Potential benefits from the use of scanner data in the construction of the CPI, ASA Proceedings.
Cho, Y., Lee, S. (2014), A performance comparison study of Hotelling’s T and PCA-based control charts in phase
II monitoring, Journal of the Korean Data Analysis Society, 16(5), 2469-2480. (in Korean).
Han, M. Jei, S. (2020). A study of the household expenditure by household size, Journal of the Korean Data
Analysis Society, 22(3), 1265-1281. (in Korean). DOI: https://doi.org/10.37727/jkdas.2020.22.3.1265
Jacobs, D., Perera, D., Williams, T. (2014). Inflation and the cost of living, RBA Bulletin, March, 33-46.
Kim, Y., Kim, S., Lim, J., Lee, S., Son, W., Hwang, H. (2020). Covariate-dependent control limits for the detection
of abnormal price changes in scanner data, Applied Stochastic Models in Business and Industry, 36(5),
783-794. DOI: https://doi.org/10.1002/asmb.2529
Mayhew, M. (2017). A comparison of index number methodology used on UK web scraped price data, ONS
methodology working paper series, 12.
Park, D., Kang, H., Han, S., Choi, H. (2013). Comparison study of outlier detection methods in a regression model,
Journal of the Korean Data Analysis Society, 15(1), 177-186. (in Korean).
Park, H. (2020). Dynamic effect of cigarette tax reform using scanner data, Journal of the Korean Data Analysis
Society, 22(2), 619-630. (in Korean). DOI: https://doi.org/10.37727/jkdas.2020.22.2.619
Rais, S. (2008). Outlier detection for statistics canada’s consumer price index, Business Survey Methods Division
560 김영래, 임요한, 이성임
Statistics Canada.
ï
Sa di, A., Rubin-Bleuer, S. (2005). Detection of outliers in the Canadian consumer price index, Business Survey
Methods Division Statistics Canada.
Seo, H., Yoon, M. (2010). Outlier detection methods using augmented partial residual plots in a partially linear
model, Journal of the Korean Data Analysis Society, 12(2), 1125-1133. (in Korean).
Thompson, K., Sigman, S. (1999). Statistical methods for developing ratio edit tolerances for economic data, Journal
of Official Statistics, 15(4).
스캐너 자료에서 거래량에 관한 가격 변화율 분산의 동질성 검정 561
1 2 32
Youngrae Kim , Johan Lim , Sungim Lee
Abstract
*
This work was supported by the National Research Foundation of Korea(NRF) grant funded by the
Korea government (MSIT) (No.2019R1A2C1003257).
1
08826 1, Gwanak-ro, Gwanak-gu, Seoul. Department of Statistics, Seoul National University, Ph.D.
student. E-mail : kyr0302@gmail.com
2
08826 1, Gwanak-ro, Gwanak-gu, Seoul. Department of Statistics, Seoul National University, Professor.
E-mail : johanlim@snu.ac.kr
3
(Corresponding Author) 16890 152, Jukjeon-ro, Suji-gu, Yongin-si, Gyeonggi-do. Department of Statistics,
Dankook University, Professor. E-mail : silee@dankook.ac.kr
[Received 30 January 2021; Revised 2 February 2021, 19 February 2021; Accepted 22 February 2021]