You are on page 1of 9

Journal of the Korean Data Analysis Society (April 2021), 23(2), 553-561.

https://doi.org/10.37727/jkdas.2021.23.2.553

스캐너 자료에서 거래량에 관한 가격 변화율 분산의 동질성 검정 *

김영래 임요한 이성임


1
,
2
,
31

요약
최근 많은 국가통계기관에서 소매점의 거래 정보를 담은 스캐너 자료 를 활용하여 (scanner data)
소비자물가지수와 같은 다양한 통계 지수를 산출하는 연구를 활발하게 하고 있다 일반적으로 .
이러한 통계 수치들은 국가의 정책을 결정하는 데 중요한 정보를 제공하기 때문에 만약 자료의 ,
이상점을 탐지하지 못해 각종 지수를 잘못 산정한다면 큰 혼란을 야기하게 된다 따라서 스캐너 . ,
자료의 이상점 탐지는 매우 중요한 연구주제 중 하나이다 기존에는 스캐너 자료에 대한 이상점 .
을 탐지하기 위해서 가격변화율의 정보만 사용하였는데 스캐너 자료는 가격변화율 이외에도 판 ,
매량이나 소매점 형태 등에 관한 다양한 정보를 포함하고 있다 이에 은 스캐너 . Kim et al.(2020)
자료에 대한 이상점 탐지방법으로 다른 정보를 활용할 수 있는 새로운 방법을 제안하였다 즉 . ,
품목의 거래량을 공변량으로 하여 가격 변화율의 분산을 추정하고 이를 이용하여 이상점을 탐 ,
지하는 방법을 제안하였다 하지만 실제로 가격 변화율의 분산이 거래량에 따라 달라진다는 가
.
정이 성립하는가에 대한 엄밀한 논의가 없어 본 연구에서는 순열검정 절차를 고안하여 거래량 ,
에 관한 가격변화율 분산의 동질성을 검정할 수 있는 간단한 절차를 제안하였다 또한 대한상공 . ,
회의소에서 수집한 스캐너 자료에 적용해 실제로 거래 가격 분산이 거래량에 따라 달라지는지
적용해 보았다 .

주요용어 스캐너 자료 이상점 탐지 공변량 의존 관리한계선 순열검정


: , , , .

1. 서론
스캐너 자료는 소매점에서 소비자와의 거래가 발생할 때 바코드 리더 등의 전자판독기를 이용
해 수집되는 자료로 품명 금액 수량 거래 시점뿐 아니라 제조업체 용량이나 무게 등 상세한 정
, , , , ,
보를 담고 있으며 자료라고도 한다 영국 일본과 같은 국가는 스캐너 자료의
, POS(Point of Sales) . ,
활용을 위한 연구를 진행 중이고 노르웨이 스위스 스웨 (Bhardwaj et al., 2017; Abe, Tonogi, 2010), , ,
덴 호주 등 주요국 통계작성 기관은 이미 스캐너 자료를 물가지수 작성에 활용하고 있다
, (Mayhew,
고 알려져 있다 또한 스캐너 자료는 소매업체의 거래에 대한 정보들을 포함하고 있기 때문
2017) . ,

이 논문은 년도 정부 교육과학기술부 의 재원으로 한국연구재단의 지원을 받아 수행된 연구임


*
2020 ( )
(No.2019R1A2C1003257).
1
서울시 관악구 관악로 서울대학교 통계학과 박사과정
08826 1, . E-mail : kyr0302@gmail.com
2
서울시 관악구 관악로 서울대학교 통계학과 교수
08826 1, . E-mail : johanlim@snu.ac.kr
교신저자
3
( 경기도 용인시 수지구 죽전로 단국대학교 정보통계학과 교수
) 16890 152, .
E-mail : silee@dankook.ac.kr
접수 년 월 일 수정 년 월 일 년 월 일 게재확정 년 월 일
[ 2021 1 30 ; 2021 2 2 , 2021 2 19 ; 2021 2 22 ]
554 김영래, 임요한, 이성임
에 실제 생계비 측정에 유용할 수 있으며 세제 개편 등의 정책 효과를 확인하는 연구결과도 있다 ,
이처럼 스캐너 자료는 다양한 지수를
(Bradley, 1997; Jacobs et al. 2014; Park, 2020; Han, Jei, 2020).
산정하는 데 유용하게 활용될 수 있지만 몇 가지 한계점 또한 존재한다 첫째로 설비가 준비 , . , POS
되어 있는 소매점의 자료만 수집하기 때문에 전체 거래활동을 대표하지 못할 수 있다 우리나라는 .
소비자물가지수를 작성할 때 약 개의 소매점에 대한 자료를 수집하는 데 대한상공회의소에25,000 ,
서 수집한 스캐너 자료는 설비가 있는 약 개의 점포로 제한된다 이는 특히 규모가 작은
POS 2,000 .
영세한 소매점은 자료수집에서 제외될 수 있다는 것을 의미한다 둘째로 스캐너 자료에도 이상점 . ,
이 존재한다는 것이다 이상점은 입력 오류 등으로 발생하는데 이상점이 포함된 스캐너 자료를 이
. ,
용하여 지수들이 잘못 산정될 경우 이는 국가와 각 지수를 활용하려는 이용자들에게 큰 혼란을
,
야기할 수 있다 따라서 이를 식별하여 제거하는 것은 보통의 자료분석과 마찬가지로 분석의 중요
.
한 사전단계가 된다 기존의 연구들에서 일반적인 자료에 대해 선형 모형 또는 부분 선형 모형에
. ,
서의 이상점 탐색 방법들이 제안되었고 다변량 자료에 대해서도 모니터링 절차가 개발되었 ,
다 본 연구에서 다룰 스캐너 자료의 이상점 탐
.(Park et al., 2013; Seo, Yoon, 2010; Cho, Lee, 2014).
지방법으로 잘 알려진 대표적인 방법은 사분위수 방법 와 방법 (quartile method), Hidiroglou Berthelot ,
방법 등
Tukey 으로 이들은 가격 정보만을 이용하였고 거래량이나 거래 시점 등 스캐
(Rais, 2008) , ,
너 자료에 포함된 다른 상세한 정보들은 사용하지 않았다 최근 은 거래량에 따라 . Kim et al.(2020)
가격 변화율의 분산이 다르다는 것을 가정하여 이상점 탐지를 시도하였는데 거래량에 따라 가격 ,
변화율의 분산이 다르다는 가정에 대한 엄밀한 논의가 이루어지지 않았다 만약 분산이 동일하다 .
고 가정된다면 기존의 방법으로도 효율적인 탐지가 가능할 것이다 이에 본 논문에서는 스캐너 자
, .
료에서 가격 변화율의 분산 동질성을 검정하기 위한 순열검정 절차를 제안하여 공변량 의존 관리
도에 대한 사전 가이드라인을 제공하려고 한다 본 논문의 구성은 장에서 모형과 절차를 소개하 . 2
고 장에서 스캐너 자료에 적용하여 분산의 동질성 검정을 시행한다 장에서는 결과를 요약하고
, 3 . 4
결론을 맺도록 한다 .

2. 모형과 절차
2.1. 자료소개
이 절에서는 스캐너 자료로부터 거래량에 관한 가격변화율의 분산 동질성 검정에 사용할 데이
터를 소개하기로 한다 먼저 어떤 품목이 시점에서 거래된 단위가격이  거래량이  라 하면
. , ,

수집된 스캐너 자료는      ⋯를 포함한다 이때 시점의 거래 단위가격을 시점


. ,

   시점의 거래 단위가격으로 나눈 값을 시점  에서의 가격 변화율     


 

    ⋯  
이라 정의하자 가격 변화율  를 모니터링하면서 갑작스러운 할인 또는 상승이 있는 시점의 거래
   

가격을 이상가격으로 판단할 수 있다 그런데 일반적으로 가격이 안정적이라면  의 값이  근처


. ,

로 산포가 크지 않아 이상점 탐지에 관한 가짜 알람률 이 커지는 문제가 발생한다


(false alarm rate) .


또한  의 분포는 오른쪽으로 꼬리가 긴 경우가 많은데 이런 경우 기존의 이상점 탐지 방법들은
, ,

오른쪽 꼬리의 이상점에 대해서는 민감하게 왼쪽 꼬리의 이상점에 대해서는 둔감하게 반응하는

,
문제가 있다 이와 같은 가면 효과는 일반적으로 데이터를 자연로그 변환을 이용해 문
(Rais, 2008).
스캐너 자료에서 거래량에 관한 가격 변화율 분산의 동질성 검정 555
제를 해결할 수 있다고 알려져 있다 ï 이에 시점
(Sa di, Rubin-Bleuer, 2005; Thompson, Sigman, 1999).
 의 가격변화율에 자연로그변환을 한 로그 가격변화율   log       ⋯   을 모니터링 하
는 것이 거래가격의 이상여부를 판단하는데 좀 더 합리적인 것을 알 수 있다 본 연구에서는  의
 

산포가 거래량에 상관없이 같은 분산을 갖는 것인지 알아보기 위해 시점 의 로그 가격변화율 


와 거래량  그리고   시점에서의 거래량  를 이용해 자료를 새롭게 재구성하기로 한다


, .

시점   ⋯ 에 대해서       라 쓰면 재구성한 자료는       가 된다


 

 ,    ,    .

2.2. 모형

본 연구에서는 로그 가격변화율    ⋯ 에 대해서 

             (1)

와 같은 모형을 가정한다 여기서       와       는   에 대한 연속함수이며 오차항 


. ,  ,

는 각각 독립이며 기댓값이  분산이  인 분포를 따른다 공변량  와  는 각각    시점에


    

, . ,

서의 거래량을 의미한다 로그 가격변화의 기댓값은


 

        log      log        (2)

가 되고 시점별 거래량에 따라 가격이 다르다고 가정하는 것은 모형이 복잡할 뿐 아니라 정가가


매겨진 공산품에 대하여 소매점을 대상으로 판매가격을 수집하는 스캐너 데이터의 특성상 적절하
지 않은 가정이므로        을 가정하기로 한다 즉 가격이 안정적인 경우 판매량에 따라 . ,

평균 가격은 일정하다고 가정한다 본 연구에서는 모형 에서 로그 가격변화율  의 분산이 거래


 

. (1) 

량         에 의존하지 않는다는 사실 즉 귀무가설           를 검정하


  ,    , , 

 

는 절차를 제안하고자 한다 .

2.3. 순열검정 절차

이번 절에서는 로그 가격변화율의 분산이 거래량에 대하여 동질성을 만족하는지 검정하기 위한


절차를 제안하고자 한다 모형 은        의 가정으로부터
. (1)  

log    log       log   (3)

가 된다 모형 로부터 구한 오차항의 분산과 귀무가설           하에서 구한 오차항의


. (3) 

 

분산이 동일한지 검정하기 위해 검정통계량을 분산 추정량의 비로 다음과 같이 제안한다 단 모 , . ,


형의 분산비를 로그 변환하여 귀무가설하에서는   임을 알 수 있다 .

 
log    log   
 
   
 
T  log 

(4)

log    log  

 
   
 log  log    log        log log    log   
   
556 김영래, 임요한, 이성임

여기서  는 가격변화율의 분산이 거래량에 대하여 일정하다고 가정할 때의  의 분산추정량으



 

로     로 계산할 수 있다 그리고        는 가격변화율의 분산이 거래량에 의존



 
 

,   .  
 

한다는 사실을 가정했을 때      에서  의 분산추정량을 의미한다 거래량      가 주어졌 ,    .





을 때 그 점에서의  의 분산추정량       는  를 반응변수      를 독립변수로 하여 회


, 
 




,  

귀모수로  를 갖는 국소다항 회귀모형으로부터 구할 수 있으며 다음 식으로부터 회귀계수를 추


( )

정한다 .

 
 


   arg min 
 
     
       
 
                            . (5)

이때 ,

                       ∈      ⋯ ,

                    

로  는 양의 정수집합 커널함수 ⋅⋅ 는 이차 가우시안 커널을 사용했고        는 양수로


,

, ,  

띠너비 를 나타낸다 즉 거래량에 대한 가격 변화율의 분산이 다르다면      에서  의 분


(bandwidth) . ,



 

산 추정량은        으로 추정하여      에 의존하는 추정량을 구할 수 있다 이제 귀무가설



  ,



 .

          하에서 통계량 T의 표본 분포를 근사하기 위한 순열검정 절차를 소개하기로 한다




 

 .

귀무가설 하에서 거래량에 대한 등분산성을 가정했기 때문에 임의의 순열   ⋯ → ⋯ 에 대 ,

하여 기존의 자료       를       로 바꾸어 계산한 통계량       

 n
  
   log  
 
log yt   log 
 x t  x t     log   log y   log   
t

t  (6)

의 분포는 순열에 관계없이 동일하다 위와 같은 사실을 이용해 귀무가설 하에서의 검정통계량 T .

의 표본분포를 근사할 수 있다 좀 더 상세한 절차는 다음과 같다 . .

각 반복 에 대해 ,

단계 임의의 순열   ⋯  →⋯  를 만든다


1.  .

단계 자료들 중 공변량에 해당하는        ⋯  에 순열을 적용하여 순서를 바꾼다


2.   .

바뀐 자료를           ⋯  라 한다          .

단계 단계 에서 구한 자료로부터 T  를 계산한다


3. 2 b .

단계 단계 단계 을 번 반복하여 개의 통계량 T   b  ⋯ B을 생성한다


4. 1- 3 , b .

단계 T   b  ⋯B 의 참조표본으로부터    분위수를 찾고 이를  라 한다


5. b  .

단계 수식 에서 구한 통계량 T의 값이  보다 크면 귀무가설           를
6. (2)  , 

 

기각한다 .
스캐너 자료에서 거래량에 관한 가격 변화율 분산의 동질성 검정 557
위 절차는 귀무가설           에 대한 유의수준  검정법으로 가격 변화율의 분산이


 

 ,

거래량에 따라 다르다고 판정할 수 있는지 알 수 있다 .

3. 예제 스캐너 자료에의 응용
:

스캐너 자료 소개
3.1.

이 절에서는 실제 우리나라에서 수집된 스캐너 자료에 절에서 소개한 검정절차를 적용하여 가 2 ,

격 변화율의 분산이 거래량에 대하여 동일한지 알아보고자 한다 대한상공회의소는 년부터 . 2013

년까지 전국의 약 개의 매장으로부터 만 천여 품목에 대하여 거래금액 거래량 등을


2017 2000 22 8 ,

일주일 간격으로 수집하였다 이 때 수집된 품목들은 표준화된 규격이 존재하는 가공식품 주류 및


. ,

담배 생활잡화 등이다 본 연구에서는 여러 품목들 중 한 품목의 자료만 사용해서 가격 변화율의


, .

분산이 거래량에 관해 동질한지 검정해 보도록 한다 앞으로 본 연구에서는 이 품목을 품목이라 . A

부르기로 한다 .

탐색적 분석
3.2.

스캐너 자료에서 시점과   시점의 거래량      에 관하여 로그 가격 변화율  의 분산    

이 변화가 없는지를 검정하기 전에 간단히 각각의 거래량   와 로그 가격 변화율  의 분 , ,   

산 간의 관계를 알아보기로 한다 가격 변화율이 없는 정상 상태 즉    이라는 가정 하에서 로


. , , ,

그 가격 변화율  의 분산과 거래량  또는  사이의 관계는  의 평균과  또는  사이


    ,

   

의 관계를 알아보는 것과 같다 이에  를 반응변수로 각각의 거래수량  또는  을 설명변수


.

 ,   

로 하는 국소다항 회귀분석을 시행하여 모형의 유의성을 알아보았다 이때 국소다항 회귀분석을 . ,

위해서 소프트웨어의 패키지의


R 함수를 이용하였다
np npreg() .


Figure 1. A plot of log  versus  , sales volume at time . The solid line indicates the estimates of the
variance of log(price ratio) from local polynomial regression, and the dotted lines show the 99% confidence interval.
558 김영래, 임요한, 이성임
시점의 거래량  가 커질수록 로그 가격 변화율  의 분산이 작아지는 경향을 갖고 있으며
   (Figure

적합도 검정의 결과  값이  로 유의한 관계가 있다고 볼 수 있다   시점의 거래수량


1), .

 의 경우  이상의 값에서 로그 가격 변화율  의 분산이 불안정하게 변화하는 것을 확인할 수


  , 

있지만 적합도 검정에서는  값이 로 나타나 유의한 관계가 없음을 알 수 있다


(Figure 2) .


Figure 2. A plot of log  versus    , sales volume at time   . The solid line indicates the estimates of the
variance of log(price ratio) from local polynomial regression, and the dotted lines show the 99% confidence interval.

순열검정 결과
3.3.

탐색적 분석 결과에서 시점의 거래량  는 로그 가격 변화율  의 분산과 관계가 있지만   ,  

시점의 거래수량  은 관계가 없는 것으로 보인다


  .

Figure 3. Reference distribution for test statistic  . The solid line shows the 95th percentile of  , and the dotted
line the observed value from the data

에서와 같이 두 거래수량을 합친 결합 거래수량 역시 로그 가격변화율의 분산


Kim et al.(2020)

과 유의한 관계가 있을 것으로 생각하여 본 논문에서 제안한 순열검정 절차를 이용해 확인해 보
,
스캐너 자료에서 거래량에 관한 가격 변화율 분산의 동질성 검정 559
고자 한다 절의 순열검정 절차를 적용하기 위해 검정통계량의 표본분포를 생성하기 위한 반복
. 2.3 ,

횟수 는  번으로 설정하였고   로 하였다 , .

순열검정 시행 결과 과 같은 참조표본을 얻을 수 있었는데 본문에서 사용한 품목의


Figure 3 , A

경우 과
Figure 1 에서 알 수 있듯이 거래량이 비교적 일정한 품목이어서 검정 통계량의 값
Figure 2

이 작은 부분에 도수가 높고 우리가 관심 있는 이상변화를 탐지하고 싶은 곳은 데이터가 드물게


,

나타나고 있는 것을 알 수 있다 실선은 참조표본으로부터 구한 통계량 의    분위수이고 파선


. ,

은 데이터로부터 구한 통계량의 값으로 유의수준 에서 귀무가설을 기각하고 거래량      , 5% ,   

에 대해 로그 가격변화율  의 분산이 동질하지 않다고 결론을 내릴 수 있다  값 


 ( = ).

4. 결론
본 연구에서는 스캐너 자료로부터 거래량을 활용한 가격 변화율의 이상점 탐지를 수행함에 있
어 가격 변화율의 산포가 거래량에 의존한다는 가정을 검토하기 위한 분산의 동질성 검정 절차를
,

제안하고 이를 실제 문제에 적용해 보았다 기존의 연구에서는 가정에 대한 엄밀한 검토가 없었기
, .

때문에 본 논문의 연구결과는 거래량을 활용한 이상점 탐지방법의 타당성을 검토하는 데 도움을
,

줄 것이라 생각한다 또한 순열검정절차는 거래량뿐만 아니라 다른 스캐너 자료의 특성을 공변량


. , ,

으로 이용할 때에도 공변량에 따른 가격 변화율 분산의 동질성 검정을 할 수 있어 스캐너 자료의 ,

이상점 탐지에 유용하게 활용될 수 있을 것으로 기대된다 .

References

Abe, N., Tonogi, A. (2010). Micro and macro price dynamics in daily data, Journal of Monetary Economics, 57(6),
716-728. DOI: https://doi.org/10.1016/j.jmoneco.2010.05.016
Bhardwaj, H., Flower, T., Lee, P., Mayhew, M. (2017). Research indices using web scraped price data, Office for
Natioal Statistics.
Bradley, R. (1997). Potential benefits from the use of scanner data in the construction of the CPI, ASA Proceedings.
Cho, Y., Lee, S. (2014), A performance comparison study of Hotelling’s T and PCA-based control charts in phase
II monitoring, Journal of the Korean Data Analysis Society, 16(5), 2469-2480. (in Korean).
Han, M. Jei, S. (2020). A study of the household expenditure by household size, Journal of the Korean Data
Analysis Society, 22(3), 1265-1281. (in Korean). DOI: https://doi.org/10.37727/jkdas.2020.22.3.1265
Jacobs, D., Perera, D., Williams, T. (2014). Inflation and the cost of living, RBA Bulletin, March, 33-46.
Kim, Y., Kim, S., Lim, J., Lee, S., Son, W., Hwang, H. (2020). Covariate-dependent control limits for the detection
of abnormal price changes in scanner data, Applied Stochastic Models in Business and Industry, 36(5),
783-794. DOI: https://doi.org/10.1002/asmb.2529
Mayhew, M. (2017). A comparison of index number methodology used on UK web scraped price data, ONS
methodology working paper series, 12.
Park, D., Kang, H., Han, S., Choi, H. (2013). Comparison study of outlier detection methods in a regression model,
Journal of the Korean Data Analysis Society, 15(1), 177-186. (in Korean).
Park, H. (2020). Dynamic effect of cigarette tax reform using scanner data, Journal of the Korean Data Analysis
Society, 22(2), 619-630. (in Korean). DOI: https://doi.org/10.37727/jkdas.2020.22.2.619
Rais, S. (2008). Outlier detection for statistics canada’s consumer price index, Business Survey Methods Division
560 김영래, 임요한, 이성임
Statistics Canada.
ï
Sa di, A., Rubin-Bleuer, S. (2005). Detection of outliers in the Canadian consumer price index, Business Survey
Methods Division Statistics Canada.
Seo, H., Yoon, M. (2010). Outlier detection methods using augmented partial residual plots in a partially linear
model, Journal of the Korean Data Analysis Society, 12(2), 1125-1133. (in Korean).
Thompson, K., Sigman, S. (1999). Statistical methods for developing ratio edit tolerances for economic data, Journal
of Official Statistics, 15(4).
스캐너 자료에서 거래량에 관한 가격 변화율 분산의 동질성 검정 561

Homogeneity Test of the Variance of Price Change by Sales Volume in


*
Scanner Data

1 2 32
Youngrae Kim , Johan Lim , Sungim Lee

Abstract

Many national statistical institutions are recently actively researching to calculate


various statistical indices, such as the consumer price index, using scanner data containing
retail store transaction information. In general, critical national policies are affected by these
statistics. If outliers are not detected, and various indices are incorrect, it will cause great
confusion. Therefore, the detection of outliers in scanner data becomes crucial research.
However, popular methods for conducting such outlier detection are based only on price
changes and not on any of the other covariates (e.g., sales volume or types of retail shops)
available from scanner data. Kim et al. (2020) proposed a new outlier detection method
using the variance of the price change rate depending on the sales volume. However, there
was no rigorous discussion on whether the price change rate variance depends on the sales
volume. Therefore, in this study, we devised a permutation test procedure for testing the
homogeneity of the price change rate variance for the sales volume. It also applied to the
scanner data collected by the Korea Chamber of Commerce and Industry to test whether the
transaction price variance depends on the transaction volume.

Keywords : Scanner data, outlier detection, covariate-dependnet control limits, permutation


test.

*
This work was supported by the National Research Foundation of Korea(NRF) grant funded by the
Korea government (MSIT) (No.2019R1A2C1003257).
1
08826 1, Gwanak-ro, Gwanak-gu, Seoul. Department of Statistics, Seoul National University, Ph.D.
student. E-mail : kyr0302@gmail.com
2
08826 1, Gwanak-ro, Gwanak-gu, Seoul. Department of Statistics, Seoul National University, Professor.
E-mail : johanlim@snu.ac.kr
3
(Corresponding Author) 16890 152, Jukjeon-ro, Suji-gu, Yongin-si, Gyeonggi-do. Department of Statistics,
Dankook University, Professor. E-mail : silee@dankook.ac.kr
[Received 30 January 2021; Revised 2 February 2021, 19 February 2021; Accepted 22 February 2021]

You might also like