본문 바로가기

Store Clustering

[점포 클러스터링] #4 변수의 발견과 결정

변수 발견과 결정

점포 클러스터링을 하기 위해서는 클러스터링의 기준이 되는 변수의 선택이 매우 중요하다. 먼저, 변수들을 선택하기 전에 어떤 변수들이 있는 지 확인해 보자.

l 점포 변수(store attributes): 행정지역, 상권, 크기, 주차장 유무

l POS 데이터: 매출, SKU, SKU Type(프리미엄, 가격 민감, PB )

l 고객정보: 연령, 평균 구매액, 자녀 수, 평균 구매 횟수 등

물론, 이외 클러스터링의 목적에 따라 더 많이 변수가 있을 수 있다.

변수가 정리 되고 나면, 어떤 변수 들이 클러스터링을 하는데 있어서 중요한지 솎아 낼 필요가 있다. 이러한 과정을 변수 프로파일링(attribute profiling)이라고 한다.

예를 들어 총 6개의 매장관련 변수를 가지고 있다고 가정하자. 6개중 행정지역 1개의 최중요 변수로 선택한다. 체인슈퍼 마켓의 경우, 지역별로 물류 집하장이 있는 것을 감안하여, 클러스터링의 가장 큰 축이 지역 안에서 이루어져야 하기 때문이다. 사람이 임의 적으로 선택 하는 이유는 클러스터링 전략의 핵심적인 방향을 결정하는 중요 변수이기 때문이다.

1차 필터링이 끝나고 나면, 중요도가 비슷한 5개의 변수가 남게 된다. 5가지 변수 중 중요한 변수 3가지 만 뽑는다고 다시 가정해 보자. 이 경우 회귀분석을 통해서 변수를 선택할 수 있을 것이다. ‘변수선택 및 모형구축아래 내용 참고. 변수선택 방법

“q개의 설명변수:

     1. 앞으로부터의 변수선택 (forward selection): 절편항만을 포함한 모형(intercept only model")에서 시작하여 q개 설명변수들을 하나씩 차례로 추가한 단순모형을 각각 적합 시킨다. 어떤 변수가 선택되면 이 변수를 포함한 단순모형과 나머지 q-1개의 변수들을 하나씩 차례로 이 단순모형에 추가한 모형들에 대해 앞에서와 같은 요령으로 적합도검정을 수행하여 변수선택 과정을 반복한다. 변수를 추가할 때의 유의성에 대한 뚜렷한 기준은 없으며 변수의 실제적인 중요성 및 통계적 유의성을 고려하는 것이 바람직하다. 단지 통계적 유의성만을 고려하여 가설검 정에서의 통상적인 유의수준 0.05로 정할 수도 있지만 예비적인 단계에서의 변수선택과정이라면 이보다 다소 큰 값을 택하는 것이 바람직 함.

      2. 뒤로부터의 변수제거(backward elimination procedure) 모든 설명변수들을 포함한 복잡 모형에서 시작하여 그 효과가 유의하지 않은 변수를 하나씩 차례로 제거하는 것이다. 통계패키지에 의해 자동적으로 변수를 선택하는 경우에는 주의가 요구된다. 왜냐하면 어떤 모형에 (잠정적으로) 많은 항이 포함되면 실제로는 별로 중요하지 않은 한 두 개의 항이 우연적으로 매우 유의하게 나타날 수도 있다.

     3.  단계별 변수선택(stepwise variable selection) 앞으로부터의 변수선택에 의해 선택된 변수들에 대해 다시 뒤로부터의 변수제거 과정을 수행하여 변수를 선택하는 방법 모형에 변수를 포함시킬 때의 기준은 대략 0.15에서 0.20사이의 값을 택한다. 모형에 변수를 포함시킬 때의 기준에 비해 변수를 제외할 때의 기준을 약간 크게 택하는 것이 일반적이다. 예를 들어, 변수를 포함하기 위한 기준을 0.15로 택한다면 변수를 제거하기 위한 기준은 0.20을 정할 수 있다. PROC LOGISTIC에서는 MODEL 명령어에 대한 선택사항으로 「selection=stepwise」를 지정하면 단계별 변수선택이 수행되며, 그 밖에 forward backward를 지정하면 앞으로부터의 선택 또는 뒤로부터의 변수제거가 각각 수행된다.

     4. 최적 변수들의 선택 방법 (best subsets selection) 정규자료에 대한 선형회귀에서 최적 변수선택법은 q개 변수들 중 한 개, 두 개, , 등의 설명변수를 포함하는 최적모형을 선택하는 데 널리 사용된다. 이것을 로지스틱회귀에 확장하여 적용할 수 있으며, 이 때, “최적” 모형에 선택되는 변수들은 “최적”의 기준을 어떻게 정하는가에 따라 달라진다. PROC LOGISTIC에서는 모형에 포함된 변수들에 대해 스코어검정을 통해 최적변수를 선택한다. 모형에 포함하는 변수의 수가 증가함에 따라 스코어검정의 결과가 더욱 유의하게 나타나는 경향이 있다. PROC LOGISTIC에서 MODEL 명령어에 대한 선택사항은「selection=score」임. score에 의한 최적변수 집합의 선택은 범주형 설명변수에 대해서는 적용되지 않음.