본문 바로가기

알고싶은

데이터 마이닝 순차패턴, 순차 패턴 마이닝, 순차패턴 정의와 순차패턴 분석 알고리즘 5단계

반응형

순차 패턴 분석이란?

순차 패턴 분석 알고리즘 5단계(Agrawal and Srikant, 1995)

순차패턴분석
순차패턴분석

데이터마이닝 분석방법 중 하나인 순차 패턴 분석은 데이터들 속에서 어떤 순차 관계가 들어 있는 패턴을 찾는 것이다. 즉, 연관 규칙 분석에 시간 개념을 추가하여 시계열에 따른 패턴들의 연관성을 탐색하는 분석기법이다.

예를 들어, 소비자가 구입한 물품들 간의 순차적인 관계성은 다음에 구입할 물건을 예측하는데 쓰일 수 있다. 또한 방문 웹 페이지의 순차 패턴은 사용자가 방문하고자 하는 다음 페이지를 예측하는데 중요할 수 있다.

순차패턴분석
순차패턴분석

If A then B 형식의 데이터 속에 숨겨져 있는 규칙을 찾아낸다는 면에서는 연관 규칙과 비슷하다. 하지만 순차 패턴 분석의 경우 "What goes AFTER what?"과 같이 시간이나 순서에 따른 사건의 규칙을 찾는다.

순차패턴분석
순차패턴분석

연관규칙분석에서는 X → Y와 Y → X가 동시에 성립할 수 있으나, 순차 패턴 분석에서는 시간의 순서가 중요하기 때문에 X → Y가 성립하는 경우, Y → X가 성립하기 어렵다.

데이터셋에 Identity information (Customer Identifier, or Event ID), TimeStamp (Sequence information, or Sequence ID) 변수가 있어야 한다.

순차패턴분석
순차패턴분석

순차 패턴 분석에서 사용하는 규칙 흥미도 척도인 Support(s) = Sequence s를 포함하는 고객의 비율이다. 따라서 연관 규칙과 다르게 Support 척도만 제공할 뿐 연관 규칙에서 썼던 Confidence, Lift는 없다. 

 

순차 패턴의 탐색에서는 빈발 시퀀스(large sequence)를 추출하고 이들 가운데 최대 시퀀스(maximal sequence)를 찾는다. 여기서 빈발 시퀀스란 최소 지지도 이상을 갖는 시퀀스를 말하며, 최대 시퀀스는 빈발 시퀀스 S가 다른 시퀀스에 포함되지 않을 경우 최대 시퀀스라 한다. 시퀀스 S에 대한 지지도는 시퀀스 S를 포함하는 고객의 비율로 정의할 수 있다.

순차패턴분석
순차패턴분석

정리해보면 특정 최소 지지도(support) 이상을 가지는 sequence를 빈발 시퀀스로, 순차적 패턴 탐사 문제는 빈발 시퀀스 중에서 최대 시퀀스들을 찾는 것이라 할 수 있다.

일반적으로 순차패턴 분석 알고리즘은 다음 5단계로 구성된다.

Agrawal and Srikant(1955)의 순차 패턴 분석 알고리즘 5단계

1) 정렬 단계(sort phase)

트랜잭션 데이터베이스를 고객 시퀀스 데이터베이스로 전환

2) 빈도가 높은 항목 집합 단계(itemset phase)

최소 지지도를 이상의 빈도가 많은 항목 집합을 찾는 단계

3) 변환 단계(transformation phase)

고객 시퀀스 각각의 거래에서 빈도가 높은 항목 집합의 리스트로 변환하는 단계

4) 시퀀스 단계(sequence phase)

주어진 데이터베이스를 이용하여 후보 시퀀스(candidate sequence)에 대한 지지도를 구한 후 최소 지지도를 만족하는 빈발 시퀀스를 도출

5) 최대화 단계(maximal phase)

빈발 시퀀스 집합으로부터 최대 시퀀스 탐색

순차패턴분석
순차패턴분석

지금까지 순차패턴분석에 대해 알아보았습니다. 이어서 타켓 마케팅을 위한 연관규칙분석의 개념과 장단점을 아래에서 확인해보세요.

 

타켓 마케팅을 위한 연관규칙분석의 개념과 장단점

연관규칙분석이란? 연관규칙분석의 장단점 1. 연관규칙 소개 타켓 마케팅은 하나의 시장을 여러 개의 요소로 나눠 마케팅 전략을 집중하는 방식으로 제품과 서비스에 관해 다양한 정책을 보다

tr.educoco.kr

이 글은 추천 시스템, 장바구니 분석으로 이어집니다. 이번 포스팅이 도움이 되었다면 아래의 '공감 ♡'를 눌러주세요. 감사합니다.

반응형