Clustering
클러스터링
비슷한 특성의 데이터를 묶는 분석 기법
클러스터링은 사전에 정해진 기준 없이 데이터 자체의 유사성만으로 그룹을 만들어내는 비지도 학습 기법입니다. 금융 분야에서는 종목, 고객, 시장 패턴처럼 방대한 데이터를 의미 있는 덩어리로 나눌 때 폭넓게 활용됩니다.
가장 대표적인 사례가 포트폴리오 분류입니다. 수천 개 종목의 수익률, 인공지능 기반 팩터 점수, 변동성 데이터를 넣으면 알고리즘이 스스로 비슷하게 움직이는 종목끼리 묶어줍니다. 같은 산업이라도 실제 가격 흐름이 다르면 다른 클러스터에 배치되고, 전혀 다른 섹터의 종목이 같은 클러스터에 들어오기도 합니다. 이렇게 만들어진 그룹은 전통적인 섹터 구분보다 분산 투자 효과를 더 정밀하게 설계하는 데 도움이 됩니다.
금융회사의 고객 세분화에도 자주 쓰입니다. 나이, 자산 규모, 거래 빈도, 상품 보유 현황 같은 변수를 기준으로 고객군을 나누면, 각 그룹에 맞춤 상품을 추천하거나 이탈 가능성이 높은 고객을 미리 관리할 수 있습니다. 로보어드바이저 서비스가 사용자 프로필을 분석해 투자 성향을 판단하는 과정에도 클러스터링이 깔려 있는 경우가 많습니다.
기법 자체는 여러 종류가 있는데, 가장 널리 쓰이는 것은 K-평균(K-Means) 알고리즘입니다. 원하는 그룹 수를 정해두면 데이터 포인트를 가장 가까운 중심점으로 반복 배정하며 그룹을 다듬어 가는 방식입니다. 계층적 클러스터링은 그룹 수를 미리 정하지 않아도 되는 장점이 있어서 탐색적 분석에 유리합니다.
다만 클러스터링 결과는 어떤 변수를 넣느냐, 데이터를 어떻게 전처리하느냐에 따라 크게 달라집니다. 같은 종목 데이터라도 일간 수익률을 쓸 때와 월간 수익률을 쓸 때 묶이는 양상이 다를 수 있으니, 결과를 해석할 때는 입력 조건을 함께 살펴보는 습관이 중요합니다.
최근에는 이상 거래 탐지에도 클러스터링이 쓰입니다. 정상적인 거래 패턴들을 클러스터로 묶어두면, 어떤 클러스터에도 속하지 않는 거래가 이상치(outlier)로 자동 분류됩니다. 내부자 거래나 시세 조종 같은 불법 행위를 조기에 포착하는 데 도움이 되는 방식입니다. 패턴을 먼저 발견하고 그 의미를 나중에 해석하는 순서가 클러스터링의 핵심입니다.