Today I Learned

군집분석 공부

by Holly Yoon

ML

군집화란

  • 유사한 속성들을 갖는 관측치들을 묶어서 전체 데이터를 몇 개의 군집으로 나누는 것

군집화의 기준

  • 동일한 군집에 소속된 관측치들은 유사할 수록 좋다
  • 상이한 군집에 소속된 관측치들은 서로 다를 수록 좋다

군집화 수행시 주요 고려사항

  • 어떤 거리 척도를 사용해서 유사도를 측정할 것인가?
    • 유클리디안 거리
    • 맨하탄 거리
    • 마할라노비스 거리
    • 상관계수 거리
  • 어떤 군집화 알고리즘을 사용할 것인가?
    • 계층적 군집화 : 개별 개체간의 순차적 구분
    • 분리형 군집화 : 특정 기준에 의해 동시에 구분
    • 자기조직화 지도
    • 분포 기반 군집화
  • 어떻게 최적의 군집 수를 결정할 것인가?
    • Elbow Point
  • 어떻게 군집화 결과를 측정하고 평가할 것인가?

 

1. 계층적 군집화 (Hierarchical Clustering)

  • 개별 개체들의 순차적/계층적 유사한 개체/군집과의 통합
  • 덴드로그램을 통한 시각화 가능
  • 사전에 군집 수를 정하지 않아도 수행 가능
  • 의사결정나무와 다른 부분은? 의사결정나무는 y값을 이용해서 균일한 방향으로 트리를 생산하지만, 관측치의 유사도를 가지고 하나하나 묶어나가는 것.

📌 어떻게 두 군집 사이의 유사성/거리를 측정할 것인가?

  • Min (단일 연결)
  • Max (완전 연결)
  • Group Average (평균 연결)
  • Between Centroid (대표끼리 연결)
  • Ward’s Method : 두 그룹을 하나의 그룹으로 봤을 때의 거리 - 각 집단을 나누어서 봤을 때의 거리 차를 구하는 것. 이 차이가 작을수록 하나의 군집일 가능성이 큼

2. 분리형 군집화


  • K-평균 군집화 (K-means Clustering)
    • 각 군집은 하나의 중심(centroid)를 가진다
    • 각 개체는 가장 가까운 중심에 할당되며, 같은 중심에 할당된 개체들이 모여 하나의 군집을 형성한다
    • 사전에 군집의 수 K가 정해져야 알고리즘을 실행할 수 있다
    • 대충 군집의 갯수를 알 수 있는 경우가 있다 (ex, 양품과 불량품..)
    • y값이 없다!
    • 군집 레이블이 부여되기 때문에, 결과가 동일하다
  • K-평균 군집화의 프로세스
    • 2개의 중심을 임의로 생성
    • 생성된 중심을 기준으로 모든 관측치에 군집 할당
    • 각 군집의 중심을 다시 계산
    • 군집이 변하지 않을 때까지 계속 반복
  • K-평균 군집화에서, 초기 중심 설정은 중요하다
    • 반복적으로 수행해서 가장 여러번 나타나는 군집을 사용한다
    • 전체 데이터 중 일부만 샘플링해서 계층적 군집화를 수행해서 초기 군집 중심을 설정한다
    • 데이터 분포의 정보를 활용해서 초기 중심을 설정한다
  • K-평균 군집화의 문제점
    • 서로 다른 크기의 군집을 잘 찾아내지 못한다
    • 서로 다른 밀도의 군집을 잘 찾아내지 못한다
    • 지역적 패턴이 존재하는 군집을 판별하기 어렵다 (geodesic distance)

3. 최적의 군집수를 결정하는 방법

  • 성능의 척도(y) ↔ 군집의 갯수(x) 그래프를 그려서 꺾이는 지점을 찾는다

4. 군집화 결과 측정 및 평가

  • 분류 알고리즘처럼 모든 상황에 적용가능한 평가 지표가 없다
  • 내부 평가 지표
    • SSE : 각 군집의 중심으로부터 거리 제곱의 합을 군집별로 더한 값
    • Silhouette 통계량 : 각각의 데이터가 해당 데이터와 같은 군집 내의 데이터와 얼마나 가깝게 군집화가 되었고, 다른 군집에 있는 데이터와 얼마나 분포되어있는지를 나타내는 지표
      • -1에 가까우면 군집이 전혀 되지 않는다
      • 일반적으로 S의 값이 0.5보다 크면 군집 결과는 타당하다고 본다
  • 외부 평가 지표
    • Rand Index
    • Jaccard Coefficient

 

'ML' 카테고리의 다른 글

ML Study_선형회귀  (0) 2023.02.10

블로그의 정보

Study Log by Holly

Holly Yoon

활동하기