군집분석 공부
by Holly Yoon군집화란
- 유사한 속성들을 갖는 관측치들을 묶어서 전체 데이터를 몇 개의 군집으로 나누는 것
군집화의 기준
- 동일한 군집에 소속된 관측치들은 유사할 수록 좋다
- 상이한 군집에 소속된 관측치들은 서로 다를 수록 좋다
군집화 수행시 주요 고려사항
- 어떤 거리 척도를 사용해서 유사도를 측정할 것인가?
- 유클리디안 거리
- 맨하탄 거리
- 마할라노비스 거리
- 상관계수 거리
- 어떤 군집화 알고리즘을 사용할 것인가?
- 계층적 군집화 : 개별 개체간의 순차적 구분
- 분리형 군집화 : 특정 기준에 의해 동시에 구분
- 자기조직화 지도
- 분포 기반 군집화
- 어떻게 최적의 군집 수를 결정할 것인가?
- Elbow Point
- 어떻게 군집화 결과를 측정하고 평가할 것인가?
1. 계층적 군집화 (Hierarchical Clustering)
- 개별 개체들의 순차적/계층적 유사한 개체/군집과의 통합
- 덴드로그램을 통한 시각화 가능
- 사전에 군집 수를 정하지 않아도 수행 가능
- 의사결정나무와 다른 부분은? 의사결정나무는 y값을 이용해서 균일한 방향으로 트리를 생산하지만, 관측치의 유사도를 가지고 하나하나 묶어나가는 것.
📌 어떻게 두 군집 사이의 유사성/거리를 측정할 것인가?
- Min (단일 연결)
- Max (완전 연결)
- Group Average (평균 연결)
- Between Centroid (대표끼리 연결)
- Ward’s Method : 두 그룹을 하나의 그룹으로 봤을 때의 거리 - 각 집단을 나누어서 봤을 때의 거리 차를 구하는 것. 이 차이가 작을수록 하나의 군집일 가능성이 큼
2. 분리형 군집화
- K-평균 군집화 (K-means Clustering)
- 각 군집은 하나의 중심(centroid)를 가진다
- 각 개체는 가장 가까운 중심에 할당되며, 같은 중심에 할당된 개체들이 모여 하나의 군집을 형성한다
- 사전에 군집의 수 K가 정해져야 알고리즘을 실행할 수 있다
- 대충 군집의 갯수를 알 수 있는 경우가 있다 (ex, 양품과 불량품..)
- y값이 없다!
- 군집 레이블이 부여되기 때문에, 결과가 동일하다
- K-평균 군집화의 프로세스
- 2개의 중심을 임의로 생성
- 생성된 중심을 기준으로 모든 관측치에 군집 할당
- 각 군집의 중심을 다시 계산
- 군집이 변하지 않을 때까지 계속 반복
- K-평균 군집화에서, 초기 중심 설정은 중요하다
- 반복적으로 수행해서 가장 여러번 나타나는 군집을 사용한다
- 전체 데이터 중 일부만 샘플링해서 계층적 군집화를 수행해서 초기 군집 중심을 설정한다
- 데이터 분포의 정보를 활용해서 초기 중심을 설정한다
- K-평균 군집화의 문제점
- 서로 다른 크기의 군집을 잘 찾아내지 못한다
- 서로 다른 밀도의 군집을 잘 찾아내지 못한다
- 지역적 패턴이 존재하는 군집을 판별하기 어렵다 (geodesic distance)
3. 최적의 군집수를 결정하는 방법
- 성능의 척도(y) ↔ 군집의 갯수(x) 그래프를 그려서 꺾이는 지점을 찾는다
4. 군집화 결과 측정 및 평가
- 분류 알고리즘처럼 모든 상황에 적용가능한 평가 지표가 없다
- 내부 평가 지표
- SSE : 각 군집의 중심으로부터 거리 제곱의 합을 군집별로 더한 값
- Silhouette 통계량 : 각각의 데이터가 해당 데이터와 같은 군집 내의 데이터와 얼마나 가깝게 군집화가 되었고, 다른 군집에 있는 데이터와 얼마나 분포되어있는지를 나타내는 지표
- -1에 가까우면 군집이 전혀 되지 않는다
- 일반적으로 S의 값이 0.5보다 크면 군집 결과는 타당하다고 본다
- 외부 평가 지표
- Rand Index
- Jaccard Coefficient
'ML' 카테고리의 다른 글
ML Study_선형회귀 (0) | 2023.02.10 |
---|
블로그의 정보
Study Log by Holly
Holly Yoon