데이터 시각화 교과서 요약
by Holly Yoon* 책 < 데이터 시각화 교과서 > 를 공부하여 정리한 내용입니다. 영문 버전은 무료로 볼 수 있어요. (문서 링크)
11. 비율데이터 내포 형태로 시각화
- 내포 파이 차트 : 2차 변수를 하나의 셀로 뽑기보다, 색을 달리해서 보여주는 것이 시각적으로 낫다
- 평행 집합 도표 (Parallel Sets Plot) : 범주형 변수가 둘 이상인 비율 데이터를 시각화할 때 활용 (Pathfinder같이 생겼다..) 색을 활용하는 것이 보기에 좋다. → plotly library link
12. 여러 정량 변수의 관계 시각화
변수 둘 이상을 도표 하나에 나타낼 때는 버블 차트, 산점도, 상관곡선을 사용한다.
변수가 많은 고차원 데이터셋은 주성분 분석 같은 기법으로 차원을 축소한다.
- 산점도 매트릭스 : 버블 차트의 단점은 동일한 변수를 각기 다른 두 가지 스케일인 위치와 크기를 통해 보여준다는 점. 모든 경우의 수와 1:1 대응시켜 비교하는 산점도 매트릭스(Scatterplot Metrix)가 대안일 수 있다.
- 상관곡선 : 정량 변수가 3개 이상이면 산점도는 너무 거대해지기 때문에, 변수 쌍 사이의 연관성을 정량 데이터로 표현해 시각화하는 것이 좋다.
- 상관계수를 시각화한 도표를 상관곡선(correlogram)이라고 한다. 상관곡선은 상관관계가 낮은 경우에도 마치 관계가 있어보이게 만들기 때문에, 동그라미의 크기로 상관계수의 절대값을 나타내는 방법을 사용해볼 수 있다.
- 그러나 모든 상관곡선에는 데이터의 중요 양상을 보여주면서도, 기저의 데이터 포인트들을 감춰버리기 때문에, 엉뚱한 결론을 낼 위험이 있다.
- 차원 축소 : 대부분의 고차원 데이터셋은 중복된 정보를 전하고, 서로 상관성이 있는 여러 변수로 이루어져있다. 흔히 사용하는 차원 축소 기법으로는 주성분 분석(PCA ; Principal Components Analysis)가 있다. 기존 변수들을 선형적으로 조합해서 주성분이라는 새 변수 집합을 도출한다.
- 쌍 데이터 : 쌍을 이루는 두 측정값이 다른 쌍에 속한 측정값들보다 서로 더 유사하다고 추정할 수 있다. 각 선의 기울기는 변화한 정도와 방향을 나타낸다.
13. 독립 변수의 시계열 데이터와 함수 시각화
- 단일 시계열 데이터 : 선은 관측값이 아님을 유의한다. 그래도 점들의 간격이 넓거나 일정하지 않을 때, 선을 그어 놓으면 데이터를 이해하기가 쉬워진다.
- 2개 이상의 반응 변수를 포함한 시계열 데이터 :
- 연결산점도를 그릴 때는 데이터의 방향과 시간 범위를 모두 표시하는 것이 중요하다. → connected scatter plot
- 고차원의 데이터 셋에서 차원 축소 후 활용해볼 수 있다. (예. 모든 지표의 주성분을 분석(PCA)하고 주성분2를 기준으로 연결 산점도를 그린다. 연결 산점도에 불황기와 회복기를 색으로 구분하여, 주성분 2의 감소가 불황과 관련이 있음을 확인할 수 있다.)
15. 지리 공간 데이터의 시각화
- 단계구분도 대신 카토그램(지도 모양의 도표) 활용
16. 불확실성의 시각화
- 표집의 핵심 개념 : 모집단의 실제 분포, 실제 모평균, 모표준편차가 포함된다. 표본을 반복적으로 추출하여 표본의 평균을 계산하면 그 평균값들은 표본평균분포를 따른다. 표준오차는 표본분포의 너비를 알려주며 관심변수 간의 차이를 알려준다. 표준오차는 모수 추정이 얼마나 정확하게 이루어졌는지를 알려준다.
- 단계별 오차 막대 : 신뢰수준이 낮을 수록 진하고 굵은 선을 활용하여 표기했다. 단순 오차 막대를 결정론적으로 인지하면 안된다.
- 결정론적 해석 오류(deterministic construal error) : 해석 오류의 위험을 줄여야 한다. 오차 막대가 데이터의 최솟값과 최댓값을 나타낸다(x) / 오차 막대는 가능성이 있는 모수 추정 범위를 나타낸다(x)
- 유의성(significance) : 신뢰도가 어느 수준을 넘어서 관측값들 사이의 차이가 무작위 표집에서 비롯되었따는 추정을 무시할 수 있을 때, 유의한 차이가 있다고 말한다. 유의한 차이를 판단하기 위해서는 차이에 대한 신뢰구간을 계산하는 것이다. 계산한 신뢰구간에 0이 포함되어있지 않으면 해당 신뢰 수준에서 차이가 유의하다고 볼 수 있다.
- 베이지안과 빈도주의 : 표본을 통한 모수 추정과 불확실성을 계산하는 방법.
- 베이지안은 전체에 대해 어느 정도 알고 있다고 가정하며, 표본을 이용해 기존 지식을 갱신한다. 사후분포(posterior distribution)와 신용구간(credible interval)을 계산한다.
- 빈도주의는 아무런 지식도 없는 상태로 세계에 대한 정확한 서술을 하고자 한다. 신뢰구간을 활용해 불확실성을 계산한다.
- 신용구간과 신뢰구간의 차이 : 베이지안 신용 구간은 실제 모수가 있을 것 같은 지점을, 빈도주의의 신뢰 구간은 실제 모수가 있을 것 같지 않은 지점을 알려준다. 베이지안은 연구 대상에 대한 데이터와 사전 지식을 활용하여, 실제 모수 값의 위치를 알려줄 사후 확률분포를 계산한다. 빈도주의는 귀무가설을 세워서, 무작위 표본 추출을 통해 얻은 데이터가 귀무가설이 진실이라고 가정했을 때 관찰될 수 있는 값과 비슷한 확률을 계산한다.
'Python' 카테고리의 다른 글
Seaborn 튜토리얼 공부(1) (0) | 2023.02.02 |
---|---|
[TIL] 230131 파이썬 데이터시각화(1) (1) | 2023.02.01 |
(8) 프로그래머스 코딩테스트 Lv1 - 파이썬 (0) | 2023.01.17 |
파이썬 복습 - Unpack/예외처리 (0) | 2023.01.08 |
(7) 프로그래머스 코딩테스트 Lv1 - 파이썬 (0) | 2023.01.08 |
블로그의 정보
Study Log by Holly
Holly Yoon