데이터 분석가의 숫자유감
by Holly Yoon전반적으로 쉽게 읽힌다. 만화일 줄 몰랐는데, 중간에 만화가 있다. 교양입문 수준의 책이라 기대한 내용과 거리가 멀었지만, 그럼에도 불구 도움이 될만한 내용들도 있었던지라 블로그에 요약글도 남겨본다.
1/상관관계와 인과관계
사람들은 무분별한 정보 사이에서 패턴을 찾고, 거기에 의미를 부여하는데 능하다. 많은 경우 비정보성 데이터에도 큰 의미를 부여하고 오히려 혼란을 일으키기도 한다. 자신에게 어떤 편향을 가지고 있는 경우 그런 현상이 더하고, 자신에게 유리한데에 있어서는 패턴탐색 및 의미 부여 능력을 오용하기도 한다. 그리고 이런 오용에 대표적으로 활용되는 지식이 과한 상관관계 부여와 상관관계와 인과관계의 혼용이다. 개인이 성과를 내세울 때도, 자신이 속한 집단의 정당성을 주장할 때도, 언론이 사람들에게 혼란을 일으키는데에도 이런 데이터의 오용이 종종 사용된다. 이런 오용을 ‘데이터 기반 의사결정’이라며 마치 대단한 근거를 가진양 이야기한다. 이를 인지하지 못한 사람들은 이를 사실이라고 믿어버린다. 상관관계는 인과관계가 아니며, 특히 수 많은 외생 변수가 있는 현실 데이터 분석에 있어서는 더욱 그렇다.
2/숫자의 불확실성
데이터 분석가는 어떤 달에 비가 몇 번이 올 지를 말할 때, 3일이 아니라 ‘평균적으로 3일 가량 온다(평균 3인 확률 분포 모형을 따른다)’라고 이야기한다. 수학은 불확실성 위에 쌓아 올려진 학문이고, 통계는 항상 확률과 같이 등장하며, 숫자는 한번도 절대적인 적이 없다. 다양한 상황에서 발생하는 다양한 숫자를 비교해야한다.
3/모수와 표본
모집단은 전체 집단이며, 우리는 모집단에 가까운 표본을 정의하고, 표본을 구할 방법을 고민한 후, 표본에 대한 데이터를 수집한다. 모수란 모집단의 수치적 요약값이다. 모평균이나 모표준편차같은 모집단에 대한 통계값을 모수라고 한다. 많은 데이터 분석은 모집단의 형태를 추정하는 식으로 이루어진다.
ex)전체 사용자의 구매 패턴을 파악하고자할 때, 전체 사용자의 개념을 일단 어느정도 정의하고, ‘20년 12월 한달 구매 사용자에 대한 구매 데이터’라고 사용할 데이터를 정의하면, 이 데이터는 일종의 표본이 된다.
4/확률과 분포
확률은 지나간 사건의 결과를 보상해주지 않는다. 동전 앞면이 세번 나왔다고 해도, 다음에 뒷면이 세번 나오지는 않는다. 그러나 사건의 반복을 통해 쌓이는 데이터는 이 불균형을 정돈할 힘이 있고, 많은 기록이 지나간 후에 동전 앞, 뒤면의 확률은 50%에 가까워지게 된다.
5/실험
실험은 바로 사용가능한, 기존에 없었던 기록을 얻기에 가장 쉽고 빠른 수단이다. 실험은 매우 유용한 수단이지만, 이후에 사용할 데이터의 가치를 미리 끌어다 쓰는 것이다. 비용을 지불 할 것이라면, 최대한 도움이 될 수 있도록 실험을 설계해야한다. 당연히 기민하게 접근하되, 명확한 목표를 세우고, 어떤 부분에 실험을 적용할지 충분히 고민하자. 고객 행동 데이터는 소중하고, 그런 데이터를 잘못된 실험으로 낭비하지 않아야 한다.
6/그래프 읽기
그래프의 근본적인 목적은 데이터를 직관적으로 이해할 수 있게 한다는 것이지만, 사람들은 그래프를 이용해 자연스럽게 사람들을 속이고 있다. 그림으로 만들어진 많은 데이터는 주관적으로 적힌다.
7/추세선 그리기
추세선은 시계열 데이터를 사용하는 경우 매우 유용하다. 데이터의 추이를 명확하게 파악하여 차트를 더 강력하게 만들어줄 수 있다. 추세선을 참고하는 계수로는 결정계수 (R-제곱)가 있으며 0과 1 사이의 값으로 추세로 그린 선과 실젯값이 얼마나 비슷한지를 측정해주는 값이다. 1에 가까울수록 비슷한 값이다.
8/시계열
데이터는 사건들을 하나하나 기록에 남기는 것이므로, 고객의 행동 변화에 영향을 받고, 고객의 행동은 시간에 영향을 받는다. 데이터를 볼 때는 당연히 시간에 따른 변화를 고려해야 한다. 시계열 데이터를 분석할 때는 크게 데이터를 ‘추세’, ‘주기’, ‘계절성’으로 구분한다.
9/별점의 함정(만족도)
사람들의 마음을 알고자하는 것도 결국은 서비스를 사람들이 다시, 오래 사용하게 하려는 목적이라는 것을 생각해보면, 데이터가 관심법은 펼치지 못해도 결국 목적으로 가는 길을 이끌어주고 있는 것이다. 다만 그 목적에 더 근접하게 데이터를 사용하는 것은 결국 사람의 몫이다.
10/인구통계학 정보의 효용성
주어지는 숫자보다는 실제로 고객이 매일마다 움직이는 행동 데이터를 기반으로 고객을 이해하는 것이 더욱 필요하다. 다양한 데이터를 사용할 수 있고, 우리가 보고자 하는 사람이 무엇을 해왔는지를 더 충분히 이해할 수 있다. 데이터를 잘 활용한다면 굳이 고정관념과 뭉뚱그려진 외부 정보만을 근거로 명확하지 않은 형체의 고객을 만들지 않아도 될 것이다.
11/조건부 확률
데이터 분석이란 과거의 기록을 사용하여 현재를 이해하는 작업이다. 현재는 다양한 과거에 의한 결과이고 유사한 모양의 현재라고 하더라도 변화의 양과 방향이 같지 않아, 현재라는 평면 아래 감춰진 입체적 모습은 각기 다른 형태를 띤다.
12/범위제한을 통한 정확도 향상
데이터 분석은 ‘의사결정의 근거’를 만들고 그 근거를 바탕으로 ‘의사결정자’들을 설득해야한다. 데이터 분석의 근간은 논리고, 논리는 명확한 정의와 범위의 제한으로부터 시작된다. 사람들은 최대한 쉽고 쓰기 편한 근거를 원하고 이는 보통 직관이라는 형태로 나타난다. 데이터 분석 결과를 종종 직관적인 모양, 포괄적인 서술 형태로 만들어버린다. 하지만 그러다 보면 분석 결과는 쓸모 없어지고, 저마다 상식만을 사용하여 받아들이게 된다. 데이터 분석해서 만들어진 결과 역시 제약사항을 명확히 정의했을 때 효과적인 수단이 된다.
13/평균
대푯값이 진실을 잘 요약해주기는 하지만, 모든 진실을 완벽하게 반영하는 것은 아니다. 분포도 함께 봐야한다.
'Book Review' 카테고리의 다른 글
[책리뷰] AI시대, 문과생은 이렇게 일합니다 (0) | 2023.01.15 |
---|
블로그의 정보
Study Log by Holly
Holly Yoon