글 : 권정민
만화: 주형
구매 사이트 : 클릭!
이 책은 확실히 저같이 아예 모르는 사람도 읽기 편하고 데이터를 직접 만져볼 때 무심코 지나갈만한 중요한 내용들 또한 찝어서 알려주는 책이였습니다.
그리고 확실히 만화로 되어있어서 처음 접근하기 좋았고 재밌게 읽었던 것 같습니다.
이제 저는 해당 책에서 읽었을 때 기억하면 좋을 것 같은 내용들을 쓰려고 합니다!!
1. 확률과 분포
확률이란?
시행 결과값의 평균을 0과 1사이로 나타낸 것을 '확률'이라고 합니다.
분포란?
확률이 어떤 모습으로 퍼져 있는지를 나타내는 것을 '분포'라고 합니다.
큰 수의 법칙이란?
표본의 크기가 충분히 크다면 그 때의 표본평균은 모평균에 충분히 가까워 지는 것을 말합니다.
즉, 확률은 지나간 사건의 결과를 보상해주지 않습니다. 동전 앞면이 세 번 나왔다고 해도, 다음에 뒷면이 세 번 나오지는 않는다. 하지만 사건의 반복을 통해 쌓이는 데이터는 흙탕물에 맑은 물을 붓는 것처럼 이런 불균형을 정돈할 힘을 가지고 있고, 많은 기록이 지나간 후에는 대략 동전 앞면이 50%, 뒷면이 50%에 가까워지게 되는 것입니다.
2. 실험을 통한 의사결정
많은 기업에서 실험을 통해 데이터를 수집하고 의사결정을 합니다.
그럼 이러한 실험(A/B 테스트)는 왜 하는 것일까?
기존에 없었던 기록을 얻기 위해 하는 것입니다.
A/B 테스트 계열의 실험을 할 경우 실험 대상 외의 모든 변수를 일정하게 유지해야 그에 대한 효과를 파악 할 수 있습니다.
주의점
서비스 규모가 늘어나고, 실험 의존도가 커지면서 여러 실험이 동시에 이루어지는 경우도 발생합니다.
이 때 실험이 겹치는 경우에는 발생할 수 있는 부작용을 미리 고려해야 합니다. 왜냐하면 실험 간에 상관관계가 발생한다든가 예상치 못한 상황도 발생 할 수 있기 때문입니다.
그리고 당연한 이야기이지만 실험 대상이 된 데이터는 다른 데이터와 마찬가지로 고객의 사용 내역이 기록된 데이터이지만, 실험 내용이 섞여 있어 이를 그대로 사용할 수는 없습니다.
만약 그대로 데이터를 사용한다면 데이터 분석 결과는 다소 신뢰도가 낮아질 수 밖에 없습니다.
3. 그래프 읽기
그래프는 숫자로 표현된 상황이나 현상에서 빠르게 얻기 힘든 통찰을 훨씬 쉽게 얻는 데 잘 만들어진 좋은 도구입니다.
하지만, '숫자' 보다 '모양'에 압도당하고, 만든 사람의 의도대로 만들어진 결과를 머리에 넣게 됩니다. 이를 '효과적 전달 방식'이라고도 합니다.
그래서 종종 그래프의 Y축을 임의로 사용하여 그래프의 변화량을 더 크게 만들고 값의 차이를 더 도드라지게 만들기,.혹은 그 반대로 하여 큰 차이도 눈에 띄지 않게 하기, 막대 그래프의 중간을 잘라서 여러 막대 간의 값 비교를 불명확하게 하기 등으로 조율된 그래프는 자세히 보지 않으면 데이터 내용을 잘못 이해하기 쉽게 됩니다.
그래서 그래프를 보며 데이터를 제대로 이해하기 위해 각 그래프가 나타내는 숫자가 어떻게 되는지를 역으로 파악하여 보는 시야를 가져야 합니다.
4. 느낀점
확률과 분포에 대해 좀 더 확실하게 알게된 계기인 것 같고 항상 이력 공고가 올라 올 때마다 A/B테스트에 대해 써져 있었는데 간단하게 알 수 있었습니다. (이 부분은 다른 책을 통해 좀 더 깊게 알아 봐야 할 것 같습니다.)
마지막으로 그래프 읽기도 사람들이 의도하면 그 의도 대로 읽히게 만드는 구나라는 것을 느꼈습니다. 그리고 저는 항상 그 의도에 따라 그래프를 보고 있었다는 것 또한 깨닫게 되었습니다. ㅎㅎ
그래서 데이터 분석가가 되려면 그래프를 제대로 보는 시야도 가져야 한다는 것을 알게 되었습니다.
이상으로 데이터 분석가의 숫자유감(4~6 chapther)에 대한 후기를 마치겠습니다.
'Data Analyst > BOOK' 카테고리의 다른 글
[책 리뷰] 데이터 분석가의 숫자유감 - 4 (0) | 2024.11.09 |
---|---|
[책 리뷰] 데이터 분석가의 숫자유감 - 3 (2) | 2024.11.07 |
[책 리뷰] 데이터 분석가의 숫자유감 - 1 (0) | 2024.11.01 |