글 : 권정민
만화: 주형
구매 사이트 : 클릭!
데이터 분석가에게 필요한 데이터를 읽는 시야는 매우 중요합니다. 저는 데이터를 거의 처음 접하다 보니 읽는 독해력이 매우 없었습니다. 그래서 데이터 왕초보도 쉽고 빠르게 읽을 수 있는 책이 찾다가 해당 책을 찾게 되었습니다.
우선 작가님께서는 실제로 데이터 분석가이기도 해서 해당 책을 고르기도 하였고 통계 관련해서도 간단히라도 써져있어서 구매한 책입니다.
이 책은 확실히 저같이 아예 모르는 사람도 읽기 편하고 데이터를 직접 만져볼 때 무심코 지나갈만한 중요한 내용들 또한 찝어서 알려주는 책이였습니다.
그리고 확실히 만화로 되어있어서 처음 접근하기 좋았고 재밌게 읽었던 것 같습니다.
이제 저는 해당 책에서 읽었을 때 기억하면 좋을 것 같은 내용들을 쓰려고 합니다!!
1. 상관 관계와 인과 관계
인과관계란?
하나의 요인으로 인해 다른 요인의 수치가 변하는 형태처럼, 원인과 결과 관계가 명확한 것을 뜻합니다.
상관관계란?
두 변수가 얼마나 상호 의존적인지를 의미합니다. 이를 파악하는 방법은 한 변수가 증가하면 다른 변수가 따라 증가하거나, 감소하되 그 추이를 따르는 식을 숫자로 표현한 것입니다.
알아둘 것!
데이터를 분석할 때 변수끼리 얼마나 의존적인지 확인하는데 상관계수를 사용합니다. 그리고 간혹 특정 변수 간의 상관계수가 의미있게 나온다고 해당 변수를 특정 문제의 원인으로 꼽는 식으로 데이터를 분석하는 경우가 있습니다.
(제가 이렇게 분석했었는데 반성해야겠군요...)
하지만 사실은 그렇지 않은 경우도 있습니다!! 왜냐하면 두 변수의 형태는 우연의 결과거나, 외부에서 발생한 변수가 두 변수에 동시에 영향을 미친 것일 수도 있기 때문입니다.
즉, 두 변수가 상관관계만으로 원인과 결과임을 판단할 수 없고 그래서 상관관계가 인과관계를 나타내는 것은 아닌 것입니다!!
그러므로 외생변수나 편향성을 고려하여 분석해야 합니다.
상관관계는 인과관계가 아니며, 특히 수많은 외생 변수가 여기저기 떠다니는 현실 데이터 분석에서는 더욱 그렇다!!
2. 모수와 표본
큰 수의 법칙이란?
표본의 크기가 충분히 크다면 그때의 표본 평균은 모평균에 충분히 가까워진다는 것입니다.
모수란?
의외로 많은 사람들은 모수를 모집단의 수라고 생각합니다. 하지만 모수는 모집단의 수치적 요약값입니다.
즉, 모평균이나 모표준편차 같은 모집단에 대한 통계값을 모수라 합니다.
표본이란?
예를 들어 전체 사용자의 구매 패턴을 파악하고자 할 때, 전체 사용자(모집단)라는 개념을 일단 어느 정도 정의하고, 이 중에서 사용할 데이터를 찾습니다. 2020년 12월 한 달의 구매 데이터라고 사용할 데이터를 정의하면 이 것이 표본이 됩니다.
알아둘 것!
즉, 많은 데이터 분석은 이와 같이 모집단의 형태를 추정하는 식으로 이루어집니다. 따라서 데이터 분석에서 '모집단' 자체를 다룰 수 있는 경우는 거의 없습니다.
전체 데이터를 다 사용한다고 해도, 그 데이터가 서비스를 적게 사용한 사람들, 늦게 가입한 사람들, 중간에 탈퇴한 사람들을 모두 대표할 수 없는 것입니다!!
3. 느낀점
이렇게 두 챕터만 읽었는데도 확실히 저는 지금까지 데이터 분석을 제대로 하지 않고 무작정 한 느낌이 들기도 했습니다.
확실히 제가 익숙하지 않은 지식과 용어에 대한 정의를 객관적인 시각으로 이해하는 것, 자신의 시각에 비추어 오용하지 않거나 남용하지 않는 것, 이런 것이 데이터를 이해하기 전에 서로 잘 맞춰가야 하는 무엇보다 중요한 전제인 것 같습니다!!
이상으로 데이터 분석가의 숫자유감(1~3 chapther)에 대한 후기를 마치겠습니다.
'Data Analyst > BOOK' 카테고리의 다른 글
[책 리뷰] 데이터 분석가의 숫자유감 - 4 (0) | 2024.11.09 |
---|---|
[책 리뷰] 데이터 분석가의 숫자유감 - 3 (2) | 2024.11.07 |
[책 리뷰] 데이터 분석가의 숫자유감 - 2 (1) | 2024.11.05 |