[책 리뷰] 데이터 분석가의 숫자유감 - 1
·
Data Analyst/BOOK
글 : 권정민만화: 주형구매 사이트 : 클릭!데이터 분석가에게 필요한 데이터를 읽는 시야는 매우 중요합니다. 저는 데이터를 거의 처음 접하다 보니 읽는 독해력이 매우 없었습니다. 그래서 데이터 왕초보도 쉽고 빠르게 읽을 수 있는 책이 찾다가 해당 책을 찾게 되었습니다. 우선 작가님께서는 실제로 데이터 분석가이기도 해서 해당 책을 고르기도 하였고 통계 관련해서도 간단히라도 써져있어서 구매한 책입니다. 이 책은 확실히 저같이 아예 모르는 사람도 읽기 편하고 데이터를 직접 만져볼 때 무심코 지나갈만한 중요한 내용들 또한 찝어서 알려주는 책이였습니다.그리고 확실히 만화로 되어있어서 처음 접근하기 좋았고 재밌게 읽었던 것 같습니다. 이제 저는 해당 책에서 읽었을 때 기억하면 좋을 것 같은 내용들을 쓰려고 합니다!..
[기초 통계] 조건부 확률
·
Data Analyst/기초 통계
1. 조건부 확률이란?한 사건이 다른 사건의 발생에 의존적인 경우입니다." | "는 해당 기호 뒤에 위치한 사건이 발생했을 때(조건)라는 의미입니다.ex) 지각할 확률 P(A) = 5%      조건: 타이어가 펑크(F) 났을 때 지각할 확률은 100%이다.       P(A|F) = 100 %2. 독립이란?하나의 사건이 다른 사건에 영향을 미치지 않는 경우를 말합니다.이 때, 사건들이 독립이라면 두 사건의 확률을 곱할 수 있습니다.ex) 동전이 앞면, 스페이드를 뽑을 확률       P(H, S) = P(H) * P(S) = 1/2 * 1/4 = 1/8 -> 12.5%이다.3. 예시를 통한 실습1. 그럼 만약 A, J가 동시에 지각할 확률을 계산할 경우는 어떻게 될 것인지 확인해보겠습니다.서로 독립이므..
[SQL] Programmers 문제 풀기(저자 별 카테고리 별 매출액 집계하기)
·
Data Analyst/SQL
해당 문제는 Programmers에서 사용한 문제이며 모든 테이블의 자료와 출처는 Programmers임을 밝힙니다.해당 글에서는 집계함수와 GROUP BY를 이용하여 푸는 문제로 초보자가 하기에는 보통 정도의 난이도를 가지고 있는 것 같습니다.해당 문제 원본을 확인 하시려면 해당 사이트를 들어가시면 될 것 같습니다. 시작하겠습니다. 2022년 1월의 도서 판매 데이터를 기준으로 저자 별, 카테고리 별 매출액(TOTAL_SALES = 판매량 * 판매가) 을 구하여, 저자 ID(AUTHOR_ID), 저자명(AUTHOR_NAME), 카테고리(CATEGORY), 매출액(SALES) 리스트를 출력하는 SQL문을 작성해주세요.결과는 저자 ID를 오름차순으로, 저자 ID가 같다면 카테고리를 내림차순 정렬해주세요.해..
[기초 통계] 1종 오류, 2종 오류
·
Data Analyst/기초 통계
0. 오류란?우리가 한 선택이 잘못된 선택일 수 있다 라는 것을 오류라 합니다.1. 1종 오류란?실제로 참인 귀무가설을 잘못 기각하는 오류를 의미합니다.즉, 귀무가설이 참인데도 불구하고, 통계적 검정 결과를 통해 이를 기각하고 대립가설을 채택하는 잘못된 결정을 내리는 경우입니다.유의 수준(α) : 제 1종 오류를 범할 확률은 유의수준으로 결정합니다. 만약 유의 수준이 0.05인 경우 5%확률로 오류를 범할 수 있습니다.False Positive라고도 부릅니다!2. 2종 오류란?실제로 거짓인 귀무가설을 잘못 채택하는 오류를 의미합니다.즉, 대립가설이 참이지만 귀무가설을 기각하지 않고 채택한 경우를 말합니다.오류 발생확률(β) : 오류 발생확률이 클수록 오류 범할 확률이 높아집니다.검정력(power) : 검..
[SQL] Programmers 문제 풀기(즐겨찾기가 가장 많은 식당 정보 출력하기)
·
Data Analyst/SQL
해당 문제는 Programmers에서 사용한 문제이며 모든 테이블의 자료와 출처는 Programmers임을 밝힙니다.해당 글에서는 서브쿼리와 GROUP BY를 이용하여 푸는 문제로 초보자가 하기에는 보통 정도의 난이도를 가지고 있습니다.해당 문제 원본을 확인 하시려면 해당 사이트를 들어가시면 될 것 같습니다. 시작하겠습니다.REST_INFO 테이블에서 음식종류별로 즐겨찾기수가 가장 많은 식당의 음식 종류, ID, 식당 이름, 즐겨찾기수를 조회하는 SQL문을 작성해주세요. 이때 결과는 음식 종류를 기준으로 내림차순 정렬해주세요해당 문제에서 알아야 할 것은 집계함수를 쓴다고 해서 다른 컬럼 값이 집계함수 사용한 컬럼값의 동일한 행에 있는 값으로 바뀌지 않는다는 것입니다.(제가 이제 깨달은 것도 참...신기하..
[SQL] Programmers 문제 풀기 (자동차 대여 기록에서 대여중 / 대여 가능 여부 구분하기)
·
Data Analyst/SQL
해당 문제는 Programmers에서 사용한 문제이며 모든 테이블의 자료와 출처는 Programmers임을 밝힙니다.해당 글에서는 CASE와 집계함수를 이용하여 푸는 문제로 문제만 이해한다면 간단히 풀 수 있는 문제일 것 같습니다.해당 문제 원본을 확인 하시려면 해당 사이트를 들어가시면 될 것 같습니다. 시작하겠습니다.CAR_RENTAL_COMPANY_RENTAL_HISTORY 테이블에서 2022년 10월 16일에 대여 중인 자동차인 경우 '대여중' 이라고 표시하고, 대여 중이지 않은 자동차인 경우 '대여 가능'을 표시하는 컬럼(컬럼명: AVAILABILITY)을 추가하여 자동차 ID와 AVAILABILITY 리스트를 출력하는 SQL문을 작성해주세요. 이때 반납 날짜가 2022년 10월 16일인 경우에도..
[Zero-base] 최동원 선수 연봉 예측하기 - 보충
·
Project/Machine Learning
이전 글에서 했던 예측 모델에서 많은 문제가 있었습니다. 첫번째, 왜 선형 회귀 모델을 사용하였는지 모른다는 문제두번째, 각 변수마다 이상치를 모두 확인 하지 않았던 문제해당 문제를 이번 글에서 해결 해보겠습니다.  그리고 XGBoost와 하이퍼파라미터 튜닝 또한 해보겠습니다. 1. 왜 선형 회귀 모델을 사용하면 안될까?우선 해당 문제는 최동원 선수의 연봉 예측 문제이고 아래의 이미지와 같이 해당 분포도를 보면 선형적인 그래프를 가지지 않습니다.그래서 선형 회귀를 사용하는 것은 매우 좋지 않은 선택이며 성능 저하될 수 도 있다 판단 하였습니다.그래서 저는 차라리 비선형 관계를 잘 학습하는 앙상블 방법 중 XGBoost를 사용하여 하이퍼 파라미터 성능 조정도 하여 연봉 예측을 해보겠습니다.2. 각 변수마다..
[기초 통계]가설 검정(Hypothesis Test)
·
Data Analyst/기초 통계
1. 가설 이란?모수에 대해서 얼마나 된다는 주장 이 것을 가설이라 합니다.2. 가설 검정A, B에 대해서 Sample 데이터를 얻어서 이 가설이 어떻게 합당한지 어느 상황에 있는지 살펴보고, 이 상황에 따라서 가설을 선택하는 것이 가설검정입니다. 또는, 모집단에 대해서 어떤 모수를 잘 설명할 수 있는 가설입니다.모수(parameter) : 모집단에 대한 성격을 가진 고정된 수입니다.(하지만, 우리는 알 수가 없는 수입니다.) 즉, 가설은 모집단의 수를 추정하는 것이기 때문에 "H0 : x_bar = 0"이라 하면 틀린 것이다 왜냐하면 x_bar는 표본 평균이므로 모집단 수가 아니기 때문이다. 그래서 "H0 : seta = 0"이라 써야 맞는 것이다. 그리고 가설을 설정할 때 두 개가 겹치는 내용이 있어..
[SQL] Programmers 문제 풀기 (대여 횟수가 많은 자동차들의 월별 대여 횟수 구하기)
·
Data Analyst/SQL
해당 문제는 Programmers에서 사용한 문제이며 모든 테이블의 자료와 출처는 Programmers임을 밝힙니다.해당 글에서는 서브쿼리와 GROUP BY를 이용하여 푸는 문제로 초보자가 하기에는 보통~어려움 정도의 난이도를 가지고 있습니다.해당 문제 원본을 확인 하시려면 해당 사이트를 들어가시면 될 것 같습니다. 시작하겠습니다.CAR_RENTAL_COMPANY_RENTAL_HISTORY 테이블에서 대여 시작일을 기준으로 2022년 8월부터 2022년 10월까지 총 대여 횟수가 5회 이상인 자동차들에 대해서 해당 기간 동안의 월별 자동차 ID 별 총 대여 횟수(컬럼명: RECORDS) 리스트를 출력하는 SQL문을 작성해주세요. 결과는 월을 기준으로 오름차순 정렬하고, 월이 같다면 자동차 ID를 기준으로..
[기초 통계] 표본 분포 이해하기
·
Data Analyst/기초 통계
1. 모집단(Population)연구대상이라고도 한다. 하지만 모집단은 우리가 알아낼 수 없습니다.SRS(Simple Random Sampling) : 모집단 전체를 조사할 수 없기 때문에 사용합니다.2. 표본(Sample)모집단을 알아낼 수 없기에 모집단과 비슷한 집단의 데이터들을 뽑아낸 것을 우리는 표본이라합니다. 표본에서 알아낸 통계치를 x_bar(표본 평균), S(표본 표준편차) 이용하여 모수를 추정합니다. 모수: 모집단에서 얻을 수 있는 평균(u)과 표준편차(seta) 등의 통계치를 말합니다.3. 표본 분포표본을 뽑으면 그 값이 모집단의 모수와 얼마나 가까운지 모르기에 여러번의 sampling을 통해 각각의 통계치를 분포로 나타낸 것이다.해당 그림은 표본 평균에 대한 표본 분포입니다. 이렇게 샘..
hmm06