[기초 통계] 정규분포, 중심 극한 정리
·
Data Analyst/기초 통계
Sample variaton(S^2) : 분산우선 위의 이름과 같이 샘플에서의 분산에 대한 설명입니다. 데이터가 평균을 중심으로 얼마나 퍼져 있는지를 나타내는 통계적 지표입니다.즉, 각 데이터 포인트가 평균값에서 얼마나 떨어져 있는지의 평균을 계산한 값입니다. Sample Standard Deviation : 표준편차표준편차는 평균값에 대해서 얼마나 떨어져 있는지에 대한 정도를 평균화 한 것입니다. 위의 분산의 설명과 같습니다.하지만 표준 편차와 분산의 차이점은 명확합니다. 차이점분산 : 제곱된 거리의 평균입니다.표준 편차 : 분산에 루트를 씌워 원래 데이터와 동일한 단위를 가지도록 만든 값입니다. 위의 그림에서의 공식은 표준편차의 공식입니다. 여기서 제가 써놓은 것을 설명해보겠습니다.우선 키를 통해 예..
[zero-base] 스타벅스와 이디야 매장 거리 분석
·
Project/data analysis
우선 해당 주제를 가져온 이유는 이디야커피는 가끔 스타벅스 매장이 위치한 곳에 매장을 위치하는 것이 아니냐는 의심을 받곤 합니다. 그리고 공식적으로 이디야 커피 회장은 이 사실을 부인 한 것으로 알고 있습니다.그래서 직접 이디야 매장 위치와 스타벅스 위치 데이터들을 가져와서 분석해보고 사실인지 아닌지를 판단 해보겠습니다. 문제 1 : 서울시 스타벅스 매장 위치 크롤링from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom bs4 import BeautifulSoupimport timestar_url = "https://www.starbucks.co.kr/store/store_map.do"driver = webdriver.C..
[기초 통계] Positive & Negative Skew(Mean vs Median)
·
Data Analyst/기초 통계
Mean(평균) 값이 더 클 경우정규 분포표를 보면 오른쪽으로 꼬리가 긴 그래프를 많이 보실 수 있습니다. 아래의 사진에서 왼쪽 그림과 같이요. 우선 알아야 할 것은 끝 값들이 바뀐다 해도 median 값은 바뀌지 않는 다는 것을 알고 있어야 합니다.이렇게 Mean 값이 커서 오른쪽으로 꼬리가 길어지는 이유는 끝에 있는 숫자들이 크고 끝에 있는 숫자들이 많기  때문입니다.  예시를 들어서 설명해보겠습니다. 해당 그래프를 하나의 반의 시험 성적이라고 해보겠습니다.만약 시험이 쉬워서 점수를 높게 받은 학생들이 많았습니다. 그러면 선생님은 우리 반 평균이 많이 높아졌다~ 라는 말씀을 하실 것입니다.이러한 예시와 같이 높은 점수가 있게 되면 평균이 높아지게 되고 그래프는 오른쪽으로 꼬리가 길어지게 됩니다. 그래..
[Zero-base] 최동원 선수 연봉 예측하기 - 3
·
Project/Machine Learning
문제 32번의 데이터를 기준으로 최동원의 성적이라면 연봉이 어떨지 예측하시오. 답 : 저는 데이터 예측을 위해 선형 회귀(Linear Regression)를 사용 할 것입니다. 그리고 이상하다면 이상치가 있는 지 확인 하고 이상치가 많다면 해당 컬럼의 이상치를 제거하고 훈련을 시켜서 예측을 시켜볼 것입니다.코드1. 이상치 제거X, 모든 컬럼 사용 후 예측# 데이터 쪼개기from sklearn.model_selection import train_test_split# 숫자형 데이터가 아닌 값은 빼놓기X = baseball.drop(columns=['연봉','팀명', '선수명'], axis=1)y = baseball['연봉']X_train, X_test, y_train, y_test = train_test_s..
[Zero-base] 최동원 선수 연봉 예측하기 - 2
·
Project/Machine Learning
문제 2투수들의 연봉 및 데이터를 2010년대 투수들의 연봉 및 데이터로 매핑(mapping)하기즉, 우리는 최동원이 현재 존재한다면 그 연봉을 알고 싶은 것이니, 최동원의 데이터만 현재 선수에 맞춰 변환할 것인지, 혹은, 당시 선수들의 데이터를 모두 변환해서 검토할 것인지 결정해야 할 것 입니다. 저의 해답 : 저는 1982 ~ 1988 년의 연봉 데이터를 찾을 수 없을 뿐더러 최동원의 선수 데이터만 있으면 충분할 것이라 생각되었으며 2010년~2015년의 선수들의 연봉 데이터는 충분한 기록이 있으므로 해당 데이터만 사용하여 연봉을 예측할 것입니다.코드1. Statiz 홈페이지에서 선수들의 연봉 가져오기url3 = "https://statiz.sporki.com/stats/?m=main&m2=pitch..
[Zero-base] 최동원 선수 연봉 예측하기 - 1
·
Project/Machine Learning
문제 1우리 과제는 최동원의 롯데 시절 1983년부터 1988년의 데이터를 사용하도록 하겠습니다.최동원의 당시 데이터와 함께 1983년부터 1988년 사이 투수들의 데이터(연봉포함)를 구하고, 2015년부터 2020년까지 프로야구의 투수들의 데이터를 구하시오.해결 방법저는 우선 야구선수들의 데이터가 필요하다 판단하여 KBO 사이트에서 데이터를 찾기로 하였습니다.해당 사이트 확인 결과 TABLE로 구성되어 있는 것을 확인하였습니다. 그래서 Selenium과 BeautifulSoup를 활용하면 될 거라 판단하였습니다. 즉, 첫 번째 작업으로 해당 테이블을 크롤링을 목표로 잡았습니다.from selenium import webdriverfrom selenium.webdriver.common.by import ..
[기초 통계] 분포 & Box Plot
·
카테고리 없음
처음 데이터를 봤을 때 해야 할 것!데이터 사이즈를 확인합니다.(몇 개의 행과 열이 있는지)각 변수(column) 마다 어떤 특징을 가지고 있는 지 확인합니다.이산 데이터라면 -> 연속성을 띄고 있는지 아닌지 확인 만약 연속성을 띈다면 이산 데이터가 아니다.연속성 데이터라면 -> type이 Object로 되어있는지 numeric으로 되어 있는지 확인잘못 입력된 값은 없는지 확인해야 합니다.이렇게 위에 있는 방법으로 처음 데이터를 볼 때 확인하면 어느정도 데이터가 어떻게 구성되어 있는지 대략적으로 알 수 있게 됩니다. 분포란?분포는 변수가 갖는 모든 가능성의 수에서 얼마나 전체 데이터에서 차지하고 있는지를 알려주는 것입니다.  Five-number-summaryFive-number-summary라는 것은 ..
[기초 통계] 이산 데이터 VS 연속성 데이터
·
Data Analyst/기초 통계
1. 이산데이터(Discrete Data)우선 Count할 수 있는 데이터입니다. 우리가 예상할 수 있는 경우의 수를 셀 수 있을 때를 말합니다.예 : 주사위, 한 반에 있는 학생 수, 각 집마다의 방 개수 등.. Categorical Data라고도 합니다. 2. 연속성 데이터(Continuous Data)우선 Measured(~을 재다)한 데이터 입니다. 연속성 데이터는 저희가 셀 수 없는 단위로 되어 있습니다. 그 이유는 예시를 들어 설명하겠습니다.저의 키를 매우 정확하게 말하면 177.89623•••으로 해당 키의 소수점 자리들을 제대로 알 수 없으며 셀 수 없습니다.즉, 이러한 데이터를 연속성 데이터라 합니다. 그래서 해당 데이터를 세기 위해 그룹화하여 말하는 것입니다. 위의 키를 짐작으로 177..
[기초 통계] p-value(유의 확률)
·
Data Analyst/기초 통계
Q1. p-value이란?우선 p-value에 대해 알기 전에 p가 무엇인지 알아야 합니다.여기서 p는 probability(확률)의 약자입니다. 즉, p-value는 확률 값이라는 의미입니다. Q2. 그럼 p-value가 무엇에 대한 확률인가?어떠한 사건이 우연히 발생할 확률입니다. Q3. 왜 p-value는 항상 0.05보다 작아야 합니까?우선 p-value가 가질 수 있는 값은 0~1까지 입니다.그냥 수학학자들이 해당 값으로 정한 것입니다.(해당 문제에 대해 알아봤지만 모르겠습니다.)즉, 5% 정도면 우연이 아닐 것이라는 추정이라는 뜻이기도 합니다.또는 내용 정리p-value가 0.05 이하라는 것은 어떠한 사건이 우연히 일어났을 것이라는 가능성이 없다는 것입니다. 또 다르게 말하면 이 사건은 우연..
[SQL] HackerRank 문제 풀기 (Symmetric Pairs)
·
Data Analyst/SQL
해당 문제는 HackerRank에서 사용한 문제이며 모든 테이블의 자료와 출처는 Hackerank임을 밝힙니다.해당 글에서는 UNION, JOIN, GROUP BY, HAVING을 모두 사용하여 푸는 문제로 난이도가 매우 높은 문제입니다.해당 문제 원본을 확인 하시려면 해당 사이트를 들어가시면 될 것 같습니다. 시작하겠습니다Two pairs (X1, Y1) and (X2, Y2) are said to be symmetric pairs if X1 = Y2 and X2 = Y1.Write a query to output all such symmetric pairs in ascending order by the value of X. List the rows such that X1 ≤ Y1.(X1 = Y2이고 ..
hmm06