[기초 통계] 조건부 확률
·
Data Analyst/기초 통계
1. 조건부 확률이란?한 사건이 다른 사건의 발생에 의존적인 경우입니다." | "는 해당 기호 뒤에 위치한 사건이 발생했을 때(조건)라는 의미입니다.ex) 지각할 확률 P(A) = 5%      조건: 타이어가 펑크(F) 났을 때 지각할 확률은 100%이다.       P(A|F) = 100 %2. 독립이란?하나의 사건이 다른 사건에 영향을 미치지 않는 경우를 말합니다.이 때, 사건들이 독립이라면 두 사건의 확률을 곱할 수 있습니다.ex) 동전이 앞면, 스페이드를 뽑을 확률       P(H, S) = P(H) * P(S) = 1/2 * 1/4 = 1/8 -> 12.5%이다.3. 예시를 통한 실습1. 그럼 만약 A, J가 동시에 지각할 확률을 계산할 경우는 어떻게 될 것인지 확인해보겠습니다.서로 독립이므..
[기초 통계] 1종 오류, 2종 오류
·
Data Analyst/기초 통계
0. 오류란?우리가 한 선택이 잘못된 선택일 수 있다 라는 것을 오류라 합니다.1. 1종 오류란?실제로 참인 귀무가설을 잘못 기각하는 오류를 의미합니다.즉, 귀무가설이 참인데도 불구하고, 통계적 검정 결과를 통해 이를 기각하고 대립가설을 채택하는 잘못된 결정을 내리는 경우입니다.유의 수준(α) : 제 1종 오류를 범할 확률은 유의수준으로 결정합니다. 만약 유의 수준이 0.05인 경우 5%확률로 오류를 범할 수 있습니다.False Positive라고도 부릅니다!2. 2종 오류란?실제로 거짓인 귀무가설을 잘못 채택하는 오류를 의미합니다.즉, 대립가설이 참이지만 귀무가설을 기각하지 않고 채택한 경우를 말합니다.오류 발생확률(β) : 오류 발생확률이 클수록 오류 범할 확률이 높아집니다.검정력(power) : 검..
[기초 통계]가설 검정(Hypothesis Test)
·
Data Analyst/기초 통계
1. 가설 이란?모수에 대해서 얼마나 된다는 주장 이 것을 가설이라 합니다.2. 가설 검정A, B에 대해서 Sample 데이터를 얻어서 이 가설이 어떻게 합당한지 어느 상황에 있는지 살펴보고, 이 상황에 따라서 가설을 선택하는 것이 가설검정입니다. 또는, 모집단에 대해서 어떤 모수를 잘 설명할 수 있는 가설입니다.모수(parameter) : 모집단에 대한 성격을 가진 고정된 수입니다.(하지만, 우리는 알 수가 없는 수입니다.) 즉, 가설은 모집단의 수를 추정하는 것이기 때문에 "H0 : x_bar = 0"이라 하면 틀린 것이다 왜냐하면 x_bar는 표본 평균이므로 모집단 수가 아니기 때문이다. 그래서 "H0 : seta = 0"이라 써야 맞는 것이다. 그리고 가설을 설정할 때 두 개가 겹치는 내용이 있어..
[기초 통계] 표본 분포 이해하기
·
Data Analyst/기초 통계
1. 모집단(Population)연구대상이라고도 한다. 하지만 모집단은 우리가 알아낼 수 없습니다.SRS(Simple Random Sampling) : 모집단 전체를 조사할 수 없기 때문에 사용합니다.2. 표본(Sample)모집단을 알아낼 수 없기에 모집단과 비슷한 집단의 데이터들을 뽑아낸 것을 우리는 표본이라합니다. 표본에서 알아낸 통계치를 x_bar(표본 평균), S(표본 표준편차) 이용하여 모수를 추정합니다. 모수: 모집단에서 얻을 수 있는 평균(u)과 표준편차(seta) 등의 통계치를 말합니다.3. 표본 분포표본을 뽑으면 그 값이 모집단의 모수와 얼마나 가까운지 모르기에 여러번의 sampling을 통해 각각의 통계치를 분포로 나타낸 것이다.해당 그림은 표본 평균에 대한 표본 분포입니다. 이렇게 샘..
[기초 통계] 정규분포, 비대칭도, 첨도
·
Data Analyst/기초 통계
1. Skewness(비대칭도)해당 수치를 보고 왼쪽 또는 오른쪽으로 꼬리가 긴 모양을 가졌을 거라는 판단을 할 수 있습니다.앞서 배운 Positive & Negative Skew에서 말했던 그래프를 떠올리시면 됩니다.2. Kurtosis(첨도)Outlier 정도 입니다. 즉, 얼마나 Outlier를 가지고 있는지에 대한 값입니다.만약 Kurtosis의 값이 매우 크다면 Outlier 값이 좀 있다라는 것을 알 수 있습니다.그럼 Kurtosis의 값이 음수라면 위의 그림과 같이 정규분포가 가지는 끝에 나오는 값보다 더 적은 것을 의미합니다.즉, 끝 값이 정규 분포 보다 더 적게 나오는 것입니다.3. 예시 설명A지역과 B지역이 있다고 가정해보겠습니다. 그리고 Skewness와 Kurtosis 값을 정보로 ..
[기초 통계] 정규분포, 중심 극한 정리
·
Data Analyst/기초 통계
Sample variaton(S^2) : 분산우선 위의 이름과 같이 샘플에서의 분산에 대한 설명입니다. 데이터가 평균을 중심으로 얼마나 퍼져 있는지를 나타내는 통계적 지표입니다.즉, 각 데이터 포인트가 평균값에서 얼마나 떨어져 있는지의 평균을 계산한 값입니다. Sample Standard Deviation : 표준편차표준편차는 평균값에 대해서 얼마나 떨어져 있는지에 대한 정도를 평균화 한 것입니다. 위의 분산의 설명과 같습니다.하지만 표준 편차와 분산의 차이점은 명확합니다. 차이점분산 : 제곱된 거리의 평균입니다.표준 편차 : 분산에 루트를 씌워 원래 데이터와 동일한 단위를 가지도록 만든 값입니다. 위의 그림에서의 공식은 표준편차의 공식입니다. 여기서 제가 써놓은 것을 설명해보겠습니다.우선 키를 통해 예..
[기초 통계] Positive & Negative Skew(Mean vs Median)
·
Data Analyst/기초 통계
Mean(평균) 값이 더 클 경우정규 분포표를 보면 오른쪽으로 꼬리가 긴 그래프를 많이 보실 수 있습니다. 아래의 사진에서 왼쪽 그림과 같이요. 우선 알아야 할 것은 끝 값들이 바뀐다 해도 median 값은 바뀌지 않는 다는 것을 알고 있어야 합니다.이렇게 Mean 값이 커서 오른쪽으로 꼬리가 길어지는 이유는 끝에 있는 숫자들이 크고 끝에 있는 숫자들이 많기  때문입니다.  예시를 들어서 설명해보겠습니다. 해당 그래프를 하나의 반의 시험 성적이라고 해보겠습니다.만약 시험이 쉬워서 점수를 높게 받은 학생들이 많았습니다. 그러면 선생님은 우리 반 평균이 많이 높아졌다~ 라는 말씀을 하실 것입니다.이러한 예시와 같이 높은 점수가 있게 되면 평균이 높아지게 되고 그래프는 오른쪽으로 꼬리가 길어지게 됩니다. 그래..
[기초 통계] 분포 & Box Plot
·
카테고리 없음
처음 데이터를 봤을 때 해야 할 것!데이터 사이즈를 확인합니다.(몇 개의 행과 열이 있는지)각 변수(column) 마다 어떤 특징을 가지고 있는 지 확인합니다.이산 데이터라면 -> 연속성을 띄고 있는지 아닌지 확인 만약 연속성을 띈다면 이산 데이터가 아니다.연속성 데이터라면 -> type이 Object로 되어있는지 numeric으로 되어 있는지 확인잘못 입력된 값은 없는지 확인해야 합니다.이렇게 위에 있는 방법으로 처음 데이터를 볼 때 확인하면 어느정도 데이터가 어떻게 구성되어 있는지 대략적으로 알 수 있게 됩니다. 분포란?분포는 변수가 갖는 모든 가능성의 수에서 얼마나 전체 데이터에서 차지하고 있는지를 알려주는 것입니다.  Five-number-summaryFive-number-summary라는 것은 ..
[기초 통계] 이산 데이터 VS 연속성 데이터
·
Data Analyst/기초 통계
1. 이산데이터(Discrete Data)우선 Count할 수 있는 데이터입니다. 우리가 예상할 수 있는 경우의 수를 셀 수 있을 때를 말합니다.예 : 주사위, 한 반에 있는 학생 수, 각 집마다의 방 개수 등.. Categorical Data라고도 합니다. 2. 연속성 데이터(Continuous Data)우선 Measured(~을 재다)한 데이터 입니다. 연속성 데이터는 저희가 셀 수 없는 단위로 되어 있습니다. 그 이유는 예시를 들어 설명하겠습니다.저의 키를 매우 정확하게 말하면 177.89623•••으로 해당 키의 소수점 자리들을 제대로 알 수 없으며 셀 수 없습니다.즉, 이러한 데이터를 연속성 데이터라 합니다. 그래서 해당 데이터를 세기 위해 그룹화하여 말하는 것입니다. 위의 키를 짐작으로 177..
[기초 통계] p-value(유의 확률)
·
Data Analyst/기초 통계
Q1. p-value이란?우선 p-value에 대해 알기 전에 p가 무엇인지 알아야 합니다.여기서 p는 probability(확률)의 약자입니다. 즉, p-value는 확률 값이라는 의미입니다. Q2. 그럼 p-value가 무엇에 대한 확률인가?어떠한 사건이 우연히 발생할 확률입니다. Q3. 왜 p-value는 항상 0.05보다 작아야 합니까?우선 p-value가 가질 수 있는 값은 0~1까지 입니다.그냥 수학학자들이 해당 값으로 정한 것입니다.(해당 문제에 대해 알아봤지만 모르겠습니다.)즉, 5% 정도면 우연이 아닐 것이라는 추정이라는 뜻이기도 합니다.또는 내용 정리p-value가 0.05 이하라는 것은 어떠한 사건이 우연히 일어났을 것이라는 가능성이 없다는 것입니다. 또 다르게 말하면 이 사건은 우연..
hmm06
'기초 통계' 태그의 글 목록