처음 데이터를 봤을 때 해야 할 것!
- 데이터 사이즈를 확인합니다.(몇 개의 행과 열이 있는지)
- 각 변수(column) 마다 어떤 특징을 가지고 있는 지 확인합니다.
- 이산 데이터라면 -> 연속성을 띄고 있는지 아닌지 확인 만약 연속성을 띈다면 이산 데이터가 아니다.
- 연속성 데이터라면 -> type이 Object로 되어있는지 numeric으로 되어 있는지 확인
- 잘못 입력된 값은 없는지 확인해야 합니다.
이렇게 위에 있는 방법으로 처음 데이터를 볼 때 확인하면 어느정도 데이터가 어떻게 구성되어 있는지 대략적으로 알 수 있게 됩니다.
분포란?
분포는 변수가 갖는 모든 가능성의 수에서 얼마나 전체 데이터에서 차지하고 있는지를 알려주는 것입니다.
Five-number-summary
Five-number-summary라는 것은 우선 Min, Q1, Median, Q3, Max값을 의미합니다.
- Min (최소값): 데이터 세트에서 가장 작은 값.
- Q1 (제 1사분위수): 데이터 세트를 오름차순으로 정렬했을 때 하위 25%에 해당하는 값. 즉, 전체 데이터의 25%가 이 값보다 작거나 같고, 75%가 이 값보다 크거나 같은 점입니다.
- Median (중앙값 또는 제 2사분위수): 데이터 세트의 중앙에 위치한 값으로, 데이터가 정렬된 후 중간에 있는 값입니다. 데이터의 절반이 이 값보다 작고 나머지 절반이 이 값보다 큽니다.
- Q3 (제 3사분위수): 데이터 세트를 오름차순으로 정렬했을 때 상위 25%에 해당하는 값. 즉, 전체 데이터의 75%가 이 값보다 작거나 같고, 25%가 이 값보다 크거나 같은 점입니다.
- Maximum (최대값): 데이터 세트에서 가장 큰 값.
이번에는 예시를 들어 설명해보겠습니다.
Data는 중간고사 성적이라 가정해보겠습니다.
조건 : 200명 학생, 100점 만점
Data -> 77, 80, 43, 100, 49, 등등... 다양하게 있습니다.
이제 해당 데이터를 x축에 표현을 해보겠습니다.
정렬 후 해당 축에 올려놓은 결과 five-number-summary의 값들을 확인 할 수 있게 됩니다.
이제 이렇게 구해진 five-number-summary값으로 저희는 Box-Plot을 그릴 수 있게 됩니다.
Box-Plot
박스플롯은 위에서 설명했던 five-number-summary값들을 사용하여 그림을 그리는 그래프입니다.
제가 그린 그림을 보여드리겠습니다.
이처럼 five-number-summary값을 활용하여 만들 수 있습니다.
박스 안의 값은 Q1(25%)와 Q3(75%) 사이의 값들로 구성되어있으며 해당 범위를 IQR이라 말하기도 합니다.
그리고 min, max는 선을 통해 표현이 되어있습니다.
Outlier
데이터에서 극단적으로 높은 수나 너무 작은 수를 Outlier라 합니다. 즉 max값 또는 min값을 넘어서는 값들을 의미합니다.
IQR의 1.5배를 기준으로 하여 Q1 이하 또는 Q3 이상인 값을 Outlier(이상치)라 말합니다.
Outlier를 표시하는 경우에는 원으로 찍혀져서 나옵니다.
해당 내용은 Data Scientist 이지영님의 영상을 보고 공부한 내용입니다.
이상입니다.