[기초 통계] p-value(유의 확률)
·
Data Analyst/기초 통계
Q1. p-value이란?우선 p-value에 대해 알기 전에 p가 무엇인지 알아야 합니다.여기서 p는 probability(확률)의 약자입니다. 즉, p-value는 확률 값이라는 의미입니다. Q2. 그럼 p-value가 무엇에 대한 확률인가?어떠한 사건이 우연히 발생할 확률입니다. Q3. 왜 p-value는 항상 0.05보다 작아야 합니까?우선 p-value가 가질 수 있는 값은 0~1까지 입니다.그냥 수학학자들이 해당 값으로 정한 것입니다.(해당 문제에 대해 알아봤지만 모르겠습니다.)즉, 5% 정도면 우연이 아닐 것이라는 추정이라는 뜻이기도 합니다.또는 내용 정리p-value가 0.05 이하라는 것은 어떠한 사건이 우연히 일어났을 것이라는 가능성이 없다는 것입니다. 또 다르게 말하면 이 사건은 우연..
[SQL] HackerRank 문제 풀기 (Symmetric Pairs)
·
Data Analyst/SQL
해당 문제는 HackerRank에서 사용한 문제이며 모든 테이블의 자료와 출처는 Hackerank임을 밝힙니다.해당 글에서는 UNION, JOIN, GROUP BY, HAVING을 모두 사용하여 푸는 문제로 난이도가 매우 높은 문제입니다.해당 문제 원본을 확인 하시려면 해당 사이트를 들어가시면 될 것 같습니다. 시작하겠습니다Two pairs (X1, Y1) and (X2, Y2) are said to be symmetric pairs if X1 = Y2 and X2 = Y1.Write a query to output all such symmetric pairs in ascending order by the value of X. List the rows such that X1 ≤ Y1.(X1 = Y2이고 ..
[SQL] SELF JOIN 사용하여 문제 풀기 (Rising Temperature)
·
Data Analyst/SQL
해당 문제는 LeetCode에서 사용한 문제이며 모든 테이블의 자료와 출처는 LeetCode임을 밝힙니다.해당 글에서는 SELF JOIN를 사용하여 푸는 문제로 저 같은 초보자에게는 매우 난이도가 있는 문제인 것 같습니다.해당 문제 원본을 확인 하시려면 해당 사이트를 들어가시면 될 것 같습니다. 시작하겠습니다.Write a solution to find all dates' id with higher temperatures compared to its previous dates (yesterday).(이전 날짜(어제)에 비해 온도가 높은 모든 날짜의 ID를 찾는 솔루션을 작성합니다.) 이 문제에서는 우선 Weather라는 테이블이 주어졌으며 이전 날짜에 비해 온도가 높은 모든 날짜의 ID를 출력하는 것입니..
[Zero-base] 군집화(Clustering) - 2
·
Data Analyst/ML
1. IRIS 데이터를 가져오겠습니다.from sklearn.datasets import load_iris# 해당 데이터에는 Label이 없습니다.iris = load_iris()# 특성 이름을 가져옵니다.cols = [each[:-5] for each in iris.feature_names]import pandas as pdiris_df = pd.DataFrame(iris.data, columns=cols)iris_df.head()# 중요 특성 2개만 사용하겠습니다.features = iris_df[['petal length', 'petal width']]위의 코드와 같이 데이터 프레임을 만들기위해 컬럼명들을 가져오고 중요한 특성 두 개만 가지고 오는 것을 확인 할 수 있습니다. (제 블로그 IRIS ..
[Zero-base] 군집화(Clustering) - 1
·
Data Analyst/ML
비지도 학습학습 데이터에 정답(label)이 없는 상태에서 데이터의 구조를 분석하고 패턴을 찾아내는 기계 학습 방법입니다.주로 데이터의 숨겨진 구조를 파악하거나, 비슷한 특성을 가진 데이터들을 군집화하는 데 사용됩니다.비지도 학습에서는 모델이 데이터를 학습하면서 정답을 맞추는 것이 아니라, 데이터의 특징을 추출하거나 그룹을 구분합니다. 비지도 학습 대표적인 사례군집 Clustering : 비슷한 샘플을 모음이상치 탐지 Outlier detection : 정상 데이터가 어떻게 보이는지 학습, 비정상 샘플을 감지밀도 추정 : 데이터셋의 확률 밀도 함수 Probability Density Function PDF를 추정, 이상치 탐지 등에 사용K-Means군집 중심 이라는 임의의 지점을 선택해서 해당 중심에 가..
[SQL] INNER JOIN 사용하여 문제 풀기 (Type of Triangle)
·
Data Analyst/SQL
해당 문제는 HackerRank에서 사용한 문제이며 모든 테이블의 자료와 출처는 Hackerank임을 밝힙니다.해당 글에서는 INNER JOIN를 사용하여 푸는 문제로 그래도 처음 푸는 사람에게도 적절한 문제인 것 같습니다..해당 문제 원본을 확인 하시려면 해당 사이트를 들어가시면 될 것 같습니다. 시작하겠습니다Given the CITY and COUNTRY tables, query the names of all the continents (COUNTRY.Continent) and their respective average city populations (CITY.Population) rounded down to the nearest integer.Note: CITY.CountryCode and COU..
[Zero-base] 주성분 분석(PCA, Principal Component Analysis) - 2
·
Data Analyst/ML
IRIS 데이터로 PCA 적용해보겠습니다.import pandas as pdfrom sklearn.datasets import load_irisiris = load_iris()iris_pd = pd.DataFrame(iris.data, columns = iris.feature_names)iris_pd['species'] = iris.targetiris_pd.head()# StandardScaler 데이터 스케일링from sklearn.preprocessing import StandardScaleriris_ss = StandardScaler().fit_transform(iris.data)이렇게 StandardScaler를 통해 데이터들을 스케일링까지 해주었습니다. 2. PCA 적용하기from sklearn..
[Zero-base] 주성분 분석(PCA, Principal Component Analysis) - 1
·
Data Analyst/ML
PCA는 많은 데이터를 간단하게 만드는 방법입니다. 데이터를 찍을 때, 여러개의 특성을 사용할 수 있습니다.하지만 특성이 너무 많으면 한 눈에 보기가 어렵습니다. 그래서 많은 데이터 중 중요한 부분만 뽑아서 간단하게 보여주는 것입니다. 즉, PCA는 데이터 분산을 최대한 보존하면서 서로 직교하는 새 기저(축)를 찾아, 고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간으로 변환하는 방법입니다. PCA에서 사용하는 기법으로는 차원축소(dimensionality reduction)와 변수 추출(feature extraction) 기법이 있습니다.여기서 변수 추출은 기존 변수를 조합해 새로운 변수를 만드는 기법이지 기존에 있는 변수를 선택하는 것이 아니므로 변수 선택(Feature Selection)과 구..
[SQL] CASE 사용하여 문제 풀기 (Type of Triangle)
·
Data Analyst/SQL
해당 문제는 HackerRank에서 사용한 문제이며 모든 테이블의 자료와 출처는 Hackerank임을 밝힙니다.해당 글에서는 CASE를 사용하여 푸는 문제로 그래도 처음 푸는 사람에게는 난이도가 있는 문제인 것 같습니다.해당 문제 원본을 확인 하시려면 해당 사이트를 들어가시면 될 것 같습니다. 시작하겠습니다Write a query identifying the type of each record in the TRIANGLES table using its three side lengths. Output one of the following statements for each record in the table:Equilateral: It's a triangle with  sides of equal lengt..
[SQL] GROUP BY 사용하여 문제풀기 (Top Earners)
·
Data Analyst/SQL
해당 문제는 HackerRank에서 사용한 문제이며 모든 테이블의 자료와 출처는 Hackerank임을 밝힙니다.해당 글에서는 Group by를 사용하여 푸는 문제로 그래도 처음 푸는 사람에게는 난이도가 있는 문제인 것 같습니다.해당 문제 원본을 확인 하시려면 해당 사이트를 들어가시면 될 것 같습니다. 시작하겠습니다We define an employee's total earnings to be their monthly salary * months worked, and the maximum total earnings to be the maximum total earnings for any employee in the Employee table. Write a query to find the maximum t..
hmm06
'Data Analyst' 카테고리의 글 목록 (4 Page)