[Zero-base] Logistic Regression - 2
·
Data Analyst/ML
PIMA 부족 당뇨병 질환 발생 데이터1. 해당 데이터를 가져오겠습니다.PIMA_url = 'https://raw.githubusercontent.com/PinkWink/ML_tutorial/refs/heads/master/dataset/diabetes.csv'PIMA = pd.read_csv(PIMA_url)PIMA.head() 확인 결과 해당 컬럼과 값들을 확인 할 수 있었습니다. 2. 결측치 확인을 하기 위해 해당 값들 중 0인 값이 있는지 확인해보겠습니다.(PIMA == 0).astype(int).sum()# 0인 값들의 개수를 세기 위해 0인 값들을 더해줍니다.여기서 PIMA == 0을 설정하면 True로 바뀌게 될 것이고 해당 값을 int형으로 바꿔주면 1이 될 것입니다. 그 상태에서 sum을..
[Zero-base] Logistic Regression - 1
·
Data Analyst/ML
로지스틱 회귀 (Logistic Regression)1. 로지스틱 회귀란?- 로지스틱 회귀는 이름은 회귀 분류이지만 이진 분류(binary classification)를 위한 지도 학습 알고리즘입니다. 종속 변수(target)가 0과 1 같은 범주형 값을 가지는 경우에 사용됩니다. - 선형 회귀처럼 독립 변수와 종속 변수 간의 관계를 찾지만, 출력이 연속적인 값 대신 확률로 나타납니다. 2. 시그모이드 함수 (Sigmoid Function)- 로지스틱 회귀는 시그모이드 함수를 사용해 결과값을 0과 1 사이의 확률로 변환합니다.   σ(z)=11+ezσ(z)=11+ez - 여기서 zz는 선형 회귀의 예측값으로, 독립 변수들의 선형 결합입니다. 즉, \(z = \..
[Zero-base] Pipeline
·
Data Analyst/ML
Pipeline- 보통 ML을 할 때 순서가 Scaler 사용해서 스케일링 후 그 다음 test_train_split() 사용하여 훈련세트와 테스트 세트로 데이터를 분리해줍니다. 그리고 모델을 사용하여 분류해주는 작업을 해줍니다.즉,  Scaler -> test_train_split(분리) -> DecisionTreeClassifier(분류) 이러한 순서입니다.- Pipeline은 이렇게 나눠져 있는 3가지 작업을 하나의 작업으로 묶어주는 것을 의미합니다.Python을 통해 알아보겠습니다. 저는 와인 데이터를 이용하여 Pipeline을 만들어 보겠습니다. 1. 와인데이터를 가져와서 X(features), y(label)를 정해줍니다.import pandas as pdred_url = 'https://ra..
hmm06