'data scientist' 태그의 글 목록

[Zero-base] Logistic Regression - 2

2024.10.03·

Data Analyst/ML

PIMA 부족 당뇨병 질환 발생 데이터1. 해당 데이터를 가져오겠습니다.PIMA_url = 'https://raw.githubusercontent.com/PinkWink/ML_tutorial/refs/heads/master/dataset/diabetes.csv'PIMA = pd.read_csv(PIMA_url)PIMA.head() 확인 결과 해당 컬럼과 값들을 확인 할 수 있었습니다. 2. 결측치 확인을 하기 위해 해당 값들 중 0인 값이 있는지 확인해보겠습니다.(PIMA == 0).astype(int).sum()# 0인 값들의 개수를 세기 위해 0인 값들을 더해줍니다.여기서 PIMA == 0을 설정하면 True로 바뀌게 될 것이고 해당 값을 int형으로 바꿔주면 1이 될 것입니다. 그 상태에서 sum을..

[Zero-base] Logistic Regression - 1

2024.10.03·

Data Analyst/ML

로지스틱 회귀 (Logistic Regression)1. 로지스틱 회귀란?- 로지스틱 회귀는 이름은 회귀 분류이지만 이진 분류(binary classification)를 위한 지도 학습 알고리즘입니다. 종속 변수(target)가 0과 1 같은 범주형 값을 가지는 경우에 사용됩니다. - 선형 회귀처럼 독립 변수와 종속 변수 간의 관계를 찾지만, 출력이 연속적인 값 대신 확률로 나타납니다. 2. 시그모이드 함수 (Sigmoid Function)- 로지스틱 회귀는 시그모이드 함수를 사용해 결과값을 0과 1 사이의 확률로 변환합니다.

σ (z) = \frac{1}{1 + e^{- z}}

$\sigma(z) = \frac{1}{1 + e^{-z}}$ - 여기서

z

$z$ 는 선형 회귀의 예측값으로, 독립 변수들의 선형 결합입니다. 즉, \(z = \..

[Zero-base] Pipeline

2024.10.03·

Data Analyst/ML

Pipeline- 보통 ML을 할 때 순서가 Scaler 사용해서 스케일링 후 그 다음 test_train_split() 사용하여 훈련세트와 테스트 세트로 데이터를 분리해줍니다. 그리고 모델을 사용하여 분류해주는 작업을 해줍니다.즉, Scaler -> test_train_split(분리) -> DecisionTreeClassifier(분류) 이러한 순서입니다.- Pipeline은 이렇게 나눠져 있는 3가지 작업을 하나의 작업으로 묶어주는 것을 의미합니다.Python을 통해 알아보겠습니다. 저는 와인 데이터를 이용하여 Pipeline을 만들어 보겠습니다. 1. 와인데이터를 가져와서 X(features), y(label)를 정해줍니다.import pandas as pdred_url = 'https://ra..

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

data scientist

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

개인정보

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역