[Zero-base]Linear Regression
·
Data Analyst/ML
지도 학습 & 비지도 학습지도학습 : 정답(Label)과 문제(feature) 이 있는 데이터셋을 사용해 모델을 학습하는 방법입니다. 주어진 입력 데이터에 대해 올바른 출력을 예측할 수 있도록 모델을 훈련시킵니다. 종류1. Classifier(분류)2. Regreession(회귀) 비지도 학습 : 정답(Label)이 없는 데이터를 이용해 패턴이나 구조를 찾아내는 기계 학습 방식입니다. 즉, 입력 데이터에 대한 명확한 정답이 주어지지 않은 상태에서 데이터를 이해하고, 이를 바탕으로 그룹화하거나 특징을 추출합니다. 종류1. 군집2. 차원 축 저희는 저번에 Iris 품종 구별(Classifier)를 하였습니다. 이번에는 회귀 중 선형 회귀에 대해 알아 볼 것입니다.우선 선형 그래프란 x축과 y축의 값으로 구성..
[Zero-base] EDA 4회차 테스트
·
Project/EDA 연습
Data 원본 출처Target Data(CSV): Global Internet Usage(국가별 인터넷 사용률)참고사항위 3개의 Data들은 생성 시기가 다르므로 이 Test에서 도출되는 결과는 실제와 일치하지 않습니다.문제에 hint가 있을 경우, 해당 hint를 이용하지 않으셔도 무방합니다.해당 Test는 Wiki의 Online Data를 가져오는 내용을 포함하고 있습니다우선 csv 파일을 읽어 DataFrame으로 변환 하겠습니다.import pandas as pd# 채점을 위한 코드입니다. 반드시 실행해주세요.from grading import *df_target = pd.read_csv('./datas/gapminder_internet.csv')df_target1단계: Target Data 불러..
[Zero-Base] Machine Learning - 1
·
Data Analyst/ML
꽃 잎과 꽃 밭침의 길이와 너비로 IRIS 꽃의 품종을 분류하는 모델을 만들어보자.# 사이킷런에 있는 아이리스 꽃에 대한 데이터셋을 가져옵니다.from sklearn.datasets import load_irisiris = load_iris()# 해당 iris에서 사용할 수 있는 함수들 목록을 불러옵니다.iris.keys()위의 코드를 사용하면 iris에 관련한 데이터 셋을 가져올 수 있습니다.그리고 keys()를 활용해 기본 정보를 볼 수 있는 함수 목록들을 볼 수 있습니다. # 특성 : 해당 iris 품종의 꽃받침 길이, 너비 또는 꽃잎의 길이, 너비가 있는 것을 확인할 수 있습니다.iris.feature_names # Label : 즉 iris 품종 우리가 예측해야 할 값.('setosa', 've..
ML - Matplotlib SubPlots
·
Data Analyst/ML
plt.subplots()우선, numpy를 통해 데이터를 생성해보겠습니다.import numpy as np# a는 np.linspace를 사용하여 0부터 10까지 11개의 균등한 간격의 숫자를 생성a = np.linspace(0,10,11)# b는 a의 각 원소를 4제곱한 값을 가진 배열b = a ** 4# x는 0부터 9까지의 정수 배열을 생성x = np.arange(0,10)# x의 각 원소에 2를 곱한 값을 가진 배열y = 2 * x plt.subplots() 객체는 더 자동화된 축 관리자로 작용합니다. 이로 인해 여러 플롯을 나란히 표시하는 것이 훨씬 쉬워집니다.튜플 언패킹을 사용하여 Figure 객체와 numpy 배열의 축을 모두 잡는 방법에 주목하세요.# plt.figure()와 유사하게 사..
ML - Matplotlib Figure Object
·
Data Analyst/ML
Figure 생성우선 객체 지향 방식에서는 figure 객체를 인스턴스화한 후, 해당 객체에서 메서드나 속성을 호출하여 그래프를 그립니다.figure 객체를 생성한 후, 해당 객체에서 메서드나 속성을 호출하는 것입니다. 특히, 여러 개의 플롯을 포함한 캔버스를 다룰 때 이 방법이 더 효율적입니다.즉, 여러 플롯이 있는 복잡한 그래프를 구성할 때, 각 플롯을 독립적으로 제어할 수 있어 더욱 유연하게 그래프를 다룰 수 있습니다.# 비어있는 캔버스 그리는 구문입니다.fig = plt.figure()# 도형에 좌표축을 추가합니다.axes = fig.add_axes([0, 0, 1, 1]) # left, bottom, width, height (range 0 ~ 1) 캔버스 위치 또한 조정 가능# 만든 축에 그래..
ML - Matplotlib-Basics
·
Data Analyst/ML
Matplotlib Basics이 라이브러리는 2D 및 3D 그래픽을 생성하는 과학적 시각화 도구로 뛰어납니다.Matplotlib의 주요 장점은 다음과 같습니다:간단한 플롯을 그릴 때 쉽게 시작할 수 있음사용자 지정 레이블과 텍스트 지원그림의 각 요소를 세밀하게 제어 가능다양한 형식으로 고품질 출력 지원전반적으로 매우 사용자 정의가 용이함Matplotlib은 프로그래밍적으로 재현 가능한 그림을 생성할 수 있도록 해줍니다. 계속 배우기 전에, Matplotlib의 공식 웹사이트(http://matplotlib.org/)를 검색해보는 것을 추천합니다. 우선, 넘파이 배열 두 개를 사용하는 매우 간단한 예제를 통해 진행해 봅시다. 리스트를 사용할 수도 있지만, 대부분의 경우 넘파이 배열이나 판다스 열(실제로는..
ML - PANDAS(Combining DataFrames)
·
Data Analyst/ML
연결(Concatenation):pd.concat() 함수를 사용하여 데이터프레임을 수직 또는 수평으로 연결합니다.이 방법은 인덱스나 열이 동일한 데이터프레임을 연결할 때 유용합니다.# 데이터 만들기data_one = {'A': ['A0', 'A1', 'A2', 'A3'],'B': ['B0', 'B1', 'B2', 'B3']}data_two = {'C': ['C0', 'C1', 'C2', 'C3'], 'D': ['D0', 'D1', 'D2', 'D3']}# 데이터프레임으로 변환one = pd.DataFrame(data_one)two = pd.DataFrame(data_two) # concat을 사용하여 데이터 프레임 합치기, axis=0 행을 기준으로 합치기axis0 = pd.concat([one,two..
ML - PANDAS(Useful Methods) - 2
·
Data Analyst/ML
Pandas에서 자주 사용하는 메서드 및 함수 소개 - 2replacereplace 메서드는 값들을 다른 값으로 빠르게 대체할 수 있는 방법입니다.이 메서드를 사용하면 데이터프레임이나 시리즈 내의 특정 값을 원하는 값으로 일괄적으로 바꿀 수 있습니다. # to_replace가 바꿀 값을 입력# value가 어떤 것으로 바꿀지 입력하는 것df['Tip Quality'].replace(to_replace='Other',value='Ok')unique- unique 메서드는 해당 DataFrame의 컬럼명의 값들의 고유값 가져옵니다.즉, 중복을 없앤 값들을 가져오는 방법입니다.df['size'].unique()# 결과 : array([2, 3, 4, 1, 6, 5], dtype=int64)# 고유값 개수를 세..
ML - PANDAS(Useful Method) - 1
·
Data Analyst/ML
Pandas에서 자주 사용하는 메서드 및 함수 소개소개할 매서드와 함수는 데이터 처리 및 분석 과정에서 매우 유용하며, Pandas 문서를 통해 더 많은 기능들을 탐색할 수 있습니다. The .apply() method- 이 메서드를 사용하면 데이터프레임의 열(column)에 사용자 정의 함수를 적용하고, 해당 함수를 열 전체에 브로드캐스트(적용)할 수 있습니다.# 숫자에서 마지막 4개의 숫자만 가져온다.def last_four(num): return str(num)[-4:] df['last_four'] = df['CC Number'].apply(last_four) df['last_four']- 이와 같이 모든 열의 값들이 사용자 정의 함수들을 적용한 결과로 바뀌게 되었습니다. apply()..
ML - PANDAS(Condition-Filtering)
·
Data Analyst/ML
Condition - 조건- DataFrame에 조건을 추가하여 해당 조건에 부합하는 DataFrame을 출력하는 것들을 보여드리겠습니다.- 이제 보여줄 코드들은 매우 쉬운 코드들로 연산자를 사용하여 필터링 한다 보면 될 거 같습니다.# total_bill의 값이 30보다 큰 값들의 데이터 프레임을 가져온다.bool_series = df['total_bill'] > 30df[bool_series]# 위의 코드와 같은 것이지만 아래 방법으로도 사용 가능하다.df[df['total_bill']>30]- 위의 그림과 같이 total_bill을 확인하면 30보다 큰 값들을 가져온 것을 확인 할 수 있습니다. # 숫자만 가능한 것이 아닌 파이썬에서 사용하는 방식 그대로 문자열 또한 가능하다.df[df['sex']..
hmm06
'ML' 태그의 글 목록 (3 Page)