ML - PANDAS(DATA FRAME) - 2
·
Data Analyst/ML
Data Frame - 2Data Frame 인덱스 선택하기- column들을 기반으로 선택하는 방법입니다.- 딕셔너리에서 키값을 넣으면 값이 나오는 방법 처럼 해당 컬럼명을 넣으면 해당 컬럼의 값들이 출력 됩니다.df['total_bill']- 그리고 위의 코드 결과의 타입은 Series 타입입니다. - 이번에는 두 개의 컬럼을 가져오겠습니다.# 여기서 중요한 점은 두 개의 컬럼을 가져오는 경우 이중 대괄호를 사용해야 한다.df[['total_bill','tip']]- 여기서 위의 코드에서도 말했듯이 두 개 이상의 컬럼을 사용하는 경우에는 이중 대괄호를 사용해야 합니다.- 이유 : 이중 대괄호를 사용한다는 것은 타입이 DataFrame 값을 출력하는 것입니다. 또 한 가지를 저희는 기억해야 합니다. S..
ML - PANDAS(Data Frame) - 1
·
Data Analyst/ML
Data Frame - 1- 데이터 분석에 유용한 2차원 데이터 구조입니다.- 엑셀의 시트나 SQL 테이블과 비슷한 형식을 가지며, 행(row)과 열(column)로 이루어져 있습니다.- 이를 활용하면 대용량 데이터를 쉽게 조작할 수 있습니다. Data Frame 생성하기- pd.DataFrame(data=값, index=인덱스명, column=컬럼명) 이런 형식으로 데이터 프레임을 생성 할 수 있습니다.- 아래코드를 확인 하겠습니다.# numpy를 사용하여 난수를 고정시킨 후 4행 3열의 배열을 만들게 된다.np.random.seed(101)mydata = np.random.randint(0,101,(4,3))# 인덱스에 넣을 값 변수에 저장myindex = ['CA','NY','AZ','TX']# 컬..
ML - Pandas(Series)
·
Data Analyst/ML
Series- 우선, Series는 pandas의 데이터 타입입니다.- Series는 넘파이 배열(NumPy array)과 매우 비슷합니다(사실 넘파이 배열 객체 위에 구축되어 있습니다).- 넘파이 배열과 시리즈의 차이점은 시리즈는 축 레이블(axis labels)을 가질 수 있다는 것입니다.- 즉, 숫자 위치 대신 레이블로 인덱싱할 수 있습니다. 또한 시리즈는 숫자 데이터만 담을 필요가 없고, 임의의 파이썬 객체를 담을 수 있습니다. - Series에는 여러 옵션 값(매개변수)이 존재한다. (dtype, name, copy들 도 있으나, data와 index에 대해서만 설명 하겠습니다.)- data : 배열과 유사한 형태, Iterable, 딕셔너리 또는 스칼라 값이 들어갈 수 있으며, 시리즈에 저장된..
ML - Pandas(Combining DataFrames) - 1
·
Data Analyst/ML
Pandas 함수 - (pd.concat([DataFrame, DataFrame], axis=0 or 1)- Pandas는 두 개의 표에서 행과 열 중 하나라도 동일한 것이 있다면 서로 합칠 수 있다.- axis = 0 : 행(row)을 기준으로 합친다는 의미이다. (두개의 data frame에서 행이 같은 인덱스라면 그 인덱스를 기준으로 합쳐지게 된다. )- axis = 1 : 열(column)을 기준으로 합친다는 의미이다.(두개의 data frame에서 열이 같은 인덱스라면 그 인덱스를 기준으로 합쳐지게 된다.) import numpy as npimport pandas as pddata_one = {'A':['A0', 'A1', 'A2', 'A3'], 'B':['B0', 'B1', 'B2', 'B3'..
hmm06
'Python' 태그의 글 목록 (2 Page)