Data Frame - 1

- 데이터 분석에 유용한 2차원 데이터 구조입니다.

- 엑셀의 시트나 SQL 테이블과 비슷한 형식을 가지며, 행(row)과 열(column)로 이루어져 있습니다.

- 이를 활용하면 대용량 데이터를 쉽게 조작할 수 있습니다.

 

Data Frame 생성하기

- pd.DataFrame(data=값, index=인덱스명, column=컬럼명) 이런 형식으로 데이터 프레임을 생성 할 수 있습니다.

- 아래코드를 확인 하겠습니다.

# numpy를 사용하여 난수를 고정시킨 후 4행 3열의 배열을 만들게 된다.
np.random.seed(101)
mydata = np.random.randint(0,101,(4,3))

# 인덱스에 넣을 값 변수에 저장
myindex = ['CA','NY','AZ','TX']
# 컬럼에 넣을 값 변수에 저장
mycolumns = ['Jan','Feb','Mar']

# 데이터프레임 생성
pd.DataFrame(data=mydata,index=myindex,columns=mycolumns)

코드 결과

- 위의 그림과 같이 데이터 프레임이 생성된 것을 확인할 수 있습니다.

 

csv파일을 통해 Data Frame 생성하기

- csv 파일 읽는 방법

df = pd.read_csv('파일명.csv')

- 위의 코드를 사용하면 해당 csv파일을 읽어들여 해당 데이터 셋을 DataFrame으로 변환하게 됩니다.

- 그래서 pandas의 DataFrame은 큰 크기의 데이터 셋을 읽어 들여 원하는 대로 바꿀 수 있습니다.

- 그리고 csv 파일 뿐만 아니라, Excel, html, sql 파일도 읽을 수 있습니다. (해당 내용은 다음에 알아보겠습니다.)

 

DataFrame의 기본 정보 얻기

df.columns : 해당 명령어를 사용하면 해당 DataFrame의 컬럼명들을 모두 가져올 수 있습니다.

df.index : 해당 명령어를 사용하면 해당 DataFrame 의 인덱스의 처음(start), 끝의 수(stop)와 step을 알 수 있습니다.

df.head() : 상위 5개의 DataFrame 값들을 가져옵니다.(데이터프레임을 확인 할 때 자주 사용하는 함수입니다.)

df.tail() : 하위 5개의 DataFrame 값들을 가져옵니다.(head와 tail은 소괄호 안에 아무것도 쓰지 않으면 default값으로 5가 설정 됩니다.)

df.info() : DataFrame의 구조를 빠르게 파악할 수 있는 유용한 함수입니다.

df.describe() : 해당 DataFrame의 count(개수), mean(평균), std(표준편차), min(최솟값), 25%(해당 값 보다 작은 값이 데이터의 25%라는 것을 의미), 50%(중앙값), 75%(상위 25%를 제외한 나머지 75%에 해당하는 값), max(최대값)를 출력해줍니다.

df.transpose() : DataFrame의 행과 열을 바꿔줍니다.

 

 

728x90

'Data Analyst > ML' 카테고리의 다른 글

ML - PANDAS(Condition-Filtering)  (0) 2024.08.29
ML - PANDAS(DATA FRAME) - 2  (1) 2024.08.28
ML - Pandas(Series)  (1) 2024.08.27
ML - Pandas(Combining DataFrames) - 2  (0) 2024.08.22
ML - Pandas(Combining DataFrames) - 1  (0) 2024.08.22
hmm06