Pandas에서 자주 사용하는 메서드 및 함수 소개 - 2
replace
replace 메서드는 값들을 다른 값으로 빠르게 대체할 수 있는 방법입니다.
이 메서드를 사용하면 데이터프레임이나 시리즈 내의 특정 값을 원하는 값으로 일괄적으로 바꿀 수 있습니다.
# to_replace가 바꿀 값을 입력
# value가 어떤 것으로 바꿀지 입력하는 것
df['Tip Quality'].replace(to_replace='Other',value='Ok')
unique
- unique 메서드는 해당 DataFrame의 컬럼명의 값들의 고유값 가져옵니다.
즉, 중복을 없앤 값들을 가져오는 방법입니다.
df['size'].unique()
# 결과 : array([2, 3, 4, 1, 6, 5], dtype=int64)
# 고유값 개수를 세어 주는 메소드이다.
df['size'].nunique()
# 결과 : 6
map
- map 메서드는 데이터프레임이나 시리즈에서 값을 변환하거나 매핑할 때 사용되는 유용한 도구입니다.
- 매핑 사전을 적용하여 새로운 값을 생성합니다.
df['time'].unique()
# 결과 : array(['Dinner', 'Lunch'], dtype=object)
my_map = {'Dinner':'D','Lunch':'L'}
df['time'].map(my_map)
- 이와 같이 Dinner 였던 값이 D로 바뀐 것을 확인 할 수 있다.
duplicated() and .drop_duplicates()
- 중복된 행의 첫 번째 인스턴스에 대해 True를 반환합니다.
- 중복된 행이 있을 때, 중복된 항목 중 첫 번째 항목 이후로 모두 True 값을 반환한다는 의미입니다.
- 그리고 drop_duplicates()는 중복 값을 제거해줍니다.
simple_df = pd.DataFrame([1,2,2,2],['a','b','c','d'])
simple_df.duplicated()
simple_df.drop_duplicates()
- 이와 같이 처음에는 False가 찍히고 중복되는 그 부분 부터 True가 입력되는 것을 확인 할 수 있으며 drop사용 시 중복 값이 모두 제거된 것을 볼 수 있습니다.
Between
- left: 스칼라 값으로, 범위의 왼쪽 경계를 정의합니다.
- right: 스칼라 값으로, 범위의 오른쪽 경계를 정의합니다.
- inclusive 매개변수: 범위의 경계값 포함 여부를 결정하는 데 사용됩니다. 다음은 inclusive 매개변수의 가능한 값과 그 의미입니다:
- 'both': 범위의 왼쪽과 오른쪽 경계값 모두를 포함합니다.
- 'left': 왼쪽 경계값은 포함하지만, 오른쪽 경계값은 포함하지 않습니다.
- 'right': 오른쪽 경계값은 포함하지만, 왼쪽 경계값은 포함하지 않습니다.
- 'neither': 왼쪽과 오른쪽 경계값 모두를 포함하지 않습니다.
즉, 해당 범위 내의 값만 가져올 수 있는 메소드 입니다.
df[df['total_bill'].between(10,20)]
모두 total_bill이 10~20 사이의 값만 있는 DataFrame만 가져오는 것을 볼 수 있습니다.
Sample
- sample 메서드는 Pandas에서 데이터프레임이나 시리즈에서 임의의 샘플을 추출할 때 사용됩니다.
이 메서드는 데이터의 무작위 하위 집합을 얻을 수 있는 유용한 도구입니다.
주로 데이터의 랜덤 샘플을 뽑아 모델 검증이나 데이터 분석을 수행할 때 사용됩니다.
nlargest and nsmallest
- nlargest와 nsmallest 메서드는 Pandas에서 데이터프레임이나 시리즈에서 상위 또는 하위 n개의 값을 빠르게 추출할 때 사용됩니다.
- 정렬해서 n개의 값을 가져올 떄 사용한다.
# tip에서 내림 차순으로 정렬한 상위 10개의 데이터들을 추출한다.
df.nlargest(10,'tip')
이상입니다!!!!!!!!!!
'Data Analyst > ML' 카테고리의 다른 글
ML - PANDAS(Text Methods for String Data) (0) | 2024.09.03 |
---|---|
ML - PANDAS(Combining DataFrames) (0) | 2024.09.02 |
ML - PANDAS(Useful Method) - 1 (0) | 2024.08.31 |
ML - PANDAS(Condition-Filtering) (0) | 2024.08.29 |
ML - PANDAS(DATA FRAME) - 2 (1) | 2024.08.28 |