PCA는 많은 데이터를 간단하게 만드는 방법입니다. 데이터를 찍을 때, 여러개의 특성을 사용할 수 있습니다.
하지만 특성이 너무 많으면 한 눈에 보기가 어렵습니다. 그래서 많은 데이터 중 중요한 부분만 뽑아서 간단하게 보여주는 것입니다.
즉, PCA는 데이터 분산을 최대한 보존하면서 서로 직교하는 새 기저(축)를 찾아, 고차원 공간의 표본들을 선형 연관성이 없는 저차원 공간으로 변환하는 방법입니다.
PCA에서 사용하는 기법으로는 차원축소(dimensionality reduction)와 변수 추출(feature extraction) 기법이 있습니다.
여기서 변수 추출은 기존 변수를 조합해 새로운 변수를 만드는 기법이지 기존에 있는 변수를 선택하는 것이 아니므로 변수 선택(Feature Selection)과 구분해야 합니다.
이번 글은 주성분 분석에 대한 개념이였으며 다음 글에는 주성분 분석을 직접 python을 통해 알아보겠습니다.
이 글은 제로베이스 데이터 분석 취업 스쿨의 강의 자료 일부를 발췌하여 작성되었습니다.
728x90
'Data Analyst > ML' 카테고리의 다른 글
[Zero-base] 군집화(Clustering) - 1 (0) | 2024.10.11 |
---|---|
[Zero-base] 주성분 분석(PCA, Principal Component Analysis) - 2 (3) | 2024.10.10 |
[Zero-Base] 앙상블 기법 - 2 (1) | 2024.10.08 |
[Zero-base] 앙상블 기법 - 1 (3) | 2024.10.08 |
[Zero-base] KNN(KNeighbors Classifier) - 2 (0) | 2024.10.07 |