ML - Matplotlib SubPlots
·
Data Analyst/ML
plt.subplots()우선, numpy를 통해 데이터를 생성해보겠습니다.import numpy as np# a는 np.linspace를 사용하여 0부터 10까지 11개의 균등한 간격의 숫자를 생성a = np.linspace(0,10,11)# b는 a의 각 원소를 4제곱한 값을 가진 배열b = a ** 4# x는 0부터 9까지의 정수 배열을 생성x = np.arange(0,10)# x의 각 원소에 2를 곱한 값을 가진 배열y = 2 * x plt.subplots() 객체는 더 자동화된 축 관리자로 작용합니다. 이로 인해 여러 플롯을 나란히 표시하는 것이 훨씬 쉬워집니다.튜플 언패킹을 사용하여 Figure 객체와 numpy 배열의 축을 모두 잡는 방법에 주목하세요.# plt.figure()와 유사하게 사..
데이터 분석 및 시각화 하기 (영화 평점과 티켓 수익률) - Project 3
·
Project/data analysis
기사에서 언급된 바와 같이, HTML과 별점 표시 때문에 실제 사용자 평점은 사용자에게 표시된 평점과 약간 다를 수 있습니다. 이 차이를 시각화해보겠습니다. 표시된 평점(STARS)과 실제 평점(RATING)의 분포를 보여주는 KDE(커널 밀도 추정) 플롯을 생성합니다.KDE를 0-5로 클리핑하겠습니다.fig = plt.figure(figsize=(10.5, 4))# label : legend에 표시할 이름 즉, 라벨이다.# clip : 클리핑할 단위를 적는 것입니다.sns.kdeplot(review_film, x='RATING',clip=[0,5], fill=True, label='True Rating')sns.kdeplot(review_film, x='STARS',clip=[0,5], fill=Tru..
데이터 분석 및 시각화하기 (영화 평점과 티켓 수익률) - Project 2
·
Project/data analysis
1. Fandango의 표시된 점수와 실제 사용자 평점 비교먼저 Fandango 평점을 탐색하여 우리의 분석이 기사의 결론과 부합하는지 확인해 봅시다. # fandango_scrape.csv 파일 읽기fandango = pd.read_csv("fandango_scrape.csv")# head()하여 상위 5개 데이터 보기fandango.head()# info()사용하여 데이터 내용 확인하기fandango.info()# describe()사용하여 계산 결과 확인하기fandango.describe()해당 작업을 해본 결과 컬럼은 FILM, STARS, RATING, VOTES가 있는 것을 확인 하였으며, 총 504개의 행이 존재한다는 것을 알 수 있었으며 4개의 컬럼에서는 NaN값이 없는  것도 확인 되었습..
데이터 분석 및 시각화하기 (영화 평점과 티켓 수익률) - Project 1
·
Project/data analysis
저희는 온라인 리뷰와 평점을 얼마나 신뢰할 수 있을까요?특히 동일한 회사가 평점을 높게 표시 하고 동시에 영화 티켓을 판매하여 수익을 올린다면 영화의 평점을 더 높게 평가할 경향이 있을까요? 저는 이제 FiveThirtyeight 기사를 기반으로 하여 분석을 완료하고 비슷한 결론에 도달해야 합니다. Fandango의 2015년 등급이 영화를 더 잘 평가하여 더 많은 티켓을 판매하기 위해 편향되어 있는지 판단하기 위해 판다스 및 시각화 기술을 사용해야 합니다.해당 기사를 읽고 온라인 평점에 대해 의심을 가져야합니다. (특히, Fandango의 평점에 대해 유심히 봐야합니다.)https://fivethirtyeight.com/features/fandango-movies-ratings/ Be Suspiciou..
ML - Matplotlib Figure Object
·
Data Analyst/ML
Figure 생성우선 객체 지향 방식에서는 figure 객체를 인스턴스화한 후, 해당 객체에서 메서드나 속성을 호출하여 그래프를 그립니다.figure 객체를 생성한 후, 해당 객체에서 메서드나 속성을 호출하는 것입니다. 특히, 여러 개의 플롯을 포함한 캔버스를 다룰 때 이 방법이 더 효율적입니다.즉, 여러 플롯이 있는 복잡한 그래프를 구성할 때, 각 플롯을 독립적으로 제어할 수 있어 더욱 유연하게 그래프를 다룰 수 있습니다.# 비어있는 캔버스 그리는 구문입니다.fig = plt.figure()# 도형에 좌표축을 추가합니다.axes = fig.add_axes([0, 0, 1, 1]) # left, bottom, width, height (range 0 ~ 1) 캔버스 위치 또한 조정 가능# 만든 축에 그래..
ML - Matplotlib-Basics
·
Data Analyst/ML
Matplotlib Basics이 라이브러리는 2D 및 3D 그래픽을 생성하는 과학적 시각화 도구로 뛰어납니다.Matplotlib의 주요 장점은 다음과 같습니다:간단한 플롯을 그릴 때 쉽게 시작할 수 있음사용자 지정 레이블과 텍스트 지원그림의 각 요소를 세밀하게 제어 가능다양한 형식으로 고품질 출력 지원전반적으로 매우 사용자 정의가 용이함Matplotlib은 프로그래밍적으로 재현 가능한 그림을 생성할 수 있도록 해줍니다. 계속 배우기 전에, Matplotlib의 공식 웹사이트(http://matplotlib.org/)를 검색해보는 것을 추천합니다. 우선, 넘파이 배열 두 개를 사용하는 매우 간단한 예제를 통해 진행해 봅시다. 리스트를 사용할 수도 있지만, 대부분의 경우 넘파이 배열이나 판다스 열(실제로는..
ML - PANDAS(Combining DataFrames)
·
Data Analyst/ML
연결(Concatenation):pd.concat() 함수를 사용하여 데이터프레임을 수직 또는 수평으로 연결합니다.이 방법은 인덱스나 열이 동일한 데이터프레임을 연결할 때 유용합니다.# 데이터 만들기data_one = {'A': ['A0', 'A1', 'A2', 'A3'],'B': ['B0', 'B1', 'B2', 'B3']}data_two = {'C': ['C0', 'C1', 'C2', 'C3'], 'D': ['D0', 'D1', 'D2', 'D3']}# 데이터프레임으로 변환one = pd.DataFrame(data_one)two = pd.DataFrame(data_two) # concat을 사용하여 데이터 프레임 합치기, axis=0 행을 기준으로 합치기axis0 = pd.concat([one,two..
ML - PANDAS(Useful Methods) - 2
·
Data Analyst/ML
Pandas에서 자주 사용하는 메서드 및 함수 소개 - 2replacereplace 메서드는 값들을 다른 값으로 빠르게 대체할 수 있는 방법입니다.이 메서드를 사용하면 데이터프레임이나 시리즈 내의 특정 값을 원하는 값으로 일괄적으로 바꿀 수 있습니다. # to_replace가 바꿀 값을 입력# value가 어떤 것으로 바꿀지 입력하는 것df['Tip Quality'].replace(to_replace='Other',value='Ok')unique- unique 메서드는 해당 DataFrame의 컬럼명의 값들의 고유값 가져옵니다.즉, 중복을 없앤 값들을 가져오는 방법입니다.df['size'].unique()# 결과 : array([2, 3, 4, 1, 6, 5], dtype=int64)# 고유값 개수를 세..
ML - PANDAS(Useful Method) - 1
·
Data Analyst/ML
Pandas에서 자주 사용하는 메서드 및 함수 소개소개할 매서드와 함수는 데이터 처리 및 분석 과정에서 매우 유용하며, Pandas 문서를 통해 더 많은 기능들을 탐색할 수 있습니다. The .apply() method- 이 메서드를 사용하면 데이터프레임의 열(column)에 사용자 정의 함수를 적용하고, 해당 함수를 열 전체에 브로드캐스트(적용)할 수 있습니다.# 숫자에서 마지막 4개의 숫자만 가져온다.def last_four(num): return str(num)[-4:] df['last_four'] = df['CC Number'].apply(last_four) df['last_four']- 이와 같이 모든 열의 값들이 사용자 정의 함수들을 적용한 결과로 바뀌게 되었습니다. apply()..
ML - PANDAS(Condition-Filtering)
·
Data Analyst/ML
Condition - 조건- DataFrame에 조건을 추가하여 해당 조건에 부합하는 DataFrame을 출력하는 것들을 보여드리겠습니다.- 이제 보여줄 코드들은 매우 쉬운 코드들로 연산자를 사용하여 필터링 한다 보면 될 거 같습니다.# total_bill의 값이 30보다 큰 값들의 데이터 프레임을 가져온다.bool_series = df['total_bill'] > 30df[bool_series]# 위의 코드와 같은 것이지만 아래 방법으로도 사용 가능하다.df[df['total_bill']>30]- 위의 그림과 같이 total_bill을 확인하면 30보다 큰 값들을 가져온 것을 확인 할 수 있습니다. # 숫자만 가능한 것이 아닌 파이썬에서 사용하는 방식 그대로 문자열 또한 가능하다.df[df['sex']..
hmm06
'Python' 태그의 글 목록