데이터 분석 및 시각화 하기 (영화 평점과 티켓 수익률) - Project 3
·
Project/data analysis
기사에서 언급된 바와 같이, HTML과 별점 표시 때문에 실제 사용자 평점은 사용자에게 표시된 평점과 약간 다를 수 있습니다. 이 차이를 시각화해보겠습니다. 표시된 평점(STARS)과 실제 평점(RATING)의 분포를 보여주는 KDE(커널 밀도 추정) 플롯을 생성합니다.KDE를 0-5로 클리핑하겠습니다.fig = plt.figure(figsize=(10.5, 4))# label : legend에 표시할 이름 즉, 라벨이다.# clip : 클리핑할 단위를 적는 것입니다.sns.kdeplot(review_film, x='RATING',clip=[0,5], fill=True, label='True Rating')sns.kdeplot(review_film, x='STARS',clip=[0,5], fill=Tru..
SQL - Routine, Stored Procedure
·
Data Analyst/SQL
Introduction to Stored Routines저장 루틴 개요:저장 프로시저와 함수는 SQL 명령어 집합을 서버에 저장하여 필요할 때 호출할 수 있는 기능입니다. 이는 반복적인 작업을 자동화할 때 유용합니다​.저장 프로시저는 계산을 수행하고 데이터를 처리하여 결과를 반환합니다.주요 특징:프로시저는 여러 번 호출 가능.(반복작업 최소화)예시 : 사용자가 100명 이상 DB에 동일한 쿼리를 실행하는 경우, 효율적인 방법으로 저장 프로시저를 사용하는 것이 좋습니다. 이를 통해 쿼리 로직을 데이터베이스 내에 미리 저장해두고, 사용자들은 프로시저만 호출함으로써 성능을 최적화할 수 있습니다.입력 매개변수를 받아 계산을 수행할 수 있음.파라미터(매개변수)를 사용하여 작업을 할 수 있습니다. 코딩에서 inpu..
데이터 분석 및 시각화하기 (영화 평점과 티켓 수익률) - Project 2
·
Project/data analysis
1. Fandango의 표시된 점수와 실제 사용자 평점 비교먼저 Fandango 평점을 탐색하여 우리의 분석이 기사의 결론과 부합하는지 확인해 봅시다. # fandango_scrape.csv 파일 읽기fandango = pd.read_csv("fandango_scrape.csv")# head()하여 상위 5개 데이터 보기fandango.head()# info()사용하여 데이터 내용 확인하기fandango.info()# describe()사용하여 계산 결과 확인하기fandango.describe()해당 작업을 해본 결과 컬럼은 FILM, STARS, RATING, VOTES가 있는 것을 확인 하였으며, 총 504개의 행이 존재한다는 것을 알 수 있었으며 4개의 컬럼에서는 NaN값이 없는  것도 확인 되었습..
데이터 분석 및 시각화하기 (영화 평점과 티켓 수익률) - Project 1
·
Project/data analysis
저희는 온라인 리뷰와 평점을 얼마나 신뢰할 수 있을까요?특히 동일한 회사가 평점을 높게 표시 하고 동시에 영화 티켓을 판매하여 수익을 올린다면 영화의 평점을 더 높게 평가할 경향이 있을까요? 저는 이제 FiveThirtyeight 기사를 기반으로 하여 분석을 완료하고 비슷한 결론에 도달해야 합니다. Fandango의 2015년 등급이 영화를 더 잘 평가하여 더 많은 티켓을 판매하기 위해 편향되어 있는지 판단하기 위해 판다스 및 시각화 기술을 사용해야 합니다.해당 기사를 읽고 온라인 평점에 대해 의심을 가져야합니다. (특히, Fandango의 평점에 대해 유심히 봐야합니다.)https://fivethirtyeight.com/features/fandango-movies-ratings/ Be Suspiciou..
ML - Matplotlib Figure Object
·
Data Analyst/ML
Figure 생성우선 객체 지향 방식에서는 figure 객체를 인스턴스화한 후, 해당 객체에서 메서드나 속성을 호출하여 그래프를 그립니다.figure 객체를 생성한 후, 해당 객체에서 메서드나 속성을 호출하는 것입니다. 특히, 여러 개의 플롯을 포함한 캔버스를 다룰 때 이 방법이 더 효율적입니다.즉, 여러 플롯이 있는 복잡한 그래프를 구성할 때, 각 플롯을 독립적으로 제어할 수 있어 더욱 유연하게 그래프를 다룰 수 있습니다.# 비어있는 캔버스 그리는 구문입니다.fig = plt.figure()# 도형에 좌표축을 추가합니다.axes = fig.add_axes([0, 0, 1, 1]) # left, bottom, width, height (range 0 ~ 1) 캔버스 위치 또한 조정 가능# 만든 축에 그래..
ML - Matplotlib-Basics
·
Data Analyst/ML
Matplotlib Basics이 라이브러리는 2D 및 3D 그래픽을 생성하는 과학적 시각화 도구로 뛰어납니다.Matplotlib의 주요 장점은 다음과 같습니다:간단한 플롯을 그릴 때 쉽게 시작할 수 있음사용자 지정 레이블과 텍스트 지원그림의 각 요소를 세밀하게 제어 가능다양한 형식으로 고품질 출력 지원전반적으로 매우 사용자 정의가 용이함Matplotlib은 프로그래밍적으로 재현 가능한 그림을 생성할 수 있도록 해줍니다. 계속 배우기 전에, Matplotlib의 공식 웹사이트(http://matplotlib.org/)를 검색해보는 것을 추천합니다. 우선, 넘파이 배열 두 개를 사용하는 매우 간단한 예제를 통해 진행해 봅시다. 리스트를 사용할 수도 있지만, 대부분의 경우 넘파이 배열이나 판다스 열(실제로는..
SQL - SELF JOIN, VIEW
·
Data Analyst/SQL
SELF JOIN- 셀프 조인이란 하나의 테이블을 스스로와 조인하는 것을 말합니다. 즉, 같은 테이블의 여러 행을 서로 결합할 때 사용됩니다.- 셀프 조인을 사용하면 테이블의 특정 행을 동일한 테이블 내 다른 행과 결합할 수 있습니다.- INNER JOIN 구문을 사용하여 셀프 조인을 할 때, 테이블을 마치 두 개의 서로 다른 테이블처럼 취급합니다. 이를 위해 별칭(Alias)을 사용하여 테이블의 두 개 버전을 구분합니다.- 셀프 조인은 특히 계층적 관계나 같은 테이블 내에서의 상하 관계를 표현할 때 유용합니다.예시 :- 한 회사의 직원 테이블이 있다고 가정해봅시다.- 이 테이블은 각 직원의 이름과 상사(매니저)에 대한 정보를 포함하고 있습니다. 그런데 이 매니저도 같은 테이블에 포함된 또 다른 직원입니..
ML - PANDAS(Pivot-Tables)
·
Data Analyst/ML
Pivot Tables- 피벗 테이블은 데이터를 재구성하여 관계와 연결성을 명확하게 보여주는 강력한 도구입니다.- 데이터 분석을 하다 보면 원시 데이터에서 패턴을 파악하거나, 특정 기준에 따라 데이터를 집계하고 요약해야 할 때가 많습니다.- 이럴 때 피벗 테이블을 사용하면 복잡한 데이터도 쉽게 시각화할 수 있습니다.Pivot method- 열 값을 기준으로 데이터를 재구성하고, 인덱스를 재지정하여 데이터를 재배열하는 방법입니다.- 피벗 메서드는 주로 데이터 분석, 시각화, 그리고 탐색에 활용되며, 데이터의 구조를 쉽게 파악하거나 요약된 정보를 제공하는 데 유용합니다.사용 예시# 'Company','Product','Licenses'컬럼 값만 보겠습니다.licenses = df[['Company','Pro..
SQL - SubQuery
·
Data Analyst/SQL
WHERE 절에 중첩된 SQL 서브쿼리 (IN 절 사용)- 우선 서브쿼리란 다른 쿼리 안에 포함된 쿼리를 의미합니다. 이를 내부 쿼리 또는 중첩  쿼리라고도 합니다.- 이러한 서브쿼리는 WHERE 절 안에 중첩되어 사용되며, 주로 특정 조건에 맞는 데이터를 선택할 수 있습니다.- IN 절과 함께 사용하면, 내부 쿼리에서 반환된 값 중 하나라도 일치하는 경우 해당 데이터를 선택할 수 있습니다.- 서브 쿼리는 하나의 값, 하나의 행, 하나의 열 또는 전체 테이블을 반환할 수 있습니다.- 여러 서브쿼리를 종첩하여 사용할 수 있으며, SQL엔진은 가장 내부의 쿼리부터 차례대로 실행 합니다.-- 매니저의 e.first_name, e.last_name알기 위해서 subquery로 dept_manager의 emp_n..
ML - PANDAS(Text Methods for String Data)
·
Data Analyst/ML
Text Methods- 일반적인 파이썬 문자열에는 다양한 메서드 호출이 가능합니다.mystring = 'hello'mystring.capitalize()# 'Hello'# isdigit() 문자열에 숫자가 있을 경우 True 반환 아닐 시 False 반환mystring.isdigit()# False# 위의 코드 말고도 여러가지 문자열 메소드들이 있습니다.Pandas and Text- Pandas는 기존의 문자열 메소드에서 표시된 것보다 더 많은 일을 할 수 있습니다.names = pd.Series(['andrew','bobo','claire','david','4'])names.str.capitalize()names.str.isdigit()Splitting , Grabbing, and Expandingt..
hmm06
hmm06 님의 블로그