데이터 분석 및 시각화하기 (영화 평점과 티켓 수익률) - Project 1
·
Project/data analysis
저희는 온라인 리뷰와 평점을 얼마나 신뢰할 수 있을까요?특히 동일한 회사가 평점을 높게 표시 하고 동시에 영화 티켓을 판매하여 수익을 올린다면 영화의 평점을 더 높게 평가할 경향이 있을까요? 저는 이제 FiveThirtyeight 기사를 기반으로 하여 분석을 완료하고 비슷한 결론에 도달해야 합니다. Fandango의 2015년 등급이 영화를 더 잘 평가하여 더 많은 티켓을 판매하기 위해 편향되어 있는지 판단하기 위해 판다스 및 시각화 기술을 사용해야 합니다.해당 기사를 읽고 온라인 평점에 대해 의심을 가져야합니다. (특히, Fandango의 평점에 대해 유심히 봐야합니다.)https://fivethirtyeight.com/features/fandango-movies-ratings/ Be Suspiciou..
ML - Matplotlib Figure Object
·
Data Analyst/ML
Figure 생성우선 객체 지향 방식에서는 figure 객체를 인스턴스화한 후, 해당 객체에서 메서드나 속성을 호출하여 그래프를 그립니다.figure 객체를 생성한 후, 해당 객체에서 메서드나 속성을 호출하는 것입니다. 특히, 여러 개의 플롯을 포함한 캔버스를 다룰 때 이 방법이 더 효율적입니다.즉, 여러 플롯이 있는 복잡한 그래프를 구성할 때, 각 플롯을 독립적으로 제어할 수 있어 더욱 유연하게 그래프를 다룰 수 있습니다.# 비어있는 캔버스 그리는 구문입니다.fig = plt.figure()# 도형에 좌표축을 추가합니다.axes = fig.add_axes([0, 0, 1, 1]) # left, bottom, width, height (range 0 ~ 1) 캔버스 위치 또한 조정 가능# 만든 축에 그래..
ML - Matplotlib-Basics
·
Data Analyst/ML
Matplotlib Basics이 라이브러리는 2D 및 3D 그래픽을 생성하는 과학적 시각화 도구로 뛰어납니다.Matplotlib의 주요 장점은 다음과 같습니다:간단한 플롯을 그릴 때 쉽게 시작할 수 있음사용자 지정 레이블과 텍스트 지원그림의 각 요소를 세밀하게 제어 가능다양한 형식으로 고품질 출력 지원전반적으로 매우 사용자 정의가 용이함Matplotlib은 프로그래밍적으로 재현 가능한 그림을 생성할 수 있도록 해줍니다. 계속 배우기 전에, Matplotlib의 공식 웹사이트(http://matplotlib.org/)를 검색해보는 것을 추천합니다. 우선, 넘파이 배열 두 개를 사용하는 매우 간단한 예제를 통해 진행해 봅시다. 리스트를 사용할 수도 있지만, 대부분의 경우 넘파이 배열이나 판다스 열(실제로는..
SQL - SELF JOIN, VIEW
·
Data Analyst/SQL
SELF JOIN- 셀프 조인이란 하나의 테이블을 스스로와 조인하는 것을 말합니다. 즉, 같은 테이블의 여러 행을 서로 결합할 때 사용됩니다.- 셀프 조인을 사용하면 테이블의 특정 행을 동일한 테이블 내 다른 행과 결합할 수 있습니다.- INNER JOIN 구문을 사용하여 셀프 조인을 할 때, 테이블을 마치 두 개의 서로 다른 테이블처럼 취급합니다. 이를 위해 별칭(Alias)을 사용하여 테이블의 두 개 버전을 구분합니다.- 셀프 조인은 특히 계층적 관계나 같은 테이블 내에서의 상하 관계를 표현할 때 유용합니다.예시 :- 한 회사의 직원 테이블이 있다고 가정해봅시다.- 이 테이블은 각 직원의 이름과 상사(매니저)에 대한 정보를 포함하고 있습니다. 그런데 이 매니저도 같은 테이블에 포함된 또 다른 직원입니..
SQL - SubQuery
·
Data Analyst/SQL
WHERE 절에 중첩된 SQL 서브쿼리 (IN 절 사용)- 우선 서브쿼리란 다른 쿼리 안에 포함된 쿼리를 의미합니다. 이를 내부 쿼리 또는 중첩  쿼리라고도 합니다.- 이러한 서브쿼리는 WHERE 절 안에 중첩되어 사용되며, 주로 특정 조건에 맞는 데이터를 선택할 수 있습니다.- IN 절과 함께 사용하면, 내부 쿼리에서 반환된 값 중 하나라도 일치하는 경우 해당 데이터를 선택할 수 있습니다.- 서브 쿼리는 하나의 값, 하나의 행, 하나의 열 또는 전체 테이블을 반환할 수 있습니다.- 여러 서브쿼리를 종첩하여 사용할 수 있으며, SQL엔진은 가장 내부의 쿼리부터 차례대로 실행 합니다.-- 매니저의 e.first_name, e.last_name알기 위해서 subquery로 dept_manager의 emp_n..
SQL - DELETE, TRUNCATE, Aggregate functions(집계함수), IFNULL - COALESCE
·
Data Analyst/SQL
DELETE- 데이터베이스에서 특정 조건에 맞는 데이터를 삭제하는 데 사용됩니다.-- 해당 쿼리는 emp_no가 999903인 데이터를 지웁니다.DELETE FROM employees WHERE emp_no = 999903;- 주의사항 : where절을 넣지 않으면 해당 테이블의 모든 데이터가 삭제됩니다.DROP vs TRUNCATE vs DELETE: 차이점1. DROPDROP 명령어는 테이블 자체를 삭제 특징: 테이블의 모든 데이터와 구조가 제거됨.사용 예시: DROP TABLE table_name;주의사항: 롤백 불가. 테이블이 완전히 삭제되므로 신중하게 사용해야 함.2. TRUNCATETRUNCATE 명령어는 테이블의 모든 데이터를 삭제하지만, 테이블 구조와 인덱스, 제약 조건은 그대로 유지..
ML - Pandas(Series)
·
Data Analyst/ML
Series- 우선, Series는 pandas의 데이터 타입입니다.- Series는 넘파이 배열(NumPy array)과 매우 비슷합니다(사실 넘파이 배열 객체 위에 구축되어 있습니다).- 넘파이 배열과 시리즈의 차이점은 시리즈는 축 레이블(axis labels)을 가질 수 있다는 것입니다.- 즉, 숫자 위치 대신 레이블로 인덱싱할 수 있습니다. 또한 시리즈는 숫자 데이터만 담을 필요가 없고, 임의의 파이썬 객체를 담을 수 있습니다. - Series에는 여러 옵션 값(매개변수)이 존재한다. (dtype, name, copy들 도 있으나, data와 index에 대해서만 설명 하겠습니다.)- data : 배열과 유사한 형태, Iterable, 딕셔너리 또는 스칼라 값이 들어갈 수 있으며, 시리즈에 저장된..
SQL - MySQL Constraints - 2
·
Data Analyst/SQL
DEFAULT 제약 조건 이란?테이블의 특정 열에 기본값(Default Value)을 설정할 수 있도록 도와줍니다.즉, 사용자가 값을 입력하지 않으면 해당 열에 기본값이 자동으로 삽입됩니다. 커스터마이징 가능: 기본값과 다른 값을 저장하고 싶다면, 데이터 입력 시 해당 값을 명시적으로 지정할 수 있습니다. DEFAULT 제약 조건 사용방법CREATE TABLE customers( customer_id INT, first_name VARCHAR(255), last_name VARCHAR(255), email_address VARCHAR(255), number_of_complaints INT DEFAULT 0, PRIMARY KEY (customer_id));위 예시에서는 n..
SQL - MySQL Constraints - 1
·
Data Analyst/SQL
Constraints(제약조건)- 제약조건 : 우리가 테이블에서 정의한 특정 규칙이나 한도를 뜻합니다.- 제약조건 종류는 Primary Key, Foreign Key, Unique Key 등이 있습니다.Primary Key (기본키)란?기본키(Primary Key)는 테이블 내의 각 행(row)을 고유하게 식별하는 열(column) 또는 열 그룹입니다.기본키로 지정된 열은 중복된 값을 허용하지 않으며, NULL 값을 가질 수 없습니다. 하나의 테이블에는 오직 하나의 기본키만 존재할 수 있습니다.Primary Key (기본키) 사용 방법create table customers( customer_id INT, first_name varchar(255), last_name varchar(255), ..
hmm06