'data analyst' 태그의 글 목록 (9 Page)

[Zero-base] EDA 3회차 테스트

2024.09.24·

Project/EDA 연습

Data 원본 출처- Target Data(CSV): 역대(1976-2008) 하계 올림픽 메달리스트에 대한 정보- 올림픽 메달 취소 등 반영 안되어있음- 복식/단체 종목의 선수 수, 당시 메달 수여 룰, 메달 취소 및 승격/승계 등의 실제 메타데이터가 없이는 확인 어려움1단계: Load Data & Preprocessing3-1. Load Target Data문제 1-1) Target Data 가져오기 (10점)위에 제시된 링크 혹은 datas 폴더에 있는 데이터(Summer-Olympic-medals-1976-to-2008.csv)를 Pandas DataFrame으로 읽어 오세요.# 1-1import pandas as pd# 채점을 위한 코드입니다. 반드시 실행해주세요.from grading impo..

SQL - Window Functions (ROW_NUMBER)

2024.09.20·

Data Analyst/SQL

윈도우 함수(Window Functions)는 SQL에서 데이터 분석과 계산을 더욱 강력하고 유연하게 처리할 수 있게 해주는 기능입니다.데이터 집합을 다양한 방식으로 처리할 수 있도록 도와주는 윈도우 함수는 특히 데이터 분석 및 리포트 작성에 유용합니다.새로운 컬럼을 만들어서 출력합니다. 사용 예시:-- 무조건 over가 있어야 window function 사용이 가능합니다.SELECT column1, column2, ... ROW_NUMBER() OVER () AS row_numFROM table;ROW_NUMBER() : 각 행마다 순차적으로 숫자를 부여해주는 기능을 합니다. 즉, 기본적인 행 번호를 부여합니다. 활용 1: SELECT emp_no, title, salary, R..

SQL - Index, Case Statement

2024.09.17·

Data Analyst/SQL

MySQL 인덱스인덱스는 데이터베이스에서 검색 성능을 향상시키는 중요한 도구입니다. 책의 목차처럼 작동하며, 테이블의 특정 열을 빠르게 검색할 수 있도록 돕습니다. 인덱스 기본 생성:-- 방법CREATE INDEX index_nameON table_name (column_1, column_2, ...);-- 예시create index i_hire_date on employees(hire_date);이 구문에서 괄호 안에는 자주 검색할 열을 지정합니다. 단일 열 인덱스 뿐 아니라 다중 열을 사용한 복합 인덱스도 생성 할 수 있습니다. 복합 인덱스:-- 방법CREATE INDEX idx_nameON table_name (column1, column2);-- 예시create index i_composite o..

ML - Matplotlib SubPlots

2024.09.16·

Data Analyst/ML

plt.subplots()우선, numpy를 통해 데이터를 생성해보겠습니다.import numpy as np# a는 np.linspace를 사용하여 0부터 10까지 11개의 균등한 간격의 숫자를 생성a = np.linspace(0,10,11)# b는 a의 각 원소를 4제곱한 값을 가진 배열b = a ** 4# x는 0부터 9까지의 정수 배열을 생성x = np.arange(0,10)# x의 각 원소에 2를 곱한 값을 가진 배열y = 2 * x plt.subplots() 객체는 더 자동화된 축 관리자로 작용합니다. 이로 인해 여러 플롯을 나란히 표시하는 것이 훨씬 쉬워집니다.튜플 언패킹을 사용하여 Figure 객체와 numpy 배열의 축을 모두 잡는 방법에 주목하세요.# plt.figure()와 유사하게 사..

SQL - Trigger

2024.09.16·

Data Analyst/SQL

MySQL 트리거란 무엇인가?MySQL 트리거는 테이블에 연결된 저장 프로그래밍의 일종입니다. 특정 이벤트가 발생하면 자동으로 활성화 됩니다. 이 이벤트는 반드시 INSERT, UPDATE, 또는 DELETE와 같은 DML(데이터 조작 언어) 명령어와 관련이 있어야 합니다. 트리거는 데이터베이스의 일관성과 무결성을 유지하는데 매우 유용한 도구입니다. 트리거는 두 가지 유형으로 나뉩니다.BEFORE 트리거: 이벤트 발생 전에 실행 됩니다.AFTER 트리거: 이벤트 발생 후에 실행 됩니다.예를 들어, 트리거는 테이블에 새 레코드가 삽입되기 전에 또는 레코드가 업데이트 된 후에 활성화 될 수 있습니다.DELIMITER $$CREATE TRIGGER before_salaries_insertBEFORE INSE..

SQL - Local, Session, Global Variables

2024.09.16·

Data Analyst/SQL

Local Variables (지역 변수)지역 변수는 Begin-End 블록 내에서만 유효한 변수 입니다. 이 변수들은 해당 블록을 벗어나면 존재하지 않게 됩니다.지역 변수를 선연할 때는 DECLARE 키워드를 사용해야 합니다.DELIMITER $$create function f_emp_avg_salary (p_emp_no INTEGER) returns decimal(10,2)deterministic no sql reads sql databegindeclare v_avg_salary decimal(10,2); # v_avg_salary 변수 생성begin declare a_avg_salary_2 decimal(10,2); # a_avg_salary_2 변수 생성end;select avg(s.salary)..

SQL - Variables, Functions

2024.09.13·

Data Analyst/SQL

변수와 매개변수 (Variables and Parameters)프로그램을 정의할 때 매개변수(Parameter)를 사용하여 입력값을 처리하고, 그 결과를 변수(Variable)에 저장할 수 있습니다. MySQL의 저장 프로시저에서 IN, OUT 또는 IN-OUT 매개변수를 사용할 수 있으며, 이러한 매개변수를 통해 값을 입력하고 결과를 반환할 수 있습니다.# 변수v_avg_salary 설정set @v_avg_salary = 0;# 프로시저 호출(11300) 및 변수(@v_avg_salary)에 저장call employees.emp_avg_salary_out(11300, @v_avg_salary);# 변수 값 출력select @v_avg_salary;위의 방법을 사용하여 변수를 만들고 해당 프로시저의 연..

데이터 분석 및 시각화 하기 (영화 평점과 티켓 수익률) - Project 3

2024.09.13·

Project/data analysis

기사에서 언급된 바와 같이, HTML과 별점 표시 때문에 실제 사용자 평점은 사용자에게 표시된 평점과 약간 다를 수 있습니다. 이 차이를 시각화해보겠습니다. 표시된 평점(STARS)과 실제 평점(RATING)의 분포를 보여주는 KDE(커널 밀도 추정) 플롯을 생성합니다.KDE를 0-5로 클리핑하겠습니다.fig = plt.figure(figsize=(10.5, 4))# label : legend에 표시할 이름 즉, 라벨이다.# clip : 클리핑할 단위를 적는 것입니다.sns.kdeplot(review_film, x='RATING',clip=[0,5], fill=True, label='True Rating')sns.kdeplot(review_film, x='STARS',clip=[0,5], fill=Tru..

SQL - Routine, Stored Procedure

2024.09.12·

Data Analyst/SQL

Introduction to Stored Routines저장 루틴 개요:저장 프로시저와 함수는 SQL 명령어 집합을 서버에 저장하여 필요할 때 호출할 수 있는 기능입니다. 이는 반복적인 작업을 자동화할 때 유용합니다.저장 프로시저는 계산을 수행하고 데이터를 처리하여 결과를 반환합니다.주요 특징:프로시저는 여러 번 호출 가능.(반복작업 최소화)예시 : 사용자가 100명 이상 DB에 동일한 쿼리를 실행하는 경우, 효율적인 방법으로 저장 프로시저를 사용하는 것이 좋습니다. 이를 통해 쿼리 로직을 데이터베이스 내에 미리 저장해두고, 사용자들은 프로시저만 호출함으로써 성능을 최적화할 수 있습니다.입력 매개변수를 받아 계산을 수행할 수 있음.파라미터(매개변수)를 사용하여 작업을 할 수 있습니다. 코딩에서 inpu..

데이터 분석 및 시각화하기 (영화 평점과 티켓 수익률) - Project 2

2024.09.12·

Project/data analysis

1. Fandango의 표시된 점수와 실제 사용자 평점 비교먼저 Fandango 평점을 탐색하여 우리의 분석이 기사의 결론과 부합하는지 확인해 봅시다. # fandango_scrape.csv 파일 읽기fandango = pd.read_csv("fandango_scrape.csv")# head()하여 상위 5개 데이터 보기fandango.head()# info()사용하여 데이터 내용 확인하기fandango.info()# describe()사용하여 계산 결과 확인하기fandango.describe()해당 작업을 해본 결과 컬럼은 FILM, STARS, RATING, VOTES가 있는 것을 확인 하였으며, 총 504개의 행이 존재한다는 것을 알 수 있었으며 4개의 컬럼에서는 NaN값이 없는 것도 확인 되었습..

티스토리툴바