'EDA' 태그의 글 목록

[zero-base] 셀프 주유소는 정말로 저렴한가? (보충)

2024.10.28·

Project/data analysis

이전 글에서 언급했던 범주형 변수(Y/N이 들어있는 변수)를 피어슨 상관계수를 사용하여 분석하였던 문제를 해결하기 위해 포인트 바이세리얼 상관계수와 t-검정을 활용하여 변수간 상관성을 다시 분석해보았습니다.코드를 통해 설명하겠습니다. 1. stats 라이브러리의 pointbiserialr을 활용하여 상관성 확인from scipy.stats import pointbiserialrdef pointbiserialr_calc(price, column): correlation, p_value = pointbiserialr(df_replace[column], df_replace[price]) print(f"{price}와 {column}의 포인트 바이세리얼 상관계수: {round(correlation, ..

[zero-base] 셀프 주유소는 정말로 저렴한가?

2024.10.25·

Project/data analysis

해당 주제는 실제로 셀프 주유소가 기름값이 더 저렴한지 궁금하여 선택한 주제 입니다. 그래서 직접 주유소 홈페이지를 들어가서 크롤링 후 실제로 더 저렴한지 분석해보겠습니다. 1. 서울시 각 구별 주유소 데이터 크롤링from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom bs4 import BeautifulSoupfrom selenium.webdriver.support.select import Selectimport time# 대한민국 주유 가격 알아보는 사이트url = 'https://www.opinet.co.kr/searRgSelect.do'# 창 열기driver = webdriver.Chrome()driver.get(..

[zero-base] 스타벅스와 이디야 매장 거리 분석 (보충)

2024.10.23·

Project/data analysis

이전 글에서 언급했던 문제였던 경도 위도 데이터들을 추가 해주었으며, 구마다 거리들의 평균을 구했습니다.추가적으로 귀무가설과 대립가설을 정의 한 후 p-value를 통해 어떤 가설이 맞는지 확인 또한 해보았습니다.코드를 통해 설명해보겠습니다. 1. 상세 주소를 이용하여 위도 경도 알아내기lat_lng_url = 'https://www.findlatlng.org/#google_vignette'driver = webdriver.Chrome()new_lat = []new_lng = []url = lat_lng_urldriver.get(url)driver.maximize_window()for address in address_ediya: a = driver.find_element(By.CLASS_NAME..

[zero-base] 스타벅스와 이디야 매장 거리 분석

2024.10.22·

Project/data analysis

우선 해당 주제를 가져온 이유는 이디야커피는 가끔 스타벅스 매장이 위치한 곳에 매장을 위치하는 것이 아니냐는 의심을 받곤 합니다. 그리고 공식적으로 이디야 커피 회장은 이 사실을 부인 한 것으로 알고 있습니다.그래서 직접 이디야 매장 위치와 스타벅스 위치 데이터들을 가져와서 분석해보고 사실인지 아닌지를 판단 해보겠습니다. 문제 1 : 서울시 스타벅스 매장 위치 크롤링from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom bs4 import BeautifulSoupimport timestar_url = "https://www.starbucks.co.kr/store/store_map.do"driver = webdriver.C..

[Zero-base] 최동원 선수 연봉 예측하기 - 1

2024.10.18·

Project/Machine Learning

문제 1우리 과제는 최동원의 롯데 시절 1983년부터 1988년의 데이터를 사용하도록 하겠습니다.최동원의 당시 데이터와 함께 1983년부터 1988년 사이 투수들의 데이터(연봉포함)를 구하고, 2015년부터 2020년까지 프로야구의 투수들의 데이터를 구하시오.해결 방법저는 우선 야구선수들의 데이터가 필요하다 판단하여 KBO 사이트에서 데이터를 찾기로 하였습니다.해당 사이트 확인 결과 TABLE로 구성되어 있는 것을 확인하였습니다. 그래서 Selenium과 BeautifulSoup를 활용하면 될 거라 판단하였습니다. 즉, 첫 번째 작업으로 해당 테이블을 크롤링을 목표로 잡았습니다.from selenium import webdriverfrom selenium.webdriver.common.by import ..

[Zero-base] EDA 5회차 테스트

2024.10.02·

Project/EDA 연습

Data 원본 출처Target Data(Json): 전국박물관미술관정보표준데이터(공공데이터포털)import json# 채점을 위한 코드입니다. 반드시 실행해주세요.from grading import *with open('C:/Users/min99/EDA 5/EDA_Level_Test_05 (배포용)/datas/전국박물관미술관정보표준데이터.json', 'r', encoding='utf-8') as f: json_data = json.load(f)문제 시작!1단계: Json Data로 DataFrame으로 만들기문제 1-1) Json Data로 Pandas DataFrame 만들기 (10점)위에서 읽은 json_data는 아래와 같이 구성되어있습니다. 이를 참고하여 pandas dataframe으로 불..

[Zero-base] EDA 4회차 테스트

2024.09.27·

Project/EDA 연습

Data 원본 출처Target Data(CSV): Global Internet Usage(국가별 인터넷 사용률)참고사항위 3개의 Data들은 생성 시기가 다르므로 이 Test에서 도출되는 결과는 실제와 일치하지 않습니다.문제에 hint가 있을 경우, 해당 hint를 이용하지 않으셔도 무방합니다.해당 Test는 Wiki의 Online Data를 가져오는 내용을 포함하고 있습니다우선 csv 파일을 읽어 DataFrame으로 변환 하겠습니다.import pandas as pd# 채점을 위한 코드입니다. 반드시 실행해주세요.from grading import *df_target = pd.read_csv('./datas/gapminder_internet.csv')df_target1단계: Target Data 불러..

[Zero-base] EDA 3회차 테스트

2024.09.24·

Project/EDA 연습

Data 원본 출처- Target Data(CSV): 역대(1976-2008) 하계 올림픽 메달리스트에 대한 정보- 올림픽 메달 취소 등 반영 안되어있음- 복식/단체 종목의 선수 수, 당시 메달 수여 룰, 메달 취소 및 승격/승계 등의 실제 메타데이터가 없이는 확인 어려움1단계: Load Data & Preprocessing3-1. Load Target Data문제 1-1) Target Data 가져오기 (10점)위에 제시된 링크 혹은 datas 폴더에 있는 데이터(Summer-Olympic-medals-1976-to-2008.csv)를 Pandas DataFrame으로 읽어 오세요.# 1-1import pandas as pd# 채점을 위한 코드입니다. 반드시 실행해주세요.from grading impo..

티스토리툴바