Project - Instacart 데이터 물품 재구매 예측하기(ML)
·
Project/Machine Learning
1. Feature 생성기존 Feature 3개(user_id, product_id, reordered)에 더해 총 20개의 Feature를 새로 만든 후 해당 Feature들을 활용하여 재구매 예측 모델을 만들어 보았습니다.uxp_times_bought : user_id 와 product_id를 기준으로 사용자가 해당 제품을 몇 번 주문했는지 나타냅니다.uxp_reorder_ratio : 사용자가 특정 제품을 처음 구매한 이후 해당 제품을 얼마나 자주 재구매 했는지 계산한 비율입니다.uxp_last_five : 최근 5회 주문에서 사용자별 특정 제품의 구매 횟수입니다. uxp_ratio_last_five : 최근 5회 주문 중 제품 구매 비율(uxp_ratio_last_five)을 계산하여 해당 제품..
Project - Instacart 데이터 물품 재구매 예측하기(RFM)
·
Project/Machine Learning
1. RFM이란?Recency : 고객별로 얼마나 최근에 구매했는지Frequency : 고객별로 얼마나 자주 구매했는지Montary : 고객별로 얼마나 많은 금액을 지출했는지위의 3가지 조건을 합쳐서 RFM이라 하며, 고객의 분포를 확인하여 그룹(등급)을 나누어 분류하는 기법입니다. 저희는 위의 3가지 조건에 맞는 값들을 찾아내고 계산하여 등급을 나누어 주었습니다.하지만 저희는 Montary를 계산 하기 위한 가격이 존재하지 않았습니다. 그래서 저희는 고객이 주문한 전체 상품 수로 대체하여 계산해주었습니다.2. KMeans를 사용하여 점수 기반으로 등급 나누기우선 KMeans를 몇 개로 나눌 것인지에 대해 실루엣 계수를 사용하여 최적의 클러스터 수를 선택해보았습니다.그 결과, 4개로 나누는 것이 제일 높..
Project - Instacart 데이터 물품 재구매 예측하기
·
Project/Machine Learning
1. 프로젝트 시작...팀원들과 프로젝트 주제 설정을 하기로 하여 각각 팀원들의 관심 분야를 알아보게 되었습니다.그래서 공통적인 관심분야는 이커머스로 확인되어 이커머스 관련 프로젝트를 해보게 되었습니다. 그래서 저희는 캐글에 올라온 Instacart 장바구니 분석 데이터셋을 이용하여 재구매 여부 판단하는 프로젝트를 하기로 주제를 잡았습니다. 그리고 해당 데이터 셋에서는 가격에 대한 데이터가 따로 없어서 고객생애가치 확인 해보려 하였으나 하지 못하였습니다.하지만, 해당 데이터 셋을 통해 고객 등급을 RFM을 통해 나누는 작업을 해보자는 의견이 나왔었습니다. 머신러닝 모델은 RFM을 통해 고객 등급을 나눌 때 KMeans를 사용하여 등급을 분류하는 것이였고 두 번째로 재구매 예측을 위해 XGBoost나 Cl..
[Zero-base] 최동원 선수 연봉 예측하기 - 1
·
Project/Machine Learning
문제 1우리 과제는 최동원의 롯데 시절 1983년부터 1988년의 데이터를 사용하도록 하겠습니다.최동원의 당시 데이터와 함께 1983년부터 1988년 사이 투수들의 데이터(연봉포함)를 구하고, 2015년부터 2020년까지 프로야구의 투수들의 데이터를 구하시오.해결 방법저는 우선 야구선수들의 데이터가 필요하다 판단하여 KBO 사이트에서 데이터를 찾기로 하였습니다.해당 사이트 확인 결과 TABLE로 구성되어 있는 것을 확인하였습니다. 그래서 Selenium과 BeautifulSoup를 활용하면 될 거라 판단하였습니다. 즉, 첫 번째 작업으로 해당 테이블을 크롤링을 목표로 잡았습니다.from selenium import webdriverfrom selenium.webdriver.common.by import ..
hmm06
'ml project' 태그의 글 목록