[zero-base] 이커머스 고객 Segmentation을 위한 RFM 분석 - 2
·
Project/data analysis
🔊Process03RFM 활용 서비스 이용 수준 측정 3.1 Scailing Data# ▶ Min max scale = 최대값을 1, 최소값을 0으로 표준화하는 기법from sklearn.preprocessing import minmax_scale# ▶ 최근성은 숫자가 작을수록, 즉 최근 구매일이 얼마 지나지 않은 고객이 더 점수가 높음 그래서 1을 빼주었음.rfm['Recency'] = minmax_scale(rfm['Recency'], axis=0, copy=True)rfm['Recency'] = 1-rfm['Recency']rfm['Frequency'] = minmax_scale(rfm['Frequency'], axis=0, copy=True)rfm['Monetary'] = minmax_scale..
[zero-base] 이커머스 고객 Segmentation을 위한 RFM 분석 - 1
·
Project/data analysis
RFM 분석하는 이유는?고객별 RFM 3가지 지표들을 통해서 고객 점수 부여 및 등급화에 따른 서비스 등급을 부여합니다. 그리고 월마다 중요한 그룹에 대한 비중이 떨어지고 있는지 올라가고 있는지 확인 하는 것이 RFM 분석입니다.즉, RFM 분석을 하게 되면 어떤 그룹에 타겟팅하여 마케팅할 지 정할 수 있게 됩니다.1. 문제 정의런칭 이후 서비스 정체기로 인한 영업이익, 사용 고객 수 감소2. 해결방안구매 데이터 활용 서비스 이용 현황 파악(지표 기획)3. 기대 효과정체 원인 파악 및 대응책 수립 및 실행을 통한 영업이익, 사용 고객 수 증가🔈Process011. Data 전처리1.1 Null값 확인# ▶ Null 값 확인print(df.isnull().sum())코드 결과를 보니 두 개의 컬럼 값에서..
[zero-base] 셀프 주유소는 정말로 저렴한가? (보충)
·
Project/data analysis
이전 글에서 언급했던 범주형 변수(Y/N이 들어있는 변수)를 피어슨 상관계수를 사용하여 분석하였던 문제를 해결하기 위해 포인트 바이세리얼 상관계수와 t-검정을 활용하여 변수간 상관성을 다시 분석해보았습니다.코드를 통해 설명하겠습니다. 1. stats 라이브러리의 pointbiserialr을 활용하여 상관성 확인from scipy.stats import pointbiserialrdef pointbiserialr_calc(price, column): correlation, p_value = pointbiserialr(df_replace[column], df_replace[price]) print(f"{price}와 {column}의 포인트 바이세리얼 상관계수: {round(correlation, ..
[zero-base] 셀프 주유소는 정말로 저렴한가?
·
Project/data analysis
해당 주제는 실제로 셀프 주유소가 기름값이 더 저렴한지 궁금하여 선택한 주제 입니다. 그래서 직접 주유소 홈페이지를 들어가서 크롤링 후 실제로 더 저렴한지 분석해보겠습니다. 1. 서울시 각 구별 주유소 데이터 크롤링from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom bs4 import BeautifulSoupfrom selenium.webdriver.support.select import Selectimport time# 대한민국 주유 가격 알아보는 사이트url = 'https://www.opinet.co.kr/searRgSelect.do'# 창 열기driver = webdriver.Chrome()driver.get(..
[zero-base] 스타벅스와 이디야 매장 거리 분석 (보충)
·
Project/data analysis
이전 글에서 언급했던 문제였던 경도 위도 데이터들을 추가 해주었으며, 구마다 거리들의 평균을 구했습니다.추가적으로 귀무가설과 대립가설을 정의 한 후 p-value를 통해  어떤 가설이 맞는지 확인 또한 해보았습니다.코드를 통해 설명해보겠습니다. 1. 상세 주소를 이용하여 위도 경도 알아내기lat_lng_url = 'https://www.findlatlng.org/#google_vignette'driver = webdriver.Chrome()new_lat = []new_lng = []url = lat_lng_urldriver.get(url)driver.maximize_window()for address in address_ediya: a = driver.find_element(By.CLASS_NAME..
[zero-base] 스타벅스와 이디야 매장 거리 분석
·
Project/data analysis
우선 해당 주제를 가져온 이유는 이디야커피는 가끔 스타벅스 매장이 위치한 곳에 매장을 위치하는 것이 아니냐는 의심을 받곤 합니다. 그리고 공식적으로 이디야 커피 회장은 이 사실을 부인 한 것으로 알고 있습니다.그래서 직접 이디야 매장 위치와 스타벅스 위치 데이터들을 가져와서 분석해보고 사실인지 아닌지를 판단 해보겠습니다. 문제 1 : 서울시 스타벅스 매장 위치 크롤링from selenium import webdriverfrom selenium.webdriver.common.by import Byfrom bs4 import BeautifulSoupimport timestar_url = "https://www.starbucks.co.kr/store/store_map.do"driver = webdriver.C..
데이터 분석 및 시각화하기 (영화 평점과 티켓 수익률) - Project 4
·
Project/data analysis
이제 다른 영화 사이트인 MetaCritic의 평점을 간단히 산점도 분포표를 통해 살펴 보겠습니다.fig = plt.figure(figsize=(10, 4),dpi=200)sns.scatterplot(data=all_sites, x='Metacritic', y='Metacritic_User')plt.xlim(0, 100)plt.ylim(0,10)비평가 점수(Metacritic)와 사용자 점수( Metacritic_User) 간의 상관관계를 시각적으로 파악할 수 있습니다.현재 분포도를 보면 평가가 골고루 분포 하는 것을 알 수 있습니다.비평가의 점수는 작으나 사용자의 점수가 높은 것은 비평가에게는 안좋은 평이지만 사용자에게는 재미있었다는 영화일 수도 있다는 것을 알 수 있는 그래프입니다.이번에는 마지막 영..
데이터 분석 및 시각화 하기 (영화 평점과 티켓 수익률) - Project 3
·
Project/data analysis
기사에서 언급된 바와 같이, HTML과 별점 표시 때문에 실제 사용자 평점은 사용자에게 표시된 평점과 약간 다를 수 있습니다. 이 차이를 시각화해보겠습니다. 표시된 평점(STARS)과 실제 평점(RATING)의 분포를 보여주는 KDE(커널 밀도 추정) 플롯을 생성합니다.KDE를 0-5로 클리핑하겠습니다.fig = plt.figure(figsize=(10.5, 4))# label : legend에 표시할 이름 즉, 라벨이다.# clip : 클리핑할 단위를 적는 것입니다.sns.kdeplot(review_film, x='RATING',clip=[0,5], fill=True, label='True Rating')sns.kdeplot(review_film, x='STARS',clip=[0,5], fill=Tru..
데이터 분석 및 시각화하기 (영화 평점과 티켓 수익률) - Project 2
·
Project/data analysis
1. Fandango의 표시된 점수와 실제 사용자 평점 비교먼저 Fandango 평점을 탐색하여 우리의 분석이 기사의 결론과 부합하는지 확인해 봅시다. # fandango_scrape.csv 파일 읽기fandango = pd.read_csv("fandango_scrape.csv")# head()하여 상위 5개 데이터 보기fandango.head()# info()사용하여 데이터 내용 확인하기fandango.info()# describe()사용하여 계산 결과 확인하기fandango.describe()해당 작업을 해본 결과 컬럼은 FILM, STARS, RATING, VOTES가 있는 것을 확인 하였으며, 총 504개의 행이 존재한다는 것을 알 수 있었으며 4개의 컬럼에서는 NaN값이 없는  것도 확인 되었습..
데이터 분석 및 시각화하기 (영화 평점과 티켓 수익률) - Project 1
·
Project/data analysis
저희는 온라인 리뷰와 평점을 얼마나 신뢰할 수 있을까요?특히 동일한 회사가 평점을 높게 표시 하고 동시에 영화 티켓을 판매하여 수익을 올린다면 영화의 평점을 더 높게 평가할 경향이 있을까요? 저는 이제 FiveThirtyeight 기사를 기반으로 하여 분석을 완료하고 비슷한 결론에 도달해야 합니다. Fandango의 2015년 등급이 영화를 더 잘 평가하여 더 많은 티켓을 판매하기 위해 편향되어 있는지 판단하기 위해 판다스 및 시각화 기술을 사용해야 합니다.해당 기사를 읽고 온라인 평점에 대해 의심을 가져야합니다. (특히, Fandango의 평점에 대해 유심히 봐야합니다.)https://fivethirtyeight.com/features/fandango-movies-ratings/ Be Suspiciou..
hmm06
'Project/data analysis' 카테고리의 글 목록