ML - PANDAS(Condition-Filtering)
·
Data Analyst/ML
Condition - 조건- DataFrame에 조건을 추가하여 해당 조건에 부합하는 DataFrame을 출력하는 것들을 보여드리겠습니다.- 이제 보여줄 코드들은 매우 쉬운 코드들로 연산자를 사용하여 필터링 한다 보면 될 거 같습니다.# total_bill의 값이 30보다 큰 값들의 데이터 프레임을 가져온다.bool_series = df['total_bill'] > 30df[bool_series]# 위의 코드와 같은 것이지만 아래 방법으로도 사용 가능하다.df[df['total_bill']>30]- 위의 그림과 같이 total_bill을 확인하면 30보다 큰 값들을 가져온 것을 확인 할 수 있습니다. # 숫자만 가능한 것이 아닌 파이썬에서 사용하는 방식 그대로 문자열 또한 가능하다.df[df['sex']..
SQL - DELETE, TRUNCATE, Aggregate functions(집계함수), IFNULL - COALESCE
·
Data Analyst/SQL
DELETE- 데이터베이스에서 특정 조건에 맞는 데이터를 삭제하는 데 사용됩니다.-- 해당 쿼리는 emp_no가 999903인 데이터를 지웁니다.DELETE FROM employees WHERE emp_no = 999903;- 주의사항 : where절을 넣지 않으면 해당 테이블의 모든 데이터가 삭제됩니다.DROP vs TRUNCATE vs DELETE: 차이점1. DROPDROP 명령어는 테이블 자체를 삭제 특징: 테이블의 모든 데이터와 구조가 제거됨.사용 예시: DROP TABLE table_name;주의사항: 롤백 불가. 테이블이 완전히 삭제되므로 신중하게 사용해야 함.2. TRUNCATETRUNCATE 명령어는 테이블의 모든 데이터를 삭제하지만, 테이블 구조와 인덱스, 제약 조건은 그대로 유지..
ML - PANDAS(DATA FRAME) - 2
·
Data Analyst/ML
Data Frame - 2Data Frame 인덱스 선택하기- column들을 기반으로 선택하는 방법입니다.- 딕셔너리에서 키값을 넣으면 값이 나오는 방법 처럼 해당 컬럼명을 넣으면 해당 컬럼의 값들이 출력 됩니다.df['total_bill']- 그리고 위의 코드 결과의 타입은 Series 타입입니다. - 이번에는 두 개의 컬럼을 가져오겠습니다.# 여기서 중요한 점은 두 개의 컬럼을 가져오는 경우 이중 대괄호를 사용해야 한다.df[['total_bill','tip']]- 여기서 위의 코드에서도 말했듯이 두 개 이상의 컬럼을 사용하는 경우에는 이중 대괄호를 사용해야 합니다.- 이유 : 이중 대괄호를 사용한다는 것은 타입이 DataFrame 값을 출력하는 것입니다. 또 한 가지를 저희는 기억해야 합니다. S..
ML - PANDAS(Data Frame) - 1
·
Data Analyst/ML
Data Frame - 1- 데이터 분석에 유용한 2차원 데이터 구조입니다.- 엑셀의 시트나 SQL 테이블과 비슷한 형식을 가지며, 행(row)과 열(column)로 이루어져 있습니다.- 이를 활용하면 대용량 데이터를 쉽게 조작할 수 있습니다. Data Frame 생성하기- pd.DataFrame(data=값, index=인덱스명, column=컬럼명) 이런 형식으로 데이터 프레임을 생성 할 수 있습니다.- 아래코드를 확인 하겠습니다.# numpy를 사용하여 난수를 고정시킨 후 4행 3열의 배열을 만들게 된다.np.random.seed(101)mydata = np.random.randint(0,101,(4,3))# 인덱스에 넣을 값 변수에 저장myindex = ['CA','NY','AZ','TX']# 컬..
SQL - The INSERT Statement, The UPDATE Statement, COMMIT and ROLLBACK
·
Data Analyst/SQL
The INSERT Statement (데이터 삽입)INSERT 문법: 데이터를 테이블에 삽입하기 위해 사용됩니다.-- 사용 방법INSERT INTO table_name (column_1, column_2, …, column_n)VALUES (value_1, value_2, …, value_n);/*column들의 순서와 value값들의 순서는 서로 일치해야한다!!*/insert into employees( emp_no, birth_date, first_name, last_name, gender, hire_date) values( 999901, -- 정수형 또한 따옴표 안에 작성은 가능하나 좋은 방법은 아니다. '1986-04-21', 'John', 'Smith..
ML - Pandas(Series)
·
Data Analyst/ML
Series- 우선, Series는 pandas의 데이터 타입입니다.- Series는 넘파이 배열(NumPy array)과 매우 비슷합니다(사실 넘파이 배열 객체 위에 구축되어 있습니다).- 넘파이 배열과 시리즈의 차이점은 시리즈는 축 레이블(axis labels)을 가질 수 있다는 것입니다.- 즉, 숫자 위치 대신 레이블로 인덱싱할 수 있습니다. 또한 시리즈는 숫자 데이터만 담을 필요가 없고, 임의의 파이썬 객체를 담을 수 있습니다. - Series에는 여러 옵션 값(매개변수)이 존재한다. (dtype, name, copy들 도 있으나, data와 index에 대해서만 설명 하겠습니다.)- data : 배열과 유사한 형태, Iterable, 딕셔너리 또는 스칼라 값이 들어갈 수 있으며, 시리즈에 저장된..
SQL - Wildcard, IS NULL, Between AND, Distinct, Aggregate Function, Group By, Having, Limit
·
Data Analyst/SQL
와일드카드 문자 와일드카드 문자는 단어를 찾을 때 패턴 매칭을 해주는 기능입니다. % (퍼센트): 여러 문자를 대체합니다. ex) 'Mar%'는 Mark, Martin, Margaret 등을 매칭합니다._ (언더스코어): 단일 문자를 대체합니다. ex) 'Mar_'는 Mark, Marv, Marl 등을 매칭합니다.* (별표): 테이블의 모든 열을 나타내거나 모든 행을 계산하는 데 사용됩니다.  IS NULL - IS NOT NULLIS NULL은 특정 열의 값이 NULL인지 확인하는 데 사용됩니다.-- employees 테이블의 NULL값인 데이터를 모두 가져온다.SELECT *FROM employeesWHERE first_name IS NULL; 반대로 IS NOT NULL은 특정 열..
SQL - SELECT, WHERE, AND, OR, IN-NOT IN
·
Data Analyst/SQL
SQL - SELECT 문SELECT 문은 SQL에서 데이터를 조회할 때 사용되는 가장 기본적인 명령어입니다. 데이터베이스 테이블에서 원하는 데이터를 선택하고 추출하는 역할을 합니다.또한, * 문자를 사용하여 테이블의 모든 열을 선택할 수도 있습니다. 사용 예시-- employees 테이블에서 first_name과 last_name 열의 데이터를 모두 가져옵니다.SELECT first_name, last_nameFROM employees;--employees 테이블의 모든 열과 데이터를 반환합니다.SELECT * FROM employees; SQL - WHERE 절WHERE 절은 SELECT 문과 함께 사용되어 데이터를 필터링하는 역할을 합니다. 이를 통해 조건에 맞는 특정 데이터만 선택할 수 있습니다...
ML - Pandas(Combining DataFrames) - 2
·
Data Analyst/ML
Pandas 함수 - (pd.merge(DataFrame, DataFrame, how=(inner, outer, left of right), on=(어떤 열을 기준으로 합 칠지)- 한 데이터 프레임에는 있지만 다른 데이터 프레임에는 없는 열이 있을 수 있고 혹은 한 데이터 프레임에 없는 행이 있을 수 있는 경우에는 데이터 프레임을 merge 시켜야 한다.merge 함수 사용 시 중요한 점1. 'on'  = 열은 각 행마다 고유한 기본 식별자여야 한다.(열의 값이 각 행마다 모두 다르게 설정되어야 한다는 것입니다.)2. 'how' = 열에서 테이블 어떻게 merge 할 지 결정해야 한다. 3. 즉,  how = 어떤 방법으로 merge할지 on = 어떤 열을 기준으로 merge할 지 결정하는 것이다.Inn..
ML - Pandas(Combining DataFrames) - 1
·
Data Analyst/ML
Pandas 함수 - (pd.concat([DataFrame, DataFrame], axis=0 or 1)- Pandas는 두 개의 표에서 행과 열 중 하나라도 동일한 것이 있다면 서로 합칠 수 있다.- axis = 0 : 행(row)을 기준으로 합친다는 의미이다. (두개의 data frame에서 행이 같은 인덱스라면 그 인덱스를 기준으로 합쳐지게 된다. )- axis = 1 : 열(column)을 기준으로 합친다는 의미이다.(두개의 data frame에서 열이 같은 인덱스라면 그 인덱스를 기준으로 합쳐지게 된다.) import numpy as npimport pandas as pddata_one = {'A':['A0', 'A1', 'A2', 'A3'], 'B':['B0', 'B1', 'B2', 'B3'..
hmm06
hmm06 님의 블로그