데이터 다듬기 문법 정리
In [ ]:
# 열을 인덱스로 설정
df.set_index('column', inplace = True)
# 인덱스의 이름 제거
df.index.name = None
# 인덱스를 열로 되돌리기
df.reset_index(drop = True, inplace = True)
# 열 이름 변경
df.rename(columns ={'original': 'changed'})
In [ ]:
# 인덱스 확인
df.index
# 열 확인
df.columns
# 값 확인
df.values
# 고윳값 확인
df['column'].unique()
# 고윳값 개수 확인
df['column'].value_counts()
df['column'].value_counts(normalize = True)
In [ ]:
# 열 정렬
df.sort_values(['column1, column2'], ascending = [True, False])
In [ ]:
# 숫자로 된 값만 합 구하기
df.sum(numeric_only = True)
In [ ]:
# 열 조건 검색
# df.loc
# isin()
# between()
df.loc[df['column'].isin['a','b','c']]
df.loc[df['column'].between(a,b)]
In [ ]:
# 열 조건 검색 후 원하는 열만 조회
# column2, 3 조회
df.loc[df['column1'] == ?, ['column2', 'column3']]
In [ ]:
# 열 삭제
df.drop(columns = ['drop_col1', 'drop_col2'], inplace = True)
In [ ]:
# 범주값 변경
df['column'].replace({'original1': 'change1', 'original2': 'change2'}, inplace = True)
In [ ]:
# 여러 열 집계
tip.groupby(['col'], as_index = False)[['col2']].sum()
In [ ]:
# 사분위수 값 저장
q1 = df['column'].describe()['25%']
q2 = df['column'].describe()['50%']
q3 = df['column'].describe()['75%']
# 범주값 만들기
df['categorized'] = pd.cut(df['column'], bins = ?, labels = label)
In [ ]:
# 결측치 채우기
df.fillna('?')
df.ffill()
df.bfill()
df.interpolate()
In [ ]:
# 가변수화
df = df.get_dummies(df, columns = ['dumm_col1', 'dumm_col2'], drop_first = True, dtype = int)
In [ ]:
# 데이터 프레임 합치기
df = pd.concat([df1, df2], join = 'inner', axis = 1)
df = pd.merge(df1, df2, how = 'inner', on = 'key')
In [ ]:
# 기간에 대한 집계 rolling()
# window : n일 기준
# min_periods :값을 낼 최소 단위
df['col'].rolling(window = n, min_periods = m)
# 데이터를 열 or 행 방향으로 이동
# k 만큼 아래 행으로 이동
df['new'] = df['original'].shift(k)
'KT AIVLE > Python Syntax' 카테고리의 다른 글
딥러닝_문법정리 (0) | 2025.01.22 |
---|---|
머신러닝_지도_문법정리 (0) | 2024.11.03 |
lambda, filter, reduce (0) | 2024.10.06 |
데이터분석_문법정리 (0) | 2024.10.06 |