KT AIVLE/Key Concepts
4. 데이터분석_이론정리
bestone888
2024. 10. 4. 01:22
데이터분석_이론정리
- 데이터 분석 방법론 (CRISP-DM)
- 단변량 분석: 숫자형 변수, 범주형 변수
- 가설 검정
- 이변량 분석: 숫자 -> 숫자, 범주-> 숫자, 범주 -> 범주, 숫자 -> 범주
1. 데이터 분석 방법론 (CRISP-DM)
Cross Industry Standard Process Datamining
- 문제 정의
- 데이터분석 EDA & CDA
- 데이터 구조만들기
- 모델 만들고 검증
- 평가A
EDA (Exploratory Data Analysis)
- 개별 데이터 분포, 가설이 맞는지 파악
CDA (Confirmatory Data Analysis)
- 통계적 분석 도구
In [ ]:
2. 단변량 분석: 숫자형 변수, 범주형 변수
숫자형 변수 수치화
- 평균, 중위수, 최빈값
- 사분위수
숫자형 변수 시각화
- histogram
- KDE plot
- box plot
범주형 변수 수치화
- 빈도수, 비율
범주형 변수 시각화
- bar plot
In [ ]:
3. 가설 검정
귀무가설 (H0)
- x와 y는 아무 관련이 없다
대립가설 (H1)
- x와 y는 관련이 있다
p-value
In [ ]:
4-1. 이변량 분석: 숫자 -> 숫자
수치화
상관계수(r)
- -1 ~ 1 사이의 값
- 상관계수끼리 비교 가능
- -1, 1에 가까울수록 강한 상관 관계
- 강한: 0.5 ~ 1
- 중간: 0.2 ~ 0.5
- 약한: 0.1 ~ 0.2
- 없음: 0 ~ 0.1
시각화
- 산점도(scatterplot)
In [ ]:
4-2. 이변량 분석: 범주 -> 숫자
- 범주 2개: 두 평균 비교
- 범주 3개 이상: 전체 평균과 각 범주 평균 비교
수치화
t-test
- t 통계량
- 두 그룹의 평균 차이를 표준오차로 나눈 값
- -2보다 작거나 2보다 크면 차이가 있다
ANOVA
- F 통계량
- (집단 간 분산)/ (집단 내 분산)
- 2~3 이상이면 차이가 있다
시각화
- barplot
In [ ]:
4-3. 이변량 분석: 범주 -> 범주
수치화
교차표(crosstab)
카이제곱검정
- 클수록 기대빈도로부터 실제 값 차이가 크다
- 범주 수가 늘어날수록 큰 값
- 자유도의 2배보다 크면 차이가 있다
시각화
- mosaic plot
In [ ]:
4-4. 이변량 분석: 숫자 -> 범주
시각화
- KDE plot