KT AIVLE/Key Concepts

4. 데이터분석_이론정리

bestone888 2024. 10. 4. 01:22

데이터분석_이론정리

  1. 데이터 분석 방법론 (CRISP-DM)
  2. 단변량 분석: 숫자형 변수, 범주형 변수
  3. 가설 검정
  4. 이변량 분석: 숫자 -> 숫자, 범주-> 숫자, 범주 -> 범주, 숫자 -> 범주

1. 데이터 분석 방법론 (CRISP-DM)

Cross Industry Standard Process Datamining

  1. 문제 정의
  2. 데이터분석 EDA & CDA
  3. 데이터 구조만들기
  4. 모델 만들고 검증
  5. 평가A

EDA (Exploratory Data Analysis)

  • 개별 데이터 분포, 가설이 맞는지 파악

CDA (Confirmatory Data Analysis)

  • 통계적 분석 도구
In [ ]:
 

2. 단변량 분석: 숫자형 변수, 범주형 변수

숫자형 변수 수치화

  • 평균, 중위수, 최빈값
  • 사분위수

숫자형 변수 시각화

  • histogram
  • KDE plot
  • box plot

범주형 변수 수치화

  • 빈도수, 비율

범주형 변수 시각화

  • bar plot
In [ ]:
 

3. 가설 검정

귀무가설 (H0)

  • x와 y는 아무 관련이 없다

대립가설 (H1)

  • x와 y는 관련이 있다

p-value

In [ ]:
 

4-1. 이변량 분석: 숫자 -> 숫자

수치화

상관계수(r)

  • -1 ~ 1 사이의 값
  • 상관계수끼리 비교 가능
  • -1, 1에 가까울수록 강한 상관 관계
  • 강한: 0.5 ~ 1
  • 중간: 0.2 ~ 0.5
  • 약한: 0.1 ~ 0.2
  • 없음: 0 ~ 0.1

시각화

  • 산점도(scatterplot)
In [ ]:
 

4-2. 이변량 분석: 범주 -> 숫자

  • 범주 2개: 두 평균 비교
  • 범주 3개 이상: 전체 평균과 각 범주 평균 비교

수치화

t-test

  • t 통계량
  • 두 그룹의 평균 차이를 표준오차로 나눈 값
  • -2보다 작거나 2보다 크면 차이가 있다

ANOVA

  • F 통계량
  • (집단 간 분산)/ (집단 내 분산)
  • 2~3 이상이면 차이가 있다

시각화

  • barplot
In [ ]:
 

4-3. 이변량 분석: 범주 -> 범주

수치화

교차표(crosstab)

카이제곱검정

  • 클수록 기대빈도로부터 실제 값 차이가 크다
  • 범주 수가 늘어날수록 큰 값
  • 자유도의 2배보다 크면 차이가 있다

시각화

  • mosaic plot
In [ ]:
 

4-4. 이변량 분석: 숫자 -> 범주

시각화

  • KDE plot