회귀진단(Regression Diagnostics)에 대해 알아 봅니다.
▶ 모형 및 가정 진단: *잔차분석(Residual Analysis)을 통하여 오차항의
등분산성 / 정규성 / 독립성을 체크.
※ 잔차: 추정한 에러.
앞의 난방비 관련 회귀분석 자료를 기반으로 하여 상기 진단을
진행해 보겠습니다.
▶ 명령어: plot(회귀식 오브젝트) ※ 아래 참조
1) 등분산성: 추정값 vs. 잔차에 대한 plot을 그려 보아 확인.
상기 명령어를 실행하면 총 4개의 그래프가 그려지는데,
그 중 첫 번째로 그려 진 그래프.
아래 그래프에서 'Fitted values' 가 Y' 값을 나타냄.
또한, 그래프상 빨간 라인은 plot 상에 있는 점들을 가지고
non-parametric 방법으로 Fit을 해준 것임.
(확인의 의미로 자동계산 해준 것)
2) 정규성: 잔차에 대한 Normal *QQ plot을 그려 보아 확인.
※ QQ plot: Quantile-Quantile plot, 2개(Quantile)의 분포가
비슷한지를 graphical 하게 보는 것.
상기 명령어를 통해 그려지는 두 번째 그래프로, QQ plot은
그래프에서 직선 라인에 얼마나 모여 있는지를 확인하는 용도.
(대충 맞으면 넘어 감)
3) 독립성: Durbin-Waston 통계량을 이용하여 확인.
▶ 명령어: dwtest(회귀식 오브젝트)
※ 참고로 상기 명령어(dwtest)를 실행하기 위해서는
"lmtest" 가 설치되어 있어야 함.
설치가 안되어 있다면 아래와 같이 실행 후 진행.
>> install.packages("lmtest")
상기 결과에서 'DW = 1.5383' 이 Durbin-Waston 통계량이고,
보통 1 ~ 3 사이의 값을 가지면 독립성을 만족한다고 봄.
'데이터 분석' 카테고리의 다른 글
Tidy Data - 깔끔한 혹은 단정한 데이터 (0) | 2023.07.13 |
---|---|
회귀분석(Regression Analysis) - VII (0) | 2023.06.22 |
회귀분석(Regression Analysis) - VI (2) | 2023.06.11 |
회귀분석(Regression Analysis) - V (0) | 2023.06.10 |
회귀분석(Regression Analysis) - IV (2) | 2023.06.09 |