데이터 분석

회귀분석(Regression Analysis) - VIII

torukmakto 2023. 7. 3. 23:32

회귀진단(Regression Diagnostics)에 대해 알아 봅니다.

 

모형 및 가정 진단: *잔차분석(Residual Analysis)을 통하여 오차항의 

                                   등분산성 / 정규성 / 독립성을 체크.

                                  ※ 잔차: 추정한 에러.

 

앞의 난방비 관련 회귀분석 자료를 기반으로 하여 상기 진단을 

진행해 보겠습니다.

 

 명령어: plot(회귀식 오브젝트)  ※ 아래 참조

 

R 명령어

 

1) 등분산성: 추정값 vs. 잔차에 대한 plot을 그려 보아 확인.

                     상기 명령어를 실행하면 총 4개의 그래프가 그려지는데,

                     그 중 첫 번째로 그려 진 그래프.

                     아래 그래프에서 'Fitted values' 가 Y' 값을 나타냄.

                     또한, 그래프상 빨간 라인은 plot 상에 있는 점들을 가지고 

                     non-parametric 방법으로 Fit을 해준 것임.

                     (확인의 의미로 자동계산 해준 것)

 

추정값 vs. 잔차에 대한 plot

 

2) 정규성: 잔차에 대한 Normal *QQ plot을 그려 보아 확인.

                 ※ QQ plot: Quantile-Quantile plot, 2개(Quantile)의 분포가 

                                   비슷한지를 graphical 하게 보는 것.

 

                상기 명령어를 통해 그려지는 두 번째 그래프로, QQ plot은 

                그래프에서 직선 라인에 얼마나 모여 있는지를 확인하는 용도.

                (대충 맞으면 넘어 감)

 

QQ plot

 

3) 독립성: Durbin-Waston 통계량을 이용하여 확인.

 

     명령어: dwtest(회귀식 오브젝트)  

                    참고로 상기 명령어(dwtest)를 실행하기 위해서는

                       "lmtest" 가 설치되어 있어야 함.

                        설치가 안되어 있다면 아래와 같이 실행 후 진행.

                         >> install.packages("lmtest")

 

R - dwtest
dwtest 실행 결과

상기 결과에서 'DW = 1.5383' 이 Durbin-Waston 통계량이고,

보통 1 ~ 3 사이의 값을 가지면 독립성을 만족한다고 봄.