잔차 분석과 모델의 적합도 평가

🚩 잔차 분석(Residual Analysis)모델의 적합도 평가(Model Fit Evaluation)는 회귀 분석에서 모델이 데이터를 얼마나 잘 설명하는지 검토하는 중요한 과정입니다. 잔차(Residual)는 모델이 예측한 값과 실제 값 간의 차이를 의미하며, 모델이 실제 데이터를 얼마나 잘 반영하는지 평가하기 위해 R², AIC, BIC 등의 지표를 사용합니다.

잔차 분석 (Residual Analysis)

잔차 (Residual)
✅ 잔차는 실제 값(Y)과 회귀 모델의 예측 값(Ŷ) 간의 차이를 의미합니다. 수식으로 표현하면 Residual = Y – Ŷ 입니다.

잔차 분석의 목적

🚩 잔차 분석은 회귀 모델이 데이터를 적절히 설명하는지 확인하고, 선형성(Linear Assumption)정규성(Normality) 가정을 검증하는 데 사용됩니다.

잔차 분석의 주요 방법
잔차의 정규성 확인: 잔차가 정규 분포를 따라야 함.
잔차의 등분산성(Homoscedasticity) 검토: 잔차의 분산이 일정해야 함.
잔차의 독립성 검토: 잔차 간 자기상관이 없어야 함.

잔차 분석의 시각적 표현

잔차 플롯 (Residual Plot)
✅ X축: 예측값(Ŷ), Y축: 잔차(Residual)
✅ 점들이 무작위로 분포하면 모델이 적절함을 의미.
점들이 무작위로 분포하면 모델이 적절함을 판단
Image By ShristiV – Own work, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=84177368
Q-Q 플롯 (Quantile-Quantile Plot)
✅ 잔차의 정규성을 평가하는 그래프.
✅ 데이터가 대각선에 가깝게 분포하면 정규성을 만족.

데이터들이 대각선에 가깝게 분포하면 정규성을 만족함을 판단할 수 있음
By AyushKhanna – Own work, CC BY-SA 3.0, https://commons.wikimedia.org/w/index.php?curid=16235002

모델의 적합도 평가 (Model Fit Evaluation)

결정계수 (R², Coefficient of Determination)

결정계수 (R²)
✅ 모델이 데이터를 얼마나 잘 설명하는지를 나타내는 지표.
0 ≤ R² ≤ 1 범위에서 값이 1에 가까울수록 모델이 데이터를 잘 설명함.

조정된 결정계수 (Adjusted R²)

조정된 결정계수 (Adjusted R²)
은 독립변수가 많아질수록 증가하는 경향이 있음. 하지만 모든 변수가 유의미한 것은 아니므로, 독립변수의 개수를 보정한 Adjusted R²를 사용하여 모델의 신뢰도를 평가.

AIC와 BIC (Akaike & Bayesian Information Criterion)

🚩 AICBIC는 모델의 적합도를 비교할 때 사용되며, 값이 작을수록 더 좋은 모델임을 의미합니다.

AIC (Akaike Information Criterion)
✅ 모델의 설명력과 복잡도를 함께 고려하는 지표.
✅ 값이 낮을수록 모델이 더 적절함.
BIC (Bayesian Information Criterion)
AIC와 유사하지만, 모델의 복잡도(변수 수)에 더 큰 패널티를 부여함.
✅ 일반적으로 BIC가 낮을수록 더 좋은 모델.

잔차 분석과 모델 평가의 활용

의학 연구에서의 활용

신약 효과 검증
✅ 회귀 모델을 이용해 신약의 효과를 평가할 때, 잔차 분석을 통해 모델의 적절성을 검토하고, AIC를 통해 최적의 모델을 선택할 수 있음.

경제 및 경영 분야에서의 활용

매출 예측 모델
✅ 기업의 매출을 예측하는 회귀 모델에서, 잔차가 랜덤한 패턴을 보이며, 높은 Adjusted R² 값을 가지면 모델이 신뢰할 수 있음을 의미.

교육 연구에서의 활용

학생 성적 예측
✅ 학습 시간, 출석률 등을 독립변수로 설정하고 성적을 예측하는 모델에서 잔차 분석을 통해 모델이 얼마나 정확한지 평가.

잔차 분석과 모델 적합도 평가의 중요성

🚩 단순히 R² 값이 높다고 좋은 모델은 아닙니다. 잔차가 정규성을 따르는지, 등분산성을 만족하는지 등을 평가하여 모델이 실제 데이터를 잘 반영하는지 확인하는 것이 중요합니다.

좋은 모델의 조건
✅ 잔차가 랜덤하게 분포해야 함.
✅ 독립변수들이 종속변수를 잘 설명해야 함.
✅ 모델이 과적합(overfitting)되지 않아야 함.

BIOSTATISTICS, 의통계학