선형회귀 기본가정

미국유학/연구 2020. 6. 26. 19:53

참고 블로그: https://blog.naver.com/bluett2/150156751224

유용하게 잘 정리해 주셔서 다음번에 사용하기 위해 복사해둠!

 

1. 선형회귀분석의 기본원리

  1) 독립변수와 종속변수가 모두 양적자료임이 원칙

     - 독립변수가 질적자료인 경우 더미코딩기법으로 사용가능

     - 종속변수가 질적자료일 경우 로지스틱 회귀분석 사용

  2) 종속변수는 1개로 한정

  3) 단순회귀(양적 독립변수 1), 중다회귀 (양적 독립변수 2개 이상)로 구분

  4) 수리적 모형 (독립변수가 X가 여러 개인 중다회귀 수식)

     Y = a + b1X1 + b2X2 + … + biXi + e

     Y = 종속변수

      a = 절편 (독립변수 X0일 때 종속변수 Y의 값)

      b = 기울기, 회귀계수(XY에 미치는 영향, X1단위 증가할 때 Y의 증가분)

      e = 오차

2. 중다회귀분석의 회귀진단

   1) 사례수가 독립변수 개수의 최소 20배 이상은 되어야 함 (다다익선)

   2) 독립변수와 종속변수의 상관은 높고, 독립변수들 간의 상관은 낮을수록 좋음

   3) 다중공선성(multicolinearity)

         (1) 독립변수들간에 거의 완벽한 선형관계 (+- 0.8이상)가 존재하는 것

         (2) 공차(허용값), VIF(분산팽창인수), 독립변수들간 상관 등으로 진단

         (3) 다중공선성이 없으면 공차와 VIF는 1에 근접하고, 상관은 낮은 값을 보임

         (4) 다중공선성이 존재하면 공차는 0에 가가까워지고 VIF는 10 이상을 보임

         (5) 다중공선성이 존재하는 경우, 선형관계가 있는 독립변수들 중에서 하나만 사용하거나 통합해서 하나만 사용해야 함. (상관관계가 낮고, 공차와 VIF가 1에 근접해야 선형회귀분석이 유효함)

    4) 이상점(outlier)

         (1) 다른 사례들과 달리 특이한 위치에 놓여있는 사례, 이상점 때문에 회귀계수가 실제와 다르게 추정될 수 있음

         (2) Cook의 거리로 진단: 사례 하나가 제거되었을 때 b의 변화를 표준화하는 통계량으로서, 일반적으로 0에 가까우면 좋으며 1보다 크면 확실한 이상점으로 판단

         (3) 이상점이 발견되면, 연구자의 판단에 따라 해당 사례를 제외하거나, 그대로 포함 혹은 자료 전체 변환 가능

 

3.기본 가정 및 분석

    1) 분석 - 회귀분석 - 선형

          (1) 종속변수와 독립변수를 해당창으로 이동

          (2) <통계량> : 기술통계와 공선성 진단 선택 + 추정값, 모형 적합

          (3) <저장> : 거리 - Cook의 거리

    2) 결과 확인

          (1) 다중공선성: 공차와 VIF가 1에 근접하는지 확인, 상관이 낮은지 확인

          (2) 이상점: Cook의 거리가 0에 근접하는지 확인

                    - 이상점이 발견될 경우, 연구자 판단으로 데이터를 제외할 수 있음

                        (제외하는 방법: 데이터 - 케이스 선택 - 조건만족 케이스 - 조건: 명령문)

    3) 분석 변수간 Pearson 적률상관계수

               분석 - 상관분석 - 이변량상관계수

    4) Cook의 거리에 의한 데이터를 제외한 경우 - 재분석 < 1)번을 재시행 >

           데이터를 그대로 사용할 경우 - 이미 분석한 것을 토대로 결과 및 해석 도출

 

 

 

posted by sergeant