회귀분석 with SPSS - (1) 인과관계의 성립요건, 공동변화 검토
*최초 작성일: 2023-01-05
*해당 모든 글은 개인적 경험을 바탕으로 함을 명시합니다.
*해당 모든 글은 개인의 공부를 위한 정리본임을 명시합니다.
*Reference
- 김원표. (2017). 다시 쓰는 통계분석 고급회귀분석. 와이즈인컴퍼니.
- 이학식. (2012). 사회과학 연구를 위한 회귀분석. 집현재.
통계 연구방법론으로 가장 쉽게 접할 수 있는 것이 회귀분석이었다.
회귀분석은 다양한 루트를 통해 좋은 프로그램들을 이용하여 쉽게 분석을 진행할 수 있었다.
(특히 SPSS는 굉장히 친숙한 프로그램이니까)
그러나 사실 회귀분석의 이론적인 부분은 늘 까먹고, 늘 헷갈리는 포인트가 많아 이렇게 한번 정리해보고자 한다.
회귀분석은 인과관계를 보기 위한 분석이다.
인과관계라는 점을 많이 놓치게 되는데, 인과관계를 위한 세 가지 성립요건이 있다.
(김원표. (2017). 다시 쓰는 통계분석 고급회귀분석. 와이즈인컴퍼니.)
1. 시간의 선후차성이 명확해야 한다.
- 원인이 먼저 발생하고 결과가 나중에 발생한 것이어야 한다.
2. 허위적 관계가 아니어야 한다.
- 논리적으로 인과관계가 명확해야 한다.
3. 원인-결과 변수간에 공동변화가 있어야 한다.
- 원인변수가 증가하면 결과변수는 증가/감소의 경향이 있어야 한다
1번과 2번의 경우, 선후관계나 논리성은 보통 선행연구를 통해 확보하게 된다.
그리고 해당 변수들이 회귀분석에 적절한지를 살펴보기 위해서는 3번을 살펴보아야 하는데, 이 부분은 통계적으로 가능하다.
원인과 결과변수 간에 공동변화가 있어야 한다.
공동변화라는 것은 독립변수가 증가 또는 감소할 때 종속변수도 증가 또는 감소를 해야한다는 것이다.
즉, 두 변수 간에 상관관계가 성립해야 인과관계의 조건이 된다.
상관관계 분석이 가장 대표적인 방법이긴 하지만, 자료 특성에 따라서 여러 통계적 방법을 포함한다.
독립변수 | 종속변수 | 공동변화 확인방법 | |
선형 회귀분석 | 연속 | 연속 | Pearson의 상관관계분석 |
범주 | 연속 | t-test 및 ANOVA | |
로지스틱 회귀분석 | 연속 | 범주 | t-test 및 ANOVA |
범주 | 범주 | 교차분석 |
선형 회귀분석의 경우, 독립변수가 연속형이면 일반적인 상관관계분석을 진행하고, 범주형일 경우 집단 간 차이가 있는지를 보기 위해 t-test(2개 집단) 또는 ANOVA(3개 이상의 집단)를 진행한다.
이 과정에서 통계적으로 유의한 관계의 변수를 선별하여 회귀분석의 독립변수로 투입하게 되는 것이 일반적인 흐름이다.
위의 내용은 회귀분석의 3가지 가정으로 이어진다.
1. 측정오차의 문제
2. 독립변수 선정의 문제
3. 잔차의 가정(등분산성, 정규성, 독립성)의 문제
측정오차는 데이터의 생성 단계에서 발생하는 것으로, 해당 부분은 사회과학 분야에서 통제하기 어렵다.
독립변수 선정 단계에서 앞서 언급한 이론적 논리와 함께 공동변화를 살펴봄이 필요하다.
마지막으로, 잔차의 가정은 회귀분석 사후의 검정이 필요한 실증적 과정이다.
다음 게시물에서 잔차의 가정 문제를 정리하도록 하겠다.