경제

[계량경제학] 0. Regression Analysis의 기초

성공킴 2025. 4. 2. 20:49

*Basic Econometrics (5th edition) Domoar Gujarati, Dawn Porter 및 수업 교안을 활용한 정리입니다.

 

[Part 1] Single-Equation Regression Models

Chapter 1. The Nature of Regression Analysis

 

계량경제학에서 가장 기본이 되는 개념이 바로 regression (회귀분석)이다.

여기에서는 regression에 대한 기초 개념들을 정리해보려고 한다.

 

 

 

1. Regression Analysis가 무엇인가?

Regression analysis is concerned with the study of the dependence of one variable, the dependent variable, on one or more other variables, the explanatory variables, with a view to estimating and/or predicting the (population) mean or average value of the former in terms of the known or fixed (in repeating sampling) values of the latter.

 

Regression analysis는 한 변수 (종속변수; dependent variable)가 다른 변수들(설명변수; explanatory variables)에 어떻게 의존하는지를 분석하는 방법이다. 이를 통해 종속변수의 평균(또는 기대값)을 설명변수들의 주어진 값으로 추정하거나 예측할 수 있다. 

 

    ⚠ 주의할 점 1: 인과관계?

Regression이 변수 간 종속관계를 분석하지만, 이것은 causation(인과관계)를 의미하지는 않는다. statistical relationship이 아무리 강하다고 하더라도 이것이 causal connection을 만들지는 못하기 때문에 인과관계를 보고 싶다면 statistics외부의 경제이론이나 추가적인 분석을 통해 검증해야 한다. 

 

   ⚠ 주의할 점 2: 상관관계?

Regression과 correlation(상관관계)는 다르다.

correlation analysis를 통한 correlation coefficient(상관계수)는 두 변수 간 strength of linear association를 측정한다.

반면, regression analysis는 다른 변수들의 고정된 값에 기반하여 한 변수(종속변수)의 평균 값을 추정하거나 예측하는 것이 목표이지, 두 변수 간 상관관계 정도에 관심이 있지 않다. 

regression에서는 종속변수와 설명변수가 다르게 다뤄진다. 종속변수는 statistiacal, random, or stochastic이라고 가정된다. 즉, 확률분포(probability distribution)를 가질 것으로 가정된다. 반면 설명변수는 고정값(fixed, nonstochastic)으로 가정된다.

하지만 correlation에서는 종속변수와 설명변수 모두 동일하게 다뤄진다. 모든 변수의 randomness에 기반한다. 

 

2. 기본 용어 및 데이터 관련 정리

Dependent variable Explanatory variable
Explained variable Independent variable
Predictand Predictor
Regressand Regressor
Response Stimulus
Endogenous Exogenous
Outcome Covariate
Controlled variable Control variable

 

*Stochastic(확률적): 변수의 값이 미리 정해져있지 않고, 확률에 따라 달라진다. 

예를들어 주사위를 던진다고 할 때, 1~6 중 어떤 값이 나올지 확실하지 않지만, 각각은 1/6의 확률로 나올 가능성이 있다.

 Stochastic Variable(확률변수)은 특정 확률 분포를 따르는 변수이다. Regression에서의 dependent variable은 stochastic으로 가정된다. 즉, 같은 설명변수 값이 주어져도 종속변수는 항상 동일한 값이 아니라 확률적으로 변할 수 있다. 반면 설명변수는 보통 고정값으로 가정하게 된다. 

 

데이터의 종류

1) Time Series(시계열 데이터): 특정 시간에 따라 변화하는 데이터

예) 주가, GDP, 환율, 물가 상승률 등

time series를 분석할 때는 stationary(정상성)을 주의해야 한다. 대부분의 실증분석은 시계열 데이터가 stationary를 갖는다고 가정하기 때문이다. 정상성의 조건은 시간이 지나도 평균과 분산이 일정하게 유지되어야 한다.

 

2) Cross-Section(횡단면 데이터): 특정 한 시점에서 여러 개체(unit)에 대해 수집한 데이터

예) 2025년 특정 기업들의 매출, 2023년 전국 가구 소득

cross-section을 분석할 때는 heterogeneity문제가 중요하다. 서로 다른 개체들이 포함되기 때문에 그것의 크기와 규모의 차이를 고

려해야 한다. 

 

3) Pooled Data: 여러 시점에서 다른 개체의 횡단면 데이터를 결합한 데이터로, 시계열 데이터와 횡단면 데이터가 섞여있는 형태이다. 같은 개체가 반복 관측되지 않을 수도 있다. 

예) 2010년, 2015년, 2020년 각국의 GDP 데이터

 

4) Panel Data(패널 데이터, 종단면 데이터): pooled data의 특수한 형태 중 하나로, 동일한 개체(cross-sectional unit)를 여러 시점에서 조사한 데이터이다.

예) 2010년~2025년 동안 동일한 기업들의 매출 변화 분석

-balanced panel data(균형패널): 모든 개체에 대해 동일한 시점의 데이터가 존재하는 것

-unbalanced panel data(불균형패널): 일부 개체의 특정 시점 데이터가 없는 경우