티스토리 뷰
독립변수
-종속변수에 영향을 주되, 다른 변수들에 의해 영향 받지 않는 변수들에
-주로 x로 표현
종속변수
- 결정된 독립변수의 값의 변화에 영향을 받는 변수
- 주로 y로 표현
회귀분석(regression analysis)
- 독립변수들과 종속변수 간 존재하는 관련성 분석
- 관측된 자료에서의 함수적 관계를 통계적으로 추정하는 방법
- 종속변수가 연속형일 때 사용 -> 어떤 값을 예측할 때 사용
1. 선형회귀(linear regression)
- 가장 대표적인 회귀분석 기법
- 선형 예측 함수를 사용하여 회귀식을 모델링.
- 기울기를 데이터로부터 추정하여 예측모형 구축
- 독립변수의 수에 따라 단순 선형 회귀, 다중 선형 회귀로 구분
- 일반적으로 최소제곱법을 사용하여 모형 구축
-오차의 제곱이 가장 작아지는 기울기와 y절편을 찾아 1차 함수 선을 하나 그림.
다시 말해, 회귀선 (y= ax + b) 을 찾는 것이 선형회귀의 최종 목표 !
2. 로지스틱 회귀(logistic regression)
- D.R.Cox가 1958년에 제안
- 독립 변수의 선형결합을 이용하여 사건의 발생 가능성을 예측하는데 사용
- 독립 변수의 선형 결합으로 종속 변수를 설명 -> 선형 회귀 분석과 유사
- 선형회귀와는 다르게 종속 변수가 범주형 데이터를 대상으로 함 -> 종속변수가 이산형
- 일종의 분류 기법
즉, 선형회귀는 회귀선을 통해 연속적 데이터의 미래값을 예측하는데 사용되지만,
(ex: 몸무게에 대한 키의 분포 => 몸무게가64kg이면 키는?)
로지스틱 회귀는 이산형 데이터를 분류하는 데 사용.
(ex: 당도와 채소의 데이터 => 당도가 8.0이면 과일일까? -> yes or no)