학부 수업 내용 정리/인공지능심화

#4 Regression(3)

supersumin 2024. 10. 1. 12:41

Linear regression(선형 회귀) 문제에서 일반적으로 사용되는 gradient descent은 주어진 데이터에 대한 예측값이 실제 값과 차이가 가장 적은 parameter를 찾는 데 유용한 방법이다.

 

이 과정은 초기 여러 feature에 대한 각각의 parameter를 임의로 설정한 후 기울기를 통해 loss function을 최소화하는 방향으로 차근차근 parameter를 조정해 나가는 방식이다.

 

각 parameter는 loss function을 기반으로 gradient descent를 통 개별적으로 업데이트되며, 이 과정을 통해 모든 데이터 포인트에 대한 예측값과 실제값의 차이를 최소화하는 최적의 parameter 조합을 찾게 된다.

 

그러나 경사 하강법은 반복적인 계산을 하므로, 시간이 많이 소요될 수 있다. 이러한 문제를 해결하기 위해 Normal Equation이 등장했다.

1. Normal Eauation

1.1. Normal Eauation이란?

Normal Equation선형 회귀(Linear Regression) 문제에서 경사 하강법(Gradient Descent) 없이 직접적으로 해를 구할 수 있는 수학적인 방법이다.

 

Normal Equation은 데이터를 기반으로 Linear Regression Model의 최적 파라미터를 한 번의 계산으로 구할 수 있는 공식을 제공하며, 주어진 문제를 최소 제곱법(Least Squares)을 사용하여 Loss function을 최소화하는 방식으로 진행한다.

1.2. Normal Equation 유도

  • 이 정도면 글만 봐도 될 듯 하다고 믿고 싶다
  • hypothesis function의 형태가 어떤지 눈으로 확인
  • MSE(Meas square Error)를 loss function으로 채택
  • Loss function의 원래 식, 행렬화 식, 미분식, 미분의 행렬화식 알기
  • X,θ,y가 뭔지 알기
  • normal equation 알기

1.3. Normal Equation 예시

  • 2x2, 3x3 역행렬 구하는 거 알기
  • (XTX)^(-1)XTy를 구할 때 XTy를 구하고 나서 역행렬과 곱해도 글과 같은 결과가 나오는 거 알기

1.4. Normal Equation의 장점과 단점

- 장점

 

  • 유일한 해: 항상 하나의 최적 파라미터를 제공한다.
  • 빠른 계산: 데이터셋이 작거나 중간 크기일 때 계산이 빠르다.
  • 해석 가능성: 각 파라미터의 기여도를 쉽게 확인할 수 있다.
  • Gradient Descent 필요 없음: 최적화 과정이 필요 없어 사용이 간편하다.

 

- 단점

 

  • 계산 복잡도: 피처 수가 많을 경우 O(n3)O(n^3)의 계산 복잡도로 비효율적이다.
  • 메모리 사용: 대규모 데이터셋에서 메모리 소모가 크다.
  • 선형 종속성 문제: 입력 피처 간 선형 종속성으로 인해 사용이 불가능할 수 있다.
  • 수치적 안정성: 스케일이 다른 피처들로 인해 불안정한 결과를 초래할 수 있다.

 

2. Polynomial Regression

2.1. Polynomial Regression이란?

Polynomial Regression은 선형 회귀의 확장으로, 데이터의 비선형 관계를 모델링하는 데 사용된다. 이 방법은 독립 변수의 다항식 형태를 사용하여 종속 변수와의 관계를 더 유연하게 표현합니다.

2.2. 장점과 단점

- 장점

 

  • 비선형 관계 모델링: 데이터에 비선형 패턴이 있는 경우, Polynomial Regression은 이러한 관계를 효과적으로 모델링할 수 있습니다.
  • 유연성: 다양한 차수의 다항식을 사용하여 데이터에 더 잘 맞출 수 있어, 보다 복잡한 관계를 표현할 수 있습니다.
  • 단순함: 상대적으로 간단한 형태로 비선형성을 추가할 수 있어, 다른 복잡한 비선형 모델에 비해 해석이 용이합니다.
  • 데이터 적합도 향상: 적절한 차수를 선택하면 데이터의 적합도를 크게 향상시킬 수 있습니다.

 

- 단점

 

  • 과적합(overfitting): 다항식의 차수가 너무 높으면 모델이 훈련 데이터에 과적합될 수 있습니다. 이 경우, 테스트 데이터에 대한 일반화 성능이 저하됩니다.
  • 계산 복잡도: 차수가 높아질수록 모델의 계산 복잡도가 증가합니다. 이는 특히 다차원 데이터에서 더 심각해질 수 있습니다.
  • 해석의 어려움: 차수가 높아질수록 각 계수의 의미가 명확하지 않게 되어, 모델 해석이 어려워질 수 있습니다.
  • 변화하는 곡선: 높은 차수의 다항식은 모델이 불안정해질 수 있으며, 작은 데이터 변화에 대해 큰 변화가 발생할 수 있습니다. 이로 인해 예측이 비합리적일 수 있습니다.