2025/02 2

Deep learning training speedup

효율적인 훈련을 위해 사용할 수 있는 기법들을 정리해보겠다.1. 학습 연산량과 시간을 줄이는 기법Automatic Mixed Precision (AMP)16비트와 32비트를 혼합하여 계산 성능을 최적화하는 방법이다. 특히 GPU에서 연산 속도를 높이고 메모리 사용량을 줄이는 데 유리하다.동작 순서1. Master Weights는 32비트로 저장모델의 weights는 32비트로 저장되며, 계산에 필요한 weights는 16비트로만 사용된다. 이렇게 함으로써 계산 속도를 높이고 메모리 사용량을 줄인다. 16비트로 계산을 하더라도 최종적으로는 32비트 값으로 Loss를 얻는다.나온 32비트의 값이 작은 경우가 많이 16비트로 캐스팅 하기 전 값이 underflow가 발생해 사라지는 것을 방지하기 위해 scal..

카테고리 없음 2025.02.25

Likelihood: 데이터가 어떤 확률 분포에서 나왔는지에 대한 가능성

Likelihood(우도)란?Likelihood는 주어진 데이터가 특정 확률 분포에서 나왔을 가능성을 나타내는 함수이다. Probability(확률) vs Likelihood(우도)Probability: 확률 분포 혹은 모델이 주어졌을 때, 특정 데이터가 나올 확률을 계산하는 것Likelihood: data를 고정하고, 어떤 확률 분포가 무엇인지 추정하는 것직관적 예시1) Probability2) Likelihood  MLE(Maximum Likelihood Estimation, 최대 우도 측정)data의 likelihood를 최대로 만드는 parameter(모수)를 찾는 방법이다.딥러닝에서의 MLE 사용 Regression에서 MLE 적용1) Data가 Normal Distribution을 따른다고 가..

카테고리 없음 2025.02.07