'2025/02 글 목록

Deep learning training speedup

효율적인 훈련을 위해 사용할 수 있는 기법들을 정리해보겠다.1. 학습 연산량과 시간을 줄이는 기법Automatic Mixed Precision (AMP)16비트와 32비트를 혼합하여 계산 성능을 최적화하는 방법이다. 특히 GPU에서 연산 속도를 높이고 메모리 사용량을 줄이는 데 유리하다.동작 순서1. Master Weights는 32비트로 저장모델의 weights는 32비트로 저장되며, 계산에 필요한 weights는 16비트로만 사용된다. 이렇게 함으로써 계산 속도를 높이고 메모리 사용량을 줄인다. 16비트로 계산을 하더라도 최종적으로는 32비트 값으로 Loss를 얻는다.나온 32비트의 값이 작은 경우가 많이 16비트로 캐스팅 하기 전 값이 underflow가 발생해 사라지는 것을 방지하기 위해 scal..

카테고리 없음 2025.02.25

일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28

supersumin 님의 tistory

2025/02 2

티스토리툴바