paper v1

Introduction

GPT와 같은 현대 artificial neural network는 natural language processing과 computer vision 분야에서 큰 성공을 거두었다. 이 방식은 Transformer를 사용하는 모델의 크기를 점진적으로 증가하여 달성했다.

Transformer의 self attention mechanism은 행렬 연산으로 Key-Value 값 계산한다. 따라서 모델의 크기가 커지면 그에 비례해서 계산 비용도 커진다. 그러나 현대 ANN으로 인해 학습 및 추론 과정에서 발생하는 비용이 증가했다. Large lanauge model의 가장 초기 단계인 GPT-3조차