3월 5일 작성

Introduction

최근 대규모 트랜스포머 기반 모델이 Natural Language Processing(NLP) 분야에서 혁신적인 성능을 보이며 다양한 과제에서 뛰어난 성과를 보여주고 있다. 그러나 이러한 성과는 막대한 계산 비용과 높은 에너지 소비를 동반하며, 모델의 추론 속도 또한 실용적인 응용에 제약이 된다. 이에 반해, 생물학적 뉴런의 이벤기 기반 처리를 모방하는 Spiking Neural Networks(SNN)은 불필요한 연산을 줄이고 뉴로모픽 하드웨어에서 효율적으로 동작할 수 있는 잠재력을 가진 대안으로 주목받고 있다. SNN은 연속적인 활성화 값을 사용하는 기존 인공 신경망(ANN)과 달리, spike 기반의 이산적 연산을 통해 정보를 전달하여 연산 비용을 획기적으로 단축할 수 있디.

그러나 spike 기반 모델이 NLP에서 기존 트랜스포머와 경쟁하기 어려운 근본적인 이유 중 하나는 spike가 갖는 불확실성(uncertainty)과 모델 성능 간의 관계를 명확히 정의하기 어렵다는 점이다. 트랜스포머 모델은 정교한 연속 값 연산을 통해 안정적인 학습과 추론이 가능하지만, SNN은 이산적 이벤트로 이루어진 비동기적 정보 처리 방식을 따르기 때문에, spike의 발생 확률과 모델의 표현력 간의 명확한 수학적 연관성이 부족하다. 즉, 같은 입력이 주어지더라도 뉴런의 spike 발화 패턴이 다를 가능성이 있으며, 이로 인해 신경망의 성능이 불안정하게 변할 수 있다.

특히, spike 발생 확률을 통제할 수 없는 문제는 SNN의 자연어 모델 적용에서 심각한 한계를 초래한다. 트랜스포머 기반 모델에서는 어텐션 메커니즘이 입력 간의 장기적인 의존성을 효과적으로 학습할 수 있도록 보장하지만, SNN에서는 spike의 시간적 불확실성이 존재하여, 장기적인 문맥 정보의 안정적인 전파가 어렵다. 따라서, 기존 연구에서는 지식 증류를 통해 트랜스포머의 정보를 SNN에 이식하는 방식을 활용하여 성능을 보완해 왔지만, 이는 본질적으로 SNN이 독립적으로 최적의 성능을 학습하는 데 제약을 가하는 문제를 야기한다.

본 연구에서는 spike 발생 확률과 모델 성능 간의 관계를 체계적으로 분석하고, spike 기반 NLP 모델의 표현력과 학습 안정성을 향상시키는 방법을 제안한다. 이를 위해 다음과 같은 기여를 제시한다.

\begin{enumerate} \item Spike 발생 확률과 모델 성능의 상관관계를 정량적으로 분석하여, 불확실성이 모델의 일반화 성능에 미치는 영향을 규명한다. \item Spike의 확률적 변동성을 제어할 수 잇는 새로운 방법을 도입하여, 모델이 일정한 성능을 유지하면서도 에너지 효율성을 극대화할 수 있도록 한다. \item 제안하는 방법의 효과를 GLUE 벤치마크에서 실험적으로 검증한다. \end{enumerate}