Abstract

Long sequence time-series(LSTF)에서는 입-출력 사이의 장거리 의존성 커플링을 진단할 수 있는 모델이 필요함
최근의 연구에서 트랜스포머가 이 잠재력을 보여주었으나, 3가지 문제점이 있음
- 2차 시간 복잡도(quadratic time complexity)
- 높은 메모리 사용량
- 인코더-디코더 아키텍처의 고유한 제한 등
이러한 문제를 해결하기위해 Informer를 제안
Informer의 특징
- O(L logL)의 시간복잡도, 메모리 사용량을 가지는 Probsparse self-attention 매커니즘
- 계단식으로 인풋을 절반으로 줄여 효과적으로 긴 인풋 시퀀스를 다룸
- 개념적으로 단순한 generative style decoder를 이용해 긴 시퀀스 예측의 속도를 크게 향상시킴

INTRODUCTION

기존의 방법들은 대부분 짧은 기간의 시계열 예측에 적합하게 설계되어 있음
그림 a는 짧은 기간 예측과 긴 기간 예측을 표현한 것
그림 b에서 볼 수 있듯이 추론 예측 길이가 길어질수록 오류는 증가, 추론 속도는 감소함 기준 : 48
LSTF의 주된 목표는 long sequence에 대한 prediction capacity를 향상시키는 것 이를 위해 다음 두 가지가 필요함
1. 긴 범위에 대한 정렬 능력 long-range alignment ability
2. 긴 시퀀스의 입출력에 대한 효율적인 연산능력 efficient operations on long sequence input/output
트랜스포머는 self-attention 매커니즘을 사용하여 긴 범위의 의존성을 포착하는 데에는 성공했지만, L길이의 인풋-아웃풋에 대해서 L차 계산과 메모리 사용으로 인해 2번을 위반하게 됨.

→ 긴 길이로 갈수록 크리티컬한 문제임
그렇기 때문에 다음의 질문에 대한 답을 찾고자 함

트랜스포머 모델을 더 높은 예측 능력을 가지면서도 연산, 메모리, 구조를 효율적으로 개선할 수 있을까?
바닐라 트랜스포머의 한계점 3가지
1. The quadratic computation of self-attention
  
  Self-attention에서는 각 레이어별 연산이 O(L^2)의 시간복잡도 및 메모리 사용량을 가짐
2. The memory of bottleneck in stacking layers for long inputs
  
  J개의 쌓여진 인코더,디코더 레이어가 있을 때, 총 메모리 사용량은 O(J*L^2) 가 되고, 이는 모델의 확장성을 제한하는 요소가 됨
3. The speed plunge in predicting long outputs
  
  한 단계 씩 추론하기 때문에 긴 시점을 예측하면 할수록 속도가 느려짐
→ 선행 연구들의 경우 주로 self-attention의 효율성 문제만을 해결하고자 함 (1번)

→ 그렇기에 1~3번 모두를 만족하는 모델 제안
논문의 기여점
- 긴 시계열의 아웃풋-인풋 의존성을 포착 할 때 transformer-like모델의 잠재력 입증
- ProbSparse self-attention 매커니즘 제안. → O(L log L) 시간복잡도와 메모리 사용량을 달성
- self-attention distilling operation을 제안. → 총 공간 복잡도를 O((2-e)LlogL) 까지 줄이고, J stacking 레이어들에서 attention score를 지배할 수 있음
- generative style decoder 제안. → 긴 길이의 아웃풋을 한 번의 forward step만으로 얻어낼 수 있음

MAIN IDEA

Preliminary

시계열 예측 방법론은 두가지로 나눠볼 수 있음
1. Classical time-series models
  
  확률 통계적 방법론, 고전 머신러닝 방법론
2. Deep Learning techniques
  
  RNN등을 이용한 encoder-decoder 기반의 모형

Input Representation