기존의 방법들은 대부분 짧은 기간의 시계열 예측에 적합하게 설계되어 있음
그림 a는 짧은 기간 예측과 긴 기간 예측을 표현한 것
그림 b에서 볼 수 있듯이 추론 예측 길이가 길어질수록 오류는 증가, 추론 속도는 감소함 기준 : 48
LSTF의 주된 목표는 long sequence에 대한 prediction capacity를 향상시키는 것 이를 위해 다음 두 가지가 필요함
트랜스포머는 self-attention 매커니즘을 사용하여 긴 범위의 의존성을 포착하는 데에는 성공했지만, L길이의 인풋-아웃풋에 대해서 L차 계산과 메모리 사용으로 인해 2번을 위반하게 됨.
→ 긴 길이로 갈수록 크리티컬한 문제임
그렇기 때문에 다음의 질문에 대한 답을 찾고자 함
트랜스포머 모델을 더 높은 예측 능력을 가지면서도 연산, 메모리, 구조를 효율적으로 개선할 수 있을까?
바닐라 트랜스포머의 한계점 3가지
The quadratic computation of self-attention
Self-attention에서는 각 레이어별 연산이 O(L^2)의 시간복잡도 및 메모리 사용량을 가짐
The memory of bottleneck in stacking layers for long inputs
J개의 쌓여진 인코더,디코더 레이어가 있을 때, 총 메모리 사용량은 O(J*L^2) 가 되고, 이는 모델의 확장성을 제한하는 요소가 됨
The speed plunge in predicting long outputs
한 단계 씩 추론하기 때문에 긴 시점을 예측하면 할수록 속도가 느려짐
→ 선행 연구들의 경우 주로 self-attention의 효율성 문제만을 해결하고자 함 (1번)
→ 그렇기에 1~3번 모두를 만족하는 모델 제안
논문의 기여점
Classical time-series models
확률 통계적 방법론, 고전 머신러닝 방법론
Deep Learning techniques
RNN등을 이용한 encoder-decoder 기반의 모형
Input Representation