■ 공부/논문리뷰

Convolutional LSTM Network: A Machine LearningApproach for Precipitation Nowcasting

J U N E 2024. 8. 12. 13:49

https://arxiv.org/pdf/1506.04214

 

"Convolutional LSTM Network: A Machine Learning Approach for Precipitation Nowcasting"는 강수량 실황예측을 위한 기계 학습 접근 방식을 소개하는 연구 논문을 나타냅니다. 아래는 이 제목과 앞서 제공한 초록을 기반으로 한 논문의 요약입니다:

개요:
이 논문은 특정 지역에서 단기적으로 미래 강수 강도를 예측하는 "강수량 실황예측" 문제를 해결하기 위해 새로운 기계 학습 접근 방식을 제안합니다. 이 작업은 복잡하고 중요한 기상 예측 문제로, 기계 학습 관점에서 충분히 탐구되지 않았습니다.

주요 개념:
강수량 실황예측(Precipitation Nowcasting): 짧은 시간 동안 특정 지역의 강수량을 예측하는 과정입니다.
Convolutional LSTM(합성곱 LSTM): 이 논문에서는 기존의 Fully Connected LSTM을 확장하여 입력과 상태 간, 상태와 상태 간 전이에 모두 합성곱 구조를 적용한 ConvLSTM 모델을 제안합니다.
시공간적 시퀀스 예측(Spatiotemporal Sequence Forecasting): 강수량 실황예측 문제를 시공간적 시퀀스 예측 문제로 공식화하여 접근합니다.
모델 성능: 실험 결과, ConvLSTM 네트워크가 시공간적 상관관계를 더 잘 포착하며, 기존 모델인 FC-LSTM과 최첨단 알고리즘 ROVER보다 일관되게 더 나은 성능을 보였습니다.
이 논문은 이러한 방법론을 통해 강수량 실황예측의 정확성을 향상시키고자 합니다.

============================================================================================

LSTM
LSTM(Long Short-Term Memory)은 순환 신경망(Recurrent Neural Network, RNN)의 한 종류로, 시계열 데이터나 시퀀스 데이터를 처리하는 데 매우 효과적인 모델입니다. LSTM은 특히 긴 시퀀스 내의 장기 의존성(long-term dependencies)을 학습하는 데 탁월한 성능을 발휘합니다. RNN의 기본 구조는 이전 상태와 현재 입력을 바탕으로 다음 상태를 예측하지만, 장기 의존성을 학습하는 데 어려움이 있었습니다. 이 문제는 "기울기 소실 문제(vanishing gradient problem)"로 알려져 있죠.
(기존 RNN방식의 '기울기 소실문제'를 해결하기 위해 LSTM이 설계됨)

LSTM은 이러한 문제를 해결하기 위해 설계되었습니다. LSTM의 핵심은 "메모리 셀"이라고 불리는 내부 상태입니다. 이 메모리 셀은 정보를 장기간 유지하거나 버릴 수 있는데, LSTM은 이를 제어하기 위해 세 가지 주요 게이트를 사용합니다:
  1. 입력 게이트(Input Gate): 새로운 정보를 메모리 셀에 저장할지 여부를 결정합니다.
  2. 망각 게이트(Forget Gate): 메모리 셀에 저장된 이전 정보를 얼마나 버릴지를 결정합니다.
  3. 출력 게이트(Output Gate): 메모리 셀의 현재 상태를 바탕으로 출력할지 여부를 결정합니다.
이러한 게이트 구조 덕분에 LSTM은 이전 상태에서 중요한 정보를 장기간 유지하면서도, 불필요한 정보를 효과적으로 버릴 수 있습니다. 이를 통해 LSTM은 긴 시퀀스 데이터에서도 장기적인 패턴을 학습할 수 있습니다.
LSTM은 자연어 처리, 음성 인식, 시계열 예측 등 다양한 분야에서 널리 사용되며, 특히 입력 데이터의 순서나 시퀀스가 중요한 문제에서 강력한 성능을 발휘합니다.

 


이 논문에서는 강수량 예측을 단기적인 시간 동안 특정 지역의 미래 강수 강도를 예측하는 "강수량 실황예측(Precipitation Nowcasting)" 문제를 다룹니다. 이 문제는 매우 중요한 동시에 도전적인 기상 예측 문제로, 이전 연구들에서는 이 문제를 기계 학습의 관점에서 다룬 경우가 거의 없었습니다.

이 논문에서 강수량 실황예측 문제를 입력과 예측 대상 모두가 시공간적 시퀀스인 "시공간적 시퀀스 예측 문제"로 공식화합니다.

Fully Connected LSTM (FC-LSTM)을 입력-상태 및 상태-상태 전이에 있어 모두 합성곱 구조를 가지도록 확장함으로써, 이 논문에서는 "합성곱 LSTM(ConvLSTM)"을 제안하고, 이를 사용하여 강수량 실황예측 문제를 위한 종단 간(end-to-end) 학습 가능한 모델을 구축합니다.

실험 결과, ConvLSTM 네트워크가 시공간적 상관관계를 더 잘 포착하며, FC-LSTM과 기존의 최첨단 강수량 실황예측 알고리즘인 ROVER를 일관되게 능가한다는 것이 밝혀졌습니다.

 

1. 서론

대류성 강수의 실황예측(Nowcasting)은 오랫동안 기상 예측 분야에서 중요한 문제로 여겨져 왔습니다. 이 작업의 목표는 특정 지역에서 짧은 시간 동안(예: 0~6시간) 강수 강도를 정확하고 시의적절하게 예측하는 것입니다. 이러한 예측은 사회적 차원의 비상 강우 경보를 발령하고, 공항에 대한 기상 안내를 제공하며, 장기적인 수치 기상 예측(NWP) 모델과의 원활한 통합을 위해 필수적입니다.

강수 실황예측 문제는 주간 평균 기온 예측과 같은 다른 전통적인 예측 작업보다 예측 해상도와 시간 정확도가 훨씬 더 높아야 하므로 매우 도전적입니다. 이러한 이유로 이 문제는 기상학 커뮤니티에서 중요한 연구 주제로 떠오르고 있습니다【22】.


기존의 강수 실황예측 방법은 크게 두 가지로 분류될 수 있습니다【22】: NWP(수치 기상 예측) 기반 방법과 레이더 에코2 외삽법 기반 방법입니다. NWP 접근 방식에서는 실황예측 시간 범위에서 예측을 수행하기 위해 대기 모델에서 물리 방정식을 복잡하고 정밀하게 시뮬레이션해야 합니다. 따라서 현재 최첨단 강수 실황예측 시스템들은【19, 6】 종종 더 빠르고 정확한 외삽법 기반 방법을 채택하고 있습니다.

 

NWP: 온도, 기업, 습도, 풍속 및 풍향 등의 상호작용을 설명하는 모

NWP
NWP(수치 기상 예측, Numerical Weather Prediction) 접근 방식은 컴퓨터 모델을 사용하여 대기 물리학 및 역학에 기반한 수학적 방정식을 해결함으로써 날씨를 예측하는 방법입니다. 이 방식은 기상학에서 가장 널리 사용되는 예측 방법 중 하나입니다.

주요 개념

  • 대기 모델: 대기의 상태를 기술하는 수학적 모델로, 대기 중의 다양한 요소들(예: 온도, 기압, 습도, 바람의 속도와 방향 등)의 상호작용을 설명합니다. 이러한 모델은 수학적으로 매우 복잡한 방정식들로 이루어져 있습니다.
  • 초기 조건: 예측을 시작할 때 필요한 초기 대기 상태로, 관측된 기상 데이터(예: 위성, 레이더, 지상 관측소 등에서 수집된 데이터)를 사용하여 설정됩니다.
  • 경계 조건: 모델이 계산하는 영역의 경계에서 필요한 조건들로, 주로 외부로부터 유입되는 대기 상태를 나타냅니다.

NWP의 작동 방식

  1. 초기 상태 설정: 먼저, 현재 대기의 상태를 가능한 한 정확하게 파악하기 위해 관측 데이터를 수집하고 분석합니다. 이 데이터를 기반으로 초기 조건을 설정합니다.
  2. 모델 실행: 초기 조건을 입력으로 하여, 대기 모델의 방정식을 컴퓨터에서 수치적으로 풉니다. 이 과정에서 시간에 따라 대기의 변화를 계산하여 미래의 대기 상태를 예측합니다.
  3. 출력 및 분석: 모델이 계산한 결과는 미래의 특정 시점에서 대기의 상태를 나타내며, 이를 바탕으로 다양한 기상 요소들(예: 온도, 강수량, 바람 등)을 예측합니다.

NWP의 특징과 한계

  • 장점:
    • 대기 물리학에 기반한 체계적이고 과학적인 방법으로, 다양한 기상 요소들을 정교하게 예측할 수 있습니다.
    • 단기부터 중기, 장기 예측까지 다양한 시간 범위에 걸쳐 예측이 가능합니다.
  • 한계:
    • 매우 복잡한 계산이 필요하며, 이를 수행하기 위해 강력한 컴퓨터 자원이 요구됩니다.
    • 초기 조건의 정확성이 예측 결과에 크게 영향을 미칩니다. 관측 데이터의 불확실성이나 부족은 예측의 정확도를 저하시킬 수 있습니다.
    • 작은 오차가 시간이 지남에 따라 크게 증폭될 수 있는 비선형 시스템이기 때문에, 특히 장기 예측에서는 정확도가 떨어질 수 있습니다.

사용 사례

NWP는 전 세계 기상청에서 사용되는 주요 기상 예측 방법으로, 일기 예보, 태풍 경로 예측, 기후 변화 연구 등에서 중요한 역할을 합니다. 대표적인 NWP 모델로는 미국의 GFS(Global Forecast System), 유럽의 ECMWF(European Centre for Medium-Range Weather Forecasts) 등이 있습니다.
레이더 에코 외삽법 기반 방법
'레이더 에코 외삽법 기반 방법'은 기상 예측, 특히 강수량 예측(실황예측)에서 사용하는 방법 중 하나입니다. 이 방법은 레이더에서 관측한 과거의 레이더 에코(즉, 대기 중 물체들, 주로 구름에서 반사된 전파 신호)를 바탕으로 미래의 강수량을 예측하는 방법입니다.

(외삽법(Extrapolation) : 이미 알고 있는 데이터나 경향을 바탕으로, 해당 데이터 범위 밖의 값을 예측하는 방법입니다. 쉽게 말해, 외삽법은 "현재 주어진 정보 바깥의 미래나 과거를 예측하는 방법"이라고 할 수 있습니다.)

주요 개념

  • 레이더 에코: 레이더 시스템이 대기 중의 물체에 전파를 송출하고, 그 전파가 반사되어 돌아오는 신호를 말합니다. 주로 강수 지역에서 물체(예: 비, 눈, 구름 등)에 의해 반사된 전파를 측정하여, 그 지역의 강수량을 예측합니다.
  • 외삽법(Extrapolation): 이미 알고 있는 데이터(과거 레이더 에코)를 바탕으로 그 데이터를 확장하여 미래의 값을 추정하는 방법입니다.

레이더 에코 외삽법의 작동 방식

이 방법에서는 과거 몇 번의 레이더 관측 결과를 바탕으로 구름의 이동 방향과 속도를 추정하고, 이를 통해 미래의 구름 위치와 강수량을 예측합니다. 예를 들어, 일정 시간 간격으로 관측된 구름의 움직임을 분석하여, 앞으로 구름이 어디로 이동할지를 계산하고, 그 구름이 이동한 지역에서의 강수량을 예측하는 것입니다.
이 방법은 과거의 레이더 에코 데이터와 외삽법을 사용하여 구름의 이동을 단순화하여 예측하는 데 유용하지만, 다음과 같은 몇 가지 한계가 있습니다:
  1. 복잡한 대기 현상 반영 어려움: 단순히 과거의 이동 패턴만을 바탕으로 예측하기 때문에, 대기에서 발생하는 복잡한 물리적 현상을 충분히 반영하기 어렵습니다.
  2. 경계 조건 처리의 어려움: 예를 들어, 관측 범위 밖에서 새로운 구름이 갑자기 나타나는 경우에는 이러한 변화를 예측하기 어렵습니다.
이 방법은 신속한 예측이 필요하거나, 간단한 기상 현상을 예측할 때는 유용할 수 있지만, 복잡한 기상 현상이나 장기적인 예측에는 제한적일 수 있습니다. 이를 보완하기 위해 최근에는 기계 학습과 같은 보다 복잡한 방법들이 도입되고 있습니다.

 


특히 일부 컴퓨터 비전 기법, 특히 Optical Flow(광류) 기반 방법들이 레이더 지도 외삽을 정확하게 수행하는 데 유용한 것으로 입증되었습니다【10, 6, 20】. 이러한 접근 방식에서 최근의 진전 중 하나는 레이더 에코의 실시간 Optical Flow를 변분법으로 계산하는 ROVER(Real-time Optical flow by Variational methods for Echoes of Radar)입니다.

ROVER
ROVER(Real-time Optical flow by Variational methods for Echoes of Radar)는 레이더 에코 외삽법의 일종입니다. 이 알고리즘은 레이더 데이터에서 구름이나 강수 패턴의 움직임을 추적하여 앞으로의 이동을 예측하는 데 사용됩니다. ROVER는 특히 광학 흐름(optical flow) 기법을 변분법(variational methods)을 사용해 계산함으로써, 연속된 레이더 에코 맵에서 구름이나 강수 패턴의 움직임을 추정합니다.

ROVER의 작동 방식

  1. 광학 흐름 계산: ROVER는 연속된 두 개의 레이더 에코 맵에서 각 지점의 움직임(광학 흐름)을 계산합니다. 광학 흐름은 시간에 따라 영상 내에서 물체의 이동을 나타내며, 여기서는 구름이나 강수 지역의 이동을 의미합니다.
  2. 반-라그랑지안 보정(semi-Lagrangian advection): ROVER는 계산된 광학 흐름을 기반으로 구름이나 강수 지역이 다음 시간 단계에서 어디로 이동할지를 예측합니다. 이 과정에서 반-라그랑지안 방법이 사용됩니다. 이 방법은 주어진 흐름 필드에 따라 입자(이 경우 구름이나 강수 지역)가 어떻게 이동할지를 추적하는 데 사용됩니다.

ROVER의 특징과 한계

  • 장점:
    • 실시간으로 작동할 수 있어 빠른 예측이 가능합니다.
    • 비교적 단순한 모델로, 계산 자원이 많이 필요하지 않습니다.
  • 한계:
    • 외삽법이기 때문에, 과거 데이터를 기반으로만 예측이 이루어져 대기 상태의 복잡한 변화나 경계 조건의 변화를 정확하게 반영하기 어렵습니다.
    • 구름이나 강수 지역이 갑자기 나타나거나 사라질 때, 예측 정확도가 떨어질 수 있습니다.
    • ROVER는 주로 단기 예측에 적합하며, 장기 예측에서는 정확도가 낮아질 수 있습니다.
ROVER는 기상 예측에서 구름이나 강수 패턴의 단기 이동을 예측하는 데 유용한 도구로 사용되며, 특히 단기적이고 빠른 예측이 필요한 상황에서 효과적입니다.



홍콩 기상청(HKO)은 강한 폭우의 단기 경고 시스템(SWIRLS)을 위해 ROVER 알고리즘【25】을 제안했습니다【15】. ROVER는 연속적인 레이더 지도에서 Optical Flow를 계산하기 위해【5】 제시된 알고리즘을 사용하며, 흐름장이 정지 상태에 있다고 가정하고 이 흐름장에 대해 반-라그랑지안(advection) 법【4】을 수행하여 예측을 완료합니다.

그러나 이러한 Optical Flow 기반 방법들은 몇 가지 한계가 있습니다. 특히, 흐름 추정 단계와 레이더 에코 외삽 단계가 분리되어 있고, 모델의 파라미터를 최적화하여 좋은 예측 성능을 달성하는 것이 어려운 점이 주요 문제입니다.



이러한 기술적 문제들은 기계 학습 관점에서 문제를 바라봄으로써 해결할 수 있습니다. 본질적으로 강수 실황예측은 과거 레이더 지도의 시퀀스를 입력으로 사용하고, 고정된 개수(보통 1개 이상)의 미래 레이더 지도의 시퀀스를 출력으로 사용하는 시공간적 시퀀스 예측 문제입니다. 그러나 이러한 학습 문제는, 특히 다단계 예측이 필요한 경우, 시공간적 시퀀스의 높은 차원성으로 인해 간단하지 않습니다. 이는 예측 모델이 데이터의 시공간 구조를 잘 포착하지 못하는 경우 더 어렵습니다.

게다가 레이더 에코 데이터의 예측 모델을 효과적으로 구축하는 것은 대기의 혼란스러운 특성 때문에 더욱 도전적입니다.



최근 심층 학습, 특히 순환 신경망(RNN)과 장단기 메모리(LSTM) 모델에서의 발전은 이 문제를 해결하는 데 유용한 통찰을 제공합니다【12, 11, 7, 8, 23, 13, 18, 21, 26】. 심층 학습 접근 방식의 기본 철학에 따르면, 만약 합리적인 종단 간(end-to-end) 모델과 이를 훈련시킬 충분한 데이터가 있다면, 문제 해결에 가까워질 수 있습니다. 강수 실황예측 문제는 방대한 레이더 에코 데이터를 지속적으로 수집하는 것이 용이하므로 데이터 요구 사항을 충족합니다. 필요한 것은 종단 간 학습을 위한 적절한 모델입니다.

[23]에서 제안된 선구적인 LSTM 인코더-디코더 프레임워크는 입력 시퀀스와 출력 시퀀스에 각각 하나의 LSTM을 연결하여 시퀀스-투-시퀀스 학습 문제를 해결하기 위한 일반적인 프레임워크를 제공합니다. [18]에서는 이미지 패치를 양자화하여 얻은 시각적 단어에 기반한 RNN 기반 언어 모델을 구축함으로써 다음 비디오 프레임을 예측하고 중간 프레임을 보간할 수 있음을 보여주었습니다. 그들은 공간적 관계를 모델링하기 위해 순환 합성곱 신경망을 제안했지만, 이 모델은 한 프레임 앞서 예측만 가능하며 상태 간 전이에서 사용된 합성곱 커널의 크기가 1로 제한되어 있습니다.

이 작업은 [21]에서 후속 연구로 이어졌으며, 이 연구는 유용한 표현을 학습하는 데 있어 다단계 예측의 중요성을 강조했습니다. 그들은 입력 시퀀스를 재구성하고 동시에 미래 시퀀스를 예측하는 LSTM 인코더-디코더-예측기 모델을 구축했습니다. 비록 이 방법도 시공간적 시퀀스 예측 문제를 해결하는 데 사용할 수 있지만, 그 모델에서 채택된 완전 연결 LSTM(FC-LSTM) 계층은 공간적 상관관계를 고려하지 않는다는 한계가 있습니다.



이 논문에서는 강수 실황예측을 위한 새로운 합성곱 LSTM(ConvLSTM) 네트워크를 제안합니다. 우리는 강수 실황예측 문제를 [23]에서 제안된 일반적인 시퀀스-투-시퀀스 학습 프레임워크 하에서 해결할 수 있는 시공간적 시퀀스 예측 문제로 공식화합니다. 시공간적 관계를 잘 모델링하기 위해, 우리는 FC-LSTM의 아이디어를 확장하여 입력에서 상태로의 전이와 상태에서 상태로의 전이 모두에 합성곱 구조를 가진 ConvLSTM을 제안합니다.

여러 ConvLSTM 계층을 쌓아 인코딩-예측 구조를 형성함으로써, 우리는 강수 실황예측을 위한 종단 간 학습 가능한 모델을 구축할 수 있습니다. 평가를 위해, 우리는 특히 이 문제에 대한 기계 학습 알고리즘을 고안하는 데 도움이 될 수 있는 새로운 실제 레이더 에코 데이터셋을 생성했습니다. 합성된 Moving-MNIST 데이터셋 [21]과 레이더 에코 데이터셋에서 평가한 결과, 우리 ConvLSTM 모델은 FC-LSTM 및 최첨단 운영 ROVER 알고리즘을 일관되게 능가했습니다.




 

2. 예비 지식

2.1 강수 실황예측 문제의 공식화
강수 실황예측의 목표는 이전에 관측된 레이더 에코 시퀀스를 사용하여 특정 지역(예: 홍콩, 뉴욕, 도쿄)에서 미래의 레이더 지도의 고정된 길이를 예측하는 것입니다. 실제 응용에서는 레이더 지도가 일반적으로 610분 간격으로 기상 레이더에서 수집되며, 실황예측은 이후 16시간 동안 이루어집니다. 즉, 앞으로의 6~60 프레임을 예측하는 것이 목표입니다. 기계 학습 관점에서 이 문제는 시공간적 시퀀스 예측 문제로 간주될 수 있습니다.

 

 

 

강수 실황예측의 경우, 각 시간 스탬프에서의 관측값은 2D 레이더 에코 지도입니다. 이 지도를 타일 형태의 겹치지 않는 패치들로 나누고, 패치 내부의 픽셀을 해당 패치의 측정값으로 간주하면(그림 1 참조), 실황예측 문제는 자연스럽게 시공간적 시퀀스 예측 문제로 변환됩니다.

 

 

 

 

 

 

 

 

 

3. 모델

이제 ConvLSTM 네트워크를 소개하겠습니다. 비록 FC-LSTM 계층이 시간적 상관관계를 처리하는 데 강력함을 입증했지만, 공간 데이터에 대해서는 과도한 중복성을 포함하고 있습니다. 이 문제를 해결하기 위해, 우리는 입력에서 상태로의 전이와 상태에서 상태로의 전이에 모두 합성곱 구조를 갖춘 FC-LSTM의 확장을 제안합니다.

여러 ConvLSTM 계층을 쌓고 인코딩-예측 구조를 형성함으로써, 우리는 강수 실황예측 문제뿐만 아니라 보다 일반적인 시공간적 시퀀스 예측 문제를 위한 네트워크 모델을 구축할 수 있습니다.

이 모델은 공간적 상관관계를 더 잘 포착하며, 시공간적 데이터의 복잡한 패턴을 효과적으로 학습할 수 있도록 설계되었습니다. ConvLSTM은 기본적인 FC-LSTM의 확장형으로, 시간적 및 공간적 상관관계를 동시에 처리할 수 있는 능력을 제공합니다.

 

 

 

만약 상태를 움직이는 물체의 숨겨진 표현(hidden representations)으로 본다면, 더 큰 전이 커널을 가진 ConvLSTM은 더 빠른 움직임을 포착할 수 있는 반면, 더 작은 커널을 가진 ConvLSTM은 더 느린 움직임을 포착할 수 있을 것입니다. 또한, [16]과 유사한 관점에서 보면, (2)식에 의해 표현된 전통적인 FC-LSTM의 입력, 셀 출력, 은닉 상태도 마지막 두 차원이 1인 3D 텐서로 볼 수 있습니다. 이러한 관점에서 보면, FC-LSTM은 ConvLSTM의 특수한 경우로, 모든 특징이 단일 셀에 위치한 형태로 간주될 수 있습니다.

즉, ConvLSTM은 FC-LSTM의 일반화된 형태로 볼 수 있으며, FC-LSTM은 ConvLSTM에서 공간적 차원이 1로 축소된 경우에 해당합니다. ConvLSTM의 전이 커널 크기를 조정함으로써, 다양한 속도의 움직임을 모델링할 수 있는 유연성을 제공합니다.

 

상태가 입력과 동일한 행과 열의 수를 가지도록 하기 위해, 합성곱 연산을 적용하기 전에 패딩이 필요합니다. 여기서 경계 지점에서 은닉 상태를 패딩하는 것은 계산에 외부 세계의 상태를 사용하는 것으로 볼 수 있습니다. 일반적으로, 첫 번째 입력이 들어오기 전에 LSTM의 모든 상태를 0으로 초기화하는데, 이는 미래에 대한 "완전한 무지"를 나타냅니다. 마찬가지로, 은닉 상태에 대해 제로 패딩(zero-padding)을 수행하면(이 논문에서 사용된 방식), 실제로 외부 세계의 상태를 0으로 설정하고 외부에 대한 사전 지식이 없다고 가정하는 것입니다.

상태에 패딩을 적용함으로써, 경계 지점을 다르게 처리할 수 있으며, 이는 많은 경우에 유용합니다. 예를 들어, 우리가 관찰하는 시스템이 벽으로 둘러싸인 움직이는 공이라고 상상해 봅시다. 비록 이러한 벽을 직접 볼 수는 없지만, 공이 반복해서 벽에 부딪히는 것을 발견함으로써 벽의 존재를 추론할 수 있습니다. 그러나 경계 지점이 내부 지점과 동일한 상태 전이 동역학을 가지는 경우에는 이와 같은 추론이 어렵습니다. 따라서 경계 지점에서의 상태 전이를 달리함으로써, 시스템의 물리적 경계를 더 잘 반영할 수 있습니다.

 

3.2 인코딩-예측 구조

ConvLSTM은 FC-LSTM과 마찬가지로 더 복잡한 구조의 구성 요소로 사용될 수 있습니다. 우리 시공간적 시퀀스 예측 문제를 위해, 우리는 그림 3에 표시된 구조를 사용합니다. 이 구조는 인코딩 네트워크와 예측 네트워크의 두 가지 네트워크로 구성됩니다. [21]에서처럼, 예측 네트워크의 초기 상태와 셀 출력은 인코딩 네트워크의 마지막 상태에서 복사됩니다. 두 네트워크 모두 여러 ConvLSTM 계층을 쌓아서 형성됩니다.

예측 목표가 입력과 동일한 차원을 가지기 때문에, 우리는 예측 네트워크의 모든 상태를 연결(concatenate)하여 1 × 1 합성곱 계층에 입력하고, 이를 통해 최종 예측을 생성합니다.

이 인코딩-예측 구조는 입력된 시공간 데이터를 처리하고, 미래의 시퀀스를 예측하는 데 효과적입니다. 인코딩 네트워크는 입력 시퀀스의 시공간적 패턴을 학습하며, 예측 네트워크는 이러한 학습된 패턴을 바탕으로 미래 상태를 예측합니다. 최종적으로, 모든 상태를 하나로 합쳐 1 × 1 합성곱 계층을 통해 예측 값을 생성함으로써, 입력과 동일한 차원의 결과를 얻을 수 있습니다.

 

우리는 이 구조를 [23]과 유사한 관점에서 해석할 수 있습니다. 인코딩 LSTM은 전체 입력 시퀀스를 숨겨진 상태 텐서로 압축하고, 예측 LSTM은 이 숨겨진 상태를 펼쳐서 최종 예측을 제공합니다.

이 관점에서 인코딩 LSTM은 입력 데이터를 요약하여 중요한 정보만을 유지하는 역할을 하며, 이 정보는 숨겨진 상태 텐서에 저장됩니다. 그런 다음, 예측 LSTM은 이 숨겨진 상태 텐서를 바탕으로 미래의 시퀀스를 생성해 내며, 이를 통해 최종 예측을 수행합니다. 이러한 방식으로 인코딩-예측 구조는 복잡한 시공간적 데이터의 패턴을 효과적으로 학습하고, 그 결과를 바탕으로 정확한 예측을 제공합니다.

 

이 구조는 [21]에서 제안된 LSTM 미래 예측 모델과도 유사하지만, 우리의 입력과 출력 요소는 모두 공간 정보를 완전히 보존하는 3D 텐서라는 점에서 차이가 있습니다. 네트워크가 여러 개의 ConvLSTM 계층으로 쌓여 있기 때문에, 이 구조는 강력한 표현 능력을 가지고 있으며, 우리가 연구하는 강수 실황예측 문제와 같은 복잡한 동적 시스템에서 예측을 수행하는 데 적합합니다.

ConvLSTM 계층이 쌓여 있어 공간적 및 시간적 패턴을 더 깊이 학습할 수 있으며, 이로 인해 복잡한 시공간적 상호작용을 포착하여 정교한 예측을 제공합니다. 이러한 특성 덕분에 이 구조는 다양한 동적 시스템에서 활용될 수 있으며, 특히 강수 실황예측과 같은 복잡한 기상 예측 문제에 효과적입니다.

 

4. 실험

우리는 먼저 ConvLSTM 네트워크와 FC-LSTM 네트워크를 비교하기 위해 합성된 Moving-MNIST 데이터셋에서 실험을 수행하여 모델의 동작을 기본적으로 이해하고자 합니다. 우리는 모델을 다양한 계층 수와 커널 크기로 실행하고, [21]에서와 같이 "도메인 외" 사례도 연구합니다. 보다 도전적인 강수 실황예측 문제에서 모델의 효과를 검증하기 위해 새로운 레이더 에코 데이터셋을 구축하고, 여러 일반적으로 사용되는 강수 실황예측 메트릭을 기반으로 ConvLSTM 모델과 최신 ROVER 알고리즘을 비교합니다. 이 두 데이터셋에서 수행한 실험 결과는 다음과 같은 주요 발견을 이끌어냈습니다:

  • ConvLSTM은 시공간적 상관관계를 처리하는 데 있어 FC-LSTM보다 우수하다.
  • 상태 간 합성곱 커널 크기를 1보다 크게 설정하는 것이 시공간적 운동 패턴을 포착하는 데 필수적이다.
  • 더 깊은 모델은 더 적은 파라미터로 더 나은 결과를 낼 수 있다.
  • ConvLSTM은 강수 실황예측에서 ROVER보다 더 나은 성능을 보인다.

모델 구현은 Theano【3, 1】를 사용하여 Python으로 작성되었습니다. 모든 실험은 단일 NVIDIA K20 GPU가 장착된 컴퓨터에서 실행되었습니다. 또한, 더 설명적인 "gif" 예제가 부록에 포함되어 있습니다.

이 실험 결과는 ConvLSTM이 시공간적 데이터에서 더욱 복잡한 패턴을 효과적으로 학습할 수 있으며, 강수 실황예측과 같은 실제 응용 문제에서 우수한 성능을 발휘할 수 있음을 보여줍니다.

 

4.1 Moving-MNIST 데이터셋

이 합성 데이터셋에 대해서는 [21]에서 설명된 것과 유사한 생성 과정을 사용합니다. 데이터셋의 모든 데이터 인스턴스는 20 프레임으로 구성되며, 그 중 10 프레임은 입력용이고 나머지 10 프레임은 예측용입니다. 각 인스턴스는 64 × 64 크기의 패치 안에서 튕기는 두 개의 손글씨 숫자를 포함하고 있습니다. 움직이는 숫자는 MNIST 데이터셋에서 500개의 숫자 하위 집합 중 무작위로 선택됩니다.

시작 위치와 속도 방향은 균등한 확률로 무작위로 선택되며, 속도 크기는 [3, 5) 범위 내에서 무작위로 선택됩니다. 이러한 생성 과정을 15,000번 반복하여, 10,000개의 훈련 시퀀스, 2,000개의 검증 시퀀스, 3,000개의 테스트 시퀀스로 구성된 데이터셋을 생성합니다.

이 데이터셋은 모델이 시공간적 패턴을 학습하고 예측하는 능력을 테스트하는 데 사용되며, 특히 ConvLSTM과 같은 모델이 이러한 종류의 시공간적 데이터를 어떻게 처리하는지를 평가하는 데 유용합니다.

우리는 모든 LSTM 모델을 시간 역전파(BPTT)【2】와 RMSProp【24】을 사용하여 교차 엔트로피 손실(cross-entropy loss)【4】을 최소화하는 방식으로 훈련합니다. 학습률은 10−310^{-3}로 설정하고, 감쇠율(decay rate)은 0.9로 설정합니다. 또한, 검증 세트에서의 성능을 기준으로 조기 종료(early stopping)를 수행합니다.

 

이러한 설정은 모델이 과적합을 피하면서도 최적의 성능을 낼 수 있도록 돕습니다. 학습률과 감쇠율은 모델이 안정적으로 학습하면서도 빠르게 수렴할 수 있도록 조정되었으며, 조기 종료는 검증 데이터에서 성능이 더 이상 개선되지 않을 때 훈련을 멈추어 과적합을 방지합니다.

 

비록 생성 과정이 단순하지만, 생성된 데이터셋에는 강한 비선형성이 존재합니다. 이는 움직이는 숫자가 복잡한 외형을 보일 수 있고, 이동 중에 가려지거나 튀어오를 수 있기 때문입니다. 시스템의 내적 동역학을 학습하지 않으면 모델이 테스트 세트에서 정확한 예측을 내리기 어렵습니다.

이러한 비선형성은 모델에게 도전적인 학습 과제를 부여하며, ConvLSTM과 같은 모델이 시공간적 패턴을 얼마나 잘 포착하고 이해하는지를 평가하는 데 중요한 역할을 합니다. 숫자들이 겹치거나 복잡한 경로를 따라 움직일 때, 단순한 예측 모델은 제대로 작동하지 않을 수 있지만, 복잡한 동역학을 잘 학습한 모델은 이러한 상황에서도 정확한 예측을 할 수 있습니다.

 

 

다음으로, 우리는 모델을 "도메인 외(out-of-domain)" 입력에 대해 테스트했습니다. 우리는 세 개의 움직이는 숫자로 이루어진 3000개의 시퀀스를 추가로 생성했습니다. 이 숫자들은 훈련 세트와 겹치지 않는 500개의 MNIST 숫자 하위 집합에서 무작위로 선택되었습니다. 모델이 세 개의 숫자를 포함하는 시스템을 이전에 본 적이 없기 때문에, 이러한 "도메인 외" 실험은 모델의 일반화 능력을 테스트하는 데 유용합니다【21】.

이 데이터셋에서 3계층 모델의 평균 교차 엔트로피 오류는 6379.42였습니다. 예측 결과를 관찰한 결과, 모델이 겹치는 숫자들을 성공적으로 분리하고 전체적인 움직임을 예측할 수 있었지만, 예측된 숫자들이 상당히 흐릿하게 나타나는 것을 확인할 수 있었습니다. 한 가지 "도메인 외" 예측 사례는 그림 10에 표시되어 있습니다.

이 결과는 모델이 훈련 데이터에 없는 새로운 상황에서도 어느 정도의 예측 능력을 보여줄 수 있음을 시사합니다. 모델이 전혀 보지 못한 환경에서도 전체적인 패턴을 이해하고 예측하려는 경향이 있으며, 이는 모델의 강력한 일반화 능력을 보여줍니다. 다만, 숫자가 흐릿하게 나타난다는 점에서 세부적인 예측에는 한계가 있을 수 있음을 알 수 있습니다.

 

 

 

 

 

우리는 패치 크기를 2로 설정하고, 각 계층에 64개의 숨겨진 상태와 3 × 3 커널을 포함한 2계층 ConvLSTM 네트워크를 훈련시켰습니다. ROVER 알고리즘의 경우, 검증 세트에서 옵티컬 플로우 추정기6의 파라미터를 조정하고, 최적의 파라미터(부록에 표시)를 사용하여 테스트 결과를 보고했습니다. 또한, ROVER에 대해 세 가지 다른 초기화 방법을 시도했습니다:

  • ROVER1: 마지막 두 개의 관측 프레임에서 옵티컬 플로우를 계산하고, 이후 반-라그랑지안 보정을 수행합니다.
  • ROVER2: 마지막 두 개의 흐름 필드의 평균으로 속도를 초기화합니다.
  • ROVER3: 마지막 세 개의 흐름 필드의 가중 평균(가중치 0.7, 0.2, 0.1)으로 초기화를 수행합니다.

추가적으로, 두 개의 2000-노드 LSTM 계층을 가진 FC-LSTM 네트워크도 훈련했습니다. ConvLSTM 네트워크와 FC-LSTM 네트워크 모두 15개의 예측에 대한 교차 엔트로피 오류를 최적화하도록 설계되었습니다.

이 설정을 통해 ConvLSTM과 ROVER 알고리즘, 그리고 FC-LSTM 네트워크의 성능을 비교하여 강수 실황예측에서 각 방법의 장단점을 평가할 수 있습니다. ConvLSTM의 설계가 시공간적 상관관계를 효과적으로 포착하는 데 얼마나 유리한지를 확인하고, ROVER의 다양한 초기화 방식이 예측 정확도에 미치는 영향을 분석할 수 있습니다.

 

 

 
 

모든 결과는 표 2와 그림 5에 나타나 있습니다. 우리는 FC-LSTM 네트워크의 성능이 이 작업에서 그다지 좋지 않다는 것을 발견할 수 있는데, 이는 주로 레이더 지도에서 강한 공간적 상관관계 때문입니다. 즉, 구름의 움직임은 지역적으로 매우 일관성이 있습니다. 완전 연결 구조(fully-connected structure)는 너무 많은 중복 연결을 포함하고 있어 이러한 지역적 일관성을 포착하는 최적화를 방해합니다.

또한 ConvLSTM이 옵티컬 플로우 기반 ROVER 알고리즘보다 뛰어난 성능을 보이는 것을 확인할 수 있습니다. 그 주된 이유는 두 가지입니다. 첫째, ConvLSTM은 경계 조건을 잘 처리할 수 있습니다. 실제 실황예측에서는 경계에서 갑작스럽게 구름이 응집되는 경우가 많으며, 이는 외부에서 구름이 들어오고 있다는 것을 나타냅니다. ConvLSTM 네트워크가 훈련 중에 유사한 패턴을 본 적이 있다면, 이러한 갑작스러운 변화를 인코딩 네트워크에서 발견하고, 예측 네트워크에서 합리적인 예측을 제공할 수 있습니다. 그러나 이러한 기능은 옵티컬 플로우 및 반-라그랑지안 보정 기반 방법으로는 거의 달성할 수 없습니다.

두 번째 이유는 ConvLSTM이 이 작업을 위해 종단 간(end-to-end)으로 훈련되었으며, 네트워크의 비선형적이고 합성곱 구조가 데이터셋 내 복잡한 시공간 패턴을 학습할 수 있다는 점입니다. 옵티컬 플로우 기반 접근 방식에서는 미래의 흐름 필드를 업데이트하고 모든 것을 종단 간으로 훈련하는 합리적인 방법을 찾기가 어렵습니다. 그림 6에는 ROVER2와 ConvLSTM의 일부 예측 결과가 나와 있습니다. ConvLSTM이 특히 경계에서 미래의 강수 윤곽을 더 정확하게 예측할 수 있음을 알 수 있습니다. ROVER2는 ConvLSTM보다 더 선명한 예측을 제공할 수 있지만, 더 많은 오경보를 발생시키며 전체적으로 ConvLSTM보다 정밀도가 낮습니다.

또한, ConvLSTM의 흐릿한 예측 효과는 이 작업의 내재된 불확실성 때문일 수 있습니다. 즉, 장기 예측에서 전체 레이더 지도를 선명하고 정확하게 예측하는 것은 거의 불가능합니다. 이러한 불확실성으로 인한 오류를 줄이기 위해 예측을 흐리게 만드는 것이 유일한 해결책일 수 있습니다.

 

 

5. 결론 및 향후 작업

이 논문에서는 기계 학습, 특히 딥 러닝 접근 방식을 적용하여, 지금까지 복잡한 기계 학습 기술의 혜택을 받지 못했던 도전적인 강수 실황예측 문제를 성공적으로 해결했습니다. 우리는 강수 실황예측을 시공간적 시퀀스 예측 문제로 공식화하고, 이 문제를 해결하기 위해 ConvLSTM이라는 LSTM의 새로운 확장을 제안했습니다. ConvLSTM 계층은 FC-LSTM의 장점을 유지하면서도, 고유한 합성곱 구조 덕분에 시공간 데이터에 적합합니다. ConvLSTM을 인코딩-예측 구조에 통합함으로써, 우리는 강수 실황예측을 위한 종단 간 학습 가능한 모델을 구축했습니다.

향후 연구에서는 ConvLSTM을 비디오 기반 행동 인식에 어떻게 적용할 수 있을지 탐구할 계획입니다. 한 가지 아이디어는 합성곱 신경망(CNN)이 생성한 공간적 특징 맵 위에 ConvLSTM을 추가하고, ConvLSTM의 숨겨진 상태를 최종 분류에 사용하는 것입니다. 이를 통해 비디오 데이터의 시공간적 패턴을 더 효과적으로 학습하고 인식할 수 있을 것으로 기대됩니다.