출처: https://arxiv.org/pdf/1810.04805
Abstract
우리는 새로운 언어 표현 모델인 BERT를 소개합니다. BERT는 'Bidirectional Encoder Representations from Transformers'의 약자입니다. 최근의 언어 표현 모델들(Peters et al., 2018a; Radford et al., 2018)과 달리, BERT는 모든 층에서 좌측과 우측 문맥을 동시에 고려하여 미표시 텍스트로부터 심층 양방향 표현을 사전 학습하도록 설계되었습니다. 그 결과, 사전 학습된 BERT 모델은 질문 응답과 언어 추론과 같은 다양한 작업에 대해 최첨단 모델을 생성하기 위해 추가 출력 층 하나만으로 미세 조정될 수 있으며, 작업별 아키텍처 수정이 거의 필요하지 않습니다.
BERT는 개념적으로 단순하면서도 경험적으로 강력합니다. 이 모델은 11개의 자연어 처리 작업에서 새로운 최첨단 결과를 달성했으며, GLUE 점수를 80.5%(절대 7.7% 포인트 향상), MultiNLI 정확도를 86.7%(절대 4.6% 포인트 향상), SQuAD v1.1 질문 응답 테스트 F1 점수를 93.2(절대 1.5 포인트 향상), SQuAD v2.0 테스트 F1 점수를 83.1(절대 5.1 포인트 향상)로 끌어올렸습니다.
1. Introduction
언어 모델 사전 학습이 많은 자연어 처리 작업의 성능을 향상시키는 데 효과적이라는 것이 입증되었습니다(Dai and Le, 2015; Peters et al., 2018a; Radford et al., 2018; Howard and Ruder, 2018). 이러한 작업에는 문장을 전체적으로 분석하여 문장 간의 관계를 예측하는 자연어 추론(Bowman et al., 2015; Williams et al., 2018)과 문장 재구성(Dolan and Brockett, 2005)과 같은 문장 수준의 작업, 그리고 명명된 개체 인식 및 질문 응답과 같이 토큰 수준에서 세밀한 출력을 생성해야 하는 작업(Tjong Kim Sang and De Meulder, 2003; Rajpurkar et al., 2016)이 포함됩니다
사전 학습된 언어 표현을 다운스트림 작업에 적용하는 두 가지 기존 전략이 있습니다: 피처 기반 접근법과 미세 조정(fine-tuning) 접근법입니다. ELMo(Peters et al., 2018a)와 같은 피처 기반 접근법은 사전 학습된 표현을 추가적인 피처로 포함하는 작업별 아키텍처를 사용합니다. Generative Pre-trained Transformer(OpenAI GPT)(Radford et al., 2018)와 같은 미세 조정 접근법은 최소한의 작업별 파라미터를 도입하며, 모든 사전 학습된 파라미터를 단순히 미세 조정하여 다운스트림 작업에 대해 훈련됩니다. 이 두 접근법은 사전 학습 동안 동일한 목표 함수를 공유하며, 일반적인 언어 표현을 학습하기 위해 단방향 언어 모델을 사용합니다.
우리는 현재 기술이 특히 미세 조정 접근법에 대해 사전 학습된 표현의 능력을 제한한다고 주장합니다. 주요한 한계는 표준 언어 모델이 단방향적이라는 점이며, 이는 사전 학습 동안 사용할 수 있는 아키텍처의 선택을 제한합니다. 예를 들어, OpenAI GPT에서는 모든 토큰이 트랜스포머의 셀프 어텐션 레이어에서 이전 토큰에만 집중할 수 있는 좌측-우측(left-to-right) 아키텍처를 사용합니다(Vaswani et al., 2017). 이러한 제한은 문장 수준 작업에 비효율적이며, 양방향의 문맥을 통합하는 것이 중요한 질문 응답과 같은 토큰 수준 작업에 미세 조정 기반 접근법을 적용할 때 매우 해로울 수 있습니다.
이 논문에서 우리는 BERT(Bidirectional Encoder Representations from Transformers)를 제안함으로써 미세 조정 기반 접근법을 개선합니다. BERT는 클로즈 테스트(Taylor, 1953)에서 영감을 얻은 "마스킹 언어 모델"(MLM) 사전 학습 목표를 사용하여 앞서 언급한 단방향성 제약을 완화합니다. 마스킹 언어 모델(MLM)은 입력에서 일부 토큰을 무작위로 마스킹하며, 목표는 해당 단어의 문맥만을 바탕으로 마스킹된 단어의 원래 어휘 ID를 예측하는 것입니다. 좌측-우측 언어 모델 사전 학습과 달리, MLM 목표는 표현이 좌측과 우측 문맥을 융합할 수 있게 하여 깊은 양방향 트랜스포머를 사전 학습할 수 있도록 해줍니다. 마스킹 언어 모델 외에도, 우리는 텍스트 쌍 표현을 공동으로 사전 학습하는 "다음 문장 예측" 과제도 사용합니다.
이 논문의 기여는 다음과 같습니다:
- 우리는 언어 표현에 있어 양방향 사전 학습의 중요성을 입증합니다. Radford et al. (2018)이 사전 학습에 단방향 언어 모델을 사용하는 것과 달리, BERT는 마스킹 언어 모델을 사용하여 사전 학습된 깊은 양방향 표현을 가능하게 합니다. 이는 또한 독립적으로 학습된 좌측-우측 및 우측-좌측 언어 모델을 얕게 연결하는 Peters et al. (2018a)과도 대조됩니다.
- BERT는 11개의 자연어 처리 작업에서 최첨단 성능을 향상시킵니다. 코드와 사전 학습된 모델은 https://github.com/google-research/bert에서 확인할 수 있습니다.
2. Related Work
일반 언어 표현을 사전 학습하는 데는 오랜 역사가 있으며, 이 섹션에서는 가장 널리 사용되는 접근법들을 간략히 검토합니다.
2-1. Unsupervised Feature-based Approaches (비지도 피처기반 접근법)
단어의 널리 적용 가능한 표현을 학습하는 것은 수십 년 동안 활발한 연구 분야였으며, 여기에는 비신경망(Brown et al., 1992; Ando and Zhang, 2005; Blitzer et al., 2006) 및 신경망 기반(Mikolov et al., 2013; Pennington et al., 2014) 방법이 포함됩니다. 사전 학습된 단어 임베딩은 현대 NLP 시스템의 필수적인 부분으로, 처음부터 학습된 임베딩에 비해 상당한 성능 향상을 제공합니다(Turian et al., 2010). 단어 임베딩 벡터를 사전 학습하기 위해 좌측-우측 언어 모델링 목표(Mnih and Hinton, 2009)와 좌측 및 우측 문맥에서 올바른 단어와 잘못된 단어를 구분하는 목표(Mikolov et al., 2013)가 사용되었습니다.
이러한 접근법들은 문장 임베딩(Kiros et al., 2015; Logeswaran and Lee, 2018) 또는 단락 임베딩(Le and Mikolov, 2014)과 같은 더 거친 세분화로 일반화되었습니다. 문장 표현을 학습하기 위해 이전 연구들은 후보 다음 문장을 순위 매기는 목표(Jernite et al., 2017; Logeswaran and Lee, 2018), 이전 문장의 표현을 주어졌을 때 다음 문장의 단어를 좌측에서 우측으로 생성하는 목표(Kiros et al., 2015), 또는 잡음 제거 오토인코더에서 파생된 목표(Hill et al., 2016)를 사용했습니다.
ELMo와 그 이전 모델(Peters et al., 2017, 2018a)은 전통적인 단어 임베딩 연구를 다른 차원에서 일반화합니다. 이 모델들은 좌측에서 우측으로 진행되는 언어 모델과 우측에서 좌측으로 진행되는 언어 모델에서 문맥에 민감한 특징들을 추출합니다. 각 토큰의 문맥적 표현은 좌측-우측 및 우측-좌측 표현의 연결(concatenation)입니다. ELMo는 기존 작업별 아키텍처와 문맥적 단어 임베딩을 통합할 때, 질문 응답(Rajpurkar et al., 2016), 감정 분석(Socher et al., 2013), 명명된 개체 인식(Tjong Kim Sang and De Meulder, 2003) 등 여러 주요 NLP 벤치마크에서 최첨단 성능을 향상시킵니다(Peters et al., 2018a). Melamud et al. (2016)은 LSTM을 사용하여 좌측 및 우측 문맥에서 단일 단어를 예측하는 작업을 통해 문맥적 표현을 학습하는 방법을 제안했습니다. ELMo와 유사하게, 이 모델은 피처 기반이며 깊이 있는 양방향 모델은 아닙니다. Fedus et al. (2018)은 클로즈 테스트가 텍스트 생성 모델의 견고성을 향상시키는 데 사용될 수 있음을 보여줍니다.
2-2. Unsupervised Fine-tuning Approaches (비지도 미세조정 접근법)
피처 기반 접근법과 마찬가지로, 이 방향의 초기 연구들은 라벨이 없는 텍스트로부터 단어 임베딩 파라미터만을 사전 학습했습니다(Collobert and Weston, 2008).
피처 기반 접근법과 마찬가지로, 이 방향에서의 초기 연구들은 레이블이 없는 텍스트로부터 단어 임베딩 파라미터만을 사전 학습했습니다. (Collobert and Weston, 2008)
최근에는 문맥적 토큰 표현을 생성하는 문장 또는 문서 인코더들이 레이블이 없는 텍스트로부터 사전 학습된 후, 지도 학습 다운스트림 작업을 위해 미세 조정되고 있습니다(Dai and Le, 2015; Howard and Ruder, 2018; Radford et al., 2018). 이러한 접근법의 장점은 처음부터 학습해야 하는 파라미터의 수가 적다는 것입니다. 이 장점 덕분에, OpenAI GPT(Radford et al., 2018)는 GLUE 벤치마크(Wang et al., 2018a)의 많은 문장 수준 작업에서 이전의 최첨단 결과를 달성했습니다.
이러한 모델들을 사전 학습하기 위해 좌측-우측 언어 모델링 및 오토인코더 목표가 사용되었습니다(Howard and Ruder, 2018; Radford et al., 2018; Dai and Le, 2015).

BERT의 전체적인 사전 학습 및 미세 조정 절차는 다음과 같습니다. 출력 층을 제외하고, 사전 학습과 미세 조정에서 동일한 아키텍처가 사용됩니다. 동일한 사전 학습된 모델 파라미터가 다양한 다운스트림 작업의 모델 초기화에 사용됩니다. 미세 조정 중에는 모든 파라미터가 미세 조정됩니다. [CLS]는 모든 입력 예제의 앞에 추가되는 특별한 기호이며, [SEP]는 질문/답변을 구분하는 등 특별한 구분 토큰입니다.
2-3. Transfer Learning from Supervised Data (지도학습 데이터로부터의 전이학습)
대규모 데이터셋을 활용한 지도 학습 작업에서의 효과적인 전이 학습을 보여주는 연구도 있습니다. 예를 들어, 자연어 추론(Conneau et al., 2017)과 기계 번역(McCann et al., 2017)이 이에 해당합니다. 컴퓨터 비전 연구에서도 대규모 사전 학습된 모델로부터의 전이 학습의 중요성이 입증되었으며, 효과적인 방법은 ImageNet으로 사전 학습된 모델을 미세 조정하는 것입니다(Deng et al., 2009; Yosinski et al., 2014).
3. BERT
이 섹션에서는 BERT와 그 상세 구현에 대해 소개합니다. 우리 프레임워크에는 두 가지 단계가 있습니다: 사전 학습과 미세 조정입니다. 사전 학습 동안 모델은 다양한 사전 학습 과제를 통해 레이블이 없는 데이터를 학습합니다. 미세 조정 시에는 BERT 모델이 먼저 사전 학습된 파라미터로 초기화되며, 모든 파라미터는 다운스트림 작업의 레이블된 데이터를 사용하여 미세 조정됩니다. 각 다운스트림 작업은 동일한 사전 학습된 파라미터로 초기화되지만, 별도의 미세 조정된 모델을 가집니다. Figure 1의 질문 응답 예제가 이 섹션의 진행 예제로 사용됩니다.
BERT의 독특한 특징은 다양한 작업에 걸쳐 통일된 아키텍처를 갖추고 있다는 점입니다. 사전 학습된 아키텍처와 최종 다운스트림 아키텍처 간의 차이가 거의 없습니다.
모델 아키텍처
BERT의 모델 아키텍처는 Vaswani et al. (2017)에서 설명된 원래 구현을 기반으로 한 다층 양방향 트랜스포머 인코더이며, 이는 tensor2tensor 라이브러리에서 공개되었습니다. 트랜스포머의 사용이 일반화되었고 우리의 구현도 원본과 거의 동일하기 때문에, 모델 아키텍처에 대한 자세한 배경 설명은 생략하고, 독자들이 Vaswani et al. (2017) 및 "The Annotated Transformer"와 같은 우수한 가이드를 참고하도록 권장합니다.
이 작업에서 우리는 레이어 수(즉, 트랜스포머 블록)를 L, 히든 크기를 H, 셀프 어텐션 헤드의 수를 A로 표기합니다. 주로 두 가지 모델 크기에 대한 결과를 보고합니다: BERTBASE (L=12, H=768, A=12, 총 파라미터=1억 1천만)와 BERTLARGE (L=24, H=1024, A=16, 총 파라미터=3억 4천만)입니다. BERTBASE는 비교를 위해 OpenAI GPT와 동일한 모델 크기를 가지도록 선택되었습니다. 그러나 중요한 점은, BERT 트랜스포머는 양방향 셀프 어텐션을 사용하는 반면, GPT 트랜스포머는 모든 토큰이 왼쪽의 문맥에만 집중할 수 있는 제한된 셀프 어텐션을 사용한다는 것입니다.
입출력표현
BERT가 다양한 다운스트림 작업을 처리할 수 있도록 하기 위해, 우리의 입력 표현은 하나의 토큰 시퀀스에서 단일 문장과 문장 쌍(예: 질문,답변질문, 답변)을 명확하게 표현할 수 있습니다. 이 작업 전반에 걸쳐 "문장"은 실제 언어학적 문장이라기보다는 연속된 텍스트의 임의의 구간을 의미합니다. "시퀀스"는 BERT에 대한 입력 토큰 시퀀스를 의미하며, 이는 단일 문장일 수도 있고 두 개의 문장이 함께 포함된 것일 수도 있습니다.
우리는 30,000개 토큰 어휘를 가진 WordPiece 임베딩(Wu et al., 2016)을 사용합니다. 모든 시퀀스의 첫 번째 토큰은 항상 특별한 분류 토큰([CLS])입니다. 이 토큰에 해당하는 최종 히든 상태는 분류 작업을 위한 집합 시퀀스 표현으로 사용됩니다. 문장 쌍은 하나의 시퀀스로 함께 포장됩니다. 우리는 두 가지 방법으로 문장을 구분합니다. 첫째, 특별한 토큰([SEP])으로 문장들을 분리합니다. 둘째, 각 토큰에 해당 토큰이 문장 A에 속하는지 또는 문장 B에 속하는지를 나타내는 학습된 임베딩을 추가합니다. Figure 1에 나타난 것처럼, 우리는 입력 임베딩을 E로, 특별한 [CLS] 토큰의 최종 히든 벡터를 C ∈ R^H로, i번째 입력 토큰의 최종 히든 벡터를 Ti ∈ R^H로 표기합니다.
주어진 토큰에 대해, 해당 토큰의 입력 표현은 해당 토큰, 세그먼트, 위치 임베딩을 합산하여 구성됩니다. 이 구성의 시각화는 Figure 2에서 확인할 수 있습니다.

BERT 입력 표현. 입력 임베딩은 토큰 임베딩, 세그먼트 임베딩, 위치 임베딩의 합입니다.
3-1. Pre-training BERT
Peters et al. (2018a)와 Radford et al. (2018)과 달리, 우리는 전통적인 좌측-우측 또는 우측-좌측 언어 모델을 사용하여 BERT를 사전 학습하지 않습니다. 대신, 우리는 이 섹션에서 설명할 두 가지 비지도 학습 과제를 사용하여 BERT를 사전 학습합니다. 이 단계는 도표1의 왼쪽 부분에 제시되어 있습니다.
NSP(Next Sentence Prediction) 작업은 Jernite et al. (2017) 및 Logeswaran and Lee (2018)에서 사용된 표현 학습 목표와 밀접하게 관련되어 있습니다. 그러나 이전 연구에서는 문장 임베딩만이 다운스트림 작업에 전이되었으며, BERT에서는 모든 파라미터가 전이되어 최종 작업 모델 파라미터를 초기화합니다.
사전 학습 데이터
사전 학습 절차는 주로 기존의 언어 모델 사전 학습 관련 문헌을 따릅니다. 사전 학습 코퍼스로는 BooksCorpus(8억 단어)(Zhu et al., 2015)와 영어 위키피디아(25억 단어)를 사용합니다. 위키피디아의 경우, 본문만 추출하고 목록, 표, 헤더는 무시합니다. 긴 연속 시퀀스를 추출하기 위해서는 Billion Word Benchmark(Chelba et al., 2013)와 같은 문장을 섞은 코퍼스가 아니라, 문서 단위의 코퍼스를 사용하는 것이 중요합니다.
3-2. Fine-tuning BERT
미세 조정(Fine-tuning)은 간단합니다. 트랜스포머의 셀프 어텐션 메커니즘 덕분에 BERT는 적절한 입력과 출력을 교체하여 단일 텍스트나 텍스트 쌍을 포함하는 다양한 다운스트림 작업을 모델링할 수 있습니다. 텍스트 쌍을 다루는 응용 프로그램에서는 일반적으로 텍스트 쌍을 독립적으로 인코딩한 후 양방향 교차 어텐션을 적용하는 방식이 사용됩니다(예: Parikh et al., 2016; Seo et al., 2017). 반면, BERT는 셀프 어텐션 메커니즘을 사용하여 이러한 두 단계를 통합합니다. 셀프 어텐션으로 연결된 텍스트 쌍을 인코딩하면 두 문장 간의 양방향 교차 어텐션이 효과적으로 포함되기 때문입니다.
각 작업에 대해, 우리는 BERT에 작업별 입력과 출력을 간단히 연결하고 모든 파라미터를 엔드투엔드(end-to-end)로 미세 조정합니다. 입력 단계에서, 사전 학습에서의 문장 A와 문장 B는 (1) 문장 재구성에서의 문장 쌍, (2) 함의 관계에서의 가설-전제 쌍, (3) 질문 응답에서의 질문-지문 쌍, 그리고 (4) 텍스트 분류 또는 시퀀스 태깅에서의 텍스트-∅ 쌍에 해당합니다. 출력 단계에서, 토큰 표현은 시퀀스 태깅이나 질문 응답과 같은 토큰 수준 작업을 위해 출력 레이어에 전달되며, [CLS] 표현은 함의 관계 또는 감정 분석과 같은 분류 작업을 위해 출력 레이어에 전달됩니다.
사전 학습에 비해, 미세 조정은 상대적으로 비용이 적게 듭니다. 이 논문의 모든 결과는 동일한 사전 학습 모델에서 시작하여, 단일 Cloud TPU에서 최대 1시간, GPU에서는 몇 시간 내에 재현할 수 있습니다. 작업별 세부 사항은 4장의 해당 하위 섹션에서 설명합니다. 더 자세한 내용은 부록 A.5에서 확인할 수 있습니다.
4. Experiments
이 섹션에서는 11개의 NLP 작업에 대한 BERT 미세 조정 결과를 제시합니다.
4-1. GLUE
일반 언어 이해 평가(GLUE) 벤치마크(Wang et al., 2018a)는 다양한 자연어 이해 작업을 모아 놓은 것입니다. GLUE 데이터셋에 대한 자세한 설명은 부록 B.1에 포함되어 있습니다.
GLUE에 대해 미세 조정하기 위해, 우리는 3장에서 설명한 대로 단일 문장 또는 문장 쌍에 대한 입력 시퀀스를 표현하고, 첫 번째 입력 토큰([CLS])에 해당하는 최종 히든 벡터 C∈RHC \in R^H를 집합 표현으로 사용합니다. 미세 조정 중에 도입되는 유일한 새로운 파라미터는 분류 레이어 가중치 W∈RK×HW \in R^{K \times H}이며, 여기서 KK는 레이블의 수입니다. 우리는 CC와 WW를 사용하여 표준 분류 손실을 계산합니다, 즉

입니다.

Table 1. GLUE 테스트 결과는 평가 서버(https://gluebenchmark.com/leaderboard)에서 평가되었습니다. 각 작업 아래의 숫자는 학습 예제의 수를 나타냅니다. "평균" 열은 문제가 있는 WNLI 세트를 제외했기 때문에 공식 GLUE 점수와 약간 다릅니다. BERT와 OpenAI GPT는 단일 모델, 단일 작업을 기반으로 합니다. QQP와 MRPC의 경우 F1 점수가 보고되었고, STS-B의 경우 스피어만 상관계수가 보고되었으며, 다른 작업의 경우 정확도 점수가 보고되었습니다. BERT를 구성 요소로 사용하는 항목은 제외되었습니다.
우리는 배치 크기 32를 사용하고 모든 GLUE 작업에 대해 데이터를 3번 반복하여 미세 조정을 수행합니다. 각 작업에 대해, Dev 세트에서 최적의 미세 조정 학습률(5e-5, 4e-5, 3e-5, 2e-5 중에서)을 선택했습니다. 추가적으로, BERTLARGE의 경우 작은 데이터셋에서 미세 조정이 가끔 불안정할 수 있어, 여러 번의 랜덤 재시작을 수행한 후 Dev 세트에서 최고의 모델을 선택했습니다. 랜덤 재시작에서는 동일한 사전 학습된 체크포인트를 사용하되, 다른 미세 조정 데이터 셔플링과 분류기 층 초기화를 수행합니다.
결과는 표 1에 제시되어 있습니다. BERTBASE와 BERTLARGE는 모든 작업에서 모든 시스템을 상당히 초월하며, 각각 이전의 최첨단 기술에 비해 4.5% 및 7.0%의 평균 정확도 향상을 달성했습니다. BERTBASE와 OpenAI GPT는 주의 마스킹을 제외하면 모델 아키텍처 측면에서 거의 동일하다는 점에 유의하십시오. 가장 크고 널리 보고된 GLUE 작업인 MNLI에서는 BERT가 4.6%의 절대 정확도 향상을 달성했습니다. 공식 GLUE 리더보드에서 BERTLARGE는 80.5의 점수를 기록했으며, 이는 작성 시점에서 OpenAI GPT의 72.8과 비교됩니다.
우리는 BERTLARGE가 BERTBASE보다 모든 작업에서 특히 훈련 데이터가 매우 적은 작업들에서 상당히 우수한 성능을 발휘한다는 것을 발견했습니다. 모델 크기의 효과에 대해서는 5.2절에서 더 자세히 다룹니다.
4-2. SQuAD v1.1
스탠포드 질문 응답 데이터셋(SQuAD v1.1)은 10만 개의 크라우드소싱된 질문/답변 쌍으로 구성되어 있습니다(Rajpurkar et al., 2016). 주어진 질문과 답변이 포함된 위키백과의 지문을 바탕으로, 작업의 목표는 지문에서 답변 텍스트의 범위를 예측하는 것입니다.
그림 1에서 보여주듯이, 질문 응답 작업에서 우리는 입력 질문과 지문을 하나의 패킹된 시퀀스로 표현하며, 질문에는 A 임베딩을, 지문에는 B 임베딩을 사용합니다. 미세 조정 동안에는 시작 벡터 S∈RHS \in R^H와 끝 벡터 E∈RHE \in R^H만 도입합니다. 단어 ii가 답변 범위의 시작일 확률은 TiT_i와 SS 간의 내적(dot product)을 계산한 후, 지문 내 모든 단어에 대해 소프트맥스(softmax)를 적용하여 구합니다.

유사한 공식이 답변 범위의 끝을 위해 사용됩니다. 후보 범위의 점수는 위치 ii에서 위치 jj까지 정의되며, 이 점수는 S⋅Ti+E⋅TjS \cdot T_i + E \cdot T_j로 계산됩니다. 여기서 j≥ij \geq i인 최대 점수의 범위가 예측으로 사용됩니다. 훈련 목표는 올바른 시작 및 끝 위치의 로그 우도(log-likelihood)의 합입니다. 우리는 학습률 5e-5와 배치 크기 32로 3번의 에폭 동안 미세 조정을 수행합니다.
표 2는 상위 리더보드 항목과 함께 최상위 발표 시스템들의 결과(Seo et al., 2017; Clark and Gardner, 2018; Peters et al., 2018a; Hu et al., 2018)를 보여줍니다. SQuAD 리더보드에서의 상위 결과는 최신의 공개 시스템 설명이 제공되지 않으며, 시스템 훈련 시 어떤 공개 데이터를 사용해도 됩니다. 따라서 우리는 TriviaQA(Joshi et al., 2017)에서 미세 조정한 후 SQuAD에서 미세 조정하는 방식으로 겸손한 데이터 증강을 시스템에 적용했습니다.

우리가 가장 성능이 좋은 시스템은 앙상블 방식으로는 +1.5 F1 점수, 단일 시스템으로는 +1.3 F1 점수에서 상위 리더보드 시스템을 능가합니다. 실제로, 우리의 단일 BERT 모델은 F1 점수 측면에서 상위 앙상블 시스템보다 더 높은 성능을 보입니다. TriviaQA에서의 미세 조정 데이터 없이도 우리는 0.1-0.4 F1 점수만 손실하며, 여전히 모든 기존 시스템을 널리 초월합니다.
4-3. SQuAD v2.0
SQuAD 2.0 작업은 SQuAD 1.1의 문제 정의를 확장하여 제공된 지문에서 짧은 답변이 존재하지 않을 가능성을 허용함으로써 문제를 보다 현실적으로 만듭니다.
이 작업을 위해 SQuAD v1.1 BERT 모델을 확장하는 간단한 접근 방식을 사용합니다. 답변이 없는 질문은 시작과 끝이 [CLS] 토큰에 위치한 답변 범위를 가지는 것으로 처리합니다. 시작 및 끝 답변 범위 위치의 확률 공간을 [CLS] 토큰의 위치를 포함하도록 확장합니다. 예측 시, 우리는 답변이 없는 범위의 점수를 비교합니다: 답변이 없는 경우를 예측할 때는 s^i,j>snull+τ\hat{s}_{i,j} > s_{null} + \tau인 경우를 사용합니다. 여기서 τ\tau는 F1 점수를 최대화하기 위해 개발 세트에서 선택된 임계값입니다. 이 모델에는 TriviaQA 데이터를 사용하지 않았습니다. 학습률 5e-5와 배치 크기 48로 2번의 에폭 동안 미세 조정을 수행했습니다.
이전 리더보드 항목과 최고 발표 작업(Sun et al., 2018; Wang et al., 2018b)과 비교한 결과는 표 3에 나와 있습니다. BERT를 구성 요소로 사용하는 시스템은 제외되었습니다. 우리는 이전 최상위 시스템보다 +5.1 F1 점수 향상을 관찰했습니다.

4-4. SWAG
Situations With Adversarial Generations (SWAG) 데이터셋은 113,000개의 문장 쌍 완성 예제를 포함하고 있으며, 이는 현실적인 상식 추론을 평가합니다(Zellers et al., 2018). 주어진 문장에 대해, 네 가지 선택지 중 가장 그럴듯한 계속되는 문장을 선택하는 것이 과제입니다.
SWAG 데이터셋에서 미세 조정할 때, 우리는 주어진 문장(문장 A)과 가능한 계속되는 문장(문장 B)을 각각 포함하는 네 개의 입력 시퀀스를 구성합니다. 과제에 특화된 유일한 매개변수는 [CLS] 토큰의 표현 C와의 내적을 통해 각 선택지에 대한 점수를 나타내는 벡터이며, 이 점수는 소프트맥스 층을 통해 정규화됩니다.
모델은 학습률 2e-5와 배치 크기 16으로 3 에폭 동안 미세 조정합니다. 결과는 표 4에 제시되어 있습니다. BERTLARGE는 저자들이 제시한 기본 ESIM+ELMo 시스템보다 +27.1% 성능 향상을 보였으며, OpenAI GPT보다 8.3% 더 높은 성과를 기록했습니다.

5. Ablation Studies (절제연구, 부분 제거 연구)
이 섹션에서는 BERT의 여러 측면에 대해 제거 실험(ablation experiments)을 수행하여 각 요소의 상대적 중요성을 더 잘 이해하고자 합니다.
추가적인 제거 실험에 대한 내용은 부록 C에서 확인할 수 있습니다.
* ablation studies : 특정 시스템의 성능에 영향을 미치는 다양한 요소를 평가하기 위해 일부 구성 요소나 특성을 의도적으로 제거하거나 변경하여 실험을 수행하는 과정을 의미
5-1. Effect of Pre-training Tasks
우리는 BERT의 깊은 양방향성의 중요성을 입증하기 위해, BERTBASE와 정확히 동일한 사전 훈련 데이터, 미세 조정 방법, 하이퍼파라미터를 사용하여 두 가지 사전 훈련 목표를 평가합니다:
No NSP: "다음 문장 예측" (NSP) 작업 없이 "마스킹된 언어 모델" (MLM)만을 사용하여 훈련된 양방향 모델.
LTR & No NSP: 표준 Left-to-Right (LTR) 언어 모델(LM)을 사용하여 훈련된 왼쪽 컨텍스트 전용 모델로, 마스킹된 언어 모델(MLM)이 아닌 LTR만을 사용합니다. 왼쪽 전용 제약 조건은 미세 조정 과정에서도 적용되었으며, 이를 제거하면 사전 훈련과 미세 조정 간의 불일치가 발생하여 하위 작업 성능이 저하되었습니다. 또한, 이 모델은 NSP 작업 없이 사전 훈련되었습니다. 이는 OpenAI GPT와 직접적으로 비교할 수 있지만, 더 큰 훈련 데이터셋, 우리의 입력 표현, 그리고 우리의 미세 조정 방법을 사용합니다.
우리는 먼저 NSP(Next Sentence Prediction) 작업의 영향을 조사합니다. Table 5에서 NSP를 제거하면 QNLI, MNLI, SQuAD 1.1에서 성능이 크게 저하됨을 보여줍니다. 다음으로, "No NSP"와 "LTR & No NSP"를 비교하여 양방향 표현을 훈련하는 것이 미치는 영향을 평가합니다. LTR 모델은 모든 작업에서 MLM 모델보다 성능이 떨어지며, 특히 MRPC와 SQuAD에서 성능이 크게 감소합니다.

BERTBASE 아키텍처를 사용한 사전 훈련 작업에 대한 분석입니다. “No NSP”는 다음 문장 예측(Next Sentence Prediction, NSP) 작업 없이 훈련됩니다. “LTR & No NSP”는 다음 문장 예측 없이 왼쪽에서 오른쪽으로만 훈련된 언어 모델(Left-to-Right Language Model, LTR)로, OpenAI GPT와 유사합니다. “+ BiLSTM”은 “LTR + No NSP” 모델 위에 무작위로 초기화된 양방향 LSTM(BiLSTM)을 추가하여 미세 조정(fine-tuning)합니다.
SQuAD에서는 왼쪽에서 오른쪽으로만 훈련된 모델이 토큰 예측에서 성능이 저조할 것이라는 것이 직관적으로 명확합니다. 이는 토큰 레벨의 숨겨진 상태(hidden states)가 오른쪽 문맥을 포함하지 않기 때문입니다. 이러한 LTR 시스템의 성능을 개선하기 위해, 무작위로 초기화된 양방향 LSTM(BiLSTM)을 추가했습니다. 이 방법은 SQuAD에서 성능을 상당히 향상시켰지만, 여전히 사전 훈련된 양방향 모델에 비해 성능이 떨어집니다. 또한, BiLSTM은 GLUE 작업에서 성능을 저하시킵니다.
우리는 LTR(왼쪽에서 오른쪽) 모델과 RTL(오른쪽에서 왼쪽) 모델을 별도로 훈련하고, 각 토큰을 두 모델의 결합으로 표현하는 방법도 가능하다는 것을 인식합니다. 이는 ELMo에서 사용되는 접근 방식입니다. 그러나 다음과 같은 이유로 이 방법은 권장되지 않습니다:
(a) 이 방법은 단일 양방향 모델보다 두 배 더 비쌉니다.
(b) 질문 응답(QA) 같은 작업에서는 비직관적입니다. RTL 모델은 답변을 질문에 조건화할 수 없기 때문입니다.
(c) 이 접근 방식은 깊은 양방향 모델보다 능력이 떨어집니다. 양방향 모델은 모든 레이어에서 왼쪽과 오른쪽 문맥을 동시에 사용할 수 있기 때문입니다.
5-2. Effect of Model Size
이 섹션에서는 모델 크기가 미세 조정 작업의 정확도에 미치는 영향을 탐구합니다. 우리는 레이어 수, 숨겨진 유닛 수, 주의 헤드 수가 다른 여러 BERT 모델을 훈련시켰으며, 그 외에는 이전에 설명한 것과 동일한 하이퍼파라미터와 훈련 절차를 사용했습니다.
선택된 GLUE 작업에 대한 결과는 표 6에 나와 있습니다. 이 표에서는 5번의 랜덤 재시작으로 미세 조정한 평균 Dev 세트 정확도를 보고합니다. 더 큰 모델이 모든 네 가지 데이터셋에서 정확도를 향상시킨다는 것을 확인할 수 있으며, MRPC와 같이 3,600개의 라벨이 붙은 훈련 예제만 있는 데이터셋에서도 상당한 개선이 이루어졌습니다. 또한, 기존 문헌과 비교해도 이미 상당히 큰 모델에서 이러한 중요한 개선을 달성할 수 있다는 점이 다소 놀랍습니다. 예를 들어, Vaswani et al. (2017)에서 탐색한 가장 큰 Transformer는 (L=6, H=1024, A=16)으로 100M 파라미터를 가진 인코더를 포함하고 있으며, 문헌에서 찾은 가장 큰 Transformer는 (L=64, H=512, A=2)로 235M 파라미터를 가집니다 (Al-Rfou et al., 2018). 반면, BERTBASE는 110M 파라미터를, BERTLARGE는 340M 파라미터를 가지고 있습니다.

BERT 모델 크기에 대한 Ablation
- #L = 레이어의 수 (층 수)
- #H = 숨겨진 크기 (히든 사이즈)
- #A = 어텐션 헤드의 수
“LM (ppl)”은 보류된 훈련 데이터의 마스크드 언어 모델(Masked LM) 퍼플렉시티(perplexity)를 나타냅니다.
설명:
- 레이어 수 (#L): 모델의 깊이로, 더 많은 레이어가 있으면 모델이 더 복잡한 패턴을 학습할 수 있습니다.
- 숨겨진 크기 (#H): 각 레이어의 히든 유닛 수로, 더 큰 숨겨진 크기는 모델의 표현 능력을 증가시킵니다.
- 어텐션 헤드 수 (#A): 각 레이어에서의 어텐션 메커니즘의 헤드 수로, 더 많은 헤드는 모델이 더 다양한 관계를 학습할 수 있게 해줍니다.
- “LM (ppl)”: 훈련 데이터에 대한 마스크드 언어 모델의 퍼플렉시티는 모델의 예측 능력을 평가하는 지표로, 낮은 퍼플렉시티는 더 좋은 성능을 의미합니다.
이 정보를 통해 BERT 모델의 크기와 성능 간의 관계를 분석할 수 있습니다.
모델 크기의 증가가 성능 개선에 미치는 영향
모델 크기를 늘리면 기계 번역 및 언어 모델링과 같은 대규모 작업에서 지속적인 성능 향상이 이루어진다는 것은 오랫동안 알려져 왔습니다. 이는 Table 6에 제시된 LM 퍼플렉시티(perplexity)에서 잘 나타나 있습니다. 그러나 본 연구는 극단적인 모델 크기로 확장하는 것이 매우 작은 규모의 작업에서도 큰 개선을 가져올 수 있음을 처음으로 convincingly 입증했다고 믿습니다. 이는 모델이 충분히 사전 훈련(pre-trained)되었을 때 가능하다고 가정됩니다.
이전에 Peters et al. (2018b)는 두 개의 레이어에서 네 개의 레이어로 사전 훈련된 bi-LM의 크기를 증가시키는 것이 하류 작업에 미치는 영향에 대해 혼합된 결과를 보였고, Melamud et al. (2016)은 숨겨진 차원(hidden dimension) 크기를 200에서 600으로 증가시키는 것이 도움이 되었으나 1,000으로 더 증가시키는 것은 추가적인 개선을 가져오지 않았다고 언급했습니다. 두 연구 모두 feature-based 접근 방식을 사용했으므로, 모델이 하류 작업에서 직접 fine-tuning되며 매우 적은 수의 무작위로 초기화된 추가 매개변수만 사용하는 경우, 작업 특정 모델이 더 크고 표현력이 뛰어난 사전 훈련된 표현으로부터 이점을 얻을 수 있다는 가설을 세울 수 있습니다.
이 연구 결과는 큰 모델이 작은 데이터셋에서도 높은 성능을 유지할 수 있음을 보여줍니다.
5-3. Feature-based Approach with BERT
지금까지 제시된 BERT 결과는 모두 미세 조정(fine-tuning) 접근 방식을 사용하였습니다. 이 접근 방식에서는 사전 훈련된 모델에 간단한 분류 레이어를 추가하고, 모든 파라미터를 함께 미세 조정하여 다운스트림 작업을 수행합니다. 그러나 사전 훈련된 모델에서 고정된 특징을 추출하여 사용하는 기능 기반 접근 방식(feature-based approach)에는 몇 가지 장점이 있습니다.
첫째, 모든 작업이 Transformer 인코더 아키텍처로 쉽게 표현될 수 있는 것은 아닙니다. 따라서 작업에 맞는 특화된 모델 아키텍처가 필요할 수 있습니다.
둘째, 훈련 데이터의 비싼 표현을 한 번 미리 계산해두고, 이 표현 위에서 더 저렴한 모델을 사용하여 여러 실험을 수행하는 것이 계산적으로 큰 이점이 있습니다.
이 섹션에서는 BERT를 CoNLL-2003 명명된 개체 인식(Named Entity Recognition, NER) 작업에 적용하여 두 가지 접근 방식을 비교합니다 (Tjong Kim Sang and De Meulder, 2003). BERT의 입력에는 대소문자를 보존하는 WordPiece 모델을 사용하고, 데이터가 제공하는 최대 문서 컨텍스트를 포함합니다. 표준 관례에 따라, 이를 태깅 태스크로 공식화하되 출력에 CRF 레이어는 사용하지 않습니다. NER 레이블 집합에 대해 토큰 수준의 분류기에 입력으로 첫 번째 서브-토큰의 표현을 사용합니다.
파인튜닝 접근 방식을 제거하기 위해, 파인튜닝 없이 BERT의 한 개 이상의 층에서 활성화된 벡터를 추출하여 피처 기반 접근 방식을 적용합니다. 이러한 컨텍스트 임베딩은 분류 레이어 전에 무작위로 초기화된 두 개의 층으로 구성된 768 차원 BiLSTM에 입력으로 사용됩니다.
결과는 표 7에 제시되어 있습니다. BERTLARGE는 최신 방법들과 경쟁력 있는 성능을 보입니다. 가장 성능이 좋은 방법은 사전 학습된 트랜스포머의 상위 네 개의 숨겨진 층에서 토큰 표현을 연결하는 것으로, 전체 모델을 파인튜닝한 것과의 F1 점수 차이는 0.3에 불과합니다. 이는 BERT가 파인튜닝과 피처 기반 접근 방식 모두에서 효과적임을 보여줍니다.

CoNLL-2003 Named Entity Recognition 결과입니다. 하이퍼파라미터는 개발 세트를 사용하여 선택되었습니다. 보고된 개발 및 테스트 점수는 이러한 하이퍼파라미터를 사용하여 5회 랜덤 재시작을 통해 평균된 값입니다.
6. Conclusion
최근의 실험적 개선은 언어 모델을 통한 전이 학습의 효과를 보여주었으며, 이는 많은 언어 이해 시스템에서 풍부한 비지도 학습이 필수적인 부분임을 입증했습니다. 특히, 이러한 결과는 자원이 부족한 작업조차도 깊은 단방향 아키텍처로부터 이점을 얻을 수 있게 합니다. 우리의 주요 기여는 이러한 발견을 깊은 양방향 아키텍처로 더욱 일반화하여, 동일한 사전 훈련된 모델이 다양한 NLP 작업을 성공적으로 수행할 수 있게 만든 것입니다.
'■ 공부 > 논문리뷰' 카테고리의 다른 글
AN IMAGE IS WORTH 16X16 WORDS:TRANSFORMERS FOR IMAGE RECOGNITION AT SCALE (0) | 2024.08.26 |
---|---|
Convolutional LSTM Network: A Machine LearningApproach for Precipitation Nowcasting (0) | 2024.08.12 |
SSD: Single Shot MultiBox Detector (0) | 2024.08.06 |
Neural Machine Translation of Rare Words with Subword Units 리뷰 (1) | 2024.06.30 |