Multi-Task Learning for Knowledge Graph Completion with Pre-trained Language Models
키워드 | CompletionGraphKGKGCPLM |
---|---|
year | 2020 |
저자 | Bosung Kim et al. |
Venue | COLING 2020 |
Memo | LR-RP-RR. KG-BERT에 멀티 테스크 러닝을 붙임. |
분류 | 연구 |
DONE | |
생성 일시 | |
최종 편집 일시 | |
Working |
@inproceedings{Kim2020MultiTaskLF,
title={Multi-Task Learning for Knowledge Graph Completion with Pre-trained Language Models},
author={Bosung Kim and Taesuk Hong and Youngjoong Ko and Jungyun Seo},
booktitle={International Conference on Computational Linguistics},
year={2020},
url={https://api.semanticscholar.org/CorpusID:227231134}
}
PKGC에서 baseline으로 사용된 PLM-based KGC 모델 중 하나이다.
Introduction
KG-BERT의 문제점
- KGs의 많은 릴레이션 정보들을 놓친다. (Binary cross entropy loss만 사용)
- 언어적으로 유사한 후보군들 사이에서 정답을 고르기 어렵다.
예) 주어진 head, relation : (
take a breather
,derivationally related for
, _ )정답 tail :
breathing time
KG-BERT의 예측 tail :
snorkel breather
,breath
breath 와 언어적으로 유사하기 때문
이를 해결하기 위해 multi-task learning 방식을 도입했다.
Methodology
KGC를 위한 multi-task learning
MT-DNN의 multi-task learning 프레임워크를 따르고, pre-trained BERT를 공유 레이어로 사용했다. Link prediction, relation prediction, relevance ranking, 세가지 테스크를 합침.
각 테스크들마다 classification layer 를 갖는다.
- : 레이블의 수
- : BERT의 은닉 크기
입력 시퀀스에는 문장 가장 앞머리에 토큰이 있고, 토큰이 seperator로 사용됐다.
- : Training set of triple
- : Negative triple set
- : Input. text sequence of .
- : 토큰의 최종 벡터
- : classification layer
각 엔티티들은 entity name 과 description으로 표현된다.
예시) Triple : (plant tissue
, hypernym
, plant structure
)
input sequence : plant tissue, the tissue of a plant hypernym plant structure, any part of a plant or fungus
Link Prediction (LP)
메인 테스크.
Training : 주어진 트리플이 옳은 것인지 아닌지에 대해 훈련한다. (Binary cross entropy)
Negative triple은 head나 tail을 랜덤한 엔티티로 대체해서 만든다.
- : Link prediction을 위한 classification layer
- : 모델의 최종 출력
- : label
- : 의 출력. 은 평가에서 최종 ranking score로 사용된다.
Relation Prediction (RP)
Input : head, tail sequence
plant tissue, the tissue of a plant plant structure, any part of a plant or fungus
Training : 위의 시퀀스가 주어졌을 때, 모델은 relation hypernym
을 예측하도록 훈련된다. (Cross entropy)
- : Relation prediction을 위한 classification layer.
- : Relation의 개수
- : 모델의 최종 출력
- : class indicator
Relevance Ranking (RR)
Positive triple들이 negative들 보다 더 높은 점수를 유지하기 위한 목적.
Training : 입력은 LR과 같다. (Margin ranking loss)
- : Relevance Ranking을 위한 classification layer.
- : 모델의 최종 출력
- : margin
훈련할 때, 각 테스크마다 미니 배치 을 구성해서 모든 데이터들을 합쳤다 . 각 훈련 스텝 마다 미니 배치는 에서 랜덤하게 선택되고, 배치에 해당되는 테스크가 순차적으로 훈련된다.
Experiments
Datasets
WN18RR (Dettmers et al., 2018)
- WordNet의 부분집합. 영어의 언어 데이터베이스.
- 엔티티 : 단어 또는 짧은 구문. Definition - Synset definition
- 릴레이션 : 11가지
FB15k-237 (Toutanova and Chen, 2015)
- Freebase (Bollacker et al., 2008)의 부분집합. 일반적인 지식을 포함하는 거대한 크기의 그래프 데이터베이스.
- 엔티티 : 더 일반적인 엔티티들을 갖는다. Definition - descriptions from Xie et al. (2016)
- 릴레이션 : WN18RR보다 더 길고 복잡함.
Baseline
- KG-BERT (Yao et al., 2019)
- TransE (Bordes et al., 2013)
- DistMult (Yang et al., 2014)
- ComplEx (Trouillon et al., 2016)
- ConvE (Dettmers et al., 2018)
- RotatE (Sun et al., 2019)
Settings
- Pre-trained BERT-base
- Fine-tune : 멀티테스크 구조에 3 epoch로
- mini-batch size : 32
- Adam optimizer (Kingma and Ba, 2014), learning rate : 2e-5
- : 0.1
Evaluation
- Mean Rank (MR)
- Mean Reciprocal Rank (MRR)
- Hits@1, 3, 10
Main Results
KG-BERT와 달리 breathing time
이라는 정답을 찾을 수 있다.
다른 영역에서는 SOTA를 달성했지만, FB15k-237 Hits@10은 RotatE의 성능이 가장 높았다.
이에 대해 저자들은 FB15k-237은 WN18RR 보다 더 많은 릴레이션과 복잡한 그래프 구조를 갖고 있기 때문에, Table 4 의 결과를 통해 PLMs는 KG의 복잡한 구조적 정보를 포착하지 못한다고 추측했다.