[논문] Black-Box On-Policy Distillation of Large Language Models

Black-Box On-Policy Distillation of Large Language Models

Black-box distillation creates student large language models (LLMs) by learning from a proprietary teacher model's text outputs alone, without access to its internal logits or parameters. In this work, we introduce Generative Adversarial Distillation (GAD)

arxiv.org

이 논문은 LLM 지식 증류(Knowledge Distillation, KD)의 어려운 설정인 Black-Box On-Policy Distillation를 효과적으로 수행하는 새로운 프레임워크인 GAD(Generative Adversarial Distillation)를 제안하는 논문이다

Summary

이 논문은 logit이나 hidden 같은 내부 정보에 접근할 수 없는 독점적 (proprietary) LLM 으로부터 블랙박스 설정에서 효과적으로 지식을 추출하는 방법론을 제시합니다.

GAD는 이 문제를 해결하기 위해 생성적 적대 학습(Generative Adversarial Training) 프레임워크를 도입합니다.

배경 문제:
- 기존의 화이트박스(White-box) KD는 교사 모델의 내부 확률 분포에 접근해야 합니다.
- 블랙박스 KD는 교사 모델이 생성한 텍스트 출력만 사용해야 하므로, 기존의 우도(likelihood) 기반 방식으로는 온-정책(on-policy) 학습 시 피드백을 얻기 어렵습니다.
GAD의 해결책:
- 학생 LLM을 생성자(Generator, $G$)로 , 교사/학생 응답을 구별하는 모델을 판별자(Discriminator, $D$)로 설정하고, 이를 최소-최대 게임(minimax game) 형태로 학습시킵니다.
- 이때 판별자는 온-정책 보상 모델(on-policy reward model) 역할을 하며, 학생 모델의 생성물(자신의 응답)에 대한 품질 피드백을 제공합니다. 이 보상 모델은 학습 과정에서 학생 모델과 함께 지속적으로 적응하고 발전(co-evolve)하여, 기존 RLHF의 고정된 보상 모델에서 발생할 수 있는 보상 해킹(reward hacking) 문제를 방지합니다.

⚙️ GAD 방법론: 작동 원리

GAD는 강화 학습(Reinforcement Learning, RL) 프레임워크를 사용하여 구현됩니다.

1. 생성자 ($G$) 및 판별자 ($D$)의 정의

생성자 ($G$): 지식을 증류할 학생 LLM을 의미합니다. 주어진 프롬프트 $x$에 대한 응답 $G(x)$를 생성합니다.
판별자 ($D$): 프롬프트 $x$와 응답 $y$를 입력받아 순서열 수준(sequence-level) 스칼라 점수 $D([x, y])$를 예측합니다.

2. 학습 목표 (Minimax Game)

GAD의 학습 목표는 다음과 같은 최소-최대(minimax) 게임 형태로 정식화됩니다:

$$\max_{G}\min_{D}\mathcal{V}(G,D)=\mathbb{E}_{(x,y_{t})\sim\mathcal{T}}[-\log\sigma(D(y_{t})-D(G(x)))]$$

판별자 ($D$) 최적화: $D$는 교사의 응답 $y_t$에 학생의 응답 $G(x)$보다 더 높은 점수를 부여하도록 학습됩니다. 이를 위해 Bradley-Terry 손실을 최소화합니다.
생성자 ($G$) 최적화: $G$는 판별자가 자신의 응답 $G(x)$를 교사의 응답과 구별하지 못하도록 학습됩니다. 이는 판별자의 점수 $D(G(x))$를 보상(Reward)으로 사용하여 $\mathbb{E}[D(G(x))]$를 최대화하는 방식으로 정책 경사(Policy Gradient)를 통해 이루어집니다. 본 실험에서는 GRPO 알고리즘이 사용되었습니다.

3. 워밍업 단계 (Warmup Stage)

본격적인 GAD 학습 전에 워밍업 단계가 필수적입니다.

생성자 워밍업: 교사 응답 $y_t$에 대한 교차 엔트로피 손실(cross-entropy loss)을 사용하여 지도 학습(supervised fine-tuning, SFT)을 수행합니다.
판별자 워밍업: 같은 데이터셋에서 Bradley-Terry 손실을 사용하여 학습합니다.
워밍업은 초기 생성자와 판별자 간의 균형을 맞추고, 학습 초기에 판별자가 교사와 학생을 너무 쉽게 구별하는 것을 방지하여 효과적인 적대적 최적화를 촉진합니다.

📊 실험 결과: 탁월한 성능

GAD는 시퀀스 수준 지식 증류(SeqKD, Sequence-level Knowledge Distillation)와 비교하여 지속적으로 우수한 성능을 보였습니다.

평가 모델 (Student)	방법	LMSYS-Chat (GPT-4o Score)	OOD Generalization (평균)
Qwen2.5-14B-Instruct	GAD (ours)	52.1	51.0 (Dolly, Selfinst, Vicuna 평균)
Qwen2.5-14B-Instruct	SeqKD	50.6	49.1
GPT-5-Chat	Teacher	51.7	49.8 (49.8, 49.7, 49.9 평균)

주요 발견:
- 교사 수준 성능: GAD로 학습된 Qwen2.5-14B-Instruct는 LMSYS-Chat 벤치마크에서 교사 모델인 GPT-5-Chat에 필적하는 성능($52.1$ 대 $51.7$)을 달성했습니다\.
- 모델 크기 압축: GAD로 증류된 Qwen2.5-3B-Instruct의 성능이 SeqKD로 증류된 Qwen2.5-7B-Instruct와 동등한 수준으로 나타나, 더 작은 모델로 더 나은 성능을 달성할 수 있음을 입증했습니다.
- 분포 외 일반화 (Out-of-Distribution Generalization, OOD): GAD는 Dolly, Selfinst, Vicuna 데이터셋에서 SeqKD가 미미하거나 부정적인 개선을 보인 것과 달리, 강력한 성능 향상을 보였습니다. 이는 RL 기반 접근 방식의 우월한 일반화 능력 때문으로 분석됩니다.
- 인간 평가: GAD는 SeqKD 및 증류 전 모델과 비교하여 대부분의 경우 50% 이상의 승률을 기록하며, 인간 평가에서도 우수한 성능이 확인되었습니다.

💡 주요 분석 (Analysis)

모드 탐색(Mode-Seeking) 행동: GAD는 SeqKD의 모드 포괄(mode-covering) 행동과 달리, 교사 모델의 도달 가능한 모드(reachable modes)에 집중하는 모드 탐색 행동을 보였으며, 이것이 LLM 지식 증류에 더 효과적입니다.
온-정책 판별자의 안정성: 고정된 오프-정책 판별자(off-policy discriminator)를 사용했을 때, 학생 모델이 보상 모델을 속여 무의미하게 긴 응답(최대 1300 토큰)을 생성하는 보상 해킹 현상이 빠르게 발생했으나, GAD의 온-정책 판별자는 학습 내내 안정적이고 견고한 성능을 유지했습니다.

Conclusion

GAD는 LLM의 블랙박스 온-정책 증류라는 어려운 문제를 생성적 적대 학습과 적응형 온-정책 보상 모델(판별자)을 통해 성공적으로 해결했습니다. 이 방법론은 상용 LLM의 지식을 효과적으로 추출하여, 작은 모델이 교사 모델에 필적하는 성능과 우수한 일반화 능력을 갖도록 합니다.

GAD 논문의 핵심 인사이트 : LLM 지식 증류(Knowledge Distillation)

1. 블랙박스 증류에서 온-정책 학습의 효과를 입증하다! 🚀

가장 큰 인사이트는 GPT-5-Chat처럼 내부 정보(logit)가 공개되지 않은 블랙박스 모델에서도 온-정책(On-Policy) 학습이 가능하다는 점을 보여주고, 그 효과가 기존 방식보다 훨씬 뛰어나다는 걸 입증한 거예요.

기존 방식의 한계: 전통적인 블랙박스 증류(SeqKD)는 교사 모델이 생성한 텍스트에 대해 지도 미세 조정(SFT)을 수행하는 오프-정책(Off-Policy) 방식이에요. 학생 모델이 생성하는 응답($G(x)$)을 교정할 확률 수준의 피드백이 없어서, 온-정책 학습이 어려웠죠.
GAD의 해결책: GAD는 판별자($D$)를 도입해서, 이 판별자가 학생의 자체 생성 응답에 대한 품질 점수를 매기는 적응형 보상 모델 역할을 하게 했어요. 이 점수를 이용해 학생 모델은 자신의 현재 정책에 대한 피드백을 받고 학습(On-Policy Learning)할 수 있게 된 거죠.

2. 적대적 학습을 통한 보상 해킹 방지 및 안정성 확보! 🛡️

GAD는 생성적 적대 네트워크(GAN)와 유사한 최소-최대 게임을 통해 학습의 안정성과 효율성을 높였어요.

보상 해킹 방지: 기존 강화 학습(RL)에서 고정된 보상 모델을 사용하면 학생 모델이 보상 모델을 속여서 터무니없이 긴 응답을 생성하는 보상 해킹(Reward Hacking) 문제가 발생하기 쉬워요5555. 하지만 GAD는 판별자($D$)가 학생 모델($G$)과 함께 지속적으로 공진화(co-evolves)하며 적응하기 때문에, 보상 해킹 없이 수천 단계의 학습 동안 안정성을 유지했어요.
견고성 및 신뢰성: 이 결과는 GAD가 블랙박스 LLM 증류를 위한 신뢰할 수 있고 견고한(highly reliable and robust) 온-정책 방법론임을 보여줍니다.

3. 우월한 일반화 능력과 모드 탐색 행동의 발견! 🗺️

GAD는 특히 분포 외 일반화(Out-of-Distribution Generalization, OOD) 벤치마크(Dolly, Selfinst, Vicuna)에서 SeqKD보다 훨씬 강력한 성능 향상을 보였는데, 이는 RL 기반 접근 방식의 중요한 통찰이에요.

SeqKD의 문제점: SeqKD(SFT 기반)는 교사 모델의 응답에 과적합(overfit)되어 지역적인 어휘 패턴을 암기하는 경향이 있으며, OOD 데이터에서는 성능 개선이 미미하거나 오히려 하락했어요.
GAD의 강점: GAD는 RL 기반 접근 방식을 사용하여 교사의 전역적인 스타일 특성(global stylistic characteristics)을 더 잘 포착하고, 새로운 데이터에 대해 뛰어난 일반화 능력을 보였습니다.
모드 탐색 (Mode-Seeking): 토이 실험에서 GAD는 교사의 모든 가능한 응답 모드(Mode)를 포괄하려 하는 SeqKD와 달리, 실제로 도달 가능하고 효과적인 모드를 집중적으로 학습하는 모드 탐색 행동을 보였어요. 이는 LLM 지식 증류에 더 효과적입니다.

generated by. Google Gemini

728x90

저작자표시 비영리 동일조건 (새창열림)