DeepSeek-R1: 강화 학습 기반 추론 모델

DeepSeek-R1 과 DeepSeek-R1-Zero 가 2025년 1월 20일 오픈소스 모델로 공개되었습니다. DeepSeek-V3 모델을 기반으로 6,710 억 파라미터와 370 억 활성화된 파라미터로 MOE 를 통해 만들어졌습니다. 아울러 'DeepSeek-R1-Distill' 증류모델도 공개되었는데, R1 으로 생성된 합성 데이터로 파인튜닝된 모델입니다.

DeepSeek-R1: 강화 학습 기반 추론 모델

DeepSeek 는 중국 헤지 펀드인 하이-플라이어 (High-Flyer) 가 2023년에 설립한 중국의 인공지능 회사입니다. DeepSeek LLM, DeepSeek Coder, DeepSeek Math 등 다양한 대형 언어 모델을 오픈소스로 공개해 왔습니다. 특히, 최근 공개된 DeepSeek-V3는 Claude 3.5 Sonnet 및 Gemini 1.5 Pro와 견줄 만한 성능으로 주목받고 있습니다.

출처: DeepSeek V3 - Quality, Performance & Price Analysis | Artificial Analysis

이번에는 강화 학습 (RL, Reinforcement Learning) 을 통해 추론 능력을 극대화한 새로운 모델, DeepSeek-R1 과 DeepSeek-R1-Zero 를 소개합니다. 이 두 모델은 2025년 1월 20일에 오픈소스로 공개되었습니다. DeepSeek-V3 를 기반으로 6,710억 개의 파라미터 (활성화된 파라미터: 370억 개) 를 가진 MoE (Mixture of Experts) 구조를 채택했습니다. 또한, DeepSeek-R1 에서 생성된 데이터를 활용하여 학습한 'DeepSeek-R1-Distill' 증류 모델도 함께 공개되었습니다.

DeepSeek-R1-Zero: 강화 학습의 가능성 입증

DeepSeek-R1-Zero 는 기본 모델 (DeepSeek-V3-Base) 에 지도 미세 조정 (SFT, Supervised Fine-Tuning) 없이 직접 강화학습 (RL, Reinforcement Learning) 을 적용하였습니다. 비평자 모델 (critic model) 을 사용하는 대신 그룹 점수에서 기준선을 추정하는 GRPO (Group Relative Policy Optimization) 를 사용하였습니다. 보상 시스템은 규칙 기반이며, 주로 정확도 보상과 형식 보상이라는 두 가지 유형의 보상으로 구성됩니다. 자체 검증, 숙고(reflection), 긴 CoT(Chain-of-Thought) 생성과 같은 뛰어난 능력을 보여줍니다. 특히, SFT 없이도 RL만으로 LLM의 추론 능력을 끌어낼 수 있음을 입증했습니다. 이는 향후 추론 능력 연구에 새로운 방향을 제시하는 중요한 성과입니다. 그러나 끝없는 반복, 낮은 가독성, 언어 혼용과 같은 문제점에 직면했습니다. 동일한 출력에서 영어와 중국어를 모두 사용하는 언어 혼용이 발생합니다.

DeepSeek-R1: 콜드 스타트와 반복적인 RL의 시너지

DeepSeek-R1 은 DeepSeek-R1-Zero 의 성공과 문제점에 기반하여 개발되었습니다. 소량의 고품질 데이터를 콜드 스타트 (초기 학습) 로 활용합니다. 반복적인 RL 미세 조정을 통해 추론 성능을 더욱 끌어올렸습니다. 그 결과, 다양한 과제에서 OpenAI-o1-1217 과 견줄 만한 뛰어난 성능을 달성했습니다. 향상된 추론 패턴 발견과 인간 선호도 일치를 목표로 하는 두 단계의 RL 과, 모델의 추론 및 비추론 능력의 기반을 다지는 두 단계의 SFT 로 구성된 파이프라인이 사용되었습니다. 즉, 초기 학습 단계에서 SFT 를 활용하고, 이후 RL 을 통해 성능을 더욱 끌어올리는 전략을 취한 것입니다.

DeepSeek-R1 의 주요 성능

추론 과제:
- AIME 2024: 79.8% Pass@1 (OpenAI-o1-1217 약간 능가)
- MATH-500: 97.3% (OpenAI-o1-1217과 동등, 다른 모델 압도)
- Codeforces: 2,029 Elo 레이팅 (참가자의 96.3% 능가)

지식:
- MMLU: 90.8%
- MMLU-Pro: 84.0%
- GPQA Diamond: 71.5% (DeepSeek-V3 훨씬 능가, 일부 벤치마크에서 OpenAI-o1-1217에 약간 못 미치지만 다른 비공개 모델 능가)
- SimpleQA: DeepSeek-V3 능가

기타:
- 창의적인 글쓰기, 일반 질의응답, 편집, 요약 등 다양한 과제에서 뛰어난 성능
- AlpacaEval 2.0 (87.6% 길이 제어 승률) 및 ArenaHard (92.3% 승률)에서 높은 성과
- 긴 문맥 이해가 필요한 과제에서도 DeepSeek-V3를 크게 능가

(출처: deepseek-r1 논문)

증류 (distill): 더 작지만 강력한 모델의 탄생

DeepSeek-R1 의 뛰어난 추론 능력을 더 작고 효율적인 모델에 이전하기 위해 "증류 (distill)" 라는 기술을 사용했습니다. DeepSeek-R1 이 생성한 80만 개의 추론 데이터를 활용하여 Qwen 및 Llama와 같은 오픈 소스 모델을 미세 조정 (fine-tuning) 했습니다. 그 결과, 작은 모델들의 추론 능력이 크게 향상되는 것을 확인했습니다. 특히, DeepSeek-R1-Distill-Qwen-1.5B 는 수학 벤치마크(AIME: 28.9%, MATH: 83.9%)에서 GPT-4o 및 Claude-3.5-Sonnet을 능가하는 놀라운 성과를 보여주었습니다. Qwen2.5 및 Llama3 시리즈 기반의 다른 밀집 모델들도 동일한 기반 체크포인트를 사용하는 다른 모델들보다 훨씬 뛰어난 성능을 입증했습니다. 다양한 벤치마크에서 OpenAI-o1-mini를 능가했습니다. 증류된 모델에는 RL 을 추가적으로 적용하지 않고 SFT 만 사용했습니다. RL 을 추가하면 성능을 더욱 향상시킬 수 있지만, 본 연구의 주된 목적은 증류 기술의 효과를 명확히 보여주는 것이었기 때문입니다.

한계점과 향후 과제

일반적인 능력: 현재 DeepSeek-R1 의 능력은 함수 호출, 다중 턴, 복잡한 역할극, JSON 출력과 같은 과제에서 DeepSeek-V3 에 미치지 못합니다. 향후 긴 CoT를 활용하여 이러한 분야의 과제를 향상시키는 방법이 필요합니다.
언어 혼용: 현재 중국어와 영어에 최적화되어 있으며, 다른 언어로 질의를 처리할 때 언어 혼용 문제가 발생할 수 있습니다. 예를 들어, 질의가 중국어나 영어가 아닌 다른 언어로 되어 있더라도 추론과 응답에 영어를 사용할 수 있습니다.
프롬프트 엔지니어링: 프롬프트에 민감하다는 것을 관찰했습니다. few-shot 프롬프트는 지속적으로 성능을 저하시킵니다. 따라서 최적의 결과를 얻으려면 zero-shot 설정을 사용하여 문제를 직접 설명하고 출력 형식을 지정하는 것이 좋습니다.
소프트웨어 엔지니어링 과제: RL 과정의 효율성에 영향을 미치는 긴 평가 시간으로 인해 대규모 RL이 소프트웨어 엔지니어링 과제에 광범위하게 적용되지 않았습니다. 결과적으로 소프트웨어 엔지니어링 벤치마크에서 DeepSeek-V3 에 비해 큰 개선을 보여주지 못했습니다. 향후 버전에서는 소프트웨어 엔지니어링 데이터에 대한 reject sampling을 구현하거나 RL 과정 중 비동기 평가를 통합하여 효율성을 개선함으로써 이 문제를 해결할 것입니다.

DeepSeek-R1 사용하기

OpenAI 의 ChatGPT 처럼 DeepSeek 도 채봇 서비스를 제공합니다. (

DeepSeek - Into the Unknown

) 'DeepThink' 버튼으로 추론 기능을 사용할 수 있습니다.

추론 능력이 필요한 질문으로 테스트 해보겠습니다.

질문: 차가 시동이 걸리지 않습니다. 라이트는 켜지는데, 엔진이 돌지 않아요. 뭐가 문제일까요?

추론 답변

.자, 시동이 걸리지 않습니다. 헤드라이트는 켜지는데 엔진은 돌지 않아요. 무슨 일인지 알아봅시다. 헤드라이트가 켜진다는 건 배터리가 완전히 방전된 건 아니라는 뜻이죠? 배터리가 완전히 방전됐다면 헤드라이트도 안 켜질 테니까요. 그게 단서가 됩니다. 하지만 엔진이 돌지 않아요. 엔진이 돈다는 건 키를 돌릴 때 "부르르르" 하는 소리가 나는 건데, 그 소리가 안 난다면 시동 장치에 문제가 있을 수 있습니다. 잠깐, 어쩌면 시동 모터 자체의 문제일 수도 있겠네요. 시동 모터가 고장나면 키를 돌려도 아무 일도 일어나지 않죠. 하지만 가끔 시동 모터는 딸깍 소리는 나지만 엔진이 돌지 않는 문제가 생기기도 합니다. 흠, 하지만 이 경우에는 전혀 돌지 않네요. 어쩌면 솔레노이드 문제일까요? 시동 솔레노이드는 시동 장치의 일부인데, 그게 고장나면 시동 모터를 작동시키지 못할 수 있습니다. ... (후략)

추론 요약

추론 내용을 요약해서 보여줍니다.

배터리 약화 또는 연결 불량

배터리 충전량: 헤드라이트가 켜지더라도 배터리가 시동 모터를 작동시킬 만큼 충분한 전력을 가지고 있지 않을 수 있습니다. 전압을 테스트(12V 미만은 문제 발생을 의미)하거나 점프 스타트를 시도해 보세요.
부식/느슨한 단자: 적절한 전류 흐름을 보장하기 위해 배터리 연결부를 청소하고 조이세요.

시동 모터 또는 솔레노이드 고장

증상: 딸깍 소리(솔레노이드 작동)가 한 번 나거나 아무 소리도 나지 않습니다. 시동을 걸면서 시동 모터를 가볍게 두드려 보세요. 시동이 걸리면 모터가 고장나고 있을 수 있습니다.
진단: 전문가의 점검이 필요하며, 종종 교체가 필요합니다.

점화 스위치 고장

확인: "ON" 위치에서 다른 액세서리(라디오, 계기판)가 작동하면 스위치 자체가 시동 신호를 전달하지 못하는 것일 수 있습니다.

... (후략)

마무리 답변

즉시 취해야 할 조치와 가장 유력한 원인을 설명하며 답이 마무리 됩니다.

즉시 취해야 할 조치:

배터리를 테스트하거나 점프 스타트합니다.
단자를 검사하고 부식된 경우 청소합니다.
딸깍 소리(솔레노이드/배터리 문제 암시) 또는 무음(점화/시동 회로 문제 지적)을 들어봅니다.

가장 유력한 원인: 배터리 약화 또는 연결 불량이 주요 용의자이며, 그다음은 시동 모터/솔레노이드 고장입니다. 덜 흔하게는 점화 스위치, 안전 스위치 또는 퓨즈 단선으로 인해 문제가 발생할 수 있습니다.

모델 다운로드 및 사용

모델은 허깅페이스 (

deepseek-ai (DeepSeek)

) 에 공개되어 있습니다.

Ollama (

deepseek-r1

) 에도 모델이 추가되어 있어서, 로컬환경에서 쉽게 사용할 수 있습니다. 671b 모델부터 qwen 증류된 1.5b 모델까지 등록되어 있습니다. (Ollama 사용방법 참고:

Ollama의 매력: LangChain 실습으로 로컬 AI 모델 완벽 체험하기 | 블로그 | 모두의연구소

)

DeepSeek-R1 1.58-bit 동적 양자화 모델

2025년 1월 27일, unsloth.ai 에서 DeepSeek-R1 의 1.58 비트 양자화 모델을 발표했습니다. DeepSeek-R1 의 6710억 개 파라미터 모델을 '동적' 양자화 기술로 131GB 크기로 줄였습니다. 원래 720GB에서 80%나 줄이면서도 매우 기능적인 상태를 유지한다고 합니다. DeepSeek-R1의 아키텍처를 연구한 결과, GPT-4에서 사용되는 것과 같은 대부분의 MoE 레이어를 1.5비트로 두고 특정 레이어를 더 높은 비트(예: 4비트)로 선택적으로 양자화했습니다. 모든 레이어를 단순하게 양자화하면 모델이 완전히 망가져 끝없는 루프와 횡설수설하는 출력을 생성합니다. 동적 양자화는 이러한 문제를 해결합니다. 1.58비트 양자화는 빠른 추론을 위해 160GB의 VRAM(2x H100 80GB)에 적합하며, 초당 약 140 토큰의 처리량과 단일 사용자 추론을 위한 초당 14 토큰을 달성합니다. 1.58비트 R1을 실행하는 데 VRAM(GPU)이 필요하지 않으며, 20GB의 RAM(CPU)만으로도 작동하지만 속도가 느릴 수 있습니다. 최적의 성능을 위해서는 VRAM + RAM의 합이 80GB 이상을 권장합니다. 동적 양자화 버전의 모델은 131GB에서 212GB 크기까지 4가지 동적 양자화 버전이

허깅페이스

에 업로드되어 있습니다. 사양은 다음과 같습니다.

MoE 비트	디스크 크기	유형	품질	Down_proj
1.58 비트	131 GB	IQ1_SFair	양호	2.06 / 1.56 비트
1.73 비트	158 GB	IQ1_M	좋음	2.06 비트
2.22 비트	183 GB	IQ2_XXS	더 나음	2.5 / 2.06 비트
2.51 비트	212 GB	IQ2_K_XL	최고	3.5 / 2.5 비트

자세한 내용과 사용방법은 해당 블로그 (

Run DeepSeek-R1 Dynamic 1.58-bit

) 를 참조하세요.

참고 내용

🔎 DeepSeek-R1이 궁금하다면?
지금, 6개월간 AI를 제대로 배울 수 있는 과정이 모집 중입니다! 🚀

✅ DeepSeek-R1, LLaVA 등 최신 AI 기술 심층 학습
✅ CI/CD 기반 MLOps 구축 및 운영 실습
✅ 인공지능 학회 논문 발표 역량 강화

🚀 최신 AI 기술 탐구! 논문부터 구현까지 한 번에! 🚀

👉 지금 바로 신청하고 실전 리서치 역량을 쌓으세요! 👈