[Paper Review] DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning

작년 9월, OpenAI에서 추론 모델 o1을 발표했습니다. OpenAI 연구팀은 o1 개발 과정에서 강화 학습을 늘리고(train-time compute) 생각을 더 오래 할수록(test-time compute) o1의 성능이 일관적으로 향상하는 것을 확인했습니다. 하지만 모델이 생각하는 시간을 무한정 늘릴 수는 없기 때문에 어떻게 하면 이 test...

Feb 17, 2025 Language-Model

[Paper Review] Qwen 2.5

Qwen은 알리바바 클라우드에서 개발한 LLM으로, 코딩과 수학적 추론 능력이 뛰어난 모델입니다. 1. 학습 데이터 Pre-training 데이터셋을 기존(Qwen 2) 7조 토큰에서 18조 토큰으로 늘렸는데요. 지식, 코딩, 수학 영역을 중점적으로 보강했습니다. 2. 모델 구조 Qwen 2.5는 Dense Transformer를 사용하는 ...

Feb 4, 2025 Language-Model

[Paper Review] Llama 3

Llama 2의 후속 모델인 Llama 3는 모델 구조 자체는 Llama 2와 동일하지만, post-training 시에 Llama 2와 조금 다른 과정을 거칩니다. post-training은 Llama 시리즈에서 뿐만 아니라 최근 발표되는 LLM 논문에서 자주 등장하는 용어인데요. 단순히 fine-tuning 하나의 기술만 의미하는 것이 아니라, 다...

Jan 20, 2025 Language-Model

[Paper Review] DALL-E 2: Hierarchical Text-Conditional Image Generation with CLIP Latents

DALL-E 2는 텍스트 설명을 바탕으로 이미지를 생성하는 text-to-image 모델입니다. DALL-E의 후속 모델이며, 2022년에 발표되었습니다. 선행 연구들은 주로 텍스트로부터 이미지를 바로 생성했습니다. 그런데 텍스트가 이미지를 100% 완벽하게 설명하는 경우는 거의 없기 때문에, 이런 방식으로 생성한 이미지의 품질에는 한계가 있을 수밖에...

Dec 9, 2024 Multimodal

[Paper Review] DDPM: Denoising Diffusion Probabilistic Models (2)

이번 포스트에서는 지난 포스트에 이어 Denoising Diffusion Probabilistic Models에 대해 좀 더 자세히 알아보겠습니다. 지난 포스트에서 설명한 바와 같이, DDPM은 데이터에 노이즈를 점진적으로 확산시킨 다음, 그 과정을 거꾸로 학습합니다. 정방향 확산 과정 먼저 정방향 확산 과정에서는 매 step마다 노이즈를 $\be...

Nov 2, 2024 Vision