[Paper Review] Generating Diverse High-Fidelity Images with VQ-VAE-2

VQ-VAE-2는 VQ-VAE의 한계점을 개선하기 위해 나온 후속 모델입니다. 저자들은 이전 논문에서 아래와 같이 언급했는데요. Training the prior and the VQ-VAE jointly, which could strengthen our results, is left as future research. 여기서 향후 과제로 남...

Aug 9, 2024 Vision

[Paper Review] Llama 2: Open Foundation and Fine-Tuned Chat Models

이번 포스트에서 소개할 Llama 2는 Llama 1의 후속 모델로, Llama 1과 마찬가지로 weight가 공개된 모델입니다. Llama 1은 연구 목적에 한해 weight를 받을 수 있었지만 Llama 2는 상업적 사용도 가능해 보다 자유롭게 사용할 수 있습니다. 또한 Llama 1과는 다르게 instruction-tuning이 적용되었습니다. ...

Jul 15, 2024 Language-Model

[Paper Review] QLoRA: Efficient Finetuning of Quantized LLMs

LLM을 fine-tuning하는 것은 성능 향상에 효과적인 방법이긴 하지만 너무 큰 비용이 요구되어 현실적으로 제약이 많습니다. 이러한 이유로 LLM을 효과적으로 fine-tuning하는 방식인 LoRA가 제안되었는데요. LoRA는 모델 전체를 fine-tuning하는 것보다 훨씬 적은 양의 메모리와 학습 시간을 사용하면서도 비슷한 수준의, 혹은 그...

May 6, 2024 Language-Model

[Paper Review] Alpaca: A Strong, Replicable Instruction-Following Model

오늘 소개할 Alpaca는 Stanford에서 LLaMA 7B를 기반으로 만든 파생 모델입니다. LLaMA 자체는 단순 언어 모델인데, LLaMA에 instruction tuning을 거쳐 나온 모델이 바로 Alpaca입니다. instruction tuning은 모델이 사용자의 지시문을 이해하고, 그 지시에 맞춰 작업을 수행하도록 학습시키는 과정을 의...

Apr 21, 2024 Language-Model

[Paper Review] LLaMA: Open and Efficient Foundation Language Models

LLaMA는 Meta에서 개발한 모델로, “작지만 강한 LLM”이라는 개념을 본격적으로 주목하게 만든 대표 모델입니다. 그 전에도 소형 LLM은 있었지만 성능 면에서 크게 주목받지 못했습니다. 또한 GPT-3를 포함한 대다수의 LLM이 weight를 공개하지 않은 것과 대조적으로, 연구 목적에 한해 모델 weight를 공개한 것도 주목할 만한 점입니다...

Apr 9, 2024 Language-Model