chips.ai

[Paper Review] CLIP: Learning Transferable Visual Models From Natural Language Supervision

CLIP은 OpenAI에서 발표한 멀티모달 모델입니다. Contrastive learning 방식으로 텍스트와 이미지를 함께 학습시켜서, 둘을 같은 embedding space에서 비교하거나 연결할 수 있도록 만들었습니다. 인식해야 할 클래스의 이름만 주어지면, 어떤 벤치마크에도 적용할 수 있는 우수한 Zero-shot 성능을 보인다는 점에서 주목할 ...

[Paper Review] DALL-E: Zero-Shot Text-to-Image Generation

DALL-E는 텍스트 설명만으로 이미지를 생성하는 text-to-image 모델입니다. 별도의 추가 훈련없이, 본 적 없는 조합의 텍스트에 대해서도 이미지를 생성할 수 있도록 학습되었다는 점이 중요한 특징입니다. 1. 모델 구조 DALL-E는 텍스트와 이미지 토큰을 하나의 데이터로 만들고, Transformer가 이를 입력받아 순서대로 예측하도록 ...

© Chips.AI. Some rights reserved.

Using the Chirpy theme for Jekyll.