오디오 데이터 전처리 및 feature 추출

이번 포스트에서는 오디오 데이터를 전처리하고, feature를 추출하는 방법에 대해 다뤄보려고 합니다. 오디오 데이터 분석을 할 때 많이 사용되는 librosa 라이브러리를 사용하여 각 단계에서 어떤 과정을 거치는지 살펴보겠습니다. 1. 데이터 불러오기 WAV, MP3, FLAC 등 다양한 포맷의 오디오 파일을 불러와서 시간 도메인 신호로 변환합니...

May 24, 2022 Audio

[Paper Review] FaceNet: A Unified Embedding for Face Recognition and Clustering

이번 포스트에서는 Deep metric learning 모델 중 하나인 FaceNet(2015)에 대해 알아보겠습니다. Deep metric learning은 얼굴 인식, 화자 인식, 이미지 검색 등 여러 task에서 사용되고 있는 방식인데요. 모델 구조는 다양하지만, neural network를 사용해 이미지나 음성 데이터의 embedding vec...

Apr 17, 2022 Vision

[Paper Review] Prototypical Networks for Few-shot Learning

지난 포스트에 이어서 nueral network를 사용한 메트릭 기반 meta learning에 대해 알아보겠습니다. 오늘 소개할 Prototypical Networks(2017)는 단순하지만 강력한 성능을 보여주는 모델입니다. 이름처럼 각 클래스별 prototype 을 계산하여 새로운 샘플이 어떤 클래스에 속하는지를 판단하는 방식을 사용합니다. 1...

Apr 11, 2022 Meta-Learning

Meta Learning

Few shot learning 전통적인 supervised learning은 아래와 같은 학습 데이터를 사용해 모델을 학습시킨 다음, 학습 데이터에서 등장한 적 없는 새로운 테스트 데이터로 모델을 평가합니다. 이 때, 테스트 데이터는 학습 데이터에 포함된 class여야 합니다. 예를 들어 아래 학습 데이터로 학습한 분류 모델은 토끼 이미지를 분류해...

Mar 7, 2022 Meta-Learning