본문 바로가기

📎 paper

(11)
End-to-End Anti-Spoofing with RawNet2 ICASSP 2021👀 요약 👀새로운 end-to-end architecture(RawNet2)를 만들어서기존에 ASVspoof 2019의 worst case 였던 A17의 탐지 성능을 올리고자 했다!✨ Point ✨SincNet의 first layer(bank of band-pass filters) & linearly- distributed & inverse-Mel scaled filterbank+  RawNet1 의 uppper layer(residual blocks and GRU)+ filter-wise feature map scaling(FMS)* FMS가 attention mechnism처럼 작용한다고 함  1. IntroductionASVspoof 2019에서 특히 A17 attacks 탐..
논문리뷰💬 Improved DeepFake Detection Using Whisper Features InterSpeech 2023👀 요약 👀✨ Point ✨음성인식 system인 Whisper(tiny.en)의 encoder에서 feature을 추출했다 ..!!feature: finetune Whisper + MFCC / model: MesoNet 이 최고 성능  1. Introduction- artificial speech를 만드는 방법으로는 TTS, Voice Cloning (특정인 목소리 모방 or 그냥 듣기에 자연스러운 음성), Voice-Conversion (피해자의 목소리 특성을 공격자의 음성으로 바꾸는 것) 등이 있다.- DeepFake audio Detecting은 Speech spoofing이랑 유사한 문제이긴 하지만, 타겟이 다름. ( spoofing은 원하는 화자인지 아닌지, D..
논문리뷰💬 DWT and MFCC Based Human Emotional Speech Classification Using LDA IEEE ICoBE Feb 2012👀 요약 👀✨ Point ✨MFCC feature 좋다. (..)  1. Introduction- Voice는 normal speech와 감정이 담긴 speech로 구분 가능여자와 남자 voice 차이 : speaking pitch, pitch range, space between the vocal folds, formant frequency, incidence of voice problem( e.g. 여자 - higher fundamental frequency(voice pitch) (평균 188Hz to 221Hz) = (남자보다) 성대가 초당 두 배 더 진동함 / 성대 진동 방식 :  breathier남자 - 평균 100Hz to 146Hz / 성대 진동 방식 ..
논문리뷰💬 Fake Audio Detection Based on Unsupervised Pretraining Models IEEE ICASSP 2022👀 요약 👀✨ Point ✨  1. Introduction - ASVspoof challenges (2021)에서는 speaker verificaion spoofing ( 화자 검증 도용 탐지 (..) )를 주로 다룸.TTS 또는 voice conversion으로 생성된 (비교적 쉬운) deepfake speech를 detection하는 대회였다. - ADD2022에서는 더 다양한 fake audio를 detection하는 대회   Track1: Real or Fake      (다양한 background 소음, disturbances 포함)   Track2: Real or Partially Fake     (fake 타입 3종류 - speech synthesized(합성..
논문리뷰💬 Neural Machine Translation by Jointly Learning to Align and Translate ICLR 2015👀 요약 👀Attention paper !!!Seq2Seq에다가 attention을 추가해서fixed-length vector (bottleneck) 문제 해결함!Eng-French 간의 Alignment도 잘 표현해냄.긴 문장도 잘 번역할 수 있게 됨 !✨ Point ✨seq2seq의 encoder에는 Bi RNN decoder에는 attention. (attention score, weight, value !! )  >💥기존 RNN의 bottlenet, vanishing gradient 문제 ⭐️ 본 논문 [Neural Machine Translation by Jointly Learning to Align and Translate(2016)]에서RNN(Seq2Seq) + atte..