본문 바로가기

DeepLearning9

[VALL-E] Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers 리뷰 - (8~12/12 Page.) 2023.01.23 - [논문으로 현업 씹어먹기] - [VALL-E] Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers 리뷰 - (5~7/12 Page.) [VALL-E] Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers 리뷰 - (5~7/12 Page.) 2023.01.16 - [논문으로 현업 씹어먹기] - [VALL-E] Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers 리뷰 - (1~4/12 Page.) [VALL-E] Neural Codec Language Models .. 2023. 1. 23.
[VALL-E] Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers 리뷰 - (5~7/12 Page.) 2023.01.16 - [논문으로 현업 씹어먹기] - [VALL-E] Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers 리뷰 - (1~4/12 Page.) [VALL-E] Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers 리뷰 - (1~4/12 Page.) 3초만을 가지고 TTS를 할 수 있고, 심지어 잘된다. GPT3의 Incontext-Learning에서 영감을 받았다고 한다. Language Modeling이다. 다만 TTS FrameWork를 사용했을뿐. 일단 읽으면서 되는데로 정리를 할 예정이라 shyu0522.tistory.com 여기서 이어.. 2023. 1. 23.
[VALL-E] Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers 리뷰 - (1~4/12 Page.) 3초만을 가지고 TTS를 할 수 있고, 심지어 잘된다. GPT3의 Incontext-Learning에서 영감을 받았다고 한다. Language Modeling이다. 다만 TTS FrameWork를 사용했을뿐. 일단 읽으면서 되는데로 정리를 할 예정이라 얼마나 길어질지 모르겠다. 오늘까지 리딩으로 먼저 읽어보면 좋을 논문 1. AudioLM(vocoder없는 speech to speech 모델링을 위한 Spectrogram 표현 기법) : https://arxiv.org/abs/2209.03143 AudioLM: a Language Modeling Approach to Audio Generation We introduce AudioLM, a framework for high-quality audio gen.. 2023. 1. 16.
딥러닝 STT 모델 - ESPNet (2 - 톺아보기) ESPNet 논문은, 분명히 기술적인 내용들이었지만, 서술형일 뿐이었고, 상세 기술들은 하나하나 조사하다보니 너무 복잡한 느낌이 들었다. 2021.05.14 - [논문으로 현업 씹어먹기] - 딥러닝 STT 모델 - ESPNet (1) 딥러닝 STT 모델 - ESPNet (1) BERT부터 설명을 하려고 하긴 했는데, 이제 곧 업무가 시작되기도 할 것이며, 최근에 논문을 읽어본 ESPNet에 대해서 먼저 정리해보겠다. 서론 사실 이전 회사에서, 크롤링 -> Text Analysis(TA) -> Power BI shyu0522.tistory.com 그럼 이 복잡하다면 복잡한 상세 알고리즘들을 어떻게 ESPNet처럼 합쳐서 수려하게 개발할 수 있었을까? ESPNet 자체를 톺아보려고 했지만, 설치부터 Data.. 2021. 5. 24.
응~ 역전파 이해해야되~ - (Yes you should understand backprop / Andrej Karpathy) 요즘 개인적인 일로 너무 바빴다. 깐에 좋은 옷좀 입어보겠다고, 리바이스 LVC 청바지를 구매했는데, 배가 꽤나 나왔는가, 허리에 옷을 맞추니 통이 맞지가 않아서, 교환하는데도 한참 애먹고, 개인적인 약속 및 회식들로 갑작스럽게 저녁에 술먹을 일이 많아서, 글을 쓰지 못했었다. 읽어보기로는 저번주에 다 읽어놓은 내용인데, 오늘 정리하려니, 제대로 말이 써질까 모르겠다. (감정이 살아있을때 써야 블로그도 더 잘 써지는 것인데 말이지...) 오늘은, 이전에 한번 얘기했던, 2021.04.22 - [논문으로 현업 씹어먹기] - 딥러닝을 대하는 우리의 자세 - (A Recipe for Training Neural Networks / Andrej Karpathy) 딥러닝을 대하는 우리의 자세 - (A Recipe.. 2021. 5. 7.
딥러닝을 대하는 우리의 자세 - (A Recipe for Training Neural Networks / Andrej Karpathy) 오늘 정말 너무너무 공감되서 가슴이 뜨거워질 정도였던 블로그 글을 읽게 되었다. 무려 만 32살에 Tesla AI Team 팀장을 맡게된 Andrej Karpathy의 기술 블로그를 보던중 과거의 글 중에 이런 글이 있었다. karpathy.github.io/2019/04/25/recipe/ A Recipe for Training Neural Networks Some few weeks ago I posted a tweet on “the most common neural net mistakes”, listing a few common gotchas related to training neural nets. The tweet got quite a bit more engagement than I anticip.. 2021. 4. 22.
LSTM으로 수요 예측하기 - 7장 (Mean Absolute Scaled Error-MASE) 1. 시간별로 데이터 전처리 / Not Scaled 2. 일반 lstm 3레이어 정도(?) 3. 이후 data도 중요하다고 생각듬 4. BI-LSTM 사용 5. 데이터가 너무 없어 K-Fold 적용 6. Layer만 주구장창 쌓다가 AutoEncoder 활용 7. 데이터 Scaled 적용 8. Loss Function Custom 9. 1차 마무리 - 여기 사이에는 BERT가 포함되어있다. (Google Source를 다 까봤는데, 이건 언제 또 정리할까...) - 10. Attention 적용 => Dual-Stage Attention RNN (DA-RNN) -> 논문으로 현업 씹어먹기로 작성중... => Luong Attention (Dot-Product Attention) => Bahdanau At.. 2021. 4. 21.
LSTM Attention 이해하기 - 서론 BERT 서론 회사에서 TA관련한 프로젝트를 할 일이 생겼다. 내가 나중에 시간이 되면 올리겠지만, 이전 회사에서 TA 관련된 프로젝트를 2개 해본것이 있었는데, 1. 회사 상품 평판 분석 2. Encoder-Decoder LSTM을 이용한 한글 문장 요약 이런 경험들이 프로젝트를 맡게된 이유가 아닐까 생각된다. 필자는 시간이 있다면, 공개된 알고리즘은 논문부터 소스까지 톺아보는 성격인지라, 모델을 까보게 됐는데, 사실 이전까지는 별로 Attention에 대한 이해도가 높진 않았고, 사용할 수 있는 정도였다. (Encoder-Decoder 구성에서, 어떤 Dimension이 들어왔을때, 어떤 차원을 기준으로 Attention을 때리면, 뭐에대한 Score가 나온다 정도...?) BERT를 심도있게 까보던.. 2021. 4. 19.
LSTM으로 수요 예측하기 - 4장 (BI-LSTM 사용) 항상 업무에 시달리느냐고, 블로그를 쓸때 몰아쓰는 경향이 있는 것 같다...ㅋㅋ 지금도 바다나우 어텐션 안되서 이것저것 바꿔돌려가면서, 기다리는 동안에 블로그를 써본다. 1. 시간별로 데이터 전처리 / Not Scaled 2. 일반 lstm 3레이어 정도(?) 3. 이후 data도 중요하다고 생각듬 4. BI-LSTM 사용 5. 데이터가 너무 없어 K-Fold 적용 6. Layer만 주구장창 쌓다가 AutoEncoder 활용 7. 데이터 Scaled 적용 8. Loss Function Custom 9. 1차 마무리 - 여기 사이에는 BERT가 포함되어있다. (Google Source를 다 까봤는데, 이건 언제 또 정리할까...) - 10. Attention 적용 => Dual-Stage Attention.. 2021. 4. 7.
728x90