본문 바로가기

논문으로 현업 씹어먹기13

TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models 모델을 이것저것 경험해보는 것을 무척이나 좋아하는 편이라, 회사에서 중간 의사결정권자로써 많은 모델들을 개발해보려고 노력하고있다. 와중에 OCR Task가 생겨서 진행해봤던 논문인 TrOCR을 한번 리뷰해보고자 한다. VALL-E는 구현체도 없고 내용도 조금은 어려울 수 있어서 거의 직역에 가까운 리뷰를 진행했는데, 이번 TrOCR은 HuggingFace에서 간단하게 사용해볼 수 있고, 논문 리뷰 전에 한번 사용해보니 Pre-Trained Image Transformer Encoder + Pre-Trained Transformer De(En)coder Causal(Masked)LM 의 구조를 띄고 있는거라, 논문에 앞서 한번 상상해보면, 1) Image Transformer를 손글씨로 학습함. 2) Te.. 2023. 1. 24.
[VALL-E] Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers 리뷰 - (8~12/12 Page.) 2023.01.23 - [논문으로 현업 씹어먹기] - [VALL-E] Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers 리뷰 - (5~7/12 Page.) [VALL-E] Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers 리뷰 - (5~7/12 Page.) 2023.01.16 - [논문으로 현업 씹어먹기] - [VALL-E] Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers 리뷰 - (1~4/12 Page.) [VALL-E] Neural Codec Language Models .. 2023. 1. 23.
[VALL-E] Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers 리뷰 - (5~7/12 Page.) 2023.01.16 - [논문으로 현업 씹어먹기] - [VALL-E] Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers 리뷰 - (1~4/12 Page.) [VALL-E] Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers 리뷰 - (1~4/12 Page.) 3초만을 가지고 TTS를 할 수 있고, 심지어 잘된다. GPT3의 Incontext-Learning에서 영감을 받았다고 한다. Language Modeling이다. 다만 TTS FrameWork를 사용했을뿐. 일단 읽으면서 되는데로 정리를 할 예정이라 shyu0522.tistory.com 여기서 이어.. 2023. 1. 23.
[VALL-E] Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers 리뷰 - (1~4/12 Page.) 3초만을 가지고 TTS를 할 수 있고, 심지어 잘된다. GPT3의 Incontext-Learning에서 영감을 받았다고 한다. Language Modeling이다. 다만 TTS FrameWork를 사용했을뿐. 일단 읽으면서 되는데로 정리를 할 예정이라 얼마나 길어질지 모르겠다. 오늘까지 리딩으로 먼저 읽어보면 좋을 논문 1. AudioLM(vocoder없는 speech to speech 모델링을 위한 Spectrogram 표현 기법) : https://arxiv.org/abs/2209.03143 AudioLM: a Language Modeling Approach to Audio Generation We introduce AudioLM, a framework for high-quality audio gen.. 2023. 1. 16.
최신 AI Trend - Google의 Pathways (2 - Paper 리뷰) 여기서 이어집니다. 2022.04.11 - [논문으로 현업 씹어먹기] - 최신 AI Trend - Google의 Pathways (1 - 역사와 톺아보기) 최신 AI Trend - Google의 Pathways (1 - 역사와 톺아보기) 간만에 블로그를 쓰는 것 같다...ㅋㅋㅋ 관심있게 지켜보고 있던 프로젝트인 Google Pathways가 4월 4일부로 벤치마크 결과가 공개되었다....!! 정확히는 Google의 목표는, 늘어나는 탄소 규제의 압박과 shyu0522.tistory.com 논문이 4월 7일에 공개가 되었다. https://arxiv.org/abs/2204.02311 PaLM: Scaling Language Modeling with Pathways Large language models h.. 2022. 4. 13.
최신 AI Trend - Google의 Pathways (1 - 역사와 톺아보기) 간만에 블로그를 쓰는 것 같다...ㅋㅋㅋ 관심있게 지켜보고 있던 프로젝트인 Google Pathways가 4월 4일부로 벤치마크 결과가 공개되었다....!! 정확히는 Google의 목표는, 늘어나는 탄소 규제의 압박과 그로인해 DeepLearning 학습에 들어가는 환경문제와 싸우고 있었고, 정확히는 그것만을 위해 팀을 따로 꾸릴 정도였다. 그런 관점에서 TPU도 개발되었고, TPU에 대한 내용을 보다가 흥미로운 부분을 발견했다. https://arxiv.org/abs/1911.05289 The Deep Learning Revolution and Its Implications for Computer Architecture and Chip Design The past decade has seen a rem.. 2022. 4. 11.
Attention으로 Text 분석을 하자! - Structured-Self-Attentive 해당 아티클은, https://simonjisu.github.io/paper/2018/04/03/nsmcbidreclstmselfattn.html https://techy8855.tistory.com/8 을 참고하였으며, https://arxiv.org/pdf/1703.03130.pdf 논문에 기반합니다. 소스코드는, 기본 논문구현은 (GNUv3 라이센스 이므로, 작성된 소스는 해당 라이센스에 기반합니다.), https://github.com/ExplorerFreda/Structured-Self-Attentive-Sentence-Embedding 시각화는 (MIT 라이센스로, 상위 조건이 더 많은 GNUv3 라이센스를 따라간다고 생각하시면 되겠습니다.), https://github.com/kaushals.. 2022. 2. 3.
Time Forecasting에 있어 느낀, Attention의 한계 2021.04.19 - [논문으로 현업 씹어먹기] - LSTM Attention 이해하기 - 서론 LSTM Attention 이해하기 - 서론 BERT 서론 회사에서 TA관련한 프로젝트를 할 일이 생겼다. 내가 나중에 시간이 되면 올리겠지만, 이전 회사에서 TA 관련된 프로젝트를 2개 해본것이 있었는데, 1. 회사 상품 평판 분석 2. Encoder-Decoder shyu0522.tistory.com 미루고 미루다 드디어 작성하게 되는 것 같다. ㅋㅋ 여기서 더 미루면 내 기억속에서 사라질 것 같아서, 슬슬 정리하도록 한다. 지금까지 Attention을 TF ndarray로 직접 구현해보고, 실제로 사용하여 학습까지 진행해보면서, 느낀점을 서술해보겠다. 1. Attention은 1차원으로만 적용 가능하다.. 2021. 5. 25.
응~ 역전파 이해해야되~ - (Yes you should understand backprop / Andrej Karpathy) 요즘 개인적인 일로 너무 바빴다. 깐에 좋은 옷좀 입어보겠다고, 리바이스 LVC 청바지를 구매했는데, 배가 꽤나 나왔는가, 허리에 옷을 맞추니 통이 맞지가 않아서, 교환하는데도 한참 애먹고, 개인적인 약속 및 회식들로 갑작스럽게 저녁에 술먹을 일이 많아서, 글을 쓰지 못했었다. 읽어보기로는 저번주에 다 읽어놓은 내용인데, 오늘 정리하려니, 제대로 말이 써질까 모르겠다. (감정이 살아있을때 써야 블로그도 더 잘 써지는 것인데 말이지...) 오늘은, 이전에 한번 얘기했던, 2021.04.22 - [논문으로 현업 씹어먹기] - 딥러닝을 대하는 우리의 자세 - (A Recipe for Training Neural Networks / Andrej Karpathy) 딥러닝을 대하는 우리의 자세 - (A Recipe.. 2021. 5. 7.
728x90