본문 바로가기

전체 글56

TrOCR: Transformer-based Optical Character Recognition with Pre-trained Models 모델을 이것저것 경험해보는 것을 무척이나 좋아하는 편이라, 회사에서 중간 의사결정권자로써 많은 모델들을 개발해보려고 노력하고있다. 와중에 OCR Task가 생겨서 진행해봤던 논문인 TrOCR을 한번 리뷰해보고자 한다. VALL-E는 구현체도 없고 내용도 조금은 어려울 수 있어서 거의 직역에 가까운 리뷰를 진행했는데, 이번 TrOCR은 HuggingFace에서 간단하게 사용해볼 수 있고, 논문 리뷰 전에 한번 사용해보니 Pre-Trained Image Transformer Encoder + Pre-Trained Transformer De(En)coder Causal(Masked)LM 의 구조를 띄고 있는거라, 논문에 앞서 한번 상상해보면, 1) Image Transformer를 손글씨로 학습함. 2) Te.. 2023. 1. 24.
[VALL-E] Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers 리뷰 - (8~12/12 Page.) 2023.01.23 - [논문으로 현업 씹어먹기] - [VALL-E] Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers 리뷰 - (5~7/12 Page.) [VALL-E] Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers 리뷰 - (5~7/12 Page.) 2023.01.16 - [논문으로 현업 씹어먹기] - [VALL-E] Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers 리뷰 - (1~4/12 Page.) [VALL-E] Neural Codec Language Models .. 2023. 1. 23.
[VALL-E] Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers 리뷰 - (5~7/12 Page.) 2023.01.16 - [논문으로 현업 씹어먹기] - [VALL-E] Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers 리뷰 - (1~4/12 Page.) [VALL-E] Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers 리뷰 - (1~4/12 Page.) 3초만을 가지고 TTS를 할 수 있고, 심지어 잘된다. GPT3의 Incontext-Learning에서 영감을 받았다고 한다. Language Modeling이다. 다만 TTS FrameWork를 사용했을뿐. 일단 읽으면서 되는데로 정리를 할 예정이라 shyu0522.tistory.com 여기서 이어.. 2023. 1. 23.
[VALL-E] Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers 리뷰 - (1~4/12 Page.) 3초만을 가지고 TTS를 할 수 있고, 심지어 잘된다. GPT3의 Incontext-Learning에서 영감을 받았다고 한다. Language Modeling이다. 다만 TTS FrameWork를 사용했을뿐. 일단 읽으면서 되는데로 정리를 할 예정이라 얼마나 길어질지 모르겠다. 오늘까지 리딩으로 먼저 읽어보면 좋을 논문 1. AudioLM(vocoder없는 speech to speech 모델링을 위한 Spectrogram 표현 기법) : https://arxiv.org/abs/2209.03143 AudioLM: a Language Modeling Approach to Audio Generation We introduce AudioLM, a framework for high-quality audio gen.. 2023. 1. 16.
선형대수 행렬 기초적인 내용들 정리 - (Singular Values and Vector (특이값, 특이벡터)) 2022.07.03 - [Python과 확률] - 선형대수 행렬 기초적인 내용들 정리 - (대각, 항등, 직교, Eigen(고유), 대칭) 선형대수 행렬 기초적인 내용들 정리 - (대각, 항등, 직교, Eigen(고유), 대칭) 경력이 늘어난다는 것은, 어떻게 보면 필드에서의 노하우가 많이 생기며, 다양한 실생활적인 리스크를 피해가는 지식은 쌓이는 것 같다. 근데 계속 학문을 정진하지 않으면, 결국 기초적인 논리 shyu0522.tistory.com 이전 시간에, 특이값과 특이벡터를 구하기 위한 여러 벡터들의 성질과 특성을 살펴보고, 특이값과 특이벡터가 왜 필요하고 중요할지 살짝 생각해보는 시간까지 진행을 했었습니다. 근데 옛날에도 봤을때, 당장에 모든 상황이 정방행렬처럼 주어지지는 않을건데, 어떻게 고.. 2022. 8. 15.
HuggingFace Datasets Audio에서 이제 pcm을 지원합니다. 최근에 HuggingFace Datasets 중 Audio 부분에서 Contribute를 진행했습니다. KsponSpeech의 경우, Training Dataset이 PCM으로밖에 존재하지 않습니다. HuggingFace를 사용하던중 마침 Audio가 있길래 사용해보니, PCM은 지원이 되지 않더군요 https://github.com/huggingface/datasets/issues/4323 Audio can not find value["bytes"] · Issue #4323 · huggingface/datasets Describe the bug I wrote down _generate_examples like: but where is the bytes? Expected results value["byt.. 2022. 8. 15.
HuggingFace에서 kenlm 사용하기 정말 오랜만에 개발과 관련해서 글을 쓰는 것 같다. 요즘에 음향쪽 STT/TTS 프로젝트를 병렬로 뛰고 있는데, 프로젝트 관리하랴 코드 관리, 내 할당 개발 하려니 정말 정신이 없다. 그 동안 알아낸 점도 많아서 공유하고 싶은 점들이 정말 많은데, 가장 최근에 했는데, 상대적으로 레퍼런스가 없어보이는 kenlm을 사용하고, HuggingFace에서 ~~~ProcessorWithLM의 동작원리와 함께 사용하는 방법을 다뤄보고자 한다. 예시는 일단 Wav2Vec 2.0을 기준으로 사용하려 한다. KenLM https://github.com/kpu/kenlm GitHub - kpu/kenlm: KenLM: Faster and Smaller Language Model Queries KenLM: Faster an.. 2022. 8. 15.
선형대수 행렬 기초적인 내용들 정리 - (대각, 항등, 직교, Eigen(고유), 대칭) 경력이 늘어난다는 것은, 어떻게 보면 필드에서의 노하우가 많이 생기며, 다양한 실생활적인 리스크를 피해가는 지식은 쌓이는 것 같다. 근데 계속 학문을 정진하지 않으면, 결국 기초적인 논리를 놓치게 되며, 전반적인 기술적 흐름을 놓치게 되는 것 같다. 물론, 까먹는 것이 잘못은 아니지만, 적어도 다시 찾아보는데 시간을 줄이기 위해, 기본적인 내용들은 정리를 해놓을까 싶다. 좋은 강의: https://www.youtube.com/playlist?list=PLUl4u3cNGP61iQEFiWLE21EJCxwmWvvek A 2020 Vision of Linear Algebra, Spring 2020 Instructor: Gilbert Strang View the complete course: https://ocw.. 2022. 7. 3.
최신 AI Trend - Google의 Pathways (2 - Paper 리뷰) 여기서 이어집니다. 2022.04.11 - [논문으로 현업 씹어먹기] - 최신 AI Trend - Google의 Pathways (1 - 역사와 톺아보기) 최신 AI Trend - Google의 Pathways (1 - 역사와 톺아보기) 간만에 블로그를 쓰는 것 같다...ㅋㅋㅋ 관심있게 지켜보고 있던 프로젝트인 Google Pathways가 4월 4일부로 벤치마크 결과가 공개되었다....!! 정확히는 Google의 목표는, 늘어나는 탄소 규제의 압박과 shyu0522.tistory.com 논문이 4월 7일에 공개가 되었다. https://arxiv.org/abs/2204.02311 PaLM: Scaling Language Modeling with Pathways Large language models h.. 2022. 4. 13.
728x90