본문 바로가기

딥러닝으로 하루하루 씹어먹기30

HuggingFace Datasets Audio에서 이제 pcm을 지원합니다. 최근에 HuggingFace Datasets 중 Audio 부분에서 Contribute를 진행했습니다. KsponSpeech의 경우, Training Dataset이 PCM으로밖에 존재하지 않습니다. HuggingFace를 사용하던중 마침 Audio가 있길래 사용해보니, PCM은 지원이 되지 않더군요 https://github.com/huggingface/datasets/issues/4323 Audio can not find value["bytes"] · Issue #4323 · huggingface/datasets Describe the bug I wrote down _generate_examples like: but where is the bytes? Expected results value["byt.. 2022. 8. 15.
HuggingFace에서 kenlm 사용하기 정말 오랜만에 개발과 관련해서 글을 쓰는 것 같다. 요즘에 음향쪽 STT/TTS 프로젝트를 병렬로 뛰고 있는데, 프로젝트 관리하랴 코드 관리, 내 할당 개발 하려니 정말 정신이 없다. 그 동안 알아낸 점도 많아서 공유하고 싶은 점들이 정말 많은데, 가장 최근에 했는데, 상대적으로 레퍼런스가 없어보이는 kenlm을 사용하고, HuggingFace에서 ~~~ProcessorWithLM의 동작원리와 함께 사용하는 방법을 다뤄보고자 한다. 예시는 일단 Wav2Vec 2.0을 기준으로 사용하려 한다. KenLM https://github.com/kpu/kenlm GitHub - kpu/kenlm: KenLM: Faster and Smaller Language Model Queries KenLM: Faster an.. 2022. 8. 15.
BERT로 시계열 데이터 분류 Task는 할 수 있을까? (2 - Fine-Tuning을 LSTM으로 many-to-many 연결해보기) 2022.01.16 - [딥러닝으로 하루하루 씹어먹기] - BERT로 시계열 데이터 분류 Task는 할 수 있을까? (1 - 근무 시간표 예측?) BERT로 시계열 데이터 분류 Task는 할 수 있을까? (1 - 근무 시간표 예측?) 2021.05.25 - [논문으로 현업 씹어먹기] - Time Forecasting에 있어 느낀, Attention의 한계 Time Forecasting에 있어 느낀, Attention의 한계 2021.04.19 - [논문으로 현업 씹어먹기] - LSTM Attention 이해하기.. shyu0522.tistory.com 에서 이어집니다. 회사에선 회사일하느냐고, 진행이 매우 느린점은 양해바란다. (그래도 내가 개인적으로 너무 궁금하고 해보고 싶어서, 최대한 열심히 해보는중.. 2022. 1. 17.
BERT로 시계열 데이터 분류 Task는 할 수 있을까? (1 - 근무 시간표 예측?) 2021.05.25 - [논문으로 현업 씹어먹기] - Time Forecasting에 있어 느낀, Attention의 한계 Time Forecasting에 있어 느낀, Attention의 한계 2021.04.19 - [논문으로 현업 씹어먹기] - LSTM Attention 이해하기 - 서론 LSTM Attention 이해하기 - 서론 BERT 서론 회사에서 TA관련한 프로젝트를 할 일이 생겼다. 내가 나중에 시간이 되면 올리겠지만, 이전 shyu0522.tistory.com 과거에 Attention으로, lstm encoder-decoder를 이용하여, 시계열 예측을 진행하다가, 현타와서 적어놓았던 글이다. 지금와서 생각해보면, 안될 일도 아닌 것 같다는 생각이 든다. 그때는 encoder와 decode.. 2022. 1. 16.
딥러닝 TA 모델 - BERT (6 - BERT의 파생 (ALBERT, RoBERTa)) 2022.01.11 - [딥러닝으로 하루하루 씹어먹기] - 딥러닝 TA 모델 - BERT (5-4 - run_pretraining (Optimizer)) 딥러닝 TA 모델 - BERT (5-4 - run_pretraining (Optimizer)) 2022.01.10 - [딥러닝으로 하루하루 씹어먹기] - 딥러닝 TA 모델 - BERT (5-3 - run_pretraining (NLLloss(masked_lm, NSP))) 딥러닝 TA 모델 - BERT (5-3 - run_pretraining (NLLloss(masked_lm, NSP))) 2022.01... shyu0522.tistory.com 에서 이어집니다. 여기까지 진행했으면, 기본적인 BERT의 pre training과정에 대해서 알아보았다. .. 2022. 1. 14.
딥러닝 TA 모델 - BERT (5-4 - run_pretraining (Optimizer)) 2022.01.10 - [딥러닝으로 하루하루 씹어먹기] - 딥러닝 TA 모델 - BERT (5-3 - run_pretraining (NLLloss(masked_lm, NSP))) 딥러닝 TA 모델 - BERT (5-3 - run_pretraining (NLLloss(masked_lm, NSP))) 2022.01.08 - [딥러닝으로 하루하루 씹어먹기] - 딥러닝 TA 모델 - BERT (5-2 - run_pretraining (Transformer Encoder-Pooler)) 딥러닝 TA 모델 - BERT (5-2 - run_pretraining (Transformer Encoder-Pooler)) 20.. shyu0522.tistory.com 에서 이어집니다. 이전 시간까지는 뭔가 현실에서 비유해볼 .. 2022. 1. 11.
딥러닝 TA 모델 - BERT (5-3 - run_pretraining (NLLloss(masked_lm, NSP))) 2022.01.08 - [딥러닝으로 하루하루 씹어먹기] - 딥러닝 TA 모델 - BERT (5-2 - run_pretraining (Transformer Encoder-Pooler)) 딥러닝 TA 모델 - BERT (5-2 - run_pretraining (Transformer Encoder-Pooler)) 2022.01.08 - [딥러닝으로 하루하루 씹어먹기] - 딥러닝 TA 모델 - BERT (5-1 - run_pretraining (Embedding)) 딥러닝 TA 모델 - BERT (5-1 - run_pretraining (Embedding)) 2022.01.07 - [딥러닝으로 하루하루 씹.. shyu0522.tistory.com 에서 이어집니다. 지난 시간까지, Transformer Encod.. 2022. 1. 10.
딥러닝 TA 모델 - BERT (5-2 - run_pretraining (Transformer Encoder-Pooler)) 2022.01.08 - [딥러닝으로 하루하루 씹어먹기] - 딥러닝 TA 모델 - BERT (5-1 - run_pretraining (Embedding)) 딥러닝 TA 모델 - BERT (5-1 - run_pretraining (Embedding)) 2022.01.07 - [딥러닝으로 하루하루 씹어먹기] - 딥러닝 TA 모델 - BERT (4 - create_pretraining_data) 딥러닝 TA 모델 - BERT (4 - create_pretraining_data) 2022.01.06 - [딥러닝으로 하루하루 씹어먹기] - 딥.. shyu0522.tistory.com 에서 이어집니다. 지난 시간에, Transformer에 입력으로 사용할 embedding 까지 만들어보았다. 이제 실제로 Layer를.. 2022. 1. 8.
딥러닝 TA 모델 - BERT (5-1 - run_pretraining (Embedding)) 2022.01.07 - [딥러닝으로 하루하루 씹어먹기] - 딥러닝 TA 모델 - BERT (4 - create_pretraining_data) 딥러닝 TA 모델 - BERT (4 - create_pretraining_data) 2022.01.06 - [딥러닝으로 하루하루 씹어먹기] - 딥러닝 TA 모델 - BERT (3 - data_preprocess, BPE) 딥러닝 TA 모델 - BERT (3 - data_preprocess, BPE) 2022.01.05 - [딥러닝으로 하루하루 씹어먹기] - 딥러닝 T.. shyu0522.tistory.com 에서 이어집니다. 이제 대망의 pre-training 시간이 도래했다. (사람으로 따지면, 단어장과 학습지가 있으니, 실제로 풀어보면서 공부할 시간!) fin.. 2022. 1. 8.
728x90