본문 바로가기

분류 전체보기56

조건부 확률부터 마르코프까지 - 4) 마르코프 체인 2021.12.20 - [Python과 확률] - 조건부 확률부터 마르코프까지 - 3) 나이브 베이즈 분류 (근데 간단한) 조건부 확률부터 마르코프까지 - 3) 나이브 베이즈 분류 (근데 간단한) 2021.12.19 - [Python과 확률] - 자연어 처리를 위한 TF-IDF 자연어 처리를 위한 TF-IDF 막연하게 나이브 베이즈 분류로 무언가 주제를 잡으려고 하던 와중에, 조금 생각해보니 기왕이면 Counter 기반 말고, shyu0522.tistory.com 요놈과 함께보시면 더욱 재밌습니다. 아 하루에 알고리즘코테 2개, 딥러닝 코테준비 1개를 하려고 했는데, 도저히 마르코프 체인에서 납득이 안되서, 계속 파보고, 지인들에게 물어보는 시간들을 가지느라 드디어 아티클을 쓰게 되었다. 이번 글은 할말.. 2021. 12. 25.
조건부 확률부터 마르코프까지 - 3) 나이브 베이즈 분류 (근데 간단한) 2021.12.19 - [Python과 확률] - 자연어 처리를 위한 TF-IDF 자연어 처리를 위한 TF-IDF 막연하게 나이브 베이즈 분류로 무언가 주제를 잡으려고 하던 와중에, 조금 생각해보니 기왕이면 Counter 기반 말고, 문장과 단어를 더 잘 표현할 수 있는 방법이 무엇이 있을까? 하다가 잠깐 들르 shyu0522.tistory.com 여기서 이어집니다. tf-idf는 간단하게 위키에서 이전에 짰던 소스를 참고하여, 나이브 베이즈 분류기를 만들어 보도록 하겠다. 이 조건부 확률을 이용한 베이즈 정리의 파생은, 연속형 변수에도 가능하고, 지금 예제와는 다른 다항 출력에서도 적용 가능하다. 정말 귀인으로 예상되는 분의 사이트를 하나 발견했는데, 정리가 무척 잘 되어있다. (다만 수학식은 조건부 .. 2021. 12. 20.
자연어 처리를 위한 TF-IDF 막연하게 나이브 베이즈 분류로 무언가 주제를 잡으려고 하던 와중에, 조금 생각해보니 기왕이면 Counter 기반 말고, 문장과 단어를 더 잘 표현할 수 있는 방법이 무엇이 있을까? 하다가 잠깐 들르게 되었다. 일단 최초 목적은 Native Python으로 TF-IDF를 구현하려고 했던 것이 었으나, 간단하다면 간단할 수 있는 예제로도 Native Python은 시간이 너무 오래걸려 동작하지 않았다. from sklearn.datasets import fetch_20newsgroups newsdata = fetch_20newsgroups(subset='train') print(newsdata.keys()) 뉴스 카테고리 분류를 위한, 10000개정도 docs를 처리하는데도 한 세월 걸린다. 그도 그럴게, .. 2021. 12. 19.
조건부 확률부터 마르코프까지 - 2) 베이즈 정리 2021.12.14 - [Python과 확률] - 조건부 확률부터 마르코프까지 - 1) 조건부 확률과 독립 사건 조건부 확률부터 마르코프까지 - 1) 조건부 확률과 독립 사건 조건부 확률. 쉽고도 어렵다. 명확한 사건과 조건, 그리고 적은 상태와 그의 이행은 사실 손으로도 계산 해봄직 하다. 하지만, 현실은 그렇게 녹록지는 않은 법. 많아지면 손으로 하기는 엄두도 shyu0522.tistory.com 여기서 이어집니다. 이전에 조건부 확률과 독립, 종속 사건에 대해서 알아보았다. 조건부 확률을 통해, 마치, 사칙연산의 규칙처럼, 확률도 구하기 위한 각종 변형법이 존재하고, 연산의 규칙이 있다는 것을 알 수 있다. 그러면 이제 베이즈 정리를 이해할 수 있게 된 셈인데, 베이즈 정리는 한마디로는 이렇다. P.. 2021. 12. 16.
조건부 확률부터 마르코프까지 - 1) 조건부 확률과 독립 사건 조건부 확률. 쉽고도 어렵다. 명확한 사건과 조건, 그리고 적은 상태와 그의 이행은 사실 손으로도 계산 해봄직 하다. 하지만, 현실은 그렇게 녹록지는 않은 법. 많아지면 손으로 하기는 엄두도 안나거니와, 디버깅은 더더욱이 엄두도 안난다. 딥러닝을 함에 있어, 조건부 확률과 마르코프 체인은 기본 소양이어야 함을 알고있었다. 한 2년전에 진지하게 파봤던 적도 있고. 하지만 실제로 실무에 써보니, 조건부 확률이라는게 현업과 고객을 이해시키기에는 아득히 어려운 개념이었다. (내가 실무 담당자가 아닌 통계학 선생님이 된 기분이랄까...?) 겸사겸사 나도 다시 맥락을 좀 옳바르게 잡고, 잊어버리지 않기 위해 기록으로 남기며, 통계와 코딩이 믹스매치가 안되는 많은 실무 담당자들에게 힘이 되길 바란다. 독립과 종속에 .. 2021. 12. 14.
딥러닝 TA 모델 - BERT (1 - 기초. 행렬과 벡터, 내적) 이전 시간으로, STT(ESPNet)를 어느정도 시작부터 끝까지 다 설명한 것 같다. 시작할때는 이 많은 걸 언제 풀어쓰나, 걱정도 됬었지만, 결국 어느정도 잘 정리가 된 것 같았다. BERT는 현재 진행 중이며, 진행사항은 50%정도로, Pre-Training Model에 대한 실제 소스 분석과, Text 데이터 EDA와 전처리에 대한 고민(형태소+Wordpiece 적용 등), BERT 계열 모델들의 특성, 그리고 원래 BERT와는 소스적으로 무엇이 다른지 등등 앞단에서 벌어지는 부분들에 대한 분석이 완료 된 상태이다. 실제로 차주부터는 Fine-Tunning에 대한 고민들을 진행할 것이며, 예제들을 통한 소스 분석, 실제 자사 데이터로 문제 해결을 위한 PoC를 진행하고자 한다. (아마, 주제는 카테.. 2021. 11. 21.
딥러닝 STT 모델 - ESPNet (6 - Inference, Predict 시작!) 이번시간까지 정리를 하면, 얼추 STT는 종료가 되지 않을까 사료된다. 2021.10.25 - [딥러닝으로 하루하루 씹어먹기] - 딥러닝 STT 모델 - ESPNet (5 - 음성처리 도메인) 딥러닝 STT 모델 - ESPNet (5 - 음성처리 도메인) 지난 시간에는, 거의 딥러닝에 대한, ESPNet의 모델 아키텍쳐와 구조 흐름이 어떻게 흘러가고, 실제로 소스로 논문과 비슷하게 작성되어있는지 확인하는 작업까지 마쳤다. 글을 읽는 것 만으로는, shyu0522.tistory.com 기본적인 지식들, 기술에 대한 소개부터, Training, 음성에 대한 도메인을 다루었고, 모델을 사용해서 어떻게 예측할 것인가?에 대해서만 짚어보면, 더 이상 소개할 자료는 없을 걸로 판단된다. 이미 여기까지 진행을 해오면.. 2021. 11. 15.
딥러닝 STT 모델 - ESPNet (5 - 음성처리 도메인) 지난 시간에는, 거의 딥러닝에 대한, ESPNet의 모델 아키텍쳐와 구조 흐름이 어떻게 흘러가고, 실제로 소스로 논문과 비슷하게 작성되어있는지 확인하는 작업까지 마쳤다. 글을 읽는 것 만으로는, 길기도 길어서 보기 어렵고 난해할 수 있는데, 언제든지 질문은 환영이다! 2021.10.22 - [논문으로 현업 씹어먹기] - 딥러닝 STT 모델 - ESPNet (4 - Training 시작!) 딥러닝 STT 모델 - ESPNet (4 - Training 시작!) BERT 관련 프로젝트를 진행하면서 쓰려니, 왔다갔다 정신이 없다...ㅋㅋ 그래도 시간이 좀 되는거 같아 바로 이어서 가보도록 하자. 2021.10.21 - [논문으로 현업 씹어먹기] - 딥러닝 STT 모델 - ESPNet (3 shyu0522.tis.. 2021. 10. 25.
딥러닝 STT 모델 - ESPNet (4 - Training 시작!) BERT 관련 프로젝트를 진행하면서 쓰려니, 왔다갔다 정신이 없다...ㅋㅋ 그래도 시간이 좀 되는거 같아 바로 이어서 가보도록 하자. 2021.10.21 - [논문으로 현업 씹어먹기] - 딥러닝 STT 모델 - ESPNet (3 - 환경구성만 1 Article) 딥러닝 STT 모델 - ESPNet (3 - 환경구성만 1 Article) 오랜만에 블로그를 작성하는 것 같다. 최근에 서비스에 STT 모델을 학습시켜 사용해야하는 Task 때문에 정신이 없었다. 또한, 콜 예측 관련된 Task는 그냥 Base로 깔고가는 편이라, 너무 정신이 없었 shyu0522.tistory.com 서론 지난 시간에서 다뤘던 3가지 이야기들은, 1. ESPNet과 Kaldi의 설치 (Kaldi가 곁다리로 들어가면서 매우 복잡해.. 2021. 10. 22.
728x90