Python과 확률12 자연어 처리를 위한 TF-IDF 막연하게 나이브 베이즈 분류로 무언가 주제를 잡으려고 하던 와중에, 조금 생각해보니 기왕이면 Counter 기반 말고, 문장과 단어를 더 잘 표현할 수 있는 방법이 무엇이 있을까? 하다가 잠깐 들르게 되었다. 일단 최초 목적은 Native Python으로 TF-IDF를 구현하려고 했던 것이 었으나, 간단하다면 간단할 수 있는 예제로도 Native Python은 시간이 너무 오래걸려 동작하지 않았다. from sklearn.datasets import fetch_20newsgroups newsdata = fetch_20newsgroups(subset='train') print(newsdata.keys()) 뉴스 카테고리 분류를 위한, 10000개정도 docs를 처리하는데도 한 세월 걸린다. 그도 그럴게, .. 2021. 12. 19. 조건부 확률부터 마르코프까지 - 2) 베이즈 정리 2021.12.14 - [Python과 확률] - 조건부 확률부터 마르코프까지 - 1) 조건부 확률과 독립 사건 조건부 확률부터 마르코프까지 - 1) 조건부 확률과 독립 사건 조건부 확률. 쉽고도 어렵다. 명확한 사건과 조건, 그리고 적은 상태와 그의 이행은 사실 손으로도 계산 해봄직 하다. 하지만, 현실은 그렇게 녹록지는 않은 법. 많아지면 손으로 하기는 엄두도 shyu0522.tistory.com 여기서 이어집니다. 이전에 조건부 확률과 독립, 종속 사건에 대해서 알아보았다. 조건부 확률을 통해, 마치, 사칙연산의 규칙처럼, 확률도 구하기 위한 각종 변형법이 존재하고, 연산의 규칙이 있다는 것을 알 수 있다. 그러면 이제 베이즈 정리를 이해할 수 있게 된 셈인데, 베이즈 정리는 한마디로는 이렇다. P.. 2021. 12. 16. 조건부 확률부터 마르코프까지 - 1) 조건부 확률과 독립 사건 조건부 확률. 쉽고도 어렵다. 명확한 사건과 조건, 그리고 적은 상태와 그의 이행은 사실 손으로도 계산 해봄직 하다. 하지만, 현실은 그렇게 녹록지는 않은 법. 많아지면 손으로 하기는 엄두도 안나거니와, 디버깅은 더더욱이 엄두도 안난다. 딥러닝을 함에 있어, 조건부 확률과 마르코프 체인은 기본 소양이어야 함을 알고있었다. 한 2년전에 진지하게 파봤던 적도 있고. 하지만 실제로 실무에 써보니, 조건부 확률이라는게 현업과 고객을 이해시키기에는 아득히 어려운 개념이었다. (내가 실무 담당자가 아닌 통계학 선생님이 된 기분이랄까...?) 겸사겸사 나도 다시 맥락을 좀 옳바르게 잡고, 잊어버리지 않기 위해 기록으로 남기며, 통계와 코딩이 믹스매치가 안되는 많은 실무 담당자들에게 힘이 되길 바란다. 독립과 종속에 .. 2021. 12. 14. 이전 1 2 다음 728x90