LSTM Attention 이해하기

728x90

BERT

서론

회사에서 TA관련한 프로젝트를 할 일이 생겼다.

내가 나중에 시간이 되면 올리겠지만,

이전 회사에서 TA 관련된 프로젝트를 2개 해본것이 있었는데,

1. 회사 상품 평판 분석

2. Encoder-Decoder LSTM을 이용한 한글 문장 요약

이런 경험들이 프로젝트를 맡게된 이유가 아닐까 생각된다.

필자는 시간이 있다면, 공개된 알고리즘은 논문부터 소스까지 톺아보는 성격인지라, 모델을 까보게 됐는데, 사실 이전까지는 별로 Attention에 대한 이해도가 높진 않았고, 사용할 수 있는 정도였다.

(Encoder-Decoder 구성에서, 어떤 Dimension이 들어왔을때, 어떤 차원을 기준으로 Attention을 때리면, 뭐에대한 Score가 나온다 정도...?)

BERT를 심도있게 까보던 도중, 벡터의 내적과 cos 유사도에 대한 내용을 깨닫게 되었고, 보다보니 이게 문자열의 임베딩 벡터 뿐만아니라, 실제 정형 Dataset에도 적용하면, 만능으로 사용할 수 있지 않겠는가? 라는 생각이 들었다.

거기다 수요예측을 하고있던 찰나였기에, 겸사겸사 기존의 Reconstruct Auto Encoder로 작성되어있던 소스를 개선해볼 여지로 사용하기 위해, BERT를 잠시 덮어두고, 정형 다변수 Time-Series 회귀 문제에 적용하기 위해 Attention을 파기 시작했다.

사실 나도 컴퓨터공학이라, 선형대수와 확률과 통계에는 상대적으로 약한 편이었어서, 아티클들을 이해하는데 오랜 시간이 걸렸고, 나와 비슷한 경험 및 고민을 하고있는 사람들이 좀 더 쉽게 이해했으면 하는 마음에서, 쉽게 설명을 해보려고 한다. (최대한 비유에 입각해서?)

본론

사실 내가 가장 도움이 된 문서는 이렇다.

어텐션 기초 위키독스 : wikidocs.net/22893

위키독스

온라인 책을 제작 공유하는 플랫폼 서비스

wikidocs.net

어텐션을 소스로 구현한 예제들

diane-space.tistory.com/318?category=882603

[시계열] 케라스에서 Luong 어텐션을 활용한 seq2seq2 LSTM 모델 만들기 (번역)

원문 Building Seq2Seq LSTM with Luong Attention in Keras for Time Series Forecasting | by Huangwei Wieniawska | Level Up Coding (gitconnected.com) Building Seq2Seq LSTM with Luong Attention in Keras..

diane-space.tistory.com

www.tensorflow.org/tutorials/text/nmt_with_attention?hl=ko

어텐션을 사용한 인공 신경망 기계 번역 | TensorFlow Core

www.tensorflow.org

현재는 결국 최종적으로 바다나우 어텐션을 활용하고 있긴하다. (물론 이마저도 뭔가 학습이 잘 안되서 고생중이다...ㅎㅎ)

결론부터 이야기하면, Attention을 이용하여 Time-Series Forecasting을 하는 것은, 아직 시기상조이지 않나 사료된다.

2021년 04월. 현재 내가 찾아본 아티클, 레퍼런스 등을 조사해보면, 해외에서도 현재 되니, 안되니로 말이 많은 사안이고, Attention은 어떤 한 시점을 기준으로 유한한 '단어'를 학습시키기 위해 최적화 되어있고, 현실세계의 주가와같은 무한한 '실,정수' 예측 문제에서는 활용할 수 없다는 것이다.

해외 reddit을 좀 찾아본 결과, 사용하는 곳들도 있는 듯 하나, 대부분 %와 같은 상대적인 유한한 값으로 치환하여 사용한다던지 하는 형태로 활용하고 있나보더라....

매우 잘 커스터마이징하면 활용 가능하지 않을까 싶은데, 현업에 적용하기에는 안정성이라는 항목을 꼭! 고려해야 하기 때문에, 현재 필자는 적용 안할 예정이다. 참고하길 바란다.

찾아봤던 내용들은 정리하도록 하겠다

================================ 2021-05-25 수정, 찾아봤던 내용 정리.

2021.05.25 - [논문으로 현업 씹어먹기] - Time Forecasting에 있어 느낀, Attention의 한계

Time Forecasting에 있어 느낀, Attention의 한계

2021.04.19 - [논문으로 현업 씹어먹기] - LSTM Attention 이해하기 - 서론 LSTM Attention 이해하기 - 서론 BERT 서론 회사에서 TA관련한 프로젝트를 할 일이 생겼다. 내가 나중에 시간이 되면 올리겠지만, 이전

shyu0522.tistory.com

728x90

'논문으로 현업 씹어먹기' 카테고리의 다른 글

Time Forecasting에 있어 느낀, Attention의 한계 (8)	2021.05.25
응~ 역전파 이해해야되~ - (Yes you should understand backprop / Andrej Karpathy) (0)	2021.05.07
딥러닝을 대하는 우리의 자세 - (A Recipe for Training Neural Networks / Andrej Karpathy) (3)	2021.04.22
LSTM Attention 이해하기 - 어텐션 기초 (0)	2021.04.19
Dual-Stage Attention-Based RNN for Time Series Prediction (0)	2021.04.15

그 많던 Loss는 누가 다 먹었을까?

LSTM Attention 이해하기 - 서론

BERT

서론

결론부터 이야기하면, Attention을 이용하여 Time-Series Forecasting을 하는 것은, 아직 시기상조이지 않나 사료된다.

'논문으로 현업 씹어먹기' 카테고리의 다른 글

댓글

티스토리툴바

LSTM Attention 이해하기 - 서론

BERT

서론

결론부터 이야기하면, Attention을 이용하여 Time-Series Forecasting을 하는 것은, 아직 시기상조이지 않나 사료된다.

'논문으로 현업 씹어먹기' 카테고리의 다른 글

관련글

댓글

티스토리툴바