프로젝트 기획
- 목표 : 개인이 주기적으로 작성하는 글 속에 존재하는 주된 감정(정서) 와 단어 추출
1. 데이터셋
- 개인 에세이 글
- 한국어 말뭉치
- 정신의학칼럼 - 크롤링
2. 활용방안
- 개인의 글을 넣었을 때, 그 사람의 글과 정서에 맞는 단어를 추출
- 새로운 글을 작성했을 때, 엔티티태깅된 결과를 보여줌
+) 실제로 그 글, 단어를 쓸 때 그 감정을 느꼈는지 인터뷰 / streamlit 을 통한 manual entity tagging 을 통해 정확도 개선 시도
3. 모델 아키텍쳐
- MultinomialNB : 다변량 범주형 나이브 베이즈 분류기
- 개인이 작성한 글을 넣고 감정을 분류하기 위해 사용
- LIMA : Local Interpretable Model Agnostic Explanation, 모델에 상관하지 않고 각 요소의 영향력 설명하는 라이브러리
- 분류에 도움이 된 주요 키워드 확보를 하기 위해 사용
- 단어 임베딩 값으로 주요 정서 단어와 유사한 상위 top100개 추출(?)
- 각 단어별 엔티티 부여
- [회사, 퇴근, 야근] - [짜증, 짜증, 짜증]
- bi-LSTM + CRF : 양방향 LSTM + (bilou등의) 조건부 엔티티
- 정의된 단어리스트를 활용하여, 문장 속 특정 단어의 엔티티를 달아주기 위해 사용
- 학습에 충분한 수준의 실제 개인의 글을 수집할 수 있는지 확인 필요