오늘의 TIL

 

 

토픽 모델링

대용량의 텍스트 자료를 체계적으로 처리하기 위해 텍스트를 의미의 기본단위 집합 (a set of textual features)으로 간주하고, 텍스트 데이터에 알고리즘을 적용하여 의미를 추정하는 통계적 기법들이 개발되었습니다.

비정형 텍스트 데이터 (unstructured text data)로부터 중요한 정보나 지식을 추출 해내는 대표적인 방법으로는 비지도 학습 (unsupervised learning methods)을 이용한 토픽 모델링 (topic modeling)이 있습니다. 특히, 2003 년 David Blei 연구팀에서 제시한 LDA 모형이 가장 널리 알려져 있으며, 그 외에 토픽 사이의 연관 관계를 반영한 CTM 모형과 문서의 메타데이터 정보를 추정할 수 있는 STM, DMR 모형이 있습니다.

LDA(잠재 디리클레 할당)는 gensim에서 제공하는 라이브러리로 손쉽게 구현할 수 있습니다.
현제는 토픽모델들에 대한 공부를 진행중에 있습니다.

토픽 모델링을 이전에 살펴보았던 음식 리뷰데이터에 적용하고 flask로 구동하는 앱을 만들어볼 생각입니다.

태그: ,

카테고리:

업데이트:

댓글남기기