오늘의 TIL
요기요 크롤러 버전 1.0 완성
제 github repo 에서 Yogiyo-Review-Crawling-with-Selenium 코드를 살펴볼 수 있습니다.
1차적으로 도중에 인터넷이 끊기더라도 계속해서 크롤링을 할 수 있도록 만들었습니다.
더 필요한 기능으로는 중복 데이터 처리와, 자동으로 좌표를 가져오는 geocoding 등이 있을 것 같습니다.
엘라스틱 서치 공부
현재 엘라스틱 서치와 키바나 등을 공부하면서 검색엔진을 구축해보려고 합니다.
한글관련 형태소를 잘 인식하게 한다거나, BM25등의 알고리즘을 통한 검색엔진 구축이 목표입니다.
이 엔진은 프로젝트에 사용될 예정입니다.
https://www.notion.so/ddce526ac45e46b3ab9e6999a4eac0a8
댓글남기기