랭킹알고리즘 (1) 썸네일형 리스트형 갈아먹는 검색엔진 [1] 검색의 확률론(probabilistics information retrieval) 들어가며 우리가 하루도 거르지 않고 사용하는 IT 기술 중에는 어떤 것들이 있을까요? 메신저, SNS, 동영상 등도 떠오르지만 뭐니뭐니해도 검색을 빼놓을 수 없습니다. 조그마한 검색창을 통해서 우리는 웹 상의 방대한 문서들 중에 우리가 원하는 정보만 쏙쏙 골라서 얻을 수 있습니다. 그런데 이러한 검색이 어떻게 동작하는 걸까요? 큰 틀에서 검색 시스템을 구축하기 위해서는 다음과 같은 요소들과 대표적인 기술들은 아래와 같습니다. (1) 문서를 오지게 모아서 저장한다. (2) 원본 문서를 색인을 만들기 적합한 형태로 가공한다. (3) 색인을 만든다. (4) 사용자가 검색어를 입력하면, 검색어에 가장 알맞은 문서를 찾아서 보여준다. 문서의 수집이나 가공, 색인도 물론 흥미로운 주제들이지만, 이 포스팅에서 다뤄볼.. 이전 1 다음