ASH84

Software Engineer/Developer, co-founder of Payhere. Ex-Banksalad. Intereseted in iteroperability, bootstrap company, writting.

(강추)검색엔진 및 검색 프로젝트 관련 이야기

created:2013-05-13
updated:2013-05-13
edit

필자가 쓴 글은 아니지만 지인분께서(검색엔진 및 관련 검색 프로젝트 유경험자) 재밌게 쓰신 검색엔진 및 관련 프로젝트에 대한 이야기가 있어서 추천하고자 한다.(제목에 링크가 달려 있습니다.)


![](http://ash84.net/wp-content/uploads/1/cfile9.uf.2639B24B519091DB2ED5B9.png)
보기만 해도 좋지 아니한가.


검색 그리고 프로젝트 이야기 1부 

: 검색 프로젝트도 결국은 SI 프로젝트의 일부이다. 그럼에도 불구하고 다른 점을 필자는 서비스 오픈 후, 검색 품질에 대한 부분도 중요함을 이야기하면서 글은 시작된다. 검색엔진과 DBMS가 어디가 다른지를 이야기 하고 있다. 



검색 그리고 프로젝트 이야기 2부 1편 : 색인과 인덱스 

: 색인과 인덱스에 대해서 중점적으로 이야기 하고 있다. 색인은 무엇이며, (전화번호부에 비유하고있다.) 인덱스는 무엇인지. 사실 영어와 한글(한자어)의 차이임에도 불구하고 글쓴이는 색인은 인덱스를 만드는 과정, 인덱스는 색인의 결과물임을 정의하면서 이야기를 시작한다. 인덱스를 빨리 찾는 문제를 이야기하면서 정렬과 해쉬함수 그리고 B, B+ 트리에 대해서 (조금은 어려울수 있는) 이해하기 쉽게 설명해 주고 있다. 



검색 그리고 프로젝트 이야기 2부 2편 : 문자열 색인 기법

: 검색엔진은 문자열을 다루기 때문에 문자열 색인하는 방법에 대해서 설명하고 있는데 단순히 단어 – 문서ID 식이 아닌 그 과정에서 색인어를 변경하거나 블로그내 태그정보 같은 것들은 어떻게 색인해야하는지 프로젝트 경험을 기반으로 설명해 주고 있다. 



검색 그리고 프로젝트 이야기 2부 3편 : 문장 색인 기술

: 글쓴이는 문자열(단어)를 색인하는 단계를 벗어나서 문서를 이루는 문장을 색인하려면 어떻게 해야하는지 설명해 주고 있다. 기본적인 어절 기반의 방법을 제시하면서 로마자권에서 사용되는 Stemming(스태밍), like 검색을 지원하기 위한 NGram 방식을 설명하고 있다. 그러면서 동시에 NGram 의 문제점을 제시하고 있다. 

사실 시중에 검색엔진에 대한 이야기를 다룬 서적이나 책은 거의 없다. 대부분 학부 혹은 대학원 교재로 쓰이는 자연어 처리, 혹은 정보 검색 이론(Information Retrieval)에 대한 책이 대부분이다. 글쓴이는 검색엔진을 이루는 각각에 부분에 대해서 알기 쉽게 이야기해주고 있다. 현재 2부 3편까지 나온 상태이고, 다음 편은 한국어 검색엔진의 핵심인 형태소 분석에 대한 이야기를 준비중이라고 한다. 

*3편을 기대해도 좋을것 같다. *


#NGram  #Stemming  #검색 기술  #검색엔진  #구글  #구글 엔진  #정선생  #프로젝트 이야기  #형태소분석