728x90

방학 중 lab에서 교수님의 권유로 시작한 프로젝트. 연구생들 모두 언어처리에 관련된 프로젝트를 시행해 보라는 반 강제적인 권유였다.
그 중에서 한국어 분석분야인 상품평 분석은 주제 자체가 어렵고 시스템의 완성도를 평가하기가 힘들다는 이유로 다들 기피했고 결국 나와 진호가 해보자고 붙었다.
한국어라 하더라도 기사나 발표자료 같이 문법에 맞는 글을 할만하지만 은어와 신조어 사용이 빈번한 인터넷 상품평을 분류하고 분석한다는 것은 정말 끔찍한 일이었다.
하지만 제대로 되기만 한다면 상당히 좋은 자료가 될 것 같다.
2007년 여름방학 때 시도학 프로젝트였는데 그때 lab에서는 스크립트 언어를 공부해보자면서 ruby언어 책을 사고 공부를 막 시작하고 있었다. 문자열처리에 상당히 강력한 ruby를 이용하여 구현시간을 많이 단축하였으나 알고리즘이 없어 시도가능한 방법은 다 사용해봤다. 나중엔 지쳐서 어떻게든 중간 결과가 눈에 보이도록만 하자는 심정으로 결과를 JSP로 출력하도록 했다.

네트워크를 통해 자료를 가져오는데 시간이 상당히 걸린다. 자료를 분석하고 분류하는데도 시간이 걸리지만 페이지의 내용을 가져오는데 걸리는 시간을 단축하면 시스템의 효율이 많이 높아질 것 같다. (이 부분은 희용이형이 만든 프로그램을 사용했다. 여러 페이지의 내용을 가져와야 하기 때문에 한번에 하나의 페이지를 가져오는 것이 아니라 여러 페이지의 내용을 동시에 가져올 수 있으면 훨씬 빨라질 것으로 보인다.)

우선 중간 결과까지 데모했지만 자연어처리의 문제점들만 잔뜩 찾아내고 진전이 없었다. 하지만 어떠한 문제들이 있는지 알았으니 다음 프로젝트에서는 그것을 기반으로 다시 일어설 수 있을 것이다.
이 프로젝트를 이어서 시작한 것이 CommentScop다. 하지만 여러가지 이유로 진행시키지 못하고 있다는...

728x90

+ Recent posts