728x90
기본적으로 자연어중 한국어를 대상으로 자동 의미분석을 통해 상품평을 분류한다는 개념이다.
이 프로젝트는 2007년 여름 lab에서 시작한 프로젝트로 진호와 내가 거의 둘이서 진행한 프로젝트다.
당시 의욕도 없었고 진행상황도 좋지 않아서 방학이 끝남과 동시에 종결되었던 불운의 프로젝트였다.
그런데 2007년 10월에 서울대에서 같은 프로젝트로 논문이 나왔다.
분석률이 88%이상이라는데 분석 대상 문장이 64건 밖에 없었다.
(참고로 우리가 프로젝트 할 당시 분석한 대상만 해도 5000건이 넘었고 자동분석이 아니라 사람이 직접 분석을 한다고 해도
오타와 분석 불가능한 단어들을 무시하면 분석률이 50%가 되지 않는다.
개인적인 생각으로 맞춤법을 정확히 지키지 않는 상품평에서 분석률이 80%가 넘는다는 것은 사기행위이며 결과조작이다.)

뭐 그렇다는 이야기고.. 어쩌면 필요 없을지도 모르는 프로젝트를 다시 손대기 시작했다. 물론 제한사항이 많다.
형태소분석기를 국민대에서 개발한 것으로 끌어다쓰고 상품평 수집도 bb.co.kr사이트 하나로 제한하고 있다.
하지만 그것은 어디까지나 부수적인 내용일 뿐.. 상품평 수집은 어떠한 것을 하더라도 상관 없도록 일단 txt파일로 저장하기로 했다.
형태소 분석기는 일단 프로젝트가 어느정도 수준으로 올라가면 API를 이용해 다른 곳에서도 이용 가능하도록 시스템을 바꿔보도록 해야겠다.

문제는 프로젝트의 진행 방향이다. 상품평을 단순히 분석하는 것은 이미 서울대에서 선수를 쳤기 때문에 아무런 의미가 없다.
동사의 양극화 분류도 논문이 많이 있다. 내가 아직 거기까지 이해하지는 못하지만 참고해서 따라하면 많은 도움이 될 것 같다.
지금 발표된 자료는 구문분석을 통해서 문장에서 의미를 분석해 분류하는 방식인데 구문분석을 통하지 않고 하도록 노력해봐야 겠다. 구문분석기는 정확도가 떨어지기 때문이다.
(지금까지 발표되 구문분석기의 성능은 정확도 3~40%대로 알고 있다. 또다시 서울대의 사기성 분석률이 떠오른다.)
728x90

+ Recent posts