728x90
이제 수집한 평가들을 제목과 내용을 다른 파일에 나누어 저장했다.
한 사이트에서 디지털 카메라에 대한 내용이 2150건 문장이 7972건으로 나왔다. 정확하게 counting되었다고 볼수는 없다. 하지만 대략적인 갯수는 알 수 있다.
이제 이것을 형태소 분석기를 거쳐나온 결과를 분석해야 한다. 형태소 분석기는 국민대 강승식 교수님의 KMA로 시도했다. 그런데 이사람 2007년 이후에는 새로운 결과물을 반드시 낼 것이라고 생각했는지 2008년에는 결과가 안나오도록 조정해놨다. 그래서 귀찮지만 형태소 분석기를 사용할 때는 시스템 시간을 과거로 맞춰놓고 사용한다. 나중에 이 문제는 해결해야 겠다.
예전에 프로젝트를 할 때는 아무런 옵션도 주지 않고 그대로 사용해서 많이 지저분했는데 옵션 몇개만 추가하니 비교적 깔끔한 결과가 나왔다.
이것을 중요한 형태소(N, K, V)만 따로 분류하여 각각 파일에 저장하였다. 이 부분은 현재 if문으로 되어 있는데
방향을 좀더 생각해보고 case- when 구문으로 수정할 계획이다.
지금부터가 문제다. 분석된 N,K의 명사들을 가지고..(참 C도 복합명사로 분류해야 겠다...)

이 부분까지는 쉽게 왔다. 이제부터가 새로운 시작이다. 예전의 프로젝트는 쓰기 곤란할 정도로 엉망이었다. 억지로 사전을 만든 다음 거기에 운좋게 걸리면 분석하는 식이었다. 지금부터는 관심 단어를 추출하는 것부터 시작해야 겠다. 그 다음엔 동사의 극성화 분석.
마지막으로 명사와 동사로 일부 구문분석을 하는 것이다.
1. 핵심단어(명사) 추출
2. 동사의 극성화
3. 극성화를 토대로 한 구문분석

이중 1번만 제대로 되어도 활용할 분야가 많다. 웹상에서 각 페이지의 관심단어들을 추출해서 웹검색에 활용하는 것, 여러 페이지들의 주제를 분석하여 해당 부분, 사이트, 기간 별로 관심주제를 추출하는 것, 관심이 집중되는 내용들을 수집하여 다시 검색한 다음 사용자에게 자동으로 RSS를 보내주는 것등 다양한 방면으로 활용이 가능하다. (이런 식으로 취업에 관한 사이트들을 등록시키고 취업에서 중요시하는 단어들을 가져올 수도 있다.)
일단 1번을 향해서 나가자
728x90

+ Recent posts