Pages

October 11, 2013

TextTeaser - 오픈소스 긴 글 축약 알고리즘과 Summly

얼마전 Summly라는 영국의 10대가 설립한 벤처기업이 야후에 몇백억원정도로 인수가 되어서 화제가 된적이 있다. Summly가 제공하던 기능은 단순한 뉴스앱이 아닌 뉴스기사를 축약하여 한눈에 무슨 내용인지 알 수 있도록 했던 것이 핵심기능으로 알고 있다. 야후도 그 노하우를 높이사서 비싼 가격에 인수한 것 같다.

다음에 소개하는 내용은 긴 글의 내용을 축약해주는 알고리즘과 그것을 테스트 해볼 수 있는 사이트로  이 알고리즘은 긴 문장의 글을 입력하면 그것에 대한 간략한 요약 내용을 출력하는 알고리즘으로 Summly 라는 뉴스 기사 앱이 제공하던 그것과 비슷한 기능을 제공한다.





영어에 한정되어 있으며 소스코드도 공개되어 있고 (Scala로 구현되어 있는듯.) 원한다면 호스팅되어 있는 API를 Remote로 사용할 수 도 있다. 

좋은 결과를 얻기 위해 머신 러닝과 자연어 처리 알고리즘을 융합하여 처리하고 있다고 하는데 시간만 충분하다면 어떤식으로 이런 기능들이 구현이 되었는지 소스 코드를 들여다 보고 싶기도 하다. (Scala라는 프로그래밍 언어 조차도 잘 알지는 못하면서..)

한글로도 이런 쪽 연구가 얼마나 진행되고 있는지 궁금한데 연구 결과가 쓸만하다면 한국의 Summly 스타트업도 가능하지 않을까.


No comments:

Post a Comment