#Apache.poi
2개의 포스트
-
2012-09-05
DocumentExtractor 의 기본 구조
국내 유명 업체의 문서추출기가 있겠지만, 굳이 hwp를 사용하지 않는다면 이용할 필요가 없다. 문서추출기(Document Extractor)에 대한 오픈소스가 많이 있지만 여기서 소개할 것은 Apache POI를 이용해서 좀더 쓰기 쉽게 만든 자바(java) 기반의 문서추출기인 [Document](https://github.com/AhnSeongHyun/DocumentExtractor)
-
2012-08-06
MS Office 문서 변환 명령어 정리.
최근에 문서파일 내 텍스트 추출에 대한 [오픈소스(Apache.POI)](http://poi.apache.org/)를 패키징해서 테스트 하던 중에 비정상적인 MS 2003-2007 문서에 대한 내용추출이 안되는 문제가 있었다. 오픈소스 자체의 한계인지도 모르겠지만, 찾은 대안중에 하나가 바로 이러한 문서들을 상위버전의 문서로 변환해서 내용을 추출하는 것이다. 즉, ppt, doc, xls