반응형
한컴오피스의 한글파일(hwp)에서 텍스트 추출할 일이 생겼다.
대충 뒤져보니 대단하신 분 께서 한글문서 파서 라이브러리를 만드셨는데, 아직까지도 일부기능에 대해 개선작업을 진행중이신 것 같다.
뭐 표 라거나 그림파일 등에 대해서는 정상동작하지 않는 듯 하지만 나는 텍스트만 추출할 것이기 때문에 당장은 문제없이 사용가능할것으로 보인다.
자세한 지원범위는 이 분의 깃으로 들어가보면 될 듯.
https://github.com/neolord0/hwplib
아무튼, 대충 임포트하고 대충 써보기로 한다. 생각보다 텍스트 추출이 아주 잘 되어서 다행이다.
1
2
3
4
5
6
|
<!-- https://mvnrepository.com/artifact/kr.dogfoot/hwplib -->
<dependency>
<groupId>kr.dogfoot</groupId>
<artifactId>hwplib</artifactId>
<version>1.0.1</version>
</dependency>
|
cs |
이렇게 잡아주고,
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
|
/*
* hwplib hwp document text extraction example
*/
import kr.dogfoot.hwplib.object.HWPFile;
import kr.dogfoot.hwplib.reader.HWPReader;
import kr.dogfoot.hwplib.tool.textextractor.TextExtractMethod;
import kr.dogfoot.hwplib.tool.textextractor.TextExtractor;
// 중략
HWPFile hwpFile;
String hwpText;
try {
hwpFile = HWPReader.fromFile("/Users/kimfish/DEV/java_workspace/"+"test.hwp");
hwpText = TextExtractor.extract(hwpFile, TextExtractMethod.InsertControlTextBetweenParagraphText);
System.out.println("===== hwp text extractor =====");
System.out.println("hwpText = " + hwpText);
} catch (Exception e) {
e.printStackTrace();
}
|
cs |
이렇게 쓰면 된다. 개꿀
반응형
'어장 Develop > 어장 JAVA' 카테고리의 다른 글
[SpringBoot] mybatis를 활용한 DB Connection (0) | 2024.02.21 |
---|---|
[Powershell] Java에서 powershell을 파라미터로 호출하기 (0) | 2022.10.11 |
[PDFBox] pdf 텍스트 추출 (0) | 2022.07.05 |
[poi] java poi 를 활용한 엑셀/워드 텍스트 추출 (0) | 2022.07.04 |
[Tomcat 9.x] JNDI설정 (0) | 2022.02.21 |