어장 Develop/어장 JAVA
[PDFBox] pdf 텍스트 추출
김생선
2022. 7. 5. 10:59
반응형
일전의 포스트와 마찬가지로 pdf 에서도 텍스트를 추출할 일이 생겼다.
당연하겠지만 해당 pdf는 ocr이 된 pdf를 기준으로만 추출이 가능하다.
1
2
3
4
5
6
|
<!-- https://mvnrepository.com/artifact/org.apache.pdfbox/pdfbox -->
<dependency>
<groupId>org.apache.pdfbox</groupId>
<artifactId>pdfbox</artifactId>
<version>2.0.24</version>
</dependency>
|
cs |
이야 1년쯤 전에는 2.0.18 이었는데 그새 버전업했네. 아무튼 maven repository는 이렇게 잡아주고
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
|
/*
* PDFBox library PDF text Extraction Example
*/
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
// 중략
try {
File file = new File("/Users/kimfish/DEV/java_workspace/"+"/test.pdf");
PDDocument document;
document = PDDocument.load(file);
PDFTextStripper s = new PDFTextStripper();
String content = s.getText(document);
System.out.println("===== docx text extractor =====");
System.out.println(content);
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
|
cs |
이렇게 하면 정상적으로 OCR 처리된 text가 추출된다.
반응형