반응형
일전의 포스트와 마찬가지로 pdf 에서도 텍스트를 추출할 일이 생겼다.
당연하겠지만 해당 pdf는 ocr이 된 pdf를 기준으로만 추출이 가능하다.
1
2
3
4
5
6
|
<!-- https://mvnrepository.com/artifact/org.apache.pdfbox/pdfbox -->
<dependency>
<groupId>org.apache.pdfbox</groupId>
<artifactId>pdfbox</artifactId>
<version>2.0.24</version>
</dependency>
|
cs |
이야 1년쯤 전에는 2.0.18 이었는데 그새 버전업했네. 아무튼 maven repository는 이렇게 잡아주고
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
|
/*
* PDFBox library PDF text Extraction Example
*/
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
// 중략
try {
File file = new File("/Users/kimfish/DEV/java_workspace/"+"/test.pdf");
PDDocument document;
document = PDDocument.load(file);
PDFTextStripper s = new PDFTextStripper();
String content = s.getText(document);
System.out.println("===== docx text extractor =====");
System.out.println(content);
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
|
cs |
이렇게 하면 정상적으로 OCR 처리된 text가 추출된다.
반응형
'어장 Develop > 어장 JAVA' 카테고리의 다른 글
[Powershell] Java에서 powershell을 파라미터로 호출하기 (0) | 2022.10.11 |
---|---|
[hwplib] hwplib을 이용한 한글파일 텍스트 추출 (1) | 2022.07.06 |
[poi] java poi 를 활용한 엑셀/워드 텍스트 추출 (0) | 2022.07.04 |
[Tomcat 9.x] JNDI설정 (0) | 2022.02.21 |
[PDFBox] java Image to PDF (0) | 2021.08.24 |