[PDFBox] pdf 텍스트 추출

어장 Develop/어장 JAVA 2022. 7. 5. 10:59

일전의 포스트와 마찬가지로 pdf 에서도 텍스트를 추출할 일이 생겼다.

당연하겠지만 해당 pdf는 ocr이 된 pdf를 기준으로만 추출이 가능하다.

1
2
3
4
5
6

<!-- https://mvnrepository.com/artifact/org.apache.pdfbox/pdfbox -->
<dependency>
  <groupId>org.apache.pdfbox</groupId>
  <artifactId>pdfbox</artifactId>
  <version>2.0.24</version>
</dependency>
Colored by Color Scripter

cs

이야 1년쯤 전에는 2.0.18 이었는데 그새 버전업했네. 아무튼 maven repository는 이렇게 잡아주고

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

/*
* PDFBox library PDF text Extraction Example
*/
 
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;
 
// 중략
 
try {
    File file = new File("/Users/kimfish/DEV/java_workspace/"+"/test.pdf");
    PDDocument document;
    document = PDDocument.load(file);
 
    PDFTextStripper s = new PDFTextStripper();
    String content = s.getText(document);
 
    System.out.println("===== docx text extractor =====");
    System.out.println(content); 
} catch (IOException e) {
    // TODO Auto-generated catch block
    e.printStackTrace();
}
Colored by Color Scripter

cs

이렇게 하면 정상적으로 OCR 처리된 text가 추출된다.

저작자표시 비영리 변경금지 (새창열림)

'어장 Develop > 어장 JAVA' 카테고리의 다른 글

[Powershell] Java에서 powershell을 파라미터로 호출하기 (0)	2022.10.11
[hwplib] hwplib을 이용한 한글파일 텍스트 추출 (1)	2022.07.06
[poi] java poi 를 활용한 엑셀/워드 텍스트 추출 (2)	2022.07.04
[Tomcat 9.x] JNDI설정 (0)	2022.02.21
[PDFBox] java Image to PDF (0)	2021.08.24

김생선

세상의 모든것을 어장관리

[PDFBox] pdf 텍스트 추출

'어장 Develop > 어장 JAVA' 카테고리의 다른 글

공지사항

카테고리

김생선

LATEST FROM OUR BLOG

LATEST COMMENTS

BLOG VISITORS

티스토리툴바