개인적으로 만들고 있는 프로그램에서 PDF 파일 내 텍스트를 가져와야하는 일이 있어서 사용했던 소스를 간략하게 정리해봅니다.
pdfbox를 사용해서 PDF 파일을 읽어올 것이기 때문에 pdfbox dependency를 추가하거나 jar를 받습니다.
https://mvnrepository.com/artifact/org.apache.pdfbox/pdfbox/2.0.19
<dependency>
<groupId>org.apache.pdfbox</groupId>
<artifactId>pdfbox</artifactId>
<version>2.0.19</version>
</dependency>
사용법은 아주 간단합니다.
String fileName = "2020_03.pdf";
File source = new File(fileName);
PDDocument pdfDoc = PDDocument.load(source);
String text = new PDFTextStripper().getText(pdfDoc);
System.out.println(text);
..
[JAVA] pdfbox 텍스트 구분자 넣기 (0) | 2020.11.21 |
---|---|
[JAVA] PDF to XLS (0) | 2020.04.09 |
[JAVA] try-with-resources와 Multi-catch Exceptions (0) | 2016.08.27 |
[JAVA] 자바에서 자바스크립트 실행 (0) | 2016.02.17 |
[egov] 전자정부프레임워크로 인한 package javax.servlet.jsp.tagext does not exist 오류 (0) | 2015.08.05 |
댓글 영역