티스토리 뷰

개인적으로 만들고 있는 프로그램에서 PDF 파일 내 텍스트를 가져와야하는 일이 있어서 사용했던 소스를 간략하게 정리해봅니다.

pdfbox를 사용해서 PDF 파일을 읽어올 것이기 때문에 pdfbox dependency를 추가하거나 jar를 받습니다.

https://mvnrepository.com/artifact/org.apache.pdfbox/pdfbox/2.0.19

		<dependency>
			<groupId>org.apache.pdfbox</groupId>
			<artifactId>pdfbox</artifactId>
			<version>2.0.19</version>
		</dependency>

사용법은 아주 간단합니다.

		String fileName = "2020_03.pdf";
		File source = new File(fileName);
		PDDocument pdfDoc = PDDocument.load(source);
		String text = new PDFTextStripper().getText(pdfDoc);
		System.out.println(text);

..

 

 

728x90