4월에 만지작 거리던 프로젝트를 11월 말에야 다시 열어보게 되었는데..
pdf 파일 내 텍스트 추출은 https://blog.taeseong.me/394에서 했던 대로 처리를 했지만
표 같은 양식이 있는 파일들은 텍스트를 파싱하기에 좀 어려움이 있어서 어떻게 해야하나 하다가
아래 방법으로 해결했습니다.
File source = new File(filePath);
PDDocument pdfDoc = PDDocument.load(source);
PDFTextStripper pts = new PDFTextStripper() {
@Override
protected void writeString(String text, List<TextPosition> textPositions) throws IOException {
writeString(text.trim() + "|");
}
};
String text = pts.getText(pdfDoc);
텍스트 출력을 위해 사용하는 PDFTextStripper에서 텍스트에 구분자를 붙이도록 처리한 방식입니다.
[JAVA] PDF to XLS (0) | 2020.04.09 |
---|---|
[JAVA] PDF 파일 텍스트 읽기 (0) | 2020.04.09 |
[JAVA] try-with-resources와 Multi-catch Exceptions (0) | 2016.08.27 |
[JAVA] 자바에서 자바스크립트 실행 (0) | 2016.02.17 |
[egov] 전자정부프레임워크로 인한 package javax.servlet.jsp.tagext does not exist 오류 (0) | 2015.08.05 |