헉!!/jsp, java
[JAVA] pdfbox 텍스트 구분자 넣기
권태성
2020. 11. 21. 23:12
4월에 만지작 거리던 프로젝트를 11월 말에야 다시 열어보게 되었는데..
pdf 파일 내 텍스트 추출은 https://blog.taeseong.me/394에서 했던 대로 처리를 했지만
표 같은 양식이 있는 파일들은 텍스트를 파싱하기에 좀 어려움이 있어서 어떻게 해야하나 하다가
아래 방법으로 해결했습니다.
File source = new File(filePath);
PDDocument pdfDoc = PDDocument.load(source);
PDFTextStripper pts = new PDFTextStripper() {
@Override
protected void writeString(String text, List<TextPosition> textPositions) throws IOException {
writeString(text.trim() + "|");
}
};
String text = pts.getText(pdfDoc);
텍스트 출력을 위해 사용하는 PDFTextStripper에서 텍스트에 구분자를 붙이도록 처리한 방식입니다.
728x90