4월에 만지작 거리던 프로젝트를 11월 말에야 다시 열어보게 되었는데..

pdf 파일 내 텍스트 추출은 https://blog.taeseong.me/394에서 했던 대로 처리를 했지만

표 같은 양식이 있는 파일들은 텍스트를 파싱하기에 좀 어려움이 있어서 어떻게 해야하나 하다가

아래 방법으로 해결했습니다.

File source = new File(filePath);
PDDocument pdfDoc = PDDocument.load(source);
PDFTextStripper pts = new PDFTextStripper() {
    @Override
    protected void writeString(String text, List<TextPosition> textPositions) throws IOException {
    	writeString(text.trim() + "|");
    }
};
String text = pts.getText(pdfDoc);

 

텍스트 출력을 위해 사용하는 PDFTextStripper에서 텍스트에 구분자를 붙이도록 처리한 방식입니다.

 

 

 

YOUR COMMENT IS THE CRITICAL SUCCESS FACTOR FOR THE QUALITY OF BLOG POST