[pdf] 추출 불가능한 PDF에서 문자 뽑기, 단순 광학 해석 vs 조건부 변환 품질 차이

Adobe Acrobat Pro에 숨은 기능 있음. 스캔 PDF 열어서 도구→텍스트 인식→이 파일에서 실행 한 줄이면 끝. 한국어 인식률 꽤 높은 편.

전문툴로는 ABBYY FineReader 쓰는 사람들도 봄. 열어서 인식 언어 한글 체크하고 시작하면 레이아웃도 거의 그대로 유지해줌. 유료지만 인식률이 확실히 더 안정적.

GitHub에 올라간 ocrmypdf로 커맨드 한 줄만 써도 돼요. 백그라운드에서 tesseract 실행해서 PDF 위치 그대로 텍스트만 얹어줌. 직접 테스트해봤는데 이미지 기반 PDF여도 폰트가 뒤섞이지 않고 깔끔함.

아주 단순이면 그냥 PDF 한 장씩 PNG로 바꿔서 네이버 클로바 OCR 던지면 10초 만에 문자 부분 다 긁어줌. 포맷은 사라지지만 급할 때 빠른 선택지임.

추출 불가능한 PDF에서 문자 뽑기, 단순 광학 해석 vs 조건부 변환 품질 차이