본문 바로가기

벌새::Computer & IT

PDF-XChange Viewer를 이용한 텍스트(txt) 추출하기

반응형
PDF 문서를 읽을 수 있는 프로그램으로 가장 유명한 제품이 Adobe Reader이지만, 대체 프로그램으로 유명한 제품 중에 Tracker Software 업체에서 제공하는 PDF-XChange Viewer가 있습니다.
이 제품 역시 여타 유명 PDF Reader 프로그램과 마찬가지로 기본적으로 무료 버전을 제공하면서 추가적인 편집과 관련된 기능은 유료 구입을 요구하고 있습니다.

하지만 무료 버전에서도 사용자가 PDF 문서에 쉽게 주석 처리 등을 할 수 있는 장점이 있고 유니코드(Unicode)를 잘 지원하는 등의 이유로 현재 사용하고 있습니다.
본론으로 들어와서 해당 프로그램을 통해 특정 PDF 문서를 열어서 컨텐츠에 포함된 특정 텍스트(txt) 단위를 추출하고 싶을 경우 어떻게 추출을 할 수 있는지 살펴보도록 하겠습니다.
먼저 특정 PDF 문서를 연 상태에서 메뉴의 [도구(Tools) - 기본 도구(Basic Tools) - 선택 도구(Select Tool)]를 선택합니다. 아니면 아이콘 메뉴 중에서 선택 도구를 선택해도 됩니다.
이제 자신이 원하는 텍스트 부분에 드래그(Drag) 방식으로 영역을 선택한 후 마우스 우클릭을 통해 생성된 하위 메뉴 중에서 [Copy As Plain Text] 항목을 선택하여 해당 텍스트 부분을 복사를 합니다. 또는 [Text Properties...] 항목을 선택을 하여 다음과 같은 창을 생성합니다.
[Text Properties] 창에서는 드래그를 통해 선택한 영역을 제시하고 있으며, 하단의 [Copy to Clipboard] 버튼을 클릭하여 복사를 할 수 있습니다.
이렇게 복사한 것을 메모장보다는 워드패드(WordPad)를 통해 붙여넣기를 하면 실제 PDF 문서에서 적용된 글꼴(Font)까지 상세히 적용하여 문서로 만들 수 있습니다.

PDF 문서는 그 자체가 하나의 이미지로 구성되어 있기에 특정 내용을 뽑는 방법은 스크린 샷을 통한 방법을 가장 흔히 이용을 하는데 위와 같이 특정 문구를 텍스트 단위로 추출을 할 수 있으므로 유용하게 사용하실 수 있습니다.
728x90
반응형