PDF 파일, 다른 문서로 바꾸기
[IT동아 이상우 기자] PDF는 국제 표준 문서 포맷이다. 어떤 운영체제에서 어떠한 뷰어로 보든, 내용과 형식이 똑같은 문서를 볼 수 있는 것이 가장 큰 특징이다. 여기에 암호를 적용하면 외부인이 문서 내용을 마음대로 볼 수 없거나, 볼 수는 있지만 임의로 수정할 수 없게 만들 수 있다. 각종 미디어 파일을 삽입하거나 반응형 디자인(설문지처럼 숫자를 클릭할 수 있는 형태를 예로 들 수 있다)도 가능하다.
이러한 장점으로 인해 업무 시 유용하게 활용할 수 있다. 하지만, 정작 협력사나 타 부서에서 업무 요청을 위해 PDF 파일을 전달하면, 직접 수정하기 어려운 경우가 많아 난감할 것이다. 대학생이라면 과제를 위해서 특정 문단을 직접 인용하고 싶은데, 복사-붙여넣기가 되지 않아서 일일이 손으로 써넣은 기억도 있을 것이다. 물론 전문 PDF 편집 도구, 예를 들면 어도비 아크로뱃 등을 사용한다면 쉽게 수정하고 편집할 수 있겠지만, 이러한 소프트웨어는 상당히 비싸다. 이러한 사용자라면 오늘 소개하는 방법을 이용해 PDF 파일을 일반 문서로 바꿔서 사용해보자.
PDF 파일 그대로 워드 파일로 변환하기
마이크로소프트가 출시한 오피스 MS 오피스 2013은 PDF와 연계해 사용할 수 있는 대표적인 소프트웨어다. 이 중 MS 워드 2013은 PDF 파일을 고스란히 워드 파일로 변환할 수 있는 기능이 숨어있다. 사용 방법도 아주 간단하다. PDF 파일을 마우스 오른쪽 버튼으로 누른 뒤, 연결 프로그램에서 'Word(데스크톱)'이라는 항목을 선택하기만 하면 된다.
<마우스 오른쪽 버튼 클릭 – 연결 프로그램 – Word를 선택하면 PDF 파일을 손쉽게 워드 파일로 변환할 수 있다>
그림 파일은 삽입된 객체(그림)으로 인식되며, 문자는 거의 그대로 텍스트로 변환된다. 쉽게 말해 PDF 파일의 각 페이지가 MS 워드의 페이지로 옮겨진다는 의미다. 사내에서, 혹은 개인적으로 MS 오피스 2013을 구매해 사용하는 사람이라면 별도의 소프트웨어 없이도 PDF 파일을 수정할 수 있는 셈이다. 다만, 그래픽이 많은 PDF 파일의 경우 깨지는 일이 간혹 생길 수 있으며, 대화형 기능을 적용한 문서 역시 올바르게 변환되지 않는다.
참고로 이 기능은 오피스 2013 및 오피스 365에서 사용할 수 있다. 오피스 2013은 영구 라이선스, 오피스 365는 정액제 라이선스 방식으로 차이가 있지만, 두 제품의 기능은 크게 다르지 않다.
PDF 파일에서 텍스트만 추출하기
많은 사용자가 PDF 파일에서 텍스트만 복사해 다른 문서에 붙여 넣으려다가 좌절을 맛봤을 것이다. 대표적인 무료 PDF 뷰어, 어도비 리더의 경우 PDF 파일에서 텍스트만 추출하는 기능을 갖추고 있다. 하지만 이 기능으로 텍스트를 추출하면 띄어쓰기가 완전히 어긋나는 경우가 발생해, 직접 옮겨 쓰는 것보다 번거로울 때가 있다.
<어도비 리더의 텍스트 변환 기능. 다만, 띄어쓰기가 어긋나는 등의 문제가 생기기도 한다>
이 경우 역시 오피스 2013의 PDF to Word 기능을 이용하면 되지만, 이번에는 무료 소프트웨어 MS 원노트를 이용하는 방법을 알아보자. 현재 윈도7과 윈도8에서 사용할 수 있는 MS 원노트는 일반 사용자 혹은 교육기관에 한해 무료로 쓸 수 있으며, 기업 사용자의 경우 별도로 구매해야 한다(MS 오피스 패키지에 포함돼 있다).
<개인 및 교육기관에서 무료로 사용할 수 있는 MS 원노트>
MS 원노트에는 OCR(광학 문자 판독) 기능이 있다. 이 기능을 활용하면 이미지 파일에 들어있는 텍스트를 고스란히 출력할 수 있다. 다만, 이 기능을 활용하기 위해서는 PDF 파일을 이미지 파일 형태로 바꿔야 한다(PDF 파일에서도 텍스트를 추출할 수 있지만, 이 경우 오류가 자주 발생한다).
PDF 파일을 이미지 파일로 바꾸는 소프트웨어는 아주 많다. 필자가 이번에 사용한 소프트웨어는 'Free PDF to JPG Converter'로, 이름처럼 무료로 사용할 수 있으며, 사용 방법 역시 간단하다. 이 소프트웨어를 실행하고, PDF 파일을 불러와 변환 버튼을 누르기만 하면 된다.
<쉬운 사용 방법과 무료라는 점이 특징인 Free PDF to JPG Converter>
이미지 파일에서 텍스트를 더 정확하게 추출하고 싶다면 오른쪽 아래에 있는 품질(Quality) 항목을 100%까지 올리고, 해상도(Resolution) 항목을 높이면 된다. 페이지 수가 많은 PDF 파일에서 특정 부분만 이미지로 추출하려면 바로 위에 있는 페이지 범위(Page Range) 항목에서 시작 페이지 번호와 끝 페이지 번호를 입력하면 된다.
이미지 파일로 변환했으면, 해당 파일을 원노트에 붙여 넣어보자. 원노트 페이지 위에 해당 파일을 마우스로 끌어다 놓아도 되고, 이미지 파일 자체를 복사(Ctrl + V)한 뒤 페이지에 붙여 넣어도(Ctrl + V) 된다. 페이지에 삽입된 그림을 마우스 오른쪽 버튼으로 누르고 '그림에서 텍스트 복사'를 선택하면 아주 쉽게 텍스트만 추출할 수 있다. 이렇게 추출한 텍스트를 메모장 혹은 원노트 새 페이지에 붙여 넣으면 거의 완벽하게 텍스트가 복사된다. 만약 그림이 거의 없는, 텍스트 위주의 파일이라면 결과가 더 정확하다.
다수의 PDF 파일, 한 번에 변환하기
NesPDF는 개인 사용자가 무료로 쓸 수 있는 소프트웨어지만, PDF 파일 작성, 포맷 변환, 텍스트 추출 등 고급 유료 소프트웨어가 지원하는 기능 대부분을 갖췄다. 기업 사용자라면 회사에서 구비한 MS 오피스를, 일반 사용자라면 NesPDF를 사용하면 되겠다(물론 NesPDF 역시 기업에서 구매해 사용할 수도 있다).
NesPDF는 크게 PDF 파일을 작성 및 수정할 수 있는 NesPDF, 여러 개의 파일 포맷을 한 번에 변환하는 NesPDF 컨버터(Converter), 서로 다른 파일을 모아서 PDF 파일로 병합하는 NesPDF 드라이버(Driver) 등으로 구성돼 있다. 이 소프트웨어 하나만 있으면, 앞서 소개한 두 가지 기능을 모두 해결할 수 있다. 이번에는 PDF 파일을 다른 형식으로 변환해 사용하는데 초점을 맞춘 만큼, NesPDF 컨버터에 관해서만 소개한다.
NesPDF 컨버터를 실행하고, 변환할 PDF 파일을 불러온 뒤, 아래 항목에서 변환할 형식을 선택하기만 하면 모든 작업이 끝난다. PDF를 JPEG 등의 이미지로 바꾸고 싶다면 '이미지'를, 워드나 엑셀 등의 문서로 바꾸고 싶다면 각각 'Word'와 'Excel'을 선택하면 된다. 워드의 경우 변환 결과물이 아주 정확하고 양호하다. 엑셀은 원본과 비교해 약간 질이 떨어지기는 하지만, 충분히 쓸 수 있을만한 수준이다.
<다수의 PDF 파일 포맷을 한 번에 변환할 수 있는 NesPDF>
텍스트 파일로 변환하는 기능 역시 우수하다. 변환 설정에서 유니코드를 사용하는 텍스트 파일로 설정해 저장하면 띄어쓰기는 물론, 거의 모든 텍스트가 완벽하게 바뀐다. 다만, 이는 완벽하게 문자로만 이뤄진 PDF 파일의 경우며, 그림이나 사진이 섞여 있다면 중간 중간에 오류가 발생할 수도 있다.
NesPDF 컨버터의 가장 큰 특징은 여러 개의 PDF 파일을 한 번에 변환할 수 있다는 점이다. 다수의 파일을 불러온 뒤 변환 버튼을 누르기만 하면 지정한 형식으로 한 번에 바뀐다. 다만, 각 파일을 개별적인 포맷으로 변환할 수는 없고, 한 번에 한 종류의 변환 포맷만을 선택할 수 있다.
글 / IT동아 이상우(lswoo@itdonga.com)
※본 기사는 네이버 소프트웨어(http://software.naver.com)의 스페셜리뷰 코너에도 함께 연재됩니다.
- 해당 기사에 대한 의견은 IT동아 페이스북(www.facebook.com/itdonga)으로도 받고 있습니다.