應該說,PDF文檔的規范性使得瀏覽者在閱讀上方便了許多,但倘若要從里面提取些資料,實在是麻煩的可以。
1、實現工具:Office 2003中自帶的Microsoft Office Document Imaging
應用情景:目前國外很多軟件的支持信息都使用PDF方式進行發布,如果沒有Adobe Reader,無法查看其內容,如果沒有相關的編輯軟件又無法編輯PDF文件。轉換為DOC格式則可以實現編輯功能。盡管有些軟件也可以完成PDF轉換為DOC的工作,但很多都不支持中文,我們利用Office 2003中的Microsoft Office Document Imaging組件來實現這一要求最為方便
使用方法:
第一步:首先使用Adobe Reader打開待轉換的PDF文件,接下來選擇“文件→打印”菜單,在打開的“打印”設置窗口中將“打印機”欄中的“名稱”設置為“Microsoft Office Document Image Writer”,確認后將該PDF文件輸出為MDI格式的虛擬打印文件。
編輯提示:如果你在“名稱”設置的下拉列表中沒有找到“Microsoft Office Document Image Writer”項,那證明你在安裝Office 2003的時候沒有安裝該組件,請使用Office 2003安裝光盤中的“添加/刪除組件”更新安裝該組件。
第二步:運行Microsoft Office Document Imaging,并利用它來打開剛才保存的MDI文件,選擇“工具→將文本發送到Word”菜單,并在bomb出的窗口中勾選“在輸出時保持圖片版式不變”,確認后系統提示“必須在執行此操作前重新運行OCR。這可能需要一些時間”,不管它,確認即可。
編輯提示:目前,包括此工具在內的所有軟件對PDF轉DOC的識別率都不是特別完美,而且轉換后會丟失原來的排版格式,所以大家在轉換后還需要手工對其進行后期排版和校對工作。
2、實現工具:Solid Converter PDF
應用情景:利用Office 2003中的Microsoft Office Document Imaging組件來實現PDF轉Word文檔在一定程度上的確可以實現PDF文檔到Word文檔的轉換,但是對于很多“不規則”的PDF文檔來說,利用上面的方法轉換出來的Word文檔中常常是亂碼一片。為了恢復PDF的原貌,推薦的這種軟件可以很好地實現版式的完全保留,無需調整,而且可以調整成需要的樣板形式。