1種方法:
掃描儀掃出的PDF文件是圖像格式,想得到文本或word文檔,可以使用尚書(shū)等OCR軟件轉(zhuǎn)換。
什么是OCR?
OCR是英文Optical Character Recognition的縮寫(xiě),意思為光學(xué)字符識(shí)別,通稱為文字識(shí)別,它的工作原理為通過(guò)掃描儀或數(shù)碼相機(jī)等光學(xué)輸入設(shè)備獲取紙張上的文字圖片信息,利用各種模式識(shí)別算法分析文字形態(tài)特征,判斷出漢字的標(biāo)準(zhǔn)編碼,并按通用格式存儲(chǔ)在文本文件中,由此可以看出,OCR實(shí)際上是讓計(jì)算機(jī)認(rèn)字,實(shí)現(xiàn)文字自動(dòng)輸入。它是一種快捷、省力、高效的文字輸入方法。
常用OCR軟件(即能識(shí)別圖片中文字的軟件)有哪些?
有清華文通、漢王文豪、ABBYY FineReader OCR Professional 7.0、慧視小靈鼠、尚書(shū)OCR、漢王OCR、蒙怡OCR、丹青OCR等。
注意事項(xiàng):轉(zhuǎn)換后還需要手工對(duì)其進(jìn)行排版和校對(duì)工作,因?yàn)楝F(xiàn)在市面上這類軟件還沒(méi)有達(dá)到完全智能化,轉(zhuǎn)換率還沒(méi)有真正達(dá)到100%。有些OCR軟件可能不支持中文。
2種方法:
如果不想安裝OCR類軟件,那就安裝CAJ瀏覽器7.0版,這個(gè)軟件可以打開(kāi)PDF文件,最主要的是此瀏覽器有OCR(光學(xué)字符識(shí)別)功能,可以使用這一功能轉(zhuǎn)出圖片中的文字。
3種方法:
使用Pdf2all軟件轉(zhuǎn)換。Pdf2all 是一款PDF文件轉(zhuǎn)換工具,使用此軟件必須安裝Ghostscript和Postscript,運(yùn)行 pdf2all 安裝包,啟動(dòng) pdf2all 主程序。
Pdf2all軟件的下載地址:http://www.onlinedown.net/softdown/42274_2.htm
4種方法:
利用Office 2003中自帶的Microsoft Office Document Imaging工具。
使用方法: 第一步:首先使用Adobe Reader打開(kāi)待轉(zhuǎn)換的PDF文件,接下來(lái)選擇“文件→打印”菜單,在打開(kāi)的“打印”設(shè)置窗口中將“打印機(jī)”欄中的“名稱”設(shè)置為“Microsoft Office Document Image Writer”,確認(rèn)后將該P(yáng)DF文件輸出為MDI格式的虛擬打印文件。
編輯提示:如果你在“名稱”設(shè)置的下拉列表中沒(méi)有找到“Microsoft Office Document Image Writer”項(xiàng),那證明你在安裝Office 2003的時(shí)候沒(méi)有安裝該組件,請(qǐng)使用Office 2003安裝光盤(pán)中的“添加/刪除組件”更新安裝該組件。第二步:運(yùn)行Microsoft Office Document Imaging,并利用它來(lái)打開(kāi)剛才保存的MDI文件,選擇“工具→將文本發(fā)送到Word”菜單,并在彈出的窗口中勾選“在輸出時(shí)保持圖片版式不變”,確認(rèn)后系統(tǒng)提示“必須在執(zhí)行此操作前重新運(yùn)行OCR。這可能需要一些時(shí)間”,不管它,確認(rèn)即可。