本文介紹了使用pdfbox,為什么可以提取文本,但不能提取圖像的處理方法,對大家解決問題具有一定的參考價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)吧!
問題描述
我正在使用pdfbox從pdf中提取圖像和文本。我有以下提取文本的代碼:
PDFTextStripper p = new PDFTextStripper();
String thistext=p.getText(document);
,它正確地提取文本。然而,當(dāng)我嘗試使用ExtractImages
類從同一個pdf中提取圖像時,生成的圖像是pdf的所有頁面,而不是實(shí)際的圖像。這是因?yàn)閜df可能是掃描的副本嗎?如果這是真的,為什么提取文本?
推薦答案
我認(rèn)為它被掃描這一事實(shí)是您的問題。雖然我見過掃描的PDF檢測文本(并使其可突出顯示),但它仍然是一幅圖像。要檢驗(yàn)這一假設(shè),我會嘗試使用已知良好的PDF,例如this one。
這篇關(guān)于使用pdfbox,為什么可以提取文本,但不能提取圖像的文章就介紹到這了,希望我們推薦的答案對大家有所幫助,