本文介紹了使用pdfbox,為什么可以提取文本,但不能提取圖像的處理方法,對大家解決問題具有一定的參考價值,需要的朋友們下面隨著小編來一起學習吧!
問題描述
我正在使用pdfbox從pdf中提取圖像和文本。我有以下提取文本的代碼:
PDFTextStripper p = new PDFTextStripper();
String thistext=p.getText(document);
,它正確地提取文本。然而,當我嘗試使用ExtractImages
類從同一個pdf中提取圖像時,生成的圖像是pdf的所有頁面,而不是實際的圖像。這是因為pdf可能是掃描的副本嗎?如果這是真的,為什么提取文本?
推薦答案
我認為它被掃描這一事實是您的問題。雖然我見過掃描的PDF檢測文本(并使其可突出顯示),但它仍然是一幅圖像。要檢驗這一假設,我會嘗試使用已知良好的PDF,例如this one。
這篇關于使用pdfbox,為什么可以提取文本,但不能提取圖像的文章就介紹到這了,希望我們推薦的答案對大家有所幫助,