本文介紹了讀取一行字符并獲取文件位置的處理方法,對大家解決問題具有一定的參考價值,需要的朋友們下面隨著小編來一起學習吧!
問題描述
我正在從文本文件中讀取連續的字符行。文件中字符的編碼可能不是單字節。
在某些情況下,我想要獲取下一行開始的文件位置,以便以后可以重新打開文件并快速返回到該位置。
問題
有沒有一種簡單的方法可以同時做到這兩點,最好使用標準的Java庫?
如果沒有,合理的解決方法是什么?
理想解的屬性
理想的解決方案是處理多個字符編碼。這包括UTF-8,在UTF-8中,不同的字符可以由不同的字節數表示。理想的解決方案在很大程度上依賴于一個值得信賴、得到良好支持的庫。最理想的是標準的Java庫。第二好的選擇是阿帕奇或谷歌的庫。該解決方案必須是可擴展的。將整個文件讀入內存不是解決方案。返回某個位置不應要求在線性時間內讀取所有先前字符。
詳細信息
對于第一個需求,BufferedReader.readLine()
很有吸引力。但緩沖顯然會干擾獲得有意義的文件位置。
不太明顯的是,InputStreamReader
也可能會提前讀取,從而干擾獲取文件位置。來自InputStreamReader documentation:
為了能夠有效地將字節轉換為字符,可能會從基礎流中提前讀取比滿足當前讀取操作所需的更多的字節。
方法RandomAccessFile.readLine()
reads a single byte per character。
通過獲取字符低位八位的字節值并將字符的高位八位設置為零,將每個字節轉換為字符。因此,此方法不支持完整的Unicode字符集。
推薦答案
如果從FileReader
構造BufferedReader
并保持FileReader
的實例可供代碼訪問,則應該能夠通過調用:
來獲取下一行的位置:
fileReader.getChannel().position();
在調用bufferedReader.readLine()
之后。
如果您愿意用性能收益換取位置精度,BufferedReader
可以用大小為1的輸入緩沖區來構造。
替代解決方案
自己跟蹤字節有什么錯:
long startingPoint = 0; // or starting position if this file has been previously processed
while (readingLines) {
String line = bufferedReader.readLine();
startingPoint += line.getBytes().length;
}
這將為您提供精確到您已經處理過的字節數,而不考慮底層標記或緩沖。您必須在統計中考慮行尾,因為它們是去掉的。
這篇關于讀取一行字符并獲取文件位置的文章就介紹到這了,希望我們推薦的答案對大家有所幫助,