今天給大家介紹一個小知識點,但是會非常的實用,就是平時我們寫JAVA代碼的時候,如果要對字符串進行切割,我們巧妙的運用一些技巧,可以把性能提升5~10倍。下面不說廢話,直接來給大家上干貨!
工作中常用的split()切割字符串效率高嗎?
首先,我們用下面的一段代碼,去拼接出來一個用逗號分隔的超長字符串,把從0開始一直到9999的每個數字都用逗號分隔,拼接成一個超長的字符串,以便于我們可以進行實驗,代碼如下所示:
public class StringSplitTest {
public static void main(String[] args) {
String string = null;
StringBuffer stringBuffer = new StringBuffer();
int max = 10000;
for(int i = 0; i < max; i++) {
stringBuffer.Append(i);
if(i < max - 1) {
stringBuffer.append(",");
}
}
string = stringBuffer.toString();
}
}
接著我們可以用下面的代碼來測試一下,如果用最基礎的split方法來對超長字符串做切割,循環切割1w次,要耗費多長時間,看如下代碼測試:
public class StringSplitTest {
public static void main(String[] args) {
String string = null;
StringBuffer stringBuffer = new StringBuffer();
int max = 10000;
for(int i = 0; i < max; i++) {
stringBuffer.append(i);
if(i < max - 1) {
stringBuffer.append(",");
}
}
string = stringBuffer.toString();
long start = System.currentTimeMillis();
for(int i = 0; i < 10000; i++) {
string.split(",");
}
long end = System.currentTimeMillis();
System.out.println(end - start);
}
}
經過上面代碼的測試,最終發現用split方法對字符串按照逗號進行切割,切割1w次是耗時2000多毫秒,這個不太固定,大概是2300毫秒左右。
JDK提供字符串切割工具類StringTokenizer
接著給大家介紹另外一個性能更加好的專門用于字符串切割的工具類,就是StringTokenizer,這個工具是JDK提供的,也是專門用來進行字符串切割的,他的性能會更好一些,我們可以看下面的代碼,用他來進行1w次字符串切割,看看具體的性能測試結果如何:
import java.util.StringTokenizer;
public class StringSplitTest {
public static void main(String[] args) {
String string = null;
StringBuffer stringBuffer = new StringBuffer();
int max = 10000;
for(int i = 0; i < max; i++) {
stringBuffer.append(i);
if(i < max - 1) {
stringBuffer.append(",");
}
}
string = stringBuffer.toString();
long start = System.currentTimeMillis();
for(int i = 0; i < 10000; i++) {
string.split(",");
}
long end = System.currentTimeMillis();
System.out.println(end - start);
start = System.currentTimeMillis();
StringTokenizer stringTokenizer =
new StringTokenizer(string, ",");
for(int i = 0; i < 10000; i++) {
while(stringTokenizer.hasMoreTokens()) {
stringTokenizer.nextToken();
}
stringTokenizer = new StringTokenizer(string, ",");
}
end = System.currentTimeMillis();
System.out.println(end - start);
}
}
大家看上面的代碼,用StringTokenizer可以通過hasMoreTokens()方法判斷是否有切割出的下一個元素,如果有就用nextToken()拿到這個切割出來的元素,一次全部切割完畢后,就重新創建一個新的StringTokenizer對象。
這樣連續切割1w次,經過測試之后,會發現用StringTokenizer切割字符串1w次的耗時大概是1900毫秒左右。
大家感覺如何?是不是看到差距了?換一下切割字符串的方式,就可以讓耗時減少400~500ms,性能目前已經可以提升20%了。
手把手帶你實現一個更高效的字符串切割工具類
接著我們來自己封裝一個切割字符串的函數,用這個函數再來做一次字符串切割看看,大家先看字符串切割函數的代碼:
private static void split(String string) {
String remainString = string;
int startIndex = 0;
int endIndex = 0;
while(true) {
endIndex = remainString.indexOf(",", startIndex);
if(endIndex <= 0) {
break;
}
remainString.substring(startIndex, endIndex);
startIndex = endIndex + 1;
}
}
上面那段代碼是我們自定義的字符串切割函數,大概意思是說,每一次切割都走一個while循環,startIndex初始值是0,然后每一次循環都找到從startIndex開始的下一個逗號的index,就是endIndex,基于startIndex和endIndex截取一個字符串出來,然后startIndex可以推進到本次endIndex + 1即可,下一次循環就會截取下一個逗號之前的子字符串了。
下面我們用用上述自定義的切割函數再次測試一下,如下代碼:
import java.util.StringTokenizer;
public class StringSplitTest {
public static void main(String[] args) {
String string = null;
StringBuffer stringBuffer = new StringBuffer();
int max = 10000;
for(int i = 0; i < max; i++) {
stringBuffer.append(i);
if(i < max - 1) {
stringBuffer.append(",");
}
}
string = stringBuffer.toString();
long start = System.currentTimeMillis();
for(int i = 0; i < 10000; i++) {
string.split(",");
}
long end = System.currentTimeMillis();
System.out.println(end - start);
start = System.currentTimeMillis();
StringTokenizer stringTokenizer =
new StringTokenizer(string, ",");
for(int i = 0; i < 10000; i++) {
while(stringTokenizer.hasMoreTokens()) {
stringTokenizer.nextToken();
}
stringTokenizer = new StringTokenizer(string, ",");
}
end = System.currentTimeMillis();
System.out.println(end - start);
start = System.currentTimeMillis();
for(int i = 0; i < 10000; i++) {
split(string);
}
end = System.currentTimeMillis();
System.out.println(end - start);
}
private static void split(String string) {
String remainString = string;
int startIndex = 0;
int endIndex = 0;
while(true) {
endIndex = remainString.indexOf(",", startIndex);
if(endIndex <= 0) {
break;
}
remainString.substring(startIndex, endIndex);
startIndex = endIndex + 1;
}
}
}
總結
經過上述代碼測試之后,我們自己寫的字符串切割函數的耗時大概是在1000ms左右,相比較之下,比String.split方法的性能提升了2倍多,比StringTokenizer的性能也提升了2倍,如果要是字符串更大呢?其實字符串越大,性能差距就會越多,可能會呈更大的倍數提升我們的性能!