在 JAVA 8 中引入的 Stream
為集合數(shù)據(jù)的處理帶來了現(xiàn)代化的方式,而數(shù)據(jù)并行化則進(jìn)一步提升了處理速度,充分發(fā)揮了多核處理器的優(yōu)勢。本篇博客將詳細(xì)介紹數(shù)據(jù)并行化在 Java 8 Stream 中的應(yīng)用,以及如何利用并行流處理大量數(shù)據(jù)。
什么是數(shù)據(jù)并行化
數(shù)據(jù)并行化是指將任務(wù)分解成多個子任務(wù),并將這些子任務(wù)分配給多個處理單元(如多個 CPU 核心)并行執(zhí)行。在集合數(shù)據(jù)的處理中,可以將數(shù)據(jù)劃分為多個小塊,然后在不同的處理單元上并行處理,從而加快處理速度。
在大量數(shù)據(jù)處理上,數(shù)據(jù)并行化可以大量縮短任務(wù)的執(zhí)行時間,將一個數(shù)據(jù)分解成多個部分,然后并行處理,最后將多個結(jié)果匯總,得到最終的結(jié)果
并行和并發(fā)
并發(fā)(Concurrency)
并發(fā)是指多個任務(wù)在同一時間段內(nèi)交替執(zhí)行。它可以在單個處理器上通過任務(wù)切換(上下文切換)實現(xiàn),也可以在多個處理器上同時進(jìn)行。在并發(fā)模式下,多個任務(wù)在微觀上交替執(zhí)行,但在某個時間段內(nèi)只有一個任務(wù)在執(zhí)行。這種模式通常用于提高系統(tǒng)的效率和響應(yīng)能力,適用于 I/O 密集型任務(wù),如網(wǎng)絡(luò)通信、文件讀寫等。
并行(Parallelism)
并行是指多個任務(wù)在同一時刻同時執(zhí)行,每個任務(wù)在不同的處理器核心上獨立運行。與并發(fā)不同,并行是在宏觀上實現(xiàn)多任務(wù)的真正同時執(zhí)行。這種模式通常用于提高計算密集型任務(wù)的處理速度,如科學(xué)計算、圖像處理等。
總結(jié)
- 并發(fā)關(guān)注任務(wù)之間的交替執(zhí)行,是一種在時間上的重疊。
- 并行關(guān)注任務(wù)在同一時刻的同時執(zhí)行,是一種在時間上的重合。
- 并發(fā)適用于提高系統(tǒng)效率和響應(yīng)能力,適用于 I/O 密集型任務(wù)。
- 并行適用于提高計算速度,適用于計算密集型任務(wù)。
并行流的使用示例
Java 8 引入了并行流,它使得數(shù)據(jù)并行化變得非常容易。只需將順序流轉(zhuǎn)換為并行流,即可實現(xiàn)并行處理。以下是一個簡單的示例代碼:
java
復(fù)制代碼
public class MaxDemo { public static void mAIn(String[] args) { List<Integer> numbers = new ArrayList<>(); numbers.add(1); numbers.add(2); numbers.add(3); int sum = numbers.parallelStream().mapToInt(i -> i).sum(); System.out.println(sum); }
在上述示例中,通過 parallelStream()
方法將順序流轉(zhuǎn)換為并行流,從而實現(xiàn)了并行處理。接著,我們對流進(jìn)行了過濾和映射操作,最后計算了偶數(shù)的總和。
注意事項和適用場景
雖然并行流可以提升處理速度,但并不是在所有情況下都適用。不要陷入一個誤區(qū):并行一定比串行快。并行在不同的情況下不一定比串行快。影響并行性能有以下因素:
數(shù)據(jù)量
如果數(shù)據(jù)量太小,會直接影響到并行處理的性能。因為在并行內(nèi)部實現(xiàn)涉及到 fork/join 的操作,這些操作的本身就存在性能的開銷,只有當(dāng)數(shù)據(jù)量很大的時候,使用并行處理才有意義
源數(shù)據(jù)結(jié)構(gòu)
fork 時會對源數(shù)據(jù)進(jìn)行分割,數(shù)據(jù)源的特性直接影響到 fork 的性能,從而導(dǎo)致并行流性能很慢
- arrayList、array、IntStream.range,是最容易分割的,因為都支持隨機(jī)讀取
- HashSet、TreeSet, 相對來說比較容易分割,但是因為內(nèi)部數(shù)據(jù)結(jié)構(gòu),很難被平均分解
- LinkedList、Streams.iterate、BufferedReader.lined 不容易分分割,因為長度未知,無法確定分在哪里進(jìn)行分割
裝箱拆箱
盡量使用基本數(shù)據(jù)類型,避免裝箱和拆箱
CPU 核數(shù)
fork 產(chǎn)生的數(shù)量是與 CPU 核數(shù)相關(guān),可用的核數(shù)越多,獲取的性能提升越大
單元處理開銷
花在流中每個元素的時間越長,并行操作帶來的性能提升就越明顯
并行流原理介紹
并行流的工作原理可以分為以下幾個步驟:
- 數(shù)據(jù)切分:初始數(shù)據(jù)被分成多個小塊,每個塊包含一部分元素。
- 并行處理:各個處理器核心同時對不同的數(shù)據(jù)塊執(zhí)行相同的操作。
- 結(jié)果合并:各個處理器核心處理完成后,將結(jié)果合并為最終結(jié)果。
并行流在底層的實現(xiàn)是沿用 Java7 提供的 fork 和 join 分解合并框架實現(xiàn)的,fork 根據(jù) cpi 核數(shù)進(jìn)行數(shù)據(jù)分開,join 對各 forn 進(jìn)行合并。實現(xiàn)過程如下圖所示:
總結(jié)
數(shù)據(jù)并行化是 Java 8 Stream 中的重要特性,可以顯著提升大規(guī)模數(shù)據(jù)處理的速度。通過將順序流轉(zhuǎn)換為并行流,我們可以利用多核處理器的優(yōu)勢,實現(xiàn)高效的并行處理。然而,在使用并行流時需要注意線程安全和適用場景,以充分發(fā)揮其優(yōu)勢。在實際開發(fā)中,根據(jù)數(shù)據(jù)規(guī)模和操作類型的不同,合理使用并行流將為你的程序帶來性能的提升。
作者:努力的IT小胖子
鏈接:https://juejin.cn/post/7269743983189409828
來源:稀土掘金
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán),非商業(yè)轉(zhuǎn)載請注明出處。