解鎖多核處理器的力量：探索數(shù)據(jù)并行化在 Java 8 Stream 中的應(yīng)用-魔扣目錄

在 JAVA 8 中引入的 Stream 為集合數(shù)據(jù)的處理帶來了現(xiàn)代化的方式，而數(shù)據(jù)并行化則進(jìn)一步提升了處理速度，充分發(fā)揮了多核處理器的優(yōu)勢。本篇博客將詳細(xì)介紹數(shù)據(jù)并行化在 Java 8 Stream 中的應(yīng)用，以及如何利用并行流處理大量數(shù)據(jù)。

什么是數(shù)據(jù)并行化

數(shù)據(jù)并行化是指將任務(wù)分解成多個子任務(wù)，并將這些子任務(wù)分配給多個處理單元（如多個 CPU 核心）并行執(zhí)行。在集合數(shù)據(jù)的處理中，可以將數(shù)據(jù)劃分為多個小塊，然后在不同的處理單元上并行處理，從而加快處理速度。

在大量數(shù)據(jù)處理上，數(shù)據(jù)并行化可以大量縮短任務(wù)的執(zhí)行時間，將一個數(shù)據(jù)分解成多個部分，然后并行處理，最后將多個結(jié)果匯總，得到最終的結(jié)果

并行和并發(fā)

并發(fā)（Concurrency）

并發(fā)是指多個任務(wù)在同一時間段內(nèi)交替執(zhí)行。它可以在單個處理器上通過任務(wù)切換（上下文切換）實現(xiàn)，也可以在多個處理器上同時進(jìn)行。在并發(fā)模式下，多個任務(wù)在微觀上交替執(zhí)行，但在某個時間段內(nèi)只有一個任務(wù)在執(zhí)行。這種模式通常用于提高系統(tǒng)的效率和響應(yīng)能力，適用于 I/O 密集型任務(wù)，如網(wǎng)絡(luò)通信、文件讀寫等。

并行（Parallelism）

并行是指多個任務(wù)在同一時刻同時執(zhí)行，每個任務(wù)在不同的處理器核心上獨立運行。與并發(fā)不同，并行是在宏觀上實現(xiàn)多任務(wù)的真正同時執(zhí)行。這種模式通常用于提高計算密集型任務(wù)的處理速度，如科學(xué)計算、圖像處理等。

總結(jié)

并發(fā)關(guān)注任務(wù)之間的交替執(zhí)行，是一種在時間上的重疊。
并行關(guān)注任務(wù)在同一時刻的同時執(zhí)行，是一種在時間上的重合。
并發(fā)適用于提高系統(tǒng)效率和響應(yīng)能力，適用于 I/O 密集型任務(wù)。
并行適用于提高計算速度，適用于計算密集型任務(wù)。

并行流的使用示例

Java 8 引入了并行流，它使得數(shù)據(jù)并行化變得非常容易。只需將順序流轉(zhuǎn)換為并行流，即可實現(xiàn)并行處理。以下是一個簡單的示例代碼：

java
復(fù)制代碼

public class MaxDemo { public static void mAIn(String[] args) { List<Integer> numbers = new ArrayList<>(); numbers.add(1); numbers.add(2); numbers.add(3); int sum = numbers.parallelStream().mapToInt(i -> i).sum(); System.out.println(sum); }

在上述示例中，通過 parallelStream() 方法將順序流轉(zhuǎn)換為并行流，從而實現(xiàn)了并行處理。接著，我們對流進(jìn)行了過濾和映射操作，最后計算了偶數(shù)的總和。

注意事項和適用場景

雖然并行流可以提升處理速度，但并不是在所有情況下都適用。不要陷入一個誤區(qū)：并行一定比串行快。并行在不同的情況下不一定比串行快。影響并行性能有以下因素：

數(shù)據(jù)量

如果數(shù)據(jù)量太小，會直接影響到并行處理的性能。因為在并行內(nèi)部實現(xiàn)涉及到 fork/join 的操作，這些操作的本身就存在性能的開銷，只有當(dāng)數(shù)據(jù)量很大的時候，使用并行處理才有意義

源數(shù)據(jù)結(jié)構(gòu)

fork 時會對源數(shù)據(jù)進(jìn)行分割，數(shù)據(jù)源的特性直接影響到 fork 的性能，從而導(dǎo)致并行流性能很慢

arrayList、array、IntStream.range,是最容易分割的，因為都支持隨機(jī)讀取
HashSet、TreeSet，相對來說比較容易分割，但是因為內(nèi)部數(shù)據(jù)結(jié)構(gòu)，很難被平均分解
LinkedList、Streams.iterate、BufferedReader.lined 不容易分分割，因為長度未知，無法確定分在哪里進(jìn)行分割

裝箱拆箱

盡量使用基本數(shù)據(jù)類型，避免裝箱和拆箱

CPU 核數(shù)

fork 產(chǎn)生的數(shù)量是與 CPU 核數(shù)相關(guān)，可用的核數(shù)越多，獲取的性能提升越大

單元處理開銷

花在流中每個元素的時間越長，并行操作帶來的性能提升就越明顯

并行流原理介紹

并行流的工作原理可以分為以下幾個步驟：

數(shù)據(jù)切分：初始數(shù)據(jù)被分成多個小塊，每個塊包含一部分元素。
并行處理：各個處理器核心同時對不同的數(shù)據(jù)塊執(zhí)行相同的操作。
結(jié)果合并：各個處理器核心處理完成后，將結(jié)果合并為最終結(jié)果。

并行流在底層的實現(xiàn)是沿用 Java7 提供的 fork 和 join 分解合并框架實現(xiàn)的，fork 根據(jù) cpi 核數(shù)進(jìn)行數(shù)據(jù)分開，join 對各 forn 進(jìn)行合并。實現(xiàn)過程如下圖所示：

總結(jié)

數(shù)據(jù)并行化是 Java 8 Stream 中的重要特性，可以顯著提升大規(guī)模數(shù)據(jù)處理的速度。通過將順序流轉(zhuǎn)換為并行流，我們可以利用多核處理器的優(yōu)勢，實現(xiàn)高效的并行處理。然而，在使用并行流時需要注意線程安全和適用場景，以充分發(fā)揮其優(yōu)勢。在實際開發(fā)中，根據(jù)數(shù)據(jù)規(guī)模和操作類型的不同，合理使用并行流將為你的程序帶來性能的提升。

作者：努力的IT小胖子
鏈接：https://juejin.cn/post/7269743983189409828
來源：稀土掘金
著作權(quán)歸作者所有。商業(yè)轉(zhuǎn)載請聯(lián)系作者獲得授權(quán)，非商業(yè)轉(zhuǎn)載請注明出處。