文章編號:1009-9603(2020)03-0032-07 DOI:10.13673/j.cnki.cn37-1359/te.2020.03.004
孫致學1,2,姜寶勝1,肖 康3,李吉康1
(1.中國石油大學(華東) 石油工程學院,山東 青島 266580; 2.非常規油氣開發教育部重點實驗室 中國石油大學(華東),
山東 青島 266580; 3.中國石油勘探開發研究院 非洲研究所,北京 100083)
孫致學等
摘要:天然裂縫是基巖潛山油藏油氣存儲及運輸的重要場所,而裂縫開度是表征潛山油藏儲層品質、油氣儲量及產能評價的關鍵參數。為此,提出一種基于集成學習算法的新型裂縫開度預測算法。以B盆地中非乍得某基巖潛山油藏巖心描述、關鍵井成像測井、裂縫參數解釋獲取開度數據,以相同深度測井數據作為特征變量構成學習樣本。利用K均值聚類算法對學習樣本進行降噪,剔除異常數據,以支持向量機回歸和XGBoost回歸算法為基礎模型,再利用隨機搜索進行參數優化,通過嶺回歸算法對基礎模型進行集成組合,再進行裂縫開度預測。結果表明所提出的新型集成學習算法比基礎模型性能有明顯提升。測試集樣本預測值與實際值均方根誤差為0.047,相關系數達0.931。該算法彌補了單一回歸算法不穩定的特點,提高了泛化能力,為裂縫開度預測提供了新思路。
關鍵詞:裂縫開度;K均值聚類算法;支持向量回歸;XGBoost回歸;集成學習
中圖分類號:TE122.2 文獻標識碼:A
Prediction of fracture aperture in bedrock buried hill oil
reservoir based on novel ensemble learning algorithm
SUN Zhixue1,2,JIANG Baosheng1,XIAO Kang3,LI Jikang1
(1.School of Petroleum Engineering,China University of Petroleum(East China),Qingdao City,Shandong Province,266580,
China; 2.Key Laboratory of Unconventional Oil & Gas Development,Ministry of Education,China University of Petroleum
(East China),Qingdao City,Shandong Province,266580,China; 3.African Research Institute,PetroChina
Research Institute of Petroleum Exploration & Development,Beijing City,100083,China)
Abstract:The natural fractures are important for oil and gas storage and transportation in the bedrock buried hill reservoirs.The fracture aperture is the key parameter for the reservoir quality characterization as well as reserves and productivity evaluation of buried hill reservoirs. In this study,a new fracture aperture prediction algorithm is proposed based on the ensemble learning algorithm. The samples are collected from the bedrock buried hill reservoirs in Basin B of Chad,Central Africa,and their fracture aperture data are extracted from the sample description,key well imaging logging,and fracture parameter interpretation. The same depth logging data are used as the feature variables to constitute the learning sample,and the K-means clustering algorithm is applied to reduce noise of the learning sample and eliminate abnormal data. Based on Support Vector Machine(SVM) regression and XGBoost regression algorithm,and by using random search to optimize model parameters,the fracture apertures are estimated according to the basic models combined by the ridge regression. The results show that the performance of the novel ensemble learning algorithm is better than that of the basic model,the root mean square error between the predicted and actual values of the test set is 0.047,and the correlation coefficient is 0.931. The algorithm improves the instability of the single regression algorithm,improves the generalization ability,and provides a new way for aperture prediction.
Key words:fracture aperture;K-means clustering;SVM regression;XGBoost regression;ensemble learning
近年來,全球已在30余個盆地發現了基巖油氣資源,基巖油氣藏成為重要的勘探開發陣地。相對于常規沉積巖油氣儲層,基巖儲層中天然裂縫類型、產狀、特征參數的精準評價更加重要。由于該類油氣藏基巖致密、孔滲性極低,天然裂縫系統不僅控制了有效儲層發育程度和油氣儲量規模,同時也是油氣開采過程中的重要運移通道。裂縫開度是評價基巖油氣藏儲層質量的重要參數。相對于裂縫密度,裂縫開度對儲層有效滲透率的貢獻更為顯著,也是影響其產能的主控因素之一[1-3]。目前儲層天然裂縫開度預測方法主要分為2大類:一類是直接觀察法,包括巖心觀測、露頭識別、電鏡觀測等;另一類是間接觀察法,包括成像測井、數值模擬、經驗公式、動態資料分析等。其中露頭識別法是獲得裂縫開度最直接的途徑[4],但地表風化作用使裂縫充填特征發生顯著變化,影響測量結果,同時露頭區可能遭受后期的改造或掩埋,使得典型裂縫發育的露頭不容易獲得。巖心中包含著最為直觀、詳實的裂縫信息,但取心資料往往少且不連續,同時機械應力對巖心的破壞影響天然裂縫開度的測量。隨著斷層掃描機、陰極射線發光、核磁共振、三維激光掃描技術的發展,裂縫開度表征朝更微觀、更立體和更精細的方向發展[5-6]。但由于儀器探測能力的限制,無法系統、大規模表征天然裂縫開度。成像測井具有高分辨率且連續測量的特點,能夠直觀地反映裂縫信息,但由于測量成本高,導致獲得的數據非常有限。通過室內數值模擬裝置進行裂縫開度模擬分析,測量相對誤差較小,但裝備適用范圍有限,實驗參數難以獲得,無法真實還原地層條件。進行應力場有限元數值模擬需考慮地質體的巖石物理特征,所需參數較多,難以準確獲取。該方法可以在一定程度上預測裂縫分布,但由于模型并不能反映實際地層情況,導致誤差較大[7-8]。依據滲流力學原理,利用泥漿漏失數據建立裂縫泥漿漏失數學模型,根據鉆井資料進行裂縫開度計算也是當下研究的熱點。但該方法受漏失數據的限制,適用范圍有限。對大多數油田而言,現有資料中除了少量取心資料外,其余幾乎是常規測井資料,因此如何利用常規測井信息建立裂縫的測井響應機理模型,進而計算天然裂縫開度,是不得不面對的實際問題。目前應用測井數據解釋天然裂縫仍停留在定性分析水平上[9-10]。主要是由于傳感器捕獲的實時測井數據具有高維、非線性和高噪性的特點,難以建立與裂縫開度之間的量化關系。機器學習對于解決非線性問題具有先天優勢,而集成學習是機器學習領域的研究熱點[11],相較于單一機器學習算法,集成學習算法具有更高的精度和更顯著的泛化性能。
1 樣本集構建
研究區位于B盆地中非乍得西南部、中非剪切帶中段北側,大量巖心和井壁取心分析資料揭示B盆地基巖潛山巖性分為變質巖和巖漿巖2大類13個亞類30多種巖石類型,主要由花崗巖、正長巖、閃長巖和二長巖等巖漿巖及混合花崗巖和片麻巖類等正變質巖構成[12]。通過對該潛山15口取心井(含新完鉆井)巖心裂縫形態、規模及典型特征進行觀察及描述,發現研究區油氣運移通道包括構造裂縫、網狀縫、張剪縫及沿縫溶蝕孔洞,以張剪縫為主(圖1)。
1.1 學習樣本特征
準確且全面的裂縫數據樣本是實現模型訓練的基礎。所用數據集包括測井數據(表1)及相應裂縫開度值,共2 140組,由基巖潛山油藏巖心描述、關鍵井成像測井、巖礦薄片鑒定等數據組成。由裂縫開度分布(圖2)可知,樣本集中裂縫開度最小值為0.011 mm,最大值為0.544 mm,平均值為0.183 mm,標準差為0.087 mm,裂縫開度主要集中在0.126~0.258 mm。
圖1 中非乍得某基巖潛山巖心裂縫照片
Fig.1 Photos of fractured core samples from bedrock buried hill in Chad,Central Africa
表1 測井數據統計結果
Table1 Statistics of well logging parameters
圖2 裂縫開度分布
Fig.2 Fracture aperture distribution
1.2 Z-score標準化處理
在進行裂縫預測前,需將學習樣本進行Z-score標準化處理,即將其轉換為均值為0、方差為1的分布,其表達式為:
如果一個特征的方差比其余特征的方差大許多個數量級,那么該特征將會主導整個目標函數,使得模型不能從其余特征學習到數據的特征。相對于min-max歸一化方法,該方法不僅能夠去除量綱,還能夠均衡考慮所有維度的變量。
1.3 K均值聚類算法進行樣本去噪
樣本數據由于測量儀器及人為因素的干擾,不可避免的引入噪聲。為此采取利用K均值聚類算法進行數據過濾的思路,以去除冗余,提高學習樣本質量。
K均值聚類算法是基于距離的聚類算法,將距離作為相似性的評價指標,即對象之間的距離越近,相似度越大。而異常點通常距離中心點較遠,檢測異常點,從而進行樣本過濾[13]。假設輸入的樣本向量集合為:
K均值聚類算法具體步驟包括:①從輸入的樣本向量集合中隨機選取1個向量作為第1個簇中心點,簇中心集合記為center。②對于滿足條件的任意向量,計算與最近簇中心的距離。③計算每個向量被選為簇中心的概率,其表達式為:
④最大時對應的向量就是新的簇中心,若新的簇中心改變則重復步驟②—③直到目標函數收斂,聚類結束。
K的取值對聚類算法的效果具有極大影響。若K取值過小,將導致數據粗化,在剔除異常點的同時會誤判正常數據,造成有效樣本丟失;若K取值過大,將致使聚類結果無法有效收斂,計算時間過長,導致無法有效篩選異常數據。為此采用手肘法來確定K值。手肘法的核心指標是誤差平方和,其表達式為:
該方法的核心思想是隨著K值的增加,樣本數據劃分更加精細,各個簇的聚合度逐漸提高,誤差平方和逐漸減小。當K值小于真實聚類數時,K值增加會顯著增強各個簇的聚合度,誤差平方和下降幅度變大。當K值接近真實聚類數時,提高K值各個簇的聚合度變小,誤差平方和變化幅度驟減(圖3)。
由圖3可知,當K取值為5,即當聚類數為5簇時,K均值聚類算法性能最優,過濾異常值能力最強,因此本文聚類數取5。同時計算距離時容易受較大數據的影響而忽略取值較小的數據,需在聚類前進行Z-score標準化處理。然后通過K均值聚類算法對樣本數據進行去噪,找出異常點72組。將異常點剔除,其余2 068組樣本數據用于后續算法的訓練與測試。
圖3 誤差平方和、計算時間與聚類數的關系
Fig.3 Relationship among sum of squared errors,
calculation time and cluster number
2 預測算法建立
作為機器學習的最新技術,集成學習在智能計算和機器學習領域引起了廣泛關注。集成學習不是一種特定的模型而是一種思想,通過結合較簡單的基礎模型來構建強化模型。本文引入集成學習技術,將2種不同的基礎模型結合起來,生成一個更好的模型來預測裂縫開度。
2.1 支持向量回歸算法
鑒于地質認識及資料豐度的不確定性,以及特征之間具有復雜的非線性關系,應用傳統回歸模型不能較好地進行裂縫開度預測。而支持向量回歸算法可通過核函數將樣本數據映射到高維空間,解決非線性問題,同時該算法具有良好的穩定性和泛化能力[14]。支持向量回歸算法可形式化為:
引入松弛變量和,可將(5)式寫為:
引入拉格朗日算子,其拉格朗日函數表達式為:
其中:
根據wolf對偶的定義,在KKT條件下得到拉格朗日對偶形式為:
支持向量回歸算法函數表達式為:
對于非線性問題,可通過非線性變換轉化為某個高維空間中的線性問題,即用核函數替換可以實現非線性函數擬合,能較好處理非線性以及高維數的問題,可表示為:
2.2 XGBoost回歸算法
XGBoost是由一系列回歸樹組成的強大的預測模型。其核心思想是不斷添加回歸樹,通過生成新樹來擬合前一棵樹的殘差。當訓練完成得到棵回歸樹時,將每棵樹對應的分數加起來就是該樣本的預測值[15],其表達式為:
XGBoost目標函數為:
其中:
為避免算法擬合過程中的過擬合,算法不能同時訓練所有回歸樹,因此利用固定訓練好的回歸樹,依次添加一棵新樹來解決,假設步驟t的預測值用表示,(12)式可以寫為:
將其進行二階泰勒展開為:
其中:
則(15)式可以改寫為:
2.3 基于嶺回歸的集成學習算法
本文所提的裂縫開度預測集成算法以XGBoost回歸算法和支持向量回歸算法為基礎模型。每個基礎模型均接收輸入數據,并給出獨立的裂縫開度預測結果,這些預測結果均作為元特征,被饋送到元學習器中(本文的元學習器采用嶺回歸算法),并給出最終的裂縫開度預測結果(圖4)。
圖4 基于嶺回歸的集成學習算法
Fig.4 Ensemble learning algorithm based on ridge regression
該算法為基礎學習器(g=1為支持向量回歸,g=2為XGBoost回歸)對于H折交叉驗證中的每一個待預測的訓練樣本集合都有與之對應的訓練集預測結果集合。這樣的循環過程完畢后,對于每個基礎學習器而言,都有H對同質基礎學習器訓練集預測值,將其整合為。再將所有基礎學習器整合作為元特征定義為。將饋送到嶺回歸算法得到加權結果即為最終預測開度值。基于嶺回歸的集成學習算法的最終表達式為:
其中:
在此基礎上,經K均值聚類算法去噪后,應用基于嶺回歸的集成學習算法進行裂縫開度預測,筆者將其定義為新型集成學習算法。
3 預測算法應用
3.1 模型參數優化求解
機器學習算法參數的選擇直接決定了算法的性能。網格搜索法是當前應用最為廣泛的參數優化算法。但該方法依靠窮舉所有參數進行優化,計算成本過于龐大,同時對于連續數據需要等間取樣,不一定能取得全局最優。故采用隨機搜索進行參數優化,該方法主要原理是從指定的分布中采樣固定數量的參數設置。與網格搜索法相比,該方法在保障準確度的同時,顯著減少計算時間。
根據測試集上模型的均方根誤差值來判斷基礎模型最佳超參數。其中支持向量回歸算法的主要超參數為懲罰系數,XGBoost回歸算法的主要超參數為最大深度,其超參數隨機優化調參過程如圖5所示。在搜索的過程中,超參數快速收斂,并找出最優值。支持向量回歸算法的懲罰系數搜索范圍為0~20,最優值為0.147,對應均方根誤差為0.113;XGBoost回歸算法的最大深度搜索范圍為0~18,最優值為13,對應均方根誤差為0.076。
3.2 模型應用評價分析
確定好模型參數之后,隨機選取80%經過Z-score標準化處理后的樣本數據作為訓練集共1 712組,20%的樣本數據作為測試集共428組來驗證模型效果。以均方根誤差(RMSE)和真實裂縫開度值與預測裂縫開度值間相關系數(R2)作為評價標準。將測試集分別代入訓練好的支持向量回歸算法、XGBoost回歸算法及基于嶺回歸的集成學習算法中,計算測試集中真實裂縫開度與預測裂縫開度間相關系數(圖6)。
圖5 隨機搜索優化調參過程
Fig.5 Parameter adjustment optimization process based on random search
圖6 預測裂縫開度與真實裂縫開度交會圖
Fig.6 Cross plot of measured and predicted apertures
由圖6可以看出,3種算法中,基于嶺回歸的集成學習算法的R2最高,達0.928。同時為探究K均值聚類降噪效果,將樣本數據饋送于基于嶺回歸的集成學習算法中進行訓練和測試,并與先前計算結果進行綜合對比(表2),發現4組方法中K均值-基于嶺回歸的集成學習算法的RMSE最小,R2最大。即該算法的預測裂縫開度值與真實裂縫開度值之間的偏差最小,支持向量回歸算法的RMSE最大,R2最小。K均值聚類算法能夠對學習樣本進行有效降噪,去除冗余,提高了學習樣本的質量。
表2 各算法預測效果對比
Table2 Comprehensive comparison results of prediction
effects in various algorithms
為進一步綜合分析該算法的預測效果,將部分樣本真實值及各算法預測值進行可視化研究。從圖7可以明顯看出,支持向量回歸算法和XGBoost回歸算法預測值整體在真實值上下波動,支持向量
圖7 樣本觀測值
Fig.7 Sample observation values
回歸算法總體變化平穩,但對裂縫開度突變值檢測不明顯。XGBoost回歸算法對數據敏感,部分數值波動較大。新型集成學習算法的計算結果緊密圍繞真實裂縫開度值波動,很好地結合了基礎算法的優點,平衡了基礎算法的缺點,預測精度明顯提升。
4 結論
利用測井數據及其對應裂縫開度值,提出基于新型集成學習的基巖潛山油藏儲層裂縫開度預測算法。該算法先通過K均值將學習樣本進行聚類、降噪來提升學習樣本質量;以支持向量回歸算法和XGBoost回歸算法為基礎模型,并利用隨機搜索進行基礎模型參數優化。然后利用嶺回歸算法對優化好的基礎模型進行集成組合。所提出的新型集成學習算法建立的裂縫開度預測模型彌補了單一回歸算法不穩定的特點,提升了預測精度,能夠充分挖掘測井數據中蘊含的地質信息,為裂縫開度定量預測提供了新的思路。同時該方法可實現自動、快速優化調參,具有廣泛的適用性。
符號解釋
——標準化處理后的樣本數據; ——樣本數據; ——樣本均值; ——樣本方差;——聚類數,簇; ——樣本向量集合; ——樣本序號;n ——樣本向量總數;center ——簇中心集合;——簇中心概率;——最近簇中心的距離;——誤差平方和;——樣本列號;——中的樣本點;——第個簇;——中所有樣本的均值; ——法向量;——位移項;——懲罰系數;——樣本數量;——不敏感損失函數;——軟間隔帶;——支持向量回歸算法函數;——開度實際值;和——松弛變量;和——在第i數據下不同的拉格朗日算子; ——拉格朗日算子的合集;——拉格朗日算子的合集;,——在第數據下不同的拉格朗日算子;和——輸入的第和第個數據;——核函數;——開度預測值;——回歸樹的總數,個;——第棵回歸樹算法; ——步驟下的目標函數;——步驟序號;——預測開度值與真實開度值的差;——懲罰項;——回歸樹分割的難度系數;——回歸樹葉子節點個數,個;——L2正則系數;——回歸樹葉子節點權重;——步驟的預測值;——常數;——損失函數一階導數;——損失函數二階導數;——第個葉子的樣本集合;——基礎學習器;H——交叉驗證折數;——H折交叉驗證中的每一個待預測的訓練樣本集合;——與對應的訓練集預測結果集合;——H對同質基礎學習器訓練集預測值; ——元特征;——預測的最終開度值;——元特征數據矩陣; ——嶺回歸估計值;——嶺參數;——單位矩陣。
參考文獻
[1] 梅丹,胡勇,王倩.裂縫對氣藏儲層滲透率及氣井產能的貢獻[J].石油實驗地質,2019,41(5):769-772.
MEI Dan,HU Yong,WANG Qian.Experimental study on fracture contribution to gas reservoir permeability and well capacity[J].Petroleum Geology & Experiment,2019,41(5):769-772.
[2] 王威,盧祥國,呂金龍,等.裂縫對致密砂巖儲層物性及產氣能力影響實驗[J].大慶石油地質與開發,2019,38(4):160-166.
WANG Wei,LU Xiangguo,LÜ Jinlong,et al.Experiments of the effects of the fracture on the physical property and gas production capacity for the tight sandstone[J].Petroleum Geology & Oilfield Development in Daqing,2019,38(4):160-166.
[3] 呂金龍,盧祥國,王威,等.裂縫對致密儲層滲流能力影響實驗研究[J].特種油氣藏,2019,26(2):141-146.
LÜ Jinlong,LU Xiangguo,WANG Wei,et al.Experiment research on the effect of fracture on the seepage capacity of tight reservoir[J].Special Oil & Gas Reservoirs,2019,26(2):141-146.
[4] MOHAMMAD Javad Afshari Moein,SOMOGYVÁRI M,VALLEY B,et al.Fracture network characterization using stress-based tomography[J].Journal of Geophysical Research:Solid Earth,2018,123(11):9 324-9 340.
[5] 楊明清,王超,閻治全.納秒激光誘導擊穿光譜技術在巖屑樣品元素分析中的應用[J].中國石油勘探,2018,23(1):117-124.
YANG Mingqing,WANG Chao,YAN Zhiquan.Application of nanosecond laser induced breakdown spectroscopy to elemental analysis of cuttings samples[J].China Petroleum Exploration,2018,23(1):117-124.
[6] 陳彥君,蘇雪峰,王鈞劍,等.基于X射線微米CT掃描技術的煤巖孔裂隙多尺度精細表征——以沁水盆地南部馬必東區塊為例[J].油氣地質與采收率,2019,26(5):66-72.
CHEN Yanjun,SU Xuefeng,WANG Junjian,et al.Multi-scale fine characterization of coal pore-fracture structure based on X-ray micro-CT scanning:A case study of Mabidong Block,southern Qinshui Basin[J].Petroleum Geology and Recovery Efficiency,2019,26(5):66-72.
[7] LAI J,WANG G,FAN Z,et al.Three-dimensional quantitative fracture analysis of tight gas sandstones using industrial computed tomography[J].Scientific Reports,2017,7(1):1 825.
[8] 馮福平,雷揚,陳頂峰,等.基于有限元數值模擬的致密儲層體積壓裂效果影響參數分析[J].油氣藏評價與開發,2019,9(1):29-33,50.
FENG Fuping,LEI Yang,CHEN Dingfeng,et al.Parameter analysis of SRV fracturing effect of tight reservoirs based on finite element numerical simulation[J].Reservoir Evaluation and Development,2019,9(1):29-33,50.
[9] 王永東,雷俊杰,樊萬紅,等.延長南部低滲透儲層天然裂縫定量識別技術[J].斷塊油氣藏,2018,25(3):322-327.
WANG Yongdong,LEI Junjie,FAN Wanhong,et al.Quantitive identification of natural fractures in tight reservoir of southern Yanchang Oilfield[J].Fault-Block Oil and Gas Field,2018,25(3):322-327.
[10] 韓剛,何峰,張孝珍,等.陣列聲波測井在儲層裂縫識別中的應用——以鄂爾多斯盆地K區為例[J].油氣地質與采收率,2019,26(3):63-69.
HAN Gang,HE Feng,ZHANG Xiaozhen,et al.Application of array acoustic logging to fracture identification:A case study of Area K in Ordos Basin[J].Petroleum Geology and Recovery Efficiency,2019,26(3):63-69.
[11] KRAWCZYK B,MINKU L L,GAMA J,et al.Ensemble learning for data stream analysis:A survey[J].Information Fusion,2017,37(2):132-156.
[12] 余朝華,肖坤葉,張桂林,等.乍得Bongor盆地反轉構造特征及形成機制分析[J].中國石油勘探,2018,23(3):90-98.
YU Zhaohua,XIAO Kunye,ZHANG Guilin,et al.Analysis on inverted structure characteristics and its forming mechanism in the Bongor Basin,Chad[J].China Petroleum Exploration,2018,23(3):90-98.
[13] ARORA P,VARSHNEY S.Analysis of K-means and K-medoids algorithm for big data[J].Procedia Computer Science,2016,78(2):507-512.
[14] AL-ANAZI A,GATES I D.A support vector machine algorithm to classify lithofacies and model permeability in heterogeneous reservoirs[J].Engineering Geology,2010,114(3/4):267-277.
[15] NGUYEN H,BUI X N,BUI H B,et al.Developing an XGBoost model to predict blast-induced peak particle velocity in an open-pit mine:a case study[J].Acta Geophysica,2019,67(2):477-490.
—————————————
收稿日期:2019-12-13。
作者簡介:孫致學(1979—),男,山東沂南人,博士,副教授,從事復雜油氣藏精細描述與開發工作。E-mail:upcszx@upc.edu.cn。
基金項目:國家自然科學基金項目“基于離散-連續介質模型的水-EGS傳質傳熱機理及數值模擬研究”(51774317)和“乍得潛山產能評價及開發技術政策研究”(2019D-3210)。