[Submitted on 19 Jun 2020 (v1), last revised 22 Jun 2020 (this version, v2)]
回復 ts13 獲取論文及項目源碼
摘要
在過去十年中,時間序列研究引起了很多興趣,尤其是在時間序列分類(TSC)和時間序列預測(TSF)方面。 TSC的研究極大地受益于加利福尼亞大學河濱分校和東英吉利大學(UCR / UEA)時間序列檔案。另一方面,時間序列預測的進步依賴于時間序列預測競賽,例如Makridakis競賽,NN3和NN5神經網絡競賽以及一些Kaggle競賽。
每年,成千上萬篇針對TSC和TSF提出新算法的論文都利用了這些基準測試檔案。這些算法是為解決這些特定問題而設計的,但是對于諸如使用光電容積描記圖(PPG)和加速度計數據預測人的心率之類的任務可能沒有用。我們將此問題稱為時間序列回歸(TSR),在此我們對從單變量或多變量時間序列預測單個連續值的更通用方法感興趣。此預測可以來自相同的時間序列,也可以與預測器時間序列不直接相關,并且不一定需要是將來值或嚴重依賴于最新值。
據我們所知,時間序列研究界對TSR的研究很少受到關注,也沒有針對一般時間序列回歸問題開發模型。大多數模型都是針對特定問題開發的。因此,我們的目的是通過引入第一個TSR基準測試檔案庫來激發和支持對TSR的研究。該檔案庫包含來自不同領域的19個數據集,這些數據集的維數,長度維數不相等以及值缺失。在本文中,我們介紹了此存檔中的數據集,并對現有模型進行了初步基準測試。
總結
我們發布了包含19個時間序列數據集的TSR存檔的第一版,并使用典型的機器學習回歸和最新的TSC模型為存檔設置了初始基準。我們的結果表明,Rocket是最先進的TSC模型之一,總體表現最佳。最先進的機器學習模型(例如XGBoost和Random Forest)也非常具有競爭力。這表明需要針對此類TSR問題開發更好的模型。最后,我們歡迎您提供任何數據捐贈,并將繼續擴展檔案庫,從而解決更多問題。
回復 ts13 獲取論文及項目源碼
19套數據集介紹
表1:當前TSR存檔中的時間序列數據集。用星號(*)標記的那些在維度之間具有不同的長度,但是在數據集中的所有實例之間長度仍然相等。
TSR歸檔中的數據集。當前存檔包含19個時間序列數據集,如表1所示。你可以在http://timeseriesregression.org/上找到它們。檔案包含8個數據集改編自UCI機器學習知識庫[1],3個來自Physionet, 1個來自信號處理競賽[29],1個來自世界衛生組織(WHO), 1個來自澳大利亞氣象局(BOM),其余的都是捐贈的。
本檔案目前涵蓋了5個應用領域:能源監測、環境監測、健康監測、情緒分析與預測。
ts格式用于tsml和sktime時間序列機器學習知識庫。
sktime網站和我們的github頁面上可以找到一個將數據加載到Python的例子。
原始數據集中的缺失值不被注入和表示為“?”符號,遵循UCR/UEA檔案中使用的.ts慣例[5,6]。為了對回歸模型進行公平的比較,我們將存檔中的數據集分割為預定義的訓練集和測試集。