網(wǎng)站首頁編程語言正文

時間序列預測中的數(shù)據(jù)滑窗操作實例(python實現(xiàn))_python

作者：Chace_B ? 更新時間： 2022-05-08 編程語言

撰寫背景

面向數(shù)據(jù)分析的小白，水平有限，錯誤難免，歡迎指正。

什么是數(shù)據(jù)滑窗

進行機器學習時，一般都要涉及到劃分訓練集和測試集的步驟。特別地，在做數(shù)據(jù)預測時，一般把預測的依據(jù)（也就是歷史數(shù)據(jù)）稱作X，把需要預測的數(shù)據(jù)稱為y。即首先把原始數(shù)據(jù)劃分為train_X, train_y這兩個訓練數(shù)據(jù)集和test_X, test_y這兩個測試數(shù)據(jù)集。

對于時間序列數(shù)據(jù)的預測，往往是建立由好幾個歷史數(shù)據(jù)預測下一時刻的未來數(shù)據(jù)，這時候為了充分利用全部數(shù)據(jù)，應該對原始數(shù)據(jù)集進行滑窗操作，如下圖所示。

請?zhí)砑訄D片描述

這里展示的是多個特征的時間序列，其中每一行數(shù)據(jù)均屬于同一時刻。假設(shè)，我們要以H（ humidity）、PT（pressure）、PE（power）三個特征為預測依據(jù)，取當前和上三個時刻共四個時刻的已知數(shù)據(jù)對下一時刻的PE（功率）進行預測，那么對于X數(shù)據(jù)集的滑窗就應該如上圖所示，而對y數(shù)據(jù)集的滑窗應該如下圖所示。

請?zhí)砑訄D片描述

下面給出滑窗實例。

代碼實現(xiàn)

滑窗函數(shù)

def sliding_window(DataSet, X_width, y_width, gap = 1, multi_vector = None, X_data = True):
    '''
    DataSet has to be as a DataFrame
    '''
    if X_data:
        if multi_vector:
            a,b = DataSet.shape
        else:
            a = DataSet.shape[0]
            b = 1
        c = (a-X_width-y_width-a%gap)/gap
        X = np.reshape(DataSet.iloc[0:X_width,:].values,(1,X_width,b))
        for i in range(len(DataSet) - X_width - y_width):
            i += 1
            if i > c:
                break
            j = i * gap
            tmp = DataSet.iloc[j:j + X_width,:].values
            tmp = np.reshape(tmp,(1,X_width,b))
            X = np.concatenate([X,tmp],0)
        return X
    else:
        if multi_vector:
            print('y_data-error：expect 1D ,given %dD'%DataSet.shape[1])
            return;
        else:
            a = DataSet.shape[0]
        c = (a-X_width-y_width-a%gap)/gap
        y = np.reshape(DataSet.iloc[X_width:X_width + y_width,0].values,(1,y_width))
        for i in range(len(DataSet) - X_width - y_width):
            i += 1
            if i > c:
                break
            j = i * gap + X_width
            tmp = DataSet.iloc[j:j + y_width,:].values
            tmp = np.reshape(tmp,(1,y_width))
            y = np.concatenate([y,tmp])
        return y

單特征時間序列

單特征時間序列是指僅有一個特征的一維時間序列，如股票收盤價、風電場風速數(shù)據(jù)、日營業(yè)額等。對單特征時間序列滑窗操作如下：

#DataSet訓練數(shù)據(jù)集
#X_width使用的歷史數(shù)據(jù)長度
#y_width要預測的數(shù)據(jù)長度
#X_data是否是X數(shù)據(jù)集
train_X = sliding_window(DataSet, X_width, y_width)
train_y = sliding_window(DataSet, X_width, y_width, X_data = None)

假設(shè)訓練數(shù)據(jù)集是一個100*1的序列，使用24個數(shù)據(jù)預測未來的1個數(shù)據(jù)，那么滑窗操作就將原數(shù)據(jù)做了這樣的變換：

多特征時間序列

多特征時間序列指時間序列的特征不止一個，如上文所舉的H、PT、PE三特征序列。這種數(shù)據(jù)一般使用在待預測的數(shù)據(jù)跟多個特征相關(guān)性較高的場合中，如氣象數(shù)據(jù)嵌入的風速預測、股市數(shù)據(jù)嵌入的收盤價格預測等。進行多特征時間序列滑窗操作如下：

#DataSet訓練數(shù)據(jù)集
#X_width使用的歷史數(shù)據(jù)長度
#y_width要預測的數(shù)據(jù)長度
#multi_vector是否為多特征
#X_data是否是X數(shù)據(jù)集
train_X = sliding_window(DataSet, X_width, y_width, multi_vector = True)
test_y = sliding_window(DataSet, X_width, y_width, multi_vector = True, X_data = None)

假設(shè)訓練數(shù)據(jù)集是一個100*3的序列，使用24個數(shù)據(jù)預測未來的1個數(shù)據(jù)，那么滑窗操作就將原數(shù)據(jù)做了這樣的變換：

注意事項

DataSet必須是DataFrame格式。

y數(shù)據(jù)集只能是一維。

總結(jié)

原文鏈接：https://blog.csdn.net/Chace_B/article/details/119487958

上一篇：一篇文章詳細解釋C++的友元(friend)_C 語言
下一篇：ASP.NET?MVC對URL匹配操作_實用技巧

日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

網(wǎng)站首頁編程語言正文

時間序列預測中的數(shù)據(jù)滑窗操作實例(python實現(xiàn))_python

目錄

撰寫背景

什么是數(shù)據(jù)滑窗

代碼實現(xiàn)

單特征時間序列

多特征時間序列

注意事項

總結(jié)

相關(guān)推薦

日本免费高清视频-国产福利视频导航-黄色在线播放国产-天天操天天操天天操天天操|www.shdianci.com

網(wǎng)站首頁 編程語言 正文

時間序列預測中的數(shù)據(jù)滑窗操作實例(python實現(xiàn))_python

目錄

撰寫背景

什么是數(shù)據(jù)滑窗

代碼實現(xiàn)

單特征時間序列

多特征時間序列

注意事項

總結(jié)

相關(guān)推薦

網(wǎng)站首頁編程語言正文