基于Python的攜程出行產(chǎn)品未來(lái)14個(gè)月銷量預(yù)測(cè)：數(shù)據(jù)處理流程與實(shí)踐

在旅游行業(yè)，準(zhǔn)確預(yù)測(cè)出行產(chǎn)品的未來(lái)銷量對(duì)于庫(kù)存管理、營(yíng)銷策略制定和收益優(yōu)化至關(guān)重要。本文將以攜程出行產(chǎn)品（如機(jī)票、酒店、度假套餐等）為例，詳細(xì)介紹如何使用Python進(jìn)行數(shù)據(jù)預(yù)處理、特征工程和初步分析，為后續(xù)構(gòu)建銷量預(yù)測(cè)模型奠定堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。預(yù)測(cè)未來(lái)14個(gè)月的銷量屬于中長(zhǎng)期時(shí)間序列預(yù)測(cè)，對(duì)數(shù)據(jù)的完整性和質(zhì)量要求極高。

一、數(shù)據(jù)獲取與理解

我們需要獲取歷史銷售數(shù)據(jù)。數(shù)據(jù)可能來(lái)源于公司數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)或提供的CSV/Excel文件。典型的數(shù)據(jù)字段包括：

產(chǎn)品標(biāo)識(shí)：產(chǎn)品ID、名稱、類別（機(jī)票/酒店/跟團(tuán)游等）。
時(shí)間維度：訂單日期、出行日期（對(duì)于預(yù)訂類產(chǎn)品尤為重要）。
銷售指標(biāo)：銷量（訂單數(shù)）、銷售額、預(yù)訂量。
產(chǎn)品屬性：出發(fā)城市、目的地城市、價(jià)格、艙等/房型、是否促銷。
外部因素：節(jié)假日標(biāo)記、天氣數(shù)據(jù)（可能需要后期整合）、宏觀經(jīng)濟(jì)指標(biāo)。

使用pandas庫(kù)進(jìn)行初步加載和探索：
`python
import pandas as pd
import numpy as np

df = pd.readcsv('ctripsalesdata.csv', parsedates=['orderdate', 'traveldate'])
print(df.head())
print(df.info())
print(df.describe())
`

二、數(shù)據(jù)清洗與預(yù)處理

這是確保預(yù)測(cè)準(zhǔn)確性的核心步驟。

1. 處理缺失值：檢查并處理銷量等關(guān)鍵字段的缺失。
`python
# 檢查缺失

print(df.isnull().sum())
# 根據(jù)情況填充或刪除。例如，對(duì)銷量缺失，若為近期數(shù)據(jù)可置0，或使用前后均值/插值法填充。

df['sales_volume'].fillna(method='ffill', inplace=True) # 前向填充，需謹(jǐn)慎
`

2. 處理異常值：銷量可能因系統(tǒng)錯(cuò)誤、大型團(tuán)購(gòu)等出現(xiàn)極端值。
`python
# 使用IQR或標(biāo)準(zhǔn)差方法檢測(cè)

Q1 = df['salesvolume'].quantile(0.25)
Q3 = df['salesvolume'].quantile(0.75)
IQR = Q3 - Q1
lowerbound = Q1 - 1.5 * IQR
upperbound = Q3 + 1.5 * IQR
# 可以考慮用邊界值替換或視為缺失值處理

df['salesvolume'] = np.where(df['salesvolume'] > upperbound, upperbound, df['sales_volume'])
`

數(shù)據(jù)一致性檢查：確保日期格式正確，價(jià)格非負(fù)，出行日期晚于訂單日期等。

三、特征工程

為時(shí)間序列預(yù)測(cè)模型構(gòu)建有效的特征是關(guān)鍵。

1. 時(shí)間特征提取：從訂單/出行日期中提取豐富的時(shí)序特征。
`python
df['year'] = df['orderdate'].dt.year
df['month'] = df['orderdate'].dt.month
df['dayofmonth'] = df['orderdate'].dt.day
df['dayofweek'] = df['orderdate'].dt.dayofweek # 周一=0
df['weekofyear'] = df['orderdate'].dt.isocalendar().week
df['isweekend'] = df['dayofweek'].apply(lambda x: 1 if x >= 5 else 0)
`

2. 滯后特征：歷史銷量對(duì)未來(lái)預(yù)測(cè)有直接影響。由于預(yù)測(cè)未來(lái)14個(gè)月，我們需要?jiǎng)?chuàng)建過(guò)去多個(gè)時(shí)間窗口的滯后特征。
`python
# 假設(shè)數(shù)據(jù)已按產(chǎn)品和日期排序

for lag in [1, 3, 6, 12]: # 滯后1個(gè)月、3個(gè)月、半年、一年
df[f'saleslag{lag}m'] = df.groupby('productid')['salesvolume'].shift(lag * 30) # 簡(jiǎn)化為30天一個(gè)月
`

3. 滾動(dòng)統(tǒng)計(jì)特征：捕捉趨勢(shì)和季節(jié)性。
`python
df['rollingmean3m'] = df.groupby('productid')['salesvolume'].transform(lambda x: x.rolling(window=90, minperiods=1).mean())
df['rollingstd3m'] = df.groupby('productid')['salesvolume'].transform(lambda x: x.rolling(window=90, minperiods=1).std())
`

節(jié)假日與事件特征：整合中國(guó)的法定節(jié)假日、寒暑假、旅游旺季（如國(guó)慶、春節(jié)）作為二元特征或影響權(quán)重。

5. 產(chǎn)品類別編碼：對(duì)出發(fā)地、目的地、產(chǎn)品類型等進(jìn)行標(biāo)簽編碼或獨(dú)熱編碼。
`python
from sklearn.preprocessing import LabelEncoder
le = LabelEncoder()
df['departurecityencoded'] = le.fittransform(df['departurecity'])
# 或者使用pd.get_dummies進(jìn)行獨(dú)熱編碼

df = pd.getdummies(df, columns=['producttype'], prefix='type')

四、數(shù)據(jù)重構(gòu)與聚合

預(yù)測(cè)目標(biāo)通常是未來(lái)14個(gè)月每個(gè)月的總銷量。因此，我們需要將原始數(shù)據(jù)（可能是日度或周度）聚合到月度級(jí)別。

`python # 假設(shè)以‘order_date’的月份為時(shí)間點(diǎn)進(jìn)行聚合，并計(jì)算月度銷量

monthlydf = df.setindex('orderdate').groupby(['productid', pd.Grouper(freq='M')])['salesvolume'].sum().resetindex()
# 確保時(shí)間序列連續(xù)，填充可能缺失的月份（銷量為0）

創(chuàng)建完整的日期范圍

alldates = pd.daterange(start=monthlydf['orderdate'].min(), end=monthlydf['orderdate'].max(), freq='M')
allproducts = monthlydf['product_id'].unique()
# 使用交叉連接創(chuàng)建完整面板數(shù)據(jù)

fullindex = pd.MultiIndex.fromproduct([allproducts, alldates], names=['productid', 'orderdate'])
monthlydffull = monthlydf.setindex(['productid', 'orderdate']).reindex(fullindex, fillvalue=0).reset_index()
`

五、為預(yù)測(cè)準(zhǔn)備數(shù)據(jù)集

將處理好的數(shù)據(jù)劃分為訓(xùn)練集和測(cè)試集。由于是時(shí)間序列，不能隨機(jī)劃分，必須按時(shí)間順序劃分。

`python # 假設(shè)我們最后14個(gè)月作為驗(yàn)證未來(lái)預(yù)測(cè)的參考，倒數(shù)第15個(gè)月之前的數(shù)據(jù)用于訓(xùn)練

cutoffdate = monthlydffull['orderdate'].max() - pd.DateOffset(months=14)
traindata = monthlydffull[monthlydffull['orderdate'] < cutoff_date]
# 注意：實(shí)際預(yù)測(cè)時(shí)，我們使用全部歷史數(shù)據(jù)訓(xùn)練，然后預(yù)測(cè)未來(lái)14個(gè)月。

這里的劃分是為了驗(yàn)證模型在“已知未來(lái)”一段時(shí)期上的表現(xiàn)。

六、數(shù)據(jù)標(biāo)準(zhǔn)化/歸一化

對(duì)于涉及距離的模型（如神經(jīng)網(wǎng)絡(luò)、SVM），需要對(duì)數(shù)值特征進(jìn)行縮放。對(duì)于樹模型（如LightGBM, XGBoost）通常不需要。

`python from sklearn.preprocessing import StandardScaler scaler = StandardScaler() numericalfeatures = ['price', 'rollingmean3m', 'saleslag_12m'] # 示例特征列 scaler.fit(traindata[numericalfeatures]) traindata[numericalfeatures] = scaler.transform(traindata[numericalfeatures]) # 對(duì)測(cè)試數(shù)據(jù)使用相同的scaler進(jìn)行轉(zhuǎn)換 `

###

通過(guò)以上步驟，我們完成了攜程出行產(chǎn)品銷量預(yù)測(cè)項(xiàng)目的數(shù)據(jù)處理階段。我們清洗了原始數(shù)據(jù)，構(gòu)建了包含時(shí)序滯后、滾動(dòng)統(tǒng)計(jì)、節(jié)假日等多維特征的數(shù)據(jù)集，并將其規(guī)范化為適合機(jī)器學(xué)習(xí)模型輸入的格式。處理后的數(shù)據(jù)將作為輸入，用于訓(xùn)練如Prophet、ARIMA、LightGBM或LSTM等時(shí)間序列預(yù)測(cè)模型，以生成未來(lái)14個(gè)月的銷量預(yù)測(cè)。值得注意的是，在實(shí)際項(xiàng)目中，數(shù)據(jù)處理是一個(gè)迭代過(guò)程，需要根據(jù)模型反饋不斷調(diào)整特征工程策略，并與業(yè)務(wù)理解緊密結(jié)合，才能獲得具有指導(dǎo)意義的預(yù)測(cè)結(jié)果。