如期而至-用戶購買時間預測(上)

關注並標星索信達

每天打卡閱讀

更快走進金融人工智能世界

━━━━━━

如期而至-用戶購買時間預測(上)


我們是索信達集團旗下的金融人工智能實驗室團隊,微信公眾號(datamargin)將不定期推送原創AI科學文章。我們的作品都是由實戰經驗豐富的AI科學技術人員或資深顧問精心準備,志在分享結合實際業務的理論應用和心得體會。


文 | 嚴 文 輝 王 晨 楊 弦

摘 要:相對於傳統的經營模式來說,爆炸性增長的數據已經成為電子商務非常具有優勢和商業價值的資源,如何深度挖掘海量用戶數據,讓大數據創造商業價值,成為各大電商平臺關注的焦點。本文研究的問題主要關於如何實現“精準營銷”,利用電商平臺用戶購買行為及商品信息等數據,預測目標時段內最有可能購買目標商品的用戶群體,以及該群體在目標時段內首次購買的日期。本文首先對數據進行清洗和可視化處理,初步得到數據的相關特點,其次針對研究目標進行特徵提取,分為超短期、短期、中期、長期特徵,較為全面的完成特徵構建,接著進行LightGBM模型構建,經過多次地參數調整和模型訓練,最終得到比較優良的預測結果。

關鍵詞:購買預測;特徵構建;LightGBM


如期而至-用戶購買時間預測(上)


1.背景介紹


隨著網購的流行和電商平臺的崛起,電商之間的競爭愈演愈烈。”No data, no value”,在大數據浪潮席捲而來的今天,如何深度挖掘海量用戶數據,讓大數據創造商業價值,成為各大電商平臺關注的焦點。相對於傳統的經營模式來說,爆炸性增長的數據已經成為電子商務非常具有優勢和商業價值的資源。因為電商幾乎掌握了最全面的數據信息,其中包括所有註冊用戶的瀏覽信息、購買消費記錄、用戶對商品的評價、在其平臺上賣家的買賣記錄、產品交易量、庫存量,以及商家的信用信息等等。所以說,大數據貫穿了整個電子商務的業務流程,已經成為電商真正的核心競爭力。零售業的本質是成本、效率、用戶體驗,各大電商只有根據用戶購物需求的不斷變化和對品牌和品質需求的日益提升,不斷改進自身的銷售策略,提高自身的服務水平,才能在行業中處於領先地位。

數據是電商提供服務的基礎,面對數據規模、存儲方式以及組織方式等特徵的轉變,電商所提供的推薦服務也應該進行轉變,以應對當前整個數據環境的更新。推薦服務其實是基於信息檢索結果的推薦服務,即電商將消費者搜索過的每條信息羅列在頁面中,供用戶瀏覽,通過查看詳情來衡量此信息的重要度。用戶每天都要瀏覽大量的數據信息,並非所有信息都是有效的,在時間不充裕的情況下,不可能逐條打開每個商品信息的詳情來查看,所以說這種推薦服務存在著一定的問題。對用戶購買商品的時間進行準確預測,能夠保證按時、精準向消費者推薦日常生活中所需的米、面、水等熱銷品類,在合適的時間段提醒消費者進行復購,真正做到“想消費者之所想”,不讓日常生活“斷水斷糧”,這樣的“精準營銷”對電商平臺的銷售和運營都有著巨大的作用。


如期而至-用戶購買時間預測(上)


2.數據來源


數據來源於JDATA算法大賽的“如期而至-用戶購買時間預測”一題,京東提供了脫敏後的真實用戶數據,包括用戶基本信息(99412條)、商品基本信息(98924條)、用戶行為信息(6944141條)、用戶下單信息(792723條)及用戶評價信息(224284條),共計8159484條數據,數據的時間範圍在2016年5月1日—2017年5月1日之間。


如期而至-用戶購買時間預測(上)


3.問題敘述


根據已有數據,對數據進行處理,通過訓練模型,預測未來1個月內最有可能購買目標品類的用戶,並預測這些用戶在該月內首次購買的日期。針對所給數據,提供以下幾點說明:

(1) 確定考察時間段的起點為T,目標品類集合為C={101,30},從訂單表隨機選取在時間段[ T-3△M,T )購買過目標品類商品的部分用戶作為本賽題的目標用戶集合U,其基本信息構成用戶基本信息表,△M表示月單元(一個月)。

(2) 從訂單表抽取U對C∪C’在時間段[ T-12△M,T )的訂單數據構成用戶下單信息表,C’為與C存在一定相關性的其他品類集合。

(3) 從行為表抽取U對C∪C’在時間段[ T-12△M,T )的行為數據構成用戶行為信息表。

(4) 用戶下單信息表與用戶行為信息表中出現的所有商品對應的基本信息構成商品基本信息表。

(5) 從用戶下單商品評分表抽取U對C∪C’在時間段[ T-12△M,T )的商品評分數據構成用戶評價信息表。

(6) T為“2017-05-01 00:00:00”.


如期而至-用戶購買時間預測(上)


4.參數設置


如期而至-用戶購買時間預測(上)



如期而至-用戶購買時間預測(上)


5.解題思路


5.1 解題目標

(1)預測用戶預測期購買的商品數量,表示用戶購買可能性的大小;

(2)預測用戶預測期購買的日期,以距離當月第一天的天數為預測目標;

(3)通過對用戶購買商品數量進行從大到小排序,得到結果。

5.2 解題流程

(1)問題分析:本題實質是兩個預測問題。主要目標是根據2016年5月1日—2017年5月1日的用戶和商品數據,預測未來1個月內最有可能購買目標商品的用戶,並預測這些用戶在該月的首次購買日期。

(2)數據處理:通過對數據列表的合併、連接,得到與目標商品有關的用戶信息、商品信息、用戶下單信息、用戶行為信息、用戶評價信息,為下一步的特徵構建進行數據準備;構建訓練集,將2016年5月1日—2017年5月1日作為訓練集,其中2016年5月1日—2017年4月1日為觀察期,2017年4月1日—2017年5月1日為預測期,為模型訓練做準備。

(3)特徵構建:基於用戶基本信息、購買信息、行為信息、時間信息等構建特徵,將其分為超短期特徵(15天)、短期特徵(30天)、中期特徵(3個月)、長期特徵(6個月)四類,共計20餘個特徵。

(4)模型搭建:基於上述構建的特徵,建立模型,主要使用LightGBM集成模型框架。

(5)總結評價:通過不斷增改特徵、訓練LightGBM模型,得到較優的預測結果,對預測結果進行總結和評價。


如期而至-用戶購買時間預測(上)


如期而至-用戶購買時間預測(上)


6.數據處理


6.1 劃分訓練集


如期而至-用戶購買時間預測(上)


6.2數據可視化(略)

本期文章分為上、下兩部分,下一期我們將繼續分享:7.特徵構建、8.模型構建、9.結果展示等三大精彩內容,敬請期待!


分享到:


相關文章: