当深度学习遇上量化交易——图与知识图谱篇
?PaperWeekly 原創(chuàng) ·?作者|桑運(yùn)鑫
學(xué)校|上海交通大學(xué)碩士生
研究方向|圖神經(jīng)網(wǎng)絡(luò)在金融領(lǐng)域的應(yīng)用
本文主要回顧三篇將圖和知識(shí)圖譜應(yīng)用到量化交易上的文章。
NeurIPS 2019
論文標(biāo)題:Exploring Graph Neural Networks for Stock Market Predictions with RollingWindow Analysis
論文來(lái)源:NeurIPS 2019
論文鏈接:https://arxiv.org/abs/1909.10660
這篇文章指出除了從股票的歷史交易數(shù)據(jù)中產(chǎn)生的各種指標(biāo),專(zhuān)業(yè)的投資者在選擇股票時(shí)還會(huì)考慮與該股票相關(guān)的企業(yè),比如供應(yīng)商、消費(fèi)者、股份持有者等,我們應(yīng)該想辦法將這些信息利用起來(lái)用于股價(jià)預(yù)測(cè)。那么到了需要建模這種圖關(guān)系數(shù)據(jù)的時(shí)候,自然就輪到圖神經(jīng)網(wǎng)絡(luò)出場(chǎng)了。
對(duì)于一個(gè)圖而言,最重要的就是點(diǎn)的表示和邊的構(gòu)建。
在點(diǎn)的方式方面,作者使用 LSTM 從原始的技術(shù)因子中生成結(jié)點(diǎn)的 embedding。
論文將企業(yè)間的關(guān)系分為下面七類(lèi)。其中第一序列關(guān)系(first order)是兩個(gè)企業(yè)間的直接關(guān)系,但這種關(guān)系是比較稀疏的,并且已經(jīng)被股票投資者廣泛使用了。第二序列關(guān)系則是將具有共同特點(diǎn)的兩個(gè)企業(yè)連接起來(lái)。
最后將構(gòu)建好的圖通過(guò)一種稱(chēng)為 Temporal graph convolution 的方式進(jìn)行訓(xùn)練,得到結(jié)點(diǎn)的 embedding。
這個(gè)公式最重要的改進(jìn)就是加入了 作為系數(shù)來(lái)表示兩個(gè)企業(yè)之間關(guān)系的動(dòng)態(tài)變化。因?yàn)閮芍还善弊罱趦r(jià)格上的走勢(shì)也接近,那么 就越大,他們之間的關(guān)系也就越強(qiáng)。
論文中使用 Nikkei 225 market 上的 176 只股票,利用 Nikkei Value Search dataset 來(lái)抽取企業(yè)之間的關(guān)系。利用回報(bào)率 和夏普率 作為衡量指標(biāo)。實(shí)驗(yàn)結(jié)果如下圖所示。
實(shí)驗(yàn)證明了 customer-of 是企業(yè)間幾種關(guān)系中最為重要的一種,對(duì)企業(yè)股價(jià)具有比較好的預(yù)測(cè)作用。具有這種關(guān)系的兩家企業(yè)的股價(jià)在時(shí)序上具有比較好的相關(guān)性。此外,在不同的時(shí)間跨度上,不同的關(guān)系對(duì)于不同時(shí)期股價(jià)的預(yù)測(cè)作用不同。
從上圖可以看出,customer-of ?關(guān)系對(duì)于股價(jià)的預(yù)測(cè)作用在 1-day 時(shí)是最好的。此外,同一種關(guān)系在不同的跳數(shù)(hop)上預(yù)測(cè)作用的時(shí)間長(zhǎng)短也是不同的,這是一個(gè)可以擴(kuò)展的方向。
CIKM 2018
論文標(biāo)題:Incorporating Corporation Relationship via Graph Convolutional Neural Networks for Stock Price Prediction
論文來(lái)源:CIKM 2018
論文鏈接:https://dl.acm.org/doi/10.1145/3269206.3269269
與上篇論文的出發(fā)點(diǎn)相似的,這篇論文也將企業(yè)間的關(guān)系納入考慮。但與之不同的是,這篇論文更多地將其作為一種數(shù)據(jù)增強(qiáng)的手段,而不是直接在圖上進(jìn)行股價(jià)預(yù)測(cè)。文章使用如下方式建圖:
圖中的每個(gè)點(diǎn)代表一個(gè)企業(yè),他們之間的邊代表兩家企業(yè)間的持股關(guān)系,變得權(quán)重表示持股比例。之后提出兩個(gè)模型利用圖進(jìn)行股價(jià)預(yù)測(cè):Pipeline Prediction Model、Joint Prediction Model Based on GCN。
Pipline Prediction Model 使用 DeepWalk, node2vec 和 LINE 三種方法生成節(jié)點(diǎn)的 embedding。之后計(jì)算兩個(gè)結(jié)點(diǎn)之間的 cos 相似度選出與目標(biāo)公司最相似的 家企業(yè),把它們的特征取平均拼接到目標(biāo)企業(yè)的特征向量上:
最后將 輸入到 LSTM 中進(jìn)行預(yù)測(cè)。
Joint Prediction Model Based on GCN 則是用 LSTM 獲得結(jié)點(diǎn)的向量表示,從前面構(gòu)建的圖中獲取鄰接矩陣,之后輸入到一個(gè)三層的 GCN 中完成預(yù)測(cè)。
對(duì) 2017 年的 CSI 300 的驗(yàn)證結(jié)果表明 LSTM+GCN 的預(yù)測(cè)準(zhǔn)確率更高(這里的評(píng)價(jià)指標(biāo)選的相當(dāng)不專(zhuān)業(yè),一般來(lái)說(shuō)我們要選擇回報(bào)率以及能夠排除掉整個(gè)市場(chǎng)趨勢(shì)的一些指標(biāo)來(lái)衡量模型的實(shí)際盈利能力)。在所有圖表示學(xué)習(xí)的方法中,LINE 方法的表現(xiàn)更好。
COLING 2016
論文標(biāo)題:Knowledge-Driven Event Embedding for Stock Prediction
論文來(lái)源:COLING 2016
論文鏈接:https://www.aclweb.org/anthology/C16-1201/
在股票市場(chǎng)上,各種 event 對(duì)于股價(jià)是有較大影響的。這篇文章使用知識(shí)圖譜來(lái)抽取 event embedding,之后用于股價(jià)預(yù)測(cè)。
對(duì)于event可以將其看作一個(gè)三元組 ,其中 是行動(dòng)者(actor)或主體(subject), 是行動(dòng)或謂語(yǔ)(predicate), 是被施加行為的客體。首先可以使用預(yù)訓(xùn)練的詞向量做平均來(lái)分別表示 ,之后使用 neural tensor network (NTN) 來(lái)計(jì)算隱向量。
為了合理的訓(xùn)練,采用隨機(jī)替換 中單詞的方式來(lái)獲得負(fù)樣本(corrupted event tuple),損失函數(shù)如下:
但上述方式訓(xùn)練出的 event embedding 存在兩個(gè)的問(wèn)題:
1. 不能獲取兩個(gè)在語(yǔ)義或語(yǔ)法上相似事件的關(guān)系,如果兩者沒(méi)有相似的詞向量;
2. 同樣地,有兩個(gè)相似詞向量的事件不一定是相關(guān)的。
這兩個(gè)問(wèn)題出現(xiàn)的原因是在訓(xùn)練 event embedding 的時(shí)候沒(méi)有加入背景知識(shí)。而想要獲取背景知識(shí)就要利用知識(shí)圖譜,知識(shí)圖譜中存在兩種知識(shí):關(guān)系知識(shí)(relational knowledge)和和類(lèi)別知識(shí)(categorical knowledge)。
這兩種關(guān)系同樣可以使用簡(jiǎn)單的 NTN 網(wǎng)絡(luò)來(lái)計(jì)算,其中 是兩個(gè)實(shí)體, 是某種關(guān)系:
通過(guò)隨機(jī)替換 獲得負(fù)樣本 ,極小化如下的目標(biāo)函數(shù):
最后將兩個(gè)模型組合起來(lái)進(jìn)行訓(xùn)練,就可以獲得包含知識(shí)的event embedding。
目標(biāo)函數(shù)為:
實(shí)驗(yàn)從 Reuters News 和 Bloomberg News 抽取結(jié)構(gòu)化事件,使用 YAGO 作為知識(shí)圖譜,對(duì)標(biāo)準(zhǔn)普爾 500 指數(shù)和單個(gè)股票進(jìn)行預(yù)測(cè)。使用 Acc 和 MCC (Matthews Correlation Cofficient) 作為指標(biāo)。結(jié)果如下:
總結(jié)
這三篇論文是近五年圖神經(jīng)網(wǎng)絡(luò)和知識(shí)圖譜在量化投資上的應(yīng)用嘗試,主要集中與挖掘企業(yè)之間的相關(guān)關(guān)系,但也存在一些問(wèn)題,如三篇文章都沒(méi)有很好的解決市場(chǎng)的動(dòng)態(tài)性,企業(yè)間的關(guān)系是隨時(shí)間不斷變動(dòng)的,并且使用一個(gè)靜態(tài)的知識(shí)圖譜或數(shù)據(jù)集來(lái)抽取關(guān)系是否會(huì)造成數(shù)據(jù)泄露的問(wèn)題也沒(méi)有指明。
因?yàn)橄嚓P(guān)的資料確實(shí)相當(dāng)匱乏,我在 GitHub 上新建了一個(gè) repo 用于收集、整理相關(guān)的研究論文、書(shū)籍、數(shù)據(jù)、網(wǎng)站等,歡迎 star。
https://github.com/sangyx/deep-stock
如果您對(duì)深度學(xué)習(xí)在量化交易中的應(yīng)用感興趣,歡迎加我微信一起學(xué)習(xí)探討。
點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容:?
當(dāng)深度學(xué)習(xí)遇上量化交易——因子挖掘篇
針對(duì)復(fù)雜問(wèn)題的知識(shí)圖譜問(wèn)答最新進(jìn)展
圖神經(jīng)網(wǎng)絡(luò)三劍客:GCN、GAT與GraphSAGE
GELU的兩個(gè)初等函數(shù)近似是怎么來(lái)的?
協(xié)作多智能體強(qiáng)化學(xué)習(xí)中的回報(bào)函數(shù)設(shè)計(jì)
將“softmax+交叉熵”推廣到多標(biāo)簽分類(lèi)問(wèn)題
#投 稿?通 道#
?讓你的論文被更多人看到?
如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體,縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢?答案就是:你不認(rèn)識(shí)的人。
總有一些你不認(rèn)識(shí)的人,知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁,促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞,迸發(fā)出更多的可能性。?
PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人,在我們的平臺(tái)上分享各類(lèi)優(yōu)質(zhì)內(nèi)容,可以是最新論文解讀,也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè),讓知識(shí)真正流動(dòng)起來(lái)。
?????來(lái)稿標(biāo)準(zhǔn):
? 稿件確系個(gè)人原創(chuàng)作品,來(lái)稿需注明作者個(gè)人信息(姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向)?
? 如果文章并非首發(fā),請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?
? PaperWeekly 默認(rèn)每篇文章都是首發(fā),均會(huì)添加“原創(chuàng)”標(biāo)志
?????投稿郵箱:
? 投稿郵箱:hr@paperweekly.site?
? 所有文章配圖,請(qǐng)單獨(dú)在附件中發(fā)送?
? 請(qǐng)留下即時(shí)聯(lián)系方式(微信或手機(jī)),以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通
????
現(xiàn)在,在「知乎」也能找到我們了
進(jìn)入知乎首頁(yè)搜索「PaperWeekly」
點(diǎn)擊「關(guān)注」訂閱我們的專(zhuān)欄吧
關(guān)于PaperWeekly
PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域,歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」,小助手將把你帶入 PaperWeekly 的交流群里。
總結(jié)
以上是生活随笔為你收集整理的当深度学习遇上量化交易——图与知识图谱篇的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: 我如何一分钱没花学完AI课程,入职新浪算
- 下一篇: 梳理百年深度学习发展史-七月在线机器学习