當(dāng)前位置：首頁(yè) > 人工智能 > pytorch >内容正文

pytorch

当深度学习遇上量化交易——图与知识图谱篇

發(fā)布時(shí)間：2024/10/8 pytorch 111 豆豆

生活随笔收集整理的這篇文章主要介紹了当深度学习遇上量化交易——图与知识图谱篇小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,幫大家做個(gè)參考.

?PaperWeekly 原創(chuàng) ·?作者｜桑運(yùn)鑫

學(xué)校｜上海交通大學(xué)碩士生

研究方向｜圖神經(jīng)網(wǎng)絡(luò)在金融領(lǐng)域的應(yīng)用

本文主要回顧三篇將圖和知識(shí)圖譜應(yīng)用到量化交易上的文章。

NeurIPS 2019

論文標(biāo)題：Exploring Graph Neural Networks for Stock Market Predictions with RollingWindow Analysis

論文來(lái)源：NeurIPS 2019

論文鏈接：https://arxiv.org/abs/1909.10660

這篇文章指出除了從股票的歷史交易數(shù)據(jù)中產(chǎn)生的各種指標(biāo)，專(zhuān)業(yè)的投資者在選擇股票時(shí)還會(huì)考慮與該股票相關(guān)的企業(yè)，比如供應(yīng)商、消費(fèi)者、股份持有者等，我們應(yīng)該想辦法將這些信息利用起來(lái)用于股價(jià)預(yù)測(cè)。那么到了需要建模這種圖關(guān)系數(shù)據(jù)的時(shí)候，自然就輪到圖神經(jīng)網(wǎng)絡(luò)出場(chǎng)了。

對(duì)于一個(gè)圖而言，最重要的就是點(diǎn)的表示和邊的構(gòu)建。

在點(diǎn)的方式方面，作者使用 LSTM 從原始的技術(shù)因子中生成結(jié)點(diǎn)的 embedding。

論文將企業(yè)間的關(guān)系分為下面七類(lèi)。其中第一序列關(guān)系（first order）是兩個(gè)企業(yè)間的直接關(guān)系，但這種關(guān)系是比較稀疏的，并且已經(jīng)被股票投資者廣泛使用了。第二序列關(guān)系則是將具有共同特點(diǎn)的兩個(gè)企業(yè)連接起來(lái)。

最后將構(gòu)建好的圖通過(guò)一種稱(chēng)為 Temporal graph convolution 的方式進(jìn)行訓(xùn)練，得到結(jié)點(diǎn)的 embedding。

這個(gè)公式最重要的改進(jìn)就是加入了作為系數(shù)來(lái)表示兩個(gè)企業(yè)之間關(guān)系的動(dòng)態(tài)變化。因?yàn)閮芍还善弊罱趦r(jià)格上的走勢(shì)也接近，那么就越大，他們之間的關(guān)系也就越強(qiáng)。

論文中使用 Nikkei 225 market 上的 176 只股票，利用 Nikkei Value Search dataset 來(lái)抽取企業(yè)之間的關(guān)系。利用回報(bào)率和夏普率作為衡量指標(biāo)。實(shí)驗(yàn)結(jié)果如下圖所示。

實(shí)驗(yàn)證明了 customer-of 是企業(yè)間幾種關(guān)系中最為重要的一種，對(duì)企業(yè)股價(jià)具有比較好的預(yù)測(cè)作用。具有這種關(guān)系的兩家企業(yè)的股價(jià)在時(shí)序上具有比較好的相關(guān)性。此外，在不同的時(shí)間跨度上，不同的關(guān)系對(duì)于不同時(shí)期股價(jià)的預(yù)測(cè)作用不同。

從上圖可以看出，customer-of ?關(guān)系對(duì)于股價(jià)的預(yù)測(cè)作用在 1-day 時(shí)是最好的。此外，同一種關(guān)系在不同的跳數(shù)（hop）上預(yù)測(cè)作用的時(shí)間長(zhǎng)短也是不同的，這是一個(gè)可以擴(kuò)展的方向。

CIKM 2018

論文標(biāo)題：Incorporating Corporation Relationship via Graph Convolutional Neural Networks for Stock Price Prediction

論文來(lái)源：CIKM 2018

論文鏈接：https://dl.acm.org/doi/10.1145/3269206.3269269

與上篇論文的出發(fā)點(diǎn)相似的，這篇論文也將企業(yè)間的關(guān)系納入考慮。但與之不同的是，這篇論文更多地將其作為一種數(shù)據(jù)增強(qiáng)的手段，而不是直接在圖上進(jìn)行股價(jià)預(yù)測(cè)。文章使用如下方式建圖：

圖中的每個(gè)點(diǎn)代表一個(gè)企業(yè)，他們之間的邊代表兩家企業(yè)間的持股關(guān)系，變得權(quán)重表示持股比例。之后提出兩個(gè)模型利用圖進(jìn)行股價(jià)預(yù)測(cè)：Pipeline Prediction Model、Joint Prediction Model Based on GCN。

Pipline Prediction Model 使用 DeepWalk, node2vec 和 LINE 三種方法生成節(jié)點(diǎn)的 embedding。之后計(jì)算兩個(gè)結(jié)點(diǎn)之間的 cos 相似度選出與目標(biāo)公司最相似的家企業(yè)，把它們的特征取平均拼接到目標(biāo)企業(yè)的特征向量上：

最后將輸入到 LSTM 中進(jìn)行預(yù)測(cè)。

Joint Prediction Model Based on GCN 則是用 LSTM 獲得結(jié)點(diǎn)的向量表示，從前面構(gòu)建的圖中獲取鄰接矩陣，之后輸入到一個(gè)三層的 GCN 中完成預(yù)測(cè)。

對(duì) 2017 年的 CSI 300 的驗(yàn)證結(jié)果表明 LSTM+GCN 的預(yù)測(cè)準(zhǔn)確率更高（這里的評(píng)價(jià)指標(biāo)選的相當(dāng)不專(zhuān)業(yè)，一般來(lái)說(shuō)我們要選擇回報(bào)率以及能夠排除掉整個(gè)市場(chǎng)趨勢(shì)的一些指標(biāo)來(lái)衡量模型的實(shí)際盈利能力）。在所有圖表示學(xué)習(xí)的方法中，LINE 方法的表現(xiàn)更好。

COLING 2016

論文標(biāo)題：Knowledge-Driven Event Embedding for Stock Prediction

論文來(lái)源：COLING 2016

論文鏈接：https://www.aclweb.org/anthology/C16-1201/

在股票市場(chǎng)上，各種 event 對(duì)于股價(jià)是有較大影響的。這篇文章使用知識(shí)圖譜來(lái)抽取 event embedding，之后用于股價(jià)預(yù)測(cè)。

對(duì)于event可以將其看作一個(gè)三元組，其中是行動(dòng)者（actor）或主體（subject），是行動(dòng)或謂語(yǔ)（predicate），是被施加行為的客體。首先可以使用預(yù)訓(xùn)練的詞向量做平均來(lái)分別表示，之后使用 neural tensor network (NTN) 來(lái)計(jì)算隱向量。

為了合理的訓(xùn)練，采用隨機(jī)替換中單詞的方式來(lái)獲得負(fù)樣本（corrupted event tuple），損失函數(shù)如下：

但上述方式訓(xùn)練出的 event embedding 存在兩個(gè)的問(wèn)題：

1. 不能獲取兩個(gè)在語(yǔ)義或語(yǔ)法上相似事件的關(guān)系，如果兩者沒(méi)有相似的詞向量；

2. 同樣地，有兩個(gè)相似詞向量的事件不一定是相關(guān)的。

這兩個(gè)問(wèn)題出現(xiàn)的原因是在訓(xùn)練 event embedding 的時(shí)候沒(méi)有加入背景知識(shí)。而想要獲取背景知識(shí)就要利用知識(shí)圖譜，知識(shí)圖譜中存在兩種知識(shí)：關(guān)系知識(shí)（relational knowledge）和和類(lèi)別知識(shí)（categorical knowledge）。

這兩種關(guān)系同樣可以使用簡(jiǎn)單的 NTN 網(wǎng)絡(luò)來(lái)計(jì)算，其中是兩個(gè)實(shí)體，是某種關(guān)系：

通過(guò)隨機(jī)替換獲得負(fù)樣本，極小化如下的目標(biāo)函數(shù):

最后將兩個(gè)模型組合起來(lái)進(jìn)行訓(xùn)練，就可以獲得包含知識(shí)的event embedding。

目標(biāo)函數(shù)為：

實(shí)驗(yàn)從 Reuters News 和 Bloomberg News 抽取結(jié)構(gòu)化事件，使用 YAGO 作為知識(shí)圖譜，對(duì)標(biāo)準(zhǔn)普爾 500 指數(shù)和單個(gè)股票進(jìn)行預(yù)測(cè)。使用 Acc 和 MCC (Matthews Correlation Cofficient) 作為指標(biāo)。結(jié)果如下：

總結(jié)

這三篇論文是近五年圖神經(jīng)網(wǎng)絡(luò)和知識(shí)圖譜在量化投資上的應(yīng)用嘗試，主要集中與挖掘企業(yè)之間的相關(guān)關(guān)系，但也存在一些問(wèn)題，如三篇文章都沒(méi)有很好的解決市場(chǎng)的動(dòng)態(tài)性，企業(yè)間的關(guān)系是隨時(shí)間不斷變動(dòng)的，并且使用一個(gè)靜態(tài)的知識(shí)圖譜或數(shù)據(jù)集來(lái)抽取關(guān)系是否會(huì)造成數(shù)據(jù)泄露的問(wèn)題也沒(méi)有指明。

因?yàn)橄嚓P(guān)的資料確實(shí)相當(dāng)匱乏，我在 GitHub 上新建了一個(gè) repo 用于收集、整理相關(guān)的研究論文、書(shū)籍、數(shù)據(jù)、網(wǎng)站等，歡迎 star。

https://github.com/sangyx/deep-stock

如果您對(duì)深度學(xué)習(xí)在量化交易中的應(yīng)用感興趣，歡迎加我微信一起學(xué)習(xí)探討。

點(diǎn)擊以下標(biāo)題查看更多往期內(nèi)容：?

當(dāng)深度學(xué)習(xí)遇上量化交易——因子挖掘篇
針對(duì)復(fù)雜問(wèn)題的知識(shí)圖譜問(wèn)答最新進(jìn)展
圖神經(jīng)網(wǎng)絡(luò)三劍客：GCN、GAT與GraphSAGE
GELU的兩個(gè)初等函數(shù)近似是怎么來(lái)的？
協(xié)作多智能體強(qiáng)化學(xué)習(xí)中的回報(bào)函數(shù)設(shè)計(jì)
將“softmax+交叉熵”推廣到多標(biāo)簽分類(lèi)問(wèn)題

#投稿?通道#

?讓你的論文被更多人看到?

如何才能讓更多的優(yōu)質(zhì)內(nèi)容以更短路徑到達(dá)讀者群體，縮短讀者尋找優(yōu)質(zhì)內(nèi)容的成本呢？答案就是：你不認(rèn)識(shí)的人。

總有一些你不認(rèn)識(shí)的人，知道你想知道的東西。PaperWeekly 或許可以成為一座橋梁，促使不同背景、不同方向的學(xué)者和學(xué)術(shù)靈感相互碰撞，迸發(fā)出更多的可能性。?

PaperWeekly 鼓勵(lì)高校實(shí)驗(yàn)室或個(gè)人，在我們的平臺(tái)上分享各類(lèi)優(yōu)質(zhì)內(nèi)容，可以是最新論文解讀，也可以是學(xué)習(xí)心得或技術(shù)干貨。我們的目的只有一個(gè)，讓知識(shí)真正流動(dòng)起來(lái)。

?????來(lái)稿標(biāo)準(zhǔn)：

? 稿件確系個(gè)人原創(chuàng)作品，來(lái)稿需注明作者個(gè)人信息（姓名+學(xué)校/工作單位+學(xué)歷/職位+研究方向）?

? 如果文章并非首發(fā)，請(qǐng)?jiān)谕陡鍟r(shí)提醒并附上所有已發(fā)布鏈接?

? PaperWeekly 默認(rèn)每篇文章都是首發(fā)，均會(huì)添加“原創(chuàng)”標(biāo)志

?????投稿郵箱：

? 投稿郵箱：hr@paperweekly.site?

? 所有文章配圖，請(qǐng)單獨(dú)在附件中發(fā)送?

? 請(qǐng)留下即時(shí)聯(lián)系方式（微信或手機(jī)），以便我們?cè)诰庉嫲l(fā)布時(shí)和作者溝通

????

現(xiàn)在，在「知乎」也能找到我們了

進(jìn)入知乎首頁(yè)搜索「PaperWeekly」

點(diǎn)擊「關(guān)注」訂閱我們的專(zhuān)欄吧

關(guān)于PaperWeekly

PaperWeekly 是一個(gè)推薦、解讀、討論、報(bào)道人工智能前沿論文成果的學(xué)術(shù)平臺(tái)。如果你研究或從事 AI 領(lǐng)域，歡迎在公眾號(hào)后臺(tái)點(diǎn)擊「交流群」，小助手將把你帶入 PaperWeekly 的交流群里。

總結(jié)

以上是生活随笔為你收集整理的当深度学习遇上量化交易——图与知识图谱篇的全部?jī)?nèi)容，希望文章能夠幫你解決所遇到的問(wèn)題。

如果覺(jué)得生活随笔網(wǎng)站內(nèi)容還不錯(cuò)，歡迎將生活随笔推薦給好友。

上一篇：我如何一分钱没花学完AI课程，入职新浪算
下一篇：梳理百年深度学习发展史-七月在线机器学习