如何避免量化交易策略模型过度拟合
引言:量化交易建模最重要的一個(gè)方面是避免過(guò)度擬合。過(guò)度擬合是統(tǒng)計(jì)學(xué)和機(jī)器學(xué)習(xí)領(lǐng)域的概念,指的是模型在訓(xùn)練數(shù)據(jù)中擬合程度很好,但在測(cè)試數(shù)據(jù)中表現(xiàn)卻不如人意。
一、過(guò)度擬合的影響
傳統(tǒng)的機(jī)器學(xué)習(xí)問(wèn)題,此類(lèi)過(guò)度擬合的不會(huì)很明顯。比如對(duì)于分類(lèi)問(wèn)題,一般訓(xùn)練集準(zhǔn)確度99%,測(cè)試集即使過(guò)度擬合也有95%,這其實(shí)影響并不會(huì)很大。但是對(duì)于金融數(shù)據(jù)而言,由于數(shù)據(jù)的高噪音及時(shí)間序列特征,訓(xùn)練數(shù)據(jù)和測(cè)試數(shù)據(jù)往往會(huì)有較大差異,如果建模過(guò)程不是很?chē)?yán)謹(jǐn),很容易出現(xiàn)嚴(yán)重的過(guò)度擬合現(xiàn)象,結(jié)果就是樣本內(nèi)穩(wěn)定賺錢(qián)的策略,到了樣本外就穩(wěn)定虧錢(qián)。
二、如何避免過(guò)度擬合
避免過(guò)度擬合的思想需要貫穿在量化建模的整個(gè)過(guò)程中,每一個(gè)步驟都需要遵循客觀嚴(yán)謹(jǐn)?shù)脑瓌t。一個(gè)好的量化交易建模體系,必須能較好地克服過(guò)度擬合的情況,使得量化研究人員按照整個(gè)研發(fā)流程走下來(lái)得到的策略,就能夠很好地避免過(guò)度擬合。根據(jù)我們的經(jīng)驗(yàn),可以通過(guò)以下幾點(diǎn)來(lái)實(shí)現(xiàn):
1、保證一定的交易次數(shù)
對(duì)于商品期貨策略,如果分品種進(jìn)行回測(cè),部分不活躍品種可能一年都沒(méi)有20次交易,幾年下來(lái)總的交易次數(shù)不到100次,這樣就難以形成統(tǒng)計(jì)意義,非常容易過(guò)度擬合。如果是套利類(lèi)策略,持倉(cāng)時(shí)間更長(zhǎng),可能一年才幾次交易,結(jié)果的可靠性就更加存疑了。因此,對(duì)于這種情況,有必要多品種同時(shí)回測(cè),增加策略的交易次數(shù),一般有300次以上的交易次數(shù)才能比較好地證明策略有效性。
2、保證一定的平均利潤(rùn)
有些策略雖然交易次數(shù)多,效果也不錯(cuò),但是平均利潤(rùn)過(guò)低,實(shí)盤(pán)交易中如果受到滑點(diǎn)的影響,很可能從穩(wěn)定盈利變成穩(wěn)定虧損。因此,需要保證一定的平均利潤(rùn),最好有10倍買(mǎi)賣(mài)價(jià)差以上,才能更好地避免滑點(diǎn)帶來(lái)的影響。
3、避免重復(fù)使用測(cè)試數(shù)據(jù)
一般來(lái)說(shuō)測(cè)試數(shù)據(jù)只使用一次才是最準(zhǔn)確的,否則,反復(fù)使用測(cè)試數(shù)據(jù)也會(huì)導(dǎo)致過(guò)度擬合的問(wèn)題。即使建模后進(jìn)行模擬交易,中低頻一個(gè)月也沒(méi)有很多交易,很難評(píng)價(jià)策略的好壞。因此,只能在建模中保證過(guò)程的嚴(yán)謹(jǐn)性,保證有1、2年完全樣本外的測(cè)試數(shù)據(jù),最后的結(jié)果才會(huì)真實(shí)可靠。
三、如何提高模型質(zhì)量
當(dāng)然,很多過(guò)度擬合的情況之所以會(huì)發(fā)生,是因?yàn)檠芯窟^(guò)程中難以得到令人滿意的結(jié)果,比如正常套路建模得到的策略在樣本外總是表現(xiàn)不好,很難得到樣本外表現(xiàn)好的策略,久而久之,只好把樣本外的數(shù)據(jù)放到樣本內(nèi)進(jìn)行優(yōu)化,才能得到好的結(jié)果。或者說(shuō)交易次數(shù)多了平均利潤(rùn)就少了,兩個(gè)條件無(wú)法同時(shí)滿足。為此,我覺(jué)得有如下幾個(gè)方法可以提高模型質(zhì)量:
1、提高因子質(zhì)量
因子是建模的基礎(chǔ),如果因子質(zhì)量太差,無(wú)論模型再?gòu)?fù)雜,也無(wú)法得到好的結(jié)果。因此,可以逐個(gè)考察因子的質(zhì)量。例如用單個(gè)因子建模,看是否會(huì)出現(xiàn)過(guò)度擬合的情況。正常來(lái)說(shuō),單個(gè)因子是結(jié)構(gòu)最簡(jiǎn)單的模型,不會(huì)過(guò)度擬合的。如果單個(gè)因子建模質(zhì)量不佳,說(shuō)明這個(gè)因子或許只是隨機(jī)噪音,可以及時(shí)剔除,不必放入模型。
2、優(yōu)化篩選標(biāo)準(zhǔn)
在樣本內(nèi)挑選策略的時(shí)候,不必設(shè)置太苛刻的標(biāo)準(zhǔn)。如果標(biāo)準(zhǔn)太苛刻,反而會(huì)過(guò)度擬合到樣本內(nèi)的數(shù)據(jù),很多時(shí)候無(wú)法泛化到樣本外。而且,當(dāng)個(gè)品種的策略與品種走勢(shì)高度相關(guān),如果品種走勢(shì)不理想,策略長(zhǎng)時(shí)間不盈利反而是正常現(xiàn)象,如果非要選擇在不利行情都能表現(xiàn)好的策略,那么就大大增加了過(guò)度擬合的風(fēng)險(xiǎn)。
3、增加策略多樣性
金融市場(chǎng)有句話說(shuō)“過(guò)去的業(yè)績(jī)不代表未來(lái)”,那么放到策略上就是“過(guò)去好的策略不代表未來(lái)還會(huì)好”。過(guò)去的投資組合理論喜歡用均值方差模型,但困難在于收益均值很難預(yù)測(cè)。因此,最近幾年人們逐漸使用風(fēng)險(xiǎn)平價(jià)模型來(lái)代替。在選擇策略的時(shí)候,不必對(duì)過(guò)往業(yè)績(jī)做出過(guò)于苛刻的規(guī)定,否則容易得出相關(guān)性極高的策略。可以從各個(gè)維度來(lái)篩選策略,增加策略多樣性。
4、金融數(shù)據(jù)的時(shí)間序列特征
由于金融數(shù)據(jù)的時(shí)間序列特征,建模的時(shí)候最好采取滾動(dòng)向前的方法。為了保證訓(xùn)練集有足夠的交易次數(shù),訓(xùn)練時(shí)間也要足夠長(zhǎng)。如果測(cè)試結(jié)果對(duì)訓(xùn)練、測(cè)試集的劃分過(guò)于敏感,很可能是長(zhǎng)度不夠交易次數(shù)不夠?qū)е碌?#xff0c;這些都要小心。
綜上所述,金融量化建模需要建立嚴(yán)謹(jǐn)?shù)难芯靠蚣?#xff0c;從因子構(gòu)造到投資組合優(yōu)化整個(gè)流程都需要時(shí)刻避免過(guò)度擬合,這樣最后的結(jié)果才會(huì)更為可靠。
來(lái)源:七禾網(wǎng)
推薦閱讀:?|?量化交易??|?期貨模擬交易?|?python量化交易?|?股票數(shù)據(jù)??|?量化交易策略?|?機(jī)器學(xué)習(xí)算法??|?多因子選股?|??
? ? ? ? ? ? ? ? ? ?|?雙均線策略?|??網(wǎng)格交易法?|??海龜交易法??|??跨期套利??|?行業(yè)輪動(dòng)??|?指數(shù)增強(qiáng)??|?跨品種套利?|?日內(nèi)交易?|
?
總結(jié)
以上是生活随笔為你收集整理的如何避免量化交易策略模型过度拟合的全部?jī)?nèi)容,希望文章能夠幫你解決所遇到的問(wèn)題。
- 上一篇: Docker (1) 基本概念和安装
- 下一篇: 2ASK调制解调