機器學習應用系列：強化學習驅動下的解耦時序對比選股模型.pdf

上傳者：m****
時間：2025/12/26
熱度：89
0人點贊
舉報

機器學習應用系列：強化學習驅動下的解耦時序對比選股模型。本報告提出了一種基于強化學習的解耦時序對比模型（DTLC_RL），該模型通過特征空間解耦、對比學習表征增強以及正交約束保障獨立性以及強化學習動態融合，構建了一個兼具深度學習非線性預測能力與良好可解釋性的選股框架。在模型設計中，我們分別構建了面向市場系統風險（β空間）、個股特異特征（α空間）和個股基本面信息（θ空間）的編碼器，并通過對比學習與正交約束提升各空間表征的區分度與互補性。在此基礎上，引入強化學習近端策略優化（PPO）算法以實現自適應調整各空間權重。

空間編碼器構建：本文以時間卷積網絡 TCN作為 beta空間特征的編碼器，以多尺度 Transformer 模型作為 Alpha空間編碼器，以門控殘差 MLP 作為 Theta 空間編碼器。對各個空間分別進行收益預測訓練，各空間編碼器均能有效提取目標信息，且生成因子具備一定選股能力。自 2019年 1月至 2025年 11月， Beta_TCN、Alpha_Transformer、Theta_ResMLP 因子 IC 分別為 0.0954、 0.1128、0.0485，多頭組合前 10%年化收益率分別為 27.73%、32.66%以及 23.88%。除此之外，各空間訓練得到的因子彼此間相關性較低且具備一定互補性，為后續多空間融合奠定一定基礎。

融合模型對照組實驗：本文分別測試了兩類空間融合對照組實驗：1）直接對三個空間訓練出的因子進行等權求和；2）將三個空間的編碼信息進行合并，并通過單層線性層進行處理并接入預測頭進行收益率預測。自 2019年 1月至 2025 年 11 月，DTLC 等權融合模型因子月平均 IC 為 0.1202，多頭組合（前 10%）年化收益率 32.46%；線性融合 DTLC 模型因子月平均 IC 為 0.1239，多頭組合年化收益率 32.95%。

強化學習驅動空間融合：本文引入強化學習來實現空間的動態復權融合，即在 DTLC 模型的三個編碼器后引入強化學習動態復權的空間融合機制。該部分將三個子空間編碼與市場環境特征共同輸入策略網絡，通過近端策略優化（PPO）算法動態生成空間權重，實現自適應加權融合，最終通過預測頭輸出未來收益率預測。自 2019年 1月至 2025年 11月，DTLC_RL 因子月平均 IC為 0.1250，多頭組合年化收益率 34.77%，顯著優于 DTLC_Linear 多頭表現。可見強化學習空間融合機制的加入使得因子性能有所提升。

指數增強測試：自 2019 年 1月至 2025 年 11月，DTLC_RL 因子滬深 300指數增強相對指數年化超額收益率 13.72%，近一個月、三個月、一年、三年超額收益率分別為-0.87%、1.53%、14.99%以及 12.58%；DTLC_RL 因子中證 1000 指數增強相對指數年化超額收益率 20.37%，近一個月、三個月、一年、三年超額收益率分別為 3.00%、4.52%、19.67%以及 13.76%。