掘金社区

《风险中性的深度学习选股策略》Pinned highlighted

船长 发表在策略研究 2018-10-22 14:00:56

策略研究
562
0
0

来自广发证券金工团队的《风险中性的深度学习选股策略》

风险中性的机器学习选股模型

模型训练:通过训练样本,确定模型结构,优化模型参数。

预测输出 Y 的维度:3。

输入特征 X 的维度:156(128个因子+28个行业) 通过网格搜索获取最优的模型结构。

选取模型结构为: 156(输入层)-512-200-200-200-128-3(输出层) 即一共包含5个隐层。

隐层节点数依次为:512(隐层1)、 200(隐层2)、 200(隐层3)、 200(隐层4)、 128(隐层5)。

0_1540177733472_94c66f6e-6ce5-4241-a311-0d4a7b69b467-image.png

0_1540177771083_5b74c415-1b77-4076-8c50-6c0d1380f633-image.png

提高深层神经网络选股性能的主要方法:

1、采用relu等激活函数。

2、将优化目标函数MSE改成交叉熵。

3、Batch normalization技术。

4、Dropout技术。

采用Keras作为机器学习平台:

1、可以选择Tensorflow、CNTK、Theano(目前已经停止更新)作为后端。

2、目前已经支持多GPU。

3、显卡选择:Nvidia GTX Titan XP, GTX 1080Ti, GTX Titan, GTX 1080, GTX1070, GTX 1060。

机器学习多因子选股模型:从股票特征中提取信息,对股票未来的收益进行预测,选出能够产生超额收益的股票组合。

多因子选股模型:

挑选出未来一期能够产,生超额收益的股票。

↓↓↓

风险中性的多因子选股模型:

挑选出未来一期,在剥离风险因子影响后,能够产生的超额收益的股票。

如何实现上述目标? 针对具体的应用场景,构建适当的机器学习预测模型。

0_1540177831391_2d2fa7d7-fb88-4446-ab5b-fe761816c288-image.png

普通的样本标注方法

0_1540177851633_8cb2cd8d-542a-4023-bb79-1dff369dea6d-image.png

训练时,根据未来一期的股票涨跌幅来给样本贴“标签”:上涨、下跌、平盘同一时刻,按照涨跌幅进行排序,确定样本的输出标签。

行业中性的样本标注:寻找不同行业内能够跑出超额收益的股票

0_1540177879841_b2a70517-f8df-4e04-9edb-447133e5853e-image.png

训练时,根据未来一期的股票涨跌幅来给样本贴“标签”:上涨、下跌、平盘同一时刻,按照涨跌幅进行排序,确定样本的输出标签。

市值中性的样本标注:寻找不同市值区间内能够跑出超额收益的股票

0_1540177901314_5f434d01-68bb-4e55-8487-84ea352670fb-image.png

训练时,根据未来一期的股票涨跌幅来给样本贴“标签”:上涨、下跌、平盘同一时刻,按照涨跌幅进行排序,确定样本的输出标签。

风险中性的样本标注:

未来一期股票收益率对风险因子做线性回归,获得残差,按残差进行样本标注

0_1540177919616_59bf0377-3816-4555-b3f4-e9886ea6d6df-image.png
0_1540177938848_f1e4ff9f-07e5-4d94-9ad9-318c61ef0626-image.png

策略与实证分析

策略流程

0_1540177962313_f2bfc084-0982-46ee-8aa1-dd6c80e591c4-image.png

数据预处理

0_1540177981296_e3bf3e65-d816-4112-816d-51acd690bddb-image.png

因子标准化:

1、异常值、缺失值处理

2、极值压边界处理

3、沿时间方向的因子标准化

4、沿截面的因子标准化

5、按照机器学习模型来调整因子分布

风险中性的深度学习选股模型的IC

0_1540178006020_197c7bfc-66ad-4f5a-86d5-805a1a8a4825-image.png

IC的平均值为0.082,标准差为0.108。

深度学习因子与流通市值的相关性:IC序列的相关性

0_1540178027566_35bbf66b-5a8f-4cf7-b626-05219655e4a3-image.png

经过行业和市值中性化之后,深度学习因子更少受到市值因子的影响。

深度学习因子与流通市值的相关性:截面相关性

0_1540178043681_44c755fd-ab16-4490-a7c9-d0c6bea2a98b-image.png

经过行业和市值中性化之后,深度学习因子更少受到流通市值因子的影响。

回测参数设置

调仓周期:10个交易日
股票池:中证500成份股,剔除ST股票,剔除交易日停牌和涨停、跌停的股票
超配组合:调仓时分10档,等权买入深度学习模型打分最高的一档
对冲基准:中证500指数
原始因子数据:估值因子、规模因子、反转因子、流动性因子、波动性因子、技术 指标,共计128个因子,以及28个行业0-1变量
风险因子:行业、流通市值
深度学习模型训练:每半年滚动更新模型,采用最近4年的样本作为训练集
策略回测:2011年1月-2018年4月30日
交易成本:千分之三

普通的深度学习选股策略

2011年以来,年化收益率19.71%,最大回撤 -5.35%,胜率为 69.5%,信息比2.47。

0_1540178064093_7d5566cd-4841-49be-9f96-5cb0eafb76a5-image.png

0_1540178100637_2d61dee1-8eb3-4223-af96-a6e9b5e47268-image.png

风险中性的深度学习选股策略

2011年以来,年化收益率21.95%,最大回撤 -5.03%,胜率为 74.6%,信息比2.92。

0_1540178111478_c9b541dc-531a-4810-bd0d-0bfc453ceb69-image.png

0_1540178121465_d7d3cecb-6a43-46b7-ae80-9b2a34771d53-image.png

风险中性深度学习选股策略和普通深度学习选股策略对比
1、风险中性深度学习选股策略
年化收益率21.95%,最大回撤 -5.03%,胜率为 74.6%,信息比2.92

2、普通深度学习选股策略
年化收益率19.71%,最大回撤 -5.35%,胜率为 69.5%,信息比2.47

0_1540178137835_9e6f2d50-9c76-4f6f-beb1-001b83a7041d-image.png

机器学习策略表现的同质性:不同策略的表现有一定的相关性

用普通深度学习模型的IC对风险中性深度学习模型的IC进行回归,R方为0.84。 说明两种策略的表现有较强的相关性。

0_1540178151372_0ad8863f-774b-453c-9dd6-03e80bcf4bb0-image.png

机器学习策略每期组合的同质性:选取的组合有较大的差异

当组合规模N为50时,两种深度学习选股策略平均每期选到的股票有41.9%重合。(参考:两次独立的随机选股中,平均有10%重合。)

当组合规模N为100时,两种深度学习选股策略平均每期选到的股票有53.3%重合。(参考:两次独立的随机选股中,平均有20%重合。)

0_1540178163042_ef82bf14-2de1-4a8b-afb5-0dd22463cbd8-image.png

总结

将风险因子中性化处理后,可以构建新的深度学习选股模型,该模型受风险 因子的影响较小。
2011年以来,中证500内选股对冲策略年化收益率21.95%,最大回撤 - 5.03%,胜率为 74.6%,信息比2.92。
即使是采用同样的特征和模型结构,风险因子中性化之后,训练的策略也会有较大的差别,可以通过此方法丰富深度学习选股策略的多样性。
本文旨在对所研究问题的主要关注点进行分析,因此对市场及相关交易做了一些合理假设,但这样会导致建立的模型以及基于模型所得出的结论并不能完全准确地刻画现实环境。而且由于分析时采用的相关数据都是过去的时间序列,因此可能会与未来真实的情况出现偏差。本文内容并不是适合所有的投资者,客户在制定投资策略时,必须结合自身的环境和投资理念。
转载自基于风险中性的深度学习选股策略

暂无评论

Looks like your connection to 掘金量化社区 - 量化交易者的策略交流学习社区 was lost, please wait while we try to reconnect.