一、论文选题依据

1. 传统投资方案

img

多因子量化模型属于量化投资的一种,而绝大多数股民使用的是传统的投资方法,但这并不意味着量化投资要“高人一等”。因为量化模型中所有的因子都是来源于经济逻辑和市场经验(即传统投资),而量化投资中数据处理的逻辑和模型的构建也必须要遵循传统投资中规则。而且掌握传统投资方法的资深投资者灵活性都是远超量化模型的,他们将客观因素内化与自身,形成了主观的逻辑判断。可以说,他们的大脑就是一个强大的量化模型。

毕业设计

传统投资一般分为以上5个步骤,总体来说,选股和择时属于分析过程(通过各种指标对股票进行分析和预测,从而评价每只股票投资的价值),买入、持有、卖出属于决策过程(资金管理,如何配置资金使得总体收益最大,风险最低),两个过程缺一不可。量化因子模型仅考虑选股,通过可视化各种因子对股票收益率的影响来鉴别筛选股票,为后续的择时、资金管理打下坚实的基础。

而传统的分析过程主要使用了3种投资策略:

image-20210304102411473

策略指数基金就使用了多因子量化模型:在原本宽基指数基金的基础上,添加了相应的策略因子。根据红利、基本面、波动率、价值等因子制定相应的策略指数基金或股票组合大概率能获得超过宽基指数基金的收益(即市场平均收益),同时具有低波动性等良好的品质。

2. 国内外研究现状

(1)金融背景

image-20210303214329823

马柯维茨投资组合模型[1]:引入了均值和方差来定量刻画股票投资的收益和风险,推导有效边界(刻画了收益对应最佳投资组合),避开了一般经济均衡的理论框架,使金融学发生了根本改观。

img

资本资产定价模型(CAPM)[2]:所有证券的收益率都与唯一的公共因子(市场证券组合)的收益率存在着线性关系,不仅提供了评价收益-风险相互转换特征的可运作框架,为后续模型提供基础。

img

套利定价理论(APT)[3]及后续的多因子模型:认为对收益产生影响的市场因素并不单一,证券收益率与一组因子(基本因素)线性相关。当一组因子只有“市场组合”时,套利模型等同于CAPM,因此APT是一种广义的CAPM,成为多因子量化模型的基础。

多因子量化模型选股成为一套成熟的体系,大致分为以上5步:根据经济金融理论或市场经验寻找这些因子,然后通过对历史数据的拟合和统计分析进行验证和筛选,最后以这些因子的组合作为选股标准,买入满足这些因子的股票,随着市场不断调节模型

随着计算机技术的发展与广泛应用,多因子量化模型正逐渐借助数据挖掘与机器学习技术来达到更好的预测效果与选股能力。后续的研究主要有:寻找并筛选有效的因子,使用更复杂的回归方法以优化模型性能

(2)寻找并筛选有效的因子

廖理、赵锋(2003)等人将国际上常用的风险因子与中国的股票市场情况相结合, 筛选出16个可用于解释中国股市的因子,并基于Barra模型展开分析[4]。汪洋于2010年基于估值指标和业绩指标构建选股策略,并提出估值因子对上市公司股票具有更大影响力[5]。2013年,刘辉等人证明了Fama-French三因子模型在中国A股股市仍然有效[6],认为公司规模(Size)和股票收益具有负相关关系。

后续不断提出更多的因子,2018在清华大学五道口金融学院发布的《中国A股市场量化因子白皮书》[7]中,作者总结了市场上比较认可的6类共56个量化因子,使用1997-2017的A股数据进行检验和筛选后,有13个因子(图中标黄)被证明有效,排除相关性因子后,仅剩下9个因子(图中画框)。

(3)优化模型性能

毕业设计

Kim(2003)[8]等人将支持向量机(Support vector machines, SVMs)应用于股票指数价格的预测,并与神经网络的预测能力进行比较,他们的实验结果均表明使用SVMs预测股票价格是可行且良好的方案。

Zhou和Yu等人(2006)使用遗传算法(Genetic Algorithm, GA)提高选股能力,有效地优化了资产组合[9]。随机森林作为机器学习中重要的技术手段,同样被用于量化选股中,并证实具有较好的预测效果和泛化性能。

焦健等人(2009)在《基于CART决策树的行业选股方法》中对国内科技股板块从2003年到2009年的数据进行静态和动态CART决策树模型的检验,并构造相应的多空头组合。后期又通过事前修剪、事后修剪以及节点过滤增加其拓展性。修正后的模型多空组合收益差明显提高,有效降低了选股难度,体现出分类的准确性。

苏治等人(2013)构建了基于核主成分遗传算法改进的支持向量回归机人工智能选股模型(KPCA-GA-SVR),采用SVR 模型对股票收益率进行回归分析,首先利用核主成分分析(KPCA) 方法对输入向量进行特征提取,然后采用遗传算法最佳化模型参数,并分别从短期和中长期两个时段对模型的选股性能进行评价与对比。

曹正凤等人(2014)在《使用随机森林算法实现优质股票的选择》一文中,采用了随机森林算法进行选股,因其训练集随机和属性随机特点使得算法具有很好的容错性和鲁棒性,这和当前股票市场异常情况和干扰项比较多的情况相适应;和SVM相比,算法性能显著占优,具有很高的预测准确率,且不容易出现过拟合。

徐步云(2015)在《基于SOM算法的轨迹聚类选股策略》一文中采用了基于SOA神经网络的轨迹聚类方法选股,聚成的每一类中都有一篮子的股票数据,把每一类看做是一个股票组合,找出收益表现最好的类(记为topcluster)。由topcluster股票组合在未来一段时间都表现出了很好的收益,所以此聚类特征视为优胜的选股条件。

张冬阳(2018)基于Barra风险模型,以Logistic回归替代模型中的线性回归方法,证明了优化后的模型具有更好的选股能力,同时发现Beta、Momentum、Liquidity等7个因子与公司未来短期收益率呈正相关,Size、Nlsize与Rresvol因子与公司未来短期收益率呈负相关[10]。

黄媛(2019)将**长短期记忆网络(Long Short-Term Memory, LSTM)**与多因子选股模型相结合,将因子的选取范围扩大至244个,通过LSTM神经网络提高了对股票收益的预测能力,进而构建更佳的投资组合,在回测中取得了高于同期基准的收益率[11]。

王伦(2019)提出了使用Adaboost-SVM的多因子模型,该模型使得选股策略能够得到高收益率、低波动的投资组合 [12]。

同时,王伦与李路共同提出基于**深度森林(gcForest)**算法的多因子模型,通将对gcForest算法、随机森林算法及SVMs三者的选股能力进行比较,二人认为基于gcForest的多因子选股策略更优[13]。

刘佳琪(2020)[14]以沪深300成分股作为股票池,选取2010年年初到2019年年初中价值类,成长类,规模类,交投类,情绪类,每股,质量类和风险类这8大类共34个因子的数据,探讨了XGBoost结合半衰期IC加权的方法在多因子选股模型中的应用。实证XGBoost方法能选取重要的因子,然后运用半衰期IC加权对重要因子进行赋权的方法在排名前10%的股票中可获得年化收益率为26.86%,要比年化收益为2.05%的沪深300指数高出24.81%。

4. 论文选题的意义

根据现代金融研究,投资者的收益主要来自于两部分:市场的平均收益(Beta收益)和独立于市场的超额收益(Alpha收益)。前者比较容易获得,而后者非常困难,量化因子的研究就是关于能带来超额收益的因子的研究。多因子量化模型可以综合传统投资所有的优点,通过在每个投资策略中设定相关的量化因子的方式一揽全局。凭借其成本低廉、业绩出色、能够充分克服人性的弱点等特点,自其诞生来,量化投资就受到了广泛的关注,也创造了诸多奇迹。

然而已有模型在各种因子如何影响股票最终收益率、以及波动性在以下方面存在不足:(1)在筛选有效的因子上:虽然提出了大量的因子,但往往只有一小部分有效;(2)在模型的回归分析上:缺乏对复杂回归模型中因子收益的可视化展现。本研究在利用多因子模型解释股票收益的基础上,(1)使用无监督学习的方式,事先对因子进行降维,排除不相关或冗余因子,减少数据量,以便于后续回归,增强因子的可视化效果。(2)基于已有可视化系统,设计可解释复杂模型进行回归,可视化分析各个因子对于收益率的贡献。

二、论文研究方案

1. 研究内容和方案

毕业设计

2. 技术路线与难点(可行性分析)

(1)步骤A:如何对量化因子进行降维处理?

降维采取无监督学习方法,常见的有PCA, AutoEncoder, TSNE, LPP等算法。这些算法从可解释性上分类:

  1. 有些降维算法失去了数据的可解释性,降到低维空间中的因子失去了本身的含义,从而无法评价各种因子对于收益和风险的贡献。无法对有用的因子进行重要性排序,也无法可视化分析各个因子的贡献,故不采用这类方法。

  2. 另外一些算法仅仅会剔除一些方差较小、相关度较大的因子,其他因子仍具有含义,可以使用这种算法对因子的贡献进行可视化分析。

(2)步骤B:使用怎样的复杂模型?

能够解释因子贡献的非线性模型。XGBoost含义为极限梯度提升,在各种比赛项目中都有非常好的表现,通过细致地调参,可以将模型的准确率达到极高的程度。

深入理解XGBoost背后的原理,能够在高准确率的同时对于因子的贡献也有衡量,从而对候选因子及收益率进行可视化分析。

3. 新意/创新之处

(1)探索一种可解释降维算法,保留数据信息不丢失情况下,减少数据规模。

(2)探索一种复杂的回归模型,在能够解释因子贡献的前提下,能够进行复杂非线性的回归。

(3)可视化展示每天每个因子对于每只股票的贡献,直观地分析出市场的变化情况。

三、预期结果

(1)使用降维前后的数据进行对比分析,从数据量、准确度、可视化效果等方面来评估降维算法的优劣。

(2)使用线性模型和复杂模型进行对比分析,从回归残差的大小、可视化效果来评估模型的优劣。

四、工作计划(进度安排)

时间 2021年2月-2021年4月
主要任务目标
1 学习并实践数据挖掘算法
2 阅读相关材料,了解项目概况,着手分析论文研究方案
3 数据预处理:使用A1的量化因子进行缺失值处理、去极值处理及标准化处理(步骤A1)
4 数据预处理:探索一种可解释性的降维算法,使用A2的量化因子进行数据降维处理(步骤A2)
5 数据预处理:根据各个股票每日的开盘价与收盘价计算收益(步骤A3)
6 使用复杂模型回归:探索XGBoost结构,设计一种能够分析每个因子贡献的非线性模型(步骤B1)
7 使用复杂模型回归:使用该模型对A1、A2到A3的回归,进行对比分析(步骤B2,B3)
8 使用复杂模型回归:对模型进行调整与优化(步骤B2,B3)
9 案例构造与可视化:使用可视化系统展示每日因子贡献,筛选典型的(因子,股票)组合分析模型回归的效果(步骤C)
10 撰写实验报告

五、参考文献

[1]Harry Markowitz. Portfolio Selection[J]. Journal of Finance, 1952, 7(1):77-91.
[2]W. F. Sharpe. Capital Asset Prices: A Theory of Market Equilibrium Under Conditions of Risk[J]. The Journal of Finance, 1964, 19(5): 452-422.
[3]S. A. Ross. The Arbitrage Theory of Capital Asset Pricing[J]. Journal of Economic Theory, 1976, 13(3):341-360.
[4]廖理, 赵锋, 李阁峰. 基于多指数模型的投资组合风险控制方法和风险因子识别[J]. 世界经济, 2003, 26(09):44-49.
[5]汪洋. 基于估值与业绩的选股策略有效性研究[D]. 电子科技大学, 2010.
[6]刘辉, 黄建山. 中国A股市场股票收益率风险因素分析:基于Fama-French三因素模型[J]. 当代经济科学, 2013, 05(04):27-31.
[7]清华大学五道口金融学院民生财富管理研究中心. 中国A股市场量化因子白皮书[Z]. 北京:清华大学五道口金融学院, 2018.
[8]Kyoung-jae Kim. Financial time series forecasting using support vector machines [J]. Neurocomputing, 2003, 55(1-2): 307-319.
[9]Zhou C , Yu L , Huang T , et al. Selecting Valuable Stock Using Genetic Algorithm[C]// Simulated Evolution and Learning, 6th International Conference, SEAL 2006, Hefei, China, October 15-18, 2006, Proceedings. Springer Berlin Heidelberg, 2006: 688-694.
[10]张冬阳. 基于Logistic回归的Barra因子选股模型研究[D]. 南京大学, 2018.
[11]黄媛. 基于LSTM神经网络的多因子选股模型实证研究[D]. 湘潭大学, 2019.
[12]王伦. Adaboost-SVM多因子选股模型[J]. 经济研究导刊, 2019(10):107-108.
[13]王伦, 李路. 基于gcForest的多因子量化选股策略[J/OL]. 计算机工程与应用:1-11[2020-05-26]. http://kns.cnki.net/kcms/detail/11.2127.TP.20191228.1124.004.html.
[14]刘佳琪, 张建. 基于机器学习的多因子选股模型[J]. 时代金融, 2020(17).