因子投资pdf(因子投资方法与实践讲解)

因子投资pdf(因子投资方法与实践讲解)已关闭评论

A+

领500g书库，关注公众号:程叫兽的宝藏 (长按可复制！)

目录（点击切换）

本文节选自《因子投资pdf》

6.8”机器学习与因子投资在讨论机器学习与因子投资之前，首先需要明确机器学习的含义，尤其是当其应用于因子投资领域时的含义。Guetal.(2020)凹将机器学习定义为“一系列服务于统计预测的高维模型，及与之相伴的用于模型选择和防止过拟合的正则化方法，和对大量候选模型设定进行有效筛选的算法”。根据这个定义，在因子投资场景下，机器学习的核心是预测。与经典统计理论不同，机器学习天生就是为预测而生的。当机器学习随着数据和算力的爆发式增长而与因子投资产生交集时，其最主要的应用也在于预测预测个股或市场整体的未来收益。对于预测个股收益，其目标主要是分析公司特征与股票预期收益的截面关系，这也是因子投资关注的重点。对于预测市场整体，其目标则主要是时间序列的分析。在训练预测模型的过程中，机器学习算法会给不同的解释变量赋予不同的权重。因此，在利用机器学习算法进行预测的同时，人们也可以学习到哪些特征对预测收益率更加重要。预测和特征选择(featureselection)就构成了机器学习在因子投资中的两个核心功能。以预测为目标，下文6.8.1节一6.8.3节将介绍有监督学习的常见算法以及它们在因子投资中的应用。以特征选择为目标，6.8.4节将讨论如何利用无监督学习中的主成分分析挑选既能解释股票预期收益截面差异、又能解释它们时序波动的因子。关于机器学习与因子投资的关系，与其说数据和算力的发展使得机器学习的应用成为可能，不如说快速发展使得对于因子投资而言，机器学习已经成为必要的工具。经典的投资组合排序法和各种线性回归方法在处理大量的预测变量时面临着各种各样的限制和问题，难以成为最好的工具。另一方面，已有研究表明，仅靠少数几个经典因子并不能很好地解释不同股票预期收益率的差异，而机器学习在这方面提供了新的可能性。当然，机器学习虽好，也并非万能良药。6.8.5节会讨论机器学习的缺点和

因子投资属于典型的P

潜在问题。6.8.1线性模型线性模型是描述大千世界的最简单模型，比如多因子模型就是假设因子和资产收益率之间的线性关系。对于线性模型，经典的OLS线性回归是最简单的求解方法。近年来，一些拓展的线性回归方法逐渐受到重视，它们大体可以分为四类:稳健回归、惩罚回归、降维方法以及广义线性模型。根据目标函数的形式，稳健回归可以进一步分为两类。首先是加权回归。经典的OLS以最小化残差平方和为目标，每个样本点的权重是相同的，而加权回归方法则赋予每个样本点不同的权重，这在Fama-MacBeth回归分析中便早有应用。吸一个例子是在利用面板数据估计公司特征对股票收益的影响时，使用当期的股票数作为不同时刻的权重。这也很容易理解，股票数量越多的时期，对应的结果会更加可靠。其次，稳健回归方法也被用来构建能更好地适应收益率肥尾分布的稳健估计量。典型例子是将回归中的目标函数设定为Huber稳健误差函数:如重和=南症4(Ra一gli的;旨(6.30)其中NM和7分别为股票数和期数，Ri:为股票在上二1期的真实收益率，0表示模型的参数向量，zz表示截至里刻所有用来预测股票i下期收益率时用到的预测变量向量，权(zo0)就是对寻1期股票收益率的预测值。在式〈6.30)中，疡《2567)的定义为:A(z;E)一呈和(6.31)2|5z一z2，大|z|>惩罚回归的典型代表包括岭回归(Ridge)、套索回归(LASSO)和弹性网络(Elastic”Net)等算法。相对于OLS，它们额外加入了针对高维数据的不同惩罚项站，以有效应对过拟合问题。与此同时，它们也起到了旬选有效预测特征的作用。降维方法则包括主成分回归(PCR)和偏最小二乘回归(PLS)。这两类方法可以显著降低问题的维度，从而得到更稳健的估计。关于这一点，Chenetal.(2019)提供了一个很精彩的例子。该文利用PLS方法从12个

因子投资公式

常见的情绪代表指标印中提取信息以更好地刻画投资者情绪。上述各类方法研究的是公司特征与股票未来收益之间的线性关系。但诸多研完表明，简单的线性模型并不能完整刻画二者之间的关系。作为介于标准线性模型和非线性模型之间的方法，广义线性模型也因此有了用武之地。广义线性模型的一类简单例子是将公司特征的高次方项加入预测模型中。一个典型例子是Barra的非线性规模因子〈市值的三次方)。Guetal.〈2020)则探讨了一种更一般的模型设定公司特征的损样条函数对股票收益的预测。除此之外，广义线性模型也可用来对离散型的因变量进行建模。例如，很多时候人们只关心下个月股票相对大盘指数的超额收益是否为正。在这种情况下可以使用一个0/1变量作为因变量，并用各种公司特征作为解释变量，建立一个膛辑回归模型(logisticregression)，这便是一个典型的广义线性模型。在此基础上，也可以引入多分类还辑回归模型(multinomiallogisticregression)。在因子研究中，比起预测收益率的具体值，人们有时更关心收益的排序分组结果。为此，可以考虑将全部股票按收益率高低分成G@组，并以每支股票所属分组为因变量、以公司特征为解释变量，选择适当的算法为这二者建模。除了上述方法外，关于线性模型的另一类拓展便是混合预测〈fbrecastcombination)。这种方法虽然简单但很有效。严格来说，它并不是一种具体的预测算法，而是通过对一系列算法的预测结果取平均来得到最终的预测。其基本思想简单易懂，即单一算法不会总是有效，而取一系列算法的预测均值可以平滑不同算法的误差，进而得到更有效的预测。Rapachetal.〈2010)对利用该方法预测市场整体的溢价有着精彩的介绍外，而Hanetal.(2018)则系统讨论了套索回归、终性网络和混合预测方法在股票收益横截面分析中的应用。