因子投资的时间效力(因子投资方法与实践)

因子投资的时间效力(因子投资方法与实践)已关闭评论

A+

领500g书库，关注公众号:程叫兽的宝藏 (长按可复制！)

目录（点击切换）

本文节选自《因子投资的时间效力》

6.8.2”非线性模型线性模型虽然简单直观，但它能否准确地反映公司特征与股票未来收益之间的关联仍然没有定论，而实证资产定价和量化研究方面的学者通常将线性模型视作真实模型的一阶近似。过去，受限于数据和方法，研究者们往往很难大量构造并检验公司特征同股票收益的非线性关联，但随着机器学习的发展，这些已不再系辣帮，加人有有和生生的下乓生计生生让有人生生生和股票作站和生全线性模型常被诉病的原因之一是它难以较好地描述解释变量之间的相互影啊。虽然在理论上可以通过在线性模型中不断添加交互项来加以体现，但随着解释变量数目的增长，交互项的数量也呈爆炸性增长。在缺乏足够先验信息的前提天下次是用人几斌广二项生全村请国人靖帮证放放人区下全全风可为。1.模型决策树〈decisiontree)是一种常见的分类算法，其结果是给出一系列有序的判定规则，依据特征将样本点分类标记。在决策树中，最重要的特征被选为根节点，其余特征则根据判定流程而依次作为不同的父节点/子节点，使得整个分类规则形似一棵树，因而被形象地称作决策树。经典的决策树往往用于处理因变量为分类变量的情形。决策树是一种非参数化的计算密集型算法。但随着计算机技术的发展，计算强度已不再是一个太大的问题。这种算法可以处理大量样本以及大量的特征，有效地挖掘出特征之间的相互作用。此外，它的解释性也比较强，对特征数据也没有独立性要求，这些优点使它得到了广泛的应用。当因变量为连续变量〈比如因子投资中股票的预期收益率)时，它便成为回归树。回归树的本质仍然是分类算法，只不过它需要给被划分到同一类的样本点一个公共的观测值而非某个离散的类别。举例来说，假设使用市值和价值为特征、采用回归树对收益率进行预测。当股票的市值位于前50%时，将其归入第1类。当它的市值位于后30%时，则进一步考虑其价值，如果其价值小于30%分位数，则将该股票分到第2类，反之将其分到第3类。通过回归树模型，依照市值和价值将股票分为三类。由于预测的目标并非分类，而是预期收益率，因此使用每一类中股票收益率的均值作为该类的预期收益率。较线性模型而言，回归树有两个突出的优点。第一，回归树可以很容易地将特征的交互影响考虑

因子投资的背景

进来。一个Z层的树结构，可以包含六1层交互效应，这是线性模型所不具备的。第二，树方法不受解释变量的单调变换的影响，因而可以很好地包容非线性特征。然而另一方面，回归树方法的灵活性也使得它容易陷入过拟合，这也是此种方法最大的瓶颈。为了规避过拟合问题，引入正则化方法进行适当限制就显得很有必要常见的正则化方法包括boosting算法加和随机森林(randomforest)。严格来讲，boosting是一类框架算法，它以一系列高度简化的分类树为基础，通过反复的欠代训练，生成很多个基分类器，再组合不同基分类器的预测，以得到最终的预测。它通过组合若干个弱分类器，最终得到有较好预测效果的强分类器。这一逻辑与6.8.1节介绍的混合预测方法有异曲同工之妙，它们都属于集成学习算法〈ensemblemethod)的范畴。Boosting最早的代表是AdaBoost算法，随后则发展出了LPBoost、LogitBoost等算法，以及时下非常流行的GBDT和XGBoost算法。其中，AdaBoost每次欠代时，依据前一次的预测误差来更新样本的权重，预测错误的样本会得到更高的权重。GBDT(gradientboostingdecisiontree，梯度提升树)也遵循类似的前同分布算法，但却与AdaBoost有两处显著的不同。首先，在GBDT算法中，弱分类器只能使用回归树模型。其次，GBDT算法的建模对象是上一步的拟合残差。仍以市值和价值作为特征来解释GBDT。假设第一步发现一文股票有很小的规模，因而给予了其1.2%的月度收益预测，但后来发现其真实收益为3.0%。鉴于此，第二步会使用价值特征，针对第一步中市值未能解释的残差收益〈即1.8%=3%-1.2%)对其进行分类。GBDT在实践中的表现是非常不错的，但也面临一些局限。例如，它不能很好地处理稀疏数据问题。相比之下，作为近几年新兴起的算法，XGBoost(extremegradientboostingdecisiontree，极端梯度提升树)在这些方面有针对性的改进，并在数据挖掘大赛中获得了非常优异的表现，引起了广泛的关注和使用。与boosting方法相对应的则是bagg

因子投资pdf

ing算法四。与boosting算法需要按顺序进行迭代不同，bagging算法可以并行进行多次训练。在每次训练中，都用bootsrap方法抽取出一个子样本集并使用它们来训练模型，最终将多次训练的结果取平均作为最终的预测。对于分类问题而言，bagging方法的一个典型例子便是随机森林(randomforest)。2.文持辐量机文持向量机〈supportingvectorimachine，即SVM)是另一类重要的非线性模型。在XGBoost和深度学习流行之前，SVM可能是最重要的一类机器学习算法。与通常的算法则在通过降维解决维数灾难问题不同，SVM在某种程度上可谓反其道而行之。它通过非线性核函数〈kerelfanctions)把原始特征空间映射到更高维的特征空间，并在高维空间中找到间隔最大的超平面将样本点进行线性分割。高维空间的线性分割对应着在原始特征空间中的非线性分割，即形成了非线性的决策边界。此外，高维的映射并不以增加计算机的计算量为代价，因此SVM可谓相当高效。3.神经网络最后一类重要算法则是神经网络(neuralnetwork)。作为深度学习的基础，神经网络大概是最为有效的机器学习算法。神经网络通过组合多个层次的简单模型，来得到最终的预测。其中，初始的是输入层〈inputlayer)，即预测变量原始数据;中间是隐藏层(hiddenlayer);而最后的是输出层〈outputlayer)，即最终的预测结果。对于因子投资来说，如果股票预期收益和解释变量〈如各种公司特征)之间的预测模型可以用一个光滑函数来表达上四，则神经网络可以有效地近似上述模型。得益于其灵活性和强大的性能，神经网络在文本挖掘、图像识别等领域已得到广泛的应用。另一方面，神经网络也有其明显的问题，这些问题主要存在于参数规模、模型复杂度和可解释性等方面。在神经网络中，每个神经元的激活函数往往十分简单，但通过多层网络，深度神经网络常常可以利用这样简单的激活函数得到非常好的预测表现。在形式上，这跟人类大脑的工作方式有共通之处，即单个神经元非常简单、只执行极其简单的单一功能，但通过神经元之间的复杂互动网络，组合出尺人的表现四。在训