多因子选基策略本文专业性较强，没有相关基础阅读起来可能极度不舒适，建议放弃。一、概述不得不说，多因子模型是一个好东西。作为广谱的资产...

您所在的位置：网站首页 › 基金的定性分析 › 多因子选基策略本文专业性较强，没有相关基础阅读起来可能极度不舒适，建议放弃。一、概述不得不说，多因子模型是一个好东西。作为广谱的资产...

多因子选基策略本文专业性较强，没有相关基础阅读起来可能极度不舒适，建议放弃。一、概述不得不说，多因子模型是一个好东西。作为广谱的资产...

2024-06-18 12:07| 来源: 网络整理| 查看: 265

来源：雪球App，作者：刘de侠，（https://xueqiu.com/9220626328/177865786）

本文专业性较强，没有相关基础阅读起来可能极度不舒适，建议放弃。

一、概述

不得不说，多因子模型是一个好东西。作为广谱的资产收益分析框架，我们理论上可以将其应用于发现任何数据的变化规律。

多因子模型的本质是找到因变量（当期资产收益率）与自变量（上期因子）的解释关系，研究的目的则是通过计算当期因子值来预测下期资产收益率。以股票模型为例，著名的Barra风险模型将股票的收益来源在风格层面分解为10个解释力最强的风险因子：SIZE、BETA、MOMENTUM、RESIDUAL VOLATILITY、NON-LINIEAR-SIZE、BOOK-TO-PRICE、LIQUIDITY、EARNING YEILD、GROWTH、LEVERAGE。量化投资专家则在风险因子的基础上，开发出了更多的阿尔法因子。阿尔法因子不同于风险因子，其不仅具备非常高的收益解释力，且解释力的稳定性远好于风险因子。

基金投资的多因子研究思路和股票多因子一脉相承：我们希望找到真正具备基金收益率解释能力的因子，并进一步研究使用这些因子去预测基金的未来收益率。

PS. 讲真，在我了解的基金买方圈子里，基金投资做到这一步的人基本没有。本人也是刚开始这方面的研究，相信必然是一片蓝海。

二、因子挖掘

所谓因子，即影响、驱动事物发展结果的各种因素。在一场歌唱比赛里，歌手的音色、节奏、音准、舞台表现等都会影响到自身的最终得分，因此每一个因素的好坏本质上都是一个因子值。而对于评委而言，他们对这些因素不同的偏好则构成因子暴露。

投资既是科学，也是艺术。科学的部分在于因子的客观性，艺术的部分则在于因子本身的复杂性和市场参与者对这些客观因素的偏爱程度。有些因子经得住时间的检验，有些因子仅仅是昙花一现，有些因子看似重要实则无用，而有些因子看似无用实则意义非凡。

基金因子的挖掘来自于理论知识的积累和实践投资的总结。经验上，我们可以大致列出一系列我们主动投资比较重视的指标：收益率表现，同类排名，风险控制，经风险调整后收益，机构参与度，风格稳定度，经理人的勤奋与悟性，经理人是否诚信等等。可以清晰地看到，收益、风险等因素有着确定的标准化数据，但对于经理人的一些定性判断则只有非标准化信息。对于我们无法用定量数据描述的因子，我们只能将其从多因子体系中暂时剥离，从而专心分析更容易分析的客观事实。

通过大量的文献学习和实践检验，我们已经积累了较多了基金因子，从去除因子共线性的角度出发，我们将其尽可能归类为逻辑出发点相对独立的几个方面，分别是：业绩类、风险类、选股类、持有人结构类、其他类。

业绩类包括：近一年回报，近一年同类排名，近三年回报、近三年同类排名。

风险类包括：近一年最大回撤、近一年夏普比、近三年最大回撤、近三年夏普比。

选股类包括：近一年信息比、近一年T-M阿尔法、近三年信息比、近三年T-M阿尔法。

持有人结构类包括：机构占比、基金公司管理人占比。

其他类包括：基金份额，单位净值。

三、因子处理

对于基金池，我们初步选取普通股票型和偏股混合型基金作为样本空间，同时我们也设定了如下初步筛选标准使池内基金具有可比性：

1. 最新规模>1亿

2. 成立满一年，且一年内未发生过基金经理变更

3. 最新报告仓位>60%，且去年同期仓位>60%

各筛选条件的主要逻辑：

1. 最新规模>1亿。一方面，由于选基指标中包含较多“占比类因子”，而迷你型基金容易受到机构定制和基金管理人自有资金控盘的因素影响使得这类因子失真。而且，迷你基金容易导致基金经理为了短期业绩而采取激进操作，整体风险特征较为突出。最后，大部分机构投资者出于集中度的考虑对基金规模也会有限制，规模太小的基金通常无法进入机构投资者的基金池。

2. 成立满一年，且一年内未发生过基金经理变更。从业绩的考量出发，一年期是我们能接受最短的时间维度（我们本文中大部分因子均选取一年为时间维度）。过短的时间维度可能导致更高的随机性和不稳定性，而过长的时间维度又会导致样本数量不足的问题。基金经理未变更则是保证了基金投资策略运行的一致性。

3. 最新报告仓位>60%，且去年同期仓位>60%。我们希望剥离掉被动择时对基金业绩表现的影响，尽可能避免由于建仓、被动申购等原因导致的低仓位情形影响模型最终结果。

对于因子，我们对所有因子做去极值（winsorize）和标准化（standardize）处理，确保每个因子的稳定性和量纲可加性。

以去极值为例，去极值之前某因子分布如下：

去极值之后因子分布如下：

可以看到，基金因子值得分布非常线性，不像股票因子那样有着非常多的异常值（多余了，后面可以把极值区间再压缩一下）。

四、因子有效性

因子有效性是基金因子研究中最重要的部分。在这一部分，我们会注意测试因子对于未来回报的预测能力。业内普遍使用的预测指标是IC值，即因子值与未来收益率之间的Spearman秩相关系数。IC值为正说明：基金的因子值越高，其下期收益率越高；而IC值为负时说明：基金的因子值越高，其下期收益率越低。在因子挖掘部分，我们初步选择了十余个待测试的因子，在因子有效性部分，我们将对这些因子逐一测试。

时间区间：我们选取2010年12月31日到2020年12月31日，以保证因子观测区间足够长。

调仓周期：我们选取每年3月底和8月底，以保证我们能够获取拟测试因子值的全部数据（部分因子仅在半年报和年报中公布）。

1. 业绩类：

模型的结果和我们的直观感受有很大不同。

老印象：基金短期业绩没意义，至少要看三年业绩，股基冠军的业绩往往不能持续。

实际结果：一年的短期业绩很有意义，三年业绩反而波动极大，股基冠军可能依然没意义（整体分析，不分析极端值）。 [笑哭]

中期指标预测能力低于预期的主要原因在于样本数量不足。当我们的基金池要求基金近3年未更换基金经理时，大部分基金将被筛选掉。基金样本在2015年以前数量稀少，叠加严苛的基金池筛选导致样本数量显著不足，统计结果失去意义。此外，中期指标IC呈现出极为明显的周期性，这一点也符合我们对市场3年一个风格小周期的判断。中期指标的市场适应力相对较差，当遇到市场风格大幅切换的行情时，中期指标由于给予近期表现权重过低导致有效性大幅下降。

1年收益率和1年同类排名两个指标均有着出色表现，可以很好适应历次市场的风格的切换。另一方面，两者的历史时间序列高度吻合，对此，我们将在因子加权时会做进一步优化处理。

最后，我们选取1年收益率和1年同类排名两个因子作为业绩类因子代表。

2. 风险类：

同样地，我们考查了3年夏普比、3年最大回撤、1年夏普比、1年最大回撤四个因子的历史预测能力。计算结果和业绩类因子类似：3年维度指标整体表现不佳，而1年类指标表现相当优异。

1年夏普比因子IC均值高达0.19，标准差仅0.11。因子的主要的逻辑在于秉持绝对收益思路的基金经理往往能够更重视风险，从而带来更稳健的复合回报。最大回撤的表现略逊于夏普比，且在部分时间区间表现出较大波动。

最后，我们选取1年夏普比、1年最大回撤作为风险因子的代表。

3. 选股类：

我们考查了3年T-M alpha、3年信息比、1年T-M alpha、1年信息比四个因子的历史预测能力，结果依然类似，3年维度指标整体表现不佳，而1年类指标表现相对优异。

T-M alpha指T-M模型回归下的截距项，反应基金经理的选股能力。实证检验表明，T-M alpha因子有效性和稳定性均非常出色，信息比因子表现也同样稳健优秀。

最后，我们选取1年T-M alpha、1年信息比作为选股因子代表。

4. 持有人结构类：

持有人结构因子包括基金管理人持仓占比和机构持仓占比两个指标。前者反映基金经理和基金公司内部人对该基金的认可程度，高内部人占比说明该基金的委托代理问题较轻；后者反映更为专业的机构投资者对该基金的看法，高机构占比说明该基金的质地可能更为优秀。

实证检验表明两个因子均具备一定的预测能力，而且两者历史序列表现体现出一定的差异化。因此，我们同时选取基金管理人持仓占比和机构持仓占比作为持有人结构类因子代表。

5. 其他类：

对于其他因子，我们初步选取基金总份额和单位净值两个指标。

总份额（合并）反映基金的规模（由于总份额和总规模因子高度重合，且总份额预测效果更好，我们仅保留总份额因子）。通常情况下，规模是业绩的敌人，而实践检验也证明，越大规模的基金的下期收益越低。

单位净值反映基金基金成立以来的总回报，高的单位净值包含两层信息：一个是基金历史总回报出色，另一个是基金可能经历过较长的时间洗礼（通常高单位净值基金都有着较长成立期限）。

两个因子均具备一定预测能力，因此我们同时选取总份额和单位净值作为其他类因子代表。

五、因子分组收益

所谓因子分组收益，也就是根据因子值高低将全市场基金由高到底排序分组，并计算每一组基金的未来一期收益率。一个优秀的因子，应该可以使得因子分组收益有着明显的单调性，即高因子基金组下一期收益率更高，低因子组下一期收益率更低。

篇幅原因，我们这里只选取1年收益率因子来观察因子分组收益。

半年调仓下，1年收益率因子分组累计收益如下。可以看到1年回报的TOP组比BOTTOM组有着明显的超额收益，且分组收益区分度非常好，说明因子具备显著的单调性。

六、复合因子

当我们构建好5大类基金因子后，下一步则需要考虑如何将这些因子合成起来，或者简单来说，如何科学使用这些因子给全市场的基金打分。

不同于股票多因子模型，基金数据往往呈现更为低频的特性，因此，我们倾向于当期因子IC值加权的方式合成复合因子。此外，由于因子的预测能力并不是完全稳定，我们对一些负向因子要做反向归0处理。

另一个关键的步骤是因子的正交化处理。许多因子（如同类排名和收益率）之间有着非常高的相关性，这种相关性使得直接使用原始因子值导致因子偏配。而正交化处理后，因子不仅会保留住各自主要特性，同时使得截面上的相关性降为0。

正交处理前，各因子截面相关性如下。可以看到，不少因子间相关性相当高，这非常容易导致因子共线性问题。

因子正交前：

正交处理后，各因子截面相关性如下。经过处理后各因子相关性基本为0，这让我们在复合因子构建时可以对因子进行直接加权。

下面，我们来观察一下复合因子的预测效果。如下可见，复合因子IC均值达到0.195，半年度胜率接近90%。

复合因子的分组收益也有着不错的表现。对比单因子，复合因子在多头收益率和分组单调性上都有着明显提升。

七、基金组合构建

经过上文的层层分析，我们整理了有效的5大类10个基金因子，并总结了如何使用这些因子给具体基金加权打分。

本章节，我们将进一步应用该研究成果与实际基金组合构建。多因子基金策略构建的具体逻辑如下：

组合调仓日：每年3月31日，8月31日。

组合基金数：10只等权。

组合风险控制：单一基金公司持基不超过10%，单一特定行业持基不超过10%

组合基金筛选：按复合因子值由高到低排序

组合基准：偏股混合型基金指数

多因子基金策略回测效果如下：

可以看到，过去10年维度，该策略有着比较强的选基能力，alpha整体稳健向上，仅在2015年下半年和2020年下半年出现过较大回撤。

至此，基金多因子投资策略就结束了，结果还是比较喜人的，我也满怀期待将其应用到实际基金投资中去！有缘、有实力之人可以提出问题和建议，本人必定虚心采纳！

最后，给出该模型最新一期（截至2021.3.31）的选基金结果，有效期至2021.8.31。

PS. 盈亏自负，这些基金我都没有。

#基金选择因素# #基金# $易方达中小盘混合(F110011)$ $兴全合宜(SZ163417)$ $贵州茅台(SH600519)$

【本文地址】

公司简介

联系我们

多因子选基策略 本文专业性较强，没有相关基础阅读起来可能极度不舒适，建议放弃。一、概述 不得不说，多因子模型是一个好东西。作为广谱的资产...

多因子选基策略本文专业性较强，没有相关基础阅读起来可能极度不舒适，建议放弃。一、概述不得不说，多因子模型是一个好东西。作为广谱的资产...