一个量化老兵的自白 - 物流园资讯网

来源：雪球App，作者：兴证全球基金，（https://xueqiu.com/7182704875/315678584）

【编者按】

近几年来，国内国际经济形势似乎从未如此复杂，投资决策似乎也从未如此左右为难。如何理解当下经济和市场形势的变化？如何找到适合自己的资产和投资方案？兴证全球基金播客推出《复杂世界的简单投资指南》专题，邀请基金经理和投顾主理人，一期聊透一个话题，股、债、黄金、全球资产配置……希望他们的经验和思考，能帮助投资者们解惑，为新老基民提供一份应对复杂世界的投资指南。

量化，可能很多投资者都听过。但量化投资是怎么做的，量化擅长的是什么，如何用量化策略进行指数增强，大部分投资者对于这些问题可能都比较陌生。

近期，兴证全球基金基金经理、投资经理田大伟与《面基》主播老钱进行了一场对谈，他们聊了聊A股公募量化发展史、方法论，以及指数增强的做法。老钱评价，田大伟“说话慢斯条理，娓娓道来，非常友好”。

事实上，田大伟一直致力于让量化更加透明化，让更多投资者能够听懂量化是什么，他此前通过一篇文章《田大伟：我眼中的A股量化20年》来呈现量化投资方法的演进，正是这篇文章促成了他与老钱的对话。我们也希望，本期播客，能够成为更多投资者了解量化投资、指数增强的一个桥梁。以下是田大伟与老钱对话的精华内容。

欢迎移步小宇宙APP，订阅兴证全球基金播客“随基漫步”，后续我们将推出更多精彩内容。

阿尔法因子是什么？如何用于量化投资？

面基：量化这件事似乎没办法说得太清，说得太清楚好像有点像亮底牌了，但是说得不太清楚，大家又觉得这个事本身就有点抽象，像个黑箱。

田大伟：我并不觉得量化是个黑箱。我觉得量化应该更加透明化，这样量化行业才能够做起来。量化比较晦涩，一些基本的原理可能很多朋友还不是很了解，这一块是需要科普的。至于它核心的地方，坦率来说是比较复杂的。但不管怎么说，我觉得为了量化行业整体的发展，我们还是要用一些直白的语言，去把量化的基本原理表述清楚。

面基：公募量化至今大概有多少年历史？能不能简单划分量化的发展阶段？

田大伟：对于A股市场而言，公募量化基本上也就20年历史，中国第一只量化公募基金是光大保德信2004年成立的，后来随着一些量化从业人员回国，量化慢慢发展起来。A股股指期货推出后，近十余年来量化的发展速度加快。

按照量化投资方法来划分，量化投资大致可以分为三个阶段。初期的量化投资，比如说10年前、15年前，以基本面投资为主，就是对一些基本面维度打分，最终得分高的股票组合进入购买池，还是一种比较朴素的数量化投资逻辑。第二个阶段，量化投资逐渐系统化，阿尔法因子的数量越来越多，阿尔法因子与不同基准匹配形成的增强模型也越来越多，量化投资开始利用编程的方法，每天自动化地去运行、跟踪、计算。最近的几年进入了第三个阶段，像一些算法交易、机器学习类的技术在量化投资中的应用越来越多。

面基：能不能用最通俗易懂的方式，给大家科普一下因子为何物？

田大伟：因子是经过历史数据检验的简化的投资逻辑。举个例子，比如说估值这个因子，大家常说低估值的股票往往会具有超额收益，这个逻辑怎么检验？假设估值因子以PB（市净率）为代表，你可以在T时刻把全市场股票的PB计算一遍，同时把所有股票从T时刻起未来10天的涨跌幅计算一遍，再把二者做一个相关性检验。持续这样做之后，将相关性的值画一个累加图，如果这个累加图持续向上，说明PB因子值和股票未来的涨跌幅之间持续正相关。这就验证了最初的那个逻辑，就是估值低的股票作为一个整体，有机会带来超额收益。

估值是一个单因子，因子效果并不是很理想，所以需要与其他因子做混合，同时也要在更加严格的环境中做回测，比如把它控制在沪深 300成分股范围之内去回测，显然要求持续正相关性的难度就会增加不少。如果经过更严格的检验后，这个因子与结果之间的关系是稳定的，这就是一个好的阿尔法因子。我们的工作其实就在寻找这些阿尔法因子，不管是单因子还是做组合。

面基：因子是怎么起作用的？是不是可以这样理解，我们通过一个监控面板去观察市场，听起来因子好像信号器一样，告诉你它现在是否有效，或者什么时候它失效了。

田大伟：通常不是这样的。量化是把复杂的事情简单化，可以简单总结为几步。第一步，我们瞄准一个基准，比如一个指数，我们去寻找哪些因素会引起这个指数的波动，包括指数的行业分布、市值大小等，接下来在指数成分股里构建一个新的组合，保持这个组合在行业、市值这些方面的特征与对标的指数保持一致。

第二步，新组合要获取超额收益，就需要靠阿尔法因子。假设以估值作为一个阿尔法因子，构建新组合时，我就会挑选那些低于对标指数成分股平均估值的股票，因为我验证过，估值越低越可能有超额收益。这个过程最终就会形成一套数学上的优化算法，就是按照阿尔法因子得分最大化来挑选股票，同时把行业、市值这样的因素作为约束条件，来生成新组合。所以我们不太看某个阿尔法因子在某个时间段有效或无效，或在哪个个股上有效或无效，我们只要保证，我们寻找的阿尔法因子或因子组合，作为一个整体，持续有效就可以了。

当然一个阿尔法因子很容易出现回撤，这时你就要看因子的回撤有没有超过历史最大回撤，如果没有超过，那么它仍然可以使用；如果超过了，可能这个因子就会面临比较严峻的挑战。这是有一套方法论和管理流程的。

面基：那是不是一个阿尔法因子失效这件事本身，它也是有巨大价值的，说明市场状态变化了，或者说量化方法的某些地方出问题了。

田大伟：我们希望我们找到的阿尔法因子是持续有效的。什么叫持续有效？在寻找阿尔法因子的时候，我们会有一个流程，规定因子满足什么样的标准后可以入库。一般来说像估值这样的因子，我们会定期跟踪，定期检验，检验的指标非常多，检验的时间维度一般是十年维度，最终形成一份报告，形成对因子的评级。好的因子，我们可能会逐日跟踪、逐日检验，如果检验结果比较好，我们可能会把这个因子拿出来做单因子增强模型。模型我们也会定期跟踪，计算模型的业绩。这就是我们对因子进行评价的流程。在因子混合这一步，我们会尽量在基本面因子、高频因子和机器学习类因子中做一个搭配，混合出来的因子组合的稳定性应该更好，这样我们才会用于实盘。每家机构挖掘的因子数量都非常多，但最终上实盘的因子，都要通过严谨的数据检验，经过这套流程来管控，因子失效发生的可能性相对比较小。

面基：对公募来说，虽然高频交易受到一些限制，但并不意味着不可以使用高频因子，对吗？

田大伟：这要看怎么理解高频。比如说我们看行情的时候，交易软件可以提供五档行情，买一、买二、买三、买四、买五，这种数据都是level one的数据，或者是3秒钟一笔的快照数据的，已经很高频了。但是实际上量化用的数据频率更高，我们是level two的数据，就是逐笔成交、逐笔委托数据。这类数据是频率最高的，但是在量化投资中会先降频再使用，比如说在机器学习类因子中，我们会把level two数据降频，逐笔的数据降成分钟的数据，或者是30分钟的数据，再去输入模型。看似把高频数据降频了，但其中包含的信息密度不一样。再比如说我们会使用机构单的量和价，这个数据和普通量价数据的信息含量是完全不一样的。我们会通过这种方法来使用高频因子。

面基：你们因子库的体量大概是怎样的？

田大伟：我们的因子库定期跟踪超过1000个因子，每天跟踪的因子超过500个。其实我并不觉得因子数量是最关键的，因子的质量，以及把一个差因子变为好因子的流程，才是更为关键的。像机器学习有一种遗传规划方法，一天能挖掘上千个因子，但很多因子的质量并不高，通不过各种各样的检验，或者与其他因子的相关度非常高，这类因子我们都不会入库。

面基：现在量化发展进入第三阶段后，你们挖掘因子，人来挖，和算法、AI来挖，二者的占比是多少？

田大伟：从数量上来看差不多，但是从时间分配上来看，搭建和改进机器学习模型花了我们大量的时间，包括对高频数据的处理。其实机器来挖和人工来挖，并没有特别本质的区别，因为机器挖掘的模型也是人来设置的。

机器学习模型的基本原理，其实就是通过训练集、验证集得到一个规律，比如把一类因子数据输入模型，去寻找它和未来股票涨跌幅之间的关系，把模型预测的涨跌幅在训练集里和真实涨跌幅进行比较，然后调整参数，使得预测值和实际值的差异越来越小，最终确定一组参数，再在验证集里面做验证，如果训练集和验证集的结果比较一致，就把它固定下来。机器学习模型大家都在用，如果没有机器学习的理论基础和数据处理经验的话，只会调用第三方的包，要提高因子准确度或者找到相关度低的因子是比较难的。其实，机器学习模型的每一次大的演进都是来自很精巧的思路，而背后是很深的理论功底和实践经验。未来随着机器学习进一步发展，会越来越考验量化团队的实力。

面基：很多人说量化会利用人的行为偏差来获利，你认同吗？

田大伟：量化比较善于避免人的行为偏差带来的干扰。量化选股是靠最大化阿尔法因子得分来抽取组合，我们对个股不做人为的干预，除非个股发生了一些公司层面的特殊事件，我们会将其剔除。所以这个过程就克服了人为因素的影响。在构建模型的过程中会有一些主动性的体现，比如选择哪些因子，或者不同因子赋予什么样的权重（现在因子赋权也越来越依靠机器学习模型了），除此之外没有人为因素的体现。因子和模型都是经过检验的，一旦这个模型成熟了，我们就对它生成的组合不做人为干扰，这也避免了人的行为偏差对投资结果的影响。

有人擅长演绎，量化擅长归纳

面基：9月份的A股，大家说像“519行情”，现在12月份了，有人说像2014 年的行情，可能经常有人会主观地去做这种历史相似性的比较。作为一个量化人，您如何看待这种观点？

田大伟：术业有专攻，有些人确实能够通过一些演绎判断在市场上博取相应的收益，但这个不是量化擅长的，量化擅长的是归纳。量化的方法是寻找一个大概率在未来能够复现的规律，所以天然需要很大的样本量。量化模型在什么时候会失效？往往是在市场极涨或极跌的时候。因为这种情况在历史上出现的概率不高，模型学习不到。但是我们认为小概率事件覆盖不到对量化模型影响不大，只要能把未来的大多数行情覆盖到，就可以称之为有效的模型。所以我觉得，不同类型的投资方法有各自擅长的地方，我们各自发挥自己的长处就可以了。

面基：所谓的尾部事件或者尾部风险，比如说今年2月份的市场情况，对于量化投资来说意味着什么？

田大伟：今年2月份，量化的回撤主要是因为风险管控方面的问题。可能某些产品的持仓范围涵盖了很多小微股票，导致回撤比较大。比如说一个的指数增强产品，如果把持仓严格控制在中证500的成分股范围之内， 2月份不会出现那么大的回撤。当然仅仅保持持仓平均市值和指数对标一样是不够的，如果持仓的结构非常偏离，比如说你持有股票的20%、30%都是的成分股，甚至更小的股票，你的持仓作为一个整体，它的平均市值与中证500相近，但由于持仓结构非常分散，当你持有的这些小微股票出现踩踏时，整体组合就会出现回撤。这不是量化方法出现了问题，而是风险管控或者持仓选择的问题。实际上，2月份那段时间内，一些中证500、的增强模型还是有超额的。

另一个例子是今年9月底到10月初的这波大涨，基本上量化指增产品都出现明显的回撤，即使持仓在指数成分股范围之内，也出现了负阿尔法，也就是跑输指数。因为这种级别的大涨在历史上是很少见的，这确实是量化模型的一个短板，因为量化追求的是大概率能够成功的规律，它需要数据，需要案例点的积累，一些小概率的事件它覆盖不了，这个算是量化的短板。

面基：在你们看来，是不是越宏观的事，数据点其实是越少的，比如我们常说的A股牛熊周期，你们会考虑吗？

田大伟：我们不择时，对行业、仓位都不择时。择时，有些人是可以做好的，如果能判断好市场的方向，以此为依据进行投资，没有问题。但是刚才讲术业有专攻，这种择时对量化来说有严峻的问题，因为案例点太少。我看过很多量化择时模型，效果也不错，但是问题也很明显，大多数模型都是通过牺牲案例点来提高命中率，我觉得如果案例点数量少于30个，这个择时模型就不值得信赖。

面基：仓位不择时能理解，但对于指增产品，行业也不做偏离，意味着只在个股层面做偏离。你可以以红利或者A500为例，给大家展开讲一讲是怎么做的。

田大伟：比如说A500指增产品，在产品运作初期，我可能会更严格，基本100%来自于指数成分股和备选成分股，在行业层面做到中性，这个中性并不是说与指数一模一样，而是说我持仓的行业和对标指数的差异，在一个非常窄的范围内，比如说0.05%或者是0.005%，这已经很小了，在统计意义上已经是行业中性的。这样未来有优化空间，比如可以把一个行业约束从0.005%扩大到1%，这个时候自然会有些行业在上下1%这个幅度里获得超配或低配。但是这其中非常核心的问题是，这个行业的超配和低配，并不是基于基金经理对行业未来走势的主观判断，而是基于量化阿尔法因子得分最大化的计算结果。也就是说，模型计算得出，某个行业的成分股阿尔法因子得分比其他行业要好，这个行业自然地就会被超配，其他得分偏低的行业，自然就会被低配。当然有些机构会对一些行业单独建模，这就是大家方法论选择的问题。

站在基民的立场，这么多指数怎么选？

面基：我站基民的立场问一个问题，指增肯定是在贝塔的层面做阿尔法，但这是基金经理的工作，对投资者而言，如果能选出来一个未来表现更好的贝塔，其实是事半功倍的。如果我要买一个公募指增，必然要面临的一个问题就是选哪个指数，比如、、中证A500、，这么多指数怎么选，你有没有一些思路或者建议？

田大伟：我分享一下个人的经验。市场上，比如说红利，拉长看收益就比较不错，这里指的是红利全收益指数，不是价格指数。红利资产的本质还是低估值、高盈利，这类资产是具有长期配置价值的。在目前利率持续下行的年代，投资者如果有权益配置需求，红利资产或许是一个性价比较高的选择。

还有一类策略叫 PB-ROE 策略，就是把全市场ROE大于15%的股票拿出来，再在里边按照股息率高低来划分，选择股息率高的一半，你会发现选出来的组合在过去几年的业绩是不错的。

面基：选完贝塔，接下来可能就要选阿尔法，比如说，我选了一个指数，然后把所有跟踪这只指数的指增产品都列出来，然后选超额最高的。因为作为一个普通基民，我的信息渠道和分析能力都非常有限，但是净值是一目了然的。用这种方法来选择产品可行吗？

田大伟：看业绩，需要在长期维度上去看。如果是基于很短时间的业绩来判断，比如你只看两个月的业绩，显然是不可取的。从量化指增的方法来看，我们检验一个阿尔法因子的有效性，也是在一个很长的时间维度上去检验，一个经过检验的阿尔法因子，不排除它在两个月内没有表现出超额，但它在长期内是有效的。还有一点是超额的稳定性，我们也是在长期维度上去检验，比如一个因子在五年内整体有一个明显的超额，但月度波动比较大，另一个因子在五年里80%的月份都有超额，我们会首选第二个，因为它的超额更稳定。我们做量化挖掘出的阿尔法因子，是希望它长期持续有效，这才是产品长期业绩的保证。所以建议投资者看业绩的话也要看长期。

除了业绩之外，我觉得投资者可能还要看基金公司相关产品的业绩，团队从业者的经验，基金经理所管产品的业绩等，这些都需要综合考量。

面基：给大家介绍一下兴证全球基金的量化团队吧。

田大伟：我们团队有几个特点。第一，大部分团队人员的经验比较丰富，量化是需要积累的，从业时间越长，积累的量化因子就越多，质量也越高。第二，我们团队的配合度很高，我们团队只有一个公共因子库，每个成员的因子必须来自于公共因子库，这个因子库我们是充分共享的，因子的值、因子的检验、因子的代码、因子的说明文档，都放在公共的服务器里，大家都能看到。第三，我们仍然会保护个人积极性，就是每个人用哪些因子，每个因子赋予多少权重，这个代码部分你是可以封装的，不需要跟其他人共享，因为最终产品是基金经理负责制。这样就同时保证了团队合作性和个人积极性。我们把这套规则经过充分讨论，大家都认可后，形成制度确定下来，后面就严格执行。

面基：作为指增基金经理，你们肯定会把做出超额作为一个重要目标，有没有另一种思路是控住波动？比如投资者一开始是想要拿到一个比较好的长期收益，去投资指增产品，但拿上才发现，真正承受不起的是波动之重。实际上，降低波动，让基民持有得更幸福一点，可能也很重要。

田大伟：确实，我们也很重视波动。需要指出一点，对于指增产品，我们更应关注超额收益的波动，也就是阿尔法的波动，而不是整体贝塔加阿尔法的波动。因为贝塔的波动确实很难把控，但是阿尔法的波动是有各种各样的方法去降低，比如说成分股、行业、市值的约束，以及多因子权重的配比等等，都可以在提高阿尔法的稳定性方面发挥作用。

面基：阿尔法的稳定性，可能一个普通基民未必能深刻地感知到。如果阿尔法为正，但最终阿尔法加贝塔的收益为负，普通基民还是会拿不住。

田大伟：影响投资体验很重要的一个因素是仓位。基民的持有体验不好，很多时候并不是市场一直很差，而在于仓位的选择，很多基民是在市场开始涨的时候仓位很低，后面越涨越去提高仓位，仓位很高的时候，一旦市场不好了，基民就会很受伤。

其实我们作为管理人，我们的经历和体悟也与投资者类似。我们做指增，贝塔加阿尔法是我们的综合能力的结果。其中，贝塔的选择权在投资者手中，他们会选择指数、会择时，可以自己去申赎来选择贝塔。而阿尔法是基金管理人的能力，只要有超额，投资者往往能够理解和接受。

如果我们有长期稳定的阿尔法，把产品的约束条件说得很清楚，投资者相信我们会这样执行，也会更加有信心去长期持有，我相信最终的投资体验会不错的。

风险提示：
田大伟投研经历：2010年4月至2018年3月，就职于光大保德信基金管理有限公司，历任金融工程师、首席策略分析师、投资经理、基金经理、绝对收益投资部总监。2018年4月至2023年9月，就职于华鑫证券资产管理总部，历任副总经理、投资总监、资管量化投资部总经理、投资经理。2023年9月至今，就职于兴证全球基金管理有限公司，现任专户投资部总监助理兼投资经理、兴证全球红利量化选股股票型基金基金经理。
兴证全球中证A500指数增强基金是股票型基金，其预期风险与收益高于债券型基金、货币市场基金、混合型基金。基金管理人对其评级为R3。本基金业绩基准为：中证A500指数收益率×95%+银行活期存款利率(税后)×5%。
兴证全球基金承诺以诚实信用、勤勉尽责的原则管理和运用基金财产，但不保证基金一定盈利，也不保证最低收益，投资人应当认真阅读基金合同、招募说明书等基金法律文件，了解基金的风险收益特征，并根据自身的投资目的、投资期限、投资经验、资产状况等判断基金是否和投资人的风险承受能力相适应，自主判断基金的投资价值，自主做出投资决策，自行承担投资风险。我国基金运作时间较短，不能反映股市发展的所有阶段。基金管理人管理的其他基金的业绩或拟任基金经理曾管理的其他组合的业绩不构成基金业绩表现的保证。过往业绩并不预示未来，基金收益有波动风险。基金投资须谨慎，请审慎选择。观点仅代表个人，不代表公司立场，仅供参考，不作为投资建议，观点具有时效性。基金投资需谨慎，请审慎选择。

本文地址：http://gzhdwind.xhstdz.com/quote/84583.html 物流园资讯网 http://gzhdwind.xhstdz.com/ , 查看更多