您现在的位置：首页 > 鼎实投研 > 鼎实研究 > 初谈多因子模型构造及交易的流程 | 量化交易

初谈多因子模型构造及交易的流程 | 量化交易

11082 收藏 2019-12-06 鼎实·复利资产配置

摘要：量化交易中很重要的一个模型就是多因子模型，那么在实际操作中，从一开始的设计，到测试，再到落地的整个模型构造过程是怎样的，本文尝试从一个从事量化交易策略的买方角度来将整个流程环节及所需的软硬件，用浅显易懂的方式将更多的细节描述出来。

量化交易是近几年逐渐引起大众关注的新兴领域，与传统投资方法不同的是，量化交易是指以先进的数学模型替代人为的主观判断，利用计算机技术从庞大的历史数据中海选能带来超额收益的多种“大概率”事件以制定策略，极大地减少了投资者情绪波动的影响，避免在市场极度狂热或悲观的情况下做出非理性的投资决策。

量化交易中的主流策略介绍

今天国内量化私募基金的主要策略类型大致分为：市场中性策略；量化多头/择时策略；期货管理策略(CTA)；套利策略；期权策略。其中市场中性策略是最大的策略分类，接下来是CTA，然后是量化多头策略。

然而在股票量化投资领域，不管是中性策略还是纯多头策略，都有一个很重要的实现途径，就是多因子模型。因为基金都依靠这个模型去完成选股环节，再以此为基础完成择时等工作。

所以下文的重点将会是解释多因子模型搭建的流程及细节。

多因子模型的构建与落地

多因子模型理论基础来源于基于马科维茨投资组合理论发展起来的框架，主要是寻求与股票收益率相关的各种因子，并使用这种因子进行筛选股票。

传统多因子模型在资管机构中的应用广泛，一般机构会建立自己的因子库，而策略研究员的日常工作一是维护好现有的模型，关注其每日的变化，二是在开发新的因子，从而领先竞争者，获取收益。在构建自我的因子模型开始，投研人员需要主观分析风险来源，主要分为：市场风险、宏观风险、行业风险、公司个体风险和其他风险等。

其中市场风险包括短期的情绪风险，流动性风险，宏观风险有宏观经济指标的分析，政策的分析，行业风险主要在行业类型，行业周期及行业的政策，而公司个体风险就包含公司基本面，财务情况，竞争定位以及经营能力的分析。做好这些工作，是多因子模型成功中不可忽视的一部分。

传统的因子主要分为四大类：

市场因子：市场因子主要包括市场风险、波动性、流动性、换手率等。可通过单因素的分析选择出对收益最显著的因子，作为市场因子的代表，也作为后期多因素分析的市场因子的代表，构建量化组合；

风格因子：风格因子主要包括规模、价值成长等方面；
财务因子：常用财务因子、盈利能力、偿债能力和现金流量等方面；
动量因子：是指过去表现差的股票会继续其较差的表现，价格继续下跌，过去表现好的股票会继续上涨。

因子的选取有几个需要注意的因素，一是因子指标的高低与收益率的高低之间的关系是单调的，二是因子之间的相关性不宜太高。

而投研人员会从主观的角度来构想因子，比如小市值的股票在过去的A股历史中一直表现都不错，那么小市值因子（可以是小市值，小流通市值等相关指标）可以作为一个单因子纳入因子库，这其中在带入模型前还涉及到离群值处理，数据标准化，特征分析，中性化处理等处理过程，就不在这里细述。在纳入更多因子之后，投研人员需要做大类因子合成，因为需要保留尽量低相关的因子进入模型，之后就可以构造模型，涉及到的工作主要包括给因子权重及给个股打分然后筛选，构造投资组合。在最后，一般需要添加约束条件，由于一开始的主观分析可能需要在行业权重，收益目标，风险目标，个股权重等问题上设限，可以通过添加约束条件的方法，在多因子模型上得出最优解。

以上的工作主要涉及到数据的采集，这部分市面上主流的平台都有能力去提供服务，比如万得，Bloomberg等。

而对于行情的提取，现在交易所行情主要分为Level-1跟Level-2，Level-1行情是快照，上交所跟深交所都是3s/笔，Level-2一般是交易所推出的实时行情信息收费服务，包括十档行情，买卖队列，逐笔成交，委托总量和加权价格等多种新式数据（Level-2里面还有一个很重要的是逐笔委托，很多量化私募以及T0策略要用）。Level-2的数据需要和券商合作，放到券商在交易所那里的机房，从而得到接入。而期货方面中金所，上期所，大商所，郑商所的Level-1期货行情500毫秒（0.5S）发送一笔快照，对于中金所五档行情（500ms）及大连、郑州商品交易所Level-2行情（250毫秒一笔），也是要交费的。接下来对模型的构建依靠现在主流的分析软件包括Python，R，Matlab等，Numpy，Pandas等多元的包使得Python在金融领域的应用越来越广泛。在构建完模型后，对策略的回测是下一步，现在有一些线上的平台可以提供回测的服务，包括米筐，聚宽等，他们都能给到一个比较完整的回测分析结果出来，其中包括收益曲线的刻画，回撤，夏普比率，收益回撤比等指标。而机构的下单系统，也就是交易柜台，也至关重要。一个低延迟，稳定，实惠的交易柜台非常重要，做交易柜台的主要有恒生、金证、铭创、顶点、根网以及金仕达等公司，这些公司的柜台系统功能模块根据付费多少而不同，也可以根据证券公司需求做开发，提供给投资者使用。

而对于大型机构来说，以上的工作他们可能会自己搭建相关的系统，这有几点好处：

成本控制

目前，商业化的第三方量化平台有2种收费模式，一种是以成交量为基数来计算，一种是以年费来计算，不管采用那个计费的方案，随着用户的交易规模的上升，管理的账户的数目的增加，平台费用都是比较大的一块支出；自建平台的话，只是在开始的付出一笔建设费，以后的总体运行支出就很少，而且，部署多套的话，也不会额外增加成本。成本方面实际上还有另外一种成本，就是因为平台的转换而投入的时间和学习成本。比如用户一开始选择了A平台，用了一段时间以后，发现A平台有些功能完成不了，于是切换到B平台，这样就会导致用户需要将A平台和B平台都学习一遍，这个成本在实际工作中都是非常高的。自建平台以后，一开始投入的学习时间和成本都能够得到很好的保护；

策略安全

用户开发的量化交易策略通常是最具商业价值的部分，所以，几乎所有的量化团队和个人对于的策略的安全性都是高度重视的。在目前的商业化平台中，有些平台的开发、回测、交易全过程都是在平台提供商的云端进行；有些平台虽然是在客户的本机开发，但是回溯测试还是会和服务器发生交互；这些情况下，用户对于策略的安全性的疑虑始终难以彻底打消。自建平台就完全不存在这方面的问题，用户的策略都完全在自己的掌控范围内，除了发出的交易指令，不需要和外界的服务器交互；

功能定制

第三方平台为了满足多个方面的用户需求，通常会做的大而全，这样的执行效率也会相应的下降；另外，这样的产品的生命周期通常跨度比较大，会出现在早期设计产品架构的时候，不容易预计到后面的新的应用，比如像现在新出现的期权交易，在多数平台上原先设计的时候，都不大可能考虑期权策略的交易。这样的话，用户如果要扩展定制一下新的功能，可能就会变得非常困难，甚至无法实现。而自己平台本身就是量身定做，对于功能扩展就可以很容易的实现。

接下来是PB系统（Prime Brokerage），中文名叫主经纪商，在国外主要是券商为机构客户（特别是对冲基金）提供服务和管理的业务平台，也是对冲基金投资策略得以实施所依赖的重要组成部分。现在国内主流的PB系统包括恒生电子的HOMS系统，中信基于Apama的Cats系统以及国信的tradestation。

对于交易频率较高的量化基金来说，网速也有更高的要求。速度除了柜台系统之外，网络以及与交易所物理距离也很有关系。网络专线主要有两种信道，分别是物理专用信道以及虚拟专用信道，现在一般都是虚拟专用线路，不是真的拉一条线，只是保证了这一条线路上你的带宽是你独自占用的，不是和互联网一样带宽是所有共享的，所以这条线路就会比较稳定。对于比较大的量化私募公司来说，服务器一般都托管在专属机房里面，包括好做系统备份等。专属机房不一定是上海证通机房或者深圳滨海机房，现在这些机房机柜机位都很紧张，深交所的东莞凤岗电信机房相对宽裕。托管机房主要还是保证交易稳定、可靠，尽可能选择离两个交易所物理距离比较近的地方。

机器学习的应用

市场有效度不高的时候是多因子模型收益更高的时候，而随着市场有效度的提高，行业内参与者的增加，使得传统的模型愈加难以获取收益，这时领先的量化机构就会采取机器学习等更先进的方法来挖掘因子。国际上领先的量化机构，比如2Sigma，DE Shaw等就早已采用这种方法来挖掘新因子。

为什么机器学习是量化领域未来的蓝海，主要是因为算法、算力以及数据维度的提升，随着Google等科技巨头算法开源，世界各地的思想在GitHub上交汇，任何一个新的算法进展都能借由互联网在短时间传遍全世界。而同时，被验证了几十年的摩尔定律依然发挥着神奇的效果，我们使用的硬件设施每间隔1到2年，就会有突破性的升级。而数据维度的提升主要体现在每时每刻在全球各个市场上发生的交易，都在扩充着我们日后可以使用到的数据信息。另外，传统的量化模型遭遇瓶颈，前文提到基于马科维茨投资组合理论发展起来的框架始终局限于追求股票收益率与因子的线性关系，而机器学习是量化研究领域的一片蓝海，而它的其中一个优势正是能找出对象之间的非线性关系。

然而机器学习在金融领域的应用也有一定的未知因素，主要在于复杂机器学习算法其实是一种黑箱模型，研究人员很难去真正了解算法的处理过程，以致于不能很详尽的做出业绩归因。过拟合的风险，当模型选取了噪音而不是信号时，过拟合就会发生。过拟合的模型在样本内表现很好，但是在样本外的预测能力很差。清华大学工学学士和硕士，麻省理工博士石川在其文章中也提到，因为金融分析属于非实验性科学（nonexperimental science），因此无法进行对照实验（scientific control或controlled experiments）。这意味着虽然存在大量的金融交易数据，但是无法通过设计实验来控制自变量的变化、通过重复性试验来检验提出的假设（比如说机器学习发现的某种选股模式）。如此的数据分析得到的大多是看似显著但实际上是欺骗式的模式（尤其对样本外数据），这个现象称作数据迁就（data snooping）。

参考资料：

01. 多因子选股模型在实际中如何构建？林伟平

02. 多因子模型的步骤梳理（以打分法为例）金尾巴

03. 一文读懂量化系统接入及相关平台呆若木鸡

04. 打造自主量化交易平台一站式顾问服务

05. 机器学习：开拓金融量化新前沿光大证券刘均伟

The End