返回首页
量化投资,高频交易,程序化交易学习必备~900+个(200G+)培训视频持续更新中!!!

机器学习怎样应用于量化交易(一)

时间:2016-10-29 14:09来源:未知 作者:杨清婉 点击:
曾有朋友问过,国内现在量化领域机器学习应用的少,是否因为效果不如简单的策略。其实,把机器学习应用在量化交易上始终面临着两难,却并不是无解的两难。很多时候并不是机器学习不work,而是真正懂如何用正确科学的统计思维使用Machine Learning的人才太少

  曾有朋友问过,国内现在量化领域机器学习应用的少,是否因为效果不如简单的策略。其实,把机器学习应用在量化交易上始终面临着两难,却并不是无解的两难。很多时候并不是机器学习不work,而是真正懂如何用正确科学的统计思维使用Machine Learning的人才太少。

  机器学习涉及到特征选择、特征工程、模型选择、数据预处理、结果的验证和分析等一整套建模流程,广义角度来说就不单单是模型选择的问题。所以,如果认为“用支持向量机成功预测股票涨跌” 这样的研究,就是把机器学习应用于量化交易,这种狭义的认识无疑是买椟还珠,对机器学习领域散落遍地的珍珠视而不见。如果把机器学习的崛起放在历史进程中考量,无非就是趋势的延续:现在,可通过系统的数据分析证实过去模糊不定的经验,机器学习算法将未曾被察觉的规律得以浮现纸面。

  在我看来,未来的发展概有两个方向:

  1.针对量化交易的统计学习算法被提出,使其适合于噪声大,分布不稳定的金融数据分析;

  2.对于机器学习的热情回归理性,从工具为导向回归到问题为导向。

  针对如何以问题为导向,在机器学习算法中挑选合适的工具,分享一些思路。

  1.多因子模型的因子权重计算

  当我们在构建多因子模型且已经选定了一系列因子之后,要如何根据不同的市场情况调整各个因子的权重呢?在以往的研究中发现,与其它算法相比较,随机森林算法对于存在非线性、噪音和自变量共线性的训练集的分析结果更出色。所以,目前在多因子模型的权重上,采用当期收益率对上期因子进行随机森林回归分析,以确定下一期多因子模型的因子权重。

  2.缺失值处理

  处理缺失值在金融的量化分析中是个无可避免的问题。选取合理的缺失值处理方法,依赖于数据本身的特点、数据缺失的情况、其对应的经济学意义,以及我们需要使用数据进行何种计算。在尝试构建多因子模型时,我们选择了两种缺失值替换方法:(1)采用期望最大化算法来用同一变量的已知数据对缺失值进行极大似然估计。(2)把模型中包含的所有因子作为特征变量,并赋予其相同的权重,再采用机器学习中的K-近邻算法来寻找最相似的标的,保证缺失值替换后,不会强化一部分因子的影响力。

  其实在量化领域,机器学习解决着线性模型天生的缺陷或弊端,所以还是有着很深的介入的。除去凸优化、降维(提取市场特征)等领域的应用,目前“非动态性”和“非线性”是两个重要的弊端。金融关系之间并非静态,很多时候也不是线性的。统计学习的优势此时就会体现出来,它们能够迅速地适应市场,或者用一种更“准确的”方式来描述市场。

  在国内,机器学习在量化内应用跟领域有很大的关系,跟频率也有很大的关系。比如,CTA的运用可能就要多于股票,它处理数据的维度要远小于股票,获取市场的长度和动态又强于股票。股票市场的momentum要弱于期货市场的momentum,它的趋势与股票相比更明显和低噪声。这些特征对于机器学习发挥作用都更加有利。

  很可能国内一些交易执行算法的设计上就借鉴了机器学习。我们可以通过学习订单薄特征,对下一期盘口变化做一些概率上的预测,经过一定样本的训练之后,可以显著地提升算法表现。

  而我仍谨慎看好深度学习等机器学习方法的原因在于,在认识市场上,现行的大部分方法与这些方法并不在一个维度上,这个优势让它们与其他方法相比,捕捉到更多的收益。也就是说,一个新的认识市场的角度才能带来alpha。

(责任编辑:admin)
量化投资,高频交易,程序化交易学习必备~900+个(200G+)培训视频持续更新中!!!
------分隔线----------------------------
云量化商城
如果您会开发策略,请进!大量项目等待与您合作!
推荐内容
量化投资培训