接下来我们将会把美国银行研究员David W. Lu发表的一篇,关于循环强化学习和神经网络在程序化交易中应用的文章部分主要翻译内容,拿出来与大家分享,欢迎大家与我们共同讨论!
此篇文章主要提出循环强化学习和LSTM神经网络在证券自动交易领域的应用。研究强化学习自动交易的盈利能力,并从多角度多方面进行测试。研究如何能够有效的避免强化学习模型在频繁交易时带来的交易成本上升的风险。维持盈利的稳定性,有效控制交易次数。创新的利用夏普比率等传统量化参数替代损失函数降低交易风险。
![]() 人工智能被越来越多应用到人们生活的各个层面,当然市场交易以及程序化交易也不例外。人工智能随着GPU计算能力的增强和深层网络的突破,在很多领域得到了应用的机会。在实验中我们可以通过深度强化学习进行自动agents的训练,从而达到普通交易员的水平。我们从原始的输入中构建知识是为了在本实验中实现类似于人类的表现,就像卷积神经网络直接从图片中学习到特征。强化学习就是一种用有自适应控制能力的学习系统。有了这些学习的能力,我们就能够构建一个近乎真实的人工智能。
我们在接下来的文章中主要应用直接强化学习和循环强化学习(recurrentreinforcement ),不使用价值函数和策略选择算法。
首先我们要知道,我们为什么要采用直接强化学习和循环强化学习。虽然在金融界的应用很少被报道,但无论是在理论和实践上深度学习确实都取得了非常大的进步。价值函数也在AlphaGo,训练直升机等其他领域都得到了很好的应用效果。然而价值函数本身确实存在几个固有的被动限制。由于神经网模型在强化学习框架下存在脆弱性,所以Q-Learning函数被神经网络替代后,使用简单的马尔可夫决策过程会出现有可能不收敛的情况。这些表现都意味着很小的价值函数变化,都有可能造成剧烈的策略变动。或许这种变动在某些领域是可以被接受的。但是在交易领域却是无法承担的,因而价值函数方法应用在交易领域存在很严重的问题。
相比较而言,循环强化学习不需要满足价值函数离散度就可以生成价值和权重,因此它更能够及时提供反映,方便我们来优化交易策略。清华大学博士邓岳就曾用最大的利益为循环强化学习的目标,并用实验的方式利用深度学习的方法在程序化交易中强化学习模型达到盈利的目的。邓岳曾在论文中阐述,在这些结构中梯度消失的问题是不可避免的。所以我们引入Dropouts的方法进行实验并通过LSTM来处理这个缺陷。
文章来源:“Agent Inspired Trading Using Recurrent Reinforcement Learning and LSTM Neural Networks” by David W. Lu
|