100字范文 > 人工智能NLP在金融领域的发展趋势和实践经验

人工智能NLP在金融领域的发展趋势和实践经验

时间：2018-09-07 11:01:57

作者：郑骁庆林金曙

金融服务行业正在爱上“吞噬”文本数据，即自然语言处理。（The financial services industry is falling in love with text crunching—also known as NLP.）

自然语言处理（NLP）在金融科技中主要解决两端的问题，一端是数据，另一端是人。据估计，90%的数据以非结构化的形式呈现，自然语言处理的目标是将非结构化的数据转为结构化表示，然后将语言描述相似的内容汇聚，从而估计所描述事件的可靠性和真实性，进而通过事件之间的关联关系，产生新发现和新洞见，为后续的决策提供依据。对用户来说，自然语言处理技术让机器更懂人言，更了解用户的需求及意图，从而提供及时、准确、友好的服务。

NLP在金融领域的发展趋势

细粒度的舆情分析

舆情分析在金融领域的研究起步较早，应用也较为广泛。大众对某个事件的评价与态度，与相关资产的价格变动趋势有很强的相关性。基于这样的逻辑，可以让系统自动化收集和分析舆情信息，总结对某事件或某企业的评价。这方面金融行业亟需做得更加细腻，开展细粒度的舆情分析，例如对某企业新发布产品的外观、功能、价格等各方面评价进行分析，进而形成对产品的完整评价；细粒度还指不能对所有来源的舆情信息一视同仁处理，而是需要考虑评论的出处。因为某些机构、人员的评价可能带有一定目的性，需要与一般大众或独立性程度较高的第三方评论区别对待。此外，还要考虑评论者在历史过程中对事件评论的准确率。

突发和意外事件需要格外关注，尤其是与当前趋势相反的事件，这些事件对投资者更有价值，正确预测全新的趋势有助于捕捉更佳的投资机会。

对话系统引入情感分析与推理

对话系统在智能客服、智能投顾等领域已有广泛应用，现在的一个发展趋势是在系统中运用情感分析技术，动态跟踪交互时用户的情绪变化，可以在发现用户出现负面情绪时，及时介入人工干预；情绪分析也可作为对话质量评估的指标，判断对话系统在完成某类任务中是否可靠，并利用历史交互记录对系统进行针对化的迭代优化。现在的技术已经可以较准确地实时分析用户情绪状态和变化，还可以让系统在回答中注入和表达特定情感。实验数据表明，如果对话系统能做出一些安慰、同情等共情性表达，系统友好性和用户黏度会大大提升，甚至提升对话系统的交互效率。

对话系统还需引入智能推理能力，这也是一个重要趋势。传统对话系统中结合知识库的方法是将用户的问题通过语义解析转化成相应知识库的查询语句，然后在知识库上执行查询操作，并将查询结果返回给用户。这样的结合方式中，知识库的作用类似于数据库，不能发挥知识库最有价值的能力——使用已知的知识和事实推导出新知识。知识库及其上的推理，天然能够对得出的结论进行解释，例如在智能投顾过程中，系统给出一个建议，如果用户要求给出解释，可以通过跟踪推理链，给出具有一定信服能力的、可解释性的结果。

更智能的文档分析

随着文档智能技术的发展，在金融领域将会有较大的应用前景。金融领域有大量的文档需要处理，现在技术上可以实现从文档中提取关键要素，进行文档细粒度的比对等，以减少繁重的人工工作。例如通过自动对比同一企业的两份年报（包括财务数据和解释说明），可以了解企业在一定时期内发生的重要变化。笔者认为，未来的发展趋势是机器将能更好地理解和解释文档，知晓文档内部互相引证的关系以及复杂文档的结构关系，从而更好地赋能合同分析、检测，这方面现在也已经有了一些应用。在文档摘要方面，现在市场的一种需求是要能针对用户特定问题产生摘要，特别是对长文本，需要根据文本内容快速回答用户的问题并指出答案出处。

与知识图谱结合

知识图谱与自然语言处理相结合的一个趋势是：需要能够围绕某个主体，将一段时间所发生的相关事件进行聚类，并将事件聚类结果与其他主体之间的关系进行建模，这些关系可以作为构建金融定量分析模型的一个影响因素，将知识图谱的信息有效地在模型构建上发挥作用，从而建立不同变量之间的关系，产生更具说服力、且有数据支持的结论。

为对抗攻击做好准备

对抗攻击对金融业信息安全的挑战目前还难以评估，但行业需要为最坏的情况做好准备。神经网络和深度学习模型易被攻击的现象最早在图像领域被发现，在自然语言处理也观察到类似现象，例如原始语句“I really like this movie”是对movie（电影）的正向评价，但是采用对抗攻击算法，每次有目的地用近义词替换句子中的一个词汇，最后生成“We truly like the show”的句子，虽然人仍然认为是正面评价，模型却判断该句子表达了负面情感。类似情况会严重影响模型的鲁棒性，降低模型分析结果的可靠性。我们要在对抗攻击防御上做好技术储备，构建能够应付对抗样本的鲁棒模型。另一方面，对抗攻击不仅带来了挑战，也带来了机遇：它提供了一种迭代发现当前模型弱点、弥补弱点（攻击和训练不断切换）的模型训练方法；在训练样本不足时，也有助于自动产生高质量的训练样本。

金融NLP实践经验：从语料到模型

自然语言处理落地金融场景，主要包括原始文本解析、文本标注、模型训练、模型评估、模型上线部署等流程，让快速发展的自然语言处理技术更快、更好地落地，主要有几个关键点：

◆语料库维护：这是自然语言处理应用落地的保障，语料和标签需要形成体系，沉淀之后可以为其他业务场景复用。语料库的维护需要考虑语料类型的多样性，包括文本、图像、语音等，能否实现统一管理、检索；不同业务场景需要的语料格式不同，能否统一管理。

◆标注质量：标注的质量往往会决定模型的产出效果。在标注之前，需要对原始语料进行清洗，例如：去掉相似语料，让标注更具多样性；很多大盘点评、涨停揭秘资讯等都是无用的信息，要进行数据降噪。在标注规范方面，文本分类、短文本相似度、文本信息抽取最为重要，要对每个标注需求定义进行质量把控，明确标注需求及验收规范、标注过程要进行质量监督。简而言之，“高效标注工具 + 严格标注规范 + 数据积累 + 专业标注团队 = 高质量语料。”

◆模型训练及效果验证：需要一定的算力支持；与学术界不同，金融领域的应用要减少维护成本与调试成本，模型不能太复杂；要对模型训练结果进行实时跟踪。

◆预训练模型及自学习平台：基于公开数据并融合金融行业问答数据、资讯公告以及研报数据面向智能问答、智能文档处理、资讯研报标签等场景，恒生NLP提供金融预训练模型（相比开源通用预训练模型F1提升3 ~ 5%），且配套有独立研发自学习平台，从而有效解决金融机构本地部署模型快速迭代的需求问题。

在金融NLP实践的过程中，恒生基于严格的标注规范积累了大量高质量语料，在模型开发、训练与管理方面也已形成相关工具、平台。随着越来越多、越来越精彩的自然语言处理技术从前沿走向应用，恒生也将与行业一同探索新技术在更多业务场景的应用。

更多金融科技文章见恒生LIGHT云社区

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。