100字范文 > 深度学习核心技术精讲100篇（四十九）-半监督学习在金融文本分类上的探索和实践

深度学习核心技术精讲100篇（四十九）-半监督学习在金融文本分类上的探索和实践

时间：2023-09-28 15:22:40

前言

垂直领域内的自然语言处理任务往往面临着标注数据缺乏的问题，而近年来快速发展的半监督学习技术为此类问题提供了有希望的解决方案。文本以 Google 在年提出的 UDA 框架为研究主体，详细探索该技术在熵简科技真实业务场景中的实践效果。

本文主要有三方面的贡献：

以金融文本分类为案例，探索了 UDA 在真实场景中的效果和不足；

探索了 UDA 在轻量级模型上的效果；

增加了原始 UDA 论文中未披露或未完成的研究，如领域外数据的影响，错误标记数据的影响。

当前的半监督技术似乎已经具备了与监督学习相比拟的优势。那么在真实场景中，半监督技术是否依然可以如实验室中的表现，可以在真实问题上发挥出独特的优势，降低我们对于标签数据的需求。

本文基于熵简NLP团队在真实业务场景上的实践经验，从垂直领域对于半监督技术的需求出发，详细介绍半监督学习中最新的代表技术之一UDA 算法的特性，以及在金融文本分类任务上的落地实践。

金融领域内的自然语言处理问题属于典型的垂直领域问题，在面对特定任务场景时，常常面临的一个重要挑战就是少样本。这主要体现在两个方面：

可收集到数据总量少，数据收集的时间成本很高，尤其在从0到1的立项初期。曾经在某个项目上，我们用了三周时间才搜集到1000多条有效样本。

数据的人工标注成本很高。由于自然语言处理任务大部分属于认知层面的任务，因而数据标注的难度和不确定性显著高于感知层面

本内容不代表本网观点和政治立场，如有侵犯你的权益请联系我们处理。

网友评论

网友评论仅供其表达个人看法，并不表明网站立场。