什么是预训练?
这是一个拷问人工智能「门外汉」的灵魂问题。
生而为人,我们不需要一切从零开始学习。但是,我们会「以旧学新」,用过去所学的旧知识,来理解新知识和处理各种新任务。
在人工智能中,预训练就是模仿人类这个过程。
预训练(pre-training)这个词经常在论文中见到,指的是用一个任务去训练一个模型,帮助它形成可以在其他任务中使用的参数。
用已学习任务的模型参数初始化新任务的模型参数。通过这种方式,旧的知识可以帮助新模型从旧的经验中成功地执行新任务,而不是从零开始。
以前的研究已经表明,在像生物医学这样的专业领域,当训练一个NLP模型时,特定领域的数据集可以提高准确性。不过,还有一个普遍的认识是,「域外」文本也有用。
但是!微软研究人员对这一假设提出了质疑。
近日,微软研究人员提出一种人工智能技术,针对生物医学NLP的领域特定语言模型预训练。并自信地说,通过从公开的数据集中编译一个「全面的」生物医学NLP基准,在包括命名实体识别、基于证据的医学信息提取、文档分类等任务上取得了最先进的成果。
他们认为,「混合领域」预训练?不就是迁移学习的另一种形式吗?源领域是一般文本(如新闻),目标领域是专门文本(如生物医学论文)。
在此基础上,针对特定领域的生物医学NLP模型的预训练总是优于通用语言模型的预训练,说明「混合领域」预训练并不完美。

神经语言模型预训练的两种范式。「混合领域」预训练(上);只使用域内文本预训练(下)
如此自信,研究人员是有证据的。
他们通过对生物医学NLP应用的影响,比较了训练前的建模和特定任务的微调。
第一步,他们创建了一个名为生物医学语言理解和推理基准(BLURB)的基准,该基准侧重于PubMed(一个生物医学相关的数据库)提供的出版物,涵盖了诸如关系提取、句子相似度和问题回答等任务,以及诸如是/否问题回答等分类任务。为了计算总结性分数,BLURB中的语料库按任务类型分组,并分别打分,之后计算所有的平均值。

为了评估,他们又在最新的PubMed文档中生成了一个词汇表并训练了一个模型:1400万篇摘要和32亿个单词,总计21GB。在一台拥有16个V100显卡的Nvidia DGX-2机器上,培训了大约5天时间。这个模型具有62,500步长和批量大小,可与以前生物医学预训练实验中使用的计算量相媲美。
又一个自信,研究人员说他们的模型——PubMedBERT,是建立在谷歌的BERT之上。
那个牛掰掰的BERT?Google 在 2018 年提出的一种 NLP 模型,成为最近几年 NLP 领域最具有突破性的一项技术。

但有趣的是,将PubMed的全文添加到预训练文本(168亿字)中会让性能略有下降,直到预训练时间延长。但研究人员将这部分归因于数据中的噪声。
“在本文中,我们挑战了神经语言预训练模型中普遍存在的假设(就是前面说的「混合领域」预训练),并证明了从「无」开始对特定领域进行预训练可以显著优于「混合领域」预训练。「为生物医学NLP的应用带来了新的、最先进的结果,」研究人员写道,「我们未来会进一步探索特定领域的预培训策略,将BLURB基准扩展到临床或其他高价值领域。」
为了鼓励生物医学NLP的研究,研究人员创建了一个以BLURB基准为特色的排行榜。他们还以开源的方式发布了预先训练过的特定任务模型。
研究已发布于预印论文网站arxiv上。
免责声明:本文版权归原作者所有,文章系作者个人观点不代表蜗牛派立场,如若转载请联系原作者;本站仅提供信息存储空间服务,内容仅为传递更多信息之目的,如涉及作品内容、版权等其它问题都请联系kefu@woniupai.net反馈!
]]>之前我所在的美团点评,是一个完全ToC的公司,当有人跟我提起智慧城市这类词汇的时候,感觉离我会有一些远。但过去一年,我本人和团队对这方面的认知,有了一个很大的提升。我们认为,智慧城市是一个复杂的共同体,它包括智慧政务、智慧医疗、智慧教育、智慧交通等等,非常的丰富。

这也意味着,我们从消费互联网时代,将进入产业互联网的时代。
虎博科技在过去一年的时间里形成了一个重要的认知:和消费互联网相比,产业互联网的突破,对我们每个寻常老百姓的美好生活的意义更大,人工智能深度介入产业互联网,能够带动各个领域智能化场景和服务的建设,创造美好的幸福生活,但它的难度也更大。
人工智能市场规模的走势,也佐证了这一点:
中商产业研究院预测今年中国人工智能的市场规模将突破700亿元;据埃森哲预测,2035年人工智能将推动中国劳动生产率提高27%,经济总增加值提升7.1万亿美元。
具体到各项人工智能技术的发展,语音、图像相对比较成熟,但或多或少是处在感知智能层面;自然语言处理,乃至自然语言理解,正以一个渗透式的方式惠及各行各业,当它突破到一定的程度,会有颠覆性的改变。也因此,国内外涌现了很多专注NLP领域的公司,共同推动着这个行业的进步。
根据信通院的预测,2021年全球自然语言处理市场规模会达到160.7亿美元,同时,在基于自然语言处理技术得不到突破的保守预期下,2021年国内自然语言处理市场也能够保持20%左右的增长速度。

数据不会说谎,这代表着自然语言处理技术的产业应用前景被人们所看好。作为一个扎根在自然语言处理领域的人来说,我对此更是深信不疑并且充满信心。为什么这么说?因为自然语言处理能够解决两个产业互联网非常核心的问题:
第一,线下数据。虎博科技打造的下一代的智能搜索,很大的一个核心功能,就是线上数字化。现在很多行业数字化还不够,例如金融领域,存在大量的文档、PDF、图片等不可读取的数据,这就造成金融机构在提供服务的时候,很难变得智能化,效率低下。
虎博科技基于自然语言处理技术自研的核心系统MasterMind,就能够实现线下数据的线上化,自动进行解析、理解、总结,并且最终结构化地呈现出来。
第二,行业结构。不同的行业有着不同的知识结构,不存在一套通用的数据处理逻辑,这是所有人的共识。从一个工程师的角度,怎么尊重行业的结构?核心是知识图谱。
虎博科技最核心的做法,就是在没有任何先验知识、没有任何边界的情况下,快速地构建起某个行业的基本知识图谱,深入每一个行业的知识结构,理解一个行业或者说产业,才能服务好这个产业的智能化转型。自然语言处理技术在其中发挥着非常核心的作用。
虎博科技就专注于自然语言处理、深度学习等人工智能技术。我们之所以会选择这个赛道,是因为在我们看来,语言和文本是人类知识最大的载体。自然语言处理的未来,是让机器理解或是很大程度上帮人们理解一个事情,在更广泛的场景下服务于我们的生产和生活。我们致力于的,就是自然语言处理技术的未来,通过自然语言处理,让机器理解世界,帮助人们获取信息和知识更简单,真正让机器服务人们的生产生活。
那么,究竟自然语言处理技术能怎么用,该怎么用?
我想先抛出我的观点:ToB产业发展更能惠及市民的美好生活,但各个行业企业需要利用前沿人工智能技术赋能业务创新和服务升级,才能最终作用于智慧城市创造美好生活。特别是政务、传媒、能源、金融领域里的国之重器,它们的智能化发展进程,决定着社会、国民经济的繁荣和稳定。
我们发现,在刚才提到的四个领域里面,都存在着信息不对称、专业数据获取难、专业知识结构差异造成技术难落地等问题。比如金融领域,如何对齐用户和市场信息数据,帮助用户更好地决策;比如政务领域,如何解决线下数据和数据孤岛的问题,真正铺开一网通办、一网统管“两张网”,这些问题都需要去解决。
我们虎博科技已经在这方面进行了很多的实践,服务了不同领域的近100家客户,比如金融领域里海通证券等头部券商,传媒领域里的人民网、财联社,能源领域里的国家电网,还有很多部委职能部门。我们利用人工智能技术提高他们的服务效率,创新他们的智能应用场景,以服务人们更好地生活。
下面我分享一些虎博科技的技术在这些行业里的实际应用。
金融方面,我们遵循更垂直的行业结构进行赋能,比如证券、银行、保险、基金等,满足他们在信息检索、风险评估、交易决策参考、风险预警、文档信息管理等多重需求。
我们发现证券机构对资讯的需求量非常大,但存在资讯冗杂、数据孤岛的问题,难以进行高效数据管理和精准内容分发。我们运用核心的智能搜索,服务的某头部券商就解决这个问题。数据显示,自系统上线后,其平台的资讯粘度较之前提升了60%,也大幅提升了其平台用户的信息获取效率,辅助其提升了DAU、MAU。
比如,我们将我们核心产品虎博搜索的结构化、可视化的搜索体验效果直接复制到了某基金App中,解决了他们使用上一代搜索系统难以满足用户对丰富服务、结构化数据以及难以理解用户意图的长期问题。举个例子,你想知道重仓茅台的基金有哪些,直接搜索就能得到答案,这在上一代系统中是很难实现。
此外,通过智能搜索,我们客户实现了对全网信息的快速检索和精准风险把控,便捷的解决了对合作伙伴的资质审查等多方面问题,效率较之前至少提升了90%。
我们为一个商贸客户不仅建立了其所在行业的专业知识图谱,将其底层数据进行深层打通,实现了统一的搜索入口和用户意图的深层理解,使信息查找更懂用户的需求,更智能。我们得知,其网站的信息复合匹配率提升了近70%。
社区服务方面,我们也通过对资讯、数据的结构化整合、情感的判定等多种方式,实现社区网格化精细管理的需求,提高其管理效率。
以上这些,是我们的部分落地成果。当然,自然语言处理的应用范围非常广,我们抓准的是最核心的应用,智能搜索,解决最根本的问题,信息不对称,帮助客户从信息需求的方方面面提升效率。
虎博科技经过一年多在B端服务上的探索,沉淀出了四款核心的企业服务产品——虎博智能搜索引擎、虎博NLP算法中台、虎博智能问答机器人、虎博智能舆情系统。我们用这些产品和方案,去解决企业在朝着产业互联网、产业智能化升级的过程当中,遇到的线上线下数据整合处理难、行业结构约束通用技术应用的问题。
总结来说,虎博科技所专注的落地应用,底层其实都是虎博科技的核心技术,我们称为下一代智能搜索,它与传统搜索的不同之处,可以总结为三点:
第一,数据涵盖更深。它会自动理解行业的、产业的数据。金融行业的财务、线下的PDF,传统行业数据库,甚至没有数据化的东西。
第二,有知识图谱自动构建能力,并且这个知识图谱是没有边界的,可以深入到每一个特定的行业和领域。
第三,理解。考虑到有很多产业用户,我们将门槛降到最低,不管你怎么说,机器大概率会理解你的意思,并作出很好的回答。
基于这样的核心底层技术,我们正在深入不同企业之中,理解企业所处的产业结构特点,深挖技术与产业相结合的价值潜力,创新更高效、更智能的服务,以ToB为桥梁,让人工智能技术为每一个人创造价值。
谢谢大家!
免责声明:本文版权归原作者所有,文章系作者个人观点不代表蜗牛派立场,如若转载请联系原作者;本站仅提供信息存储空间服务,内容仅为传递更多信息之目的,如涉及作品内容、版权等其它问题都请联系kefu@woniupai.net反馈!
]]>