当前,新一代人工智能(AI)技术蓬勃兴起,同时,大数据、区块链、云计算等技术与社会各个领域的融合,给人类生产、生活带来了深刻变化,为经济社会尤其是数字经济发展注入新动能。
随着人工智能从感知智能向认知智能逐步演进,知识图谱将成为下一代人工智能的核心技术。与以实体为核心的“实体图谱”不同,“事件图谱”是以事件为核心构建的知识网络,提供了对动态事件的理解与建模方式,能够持续追踪事件的演变发展,从繁杂的信息中捕捉关键点,为智能决策提供新助力,本文围绕事件图谱的关键技术、应用现状、我行的应用实践及应用前景展开讨论。
一、引言
历史不会重演,但总会惊人的相似。——马克·吐温
世界是在一系列的事件发生过程中不断向前推进的,表面看起来毫无关联的事件,底层却可能有着千丝万缕的联系。自古以来,人们都在尝试对历史事件进行研究分析、总结规律、解释现象、指导未来。如今,随着社会的发展,信息爆炸式增长,大幅提高了从大量发生的事件中提取关键信息并进行分析决策的难度。随着人工智能技术不断取得新突破,利用人工智能对事件分析已经变为可能。事件图谱技术是目前主流的事件处理技术,其利用自然语言处理、计算机视觉等人工智能技术,将真实世界中发生的事件抽取成机器可理解的结构化知识(事件图谱),并将其存储到以图数据库为代表的存储结构中,然后使用知识图谱相关的技术对事件进行推理分析,进而辅助人类对当前事件的理解、提高事件分析的精度和速度。随着事件图谱技术的演进,银行业可以利用该技术提取出事件有关的何人(或公司)、何事、何时、何地、怎样、为何,分析出事件影响的范围,并结合时序事件、关联事件来进一步推理分析事件发生的原因、诱发的风险、带来的机遇,进而为信贷、投资、风险管理等业务的智能决策提供助力。
二、存算分离技术剖析
知识图谱是大规模的语义网络图,把世界上纷繁复杂的各种客观知识通过图谱的方式组织起来,使计算机能够更好地理解知识,从而提升信息处理的效率。基础的知识图谱以实体及实体间的关系为核心。而事件也是一种知识,其联系不同的实体,在某个特定的时间以及特定的地点,由多个相关角色参与的一件事情或者一组事情,由此形成了事件图谱。
事件检测是构建事件图谱的基础。事件检测包括两部分,一是事件归纳(事件发现),对新闻篇章进行数据清洗等预处理后,结合自然语言处理技术对其进行向量化表示,多用聚类或分类算法将描述同一事件的新闻篇章进行归纳;二是事件名抽取,旨在为事件(篇章集合)赋予事件名,对事件进行归纳概括。
事件图谱的构建流程包括事件表示、事件抽取、事件关系抽取几部分。事件抽取旨在将事件的要素进行结构化表示,抽取内容包括事件类型及时间、实体名、触发词等事件论元。事件类型识别可以转化为多分类或单分类任务处理;事件论元抽取技术通常采用基于序列标注的深度学习模型,同时利用BERT、ERNIE等预训练语言模型对文本进行向量化处理。事件关系抽取识别事件间的关系,通常包括共指关系、时序关系、从属关系、因果关系等。其中,时序关系识别与因果关系识别可以帮助厘清事件脉络,探索事件演化规律。事件关系抽取同样可以转化为序列标注任务,以因果关系抽取为例,将“因事件”与“果事件”视为标注类别,建模神经网络,利用有标注语料对模型进行训练,获得类别标注结果。
事件计算包括热点事件检测、事件重要性计算、事件倾向性分析等内容,对事件讨论热度、重要性、事件倾向进行挖掘,从而实现对事件舆情的分析及预测。
三、事件图谱技术应用现状
事件图谱技术在研究界仍属于比较前沿的课题,近年来,随着大数据和AI技术的不断发展,推动了事件图谱的应用落地,目前应用较为广泛的有如下几方面的应用场景:
金融风险事件监控
综合运用多种事件图谱技术,如事件发现技术,能够有效捕捉风险事件,结合实体图谱实现对风险的影响性分析;构建事件图谱,监控并分析事件演化趋势,对事件进行归因分析,便于提前做出风险应对措施,降低风险事件影响。
新闻事件脉络生成
建立事件间的关联关系,通过事件脉络的可视化呈现方式,让用户厘清事件发展的前因后果,增加事件关注度,提升热点事件分析效率,目前已经在新闻类相关产品中有较为成熟的应用。
智能投研
通过事件发现和事件抽取技术,收集市场上的多源信息,提炼热点事件和重点领域关注事件。利用事件推理技术,如事件关系推理、事件演化预测等手段实现对事件的归因和结果预测,生成智能研报,提高分析师的研究效率,辅助投资决策。
智能客服
当前的智能客服通常根据客户问题运用多种AI智能技术实现自动匹配答案信息。而部分客服问题是由事件引发的,通过构建客服事件关系图谱,可以洞察问题的联系,有助于积累更准确的知识,帮助系统快速发现问题的根本原因,提高交互满意度。
资源关联
事件图谱能够综合利用知识图谱、自然语言处理、计算机视觉、语音识别等人工智能技术,可以将事件关联的资源,如资讯、图片、视频等进行关联,便于对事件的来龙去脉进一步进行验证分析,极大地提升事件真伪辨识、缘由梳理的效率。
产业图谱构建
随着信息化的不断推进,行业、公司的发展信息越来越多发表在网络上。利用事件图谱技术可以从相关产业的资料中,挖掘出产业的上下游关联,包括:产业上下游、产品耗材、下游产品、客户结构等信息,从而构建出产业图谱,提供更加及时、全面的产业信息,为供应链金额、投资等业务赋能。
四、事件图谱农业银行的初步探索
目前,农业银行正在积极探索基于事件图谱的企业风险可溯源体系构建方法,金融机构在信贷领域运行的基础是信用与预期,这种特征使得企业运行状况更容易影响贷出款项的还款情况。同时,由风险事件引发的企业风险会在企业实体图谱中沿着关联链路进行传递。对新闻信息进行舆情监测可以把握预期企业信贷管理的节奏,提早对暴雷企业、关联企业及关联个人进行信贷风险预警。
农行立足于贷前风控场景,融合财经新闻数据及客户关联信息数据,利用事件检测及事件倾向性分析算法,识别潜在高风险对公客户,视为“风险引爆节点”,纳入“风险管理灰名单”。通过实体图谱构建及风险传导计算,挖掘核心风险客户位于实体图谱中的关联风险客户,也将其纳入灰名单进行管理。与基于历史信贷违约数据的风控方式相比,融合了事件发现的风险客户识别模式具有更高的实时性、全面性及可解释性。
如图1所示,事件检测算法在某时间段内检测到与某企业相关的9个事件,将距离聚类中心最近的新闻标题视为事件名称。同时,对事件进行倾向性计算,得到事件的正面及负面分类结果。在该图中,已将企业名称及事件名称进行了人工脱敏处理,其横轴为新闻报道的时间线,绿色标识正面事件,紫色标识负面事件,其中“债券价格下跌”“交易进展缓慢”“收购暂停”事件的情感的分均小于0.5,为负面事件。

图1:事件检测及事件倾向分析示意图

图2:事件负面词汇关键词
企业负面事件造成的危机效应会沿着企业关系链进行传播,而关系链可以用实体图谱来刻画。在风险传导的场景中,关联信息是更值得关注的信息类别。比如,企业A的法定代表人是B,企业A投资了企业C。这种关联表达的是一种结构型的信息,把这种关联关系用图表达出来,就构成了一张实体图谱。实体图谱是一种用来建模社交网络的知识图谱,“关系”通常限定为表达关联意义的信息。实体图谱具备节点多样性与关系可解释性。通过构建以“对公客户”与“个人客户”为实体的实体图谱,将“法人”“实际控制人”“投资人”“控股公司”等关联关系建模为实体图谱的边。对某企业关联的连通子图进行基于最大传播概率的风险传导计算,得到风险传播链,将位于传播链上的相关客户纳入“风险客户灰名单”。
基于财经新闻数据进行事件检测与实体相关负面事件识别,并利用实体图谱计算金融风险经济实体间的传播路径,可以对潜在风险企业进行预警,防止大规模的金融风险扩散,信贷风险监控团队则可以有效地侦测潜在风险,强化事前风险甄别能力,提升监测效率和效果,为客户经理授信提供可溯源的数据参考。
同时,由于实体图谱具有白盒计算、高可视化等优势,使得金融风险传导路径可以被科学计量与直观观测;而事件检测与倾向性分析算法可以为风险监测结果补充可解释性信息。
五、事件图谱在商业银行的应用前景
事件图谱技术体系的构建路径较长、半径较大及大规模训练语料的标记成本较高,因此,该技术的落地实践仍需要持续探索。下一步,农业银行将继续探索事件图谱在大数据风控领域的深度应用。如图3所示,充分发挥事件图谱的可解释性,融合多源数据,助力基于事件图谱的可溯源大数据风控体系构建。在保证风险合规的前提下,逐步深化事件图谱资产管理、风控舆情事件监测、事件脉络分析等研究工作。

图3:基于事件图谱的可溯源大数据风控体系
事件图谱资产管理方面,利用实体链接技术,对齐行内外实体,融合工商、司法等多源数据,抽取事件及其关系。构建事件描述范式,根据事件类型分层次、分主题梳理与沉淀事件资产,提供事件存储与检索方面的服务能力。
风控舆情事件监测方面,通过事件监测及事件计算技术,有效捕捉风险事件,基于事件图谱,监控事件的演变,对事件进行归因分析,预测事件带来的风险影响,便于做出风险应对措施,降低风险影响半径。
事件脉络分析方面,基于事件间的时序关系及因果关系,梳理事件脉络,设计时间脉络可视化呈现方式;利用事件推理技术,对事件影响进行预判,生成智能研报,辅助投资决策。
六、总结展望
理解认识世界本身就是一个复杂而深刻的命题,事件图谱为人类洞察世界提供了新途径。事件图谱技术难度较大,业界应用实施仍然面临诸多挑战。然而,随着研究的深入和算法的优化提升,事件图谱在风控、营销、投资决策、智能客服等领域具有广阔的应用前景,中国农业银行的技术团队应把握先机、积极探索,推进事件图谱技术在商业银行领域的落地应用。