AI赋能商业银行知识图谱与智能金融-杨娟

  各位尊敬的来宾大家上午好,今天非常高兴能够在美丽的乌镇,美丽的天气,与大家相聚在这里,一起探讨人工智能、知识图谱在金融领域的应用。

  我是海致的杨娟,02年我从复旦大学获得了计算机与技术的硕士学位,之后加入了IBM,国际商业机器中国有限公司。花了十年时间一直在专注企业级软件产品及解决方案的研发,销售和交付。02年我去到美国霍顿学院,获得工商硕士管理学位,2014年回国加入到海致大数据,从此就奋战在大数据、云计算、人工智能技术,服务和改变国内大中型企业和中小型企业一线。06年初,我领先开拓了海致大数据在领域的业务板块,一直到今天。

  上午的内容非常精彩,向老师给到的概念,防范金融风险。即使他这样不懂人工智能的专家,他也认为我们要拥抱人工智能,拥抱AI,拥抱FinTech,否则传统的金融巨头将面临极大的挑战。接下来两位嘉宾从商业银行第一线的管理者和决策者的角度,分享了用知识图谱和人工智能技术提升科技创新能力,更好的服务业务方面成功的实践经验。

  接下来我花一点时间从海致作为金融人工智能实践者,这两三年来所沉淀出的一些心得和个人的看法,与大家分享。

  (图示)这是从柯洁6岁开始学习到18岁获得世界冠军,他花了12年,一年365天,这已经是人类历史上最厉害的棋手。而第一代AlphaGo Lee,从它诞生到挑战李世石只花了6个月,18天。第二代AlphaGo Master用了3个月90天时间挑战了柯洁。第三代最新的AlphaG Zero,从它诞生之日起只用了三天时间就战胜了AlphaGo Lee,用了40天战胜了AlphaGo Master。我们可以看到人工智能演进的速度远超过所有人的想象,围棋人类智力上最后的堡垒,没有想到这么快就被人工智能攻破了。

  而攻破了这个堡垒的人工智能一代、二代、三代,它的演化速度又是如此出乎我们的意料。这样的局势之下我们不得不面对人工智能要改变我们的生活,改变我们的工作,改变我们的社会。作为在每一个时代潮流当中向前奋斗和前进的人也好,公司也好,企业也好,银行也好,必须选择积极拥抱这个趋势,拥抱这个变化,从中发现机遇,进行创新。

  AlphaGo Zero,它没有再像前面两代AlphaGo一样,用人类数据系统作为训练样本。没有任何样本数据,它仅仅花了3天时间自学习、自提高、自博弈,自己和自己下了480万盘棋。我们在与商业银行合作过程当中,比如我们谈到要做违约概率模型的训练,模型非常棒,计算能力也不是问题,一谈到样本,大家都面露难色,可能是违约企业样本数量不够,达不到训练级的数量。也可能违约数据散步在行业各个角落,以及互联网的各个角落,抽取和整合存在困难。

  今天我们非常欣喜的看到,没有样本的非监督学习获得了历史性的突破,我个人认为它预示着整个AI在行业的应用即将迎来规模和速度都不可限量,或者我们现在无法想象的爆发点,我们现在就站在这个爆发点的前夜。

  回到今天的话题,AI和知识图谱之间,首先我们要思考为什么AI对大家的冲击力这么大,AI的本质是什么。AI的本质,我们认为是要让机器替人做决策,做行动。机器在做决策之前,它想要改变世界,它首先要理解世界,诠释世界,然后才能改变世界。这就回到了我们每个人都会思考的这个世界的本质是什么,我们应该怎么样认知这个世界,同时把认知模型传递给机器,让它也能够首先像人一样理解世界,然后再去做决策,做行动。

  之前在开场video里也提到过,一位图灵奖获得者曾经这样讲过,知识图谱是AI系统的核心。为什么这样说,就是认知模型的问题,知识图谱是人类认知这个世界的基本框架。右侧就是所谓三元,构成这个世界运转的基本模型,物元、事元、关系元。物就是所谓的实体,可能是在座各位人,可能是电脑,可能是机器,可能是桌子。也可能是企业、政府、国家,这些都是实体。事元,发生在这些物身上各类事件,这些事件会有空间上的关系,会有时间上的关系,可能会有因果性关系,也有相关性关系。关系元,人与人之间的关系,物与物之间的关系,事与事之间的关系,物与事之间的关系,正是有这三个基本的维度,它们互相交织,不断的变动。我们在捕捉着它们的关系,它们的发展变化,从时间和空间不同的维度去观察它,捕捉它,进而了解它的运行,预测它未来的发展变化,然后采取我们的最优行动。

  可能讲的有点抽象,我们来看一个具体的例子。乐视,之前向老师演讲里也提到了乐视,乐视贾跃亭是最近的热门话题。向老师也谈到,贾跃亭是一个非常有蛊惑力的,说的比乔布斯还感人的传教士、洗脑式的营销方式。事实上如果我们抛开对于贾跃亭所有演讲的看法、情怀等等,我们就看这个事情本来面貌是怎么样。

  (图示)这张图只是截取了部分图谱,这个图谱上有贾跃亭、孙宏斌、梁君、吴孟等等,企业有乐视控股、乐视体育、乐视汽车、乐视影业,以及没有冠以乐视名字的星控基金,百乐文化等等。这是相关的物,下面是时间轴,可能稍微有点模糊了,从2015年到2016年、2017年,在这些物身上发生了什么。发生了什么,我们可以看到贾跃亭不断的套现,2015年套现了40亿,整个乐视系企业不停在融资,用新的融资偿还他的债务。2016年,乐视融资50亿,乐视影业融资10亿,这些融资进来的钱之后很快被乐视企业收上去偿还债务,这是它的融资事件。

  交易事件,在2016年乐视系交易额其中有44%是关联交易,就是说有44%的营业额其实是发生在乐视系,以及相关企业之间的交易。从机器的角度来看的话,这里已经符合了一切高风险特征,实际控制人在不断套现,你不停占用新的融资偿还债务。你的交易、营业额当中有将近一半是关联交易。如果是机器来做决策的话,这个事情就相对来讲非常明显了。而作为人,他往往会被一些表面的假象,因为人是非常非理性的,他在真正做决策时是一种知觉或者一种感性的决策。

  包括我自己昨天看了贾跃亭在美国最新接受的采访,讲的也是很诚恳,很动人。如果我不是从事这个行业,我在看了那篇长的报道之后,会觉得他是很有情怀的,我们误解了他。但活生生的数据、图谱摆在这里,图谱告诉我们的答案也非常明确。

  这是乐视,风口浪尖上,然后在聚光灯下万众瞩目的企业,它依然骗了很多人。对于成千上万并不在聚光灯下的企业,我们怎么办。在座商业银行每一家至少有几千家对公客户,上万,甚至十万以上的小微企业的客户。几十万,几百万,甚至上亿的个人客户。对于这么多数量的客户,我们怎么样防范它的风险,第一是防范风险;第二是发现它的价值,这个已然不是人力去做的事情。这是知识图谱,机器、AI能够发挥价值的,防范风险、发现价值、精准营销。

  刚才是用了一个实际的例子帮助大家理解什么是知识图谱,图谱里的三元,物元、事元、关系元。事实上知识图谱的发展并不是一蹴而就的,也许两年前可能大家都没有听说过知识图谱,我们刚开始和银行去谈时发现教育成本挺高的,解释这些概念。到了今天,就有很多金融机构主动和我们打电话,我们是不是做知识图谱的,能不能过来交流一下,可以看到是一个加速的过程!

  简单回顾一下它的诞生,19世纪70年代,它的前身叫专家系统,能够把人脑,或者当中比较杰出的,富有经验人的知识保存下来,分享给大家。上世纪90年代语义网诞生了,自然语言处理的前身,用机器理解人类的语言。知识图谱正式诞生,2012年由谷歌推出了Knowledge Graph,是谷歌对AI事业的两大贡献。2013年百度推出了中文的知识图谱,我们的首席科学家就是来自于百度中文图谱的团队。2015年海致团队开始研发金融知识图谱,2016年8月,我们帮助招商银行建立国内首个金融知识图谱,2017年3月,我们帮助兰州银行建设了金融知识图谱。2017年6月,我们帮助青岛银行监理金融知识图谱。2017年8月,我们帮助南京银行监理了金融知识图谱。2017年10月,也就是上个月,我们帮助了长沙银行建设了金融知识图谱。

  可以看到这是一个加速发展的过程,前面发展是以几十年来看待,现在我们看待它的发展变化,从几十年到年到月,不知道以后会按周、按天看待它的变化。可以看到这样的趋势有很大的趋势,不能说百分之百,AI非常的严谨。有很大的趋势,金融知识图谱会成为商业银行的标配,用来防风险、精准营销,也成为FinTech、监管金融当中非常中坚或者坚实的力量。

  海致进入这个领域有一个转折点,就是从百度中文知识图谱转向金融知识图谱。这其实是从通用知识图谱到行业知识图谱进行转化的过程,它的顶层基础是相通的,都是海量数据的处理,语义的识别,复杂关系的建立,机器学习和算法进行标签化的提取,以及更复杂的模型。但它们有一些不同之处,这也是海致在构建金融知识图谱取得核心竞争力的过程。就是面向某一个特定的业务领域进行行业知识来建立,以知识的深度,而不是知识的广度来取胜。

  金融行业是一个特别专业的行业,金融知识学习起来非常的专业,海通专注于金融业务领域来做深度的知识图谱。知识图谱包括两个部分,图谱是它的核心,另外还有知识,最终知识图谱是为了向大家提供一个知识以及智能。

  因为今天是智能金融和知识图谱的峰会,借此机会,我们也是想发布海致金融知识图谱1.0的产品。对于这款产品相对来讲,它是一个模块的组合。它可以灵活的进行拆分,灵活的对接,以及它是开放式的框架,能够和现有的金融机构大数据框架,开源的技术进行对接和整合。

  整体框架里分成三层,最顶层是海致核心的技术引擎。包括自然语言处理引擎,图分析与图挖掘引擎,机器学习引擎。在这三个引擎之上,我们融合了互联网的数据,金融机构内部的数据,第三方合作的数据,以及业务积累。业务积累来自于三方面,一方面是海致的金融咨询团队;另一方面是已有合作客户的场景积累;第三方面是通过算法团队的机器学习方式,自学习、自挖掘出的业务场景。

  结合业务之后,我们形成了三个海致重要的智力资产,海致金融语料库、海致金融算法库、海致金融标签库,它是用通用的科技、通用的技术引擎来和金融业务场景深度结合。对上我们形成了四类知识图谱,反欺诈知识图谱、风险管理知识图谱、智能营销知识图谱、反洗钱知识图谱。这四类知识图谱支撑着不同的业务系统,比如说金融机构已有的CRM系统、信贷管理系统、风险预警系统、反欺诈系统、反洗钱系统、移动营销系统,甚至OA系统等等。

  也就是说,我们既可以独立成为一个知识图谱,知识管理的平台,也可以无缝的和行业已有的业务系统、业务流程进行融合。最大限度接入到日常工作场景中,而不是让它成为一个摆设,或者仅仅是一个很漂亮的装饰品,蛋糕上的樱桃!我们要成为蛋糕上特别扎实的那一块面的部分,这是海致金融图谱整体1.0的框架。

  下面简单介绍一下海致金融知识图谱的功能,图谱的话,前面两位银行嘉宾,何行长和杨斌总分享当中也有看到。我这里系统性介绍一下在图、标签、自然语言处理、算法上,目前积累的情况。

  (图示)这是一张企业股权关系的查询,任一一个企业与关联企业之间的投资关系,在此基础上进行了企业股权关系、一致行动人、实际控制人等挖掘。右边是任一企业之间关联关系的查询,不管是多大多小的企业,20人以内可以进行秒级反馈,可以查出他们最短的关联路径是怎样的。

  担保链、担保圈、担保群,之前向老师演讲中两次提到担保的风险,说到温州地区担保链崩盘带来的风险。担保链、担保圈、担保群是我们在信贷工作当中,不过是贷前、贷中、贷后,都需要密切关注的业务场景。在过去由于计算技术以及模型的局限,可能这一块还是靠人去操作。或者通过实时程序编写进行查询,现在我们通过图挖掘和图分析的知识算法,可以进行实时、深度的圈、链、群挖掘,并且智能的推送给相应的责任人,甚至可以阻断现有业务流程、信贷审批流程。

  (图示)右侧是企业集团,企业派系的挖掘,现在有很多的派系,向老师也谈到什么什么系,贾跃亭系,恒大系,华润系等等。企业派系非常的复杂,有时候会看到几百个,甚至上千个企业在里面。企业派系深度的挖掘,以及企业集团关系的深度挖掘,一样是我们进行风险管理,贷后预警非常重要的武器。

  (图示)这是我们在和客户碰撞当中实际应用的场景,黑名单企业的传导分析。如果我们有了种子的黑名单库,黑名单企业,或者黑名单个人,我们怎么样找出和所有相关联的可能涉黑,或者涉灰的企业和个人。同时要根据它的关系亲疏程度,以及关系的重要程度,以及一些量化指标,评估出它的涉黑概率。同样是关联企业,因为我们是资金关系,或者关系近一点,远一点,涉黑的概率不同。现在整个图谱分析已经从定性的描述和观看,走向量化的评估和分析。

  (图示)右侧授信集中度的指标分析,这也是我们在授信审批环节会去评估现在已有发放贷款的集中程度。对于银行来讲的话,一般授信集中度有一个上限,我们是不是越过一个上限,或者即将到达这个上限会提前发出预警。

  这是我们在反欺诈的领域,反欺诈领域有自己的特点,它的特点是什么。第一,它的数据量非常非常之大,它是企业场景数据量的几何级的增长。另外,对于实时性要求非常高,一旦发现是可疑交易,就会很快把信号发出去阻断交易,这是知识图谱第二期,包括我们和兰州银行第二期重点做的事情。通过大数据量,以及实时性欺诈检测帮助零售金融部,包括电子银行部等进行风险的防范。

  图谱部分,知识图谱不仅仅是图谱,还有知识。我们是用智能方式附着了很多有价值的知识在图谱之上,让知识成为一个综合性可延展的,既可以支持业务系统,同时一定程度上可以替代业务系统,这样一个弹性可扩展的技术框架。

  (图示)这是海致风险事件库,以及内嵌风险事件智能推测规则。

  (图示)这是标签库,事实上标签最早是用在电商行业,用来识别不同消费者的偏好,对他进行画像。今天我们把标签这个概念,这个理念同样贯彻在了对公业务领域,用标签的方式标识企业,企业主,以及企业的领导。标签从不同的层次,从基础标签到业务规则标签,到智能标签。在智能标签里,我们从不同的维度,风险标签、营销标签,以及企业生命周期标签,忠诚度标签,贡献度标签,以及适合给他售卖什么金融产品,以及所需要防范的,他所存在的风险在哪里,等等。通过标签化的方式,能够最大程度把数据、信息知识化,智能化,把他转化成直接的业务决策和行动。

  海致的金融语料库,因为构建知识图谱其中一部分数据来源是分解企业数据,很大一部分来自于企业的财报、年报、舆情,大家对它的评论等等。也可能来自于行内的尽调报告,拜访记录,神秘意见等等,这些都是文本化的数据。对于它们进行提取,一方面需要非常好的基础技术;另一方面,需要在语料侧面有非常丰富的积累。

  海致目前在语料库有通用类的技术指标,有和信贷报告类相关的语料,有和研究报告类相关的语料,有和制度类相关的语料,有日常营销类相关的语料,以及互联网相关的,这是海致在不断丰富和完善的金融语料库的情况。

  (图示)这是词法分析的产品界面,左面进行词法分析,右面进行授信文本的解析。我们现在和兰州银行也在进行授信文本解析这一块工作,它用机器的方式自动解读文本,提取关键要素用来做自动化、做监管、做审计,有非常大的效率和风险控制上的提升。

  (图示)这是海致金融图谱1.0里最后一个模块,这个模块相对来讲也是最重要的模块之一,就是算法库。

  算法库分为三个层次,首先是基础平台。图算法,机器学习的算法等等,在此基础之上通用算法、社区检测、关键节点分析、关联度分析、特殊结构发现、逻辑回归等。同样和标签不一样,和语料不一样,海致专注于金融知识图谱领域,所以在通用算法之上结合业务逻辑、业务理解和业务理念。以及在业务的实践、体验和积累相关金融算法,这里列举了一部分,包括客户忠诚度、客户贡献度、实际控制人、一致行动人、集团派系、客户风险评估、违约概率,以及违约概率传导、行业风险、授信集中度、营销价值的评估、行业营销价值的评估、交易对手的上级传导、黑名单传导等等,这里列举了其中的一部分。

  在实践当中,我们的算法有在金融机构之间一致通用性,再根据每家金融机构不同的情况进行微调和配置。

  (图示)这是海致的算法库。

  刚才讲的产品技术方面,可能会偏细节一点。我们再来总结一下海致眼中知识图谱的核心技术,更确切一点是金融知识图谱,或者行业知识图谱的核心技术。它包括大数据、人工智能有很多数据来源,它其实是非结构化的。未来我们可能也会把音频、视频这些数据都纳入到数据源当中来。当前我们是聚焦于文本数据,刚才谈到的互联网文本、授信文本、拜访文本,包括日志等等。

  图分析与图挖掘,现在是非常热的热点。基于统计维度的BI应用已经非常成熟了,今天大家谈得商业智能和BI,每个人都知道。基于关系和基于图的分析和挖掘是非常新兴的领域,在这个领域技术的突破也是刚刚完成的。所以它的应用,我们看到正在呈现一个非常旺盛的增长趋势。机器学习,无处不在,在自然语言处理中,语料的训练需要用到深度学习模型。在图分析和图挖掘中,所谓最短路径等算法都是机器学习的范畴,最重要的是领域的理解。

  海致作为金融知识图谱在国内先行者,就是刚才谈到我们有一支专业的金融咨询团队。另外在和客户合作过程中,我想我们现在是国内拥有银行客户案例数最多的金融知识图谱大数据公司了,或者说科技公司。不谦虚的说,我们认为在这个领域国内中是NO.1的。领域理解是不断积累,我们也希望把这方面优势变得更大。面向2018年能够服务更多的商业银行客户,服务更多的金融机构,帮助金融机构防范风险,拥抱金融科技,拥抱人工智能。寻求变化,追求创新。

  我的演讲就是这样,谢谢大家。

第 1 /  10 页
点击查看余下全文