如何打造银行的chatGPT,专访摸象科技CEO高鹏博士
发布时间 2023-02-14 15:45 xiouwang 阅读 4424次

高鹏:摸象科技创始人兼董事长,摸象浙大金融智能联合实验室主任,人工智能首席科学家。博士毕业于浙江大学计算机学院人工智能所,师从中国工程院潘云鹤院士,拥有15项人工智能发明专利,曾获得全美PMP项目管理证书,是中国第一套移动通信BOSS计费系统的开发者。

2023开年至今,AI赛道最火的莫过于OpenAI的ChatGPT,微软CEO纳徳拉说:这辈子我从没见过,至少是从事科技工作的这30年,chatGPT是我从没见过的技术扩散,这完全等于是工业革命,这将对每个人有帮助,微软的每个产品将接入chatGPT。

ChatGPT 是一个基于GPT-3.5架构的大型生成式预训练语言模型训练的智能对话机器人,专注于开放域的人机对话、输出写作内容。跟以前的聊天机器人比,ChatGPT最让人印象深刻的就是能用像模像样的“人话”来回答几乎任何领域的用户问题,并对上下文有一定程度的理解。ChatGPT不仅会聊天,还可以帮助人类写代码、修复bug、写工作周报、写小说、进行考试答题、绘画、看病以及大幅度提高搜索效率和体验等。

那么,类chatGPT的技术,如大规模预训练模型,如增强搜索和AIGC,如何可创造出高可用性的对话机器人,用于银行的零售金融场景?

带着这一问题,笔者访问了国内银行AI的领先公司,摸象科技的CEO高鹏。摸象科技是一家浙大系金融+AI科创公司,为中国的2000+银行提供高智能的数字员工。摸象科技以自主研发金融超级大脑及金融零售AI直营管理平台已初步建立,已具备150+银行零售场景知识库以及毫秒级AI实时决策引擎,初步实现机器学习的正向数据循环,帮助国内2000+银行全面实现金融全自动化场景实时推荐智能运营,截止到2022年底,公司已与中国建设银行、工商银行、中国银行、浦发银行、光大银行、兴业银行、渤海银行等客户合作,每年提供4亿次以上AI智能服务。摸象科技拥有国家级技术专利31项,200多项软件著作权,荣获国家高新技术企业、省级研发中心、ISO9000机构等国家级资质认证,与浙江大学成立“浙大摸象数据智能联合实验室”,完全自有知识产权,具备垂直于金融行业的人工智能核心技术,被亿欧评选为2020年中国人工智能商业落地价值潜力企业100强,并入选杭州未来科技城准独角兽企业、鲲鹏计划企业。让我们看看高鹏博士是怎么看待未来chatGPT技术如何应用于银行的吧:

Q:chatGPT这种技术的核心是什么?和之前的聊天机器人比,有什么样的不同?

A:ChatGPT的核心底座是GPT-3.5。GPT-3.5是美国OpenAI实验室新推出的一种自然语言处理工具,基于Transformer深度神经网络模型(类似谷歌公司Bert模型),该模型可以处理事件序列数据,拥有语言理解和文本生成能力。和其他类似NLP对话机器人相比,ChatGPT的技术创新和优势我总结主要以下三点:

1、ChatGPT通过连接大量的语料库来训练模型,得益于微软的投资和支持,微软搜索引擎提供了这些语料库真实世界中的海量对话数据,训练使用了约45TB数据,其中包含多达近1万亿个单词的文本内容。使得ChatGPT具备与真正人类几乎无异的聊天场景进行交流。

2、ChatGPT在算法层面一个重要的创新,就是把强化学习引入到大模型的训练和使用上。以前的对话机器人实现开放域对话的最大困难,在于用户输入的话题各种各样,任务空间太大,很难有足够的监督信号拿来训练。ChatGPT引入RLHF (Reinforcement Learning with Human Feedback,即基于人类反馈的强化学习)技术,利用人类反馈信号学习到的奖励模型(reward model),来为任意一个问题自动估算监督信号。在训练过程中,人类训练者扮演着用户和助手的角色,这比过去大模型训练时的“模型输出结果+人工标注结果”模式省时省力、效率更高。这样ChatGPT充分利用强化学习的尝试探索(exploration)能力来解决开放域任务空间太大的挑战,取得了很好的效果。

3、RLHF 还解决了预训练生成模型的一个核心问题,即如何让AI模型的产出和人类的常识、认知、需求、价值观保持一致。这样它在回答开放域问题时基本上和人类价值观保持一致:例如ChatGPT能够知道它有“不知道”的地方,或者拒绝回答它认为不适合回答的问题,以及跟人类主流价值观不契合的内容。

ChatGPT证明了我们现在是可以直接去追求理想大语言模型的(LLM模型)。通过增加预训练数据的多样性,涵盖越来越多的领域,LLM自主从领域数据中通过预训练过程学习领域知识,随着模型规模不断增大,不断扩展解决各种领域问题。

Q:chatGPT有什么不足之处?

ChatGPT模型的能力也受一定限制:首先是高质量的领域知识的获取和整理,这个并不是那么容易的。其次目前ChatGPT的能力上限由奖励模型决定,该模型需要巨量的语料来拟合真实世界,同时对人类训练者的工作量以及综合素质要求较高。人类在训练和标注时的错误,可能就会造成ChatGPT出现“创造不存在的知识和信息”的错误,或者主观臆测提问者的意图等问题,这方面的优化挑战将是长期持续的过程。

Q:chatGPT能直接应用于银行吗?

暂时还不能直接把open AI的chatGPT引入银行直接进行服务。虽然chatGPT已经具有比较高的可用性,但它还是提供“仅供参考”的回答,还没有达到金融行业需要的高可靠性要求;其次中国金融行业领域的大部分数据集还没有开放,因此可供chatGPT学习的领域数据源是非常少的,它还没有具备足够的知识储备。

目前我们必须确保以负责任和合规的方式构建金融行业的AI。面对快速发展的技术和不断变化的社会期望,金融行业应主动基于内部数据集进行LLM训练,并以结果为中心,形成自己的AI能力。

Q:垂直于金融行业做训练的话,训练出的高智能AI能做一些什么呢?

如果要在垂直行业创造类ChatGPT的AI系统,首先是需要具备高质行业数据集,我们可基于数据集形成新的prompt dataset,再将PPO策略应用于有监督数据微调过的预训练模型,通过模型测试新的prompt dataset,得到数个输出,之后使用奖励模型对数个输出进行打分,计算reward数值,再不断进行迭代更新,这个AI就会具有持续自学习的能力。当AI和用户对话的场景越多,输入和反馈次数越多,AI就会具有和用户深度交流的高智能水平,注意,由于我们的持续训练仍是集中与金融行业场景的,因此这个AI也仍是一个垂直的chatGPT,它仅在金融对话方面具有高智能水平。

目前我们想到的垂直于金融的AI,可以实现与用户交流金融产品、进行推荐、帮助用户进行资产配置和组合、帮助用户办理业务等能力。

Q:能不能讲一下这种高智能AI使用上以后,银行能得到怎样的提升呢?

首先受益的是银行的用户,目前银行的APP场景都上了数字人,但很多数字人还是基于原有的NLP系统进行配置好的FAQ对话,这样很难让用户产生愉悦的交流体验,而植入高智能AI之后,数字人可与用户进行更加智能的高可用性交流,更接近于真人客户经理的交流体验;

受益者还有银行的客户经理,目前银行客户经理需要记忆数千种产品的卖点、办理方式、重要知识点等知识,平均每个客户经理要为数千名长尾客户提供服务,工作非常的繁重。高智能AI可以嵌入到客户经理的工作场景中,帮助客户经理挖掘潜客需求、主动联系客户做金融产品推荐、帮助客户经理做资产组合方案、辅助客户经理对客户应答和服务,以及帮助客户经理写交流纪要等,帮助客户经理提升效率和服务质量。

Q:摸象科技的高智能AI已经用于银行了吗?

摸象科技自主研发金融超级大脑及金融零售AI直营管理平台已初步建立,已具备150+银行零售场景知识库以及毫秒级AI实时决策引擎,初步实现机器学习的正向数据循环。

目前摸象科技已经与61家银行合作,其中包括中国建设银行、中国工商银行、中国银行、兴业银行、浦发银行等,有8000个AI机器人战斗在银行的各种工作岗位上,每年提供4亿次以上金融AI智能服务,帮助银行的客户经理联络、接待、推荐,帮助银行降本增效。

Q:训练的难度在于哪里,摸象科技的技术门槛在于哪里?

首先用于训练的高质量数据比较难以获取。中国金融行业的领域知识和数据不对外开放,所有访问数据的系统都是私有云部署,机器人和用户互动的数据需要打通数据回流通道形成闭环,因此在私有化环境下获取、清洗和整理领域数据难度比较大,数据预处理工作量大。其次训练模型还是采用“模型输出结果+人工标注结果”,标注工作量巨大,同时各单位局点之间的数据不能共享,也是造成训练难度较大的原因之一。但从另一个角度,这些难点恰好也是形成了我们很高的技术门槛:

摸象垂直金融行业的金融超级大脑,内置基于机器学习+深度神经网络的AI训练平台及训练好的垂直于150个业务类目的场景模型。每个模型有自己的独立业务知识库和推理引擎,平台底座则包括通用和行业知识库,以及知识获取、检索、推理等知识库管理工具,以及数据和知识标注、人机协同等用于机器学习训练的模块。

受ChatGPT启发,我们也在思考引入RLHF技术,将“模型输出结果+人工标注结果”的模式转变成自动估算监督+自动奖励模式,不断提高机器自主学习能力。

旧手机流通如何更放心? [原文链接]
银河系外恒星特写照片首次发布[原文链接]
数智经济催生消费新场景 [原文链接]
半导体行业并购升温 产业整合提速 [原文链接]
英伟达季度业绩超预期 部分投资者获利回吐[原文链接]
每周精选查看更多 >
希鸥网观点:创业公司团队如何管理更有效率?
希鸥网观点:创业公司团队如何管理更有效率?
当团队中出现冲突或挑战时,积极介入并提供协助和支持。促进团队成员之间的沟通和解决问题的能力,以保持团队的凝聚力和效率。 [详细]
想升职加薪?拿着超4亿年薪的CEO给了20条建议
想升职加薪?拿着超4亿年薪的CEO给了20条建议
我们熟知的“迪士尼”,全称是华特迪士尼公司(英文简称:DISNEY),作为一家市值超过2万亿人民币(3103亿美金)的大型企业,迪士尼最为国人所熟悉的是其位于上海的迪士尼乐园和电影屏幕上的公主系列大电影,但这些只是迪士尼公司的一... [详细]
如果最近你创业不顺,不妨读一读段永平这100句话
如果最近你创业不顺,不妨读一读段永平这100句话
上市后,拼多多市值一度超过京东,在所有中国互联网企业中排名第四。因此,其“80后”CEO黄峥也被人们戏称为“杭州80后新首富”、“抛弃你的同龄人。... [详细]
希鸥网李志磊:创业5年认识的六个创业真相
希鸥网李志磊:创业5年认识的六个创业真相
2013年7月,大学毕业一周年,遭遇简短创业带来的失败以及工作不顺利,我进入了人生低谷,此后一个月,每天花20块钱买10注双色球,希望可以一夜暴富。一个月后终于中了五块钱,我意识到,翻身不能靠运气,还是要要靠自己的努力... [详细]
知乎创始人周源曾创业失败发不出工资:我哭了,因为不甘心
知乎创始人周源曾创业失败发不出工资:我哭了,因为不甘心
说起知乎,想必大家都不会陌生,但站在知乎背后的男人,大概很少有人会去了解。周源是知乎创始人兼CEO,他自称“知乎第001号员工”。2018年周源做客一档由腾讯大学自制的名为《CEO来了》的节目,谈到自己的创业经历,分享在此。... [详细]