专访数库创始人:通用大模型发展到极致,还有漫长的过程

来源:观察者网

2023-07-08 17:18

【文/观察者网 吕栋】

“我们现在主要在使用OpenAI的模型,同时我们也测试了一系列国内的大模型,他们的进步都很快,但目前来看,在成熟度上还可以进一步提高。”7月7日,数库科技创始人兼总裁沈鑫在第六届世界人工智能大会(WAIC)现场接受观察者网专访时说道。

他认为,如果通用大模型发展到极致的话,也就不存在什么行业大模型了,但这是非常漫长的过程。因为能真正供大模型使用的高质量数据非常缺乏。比如能把金融相关数据标准做到很高的公司屈指可数,而这些公司肯定不会把数据贡献给别人。

数库科技创始人兼总裁沈鑫

沈鑫向观察者网坦言,今天人类所处的是一个万物互联的世界,所有的产业是连接在一起的。以前可能分析芯片的和分析汽车的人士很少产生交集,但今天产业网络是交织状的,对人的分析能力要求非常高。在这种情况下,数据的连接和编织,对帮助人们做决策显得尤为重要。

他同时也提到,这个世界不存在所谓的“魔术”,大模型也不会一下把所有问题都解决。因为大模型本身是一个效率工具,“我们现在会把大模型的一些技术融入到数据生产端,进一步去提升生产效率。这个实际上是我们看待大模型的一个点,不要为了技术而技术”。

数库科技成立于2009年,由海归的沈鑫和刘彦海创立,该公司主要是在金融及产业领域提供基于产业逻辑的智能数据产品与系统服务,帮助金融机构、企业集团、政府部门解决业务场景中的数据和系统需求。

在本届WAIC现场,观察者网体验了数库科技发布的概念型产品图谱——istari,用户输入问题用大语言模型解析后,即可转化成统一产品知识图谱(UPG)相关的查询,呈现出相关的专业产业知识以及各个知识点之间的关系,该产品主要通过大模型来做产业关系的推演。

以下是专访实录:

观察者网:今年数库的展台比去年要大,重点在展示哪些内容?

沈鑫:相比去年,今年展出的内容更多是增强和产品化。比如说银行对公,去年是方案,今年是标准化产品。因为随着时间推移,公司想要发展的话,产品化程度必须越来越高。目前数字化转型大家还都在摸索,随着接触的客户越来越多,我们要把其中共性的需求提取出来。因为我们的目标并不是只服务于头部金融机构,还要服务于数量众多的中小银行,他们可能没有那么多资源和能力,在这种情况下,标准化产品对他们来说就很重要。而且他们在体会到标准化产品的好处之后,才更有决心和信心投入更多成本去做的更加精细。

观察者网:连续参展世界人工智能大会,数库业务是怎么跟人工智能技术结合的?

沈鑫:技术永远是工具,所以数库将大量人工智能技术用在数据生产、数据解析和数据编织三个层面。技术赋能是底层能力,我们从来不直接拿技术去变现,这种级别的炫技没有意义。一个公司要想可持续发展,关键是要夯实底层能力。就像运动员一样,平时做的最多的反而是体能训练,虽然最后真实发挥的水平跟心态也有关,但底层能力还是最核心的。

观察者网:数库现在利用的人工智能底层技术能力有哪些?

沈鑫:我们在分析和解析不同类型数据时,会用到各种各样的小模型,比如说NLP(自然语言处理)等。我们以前不做需要海量人工标注的数据集,因为这会降低毛利率。但今天通过大模型,我们可以做海量数据标注,具体是先通过小模型把大的段落拆成小的,再用大模型把关键要素提取出来。通过把工程化的技术整合到一起,再把数据工厂做进一步的增强。

观察者网:目前数库所利用的模型能力,是自研模型,还是使用市场上的模型?

沈鑫:我们不会自己去做大模型,因为大模型是一个长期投入才能出效果的技术,适合大厂来做,而且大模型也有现成的。数库现在也在接入OpenAI,国内的大模型像百度的文心我们也在测试。我们在垂直领域中用好工具就行了,而且可以谁的大模型好用就用谁的。我们更专注垂直领域,包括金融机构也不可能自己去研发大模型,也是用现成的。因此我们一方面要把市场上大模型的水平认知清楚,另一方面我们要把客户需要的东西兼容上去。

观察者网:目前数库主要在和市场上哪些大模型合作?

沈鑫:我们现在主要在使用OpenAI的模型,同时我们也测试了一系列国内的大模型,他们的进步都很快,但目前来看,在成熟度上还可以进一步提高。

观察者网:如何看待大模型的应用?

沈鑫:这个世界不存在所谓的“魔术”,大模型也不可能一下把所有问题都解决。因为大模型本身是一个效率工具,我们现在会把大模型的一些技术融入到数据生产端,进一步去提升生产效率。这个实际上是我们看待大模型的一个点,不要为了技术而技术。

观察者网:如何看待通用大模型和行业大模型之间的应用场景冲突?

沈鑫:如果通用大模型发展到极致的话,我觉得也就不存在什么行业大模型,但这是非常漫长的过程。能够真正供大模型使用的高质量数据是非常缺乏的。

比如我们行业里,能把金融相关数据标准做到很高的公司,可能掰手指头都数得出来,而这几家肯定不会把数据贡献给别人。所以它其实是一个漫长的过程,没有大家想象得那么快。另外一个点,很多的场景是不需要用到大模型的。可能在咨询服务类的场景中大模型有很大的用场,但是在金融这种对数据要求很严谨的行业内,大模型实际是没有意义的,因为回馈是相对比较模糊的。

观察者网:应该怎样理解数库的业务,或者说数库是如何使用数据的?

沈鑫:我们是把市场上所有看上去像孤岛的数据融合连接起来。在这样的数据网络中,去寻找外界难以捕捉到的一些有用的信息点。因为人的思维总是有限的,能力再强的专家,可能也只是在一两个领域比较专业,一旦跨领域可能就无能为力。今天我们所处的是一个万物互联的世界,所有的产业是连接在一起的。以前我们可能会说,分析芯片的和分析汽车的很少产生交集,但今天新能源汽车已经离不开芯片,产业网络是交织状的,对人的分析能力要求非常高。在这种情况下,数据的连接和编织,对帮助人们做决策就显得尤为重要。

观察者网:目前数库研发人员的占比大概是什么情况?

沈鑫:我们现在有两百多名员工,其中有一百多人在做研发,占比超过一半,这些研发人员也在不断夯实数库的底层能力。当底层技术能力达到一定水平的时候,你就会发现数据提取能力和数据精度全部都在上升。这就跟中国发射火箭探月一样,航天技术一旦突破,所有的技术点在民用领域都会整体提升。

观察者网:数库现在的营收大概是什么样的水平,未来有没有IPO的计划?

沈鑫:我们的营收已经破亿了,去年业务体量翻了三倍,今年还要再翻一倍。我觉的无论是IPO也好,还是未来任何资本市场的出路也好,都取决于公司的基本面,也就是有没有真正为客户创造价值。

本文系观察者网独家稿件,未经授权,不得转载。

责任编辑:吕栋
观察者APP,更好阅读体验

最后通牒?以色列放话“要么签,要么打”

“这把火怎么点着的?”

布林肯来华谈的怎么样?是否不虚此行?

“看看,这就是美国的警察”

习近平会见布林肯:中美应彼此成就,而不是互相伤害