院士讨论：数据难以打通，如何解决？-观察者网

【文/观察者网李焕宇编辑/周远方】数据，作为一种生产要素，已得到国家的高度重视。我国领导人明确指出，要发挥数据的基础资源作用和创新引擎作用，加快形成以创新为主要引领和支撑的数字经济，用大数据提升国家治理现代化水平。

但在应用端，不同部门数据难以打通、难以归一、版本复杂、不够完整等问题已经显现出来，要让数据充分发挥生产要素的功能，数据治理必不可少。

在上周的世界人工智能大会上，几位院士均强调了数据治理的重要性。中国工程院院士、计算机过程控制专家刘玠指出，对待数据要有长远的眼光，要早规划，早安排，好使它不至于在将来造成困扰。

而在数据治理这一块，金砖国家未来网络研究院中国分院院长朱禹涛在接受观察者网等媒体采访时表示，想要打通部门隔阂，高效利用数据，需要用到人工智能（AI），特别是可信AI技术，从而达到有效、科学、可控、可靠的效果。

众院士谈数据：对技术要乐观但也要早做规划

7月10日的世界人工智能大会“数据要素论坛-院士专场”活动，为一睹柴洪峰、刘玠、金智新、杨善林，王基铭，丁烈云等中国工程院院士的风采，现场被围得水泄不通。

首先发言的原华中科技大学校长丁烈云先是从建筑的角度讲述了数据的应用和未来，指出建筑将成为继手机、汽车之后下一个智能终端。并以大型国际机场、上海中心的设计、建造为例称未来将是“算法定义建筑”。而主打低碳节能的智能绿色建筑和主打老人需求的智能健康建筑会是两个主要的发展方向。

丁烈云院士视频截图

但为了获取住户的需求数据，进行精准服务，此类建筑必将铺设大量的传感器，住户会面临类似“楚门的世界”一样的困境。对此，丁烈云院士表示，要对技术保持乐观，因为技术是人创造的，人能造出它，也就有能力使其不利一面被最大程度的限制。

在电影“楚门的世界”中，男主从出生起就生活在一个巨大的摄影棚里，他的一生被全程直播，唯独他自己对此一无所知

接下来作报告的杨善林院士称，要让数据成为资源，成为生产要素，数据治理就是非常必要的，其核心内容包括质量、隐私、透明、安全。

以他自己参与的医疗大数据项目为例，“三多五缺”是他们面临的很现实的困难，即做数据系统的厂商多，各医院使用的数据系统多，不同的数据类型很多；缺乏数据汇总的标准、缺表、缺逻辑、缺字段、缺专家。这种情况直到现在仍然是存在的，如果不进行治理，那这些数据就是废数据。

通过对这些数据实行归一化处理，建立了统一的数据模型，杨善林团队实现了“变废为宝”，也印证了数据治理的重要性。

杨善林院士视频截图

第三位发言的刘玠院士表示，数据是一把双刃剑，像杨善林院士讲解的医疗大数据，若要让这些数据产生效益，就需要把各个医院的数据拿到一起加以分析、治理，从而形成大数据。但想打破不同单位间的障碍不是一件容易的事情，而且正变得愈发困难。因为，大家都很看重自己的数据，不想把它给出去，这也就带来了很多问题。

刘玠院士结合自己的企业经历称，企业数据有很多“噪声”，要加以利用必须经过筛选。而且，企业数据目前还有很多不完整不确定的地方，哪怕就同一家企业，它在不同历史阶段的数据往往都是不标准、没打通的。

刘玠院士视频截图

鉴于这些场景，刘玠院士希望，在做各位能有些长远的眼光。既然数据这么重要，有这么多好处和应用场景，那就一定要从现在开始，有个长远的考虑，对数据早规划早安排，是我们的数据将来不至于造成更大的困扰。

王基铭院士也表示，数据作为一种新的要素，要让它为我所用，很重要的一条就是数据的治理。不过，更重要的在于基础数据的真实性，要搞清楚怎么去伪存真，让数据得到高效利用。

王基铭院士视频截图

朱禹涛院长：数据的高效运用需要可信AI技术

如何对数据进行高效利用是数字经济时代的一大课题，除了各位院士，7月9日的世界人工智能大会“可信AI论坛”同样提到了这一话题。

金砖国家未来网络研究院中国分院院长朱禹涛在论坛上表示，大数据的大并不是数据多就叫做大，而是要把这些数据通过人工智能有效利用起来进行分析，但这在目前存在很多的各种各样的困难，因为大家都很担心数据安全风险的问题，这就需要用到可信AI技术。

可信AI论坛会场图片来源：世界人工智能大会

在接受观察者网等媒体的采访时，朱禹涛进一步表示，虽然“大数据”这个概念被说了这么多年，但现在仍处于一个数据化的阶段，真正的大数据时代还没有到来，一是不同单位间的壁垒难以打通，二是大家对数据的隐私和安全不放心，担心隐私泄露。

跟刘玠院士的经历类似，朱禹涛院长遇到的很多企业同样认为，“这些数据既然是我自己的，那我为什么要放在云上？这跟个人的担忧有某种类似性，我的个人隐私你凭什么拿？你会不会在我不知情的时候把数据拿走？”

朱禹涛认为，想要破解这层忧虑，除了政府要在立法方面进行规范、引导，还有就是要在技术层面上实现安全可控的数据使用和脱敏，让数据在安全的条件下为我所用。而这就需要用到AI技术，尤其是可信AI技术。

比如大数据的清洗需要通过AI技术来完成，但要保证拿到的数据是脱敏的，而不触及企业的原始数据，这就需要可信AI去识别、判断。比如，我要调查一个目标的信用风险，我需要的是系统给我一个结果，而不是那个人的所有个人信息，这就需要可信AI技术来实现这一过程。

所谓“可信AI”，指的是确保人工智能的公平性、可解释性、健壮性和透明性，确保AI的算法可被人信任。

据上海市经济和信息化委员会主任吴金城介绍，随着人工智能即与之相伴数据隐私，算法歧视，安全风险等治理问题引起全球多国政府，国际组织，研究机构和行业企业的共同关注。发展可信AI，推动人工智能的透明可视，安全可控，多元包容已成为全球共识，

目前，中国在这一方面正走在世界前列。在7月9日的“可信AI论坛”上，中国信通院与京东探索研究院联合撰写《可信人工智能白皮书》，首次系统提出可信人工智能全景框架，全面分析可信AI落地面临的挑战与机遇。

白皮书聚焦于可信人工智能技术、产业和行业实践等层面，分析了实现可控可靠、透明可释、隐私保护、明确责任及多元包容的可信人工智能路径，并对可信人工智能的未来发展提出了建议。另外，稳定性、可解释性、隐私保护、公平性将作为构成可信AI基础支撑力的量化指标。

可信AI论坛会场图片来源：世界人工智能大会

中国信通院院长余晓晖表示，当前全世界各国都高度重视可信人工智能的发展，发展可信人工智能使我们真正最终能够释放出人工智能的前景，能够造福于全球我们人民的发展，这是一个关键的基础。