【大风哥】听阿里大数据专家讲大实话:没有大数据专家,只有满身伤痕的践行者

来源:微信公众号“智能国”

2016-05-16 09:34

余亮

余亮作者

资深情怀党,复旦大学中国研究院院长助理

【题记:没有大数据专家,只有践行者的艰辛!】

六月在北京,将会有一场人工智能领域科学家与艺术家的对话。主办方希望我去邀请几位科学家,包括人工智能、大数据、虚拟现实几个方面。我隐约觉得,其中大数据科学家最难找。

做大数据的人很多,但谁是可以纵论数海的专家呢?做新闻数据产品的人算吗?他们可以通过比如打车软件的用户数据,描画出一座城市的加班地图甚至约炮地图:

但他们好像不是科学家,而是有想象力的挖掘者。我也知道像“今日头条”这类采集用户数据的新闻平台,会经常推出大数据新闻产品,比如全国动漫迷的特征,各地人民对车的不同喜好……这些当然是从平时技术员通过mapreduce、hadoop、spark、Kafka来处理、吞吐的海量数据里提取出来,但核心策划也不是技术人员。要等运营团队出了创意,技术员再把数据从库里拖出来给他们。

做安防监控的大公司,比如宇视科技的工程师,要训练他们的识别系统处理百亿级别的城市交通、安全数据。IBM的智能体watson能够把医疗、健身、消费领域的无结构大数据加以结构化……在每一个产生数据的行业都有数据专家在挺进。就算我,处理所在公司规模不算巨大的网络数据,和技术员配合出数据报告,也算是这个领域的小专家吧。

谁是大数据科学家呢?一些政府朋友也在问我这个问题。我觉得,未来人们无时无刻不在上传、下载各种数据,或许你的每个细胞都在上传数据。大数据网络真正可能出现“无主体”现象——任何人都是主体,但也都不是绝对的核心。当然,涉及技术底层的数据工程师还是让我仰慕,如果他们也能说会道就好了。

5月12日在上海亚洲消费电子展(CES)现场,我有机会听到阿里大数据专家“行在”先生的演讲,感触颇深。他的一句话打动了我:“没有大数据专家,只有满身伤痕的践行者。”(默念这句话,有点不由自主唱出来的意思呢,听过陈淑桦的《梦醒时分》吧,你说你爱了不该爱的人,你的心中满是伤痕)。大数据专家都是在各个行业点从无到有生长出来的。听下来,他的演讲没有什么自夸,反而是分享了建设数据平台过程中遇到的困难和问题,对于有志于大数据者颇有帮助,这是我决定记录下这场演讲的原因。

他首先介绍了阿里大数据平台“阿里数加”的一些项目,比如帮助杭州市政府做的交通管理系统,称为城市大脑。

ppt乍一看东西很多但是层次清楚。他们把交警系统的卡口摄像机数据和他们从互联网上采集的交通数据(比如地图数据)打通,综合成一套信息系统,并且加入很多算法,可以预测一个小时后的拥堵状况。再形成参考指令发到交警指挥平台,改变了以往完全依靠交警“人工”指挥的状况。(照片不清楚,看个意思就好)

还有智能故障预测系统。

4月1日,阿里的人工智能小Ai预测《我是歌手》前三,虽然预测对了两个,但是其宣传震惊效果远不如AlphaGo。也许是因为策划过于娱乐化,想要亲近大众却未得网络大众痴迷。比不了谷歌之类总是高屋建瓴,带点神秘感。不过,听完“行在”的演讲,我对阿里的大数据和人工智能多了一层理解。

他说未来一切生意都是数据生意,数据成为生产资料。本文不打算多说这个。就像金融一样,数据在未来肯定成为指挥生产过程、掌控生产关系的武器。

行在说大数据不等于数据统计,躺在硬盘上的数据根本没用,必须在线才有价值。十多年前,阿里的数据也就躺在硬盘上,后来是怎么活起来的?

话说十一年前——2004年5月,淘宝成了一周年了,当时马云对攻城狮说:“我需要一份经营报告,看过去一年哪类商品最热销,哪个省份开店的卖家最多。”工程师丰兄说:“好的,明天一早就发给你!”

这一夜可不容易,实现并未搭建方便查询数据的架构。丰兄先写了拖数据的脚本,再用几十条SQL语句从oracle数据库里查询,第二天早上终于把报表发给马云了。马云说小伙子干的不错,以后你就是技术总监了。(笔者对以上信息真实性不负责任)

然后马云又下达了一项任务命令:

然而实在是撑不下去了。到2008年,淘宝的业务量与数据量已达到2004年的数千倍,按照这样的趋势,底层技术架构亟需升级。oracle数据库根本撑不住这样庞大的数据量,存储成本也会让阿里入不敷出。存数据很烧钱啊!

这一年,阿里决定成立阿里云,从底层重构云计算及大数据技术。同时,为了实现自主可控,阿里金融成立。它意义在于整个管理层从中真正看到了未来数据公司的雏形。

2009年阿里开始描画大数据平台愿景。当时马云在王坚博士提醒下提出这个想法,大家还不太理解。

后来他们理解了,就做出了这张ppt:

建大数据平台有哪些困难?

没有统一组织和架构,一个人晚上熬夜研究数据,早上回去了,接班的没法看懂他的逻辑,要等他来了才能解释清楚,人称补数小王子。其他问题看上图,大风哥难得拍了张能看清楚的图……

上图里面的每一步都需要专业人员,比如“数据清洗”就需要专门研究这个的工程师。尤其要把不同格式的数据统一起来就废老鼻子劲了。

做阿里金融才暴露出更深层次问题。比如历史数据不足,这就相当于生产资料缺失。过去,淘宝存储数据有限,比如系统对买家交易状态只记录最新的,没人意识到那些丢失数据的珍贵。后来他们就记录全部了。

2012年成立数据平台部,开始实施“登月计划”,听这名字好大雄心!

登月计划面临的问题是:数据重复存储(70个淘宝类目表),烟囱林立(大风哥注:比喻小工厂各自为政,体系独立);使用成本高:小集群众多(大风哥比喻:藩镇割据);标准不一:有6个淘宝成交额;获取数据时间长:要一个数据需要等半年(原来这么久!);找数据难:meta标签不集中,300多万张数据表单(我勒个去,我家网媒只有百张表单);数据应用研发成本高。

解决办法是:成立数据平台部(打破藩镇割据状态);管理和运营数据,解决数据“存通用”的问题。

存:数据集中存入Maxcompute(原ODPS);通:统一规范和ID,打通各业务单位;用:推动各业务单位共享,促发展,养生态。

登月计划是要把几十个小集群统一成maxcomputer大集群。

大风哥不由觉得:治大国如烹小鲜,但治数据如建大国。集中、统一、发展,多么像大国治理啊。

2012年到2013年期间,将原本的数据仓库改名为大数据计算服务(ODPS),并将所有金融业务所需要的数据放在云端,集中到ODPS上。

登月计划已经成功。但做产品开发就是要不断面对新问题:

其中一条叫做“缺乏行业知识:你和客户谈平台,客户和你谈行业应用。”哈,做技术产品开发的,要让自己变成各行业专家才行。那么有没有期望和绘画、模型艺术家对谈的大数据专家呢?如果有,欢迎联系大风哥(邮箱:yuliang@guancha.cn)

另外看下图,阿里提到机器学习和智能交互,显然也在基于大数据开发人工智能。

演讲结束后,大风哥和行在哥简短聊了几句。行在果然是七零后呢,具有典型的阿里风格,从基层扎扎实实干上来的,不善作秀而很实在。阿里系统当然也有王坚这样的海归博士,但是有更多像马云一样非名校毕业,但是勤于学习钻研、了解大众需求的苦干者成为这个体系的坚实支撑。倒是有点像当年土鳖兔子的创业模式呢,话说华为也是这样的企业吧。

听下来对自己也更有信心啦。贴一张大风哥年会时候做的数据图吧,展示的是观察者网一年当中全球各地新闻点击热度的统计:

从这图中就能感受到,世界的热点真的就在“一带一路”呢。

顺便推介一下大风哥所在团队艰苦研发的一带一路大数据图册,十张大数据图涵盖一带一路眼线国家政治、经济、金融、交通、能源等概况,是您居家旅行投资杀人必备之良药。

需要者联系邮箱(study@guancha.cn),对了,这图册耗资巨大,是收费的~

(余亮上海报道)





触摸水滴,进入智能国

责任编辑:钟晓雯
阿里巴巴 人工智能 大数据
观察者APP,更好阅读体验

他在以色列监狱中死亡,联合国官员:极度震惊

俄方通缉泽连斯基等乌军政要员,乌方回应

“哈马斯得到美方保证”?以官员威胁:不会同意

国际刑事法院忍无可忍:再威胁试试

省级督察组现场核实情况,遭故意封路阻挠