云球白丁:大数据时代,广告和隐私的运转

来源:观察者网

2019-03-24 09:05

云球白丁

云球白丁作者

从事IT行业20年的科幻作家,《云球》

【文/ 观察者网专栏作者 云球白丁】

很多用户都烦恼于互联网广告的无孔不入,而且这些广告不像电视广告一样漫无目的,似乎很了解用户的需求。你敢去咖啡馆,APP就推荐咖啡豆,你敢跑步健身,APP就推荐运动服装。这让很多用户非常不安,因为从直观上就可以推断,自己的隐私被网站或APP获取了。

事实上,这个问题不仅仅体现在用户对广告的感受上,在一些重大场合也开始显现出威力,比如脸书/剑桥分析数据门事件,欧盟为了回应这一问题,还通过了GDPR法案(《通用数据保护条例》)。

从产业角度上看,隐私问题并不是那么简单。就像中美贸易摩擦,制造业和贸易的链条非常长,在全世界范围内错综复杂,很难击其一点而致命,互联网广告和隐私问题同样存在复杂而漫长的链条。

一、用户行为分析

对于手机APP而言,很多人理解,隐私的风险体现在“权限”上,原则上讲这是没错的,大家应该注意不要允许没必要的权限。但这不是问题的根本,绝大多数的个人数据来自于用户行为分析,而用户行为分析并不需要很多权限。

用户行为分析在最简洁的情况下只需要两个权限,首先是上网(总不能不上网,那就不是智能手机了),其次是读取手机ID,这是为了标识一个单独的用户,每部手机都有一个全球唯一的ID。这里要注意,用户行为分析并不想知道持有手机的人究竟是谁,只是想要给手机贴上一个标签,能够把这部手机从所有手机中区分出来。

可能有人会问,那么我是不是可以拒绝APP读取手机ID?当然可以。但是,首先这很可能导致APP没办法用或者很难用,比如每次打开都要登录;其次,除了为APP开发者增加一点麻烦以外,这没有任何意义,因为开发者可以在SD卡上做一个标记,取代手机ID用来标识这部手机,当然你也可以禁止APP读写SD卡,但如果这样,99%的APP一定是没法用了。

然后,个人数据的收集就开始了。理论上来说,你打开任何一个APP,做的每一个划动、点击、回退甚至看着屏幕让它停在那里,都可能会被记录下来,然后以某种数据格式传递到某个服务器上。这听起来让人害怕,但这件事的出发点却完全是善意的:为了让APP的用户体验更好。

经常碰到这样的情况,一个朋友说微信很好用,而另一个朋友说,微信多么难用,要不是大家都用,我才不会用——这样的争论是很难有结果的,APP开发者几乎只有一条路:让数据说话。如果有一个页面从来没有人点进去,那么它就是没有必要存在的,如果一个页面让大多数人呆了五分钟,那么它就是受欢迎的,无论网络上有多少人臭骂这个网页有多丑。

但是,这种数据分析工作从技术角度看其实是很困难的,对APP公司来说,需要多几个工程师和数据分析专家(取决于要分析到什么程度)。大多数APP公司都是小公司,多养哪怕一个人都不容易。这件事情和APP的主要功能并没有什么直接关系,而这件事情在不同APP之间反倒是一模一样的。这意味着,不同APP公司在做这件事情时,实际上是在做重复劳动。

所以,有一种公司脱颖而出,专注于用户行为分析,通常叫做大数据公司。不过,大数据公司种类很多,专注于用户行为分析的只是其中一种。

二、第三方大数据公司

这种大数据公司会开发一个SDK,或者叫做插件,提供给所有APP公司使用。APP公司只要把这个插件通过一种既定的方式插入到自己的APP中,所有数据收集、数据处理和数据分析工作就都完成了,不需要开发,不需要维护,功能最专业,分析最全面,最关键的是还不需要花钱,因为大数据公司提供这种插件是免费的。

APP公司免费获得了最专业的服务,可以据此提高APP的用户体验,有什么道理不用呢?这就像所有营业场所都会买空调一样,而空调居然是免费的。

大数据公司为什么要免费?因为他们获得了数据。如果是一个APP公司自己做数据收集和分析功能,限于他们的用户量很可能不大,他们的数据量也是很小的,除了用于提高用户体验并没有什么其他用处。但如果有十万个APP使用了同一家第三方大数据公司的插件,那这家大数据公司的数据就是海量的了。十万个APP?对,没错,就是十万个APP,成功的大数据公司提供的插件,使用者可能还不止这个数字。

这就是说,这个大数据公司获得数据是跨APP的。它同时知道用户在不同的APP里的行为,而这些APP互相之间是绝不知道的。

不过要注意,大数据公司获得的数据是用户行为数据而不是APP的业务数据,比如,任何交易数据都是APP的核心商业机密,通常情况下,第三方大数据公司是得不到的。大数据公司可能知道你在肉夹馍页面待了多久,但不知道你究竟买了没有,也不知道你花了多少钱买的。

大数据公司知道用户在肉夹馍页面待了多久,这只是原始数据,需要进行处理,最重要的过程是把这个行为归纳为一个标签,比如“肉夹馍”,也可能是“肉食”、“面食”、“十元~二十元”或者其他什么标签。每个大数据公司都有自己的一套数据分析体系,标签是预先制定好的,可能有几百种上千种预定的标签,每种标签都有若干选项,需要挑一个贴上去。这是很专业的活儿,所以APP公司自己是很难完成的,大数据公司更加专业。

最后的结果就是,这部手机被贴了一个标签。积累一段时间,这部手机就会被贴上很多标签,被贴了越多的标签,这部手机就越鲜活。在大数据领域,这被称作“用户画像”。

需要指出,真正的大公司,比如APP用户过亿的公司,通常不会使用第三方数据分析插件,因为他们足够大,有能力自己做事情,同时数据也足够多,已经可以体现出价值。

三、行业铁律:数据脱敏

这里有一个重要概念,叫做“数据脱敏”,在百度百科上,对数据脱敏的解释是:数据脱敏是指对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。大概意思就是,数据库中某个条目被贴了很多标签,但要避免对应到某个实体的人。可以这么理解,一个内部ID为0000001234的条目被贴上了“肉夹馍”的标签,但不知道这个人是谁。即使原本知道,也要把敏感数据抛弃,变成不知道。正规的大数据公司一定会这么做。

这个数据处理过程很复杂,涉及更多的第三方,比如有提供大数据技术平台的公司,有专门提供数据导入技术的公司,有专门剔除无效数据的数据清理公司,有专门贴标签的公司,等等,这是一个很大的产业。举个例子,大家去搜索一下“大数据平台”(这是所有一切的技术基础),就会意识到,大数据是全世界经济生态,特别是互联网生态的重要组成部分。

四、丰富的数据来源

有一些初创大数据公司,他们的用户规模不大,数据也不多,无法变现,怎么办呢?除了努力做大以外,他们可以把自己不多的数据卖给顶部公司,只要数据有特点,顶部公司是愿意买的,作为自己数据的补充。

数据就这么多了吗?不,这只是一个基础,数据来源还有很多。从APP角度看,还有很多类似数据分析的通用功能需要第三方插件提供服务,比如地图定位、消息推送、语音识别、图像识别、APP防病毒加固、二维码识别、第三方登录、第三方支付等等,道理都是一样的:节省APP开发工作量,同时第三方的标准插件功能更加强大和稳定。但是,所有插件都会获得某些数据。

获得数据并不是这些插件的核心目标,但拥有了某些数据后,不进行变现在商业上是不合理的。不过,变现并不容易,因为这些数据过于片面和零散。所以有一种可能,如果公司亟需变现,可以把这些数据卖给已经拥有大量数据的大数据公司,大数据公司可能恰恰需要这些片面而零散的数据,使自己的数据更加完整。

数据来源不仅仅限于APP,PC端不用说了,当然也会贡献很多数据,但还有很多线下的数据。比如有一种东西,叫做数据探针,有很多种类,WIFI探针、蓝牙探针、4G探针等等。这些探针通常被布置在公共场所,当用户走过,探针会探测到。待了多久、重复了多少次,都是有价值的数据。大家在很多公共场所会使用免费WIFI,这种免费WIFI就起到了探针的作用。用户获得了免费上网的便利,也贡献了到此一游的数据。

WIFI芯片、蓝牙芯片、4G芯片都有全球唯一的ID,能够标识这个芯片,但同样不会对应到一个真正的人身上。换句话说,这也都是脱敏数据。这些来源有各种用处,比如为线下商家提供信息,这是不是老客户,但同时也存在汇入顶部大数据公司的可能,使大数据公司的数据更加完善。

下一个数据来源是APP公司的服务器所存放的地方。除非很大的公司,否则服务器通常不会放在自己公司里,这个运维要求很高,自己来搞风险很大,所以会采用服务器托管,放在专门的机房里,甚至大的APP还需要分布式的服务器来提高用户访问速度,提供这种服务的供应商叫CDN(内容分发网络)。不过,现在的趋势是直接使用第三方云服务,不买服务器了。

托管机房、CDN和云服务都有一定风险,取决于管理水平。他们本身通常是很负责任的,但是面临黑客攻击的问题。大多数黑客有商业目的,有可能在路由器或者交换机上植入病毒,通常会干三件事:攻击特定目标、植入广告和盗取数据。和前面的数据来源不同,这是明确的违法行为,需要非常严厉的打击。

然后就是数据通道,也就是电信运营商。手机和PC上网都离不开电信运营商,电信运营商的数据很多,但通常对数据的使用极其谨慎,也基本不和第三方合作。理论上,运营商的交换机也可能被黑客攻击而泄露数据,但这种可能性很小。

还有一些原本的数据拥有方,比如政府机构、银行、医疗机构和线下商业机构,但目前来看,政府机构、银行和医疗机构的数据被整合的可能性很小,商业机构的数据整合理论上可行,但在实施层面非常困难。而所有数据的整合都有一条行业铁律:脱敏。

另外,无论哪个环节或哪一个机构,都不能排除一个特例:私人行为倒卖数据。这也是明确的违法行为,就像快递员泄露地址一样,和大数据产业或者互联网广告产业本身应该做出区隔。

总之,数据来源很多,整合这些数据并使其具有商业价值并不容易。举个例子,PC数据和手机数据来自两个设备,如何进行整合?最简单的方法当然是通过登录的用户名来判断,但这不是正当做法,违反脱敏原则。多数情况下,需要其他手段进行对应,比如总在一个WIFI局域网中上网就是一个依据,特别是在家中,只有这两个设备的时候。

说到这里,大家会发现一个基本问题,大数据公司汇集了各种来源的数据,为什么要进行这种汇集?各种数据本身不能自行变现吗?实际上,这是大数据的一个特点:在一个足够大的规模上,这些数据是有价值的,而数据规模不足,很可能完全不靠谱。如果有一千万人被贴上了“肉夹馍”的标签,那么你向这一千万人投放“肉夹馍”广告是一个靠谱的事,但如果某一个人被贴上了“肉夹馍”的标签,被贴错的可能性是很高的。微信刚刚推出朋友圈广告的时候,很多人觉得推给自己的广告莫名其妙,就是这个原因。

笔者的儿子是个高中男生,但他认为自己被贴上了“家庭主妇”的标签,最近总被推送吸尘器、拖把、扫帚的广告,他分析原因,很可能因为自己总是点外卖和购买各种食品。

不少人提到手机麦克风偷听的问题,这不能说完全没有可能,但如果是这样,实施者确实做了一个很奇怪的商业决策。语音识别并不是一个门槛很低的技术,即使拥有这门技术,这件事情对手机或者服务器资源消耗也比较大,在大量语音识别中得到有意义数据的命中率恐怕很低,即使得到数据,准确性也不见得有多高,想想苹果Siri的准确率就知道了。即使完全不考虑法律和伦理风险,纯从商业角度看,这么做似乎也是很不合算的。

有些情况下,隐私泄露的概念有一些混淆。比如新闻中报道的拖库事件,是指某个网站或者APP的数据库泄露,这种数据通常是业务数据,而业务数据是未经脱敏的,可能包含很多敏感的隐私数据,例如用户名和密码,这种情况是很严重的问题。但就互联网广告而言,所使用的数据通常是用户行为数据,是经过脱敏的,两者有很大不同。

五、广告投放:另一个链条

数据有了之后,下一步是广告匹配投放的问题,这其实又涉及到另一个产业链条,而且同样是很大的产业。原因很简单:不是每个公司都能把广告卖出去。广告界有自己的游戏规则,所以有专门的第三方广告插件公司,会插入到各种APP中,APP和网站们其实并不知道自己投放了什么广告,有时自己也很郁闷,为什么我的网站是小清新,却出现了大叔风格的广告。

可能很多人已经看出了这里面一个很大的问题:如果有一个APP,自己有大量用户,自己有大数据分析能力,自己还有广告售卖能力(可能是卖给自己的网站用户),那么就形成了一个闭环,不需要第三方的帮助就可以非常良性地运行。而小的APP,离开了众多第三方的帮助,将完全无法竞争。

事实上,这是欧盟GDPR法案在制订时最纠结的事情:过于严格的数据保护(例如禁止任何形式的数据交易)将很容易导致大公司的垄断,扼杀中小企业的发展之路。

六、结语

笔者认为,国家应就个人数据进行更完善的立法。在此之前,权威专业机构首先应该对个人数据建立分级体系。

简单来说,可以定义重隐私和轻隐私之类的概念,重隐私绝不可以进行任何形式的转移,更加不能交易,而轻隐私可以允许转移和交易。像用户名、密码、身份证号、电话号码、聊天记录之类的信息毫无疑问属于重隐私,而用户浏览行为或者出没地点之类的信息属于重隐私还是轻隐私就是需要被讨论的话题了。

(作者简介:从事IT和互联网行业二十余年,现为科幻作家,2019年1月出版人工智能长篇科幻小说《云球》第一部,首月月销超过四千册,微博@云球白丁。)

本文系观察者网独家稿件,未经授权,不得转载。

责任编辑:陈轩甫
大数据 隐私 隐私保护
观察者APP,更好阅读体验

美方对俄隐瞒了部分信息?克宫回应

这条中马“一带一路”重点铁路项目 “或延伸至泰国”

国防部表态:中方不会在南海问题上任菲胡来

关于ASML出口管制,荷兰首相在华表态

警惕!“隐秘”的调查暗藏国家安全风险