清华教授：国产电商反刷单系统比AlphaGo团队的高25%-唐平中-观察者网

7月20日下午，由杉数科技和钛媒体联合主办的“AI大师圆桌系列会议”在上海财大豪生大酒店召开。在会议中，清华大学交叉信息研究院青年千人助理教授、博士生导师、计算经济学研究室主任唐平中博士首先进行了主题演说。

唐老师着眼于人工智能（AI）与经济学的结合，演讲主要围绕经济学与人工智能的交互展开，详细探讨了AI提升社会福利和商业效率的应用，具体例子包括：百度广告拍卖、淘宝刷单、滴滴拼车和甘肃水权交易。

在有关水权交易方面，唐博士说，水权交易的目标是最大化社会福利，让干旱地区水资源相对充足的村庄，愿意和资源不足的村子进行交易，最大化双方的收入。

同时，目前他们也正在帮淘宝减少刷单，新系统的表现比AlphaGo高出了大约25%。另外，唐博士也在帮助百度设计新的广告模型，他说，百度在算法上和谷歌没有任何差别，但是百度需要在广告主质量挑选上进行优化。

唐平中博士发表演说

以下为演讲全文：

大家下午好，今天我给大家分享的内容是关于AI在经济学当中的应用，大家可能在国内主流的媒体上经常看到一些计算机视觉上的应用，但是经济学上的应用也很重要，我会介绍三个重要的应用场景。这三个场景是水权市场、电商刷单和广告拍卖，第一个从政府的角度或者说从学术界的角度来介绍，是一个对社会有益的事情，第二、第三是商业应用场景。

首先我说一下什么叫AI+经济学，顾名思义就是AI和经济学的交叉学科，在学术界已经有很多年的历史了，也是我国最近的一个国策。李克强总理在政府工作报告中提出了互联网+，最近还有一个AI+，是科技部提出的发展策略，也是我们国家五年计划的一部分。AI和互联网+在我们国家的战略发展地位都是非常重要的。这里面的研究也好，应用也好，主要有两个方面，第一个是应用AI的一些技巧，把一些经济学的模型或者经济学的理论运用到实际场景中。第二个就是把经济学用在AI，用经济学帮助算法设计。

今天的演讲主要围绕着大规模机制设计（large scale applied mechanism design），大家不知道没有关系，就把它理解成大规模的资源分配和定价就好。这是AI和经济学交叉学科上一个非常重要的研究课题，也是一个应用场景。有三个应用，可以分为两个部分，第一个是水权市场，主要用到的理论工具叫做合作博弈，这一部分的目标是为了最大化社会福利，让整个社会变得更好。第二部分包括后两个应用，也就是淘宝的流量分配和百度的广告定价，这些当然是从公司的角度去优化，里面用到的是非合作博弈，目标就是为了优化公司的收益。

结合人工智能和博弈论——水权市场的设计

水权市场的设计相对学术一些，是我们参与的一个甘肃省水权市场的设计。

首先我需要介绍两个背景，第一个叫做算法机制设计，这个算法机制设计是什么呢？要设计一个算法，满足经济学的一些限制。这在学术界有一系列的工作，一个叫VCG机制（VCG mechanism），一个是分配游戏（assignment game），这是一个经济学里面的模型。先举个例子，比如说我跟你进行房屋的买卖，我们两个人的收益都得到提升，我们的收益提升要作为整体共同考虑。当目标是最大化整体收益，就是需要找一个交易来最大化整个社会的福利之和。可能这看起来就是一个非常典型的算法设计问题，大家上大一的计算机算法课程就学这个，这个为什么与经济学有关？

在设计市场的时候，有个非常重要的经济学限制，叫做Core。作为一个市场设计者，如果发现一部分的买家和卖家从设计的市场中脱离进行私下交易可以获得更大的收益，那么就可以判断，他们肯定会离开这个市场。现在大家经常看到有些公司，有一些副总带着一堆技术骨干从公司跑出来，因为他们觉得，从里面出来会让他们的收益更高。Core是市场设计上一个非常重要的经济学限制，它保证在你设计的市场没有一个交易方愿意离开，它有多重要？经济学家Shapley凭借它获得了2012年的诺贝尔经济学奖。

中国水权市场已经有了非常正规的交易机构了

这个房屋市场有一个非常好的性质：不需要经济学，只需要知道算法设计，找一个最大化匹配（Maxmium Matching）就可以实现目标了：任何一个最大匹配都对应于一组交易价格，使得全体交易方都满足core的性质，即不愿意从指定的匹配中离开进行私下交易。换句话说，不知道经济学没关系，所以只需要知道最大匹配算法就够了。这个经济学性质也应用到很多其他的互联网场景中，比如说广告拍卖。我们现在来说一下这个性质对水权市场的设计有什么作用。

什么叫水权市场？水权市场是我们国家西部一个非常常用的解决干旱的办法。每年年初，政府会给各个村派一些水，一段时间过去，有的村需要更多水，有的村不需要那么多，他们会用水进行交易，这就是所谓的水权市场。

从理论上看，这和刚才我说的那个房屋买卖的双边市场是相通的。不同的是，这里有一堆卖家买家，而且这里面有一个非常核心的限制，从算法上是非常难解决的——交易的数量，要么是零，要么要大于一定的吨数，比如说我现在两个村进行交易，我们不能只交易两吨，我们要么不交易，要么大于50吨，因为一个交易有非常高的管理成本和运输成本。

所以有了这个限制之后，之前的那一套经济学的理论都不起作用了，所以我们需要重新算一个最大化匹配，这个在算法上都是比较难解决的。我们一系列的工作也是围绕这个新问题展开，彻底解决了算法上和经济学性质的问题。

现在我们算法的简单版本在甘肃省西营灌区使用。据当地初步调查显示，交易量、成交量都有显著上升，最大一个特征是村民更加愿意去做这个水权交易，因为价格设置得更加合理。这就是AI+经济学在民生中的一个应用。现在这个项目我们是跟清华水利系一起做的。最近也有一个草案，力争推动实现全国范围的水权交易。

这是第一个工作，相对学术，并且是服务于社会的，接下来说两个资本驱动的。

高频交易优化淘宝算法限制刷单，系统表现比Alphago高出25%

高频机制（High-frequency mechanism）针对高频场景。有哪些高频的场景？比如说淘宝，每秒钟有成千上万的用户在打开淘宝搜各种商品，这个显然是一个高频，百度的广告拍卖是另一个高频的场景。

在淘宝上设计买家流量分配算法，主要是做什么的呢？比如说淘宝有一个买家，想要买某种物品，在淘宝上搜索，出现了很多卖家，你可能会想，这个不是买家自己愿意点谁就点谁吗？

不是，淘宝提供一个商家排名，这是淘宝控制的，我愿意把这个卖家排在第一，把那个排在第二。排在第一和第二，就在非常大的程度上决定了买家会点谁，他不可能会点第10页的卖家。可能每秒有一万人次的买家访问，在做这个排名的同时，也就完成了买家流量的分配，把多少买家分配给这个卖家。

在这个场景当中，现在学术界工业界没有一个好的算法去分配流量，现在用的都是一些传统的——纯经济学、或者一些纯AI的算法，纯AI的算法包括推荐算法。这些算法使用之后都不是最优的。大公司像淘宝、百度、脸书，谷歌，每个公司都要大概几百人的团队来优化这些算法参数，每天都在调，调了以后，有时它的收入一下子会上去，不调就会下去，所以必须做这件事情。调参数的价格很贵，人力成本很高，而且不一定有效果，所以需要用人工智能的办法来解决，目前没有智能的办法调参。

我最近提出的强化机制设计（Reinforcement mechanism design），关注怎么样把机器学习、强化学习用在机制设计当中。第一个场景就是电商流量分配，每秒钟有几万个买家来访问淘宝，我怎么样把这些买家分配给这些卖家。现在工业界的做法是，卖家定一个价，根据这些价格设计一个机制和算法，算出来一个排名。这个排名出来以后，卖家在今天结束的时候会看我今天赚了多少钱，然后优化这个定价，这些卖家也会调商品展示，排名第一的可能不会调，排在第二个的卖家可能会降个价，让它的产品有新的排位。

这里有个什么问题呢？传统的算法，淘宝用的算法，叫做推荐算法，没有用到任何经济学的东西，带来了一个非常大的问题叫刷单，刷单分为好几种，其中一种就是卖家反复调它的价，让它的成交量得到提升，有高的成交量之后，会在将来排在最前面。比如这儿有一种龙井茶，一斤才35块钱，这是为了让它的成交量迅速得到提升，当你下个月搜的时候会排在淘宝第一，但是价格已经变了，商家可以赚很多钱。推荐算法是无法意识到这些的，它是通过成交量高进行排名，并没有想到卖家并没有诚实地公布成交量的信息，这是刷单刷出来的。所以这里面有对经济学的刚需，怎么样设置流量分配算法，让这些卖家不要刷单。

媒体曝光淘宝商家刷单（图：视频截图）

之前做了一个纯经济学的算法，淘宝发现非常难用，我们最近和淘宝合作的工作就是AI+经济学的算法。它做的事情就是让淘宝拥有决定权（decision maker），每轮输出一个排名，这些卖家看到这些排名之后，向淘宝反馈一个价格，随后系统则统计双方所获得的利润。随后进入下一轮循环。

这里用了一些非常新的人工智能模型来模拟这些卖家脑子里在想什么。有了这个之后，我们通过了一系列的机制，在淘宝这样的平台上完成自动优化排名系统，这是我们的神经网络的设计。我们的算法效率大概比AlphaGo团队deepmind的算法高了大约25%。

百度的广告定价

接下来就花点时间说一下我们的第三个应用：怎么样在百度上给广告拍卖进行定价。百度很大一部分收入是从广告来的，像脸书也是，谷歌也和百度差不多。所以优化广告收入，对他们来说是最重要的事情。

这也是一个高频机制，比如每秒都有大量的用户搜索“电脑”，百度会在前三位显示三个关于电脑的广告。首先百度设计一堆广告的机制，然后有了这堆广告的机制和参数之后，这些广告主会看到一些KPI，比如说我今天的广告展现了多少次，有多少次的点击，有多少转化，看到之后会调整广告出价。让它进入第二轮，这跟刚才差不多。这个问题当中，决策人（decision maker）当然就是百度，它需要调的参数是什么？它需要调的参数是所有拍卖的定价，就是所谓的一个保留价，目标是长期利润。

这是我们的一个强化机制设计的一个模型，把机制设计和强化学习结合起来，就是我刚才描述的这一整套过程，当然也用了一堆最新的人工智能的算法，然后去寻找最优的保留价。在学习广告主模型的时候，我们用的是比较经典的RNN模型。

我们对广告主的建模还是学得非常的准确的，直接来看仿真效果，新设计的技术给收益带来一个40%左右的提升。当然这里面有一些水分，我们用的是仿真，广告主的建模是基于我们自己深度学习学出来的模型，线上的时候，会有一些新问题，那个也是我们最近在解决的问题，但是可以说，收益的提升还是很明显的。

郑州市一展会上的百度推广大幅广告牌@视觉中国

滴滴拼车定价

最后，我们现在做的工作是和杉数科技一起给滴滴做的拼车定价，这是非常有意思的工作，我对这个工作特别感兴趣。

大家不知道有没用过拼车，就是打开快车的界面，左边有个叫拼车，非常奇怪，定价是一口价，不管拼没拼成，都是这么多钱，按理说我拼成了我应该付少一点，我没拼成就付多一点，现在是拼没拼成都是18块钱。这就有个问题，滴滴希望乘客拼成，因为能收两倍的钱，如果拼不成滴滴会亏非常多的钱，因为拼车的价格比快车的价钱便宜很多。但是乘客不希望拼车，因为自己坐一辆车多舒服，所以有一个这样的利益冲突。

我们跟杉数合作，提出了一套比较好的算法，就是所谓的“两口价”算法。拼上是一口价，拼不上是另外一个价，这样双方的利益就统一起来，而不是之前的对抗。这个策略制定之后，当然后续会有很多相应的算法去计算最终的价格。所以说利用一些人工智能和经济学一些技术，我们在这两个方面帮助滴滴做了一个非常好的优化，既改善了民生，也提升了一个公司的收益。

今天我要说的就是这么多，谢谢大家。

拼车订单量和占比的时间分布（图：央广网）

在演讲结束之后，观察者网还获得了一个向唐博士提问的机会。

观察者网：非常感谢唐博士接受我们的提问。您在演讲中说到了电商刷单的问题。我在网购的时候也发现了很多很离谱的销量表现。比如一台售价上万元的自行车，销量超过一万，评论数百条。对此，淘宝京东等电商有没有什么应对措施？

唐博士：总共有两种刷单，一种我刚刚说过了，就是让产品在这个月定一个超低价，获得足够人气，下个月把价格调回来，同时还在搜索页上排名第一，进而获得大量利润。第二种是在网上雇人，然后假交易，给假客户邮寄一个空的包裹，写一段评价。实际上交易根本没有发生。传统的防刷单用只是监视售后评价，机器算法监视可疑的交易，然后详细调查，跟进调查主要基于人工，花费非常高，准确率也非常低。无法从本质上解决问题。

我们的目标是在动机上解决刷单，让刷单的收益少于刷单的成本。上述的两种刷单都是有成本的。基于我们的算法，商品不会一下子排到第一名，而是慢慢上涨。这样刷单的成本变相上升。

观察者网：那么会不会有这种情况，比如一个商户推出新产品，或者营销手段了得。所以商品排名能够真实上升很多。如果新的机制让商品排名无法真实反映热销程度，这样会不会伤害电商和卖家。

唐博士：电商称这个是“商铺翻新”，或者上新的能力。这也是算法需要优先考虑的一部分。上新能力越强排名越高。

在圆桌论坛和问答的环节中，唐博士和其他嘉宾也回答了有关人工智能的问题。

杉数科技首席科学家葛冬冬博士补充了唐博士有关于滴滴的系统问题，他说：滴滴的分单，在2015年初的时候，当时我们公司还很小，就和滴滴讨论过问题，比方说顾客和司机是不是匹配，他们用机器算法已经算得很好了，接下来一个事情就是怎么分配，不光是最近的乘客分给最近的司机，或者两个合眼的分到一起去。上海市一秒钟有几万个诉求的高峰期，怎么进行分配，来实现一个全局优化，达到协调运力，缓解局部运力进展，最大化社会效益。这个问题，最后写出来又是几万，或者几十万变量，也是1秒钟之内解决，而且每一秒完了下一秒又出来了，当时滴滴要求0.1秒就能做到。设计一个比较好的匹配，整体里面有大量优化技巧在不停地实现，背后都是AI的技巧，各方面的，运筹学，经济学或者博弈论，方方面面的知识运用都很需要。

还有人提问，百度的广告系统饱受非议，相对于来说，谷歌的系统比较好一些，请问在算法上，双方有什么区别？

唐博士：首先百度去年做了一次调整，把整页的广告的数量缩减到4个广告，所以现在页面美观非常多，就算法而言，他们在技术细节上没有区别，区别主要在于中美广告主的质量和平台对广告主的甄选上。

在百度搜索医院，前几条的搜索结果

提问： AI未来的发展是在哪个方面？

唐博士：我们利用一些优化的技巧，能够帮一些企业做一些非常好的决策。在很多的场景里面，可能一开始只是一个公司领导拍脑袋想了一个决策，这个没关系，我们现在能做一件什么事情——可以检查这个决定所产生的后果。比如说我做了一个资源分配，给员工奖金，或者给淘宝流量分配。现在能够得到的一些结果，收集很多数据。利用这些数据来改进我们之前所做的决定的表现。我觉得这在接下来的很多领域会持续地用到，所以这是我比较看好的一个领域。