美国AI“请确认下单”,中国千问“车到了”

来源:观察者网

2026-03-24 16:30

(文/刘媛媛 编辑/周远方)

3月底的某一天,你急着出门,掏出手机只说了一句话:“帮我打车去公司,要空气清新车。”几分钟后,车来了。司机评分4.9,车里没有烟味,空调开着,甚至还放着点轻音乐。

这不是电影情节,而是千问刚刚干成的一件事——“AI打车”。你也可以说:“打车去太子湾看郁金香。”不用输地址、不用选路线。AI听完,直接把车叫到你跟前。

听起来好像就是加了个语音输入?其实不是。这件事背后,反而是千问“AI办事”版图里最新、也是最难的一块拼图。

此前,它已经能帮用户点奶茶、点外卖。那些事错了可以重来,无非是奶茶送错了口味,外卖晚到了半小时。但打车不一样,它高频、低容错、还得真金白银地履约。车没来,你迟到,车来了有异味,你难受一路。AI必须为真实的结果负责,不能含糊。

放眼全球,这件事不是没人想做。Gemini、OpenAI都尝试过接入AI打车,但因种种限制,它们只能做到唤起Uber APP,离真正的“AI办事”还有距离。

而千问做到的,是直接把“叫车”从头到尾包圆了。表面看,这得益于阿里有完整的出行服务生态,履约能力强。但往深度看,这背后藏着一个更大的变化:我们和手机打交道的路径,正在被彻底翻转——从我们去适应APP变成APP来适应我们。

只需表达需求,剩下的交给AI。这个转变,中国已经领先一步。

“AI打车”的含金量,AI开始理解“为什么要打车”

要理解“AI打车”的含金量,首先要回到一个最基本的场景:我们过去二十年是怎么打车的?

传统的打车方式,是一场用户向机器“妥协”的过程。打开APP、在搜索框里输入目的地、从列表中选择具体门牌号、下拉菜单选择车型、勾选一系列选项、最后点击确认呼叫……

这一套下来,高度标准化。但用户被框定在了开发者预设的功能菜单里,能做的一切,都仅限于APP界面上那些按钮和选项。

这套逻辑在功能机向智能机过渡的时代是巨大的进步,它将复杂的服务封装成简单的按钮。但当技术演进到AI时代,它的局限性开始暴露:用户必须学会用APP的语言来表达需求,而不是用自己习惯的方式。

如今,“AI打车”的颠覆性在于,它彻底翻转了这种关系。我们不再需要理解APP的菜单层级,不需要知道“途经点设置”藏在第几级页面,只需要说出自己的需求。

“帮我打车去公司,中间在城西银泰停一下,我拿个东西。”

这句话里藏着三层意图:目的地是公司、途经点是城西银泰、停车目的是临时办事。在传统APP里,需要进入“添加途经点”功能,而且通常只支持一个途经点,多了可能就直接超出能力范围。

但在自然语言交互下,AI需要做的不是“执行指令”,而是“还原意图”。它要理解“停一下”不是终点,是中途;要判断“拿个东西”意味着停留时间不会太长;要规划出一条既能经过银泰、又不绕太远的路线。

另一种场景是:“我要去奥体中心看演唱会,6个人,今晚上8点出发。”

这句话的复杂性远超表面。首先,“6个人”意味着必须匹配六座及以上车型;其次,“看演唱会”暗示了时间敏感性,8点出发意味着要在演唱会开始前到达,可能需要考虑晚高峰路况。

在传统APP里,这需要手动选择“六座商务”、输入具体时间、预估行程时长,而在AI这里,一句话就够了。

更极致的例子是:“帮我打车去湘湖风景区,要电车,30块以内,车子里没味。”

这句话几乎是传统交互的“噩梦”。价格约束“30块以内”需要实时计算预估里程和动态定价;车型偏好“要电车”涉及新能源车辆的筛选;而“车子里没味”是一个主观体验标准,它不是任何一个APP里的勾选项,而是需要AI理解:用户可能是对烟味敏感,或者是容易晕车的人,或者单纯想要一个清新的乘车环境。

传统APP无法处理这种“模糊需求”,而AI知道“没味”意味着要匹配那些“车内整洁评分高”“近期无烟味差评”“司机有清洁习惯”的车辆。

这揭示了一个本质的变化:传统APP是在执行指令,你说A它就做A。而现在的AI是在理解意图,它要想办法弄明白你为什么要打这辆车,是赶时间还是想眯一会儿,是带家人出去玩还是自己一个人赶场子。

只有理解了“为什么”,才能真正安排好“怎么打”。

将人机交互的主导权,交还给用户

“AI打车”上线后,一个常见的误读是:“这不就是加了语音输入吗?以前也能语音输目的地啊。”

这种看法,证明了这场范式转移被严重低估。它远不止是多了一个语音入口,而是预示着:人机交互的主导权,正在从应用开发者手中,交还给用户。

要理解这个判断的份量,需要把时间拉长,回到过去二十年的数字生活演进史。

从PC互联网到移动互联网,交互的基本范式一直是“图形界面+点选操作”。这套范式由施乐帕洛阿尔托研究中心发明,被苹果和微软发扬光大,统治了人类与机器的对话方式长达四十年。

它的核心逻辑是:开发者将复杂功能拆解为模块,再将模块转化为图标、菜单、按钮、滑动条,你想干什么,就得去点这些东西。

这套范式的伟大之处在于,它让不懂编程的普通人也能使用电脑。但它也有一个隐性的代价:用户必须学习每个应用的“语言”,理解“搜索框在哪里”“筛选条件怎么设”“返回是左滑还是点叉”。

而自然语言交互的逻辑完全不同,从“你去适应机器”变成了“机器来适应你”,并且它还带来了两大变革。

第一个变革:激发全新需求。

历史反复证明,当交互门槛降低时,原本被压抑的需求会爆发出来。移动互联网时代不是简单地将PC端内容搬到手机上,如果只是这样,就不会有移动支付、本地生活、短视频这些全新形态。正是因为手机带来了“随时在线”“定位服务”“摄像头扫码”这些新能力,才催生了PC时代根本不存在的新需求,比如点外卖、扫共享单车、拍短视频。

自然语言交互也会带来类似的跃迁。举个例子:一位家长周末早上对AI说:“帮我规划带娃出游的路线,上午去动物园,中午找个能吃饭的地方,小朋友喜欢吃面,下午三点前要赶回来上兴趣班。”

这句话背后涉及的服务链条很长。第一步,AI需要知道今天是周末、天气如何、动物园是否开放、是否需要预约;第二步,需要在动物园周边找餐厅,筛选条件是“有儿童餐”“面食为主”“评分高”“中午不用排队太久”;第三步,要计算从动物园到餐厅、再从餐厅到兴趣班的时间,确保三点前能赶到;第四步,需要预约打车,或者提醒用户避开拥堵。

放以前,这件事怎么做?你需要打开地图搜动物园、记下地址;打开点评找餐厅、筛选条件、看评论、记下电话预约;打开打车软件输入目的地;再打开日历看兴趣班时间……每一个步骤都在不同的APP里完成。

而在自然语言时代,你只需要说出自己的目标,AI在后端把出行、餐饮、票务、日历全给安排明白。那些因为“太麻烦”而被压抑的需求,都会随着交互门槛的降低而被激活。

第二个变革:激活沉默用户。

移动互联网普及多年,但有一批用户始终被排除在外——老年人、操作障碍者、对复杂界面感到困惑的人。

这不是能力问题,而是设计问题。今天的APP界面,默认用户具备一定的“数字素养”,知道什么是下拉菜单、什么是tab切换、什么是长按操作、什么是滑动删除。这些对年轻人来说是本能,但对部分人群来说,是一道无形的门槛。

现实生活中,很多老人根本学不会用APP打车,只能让儿女帮忙叫车。QuestMobile的数据显示,中国50岁以上网民已超过3亿,但主流APP的老年用户渗透率远低于年轻群体。原因是图形界面的点选逻辑,对认知负担的要求太高。

而自然语言交互,天然降低了这道门槛。说一句“帮我打车去儿子家”,比在层层菜单里找“亲友助力”功能要直观得多。

从这个意义上说,“AI打车”不只是技术创新,更是数字包容的进步。它让那些被复杂界面挡在门外的人,终于可以平等地享受数字服务。

全球赛跑:AI代理元年,中美谁跑得更快?

如果我们把视角拉高到全球,会发现“让AI替人办事”正是2026年人工智能竞争的最前沿。

就在千问上线这一功能的同时,全球科技巨头正密集落子。2026年2月,谷歌宣布为Gemini推出自动化功能,支持在Pixel 10和三星Galaxy S26系列上执行叫Uber、订外卖等多步骤任务。

不久前,OpenAI被曝已完成与Uber、DoorDash、Spotify的应用集成,用户可通过ChatGPT直接下单。

CB Insights在其2026年趋势报告中明确指出:多模态AI代理正在赢得客户服务领域的“圈地运动”,语音交互将成为下一代智能助手的核心战场。

看起来,硅谷巨头也在做同样的事。但如果细看技术实现路径,就会发现本质差异。

Gemini的自动化任务仍停留在“模拟点击”层面。当你对Gemini说“帮我叫辆车去机场”,它会在手机端开启一个虚拟窗口,打开Uber APP,然后一步一步地模拟人类手指点击屏幕——选择出发地、输入机场、选择车型……直到最后一步“确认呼叫”,Gemini会停下来,让你“确认费用并点击下单。”

谷歌Android生态系统总裁萨马特对此的解释是:“我们希望用户能监控AI的行为,并在必要时终止任务。”但这种设计暴露了Gemini的底层逻辑:它仍然把AI当作一个“会自己点屏幕的人”,而非真正理解服务的智能体。

这意味Gemini能做到的,仅限于那些UI界面固定的APP。一旦Uber更新了界面布局,或者弹出一个新的优惠券窗口,Gemini就可能“迷路”。

更重要的是,它无法处理那些需要跨应用、跨数据理解的任务。比如“要一辆30块以内的电车”,因为它并不真正理解“30块”和“电车”这两个约束条件在Uber系统里意味着什么。

OpenAI的路径略有不同。通过Function Calling技术,ChatGPT可以直接调用Uber的API完成下单。但这同样存在问题:API调用意味着只能做Uber预先开放的那些功能——输入起点终点、选择车型、确认下单。

如果用户的需求超出了API的预设范围,比如“中途在便利店停一下”“要一个会聊天的司机”,API就无能为力了。

这正是千问“AI打车”的含金量所在。它既不是模拟点击,也不是简单的API调用,而是在理解自然语言的基础上,直接进入调度引擎,完成真正的决策。

当用户说“要空气清新车”,它会在后端匹配那些“车内整洁评分高”“近期无差评”“空调常开”的司机,并将这一指令转化为调度系统的筛选条件。

这才是真正的“AI办事”,不是替用户点屏幕,而是替用户做决策。

为什么是中国的千问先做到了?

我们不禁要问,为什么在“AI办事”这场全球竞赛中,中国互联网公司反而走在了前面?

答案或藏在两种不同的互联网生态里。

美国的互联网生态是“模块化”的。谷歌做搜索,亚马逊做电商,Uber做出行,DoorDash做外卖,每个公司守着自己的一亩三分地,通过API对外提供服务。

这种生态的好处是分工明确,坏处是难以形成跨域协同。Gemini想帮用户订外卖,需要先跟Uber Eats谈合作;想叫车,需要再跟Uber谈合作。即使谈成了,也只能调用对方开放的API,无法触及更深层的数据和决策。

中国的互联网生态是“超级APP+生态闭环”。阿里巴巴旗下不仅有出行,还有本地生活、酒旅、电影,这些服务在底层数据和调度系统上是打通的。

用户说“订两张今晚的电影票,8点左右的,打车去这家电影院”,在千问这里是一句话的事,因为背后的购票系统和打车系统本就同属一个生态,数据可以无缝流动。

这种生态优势,在“AI办事”时代被放大了。因为真正的“办事”,不是调用一个API,而是完成一个目标。

用户说“帮我打车去西湖”,API调用只需要输入目的地。但用户说“帮我打车去西湖,路上给我讲讲白蛇传的故事”,这就超出了API的能力范围。它需要AI理解这是一个游客,需要匹配一个熟悉西湖典故的司机,甚至可能需要调用导游词库。这不是API能解决的,必须靠生态。

德勤在《技术趋势2026》报告中指出,企业AI应用正在从“概念验证”迈向“实际价值创造”。而实现这一跨越的关键,在于能否构建智能体与业务系统深度融合的“智能生态系统”。这正是中国互联网企业的先天优势。

千问“AI打车”的上线,不仅是一个功能的更新,更是一次发展路径的验证:在通往“AI办事”的路上,深度整合的生态比开放的API更有竞争力。

结语:当AI开始“办事”,我们还需要一个个独立APP吗?

千问能打车,这件事最耐人寻味的地方,不在于它多快叫到了一辆车,而在于你根本没打开任何打车软件。

过去,用服务就得找App、学操作、适应规则;现在,只需说出目标——“打车去太子湾看郁金香”,AI 自动识别地点、匹配车型、规划路线、完成叫车。背后是打车Skill的深度能力:支持多人出行、途经点、时间预约、偏好过滤(如“车里没味”),未来还将主动提醒出行风险。

当80%的出行需求通过一句对话解决,谁还天天点开独立应用?就像Claude上线设计技能后Adobe股价大跌所预示的:任务若能在通用AI中闭环,垂直工具的价值就会被重估。

更关键的是,千问的打车Skill能与外卖、酒店、票务等能力联动,一次对话搞定“订房—打车—觅食”全链路。这不是功能叠加,而是生态协同。

看不懂“AI打车”的含金量,是因为还停留在传统APP时代的思维里。而真正的变化,已经开始。

责任编辑:刘媛媛
观察者APP,更好阅读体验

立陶宛总理:开设所谓“台湾代表处”,好处为0

“参战只剩时间问题”,海湾国家要下场?

“特朗普找台阶下”,伊朗高度警惕:小心“心理战”

美前驻华大使警告:中国问题专家凋零,国安危矣

这话说的,打伊朗小岛也想再死7000美军?