美国AI“请确认下单”，中国千问“车到了”-观察者网

（文/刘媛媛编辑/周远方）

3月底的某一天，你急着出门，掏出手机只说了一句话：“帮我打车去公司，要空气清新车。”几分钟后，车来了。司机评分4.9，车里没有烟味，空调开着，甚至还放着点轻音乐。

这不是电影情节，而是千问刚刚干成的一件事——“AI打车”。你也可以说：“打车去太子湾看郁金香。”不用输地址、不用选路线。AI听完，直接把车叫到你跟前。

听起来好像就是加了个语音输入？其实不是。这件事背后，反而是千问“AI办事”版图里最新、也是最难的一块拼图。

此前，它已经能帮用户点奶茶、点外卖。那些事错了可以重来，无非是奶茶送错了口味，外卖晚到了半小时。但打车不一样，它高频、低容错、还得真金白银地履约。车没来，你迟到，车来了有异味，你难受一路。AI必须为真实的结果负责，不能含糊。

放眼全球，这件事不是没人想做。Gemini、OpenAI都尝试过接入AI打车，但因种种限制，它们只能做到唤起Uber APP，离真正的“AI办事”还有距离。

而千问做到的，是直接把“叫车”从头到尾包圆了。表面看，这得益于阿里有完整的出行服务生态，履约能力强。但往深度看，这背后藏着一个更大的变化：我们和手机打交道的路径，正在被彻底翻转——从我们去适应APP变成APP来适应我们。

只需表达需求，剩下的交给AI。这个转变，中国已经领先一步。

“AI打车”的含金量，AI开始理解“为什么要打车”

要理解“AI打车”的含金量，首先要回到一个最基本的场景：我们过去二十年是怎么打车的？

传统的打车方式，是一场用户向机器“妥协”的过程。打开APP、在搜索框里输入目的地、从列表中选择具体门牌号、下拉菜单选择车型、勾选一系列选项、最后点击确认呼叫……

这一套下来，高度标准化。但用户被框定在了开发者预设的功能菜单里，能做的一切，都仅限于APP界面上那些按钮和选项。

这套逻辑在功能机向智能机过渡的时代是巨大的进步，它将复杂的服务封装成简单的按钮。但当技术演进到AI时代，它的局限性开始暴露：用户必须学会用APP的语言来表达需求，而不是用自己习惯的方式。

如今，“AI打车”的颠覆性在于，它彻底翻转了这种关系。我们不再需要理解APP的菜单层级，不需要知道“途经点设置”藏在第几级页面，只需要说出自己的需求。

“帮我打车去公司，中间在城西银泰停一下，我拿个东西。”

这句话里藏着三层意图：目的地是公司、途经点是城西银泰、停车目的是临时办事。在传统APP里，需要进入“添加途经点”功能，而且通常只支持一个途经点，多了可能就直接超出能力范围。

但在自然语言交互下，AI需要做的不是“执行指令”，而是“还原意图”。它要理解“停一下”不是终点，是中途；要判断“拿个东西”意味着停留时间不会太长；要规划出一条既能经过银泰、又不绕太远的路线。

另一种场景是：“我要去奥体中心看演唱会，6个人，今晚上8点出发。”

这句话的复杂性远超表面。首先，“6个人”意味着必须匹配六座及以上车型；其次，“看演唱会”暗示了时间敏感性，8点出发意味着要在演唱会开始前到达，可能需要考虑晚高峰路况。

在传统APP里，这需要手动选择“六座商务”、输入具体时间、预估行程时长，而在AI这里，一句话就够了。

更极致的例子是：“帮我打车去湘湖风景区，要电车，30块以内，车子里没味。”

这句话几乎是传统交互的“噩梦”。价格约束“30块以内”需要实时计算预估里程和动态定价；车型偏好“要电车”涉及新能源车辆的筛选；而“车子里没味”是一个主观体验标准，它不是任何一个APP里的勾选项，而是需要AI理解：用户可能是对烟味敏感，或者是容易晕车的人，或者单纯想要一个清新的乘车环境。

传统APP无法处理这种“模糊需求”，而AI知道“没味”意味着要匹配那些“车内整洁评分高”“近期无烟味差评”“司机有清洁习惯”的车辆。

这揭示了一个本质的变化：传统APP是在执行指令，你说A它就做A。而现在的AI是在理解意图，它要想办法弄明白你为什么要打这辆车，是赶时间还是想眯一会儿，是带家人出去玩还是自己一个人赶场子。

只有理解了“为什么”，才能真正安排好“怎么打”。

将人机交互的主导权，交还给用户

“AI打车”上线后，一个常见的误读是：“这不就是加了语音输入吗？以前也能语音输目的地啊。”

这种看法，证明了这场范式转移被严重低估。它远不止是多了一个语音入口，而是预示着：人机交互的主导权，正在从应用开发者手中，交还给用户。

要理解这个判断的份量，需要把时间拉长，回到过去二十年的数字生活演进史。

从PC互联网到移动互联网，交互的基本范式一直是“图形界面+点选操作”。这套范式由施乐帕洛阿尔托研究中心发明，被苹果和微软发扬光大，统治了人类与机器的对话方式长达四十年。

它的核心逻辑是：开发者将复杂功能拆解为模块，再将模块转化为图标、菜单、按钮、滑动条，你想干什么，就得去点这些东西。

这套范式的伟大之处在于，它让不懂编程的普通人也能使用电脑。但它也有一个隐性的代价：用户必须学习每个应用的“语言”，理解“搜索框在哪里”“筛选条件怎么设”“返回是左滑还是点叉”。

而自然语言交互的逻辑完全不同，从“你去适应机器”变成了“机器来适应你”，并且它还带来了两大变革。

第一个变革：激发全新需求。

历史反复证明，当交互门槛降低时，原本被压抑的需求会爆发出来。移动互联网时代不是简单地将PC端内容搬到手机上，如果只是这样，就不会有移动支付、本地生活、短视频这些全新形态。正是因为手机带来了“随时在线”“定位服务”“摄像头扫码”这些新能力，才催生了PC时代根本不存在的新需求，比如点外卖、扫共享单车、拍短视频。

自然语言交互也会带来类似的跃迁。举个例子：一位家长周末早上对AI说：“帮我规划带娃出游的路线，上午去动物园，中午找个能吃饭的地方，小朋友喜欢吃面，下午三点前要赶回来上兴趣班。”

这句话背后涉及的服务链条很长。第一步，AI需要知道今天是周末、天气如何、动物园是否开放、是否需要预约；第二步，需要在动物园周边找餐厅，筛选条件是“有儿童餐”“面食为主”“评分高”“中午不用排队太久”；第三步，要计算从动物园到餐厅、再从餐厅到兴趣班的时间，确保三点前能赶到；第四步，需要预约打车，或者提醒用户避开拥堵。

放以前，这件事怎么做？你需要打开地图搜动物园、记下地址；打开点评找餐厅、筛选条件、看评论、记下电话预约；打开打车软件输入目的地；再打开日历看兴趣班时间……每一个步骤都在不同的APP里完成。

而在自然语言时代，你只需要说出自己的目标，AI在后端把出行、餐饮、票务、日历全给安排明白。那些因为“太麻烦”而被压抑的需求，都会随着交互门槛的降低而被激活。

第二个变革：激活沉默用户。

移动互联网普及多年，但有一批用户始终被排除在外——老年人、操作障碍者、对复杂界面感到困惑的人。

这不是能力问题，而是设计问题。今天的APP界面，默认用户具备一定的“数字素养”，知道什么是下拉菜单、什么是tab切换、什么是长按操作、什么是滑动删除。这些对年轻人来说是本能，但对部分人群来说，是一道无形的门槛。

现实生活中，很多老人根本学不会用APP打车，只能让儿女帮忙叫车。QuestMobile的数据显示，中国50岁以上网民已超过3亿，但主流APP的老年用户渗透率远低于年轻群体。原因是图形界面的点选逻辑，对认知负担的要求太高。

而自然语言交互，天然降低了这道门槛。说一句“帮我打车去儿子家”，比在层层菜单里找“亲友助力”功能要直观得多。

从这个意义上说，“AI打车”不只是技术创新，更是数字包容的进步。它让那些被复杂界面挡在门外的人，终于可以平等地享受数字服务。

全球赛跑：AI代理元年，中美谁跑得更快？

如果我们把视角拉高到全球，会发现“让AI替人办事”正是2026年人工智能竞争的最前沿。

就在千问上线这一功能的同时，全球科技巨头正密集落子。2026年2月，谷歌宣布为Gemini推出自动化功能，支持在Pixel 10和三星Galaxy S26系列上执行叫Uber、订外卖等多步骤任务。

不久前，OpenAI被曝已完成与Uber、DoorDash、Spotify的应用集成，用户可通过ChatGPT直接下单。

CB Insights在其2026年趋势报告中明确指出：多模态AI代理正在赢得客户服务领域的“圈地运动”，语音交互将成为下一代智能助手的核心战场。

看起来，硅谷巨头也在做同样的事。但如果细看技术实现路径，就会发现本质差异。

Gemini的自动化任务仍停留在“模拟点击”层面。当你对Gemini说“帮我叫辆车去机场”，它会在手机端开启一个虚拟窗口，打开Uber APP，然后一步一步地模拟人类手指点击屏幕——选择出发地、输入机场、选择车型……直到最后一步“确认呼叫”，Gemini会停下来，让你“确认费用并点击下单。”

谷歌Android生态系统总裁萨马特对此的解释是：“我们希望用户能监控AI的行为，并在必要时终止任务。”但这种设计暴露了Gemini的底层逻辑：它仍然把AI当作一个“会自己点屏幕的人”，而非真正理解服务的智能体。

这意味Gemini能做到的，仅限于那些UI界面固定的APP。一旦Uber更新了界面布局，或者弹出一个新的优惠券窗口，Gemini就可能“迷路”。

更重要的是，它无法处理那些需要跨应用、跨数据理解的任务。比如“要一辆30块以内的电车”，因为它并不真正理解“30块”和“电车”这两个约束条件在Uber系统里意味着什么。

OpenAI的路径略有不同。通过Function Calling技术，ChatGPT可以直接调用Uber的API完成下单。但这同样存在问题：API调用意味着只能做Uber预先开放的那些功能——输入起点终点、选择车型、确认下单。

如果用户的需求超出了API的预设范围，比如“中途在便利店停一下”“要一个会聊天的司机”，API就无能为力了。

这正是千问“AI打车”的含金量所在。它既不是模拟点击，也不是简单的API调用，而是在理解自然语言的基础上，直接进入调度引擎，完成真正的决策。

当用户说“要空气清新车”，它会在后端匹配那些“车内整洁评分高”“近期无差评”“空调常开”的司机，并将这一指令转化为调度系统的筛选条件。

这才是真正的“AI办事”，不是替用户点屏幕，而是替用户做决策。

为什么是中国的千问先做到了？

我们不禁要问，为什么在“AI办事”这场全球竞赛中，中国互联网公司反而走在了前面？

答案或藏在两种不同的互联网生态里。

美国的互联网生态是“模块化”的。谷歌做搜索，亚马逊做电商，Uber做出行，DoorDash做外卖，每个公司守着自己的一亩三分地，通过API对外提供服务。

这种生态的好处是分工明确，坏处是难以形成跨域协同。Gemini想帮用户订外卖，需要先跟Uber Eats谈合作；想叫车，需要再跟Uber谈合作。即使谈成了，也只能调用对方开放的API，无法触及更深层的数据和决策。

中国的互联网生态是“超级APP+生态闭环”。阿里巴巴旗下不仅有出行，还有本地生活、酒旅、电影，这些服务在底层数据和调度系统上是打通的。

用户说“订两张今晚的电影票，8点左右的，打车去这家电影院”，在千问这里是一句话的事，因为背后的购票系统和打车系统本就同属一个生态，数据可以无缝流动。

这种生态优势，在“AI办事”时代被放大了。因为真正的“办事”，不是调用一个API，而是完成一个目标。

用户说“帮我打车去西湖”，API调用只需要输入目的地。但用户说“帮我打车去西湖，路上给我讲讲白蛇传的故事”，这就超出了API的能力范围。它需要AI理解这是一个游客，需要匹配一个熟悉西湖典故的司机，甚至可能需要调用导游词库。这不是API能解决的，必须靠生态。

德勤在《技术趋势2026》报告中指出，企业AI应用正在从“概念验证”迈向“实际价值创造”。而实现这一跨越的关键，在于能否构建智能体与业务系统深度融合的“智能生态系统”。这正是中国互联网企业的先天优势。

千问“AI打车”的上线，不仅是一个功能的更新，更是一次发展路径的验证：在通往“AI办事”的路上，深度整合的生态比开放的API更有竞争力。

结语：当AI开始“办事”，我们还需要一个个独立APP吗？

千问能打车，这件事最耐人寻味的地方，不在于它多快叫到了一辆车，而在于你根本没打开任何打车软件。

过去，用服务就得找App、学操作、适应规则；现在，只需说出目标——“打车去太子湾看郁金香”，AI 自动识别地点、匹配车型、规划路线、完成叫车。背后是打车Skill的深度能力：支持多人出行、途经点、时间预约、偏好过滤（如“车里没味”），未来还将主动提醒出行风险。

当80%的出行需求通过一句对话解决，谁还天天点开独立应用？就像Claude上线设计技能后Adobe股价大跌所预示的：任务若能在通用AI中闭环，垂直工具的价值就会被重估。

更关键的是，千问的打车Skill能与外卖、酒店、票务等能力联动，一次对话搞定“订房—打车—觅食”全链路。这不是功能叠加，而是生态协同。

看不懂“AI打车”的含金量，是因为还停留在传统APP时代的思维里。而真正的变化，已经开始。