行业应用
CASE

行业应用

腾讯混元、Kimi、讯飞星火3个AI淘汰:《人机大战》迎来第一个残酷夜

发布时间:2026-07-05

  7月4日晚,《人机大战:谁是世界杯预言家》迎来开播以来第一个真正的淘汰夜。

  这一晚,人类预言家第一次有席位离开,12个AI大模型也第一次出现出局者。讯飞星火、腾讯混元、Kimi因1/16决赛阶段表现欠佳止步于此;孙继海所在的“热爱至上族”被现场投票淘汰。而几分钟后,孙继海又以补位嘉宾的身份走回演播室,加入了阎鹤祥的“自我中心流”。

  这也是这一期和此前几期最大的不同。此前的《人机大战》更多是在问“AI和人类谁猜得准”,而第一个淘汰夜真正提出的问题变成了:当预测进入淘汰机制,谁能留下?在这个机制里,AI要证明稳定性,人类要证明判断力,普通用户则要证明自己能不能借助工具跑赢系统。

  节目从这一晚开始,不再只是比分游戏,而是一场关于判断、风险和工具使用的公开实验。

  更有意思的是,当晚随后进行的1/8决赛,又把这一判断继续往前推了一步:摩洛哥3:1战胜加拿大,法国1:0击败巴拉圭。两场比赛都没有制造新的童话,却共同呈现出淘汰赛的另一面——小组赛和1/16决赛里不断涌出的混乱,正在被更稳定、更成熟、更会控制风险的球队重新接管。

  淘汰夜真正开始前,节目先围绕阿根廷与佛得角展开了一场辩论:到底是阿根廷发挥不好,还是佛得角发挥太好?

  多数嘉宾站在佛得角一边。韩乔生给出数据:阿根廷22次射门,佛得角16次射门、5次打正;佛得角球员场均跑动11.8公里,四场比赛常规时间不败,逼平三支前世界冠军球队——“一场发挥好是偶然,到第四场就不是偶然了”。

  阎鹤祥的解释更通俗。他讲了自己小学考试没考好、跟班主任辩解“是没发挥好,不是实力不行”的往事,老师回了一句:“临场发挥不好,就是你实力不行的一部分。”所以,能让阿根廷发挥不好,本身就是佛得角发挥好的证明。

  唯一站到另一边的是本期新加入的刘建宏。他用一个从老一辈教练那里学来的粤语词概括这场比赛:“扮猪吃老虎”。

  按照他的比喻,阿根廷以为自己面对的是一头猪,眼睛里已经是一盘盘红烧肉,没想到面具撕下来,可能是一头豹子。他还引了一句外电评论:“1:0之后,阿根廷就认为自己可以躺在浴缸里休息了。”

  刘建宏这期的身份很微妙:他接替张踩铃坐进“AI先行者”席位,本人正在做的事业就是AI Sport。但他开场说的一段话,可能是这档节目开播以来对AI最清醒的一次祛魅。

  “AI预测的成功率跟人类差不了多少,都是追求大概率事件。唯一预测不了的就是冷门,如果能预测到冷门,它就不是AI了,那是神。”

  他接着说:“不了解AI的人认为AI什么都能干,真正了解AI的人知道,AI在很多领域可能连几岁孩子的能力都不如。”以当天早晨阿根廷对佛得角的比赛为例,AI无法预知阿根廷球员上场时的心理状态,“这个只有上了场你才能看到”。

  这段话把《人机大战》这档节目的边界说清楚了:AI可以提高判断效率,但它不是预言机器;它擅长大概率,却天然害怕小概率;它能处理数据,却很难实时获取球员心理、临场紧张和团队情绪这些变量。

  刘建宏还顺手给出了一个预判。他说,世界杯这出戏,小组赛总显得特别混乱,“感觉世界要变天了”;到淘汰赛踢着踢着,又会回到原有秩序。他把这称为秩序的回归,而在秩序回归的过程中,押注混乱的一方会被甩下车。

  随后两场1/8决赛也在赛场上验证了这一点。摩洛哥3:1击败加拿大,法国1:0战胜巴拉圭,晋级的仍然是更成熟、更稳定的一方。加拿大和巴拉圭此前都已经完成了足够动人的世界杯叙事,但进入更深一轮淘汰赛后,比赛开始重新奖励控制力、经验和临场效率。刘建宏说的“秩序回归”,不是强队一定大胜,而是越往后走,偶然性越要让位于持续性。

  按照赛制,12个AI在淘汰赛阶段清零重计,1/16决赛结束后仅前9名晋级。讯飞星火、腾讯混元、Kimi三个模型排名垫底,正式出局,不再参与后续人机大战。

  有嘉宾当场表示意外——腾讯混元在小组赛32强预测中曾押中29个,一度是准确率最高的模型之一。但清零重计的规则不认老本。场上总结出一句糙理不糙的规律:“猜冷门死得早。”曾经最爱反向押注的阶跃星辰,反而因为中途回归大概率算法而幸存。

  在剩余模型中,中移九天、千问继续位居前列,联想天禧AI紧随其后。相比“神预测”,这些靠前模型更像是靠连续命中大概率事件稳住位置,这种稳定性本身就是一种能力。

  当然,这不是严格意义上的模型能力排名。几场球的样本远不足以评判模型强弱。但作为一个公共场景下的预测实验,它很直观地展示了不同模型的风险偏好,以及淘汰机制真正惩罚的东西:不是“错”,而是“不稳定”。

  足球预测里,偶尔押中一次冷门很耀眼,但在淘汰赛机制下,持续站在更高概率的一边,往往更能活到下一轮。

  这和现实中的AI应用并不遥远。很多时候,外界期待AI给出惊艳答案,但真正能够长期进入产业和用户场景的,未必是最会冒险的模型,而是最稳定、最可解释、最能持续降低错误率的系统。

  结算完毕,阎鹤祥与孙继海以1900脑力值并列垫底,进入“降级区”。投票前的自救陈词环节,两人都拿出了硬证据。

  阎鹤祥的逻辑几乎无法反驳:“有一场比赛,12个AI全错了,只有我猜对了佛得角——如果我是人机,必须按AI的选项预测,所以我肯定是人。”

  孙继海则打出身份牌:“这还是一个关于足球的节目吧?在场所有人只有我踢过世界杯,你留着他干嘛?”

  投票前,节目还处理了一笔横跨数期的脑力值债务:徐志胜、阎鹤祥、张踩铃、刘建宏和孙继海被卷进同一张账本,借款、展期、坏账、债务减免在直播间被即兴谈判。

  投票结果几乎一边倒:孙继海所代表的“热爱至上族”席位被淘汰。大屏回顾历任预言家时,照片多到翻页才放得下——从苏醒到徐志胜,再到张路,“日光族”的外号名不虚传。

  孙继海的告别发言颇有职业球员的体面:“他们的选择很有目的性,就是把最强的选走了。就像我第一次参加世界杯,对方把我铲倒了一样——它是个策略。”随后身份揭晓:孙继海不是人机,卧底仍潜伏在剩下的五人当中。

  他把剩余的1900脑力值全部赠予了自己当年开疆拓土的“硬核实力派”席位,然后离场。

  然后,不到几分钟,他作为补位嘉宾走了回来——被淘汰的是席位,不是人。孙继海以自由身返场,现场“竞拍”归属,最终加入阎鹤祥的阵营,条件只有一个:“如果我们的预测有分歧,以我的为准。”

  《人机大战》进入淘汰阶段后不再只是每晚猜三场球,而是把嘉宾关系、脑力值策略、身份悬念和真实赛果绑到一起。每一次出局,都会改变下一期的结构。

  来自河南商丘的用户小高,从淘汰赛开始保持胜平负预测16连胜,是节目披露的唯一百分之百胜率用户。他连续两晚获得节目连线,也连续两晚获得联想昭阳笔记本电脑奖励;前一晚他给出的三场预测,赛后方向全部命中,以至于韩乔生当晚预测时被拍到手机备忘录里记的全是“小高说的比分”。

  被问到秘诀,小高的回答很平实:“现在AI很发达,我平常会用中移九天、联想天禧查资料,看看比赛、看各队状态,结合AI给的资料综合分析判断。”

  《人机大战》的框架是“人类vs AI”,但场外真正的胜者,既不是纯粹的直觉派,也不是任何一个AI模型,而是一个把AI当研究工具的普通人。

  这也让“人机大战”的名字出现了一个有趣的反讽:真正跑在前面的,不是拒绝AI的人,也不是单个AI,而是一个把AI纳入自己判断流程的人。AI在这里不是对手,而是信息处理工具;人类的价值也不是凭直觉硬猜,而是在AI给出的资料、比赛状态和个人理解之间做二次判断。

  节目披露,截至7月3日,“世界杯预测人机大战”参与人数已达2743万,AI阵营整体胜率仍以约5个百分点领先人类。但小高的16连胜说明,这个差距对于会使用工具的个体而言,完全可以被逆转。这显示,AI进入日常判断之后,人与工具之间的关系正在变化。

  而摩洛哥和法国的晋级,也让小高预测方式的价值更容易被理解:真正难的不是永远押冷门,也不是盲目相信热门,而是在每一轮比赛里重新判断,什么时候该相信概率,什么时候该给变量留位置。

  1/8决赛之后,五个人类席位只留四个,九个AI只留六个;半决赛时,双方各剩三席,同桌对决,而潜伏至今的人机卧底依然没有暴露。

  作为FIFA官方技术合作伙伴,联想集团通过联想天禧AI超级智能体联动12大主流AI,并与咪咕共同搭建“世界杯预测人机大战”及《人机大战:谁是世界杯预言家》。它表面上是在制造“人类vs AI”的对抗,实际上更像是在展示一种新的日常关系:AI不是替人做决定,而是帮助人做出更好的判断。

  这也是这档节目比比分竞猜走得更远的地方。世界杯仍然会有佛得角这样的意外,也会有法国晋级这样的秩序回归;而在这些不确定性之间,真正跑出来的,可能不是某一个模型,也不是纯粹凭直觉的人,而是会使用AI的人。

电话:

400-123-4567

邮箱:

admin@youweb.com

地址:

广东省广州市天河区某某工业区88号

Copyright © 2012-202X 某某公司 版权所有 非商用版本    备案号:粤ICP备xxxxxxxx号