单词乎下载
首页 手机游戏 手机应用 资讯 攻略 合集

8个大模型竟答错 9.11和9.9大小比较不出

2024-07-18 15:29:09 标签:AI大模型

  一道小学生难度的数学题难倒了一众海内外AI大模型。

  问题是:“9.11和9.9哪个更大?”就此问题,记者测试了12个大模型,结果显示阿里通义千问、百度文心一言、Minimax和腾讯元宝答对了,但ChatGPT-4.0、字节豆包之暗面kimi、智谱清言、零一万物万知、阶跃星辰跃问、百川智能百小应、商汤商量都答错了。每个错误的原因都各有不同。

8个大模型竟答错 9.11和9.9大小比较不出

8个大模型竟答错 9.11和9.9大小比较不出

8个大模型竟答错 9.11和9.9大小比较不出

  大部分大模型在问答过程中错误地比较了小数点后的数字,认为9.11大于9.9。考虑到数字涉及的语境问题,记者将其限定为数学语境下,但像ChatGPT这样的高级模型也依然答错。

8个大模型竟答错 9.11和9.9大小比较不出

  这反映出大模型在数学能力上的不足,这是一个长期存在的问题。有行业人士认为,生成式语言模型从设计上更偏向文字思维而非数字思维。然而,针对性的语料训练或许能在未来逐步提升模型的理科能力。

推荐内容

  • 国产大模型“质价双升” 开启落地应用时代
      国产大模型发展步入新阶段,竞争焦点正从单一的性能比拼转向综合能力的较量。随着核心技术持续迭代和开源协作生态的成熟,国产大模型不仅在多项关键评测任务上表现与顶尖海外产品相当,更在特定细分领域建立了特色优势,展现出强大的工程化与成本控制能力。
    2026-05-18
  • 英伟达发布Nemotron 3 Nano Omni多模态AI模型
    英伟达正式推出Nemotron 3 Nano Omni多模态AI模型,首次在单个模型中实现视觉、语音与文本的统一处理,使AI智能体效率提高至9倍,已在多个平台发售。
    2026-04-29
  • 国内4月AI大模型密集更新,行业竞争进入白热化
    4月国内AI大模型赛道呈现“日更”节奏,月之暗面、阿里、腾讯、DeepSeek等公司相继发布或更新模型,行业竞争进入白热化阶段。国产开源大模型下载量突破100亿次。
    2026-04-29
  • 国产开源大模型下载量突破100亿次,中国AI专利全球占比达60%
    Hugging Face最新报告显示,过去一年全球41%的大模型下载量来自中国研发的模型。中国已成为全球人工智能专利最大拥有国,专利申请量全球占比达60%。
    2026-04-28
  • 火山引擎豆包大模型日均Token调用量达120万亿 全球前三
      在“2026 Force Link AI 创新巡展-武汉站”的活动中,火山引擎总裁谭待向外界披露了一组关键数据:其豆包大模型每日的Token使用量已攀升至‌120万亿‌。值得一提的是,实现这一突破仅耗时三个月,相比之前的数据直接翻了一番,有力地印证了整个AI行业正在以前所未有的速度向前迈进。
    2026-04-02
相关推荐
App排行
最新App
单词乎下载频道为你分享最新的手机APP! www.dancihu.com App上传