9.11和9.8比谁大? 阿里通义临时“改口”,多家仍显示错误

新浪科技讯 7月17日下午消息,有消息称多家大模型在9.11和9.9谁大这个简单的数学问题上回答错误,称9.11大于9.9或大于9.8。新浪科技实测发现,阿里通义千问被曝光出现错误后火速“改口”;Chatgpt4、豆包、百川智能、Kimi、商汤商量仍然错误;讯飞星火、元宝则一直正确。

1. 阿里通义千问此前判断9.11大于9.8,今日经新浪科技实测发现,通义已经“改口”,认为9.8大于9.11。

2. ChatGPT4.0一直坚持错误答案。

3. 豆包在被曝光前后都提供了9.11大于9.9的错误答案。

4. 百川智能仍然坚持错误答案,称9.11大于9.8或9.9。

5. Kimi不但坚持错误答案,甚至答非所问把9.11识别成了9.91。对此,Kimi开发公司月之暗面回应表示:“其实我们人类对大模型的能力探索――无论是大模型能做到什么,还是大模型做不到什么――都还处于非常早期的阶段。我们非常期待用户在使用中能够发现和报告更多的边界案例(Corner Case),不管是最近的‘9.9和9.11哪个大、13.8和13.11哪个大’,还是之前的‘strawberry有几个r’,这些边界案例的发现,有助于我们增加对大模型能力边界的了解。”

6. 商汤商量仍然错误。

7. 讯飞星火一直保持着正确。

8. 元宝一直正确,并给出了竞品打错的原因。其表示,9.9实际上比9.11大。这个看似简单的问题,却难倒了许多AI大模型,包括GPT-4o和Claude、3.5 Sonnet等。

它认为,AI大模型回答错误的原因有两方面,一方面是Tokenization误解,即一些AI模型在处理小数时,由于Tokenization的方法,错误地认为小数点后的数字具有不同的权重,导致它们认为11大于9148。另一点是对小数点后的数字处理不当,AI模型在比较小数大小时,未能正确理解小数点后数字的相对大小,错误地认为9.11大于9.9。


(责任编辑:王治强 HF013)

为您推荐

本周盘点(7.15-7.19):古井贡酒周涨4.06%,主力资金合计净流入3085.08万元

本周盘点(7.15-7.19):古井贡酒周涨4.06%,主力资金合计净流入3085.08万元

资金流向数据方面,本周古井贡酒主力资金合计净流入3085.08万元,游资资金合计净流入5050.53万元,散户资金合计净...

2024-08-27
Insta360创始人刘靖康再发声:积极沟通变更或撤回IPO计划

Insta360创始人刘靖康再发声:积极沟通变更或撤回IPO计划

凤凰网科技讯 8月15日,运动相机品牌Insta360创始人刘靖康吐槽未获得IPO批文一事又有新进展,今日,其在朋友圈又...

2024-08-23
A股午评:指数窄幅震荡沪指涨0.09%,猴痘概念拉升,AI眼镜概念股强势!超3000股下跌,成交3706亿;机构解读

A股午评:指数窄幅震荡沪指涨0.09%,猴痘概念拉升,AI眼镜概念股强势!超3000股下跌,成交3706亿;机构解读

8月16日消息,。板块方面,AI眼镜概念股延续强势,联合光电(300691)、格林精密、思泰克20cm涨停;消费电子概...

2024-08-20
中证龙头企业核心竞争力50指数报2322.23点,前十大权重包含阳光电源等

中证龙头企业核心竞争力50指数报2322.23点,前十大权重包含阳光电源等

数据统计显示,中证龙头企业核心竞争力50指数近一个月下跌4.18%,近三个月下跌4.41%,年至今下跌1.41%。 据了...

2024-08-17
5.5G来了! 月费399元“吓退”用户,群嘲“大可不必” | BUG

5.5G来了! 月费399元“吓退”用户,群嘲“大可不必” | BUG

文 | 新浪科技 张俊 最近,多地运营商推出了5G-A体验套餐,不过因相对高昂的价格遭到众多消费者吐槽――套餐月费起点...

2024-08-15

当前非电脑浏览器正常宽度,请使用移动设备访问本站!