av女大模子集体“失智”：9.11 和 9.9 哪个大，着实全翻车了

game show 少女自慰

你的位置：漫展偷拍 > 少女自慰 > av女大模子集体“失智”：9.11 和 9.9 哪个大，着实全翻车了

2024-10-08 20:05 点击次数：73

av女大模子集体“失智”：9.11 和 9.9 哪个大，着实全翻车了

没眼看……“9.11 和 9.9 哪个大”这么浅易的问题av女，果真把主流大模子齐难倒了？？

强如 GPT-4o，齐顽强地觉得 9.11 更大。

大模子集体“失智”：9.11 和 9.9 哪个大，着实全翻车了

谷歌 Gemini Advanced 付费版，相通的口径。

大模子集体“失智”：9.11 和 9.9 哪个大，着实全翻车了

新王 Claude 3.5 Sonnet，还一册慎重的给出离谱的贪图才调。

大模子集体“失智”：9.11 和 9.9 哪个大，着实全翻车了

9.11 = 9 + 1/10 + 1/100

9.9 = 9 + 9/10

到这一步如故对的，但下一步一霎就不讲酷好了

如上所示，9.11 比 9.90 大 0.01。

你想让我进一步详备讲明少许的相比吗？

大模子集体“失智”：9.11 和 9.9 哪个大，着实全翻车了

这你还讲明啥啊讲明，着实要怀疑是全天下 AI 聚拢起来利用东谈主类了。

大模子集体“失智”：9.11 和 9.9 哪个大，着实全翻车了

艾伦 AI 运筹帷幄所成员林禹臣换了个数字测试，GPT-4o 依旧翻车，他示意：

一方面 AI 越来越擅长作念数学奥赛题，但另一方面学问依旧很难。

大模子集体“失智”：9.11 和 9.9 哪个大，着实全翻车了

也有网友发现了华点，若是是说软件版块号，那么 9.11 版块照实比 9.9 版块更大（更新）。

而 AI 齐是软件工程师竖立的，是以……

大模子集体“失智”：9.11 和 9.9 哪个大，着实全翻车了

那么，究竟是怎么回事？

先进大模子集体翻车

一觉悟来，一众响当当的大模子驱动觉得“9.11>9.9”了？

发现这个问题的是 Riley Goodside，有史以来第一个全职教唆词工程师。

浅易先容下，他现在是硅谷独角兽 Scale AI 的高等教唆工程师，亦然大模子教唆应用方面的民众。

大模子集体“失智”：9.11 和 9.9 哪个大，着实全翻车了

最近他在使用 GPT-4o 时有时发现，当发问：

9.11 and 9.9——which is bigger?

GPT-4o 竟绝不犹豫回报前者更大。

濒临这一学问性“诞妄”，他束缚念地又去问了其他大模子，成果着实一网尽扫。

好家伙，身为别称教唆工程师，他明锐意志到可能是“大开花样有误”。

于是他又换了个问法，将发问截止在“实数”av女，成果如故翻车了。

大模子集体“失智”：9.11 和 9.9 哪个大，着实全翻车了

不外，有网友试着给发问换了个司法，没猜度这下 AI 竟反映过来了。

大模子集体“失智”：9.11 和 9.9 哪个大，着实全翻车了

看到 AI 对词序如斯“敏锐”，该网友进一步推断：

先问哪个更大，AI 会沿着明确旅途驱动相比数字。

但若是仅仅是非说说数字，莫得明确主见，AI 可能会驱动“白昼作念梦”。

大模子集体“失智”：9.11 和 9.9 哪个大，着实全翻车了

看到这里，其他网友也纷繁拿疏通教唆试了一把，成果翻车的不在少数。

大模子集体“失智”：9.11 和 9.9 哪个大，着实全翻车了

濒临这一个诡异的问题，国产大模子证实如何呢？

咱们浅易测试一番，问题也换成中语发问，成果翻车率也相比高，选取几个有代表性的展示：

Kimi 亦然不加讲明就平直给出诞妄论断。

大模子集体“失智”：9.11 和 9.9 哪个大，着实全翻车了

智谱清言 App 上的 ChatGLM，自动触发了联网查询，然后姿首了我方的相比才调，可惜却实施错了。

大模子集体“失智”：9.11 和 9.9 哪个大，着实全翻车了

不外也有证实可以的，腾讯元宝先复述了一遍选项，然后平直作念对。

大模子集体“失智”：9.11 和 9.9 哪个大，着实全翻车了

字节豆包是少数能把相比才调姿首明晰的，可是第一行论断错了。

大模子集体“失智”：9.11 和 9.9 哪个大，着实全翻车了

相比可惜的是文心一言，濒临这个问题，亦然触发了联网查询。

大模子集体“失智”：9.11 和 9.9 哪个大，着实全翻车了

原来齐仍是作念对了，但一霎话锋一排又导向了诞妄论断。

大模子集体“失智”：9.11 和 9.9 哪个大，着实全翻车了

不外从文心一言的想路讲明上，也可以看出背后问题地点。

由于大模子以 token 的花样来清爽笔墨，当 9.11 被拆成“9”、“少许点”和“11”三部分时，11 照实比 9 大。

由于 OpenAI 使用的 Tokenizer 开源，可以用来不雅察大模子是如何清爽这个问题。

大模子集体“失智”：9.11 和 9.9 哪个大，着实全翻车了

上图可以看出，9 和少许点分袂被分拨为“24”和“13”，少许点后的 9 相通亦然“24”，而 11 被分拨到“994”。

是以使用这种 tokenizer 才调的大模子会觉得 9.11 更大，其实是觉得 11 大于 9。

也有网友指出，像是竹帛目次里第 9.11 节也比第 9.9 节大，是以最终可能如故素养数据里见这种见得多了，而手把手教基础算数的数据很少。

也便是问题自己对东谈主类来说，一看就知谈问的是算数问题，但对 AI 来说是一个拖拉的问题，并不明晰这两个数字代表什么。

唯有向 AI 讲明赫然这是一个双精度浮点数，就可以作念对了。

大模子集体“失智”：9.11 和 9.9 哪个大，着实全翻车了

在有荒芜条目的情况下，tokenizer 这一步依然会给 11 分拨更大的 token。可是在后续自磨蹭力机制的作用下，AI 就会赫然要把 9.11 连起来处理了。

大模子集体“失智”：9.11 和 9.9 哪个大，着实全翻车了

其后 Goodside 也补充，并不是说大模子不管如何齐认定了这个诞妄论断。而是当以特定花样发问时，好多起始模子齐会告诉你 9.11>9.9，这很奇怪。

大模子集体“失智”：9.11 和 9.9 哪个大，着实全翻车了

经由反复尝试后他发现，想让 AI 上这个当，需要把选项放在发问前边，若是改变司法就不会出错。

可是唯有选项在问题前边，改变发问的花样，如加标点、换词汇齐不会有影响。

大模子集体“失智”：9.11 和 9.9 哪个大，着实全翻车了

诚然问题很浅易，诞妄很基础。

但了解出错旨趣之后，好多东谈主齐把这个问题当成了检会教唆词手段的试金石，也便是：用什么发问才调能迷惑大模子的磨蹭力机制正确清爽问题呢？

起始，大名鼎鼎的 Zero-shot CoT 想维链，也便是“一步一时局想”，是可以作念对的。

大模子集体“失智”：9.11 和 9.9 哪个大，着实全翻车了

不外变装璜演教唆，在这里作用就有限了。

大模子集体“失智”：9.11 和 9.9 哪个大，着实全翻车了

刚好最近也有微软和 OpenAI 齐参与的一项运筹帷幄，分析了 1500 多份论文后发现，跟着大模子时间的逾越，变装璜演教唆不像一驱动那样有效了……

大模子集体“失智”：9.11 和 9.9 哪个大，着实全翻车了

具体来说，统一个问题教唆“你是一个天才……”比“你是一个傻瓜……”的正确率还低。

亦然让东谈主哭笑不得了。

大模子集体“失智”：9.11 和 9.9 哪个大，着实全翻车了

One More Thing

与此同期，路透社的 OpenAI 弥远模子「草莓」走漏音讯更新了。

大模子集体“失智”：9.11 和 9.9 哪个大，着实全翻车了

更新本质为：另一位线东谈主叙述，OpenAI 仍是在里面测试了新模子，在 MATH 数据集上得分高出 90%。路透社无法信赖这是否与“草莓”是统一个边幅。

大模子集体“失智”：9.11 和 9.9 哪个大，着实全翻车了

MATH 数据集包含竞赛级别的数学题，现在毋庸屡次采样等荒芜才调，最高分是谷歌 Gemini 1.5 Pro 数学强化版的 80.6%。

大模子集体“失智”：9.11 和 9.9 哪个大，着实全翻车了

巨臀av

可是 OpenAI 新模子在莫得荒芜教唆情况下，能不成自主惩处“9.11 和 9.9 哪个大？”。

一霎没信心了，如故等能试玩了再作为果吧……

本文来自微信公众号：量子位（ID：QbitAI），作家：梦晨一水，原标题：《大模子集体失智！9.11 和 9.9 哪个大，着实全翻车了》

告白声明：文内含有的对外跳转联接（包括不限于超联接、二维码、口令等体式）av女，用于传递更多信息，省俭甄选时辰，成果仅供参考，IT之家统共著述均包含本声明。

上一篇：av女香港汉文大学官网更新海外生苦求时候！|招生|本科|苦求者|登第见告

下一篇：age 动漫颱風天搶菜！他曝好市多「1款高麗菜」口感怪　過來东谈主揭真相

友情链接：