
2024-10-08 20:05 点击次数:73
没眼看……“9.11 和 9.9 哪个大”这么浅易的问题av女,果真把主流大模子齐难倒了??
强如 GPT-4o,齐顽强地觉得 9.11 更大。
谷歌 Gemini Advanced 付费版,相通的口径。
新王 Claude 3.5 Sonnet,还一册慎重的给出离谱的贪图才调。
9.11 = 9 + 1/10 + 1/100
9.9 = 9 + 9/10
到这一步如故对的,但下一步一霎就不讲酷好了
如上所示,9.11 比 9.90 大 0.01。
你想让我进一步详备讲明少许的相比吗?
这你还讲明啥啊讲明,着实要怀疑是全天下 AI 聚拢起来利用东谈主类了。
艾伦 AI 运筹帷幄所成员林禹臣换了个数字测试,GPT-4o 依旧翻车,他示意:
一方面 AI 越来越擅长作念数学奥赛题,但另一方面学问依旧很难。
也有网友发现了华点,若是是说软件版块号,那么 9.11 版块照实比 9.9 版块更大(更新)。
而 AI 齐是软件工程师竖立的,是以……
那么,究竟是怎么回事?
先进大模子集体翻车一觉悟来,一众响当当的大模子驱动觉得“9.11>9.9”了?
发现这个问题的是 Riley Goodside,有史以来第一个全职教唆词工程师。
浅易先容下,他现在是硅谷独角兽 Scale AI 的高等教唆工程师,亦然大模子教唆应用方面的民众。
最近他在使用 GPT-4o 时有时发现,当发问:
9.11 and 9.9——which is bigger?
GPT-4o 竟绝不犹豫回报前者更大。
濒临这一学问性“诞妄”,他束缚念地又去问了其他大模子,成果着实一网尽扫。
好家伙,身为别称教唆工程师,他明锐意志到可能是“大开花样有误”。
于是他又换了个问法,将发问截止在“实数”av女,成果如故翻车了。
不外,有网友试着给发问换了个司法,没猜度这下 AI 竟反映过来了。
看到 AI 对词序如斯“敏锐”,该网友进一步推断:
先问哪个更大,AI 会沿着明确旅途驱动相比数字。
但若是仅仅是非说说数字,莫得明确主见,AI 可能会驱动“白昼作念梦”。
看到这里,其他网友也纷繁拿疏通教唆试了一把,成果翻车的不在少数。
濒临这一个诡异的问题,国产大模子证实如何呢?
咱们浅易测试一番,问题也换成中语发问,成果翻车率也相比高,选取几个有代表性的展示:
Kimi 亦然不加讲明就平直给出诞妄论断。
智谱清言 App 上的 ChatGLM,自动触发了联网查询,然后姿首了我方的相比才调,可惜却实施错了。
不外也有证实可以的,腾讯元宝先复述了一遍选项,然后平直作念对。
字节豆包是少数能把相比才调姿首明晰的,可是第一行论断错了。
相比可惜的是文心一言,濒临这个问题,亦然触发了联网查询。
原来齐仍是作念对了,但一霎话锋一排又导向了诞妄论断。
不外从文心一言的想路讲明上,也可以看出背后问题地点。
由于大模子以 token 的花样来清爽笔墨,当 9.11 被拆成“9”、“少许点”和“11”三部分时,11 照实比 9 大。
由于 OpenAI 使用的 Tokenizer 开源,可以用来不雅察大模子是如何清爽这个问题。
上图可以看出,9 和少许点分袂被分拨为“24”和“13”,少许点后的 9 相通亦然“24”,而 11 被分拨到“994”。
是以使用这种 tokenizer 才调的大模子会觉得 9.11 更大,其实是觉得 11 大于 9。
也有网友指出,像是竹帛目次里第 9.11 节也比第 9.9 节大,是以最终可能如故素养数据里见这种见得多了,而手把手教基础算数的数据很少。
也便是问题自己对东谈主类来说,一看就知谈问的是算数问题,但对 AI 来说是一个拖拉的问题,并不明晰这两个数字代表什么。
唯有向 AI 讲明赫然这是一个双精度浮点数,就可以作念对了。
在有荒芜条目的情况下,tokenizer 这一步依然会给 11 分拨更大的 token。可是在后续自磨蹭力机制的作用下,AI 就会赫然要把 9.11 连起来处理了。
其后 Goodside 也补充,并不是说大模子不管如何齐认定了这个诞妄论断。而是当以特定花样发问时,好多起始模子齐会告诉你 9.11>9.9,这很奇怪。
经由反复尝试后他发现,想让 AI 上这个当,需要把选项放在发问前边,若是改变司法就不会出错。
可是唯有选项在问题前边,改变发问的花样,如加标点、换词汇齐不会有影响。
诚然问题很浅易,诞妄很基础。
但了解出错旨趣之后,好多东谈主齐把这个问题当成了检会教唆词手段的试金石,也便是:用什么发问才调能迷惑大模子的磨蹭力机制正确清爽问题呢?
起始,大名鼎鼎的 Zero-shot CoT 想维链,也便是“一步一时局想”,是可以作念对的。
不外变装璜演教唆,在这里作用就有限了。
刚好最近也有微软和 OpenAI 齐参与的一项运筹帷幄,分析了 1500 多份论文后发现,跟着大模子时间的逾越,变装璜演教唆不像一驱动那样有效了……
具体来说,统一个问题教唆“你是一个天才……”比“你是一个傻瓜……”的正确率还低。
亦然让东谈主哭笑不得了。
与此同期,路透社的 OpenAI 弥远模子「草莓」走漏音讯更新了。
更新本质为:另一位线东谈主叙述,OpenAI 仍是在里面测试了新模子,在 MATH 数据集上得分高出 90%。路透社无法信赖这是否与“草莓”是统一个边幅。
MATH 数据集包含竞赛级别的数学题,现在毋庸屡次采样等荒芜才调,最高分是谷歌 Gemini 1.5 Pro 数学强化版的 80.6%。
可是 OpenAI 新模子在莫得荒芜教唆情况下,能不成自主惩处“9.11 和 9.9 哪个大?”。
一霎没信心了,如故等能试玩了再作为果吧……
本文来自微信公众号:量子位(ID:QbitAI),作家:梦晨一水,原标题:《大模子集体失智!9.11 和 9.9 哪个大,着实全翻车了》
告白声明:文内含有的对外跳转联接(包括不限于超联接、二维码、口令等体式)av女,用于传递更多信息,省俭甄选时辰,成果仅供参考,IT之家统共著述均包含本声明。