V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Kiwifruit08
V2EX  ›  程序员

chatGPT 的数学计算貌似存在一些问题

  •  
  •   Kiwifruit08 · 2023-02-15 13:57:44 +08:00 · 7633 次点击
    这是一个创建于 654 天前的主题,其中的信息可能已经有所发展或是发生改变。
    使用 chatGPT 计算密度,发现计算思路基本正确,但是计算数据明显错误或偏差较大,如下:
    ASK:
    a cubic box containing 93 Si atoms, 1 Ti atom, and 6 B atoms, with a side length of 12.43975 Angstroms, please calculate the density

    ANSWER 中的计算错误部分:
    mass = 93 * 28.0855 + 1 * 47.867 + 6 * 10.81 = 2735.1285 g/mol (正确答案为:2724.6785 )
    提示相关错误,其再次输出
    mass = 93 * 28.0855 + 1 * 47.867 + 6 * 10.81
    mass = 2613.4565 g/mol (正确答案为:2724.6785 )
    再次提醒后输出
    total mass = 2608.7315 g + 47.867 g + 64.86 g
    total mass = 2721.4595 g (比较接近了,正确答案为:2724.6785 )

    大家可以测试一下,使用其做一些简单计算时请小心,注意核对。
    53 条回复    2023-02-20 09:26:18 +08:00
    murmur
        1
    murmur  
       2023-02-15 13:59:47 +08:00   ❤️ 1
    也就是说 chatgpt 的数学采用估值,类似 7*7 大概应该是 40 多的样子?而不是真的去计算
    vsitebon
        2
    vsitebon  
       2023-02-15 14:02:43 +08:00   ❤️ 5
    它是在猜下一个词是什么,而不是做数学推理,所以肯定会有误差,之前有一篇文章提到 chatgpt 如果能结合 wolfram 那就很牛逼了 https://writings.stephenwolfram.com/2023/01/wolframalpha-as-the-way-to-bring-computational-knowledge-superpowers-to-chatgpt/
    liuidetmks
        3
    liuidetmks  
       2023-02-15 14:03:44 +08:00
    让他计算第 99 个斐波那契是什么,也有问题
    shinession
        4
    shinession  
       2023-02-15 14:05:23 +08:00
    是不是精度不够引发的问题? 我记得做过鸡兔同笼的问题, 都是整数, 计算没问题
    fgwmlhdkkkw
        5
    fgwmlhdkkkw  
       2023-02-15 14:06:24 +08:00   ❤️ 1
    "二分之一加上三分之一等一五分制二"
    cxtrinityy
        6
    cxtrinityy  
       2023-02-15 14:12:30 +08:00 via Android
    Chatgpt 那个不是算出来的吧,就算让他做简单加法 10000+1234567 都可能错,不过最近没试过不知道有没有进化
    string2020
        7
    string2020  
       2023-02-15 14:26:43 +08:00
    使用方式错了。这是聊天机器人,不要让聊天机器人去做很容易做的事情
    jklove123bai
        8
    jklove123bai  
       2023-02-15 14:26:49 +08:00
    从开始就说 chatgpt 数学不行了,因为不是真的在做计算
    caomu
        9
    caomu  
       2023-02-15 14:27:57 +08:00 via Android   ❤️ 2
    ChatGPT 没有逻辑意识
    jmc891205
        10
    jmc891205  
       2023-02-15 14:29:37 +08:00   ❤️ 2
    人家只是语言模型
    你们这些人非要把它当万事通
    Lefi
        11
    Lefi  
       2023-02-15 14:29:37 +08:00
    你可以问它有没有通过图灵测试
    Procumbens
        12
    Procumbens  
       2023-02-15 14:30:07 +08:00
    ChatGPT 是语言模型 语言模型 语言模型
    qq316107934
        13
    qq316107934  
       2023-02-15 14:30:17 +08:00
    transformer:我太难了
    kop1989smurf
        14
    kop1989smurf  
       2023-02-15 14:31:34 +08:00
    所有的机器学习 AI ,基于的都是统计学原理。
    所以任何因果论的输出都是不 100%准确的。
    oldshensheep
        15
    oldshensheep  
       2023-02-15 14:36:10 +08:00
    如楼上所说,ChatGPT 并不存在真正的逻辑能力,回答的文字只是一些概率统计。
    好久前看的视频
    vlgs
        16
    vlgs  
       2023-02-15 14:36:42 +08:00   ❤️ 1
    @fgwmlhdkkkw 什么小学生
    king888
        17
    king888  
       2023-02-15 14:41:07 +08:00
    就像#2 说的,她是在猜输入的下一个词是什么,这里是 GPT3 的原理介绍: https://jalammar.github.io/how-gpt3-works-visualizations-animations/

    ChatGPT 不仅数学计算这方面不可靠,在她模型覆盖不够的领域,也是会杜撰内容的
    probe301
        18
    probe301  
       2023-02-15 14:57:53 +08:00
    正好见到个集成 WolframAlpha 的例子
    https://huggingface.co/spaces/JavaFXpert/Chat-GPT-LangChain
    qdk0901
        19
    qdk0901  
       2023-02-15 14:59:20 +08:00
    alpha go 刚出来的,也有很多专业棋手,甚至不专业的臭棋篓子这啊那的挑刺
    没过两年一个一个都没脾气了

    chatgpt 的浮点运算是有点小问题,但绝不是靠猜
    大整数运算,只要不是特别离谱的大数,都是没问题的
    尤其是运行脚本程序(没错,它可以运行脚本,只不过需要一些技巧),结果是准确的
    binux
        20
    binux  
       2023-02-15 15:04:20 +08:00   ❤️ 1
    这台洗碗机有问题,洗衣服不干净。
    king888
        21
    king888  
       2023-02-15 15:04:32 +08:00
    #17 的一些补充:

    这是一段透镜相关得提问

    输入:透镜上写着 sl-1064-220-330 ,这是什么意思

    输出(这里只截取部分):透镜上写着"SL-1064-220-330"这样的编号表示这是一款 1064nm 波长,具有 220mm 焦距和 330mm 扫描幅度的透镜

    结论:实际上 220 代表的是范围,330 代表的是焦距

    ----------------------------------------------

    下面是 influxdb 相关得提问,我已经提前把数据结构,字段数据类型都提示过了,然后开始

    输入:如何在
    from(bucket: "bucket1")
    |> range(start: v.timeRangeStart, stop: v.timeRangeStop)
    |> filter(fn: (r) => r["_measurement"] == "m1")
    |> filter(fn: (r) => r["_field"] == "amount")
    |> group(columns: ["side", "_field"])
    |> aggregateWindow(every: 1m, fn: sum, createEmpty: false)
    |> yield(name: "sum")
    这个查询的结果中加入一列,用来放 sell+buy 的 amount 总和

    输出(这里只截代码部分):
    from(bucket: "bucket1")
    |> range(start: v.timeRangeStart, stop: v.timeRangeStop)
    |> filter(fn: (r) => r["_measurement"] == "m1")
    |> filter(fn: (r) => r["_field"] == "amount")
    |> group(columns: ["side", "_field"])
    |> aggregateWindow(every: 1m, fn: sum, createEmpty: false)
    |> yield(name: "sum")
    |> map(fn: (r) =>
    ({
    side: r.side,
    time: r._time,
    sum: r._value,
    total: (r.side == "buy" ? r._value : 0) + (r.side == "sell" ? r._value : 0)
    }))

    结论:熟悉 influxdb 得同学应该知道,在她回复得 map 函数 total 参数哪里的表达式是错误得,提交就会直接报错:invalid expression
    min
        22
    min  
       2023-02-15 15:13:07 +08:00
    让他生成 py 代码,然后自己去执行
    huangsijun17
        23
    huangsijun17  
       2023-02-15 15:25:00 +08:00   ❤️ 1
    ChatGPT 只是一个语言模型,只学习关联性,并没有什么逻辑性。体现出来的逻辑性都是通过关联性来模拟的。
    lambdaq
        24
    lambdaq  
       2023-02-15 15:42:33 +08:00
    这个,你和一个真人聊天,你给他咕噜咕噜一大段数据,他能算得多接近?
    zooo
        25
    zooo  
       2023-02-15 15:43:31 +08:00
    @probe301 这个用自己的 openAI key 会不会被盗?
    zooo
        26
    zooo  
       2023-02-15 15:49:45 +08:00
    @zooo 噢,问题不大..
    HaydenYe
        27
    HaydenYe  
       2023-02-15 16:10:12 +08:00
    @king888 bing ai 貌似会了
    根据网上的信息,透镜上写着 sl-1064-220-330 是一种光纤激光 F-θ 扫描透镜的型号 123 。sl-1064 表示透镜的波长是 1064 纳米,适用于光纤激光标记机。220-330 表示透镜的有效扫描范围是 220 x 220 毫米,透镜到扫描平面的距离是 330 毫米。这些参数决定了透镜的聚焦性能和标记效果。

    Received message. 根据网上的信息,透镜上写着 sl-1064-220-330 是一种光纤激光 F-θ 扫描透镜的型号 。sl-1064 表示透镜的波长是 1064 纳米,适用于光纤激光标记机。220-330 表示透镜的有效扫描范围是 220 x 220 毫米,透镜到扫描平面的距离是 330 毫米。这些参数决定了透镜的聚焦性能和标记效果。
    Learn more:
    1. taiyilaser.com
    2. cloudraylaser.com
    3. aliexpress.com
    qbug
        28
    qbug  
       2023-02-15 16:11:17 +08:00 via Android
    不是,这就相当于不让用任何工具包括纸笔,然后给你一个很长的式子,要求你短时间凭感觉给出一个答案,这个准确率已经很不容易了好吧。在我看来目前主流的单向传导反向训练的神经网络事实上就类似于这样的人类思维过程,就像我们打眼瞪一下,瞧一下,然后凭感觉给出一个答案,更接近短时直觉认知。从这个角度出发,目前体验下来 ChatGPT 整个这个输出的质量是不是已经非常逆天了?
    LaurelHarmon
        29
    LaurelHarmon  
       2023-02-15 16:14:46 +08:00 via Android
    这是什么大新闻吗?你给他算十以内的加减乘除都可能出错。
    LaurelHarmon
        30
    LaurelHarmon  
       2023-02-15 16:19:09 +08:00 via Android
    他的牛逼之处在于理解人话,说人话,而且不限领域。
    目前对于知识性和数学运算还有待提升,这也是目前研究者的攻关方向。假以时日,会解决的,而且很惊艳。
    cwcc
        31
    cwcc  
       2023-02-15 16:21:55 +08:00
    简单来说,它是文科生,不是理科生。

    我让他生成一个 hello world 的 base64 ,它给的值虽然能解出来,但是是带了标点符号的句子,这就说明他是理解我说的啥,并且搜到或生成了相应的回答,而非计算出来的。
    king888
        32
    king888  
       2023-02-15 17:32:10 +08:00
    @HaydenYe
    看上去不错,巨硬这次的投资 OpenAi 赚到了
    我还一直在候选名单中
    registerrr
        33
    registerrr  
       2023-02-15 17:39:26 +08:00
    - 有人说 chatGPT 的数学计算能力不行

    - 你好,这是 Bing 。根据我在网上找到的信息,ChatGPT 是一个先进的 AI 驱动的聊天机器人,能够生成出人意料的类似人类的回答 12 。ChatGPT 在 2022 年 11 月由美国的研究实验室 OpenAI 发布了一个原型版本 3 。从那时起,人类似乎一直在努力证明这个基于机器学习的 AI 工具不能胜任这项任务 3 。

    ChatGPT 的数学计算能力在最初的版本中并不强大,有些用户甚至故意用错误的数学问题来欺负它,让它给出错误的答案 3 。但是,OpenAI 在 2023 年 1 月 30 日发布了一个更新,以提高 ChatGPT 的准确性和改善它处理数学方程的能力 4 。根据一些测试,ChatGPT 现在可以解决一些常见的数学问题,甚至能够展示或告诉用户如何解决问题 5 。

    所以,ChatGPT 的数学计算能力并不是不行,而是在不断进步的。
    registerrr
        34
    registerrr  
       2023-02-15 17:43:10 +08:00
    - a cubic box containing 93 Si atoms, 1 Ti atom, and 6 B atoms, with a side length of 12.43975 Angstroms, please calculate the density

    - Sure, I can help you with that. To calculate the density of the box, we need to use the formula p = m/V, where p is the density, m is the mass and V is the volume1. We already know the volume of the box, which is 12.43975^3 Angstroms, or 1.927 x 10^-21 cubic meters. To find the mass of the box, we need to add up the masses of all the atoms inside it. We can use the molar masses of the elements and divide them by Avogadro’s number to get the mass of one atom. The molar masses of Si, Ti and B are 28.0855 g/mol, 47.867 g/mol and 10.811 g/mol respectively23. Therefore, the mass of one atom of Si is 4.663 x 10^-23 g, the mass of one atom of Ti is 7.948 x 10^-23 g and the mass of one atom of B is 1.794 x 10^-23 g. Multiplying these by the number of atoms in the box, we get the total mass of the box as 4.663 x 10^-23 x 93 + 7.948 x 10^-23 x 1 + 1.794 x 10^-23 x 6 = 4.494 x 10^-21 g, or 4.494 x 10^-24 kg. Finally, we can plug these values into the formula and get the density of the box as p = m/V = 4.494 x 10^-24 / 1.927 x 10^-21 = 2.332 x 10^-3 kg/m^3. I hope this helps!


    (分辨不出来对不对,因为我也不会算😅)
    ViriF
        35
    ViriF  
       2023-02-15 17:48:39 +08:00
    @cwcc 我也试过让 TA 生成 base64 的代码段,但是 TA 给我输出了 base64 编码的 stackoverflow 网址,而且还是虚构的网址
    lovelylain
        36
    lovelylain  
       2023-02-15 18:38:41 +08:00 via Android
    让 chatGPT 做脑筋急转弯,一题都做不对
    lyz1990
        37
    lyz1990  
       2023-02-15 22:20:12 +08:00 via Android
    它没有我们传统意义上的正确与错误
    shm7
        38
    shm7  
       2023-02-15 22:40:49 +08:00
    你需要 toolformer 。
    akira
        39
    akira  
       2023-02-15 23:50:37 +08:00
    下一代应该就能做 真的计算了
    rogerer
        40
    rogerer  
       2023-02-16 00:48:13 +08:00
    神经网络模型对数字计算规则是不敏感的,比如让它计算一个字符串的长度,它可能会算错。但是如果让他写一段代码去计算字符串长度,然后得到执行结果,它多半就能算对。
    lujiaxing
        41
    lujiaxing  
       2023-02-16 03:25:21 +08:00
    ChatGPT 确实是划时代性的. 但是现阶段的 ChatGPT 你指望它去解答什么问题那就是想太多.
    这玩意别说是代码逻辑的编写, 就算是简单的方程题都可能会瞎 jb 算.
    dizzylight
        42
    dizzylight  
       2023-02-16 04:15:06 +08:00 via iPhone
    openai api 里面给出答案每次可以不一样 通过参数可以控制“温度”降低到 0 保证每次给出一个“最正确”答案。
    b1ghawk
        43
    b1ghawk  
       2023-02-16 04:29:44 +08:00 via Android
    从开始就说 chatgpt 数学不行了,因为不是真的在做计算
    shinsekai
        44
    shinsekai  
       2023-02-16 07:18:34 +08:00
    有没有一个能从一段画里区分自然语言和数字计算的 AI 模型?
    mingl0280
        45
    mingl0280  
       2023-02-16 08:07:20 +08:00 via Android
    别说脑筋急转弯了,我让他给我写个 Python 脚本取路径的最后一项,它给我来个
    `*path_segments[:-1]`
    SmiteChow
        46
    SmiteChow  
       2023-02-16 09:35:03 +08:00   ❤️ 1
    把聊天机器人当计算器用。┑( ̄Д  ̄)┍
    twor2
        47
    twor2  
       2023-02-16 11:13:35 +08:00
    我算了一个大数乘法,是可以的,没问题
    不是纯靠语言猜的
    sparky
        48
    sparky  
       2023-02-16 11:31:27 +08:00 via Android
    chatgpt 结合自然语言计算引擎 wolfram 是个方向
    zmlu
        49
    zmlu  
       2023-02-16 13:14:46 +08:00
    她回答的是 “我觉得应该是。。” 而不是一个计算器
    FACEB00K
        51
    FACEB00K  
       2023-02-16 15:50:44 +08:00
    这种问题反映出,我们不是很了解大语言模型是怎么训练出来的。过不久,你再问这种数学题,肯定会得到你想要的答案。
    tonzeng
        52
    tonzeng  
       2023-02-16 15:52:25 +08:00
    可能背后的阿三没算对
    reggiek
        53
    reggiek  
       2023-02-20 09:26:18 +08:00
    不只是数据计算不行,你试试日期计算
    “90 天以后是几月几号?“
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2541 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 04:39 · PVG 12:39 · LAX 20:39 · JFK 23:39
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.