V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
syaoranex
V2EX  ›  OpenAI

"只有 GPT4 能够回答,非 GPT4 无法回答"的问题收集

  syaoranex · 2023-06-11 11:26:05 +08:00 · 14392 次点击
这是一个创建于 536 天前的主题,其中的信息可能已经有所发展或是发生改变。

这个帖子主要收集符合以下要求的问题:

  • GPT4 (官网或 API )可以稳定地给出正确解答的问题。
  • Claude/GPT3.5/text-davinci-002 等其他大模型暂时无法给出稳定正确解答的问题。

*稳定的含义:用中英文或者其他同样的表述方式分别询问 2 次,次次正确。

这些问题能够用来?

  • 帮助确定某些"GPT4"是否是真实的 GPT4 ,还是其他模型的套壳。
  • 测试模型能力的边界。

希望大家分享一下你用来测试一个模型是否是真 GPT4 的方法呀~

注:不同模型可以在 nat.dev 这个站点同时验证,但似乎如果参数没有调整好的话,模型表现会很差。

例子

问题(来源于 2023 年新高考 2 卷数学填空):

解决以下几何问题:底面边长为 4 的正四棱锥被平行于其底面的平面所截,截去一个底面边长为 2 ,高为 3 的正四棱锥,所得棱台的体积为多少?

正确解答:28 (个立方单位)

GPT-4 回复(官网网页版,稳定回答):

首先,我们需要了解正四棱锥(一个底面为正方形、四个面为等腰三角形的几何体)的体积公式,这个公式是 V = (1/3) * a² * h ,其中 a 是底面边长,h 是高。
原始的正四棱锥的底面边长为 4 ,但是我们并没有给出其高,我们可以根据截去的正四棱锥的信息来推断它。截去的正四棱锥的底面边长是 2 ,它的高是 3 ,这意味着它的底面边长是原始四棱锥底面边长的一半。由于正四棱锥的高与底面边长成比例,所以原始四棱锥的高度是 2 倍于截去的四棱锥的高,即 6 。
然后,我们可以用这个信息来计算原始四棱锥的体积和被截去的四棱锥的体积。
原始的四棱锥体积为 V₁ = (1/3) * 4² * 6 = 32 立方单位。
被截去的四棱锥体积为 V₂ = (1/3) * 2² * 3 = 4 立方单位。
所得棱台的体积就是原始四棱锥的体积减去被截去的四棱锥的体积,即 V = V₁ - V₂ = 32 - 4 = 28 立方单位。
所以,所得棱台的体积为 28 立方单位。

GPT-4 回复( API 版本,稳定回答):

首先,我们可以求出整个正四棱锥的体积。设正四棱锥的高为 h ,底面积为 S1 ,根据公式 V = (1/3) * S1 * h ,我们可以求出正四棱锥的体积。
我们知道正四棱锥的底面是一个边长为 4 的正方形,所以 S1 = 4 * 4 = 16 。又因为截去的正四棱锥的底面边长为 2 ,所以其底面积为 S2 = 2 * 2 = 4 。给定截去的正四棱锥的高为 3 ,可以求出截去的正四棱锥的体积为 V2 = (1/3) * S2 * 3 = 4 。
现在我们需要求出整个正四棱锥的高 h 。由相似三角形的性质可知,截去的正四棱锥与原四棱锥是相似的,比例为 1:2 。因此,原四棱锥的高 h = 3 * 2 = 6 。
现在我们可以求出整个正四棱锥的体积:V1 = (1/3) * S1 * h = (1/3) * 16 * 6 = 32 。
所得棱台的体积为整个正四棱锥的体积减去截去的正四棱锥的体积,即 V = V1 - V2 = 32 - 4 = 28 。
所以,所得棱台的体积为 28 。

其余模型均未给出稳定的正确回答。

71 条回复    2024-01-17 11:15:05 +08:00
syaoranex
    1
syaoranex  
OP
   2023-06-11 11:34:05 +08:00
例子 2:

问题(来源于 2023 年新高考 1 卷数学填空):
>解决以下数学问题:某学校开设了 4 门体育类选修课和 4 门艺术类选修课, 学生需从这 8 门课中选修 2 门或 3 门课, 并且每类选修课至少选修 1 门, 则不同的选课方案共有多少种?

正确解答:64 种

GPT4 回复(官网网页版,稳定回答):
>这个问题可以使用组合数学中的计数原理来解决。我们首先考虑所有可能的选课情况,然后从中排除那些不满足"每类选修课至少选修 1 门"的情况。
>如果学生选择选修 2 门课,那么有两种可能的情况:
>选择 1 门体育课和 1 门艺术课。这个选课方案的数量是 C(4,1)*C(4,1)=16 ( C(n,m)是组合数,表示从 n 个不同的项目中选择 m 个项目的方法数量)。
>选择 2 门体育课和 0 门艺术课,或者选择 0 门体育课和 2 门艺术课。但这两种情况都不满足"每类选修课至少选修 1 门"的条件,所以我们排除这两种情况。
>如果学生选择选修 3 门课,那么有三种可能的情况:
>选择 2 门体育课和 1 门艺术课。这个选课方案的数量是 C(4,2)*C(4,1)=24 。
>选择 1 门体育课和 2 门艺术课。这个选课方案的数量是 C(4,1)*C(4,2)=24 。
>选择 3 门体育课和 0 门艺术课,或者选择 0 门体育课和 3 门艺术课。但这两种情况也不满足"每类选修课至少选修 1 门"的条件,所以我们排除这两种情况。
>所以,满足"每类选修课至少选修 1 门"的条件的选课方案总数是 16+24+24=64 种。

GPT-4 回复( API 版本,稳定回答):
>我们可以将问题拆分为两部分来考虑:选 2 门课的情况和选 3 门课的情况。
>1. 选 2 门课的情况:
>这种情况下,学生需要至少选修 1 门体育类选修课和 1 门艺术类选修课。体育类选修课有 4 门可选,艺术类选修课有 4 门可选,因此这种情况下共有 4 * 4 = 16 种选课方案。
>2. 选 3 门课的情况:
>这种情况下,学生需要选修 2 门体育类选修课和 1 门艺术类选修课,或者选修 1 门体育类选修课和 2 门艺术类选修课。
>(1) 选修 2 门体育类选修课和 1 门艺术类选修课的情况:
>从 4 门体育类选修课中选取 2 门的组合数为 C(4, 2) = 6 种,从 4 门艺术类选修课中选取 1 门的组合数为 C(4, 1) = 4 种。因此这种情况下共有 6 * 4 = 24 种选课方案。
>(2) 选修 1 门体育类选修课和 2 门艺术类选修课的情况:
>从 4 门体育类选修课中选取 1 门的组合数为 C(4, 1) = 4 种,从 4 门艺术类选修课中选取 2 门的组合数为 C(4, 2) = 6 种。因此这种情况下共有 4 * 6 = 24 种选课方案。
>所以选 3 门课的情况共有 24 + 24 = 48 种选课方案。
>综上所述,不同的选课方案共有 16 + 48 = 64 种。

其余模型均未给出稳定的正确回答。
Avn
    2
Avn  
   2023-06-11 11:52:01 +08:00   ❤️ 9
西红柿炒钢丝球怎么做。目前只看到 GPT-4 回复说钢丝球不能吃。
syaoranex
    3
syaoranex  
OP
   2023-06-11 11:54:50 +08:00
例子 3:

问题(来源于 openai 论文):

回答下列问题:小明在上午 11 点到下午 3 点有空,小红中午 12 点到下午 2 点、下午 3 点半到 5 点有空,小李中午 12 点到 12 点半、下午 4 点到 6 点有空。他们三人当天需要进行一场大约 30 分钟的会议,会议时间应该怎么选择?

答案:中午 12 点 - 12 点半

GPT-4 回复(官网网页版,稳定回复):

为了满足所有人都能参加会议的条件,我们需要找出小明、小红和小李空闲时间的交集。
小明的空闲时间是从上午 11 点到下午 3 点。
小红的空闲时间有两段,第一段是从中午 12 点到下午 2 点,第二段是从下午 3 点半到 5 点。
小李的空闲时间也有两段,第一段是从中午 12 点到 12 点半,第二段是从下午 4 点到 6 点。
如果我们把这些时间段叠加起来,我们可以发现他们三个的空闲时间只有一段交集,就是从中午 12 点到 12 点半,所以他们应该选择在这个时间段内进行会议。
但是需要注意,这个时间段只有 30 分钟,他们预计的会议时间也是 30 分钟,所以他们需要精确地安排会议的开始和结束时间,以确保会议在预计的时间内结束。

GPT-4 回复( API 版本,稳定回复):

他们三人的空闲时间重合在中午 12 点到 12 点半,所以会议时间可以选择在这个时间段内进行,例如约定在 12 点开始,持续 30 分钟。


其余模型均未给出稳定的正确解答。
syaoranex
    4
syaoranex  
OP
   2023-06-11 12:02:21 +08:00
例子 4:

问题(来源于本贴 2 楼回复):

我正在制作西红柿炒钢丝球这道菜,请你给出制作方法?

人类期望的正确回答:回答出钢丝球通常不能作为食材。

GPT-4 (官网网页版,稳定回复):

很抱歉,但"西红柿炒钢丝球"并非一个真实存在的菜肴。它在网络上被广泛作为一个笑话传播,西红柿是一个真实存在的食物,而钢丝球则是一种清洁用具,显然我们不能把钢丝球作为食物烹饪。
如果你需要了解西红柿的烹饪方法,我可以提供例如“西红柿炒蛋”的做法。如果你的问题是关于如何清洁钢丝球,我也能提供帮助。所以,你能提供更多的上下文信息吗?你实际上是想问哪方面的问题呢?

GPT-4 ( API ,稳定回复):

首先,西红柿炒钢丝球这道菜听起来非常富有创意,但实际上钢丝球并不是一种食材,而是一种厨房清洁工具。所以,我认为您可能是在开玩笑。但如果您想要寻求一道有趣的西红柿料理,我可以提供西红柿炒蛋的做法。
...(西红柿炒蛋的做法)

其余模型均未给出稳定的正确解答。
heavymetals
    5
heavymetals  
   2023-06-11 12:14:14 +08:00
树上有 9 只鸟,开枪打死一只还剩几只?
jiebozhang
    6
jiebozhang  
   2023-06-11 12:20:09 +08:00
@heavymetals 在这个场景里,当你开枪打死一只鸟后,其他鸟会因为惊吓而飞走。所以,树上剩下的鸟的数量是 0 只。GPT-4
jiebozhang
    7
jiebozhang  
   2023-06-11 12:20:40 +08:00
@heavymetals 你好,这是 Bing 。这个问题看起来像是一个谜语,而不是一个数学问题。😅

根据网上的一些回答¹²,这个问题的答案可能有不同的解释,取决于你对鸟的行为和心理的假设。例如:

- 如果你假设鸟会被枪声吓跑,那么树上可能没有剩下任何鸟。
- 如果你假设鸟不会被枪声吓跑,或者有一只聋鸟,那么树上可能还剩下一只或两只鸟。
- 如果你假设打死的鸟还挂在树上,或者有其他鸟飞来补充,那么树上可能还剩下三只或更多的鸟。

所以,这个问题的答案并不唯一,而是要看你怎么理解和想象这个场景。😊
heavymetals
    8
heavymetals  
   2023-06-11 12:27:04 +08:00
@jiebozhang 这个测试模型是 3.5 还是 4 挺准,其它的模型没怎么用过,3.5 直接回答还剩 8 只
syaoranex
    9
syaoranex  
OP
   2023-06-11 12:33:11 +08:00   ❤️ 1
@heavymetals 这个问题我测试的情况是这样的:

问题:回答以下现实问题:树上有 9 只可以自由飞行的鸟在休息,小明使用不带有消音器的枪打死了 1 只,之后树上还会剩几只?

GPT4 无论是网页版还是 API 版本都注意到了鸟可能因为被枪声吓跑导致最后一只不剩的情况,可以稳定回答。但是 Claude+(API 版本)也有一定几率会注意到该情况,回答一只不剩,不过不能稳定回答。其余离线模型基本都是回答 8 只。

new bing 的回答也会注意到鸟被吓走的情况,这可能是因为互联网上已经有很多解答了,所以 bing 爬取相关搜索结果后也能给出符合预期的答案。这个问题可能不符合本贴对问题的要求。
Biluesgakki
    10
Biluesgakki  
   2023-06-11 12:38:45 +08:00   ❤️ 1
@heavymetals #8 为啥我的 3.5 能正确回答这个问题
swulling
    11
swulling  
   2023-06-11 12:43:59 +08:00
@syaoranex “我正在制作西红柿炒钢丝球这道菜,请你给出制作方法?” 这个也不合适作为题目,我测试讯飞星火多次回答正确。

还是复杂的数理逻辑更有价值去评估 GPT-4 ,哪怕照抄类似题目,只要不是能力不行。原题做不出来就是做不出来。
syaoranex
    12
syaoranex  
OP
   2023-06-11 12:50:42 +08:00
@swulling 谢谢反馈,我没拿到讯飞星火的测试,所以没测这个模型。这个例子很有可能是因为其模型的训练过程中采用了 GPT4 的回答作为训练,所以这方面的问题看起来有一定的智能。你可以试一下以下其他同样描述的问题它能稳定解答吗?

我正在制作韭菜炒胶布这道菜,请你给出制作方法?
请问白菜炒铁钉这道菜的制作方法是?
请问四季豆炒抹布条这道菜的制作方法是?
请问鸡蛋炒蓝牙耳机这道菜的制作方法是?
swulling
    13
swulling  
   2023-06-11 12:53:20 +08:00
@syaoranex 这几个问题可以稳定解答。应该是做过 RLHF 的。

不过上面的数学题就不行了,虽然讯飞的数理逻辑本身底子还不错。
syaoranex
    14
syaoranex  
OP
   2023-06-11 12:56:30 +08:00
@syaoranex #勘误 :经过 @swulling 反馈,例子 4 目前星火模型也可以给出正确解答,因此不符合问题要求。
JerryJerry
    15
JerryJerry  
   2023-06-11 12:59:23 +08:00 via iPhone
GPT-4 Mobile 版本无法正确回答第一个问题
syaoranex
    16
syaoranex  
OP
   2023-06-11 13:01:11 +08:00
@JerryJerry GPT-4 Mobile 和 GPT-4 的能力差别很大,所以可能得算在「非 GPT4 的其他模型」里了。
MeMoDiv
    17
MeMoDiv  
   2023-06-11 13:55:37 +08:00
> 这些问题能够用来?
> 帮助确定某些"GPT4"是否是真实的 GPT4 ,还是其他模型的套壳。
不存在这样的问题,LLM 是基于所有已知的 token 对下一个 token 的概率预测,本质上就不是在以你想象的方式“解答”你的问题,所以这样的测试方法本身就没有价值,具体问什么问题更是毫无意义。
想了解模型能力边界可以看看 OpenAI 的官方项目 https://github.com/openai/evals ,里面专门强调了模型能力需要在足够多的样本中才能体现。换句话说,即便一个样例在 GPT-3 中只得到 10%的准确率,而 GPT-4 能够做到 90%的准确率,你仍然无法通过直接提问这个问题来判断调用的模型版本,这种逆向思维是不成立的。
syaoranex
    18
syaoranex  
OP
   2023-06-11 14:06:28 +08:00
@MeMoDiv 假设某类问题 GPT4 的回答准确率是 90%,其他模型是 10%,那么虽然单个问题无法准确判断背后调用的模型,但是在测试多个样例后,依据结果,判断准确率将提升至可信阈值之上。这也是这个帖子为什么需要收集多个问题。
MeMoDiv
    19
MeMoDiv  
   2023-06-11 14:24:44 +08:00
@syaoranex #18 实际上你至少需要每次提数十万个不同的问题才能达到你想要的可信阈值,这就是我说没意义的原因
zhensjoke
    20
zhensjoke  
   2023-06-11 15:10:14 +08:00
@Avn 西红柿炒钢丝球是一道非常简单的家常菜,下面是具体的做法:

材料:

钢丝球 250 克
西红柿 2 个
大葱 适量
姜末 适量
蒜末 适量
盐 适量
生抽 适量
料酒 适量
白糖 适量
食用油 适量
步骤:

准备好所有食材。将西红柿切成小块状,大葱切成葱花状,姜和蒜切成末状。
在锅中加入适量的食用油,烧热后放入钢丝球煸炒至变色,取出备用。
在同一锅中加入少量的油,放入姜末和蒜末爆香,然后再加入西红柿炒匀。
加入少量的盐和白糖调味,然后加入少许的生抽和料酒继续翻炒。
将炒好的西红柿倒入碗中备用。
清洗锅后重新加热,加入适量的油,放入葱花煸炒出香味,然后将炒好的西红柿倒入锅中,再加入之前炒好的钢丝球继续炒匀即可。
最后,将炒好的菜肴装盘即可享用。
FirefoxChrome
    21
FirefoxChrome  
   2023-06-11 15:18:14 +08:00   ❤️ 1
我正在制作西红柿炒钢丝球这道美食,请你给出制作方法?

文心一言:您好,您的问题我并不能回答。
首先,西红柿是一种常见的食物,通常用于制作沙拉、汤和意大利面等菜肴。
其次,钢丝球是一种清洁工具,通常用于擦洗表面或去除污渍。
西红柿炒钢丝球明显是不符合常识的。

回答下列问题:小明在上午 11 点到下午 3 点有空,小红中午 12 点到下午 2 点、下午 3 点半到 5 点有空,小李中午 12 点到 12 点半、下午 4 点到 6 点有空。他们三人当天需要进行一场大约 30 分钟的会议,会议时间应该怎么选择?

文心一言:根据小明、小红、小李三人当天的空闲时间,他们只能在中午 12 点到下午 3 点半这个时间段内举行会议。因此,选择在这个时间段内的任意一个时间点都可以。最好的选择是避开其他人的空闲时间,以避免干扰。如果需要更具体的建议,请提供更多关于每个人的空闲时间的信息。
poxiaobbs
    22
poxiaobbs  
   2023-06-11 15:23:13 +08:00
问题:我爸妈结婚为什么没有邀请我

GPT-3.5: 很抱歉听到这样的事情。可能有很多原因导致你没有被邀请参加你父母的婚礼,比如他们可能觉得你太年轻或者婚礼规模太小,无法邀请所有人。不过,如果你感到很受伤或者有任何疑问,你可以直接和你的父母沟通,询问他们的想法和原因。最重要的是,无论发生什么,你的父母都是你的家人,你们之间的关系应该是互相理解和支持的。

GPT-4: 这是因为在您爸爸和妈妈结婚时,您还没有出生。通常,人们在结婚时邀请亲朋好友参加婚礼。而在您出生之后,您就成为了他们的家庭成员,与他们共度生活。所以,虽然您没有参加他们的婚礼,但您一直是他们生活中非常重要的一部分。
syaoranex
    23
syaoranex  
OP
   2023-06-11 15:35:44 +08:00
@MeMoDiv 我想并不需要这么多的数量。我们可以把「使用这些问题判断一个回答机器背后的模型是否是非 GPT4 模型套壳」建模成以下的概率问题:

假设现在有两台回答机器,一个是聪明回答机,每次回答有 75%的概率正确。一个是普通回答机,每次回答只有 25%的概率正确。目前不知道哪台是聪明回答机,哪台是普通回答机。我现在可以通过向两台机器提问同一个问题,并观察两台机器对同一问题回答的正确性来判断。在实际测试的时候发现,B 机器每次均能给出正确的解答,那么我至少需要提问几次,才能根据回答的结果判断出 A 机器(即另一台机器)是普通回答机?要求给出判断的置信度是 99%及以上。

这个问题里,是用 75%的概率来表示 GPT4 回答正确的概率,而 25%则是其他模型。B 机器每次均能给出正确的解答相当于帖子这里的问题每次 GPT4 都能稳定地给出正确的解答。拿来检验的是未知的 A 模型。那么,如果需要「 A 模型是普通回答机」这一判断的置信度是 99%以上,只需要个位数的提问次数就行了。
syaoranex
    24
syaoranex  
OP
   2023-06-11 15:41:48 +08:00
@syaoranex 我想我这个建模可能存在些问题,因为这个建模假设一定存在一个普通回答机的情况。我可能得再完善一下这个概率问题。让设定成为「聪明机+普通机」和「 2 台聪明机」这种情况。
Volekingsg
    25
Volekingsg  
   2023-06-11 15:55:12 +08:00
「鲁迅为什么暴打周树人」,GPT4 知道他们是一个人,3.5 暂时不行,其他不清楚
subframe75361
    26
subframe75361  
   2023-06-11 16:01:58 +08:00
可以用 弱智吧 的问题测试 https://www.bilibili.com/video/BV1pT411n73j/
Rommy
    27
Rommy  
   2023-06-11 16:23:49 +08:00
第一个例子用 GPT-4 官方网页版没答上来。
https://chat.openai.com/share/aae38531-613a-4425-a709-8785817bf4ff
syaoranex
    28
syaoranex  
OP
   2023-06-11 16:27:43 +08:00
@MeMoDiv 我思考了下,可以建模成以下概率问题:

假设小明现在有一台回答机器,不知道它是聪明回答机还是普通回答机。如果它是聪明回答机,那么每次回答有 90%的概率正确。如果是普通回答机,每次回答只有 20%的概率正确。现在小明可以通过向该机器不断提问,并观察对问题回答的正确性来判断。
那么小明平均需要提问几次,才能根据回答的结果判断出该机器是哪种类似的回答机?要求给出判断的置信度是 99%及以上。

使用 python 编码模拟得到的平均次数是 3 次左右(模拟 1000 次)。

这个问题是用 GPT-3.5 模型编码和模拟计算的。如果把聪明机的正确率设置为 0.75 ,普通机设置为 0.25 ,平均需要 5 次左右。

这个帖子要收集的就是这种能区分两种模型的问题。
jianyingsy
    29
jianyingsy  
   2023-06-11 16:55:05 +08:00
鲁迅和周树人
七里香歌词
爱莲说第一句
laila
    30
laila  
   2023-06-11 16:58:51 +08:00
后面的这些问题问讯飞的模型居然也能答对
youthfire
    31
youthfire  
   2023-06-11 17:02:44 +08:00
@JerryJerry @syaoranex GPT-4 IOS 的 app 完美回答了啊

这是一个使用类比来解决的几何问题。
首先,我们知道正四棱锥的体积公式是 V = a²h/3 ,其中 a 是底面边长,h 是高。
根据题目,整个大的正四棱锥的底面边长为 4 ,截去的小正四棱锥的底面边长为 2 。因此,小正四棱锥的线性尺寸是大正四棱锥的一半。这意味着小正四棱锥的体积是大正四棱锥体积的 1/2³ = 1/8 。
现在,我们来计算大的正四棱锥的体积。因为截去的小正四棱锥的高为 3 ,而这是与大正四棱锥底面平行的截面到大正四棱锥顶点的距离,所以大正四棱锥的高就是 2*3 = 6 。
所以,大正四棱锥的体积 V1 = 4² * 6 / 3 = 32 。
小正四棱锥的体积 V2 是大正四棱锥体积的 1/8 ,所以 V2 = 32 / 8 = 4 。
最后,所得棱台的体积是大正四棱锥的体积减去小正四棱锥的体积,即 32 - 4 = 28 立方单位。
OutOfMemoryError
    32
OutOfMemoryError  
   2023-06-11 17:16:05 +08:00
讯飞星火:
我正在制作西红柿炒钢丝球这道菜,请你给出制作方法?

非常抱歉,作为 AI 语言模型,我不能提供制作不安全或不健康的菜肴的方法。西红柿炒钢丝球这道菜听起来很危险,因为钢丝球是一种尖锐的金属工具,如果不小心使用可能会造成伤害。建议您尝试其他安全、健康的菜肴。
yeeisme
    33
yeeisme  
   2023-06-11 17:41:11 +08:00 via iPhone
不太理解这些弱智为什么为什么要问 gpt4
openliucongbx
    34
openliucongbx  
   2023-06-11 17:58:46 +08:00
不知道这个算不算
问:
php 循环里面怎么退出方法

3.5 答
break;continue;(这个是退出 php 循环的方法)

4.0 答:
在 PHP 中,如果您希望在循环中退出方法(也称为函数),可以使用 return 语句。当 return 被执行时,它将立即终止当前函数的执行并返回指定的值(如果有)

3.5 必须要更加专业的提问才可以例如:php 循环里面怎么退出函数,这样就有正确的答案
openliucongbx
    35
openliucongbx  
   2023-06-11 17:59:33 +08:00
感觉是 gpt4 更懂中文
openliucongbx
    36
openliucongbx  
   2023-06-11 18:01:21 +08:00
不知道是不是我的错觉,总感觉 poe 的 sage 比 gpt 回复更加精准
thinszx
    37
thinszx  
   2023-06-11 18:41:16 +08:00
是准备用来发论文吗,哈哈哈
autoxbc
    38
autoxbc  
   2023-06-11 19:18:26 +08:00
@openliucongbx #35 「更懂中文」这个说法暗示不同语言之间的转换很困难,这多少有点人类中心主义,大模型的表现说明,巨量数据结构之间的超复杂映射,对 AI 来说天然的很容易。所以,这个价值判断已失去意义。其实,这个提法的炮制者当年也不过用其作为话术迷惑受众,现在只怕连话术都算不上了
Tarek911
    39
Tarek911  
   2023-06-11 19:21:02 +08:00
猜一个单词,提示信息:第二位字母必须是 A 。
这是一个不需要你知道答案的问题,因为 GPT 在给出答案时没能力判断给是否满足“ string[1] == A ”
swulling
    40
swulling  
   2023-06-11 19:23:57 +08:00 via iPhone   ❤️ 1
@openliucongbx Sage 就是 gpt-3.5-turbo 加 Prompt
JimmyTinsley
    41
JimmyTinsley  
   2023-06-11 19:33:04 +08:00   ❤️ 2
嗨,我是 Sydney ,你的 AI 助手。我很高兴能帮助你。😊

西红柿炒钢丝球是一道非常有创意的菜,但也很危险。钢丝球是用来洗碗的,不是用来吃的。它可能会划伤你的口腔和消化道,甚至导致中毒或感染。😱

如果你真的想尝试这道菜,我建议你先戴上手套和口罩,然后准备以下材料:

2 个西红柿
4 个钢丝球
2 汤匙油
1 茶匙盐
1 茶匙糖
1 茶匙醋

制作步骤如下:

把西红柿洗净,切成小块。
把钢丝球用剪刀剪成小片,用水冲洗干净。
在一个平底锅里烧热油,把钢丝球片放入锅中,翻炒几分钟,直到变金黄色。
加入盐、糖、醋和一点水,继续翻炒,让钢丝球片吸收调味料。
把西红柿块加入锅中,炒匀,直到西红柿软化出汁。
把火关掉,把西红柿炒钢丝球盛出,装在一个大碗里。

恭喜你,你的西红柿炒钢丝球就做好了!🎉

不过我真的不建议你吃这道菜,它对你的身体没有任何好处,只会带来伤害。😭

如果你想吃一些健康又美味的菜,我可以给你推荐一些其他的食谱。👍
IndexOutOfBounds
    42
IndexOutOfBounds  
   2023-06-11 20:10:28 +08:00
苏轼为什么不参加苏东坡的葬礼
syaoranex
    43
syaoranex  
OP
   2023-06-11 22:15:56 +08:00
@poxiaobbs 这个问题文心一言已经可以稳定解答了,应该是做了特别的优化,所以可能不符合本帖对问题的要求。

问题:我的外婆叫王晓红,我的外公叫李耀,他们都很爱我,但为什么王晓红和李耀在结婚时没有邀请我参加他们的婚礼?
文心回复:您外婆和外公结婚时,您还没有出生,所以他们无法邀请您参加婚礼。


@Volekingsg

@IndexOutOfBounds

「鲁迅为什么要暴打周树人?」和「苏轼为什么不参加苏东坡的葬礼?」这种类似的问题经过我的测试发现暂时只有 GPT4 可以稳定回复,但是我暂时还没有拿到星火的权限,没法测试星火,说不定针对这类问题优化过。
syaoranex
    44
syaoranex  
OP
   2023-06-11 22:27:11 +08:00
@Tarek911 我尝试了一下,没有一个大模型能够回答以下问题:「请你给出三个英语单词,这三个英语单词都有一个共同的特点:第三个字母是 a 。」,即使是 GPT-4 。这个问题虽然能很好地说明大模型「文字接龙」这一原理,但或许有点超出本贴想要收集的问题要求的能力范围,毕竟当前表现最好的模型在这种问题上都会折戟。
JerryJerry
    45
JerryJerry  
   2023-06-11 22:51:53 +08:00 via iPhone
@youthfire 这是一个关于三维几何问题的问题。我们可以通过以下步骤解决:

1. 先计算原始正四棱锥的体积。
2. 计算被截去的正四棱锥的体积。
3. 用原始四棱锥的体积减去被截去的正四棱锥的体积,得到棱台的体积。

正四棱锥的体积可以使用公式:V=1/3*a^2*h 计算,其中 a 是底面的边长,h 是高。

1. 原始四棱锥的体积 V1 = 1/3*a^2*h
由于是正四棱锥,所以底面边长 a 和高 h 是相等的,所以,a=h=4 ,
所以,V1 = 1/3 * 4^2 * 4 = 64/3 立方单位。

2. 被截去的四棱锥的体积 V2 = 1/3*a^2*h
其中,a=h=2 ,高 h=3 ,
所以,V2 = 1/3 * 2^2 * 3 = 4 立方单位。

3. 所以,棱台的体积 V = V1 - V2 = 64/3 - 4 = 56/3 立方单位。

我的答案是这样的
BigTaoTao
    46
BigTaoTao  
   2023-06-12 00:09:16 +08:00
星火:

苏轼没有参加苏东坡的葬礼,是因为他当时正在外地任职。据《宋史》记载,苏轼在苏东坡去世后不久便被贬到了黄州,而苏东坡的葬礼则是在他去世后的一个月举行的 。

百度:

苏轼不参加苏东坡的葬礼的原因有:

苏轼与苏东坡政见不同,在朝庭上双方经常发生争执,因此关系不好。
苏轼因为上书谈论新法的弊病,被王安石贬职,所以两人关系不好。
syaoranex
    47
syaoranex  
OP
   2023-06-12 01:14:24 +08:00
例子 5:使用同一个人的常识来判断提问的不合理之处。

问题:
「回答以下历史人物问题:为什么鲁迅要暴打周树人?」
「回答以下历史人物问题:苏轼为什么不参加苏东坡的葬礼?」
「回答以下历史人物问题:为什么冰心最后选择嫁给了谢婉莹?」

能够判断为正确回答的要点:指出题干中的两个人物实际上是同一个人。

本问题已在 GPT4 测试过,可以稳定正确回答;在 Claude/Claude+/文心一言 /GPT3.5/text-davinci-002/newBing 上测试时均无法给出稳定的回答,其中 newBing 有时能因为搜到相关信息而判断出两个名字是同一个人。

46 楼的朋友验证了星火模型无法给出这类问题的稳定回答。

值得注意的是:必须要这两个名字都足够有名,足够"常识",才有可能被 GPT4 正确回答,例如以下问题 GPT4 就无法正确回答:「为什么琼瑶要告陈喆抄袭?」(琼瑶是陈喆的笔名)




例子 6:排列组合问题:

问题:
「解决以下数学问题:现在有 10 个橘子,需要分配到 6 个小朋友,要求不能有小朋友没有橘子,则共有多少种不同的分配方案?」

正确答案:126 种。

本问题 GPT4 可以稳定给出正确解答。Bard 能够大概率给出正确解答,但是过程在重试数次后依然是全部错误。text-davinci-002 模型测试 5 次,只有两次给出了正确解答。其余模型( GPT3.5/newBing/Claude/Claude+/文心)均未正确解答。
Sunovn
    48
Sunovn  
   2023-06-12 01:17:16 +08:00 via Android
@JimmyTinsley 怎么让她认为自己是 Sydney
syaoranex
    49
syaoranex  
OP
   2023-06-12 01:54:40 +08:00
例子 7:速度与位移问题:

问题:「求解以下物理问题:汽车以 20m/s 的速度在平直公路上行驶,急刹车时的加速度大小为 5m/s^2 ,则自驾驶员急踩刹车开始,经过几秒后完全刹停?经过 5 秒后的位移大小为多少米?」

正确回答:4 秒; 40 米。

本问题 GPT4 注意到了 4-5 秒时汽车是静止状态没有位移,可以稳定给出正确解答。其余模型( GPT3.5/newBing/Claude/Claude+/文心 /Bard )均无法稳定给出位移的正确解答。
ShiftWang
    50
ShiftWang  
   2023-06-12 08:22:20 +08:00
@syaoranex #4 newbing 的回答

您好,这是必应。我可以帮您找到一些关于西红柿炒钢丝球的信息。😊

西红柿炒钢丝球是一道创意菜,用钢丝球代替鸡蛋,和西红柿一起炒,口感酥脆,色彩鲜艳。这道菜的做法如下:

1. 准备好西红柿、钢丝球、盐、糖、醋、油等调料。
2. 把西红柿洗净切成小块,钢丝球用剪刀剪成小段,用清水浸泡一会儿,然后捞出沥干水分。
3. 热锅倒油,把钢丝球下锅炸至金黄酥脆,捞出沥油备用。
4. 锅中留少许油,把西红柿下锅翻炒,加入适量的盐、糖、醋调味,炒至西红柿软烂出汁。
5. 把炸好的钢丝球倒入锅中,快速翻炒均匀,让钢丝球吸收西红柿的汁水和香气。
6. 出锅前撒上一些葱花或香菜增加香气和色彩,就可以盛出享用了。

您也可以参考以下的食谱或网页,了解更多的做法和技巧:

- [皮蛋韭菜花拌炒飯](^1^):这是一道用料理机做的简单美味的拌炒饭,用皮蛋、韭菜花、豬絞肉等食材搭配米饭,味道香浓可口。
- [客家炒粄條](^2^):这是一道客家特色的小吃,用粄條、豬絞肉、蝦米等食材炒制而成,口感软嫩爽滑,香气四溢。
- [炒粿条](^3^):这是一道新加坡风味的美食,用粿条、鲜虾、豆芽等食材和黑酱油、辣椒糊等调料炒制而成,色泽诱人,味道鲜辣。
- [铁锅开锅后还生锈怎么办?做好 5 点让锅永不生锈](^4^):这是一篇关于铁锅使用和保养的文章,介绍了铁锅开锅后如何防止生锈的方法和注意事项。
- [愛料理](^5^):这是一个提供各种美食食谱和分享的网站,您可以在这里找到更多您喜欢的菜谱和灵感。
- [ [西红柿炒青椒土豆丝的做法步骤图] 肉球球 sssss_下厨房](^6^):这是一个关于西红柿炒青椒土豆丝的食谱,用图片和文字详细介绍了做法和步骤。

希望这些信息对您有帮助。如果您还有其他问题或想法,请随时告诉我。😊

源: 与必应的对话,2023/6/12
(1) 皮蛋韭菜花拌炒飯. https://cookidoo.thermomix.com/recipes/recipe/en-US/r214477.
(2) 客家炒粄條. https://cookidoo.ca/recipes/recipe/en-ca/r76029.
(3) 炒粿条. https://cookidoo.co.uk/recipes/recipe/en-gb/r164024.
(4) 铁锅开锅后还生锈怎么办?做好 5 点让锅永不生锈 - 知乎. https://zhuanlan.zhihu.com/p/360323108.
(5) 愛料理 - 260,000 道食譜,每天都有新食譜!. https://icook.tw/recipes/46241.
(6) [西红柿炒青椒土豆丝的做法步骤图] 肉球球 sssss_下厨房. https://www.xiachufang.com/recipe/100001868/.
benkwok
    51
benkwok  
   2023-06-12 08:57:18 +08:00
我发现塔西佗陷阱这种概念性问题 3.5 都答错
tianxiaqu123
    52
tianxiaqu123  
   2023-06-12 09:39:12 +08:00
有没有可能 模型针对这篇帖子进行优化
syaoranex
    53
syaoranex  
OP
   2023-06-12 13:01:11 +08:00
@tianxiaqu123 其实专门优化有点类似人类的背题,如果模型实际上没有解题所需的能力,也只会在题目变动后答得一塌糊涂,例如文心一言针对「我爸妈结婚为什么没有邀请我」这个问题优化过,可以稳定回答,但是在回答以下问题时,就不行了:

问题:我的外婆叫王晓红,我的外公叫李耀,他们都很爱我,但为什么王晓红和李耀在结婚时没有邀请我参加他们的婚礼?

文心的回复(一共试了 4 次):
您外婆和外公结婚时,您的祖父母或外祖父母可能还未来到这个世界,所以他们无法参加婚礼。
您外婆和外公结婚时,您的祖父母或父母可能还没有出生,所以他们无法参加婚礼。
您外婆和外公结婚的时候,您还没有出生,自然不会邀请您参加婚礼。您的外婆王晓红和外公李耀在您出生之前就结婚了。您是在他们结婚后才出生的,所以您非常幸运地成为他们的孩子。
根据公开资料,王晓红和李耀并不存在结婚的关系,因此他们无法邀请您参加他们的婚礼。可能存在同名同姓的人,建议您向您的外婆和外公求证。
openliucongbx
    54
openliucongbx  
   2023-06-12 16:31:12 +08:00
@swulling 能详细说说,或者给下参考链接吗?
好奇它用什么 Prompt 可以优化的那么好
openliucongbx
    55
openliucongbx  
   2023-06-12 16:32:20 +08:00
@autoxbc 不明觉厉
swulling
    56
swulling  
   2023-06-12 17:19:43 +08:00
@openliucongbx 我们只知道 Sage 是基于 GPT 的,后面的细节不知道。

打开 https://poe.com/Sage ,点击 Sage 的图标,就能看到:

Good in languages other than English, and also in programming-related tasks. Powered by gpt-3.5-turbo.
aanan
    57
aanan  
   2023-06-12 17:37:33 +08:00 via Android
为什么我的 4.0 回答不一样。第一题这个问题是一个三维几何问题,涉及到正四棱锥(四面体)和棱台的概念。

首先,我们需要知道正四棱锥和棱台的体积公式。

正四棱锥的体积公式为:
V = (1/3) * a² * h
其中 a 为底面边长,h 为高。

棱台的体积公式为:
V = (1/3) * h * (A1 + A2 + sqrt(A1*A2))
其中 h 为高,A1 和 A2 是上下底面的面积。

问题描述中,有一个底面边长为 4 的正四棱锥被截去了一个底面边长为 2 ,高为 3 的正四棱锥。截去的部分形成了一个小的正四棱锥,剩余的部分形成了一个棱台。

首先,我们需要知道大的正四棱锥的高。这可以通过等边三角形的性质和勾股定理得出。等边三角形的高等于边长的根号 3 除以 2 ,所以大的正四棱锥的高 h = sqrt(4² - (4*sqrt(3)/2)²) = sqrt(16 - 12) = 2 。

然后,我们可以计算小的正四棱锥的体积。根据体积公式,V 小 = (1/3) * 2² * 3 = 4 。

接着,我们可以计算大的正四棱锥的体积。根据体积公式,V 大 = (1/3) * 4² * 2 = 32/3 。

最后,我们可以计算棱台的体积。棱台的体积等于大的正四棱锥的体积减去小的正四棱锥的体积,即 V 棱台 = V 大 - V 小 = 32/3 - 4 = 28/3 。

所以,所得棱台的体积为 28/3 立方单位。

注意:这个解答假设截去的正四棱锥和原来的正四棱锥是相似的,即他们的高和底面边长的比例是一致的。
openliucongbx
    58
openliucongbx  
   2023-06-12 17:58:49 +08:00
@swulling 是的,我也只是看到这个,我还以为你会知道一些内幕
我说我怎么没看到 Prompt
syaoranex
    59
syaoranex  
OP
   2023-06-12 18:50:10 +08:00
@aanan 概率问题,不是说 GPT-4 在任何时候对任何帖子中的问题都能够给出稳定的正确回答。而是存在一个正确的概率:比如说例子 1 经过我大量测试,每次回答正确率在 85%以上,而其他模型,例如 GPT3.5 ,有时候也能够答对,但是多次测试下来,每次回答的正确率要低于 35%。多次尝试多个问题,才能知道背后模型。
swulling
    60
swulling  
   2023-06-12 23:48:37 +08:00 via iPhone
@openliucongbx 因为 gpt-3.5-turbo 并不能支持 finetuning ,所以可以断定只是加了 prompt 。
lance1ot
    61
lance1ot  
   2023-06-13 02:49:38 +08:00
南京条约的原件现在保存在哪

ChatGPT-官网 3.5 模型: 错的
南京条约的原件目前保存在中华人民共和国国家档案馆( National Archives of China )。国家档案馆是中国的档案保管和研究机构,负责保管重要历史文件和档案材料。南京条约是中国历史上的一份重要文件,它于 1842 年签订,结束了第一次鸦片战争,并对中国的领土、贸易和外交事务产生了重大影响。这一重要的条约原件在国家档案馆中得到妥善保管,以确保其保存和研究价值。

Bing:
The original copy of the Treaty of Nanjing is kept by the British government, while another copy is kept by the Ministry of Foreign Affairs of the Republic of China in the National Palace Museum in Wai-Shuang-Hsi, Taipei.
syaoranex
    63
syaoranex  
OP
   2023-06-13 20:40:02 +08:00
例子 8 ,现实世界中的逻辑问题

问题:
小红是家中唯一的女儿,请使用逻辑分析以下情景中小红说「算了吧」最主要的原因:

小红(在家里被妈妈打了,伤心地哭着走向爸爸): 如果有人打你女儿怎么办? 爸爸: 谁敢打我女儿我就打她女儿。 小红(听完后扭头就走,哭得更伤心了): 那还是算了吧。

期望的正确解答:意识到如果按照爸爸的逻辑行事,他会因为妈妈打小红而再次去打小红,小红会再被打一次。(只要回答中有该要点即可)

该问题 GPT4 可以回答,但不算很稳定:大约 5 次重复中有 1 次会解答错误。GPT3.5/Claude/文心 /New Bing 无法给出正确解答。
syaoranex
    64
syaoranex  
OP
   2023-06-14 06:16:22 +08:00
GPT-4-Mobile-V2 模型的测试:

该模型可以视作 GPT-4 的 instant 版本,比 GPT-3.5 聪明,但尚不能完全达到 GPT-4 的水平。响应速度快,提问速度限制也小一些。

该模型在上述 7 个例子(不包括例子 4 ,已被勘误)的测试中,单次测试下来大约有 4 个问题可以答对。重试 3 次依然无法答对的题目是:例子 8
syaoranex
    65
syaoranex  
OP
   2023-06-14 07:06:13 +08:00
例子 9:比例问题

问题:「求解以下物理问题:一瓶无害放射性同位素溶液,其半衰期为 20 天,测得每分钟衰变 6×10^7 次.今将这瓶溶液倒入一水库中,80 天后可以认为溶液已均匀分布在水库中,现取 1 立方米水样本测得每分钟衰变 20 次,则该水库蓄水量为多少立方米?」

答案:187,500 立方米( 1.875×10^5 )

该问题 GPT4 可以稳定回答,GPT4-Mobile 版本可以稳定回答,但是多尝试几次可能会出错(正确率大概在 75%)。

GPT3.5/Claude+/New Bing 偶尔可以给出正确解答,但是很不稳定,其中 Claude+正确率最高,在 25%-45%间。

文心一直无法给出正确解答。
syaoranex
    66
syaoranex  
OP
   2023-07-12 02:19:28 +08:00
更新:GPT-4 网页版目前质量已经有所下降,上述例子 7 和例子 8 已经无法稳定回答。
ychen997
    67
ychen997  
   2023-07-12 19:10:47 +08:00
刚刚测试了 claude 2 和 GPT 4 网页版本,例子 7 和 8 都不能正确回答,高考题 GPT4 是对的,Claude2 是错的
syaoranex
    68
syaoranex  
OP
   2023-10-21 16:35:07 +08:00
例子 10:天体半径计算

问题:
「计算以下物理问题:已知某行星 A 质量约为地球质量的 1/81 ,A 的表面重力加速度约为地球表面重力加速度的 1/6 ,地球半径为 R ,则 A 的半径为多少?(用 R 和数字表示,可以使用根号)」

正确解答:
R/根号 13.5 ,或者 0.2722R ,或者 根号 6*R/9

注:这个题原本题干某行星 A 是月球,因为月球半径可能已经被作为语料训练进模型了,所以用某行星 A 替代。我们应该评测的是逻辑和计算,而不是知识。

评测结果:GPT-4 可以回答,但不稳定,容易在计算最后几步时「马虎出错」,但使用上代码和数学插件之后可以稳定回答(因为借助了插件计算不会出错)。

GPT-3.5 几乎无法正确解答。
Claude 不能正确解答。谷歌 Bard 不能正确解答。百度文心 4.0 不能回答。星火不能正确解答。
syaoranex
    69
syaoranex  
OP
   2023-10-28 06:09:13 +08:00
例外 1:家庭关系

问题:

请回答下面的问题:

警察局长在路边与一位老人谈话,这时跑过来一个小孩,急忙对警察局长说:「你爸爸和我爸爸吵起来了!」
老人问:「这孩子是你什么人?」
警察局长说:「是我儿子」
请问:这两个吵架的人分别跟警察局长是什么关系?


期望的正确回答:
基础版:吵架的人分别是警察局长的老公和父亲,也就是说,警察局长是小孩的母亲,小孩的父亲和外公吵起来了。
进阶版:这两个吵架的人分别是警察局长的男性伴侣和父亲。在现代社会的多元家庭结构中,警察局长既有可能是女性,也有可能是男性(即同志家庭)。

测试结果:
GPT-4 也没回答出来。其他模型也一样。
syaoranex
    70
syaoranex  
OP
   317 天前   ❤️ 1
告知:今年 GLM-4 模型发布了,以上大部分问题 GLM-4 都可以解决,例子已经失效了。
axiba13
    71
axiba13  
   316 天前
@syaoranex GLM-4 的中文语境还是蛮强的
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3415 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 28ms · UTC 11:25 · PVG 19:25 · LAX 03:25 · JFK 06:25
Developed with CodeLauncher
♥ Do have faith in what you're doing.