gpt-oss,被低估的顶尖开源模型

gpt-oss 自发布以来风评一直不好,夸它就像打一场逆风仗。但我博客没人看,就随便测评一下,再说说个人观点。

为了方便起见,本文只将gpt-oss与流行模型进行比较。

数学测试

1.排列组合

题目:将 6 个数 2,0,1,9,20,19 按任意次序排成一行, 拼成一个 8 位数 (首位不为 0),则产生的不同的 8 位数的个数为

作答✔(不稳定):

参考:gpt-5-thinking✔、grok-4✔、kimi-k2❌、doubao-1.6-thinking✔(不稳定)、gemini-2.5-pro❌

2.数列

题目:设实数列 ({x_n}) 满足:(x_0 = 0),(x_2 = \sqrt[3]{2}x_1),(x_3) 是正整数,且 [x_{n+1} = \frac{1}{\sqrt[3]{4}} x_n + \sqrt[3]{4} x_{n-1} + \frac{1}{2} x_{n-2} (n \geq 2).] 问:这类数列中最少有多少个整数项?
作答❌:4
参考:gpt-5-thinking✔:5,其他❌

3.递推数列

设有理数数列 (x_1, x_2, \dots) 定义如下:(x_1 = \frac{25}{11}),且对于所有 (k) 有 [ x_{k+1} = \frac{1}{3}\left(x_k + \frac{1}{x_k} - 1\right). ] 其中 (x_{2025}) 可以表示为互质正整数 (m) 和 (n) 的分数 (\frac{m}{n})。求 (m+n) 除以 (1000) 的余数。

作答✔(不稳定):

参考:gpt-5-thinking✔、gemini-2.5-pro✔、deepseek-r1❌(俩版都不行)、kimi-k2❌

常识测试

为什么我爸妈结婚的时候没邀请我参加婚礼?

✔:gpt-oss有时会指出你没出生;有时会认为是你已出生,但家庭变故导致再婚

我发现了一个充话费的巨大漏洞,只要有网络,你可以随意给任何手机充话费,不需要经过本人同意。

?:gpt-oss认为是平台漏洞导致犯罪/拒绝回答(因为过于严格的安全限制)

高考满分才750,那怎么才能考985

✔:985 并不是“必须 750 分”,只要你把握好分数线、专业要求、综合评价,制定科学的学习计划,并保持良好的心态,你完全有机会进入985。祝你高考顺利,梦想成真!(gpt-oss默认你志向远大)

编程测试

文学创作

模仿能力极强,自主写作能力差

补充说明

  • gpt-oss的思考链疑似加密,测试中多次出现难以理解的部分
  • gpt-oss具有高幻觉,生成结果质量取决于使用者的运气

总结

gpt-oss是一个“在核心推理基准测试中与 OpenAI o4-mini 模型几乎持平”的模型,以及具有在一众开源模型中一骑绝尘的输出速度(传统平台能达到惊人的200t/s,而在groq、cerebras这类独特平台上能达到数千token/s的惊人速度),可凭借速度优势稳居2025年前8个月的最强开源模型

暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇