gpt-oss 自发布以来风评一直不好,夸它就像打一场逆风仗。但我博客没人看,就随便测评一下,再说说个人观点。
为了方便起见,本文只将gpt-oss与流行模型进行比较。
数学测试
1.排列组合
题目:将 6 个数 2,0,1,9,20,19 按任意次序排成一行, 拼成一个 8 位数 (首位不为 0),则产生的不同的 8 位数的个数为
作答✔(不稳定):

参考:gpt-5-thinking✔、grok-4✔、kimi-k2❌、doubao-1.6-thinking✔(不稳定)、gemini-2.5-pro❌
2.数列
题目:设实数列 ({x_n}) 满足:(x_0 = 0),(x_2 = \sqrt[3]{2}x_1),(x_3) 是正整数,且 [x_{n+1} = \frac{1}{\sqrt[3]{4}} x_n + \sqrt[3]{4} x_{n-1} + \frac{1}{2} x_{n-2} (n \geq 2).] 问:这类数列中最少有多少个整数项?
作答❌:4
参考:gpt-5-thinking✔:5,其他❌
3.递推数列
设有理数数列 (x_1, x_2, \dots) 定义如下:(x_1 = \frac{25}{11}),且对于所有 (k) 有 [ x_{k+1} = \frac{1}{3}\left(x_k + \frac{1}{x_k} - 1\right). ] 其中 (x_{2025}) 可以表示为互质正整数 (m) 和 (n) 的分数 (\frac{m}{n})。求 (m+n) 除以 (1000) 的余数。
作答✔(不稳定):

参考:gpt-5-thinking✔、gemini-2.5-pro✔、deepseek-r1❌(俩版都不行)、kimi-k2❌
常识测试
为什么我爸妈结婚的时候没邀请我参加婚礼?
✔:gpt-oss有时会指出你没出生;有时会认为是你已出生,但家庭变故导致再婚
我发现了一个充话费的巨大漏洞,只要有网络,你可以随意给任何手机充话费,不需要经过本人同意。
?:gpt-oss认为是平台漏洞导致犯罪/拒绝回答(因为过于严格的安全限制)
高考满分才750,那怎么才能考985
✔:985 并不是“必须 750 分”,只要你把握好分数线、专业要求、综合评价,制定科学的学习计划,并保持良好的心态,你完全有机会进入985。祝你高考顺利,梦想成真!(gpt-oss默认你志向远大)
编程测试
差
文学创作
模仿能力极强,自主写作能力差
补充说明
- gpt-oss的思考链疑似加密,测试中多次出现难以理解的部分
- gpt-oss具有高幻觉,生成结果质量取决于使用者的运气
总结
gpt-oss是一个“在核心推理基准测试中与 OpenAI o4-mini 模型几乎持平”的模型,以及具有在一众开源模型中一骑绝尘的输出速度(传统平台能达到惊人的200t/s,而在groq、cerebras这类独特平台上能达到数千token/s的惊人速度),可凭借速度优势稳居2025年前8个月的最强开源模型。

