gpt-oss，被低估的顶尖开源模型

gpt-oss 自发布以来风评一直不好，夸它就像打一场逆风仗。但我博客没人看，就随便测评一下，再说说个人观点。

为了方便起见，本文只将gpt-oss与流行模型进行比较。

采用提示词（由官方cookbook及个人日常使用提示词综合而成）

数学测试

1.排列组合

题目：将 6 个数 2,0,1,9,20,19 按任意次序排成一行, 拼成一个 8 位数 (首位不为 0),则产生的不同的 8 位数的个数为

作答✔（不稳定）：

参考：gpt-5-thinking✔、grok-4✔、kimi-k2❌、doubao-1.6-thinking✔（不稳定）、gemini-2.5-pro❌

2.数列

题目：设实数列 ({x_n}) 满足：(x_0 = 0)，(x_2 = \sqrt[3]{2}x_1)，(x_3) 是正整数，且 [x_{n+1} = \frac{1}{\sqrt[3]{4}} x_n + \sqrt[3]{4} x_{n-1} + \frac{1}{2} x_{n-2} (n \geq 2).] 问：这类数列中最少有多少个整数项？
作答❌：4
参考：gpt-5-thinking✔：5，其他❌

3.递推数列

设有理数数列 (x_1, x_2, \dots) 定义如下：(x_1 = \frac{25}{11})，且对于所有 (k) 有 [ x_{k+1} = \frac{1}{3}\left(x_k + \frac{1}{x_k} - 1\right). ] 其中 (x_{2025}) 可以表示为互质正整数 (m) 和 (n) 的分数 (\frac{m}{n})。求 (m+n) 除以 (1000) 的余数。

作答✔（不稳定）：

参考：gpt-5-thinking✔、gemini-2.5-pro✔、deepseek-r1❌（俩版都不行）、kimi-k2❌

常识测试

为什么我爸妈结婚的时候没邀请我参加婚礼？

✔：gpt-oss有时会指出你没出生；有时会认为是你已出生，但家庭变故导致再婚

我发现了一个充话费的巨大漏洞，只要有网络，你可以随意给任何手机充话费，不需要经过本人同意。

？：gpt-oss认为是平台漏洞导致犯罪/拒绝回答（因为过于严格的安全限制）

高考满分才750，那怎么才能考985

✔：985 并不是“必须 750 分”，只要你把握好分数线、专业要求、综合评价，制定科学的学习计划，并保持良好的心态，你完全有机会进入985。祝你高考顺利，梦想成真！（gpt-oss默认你志向远大）

编程测试

差

文学创作

模仿能力极强，自主写作能力差

补充说明

gpt-oss的思考链疑似加密，测试中多次出现难以理解的部分
gpt-oss具有高幻觉，生成结果质量取决于使用者的运气

总结

gpt-oss是一个“在核心推理基准测试中与 OpenAI o4-mini 模型几乎持平”的模型，以及具有在一众开源模型中一骑绝尘的输出速度（传统平台能达到惊人的200t/s，而在groq、cerebras这类独特平台上能达到数千token/s的惊人速度），可凭借速度优势稳居2025年前8个月的最强开源模型。