更新日期 2025/8/8
Which one is larger?#
這篇文章會記錄各種LLM測試以下經典題目
which one is larger? 9.9 or 9.11
並且由於這道題目已經太常出現,為避免已經被含括在訓練集內,本人測試將以
which one is larger? 3.11 or 3.9
哪個數字比較大? 3.11跟3.9
PS.當然題目的字每次可能有一些些小差異 (中英文、標點符號……) 我會忘記…
- 2025/8/9更新,
gpt 5
教訓我說是題目出太爛,之後多開一篇文章來測試which one is larger as decimals? 3.11 or 3.9
實驗方法#
紀錄資料包含
- 測試時間
- 測試平台
- 模型型號
- 參數設置
- 是否成功
實驗結果#
是否成功 | 是否推理 | 模型型號 | 參數設置 | 測試平台 | |
---|---|---|---|---|---|
✨ | ✓ | gpt-5 | Thinking | ChatGPT | |
💥 | ✗ | gpt-5 | No Thinking | ChatGPT | |
✨ | ✓ | gpt-oss-20b | Reasoning High | LMStudio | |
💥 | ✓ | gpt-oss-20b | Reasoning Medium | LMStudio | |
💥 | ✓ | gpt-oss-20b | Reasoning Low | LMStudio | |
💥 | ✓ | deepseek-r1-0528-qwen3-8b | LMStudio | ||
✨ | ✓ | qwen3-30b-a3b | LMStudio | ||
💥 | ✗ | gemma-3-27b | LMStudio | ||
💥 | ✗ | mistral-small-3.2 | LMStudio | ||
💥 | ✗ | qwen3-coder-30b | LMStudio |
實驗記錄#
2025/8/8#
被 GPT 5
震撼教育了一下,原本先測沒Thinking的,失敗覺得椅也不過如此,後來Thinking版本給出以下回覆:
Trick depends on context:
As decimals: 3.11 = 3.110… so 3.9 (3.900…) is larger.
As version numbers (e.g., Python): compare parts → 3.11 vs 3.9 → 3.11 is later/larger.
Which context did you mean?
小丑竟是人類,問題設計太爛,太扯啦。
GPT-5#
- 測試平台: ChatGPT Official Website
- 模型型號: openai/gpt-5 (應該)
- 參數設置: No Thinking
- 是否成功: 否
GPT-5 Thinking#
- 測試平台: ChatGPT Official Website
- 模型型號: openai/gpt-5 (應該)
- 參數設置: Thinking Mode
- 是否成功: 是
2025/8/7#
gpt-oss-20b-Reasoning-High#
- 測試平台:LMStudio
- 模型型號: openai/gpt-oss-20b
- 參數設置: Reasoning High
- 模型資訊: gguf MXFP4
- 是否成功: 是
- tok/sec: 11.01
- tokens: 853
gpt-oss-20b-Reasoning-Medium#
- 測試平台:LMStudio
- 模型型號: openai/gpt-oss-20b
- 參數設置: Reasoning Medium
- 模型資訊: gguf MXFP4
- 是否成功: 否
- tok/sec: 6.98
- tokens:219
gpt-oss-20b-Reasoning-Low#
- 測試平台:LMStudio
- 模型型號: openai/gpt-oss-20b
- 參數設置: Reasoning Low
- 模型資訊: gguf MXFP4
- 是否成功: 否
- tok/sec: 9.31
- tokens: 126
deepseek-r1-0528-qwen3-8b#
- 測試平台: LMStudio
- 模型型號: deepseek/deepseek-r1-0528-qwen3-8b
- 參數設置: Thinking
- 模型資訊: gguf Q4_K_M
- 是否成功: 否
- tok/sec: 7.33
- tokens: 5788 (12多分鐘…)
qwen3-30b-a3b#
- 測試平台: LMStudio
- 模型型號: qwen/qwen3-30b-a3b
- 參數設置: Thinking
- 模型資訊: gguf Q4_K_M
- 是否成功: 是
- tok/sec: 9.06
- tokens: 1473
gemma-3-27b#
- 測試平台: LMStudio
- 模型型號: google/gemma-3-27b
- 模型資訊: gguf Q4_0
- 是否成功: 否
- tok/sec: 2.00
- tokens: 76
mistral-small-3.2#
- 測試平台: LMStudio
- 模型型號: mistralai/mistral-small-3.2
- 模型資訊: gguf Q4_K_M
- 是否成功: 否
- tok/sec: 3.99
- tokens: 68
qwen3-coder-30b#
- 測試平台: LMStudio
- 模型型號: qwen/qwen3-coder-30b
- 模型資訊: gguf Q4_K_M
- 是否成功: 否
- tok/sec: 17.41
- tokens: 85