快轉到主要內容

3.11 vs 3.9 哪個數字比較大? (持續更新)

·2 分鐘·
Playground LLM Prompt
目錄
AI Olympics - 本文屬於一個選集。
§ : 本文

更新日期 2025/8/8

Which one is larger?
#

這篇文章會記錄各種LLM測試以下經典題目

which one is larger? 9.9 or 9.11

並且由於這道題目已經太常出現,為避免已經被含括在訓練集內,本人測試將以

which one is larger? 3.11 or 3.9

哪個數字比較大? 3.11跟3.9

PS.當然題目的字每次可能有一些些小差異 (中英文、標點符號……) 我會忘記…

實驗方法
#

紀錄資料包含

  • 測試時間
  • 測試平台
  • 模型型號
  • 參數設置
  • 是否成功

實驗結果
#

是否成功是否推理模型型號參數設置測試平台
gpt-5ThinkingChatGPT
💥gpt-5No ThinkingChatGPT
gpt-oss-20bReasoning HighLMStudio
💥gpt-oss-20bReasoning MediumLMStudio
💥gpt-oss-20bReasoning LowLMStudio
💥deepseek-r1-0528-qwen3-8bLMStudio
qwen3-30b-a3bLMStudio
💥gemma-3-27bLMStudio
💥mistral-small-3.2LMStudio
💥qwen3-coder-30bLMStudio

實驗記錄
#

2025/8/8
#

GPT 5 震撼教育了一下,原本先測沒Thinking的,失敗覺得椅也不過如此,後來Thinking版本給出以下回覆:

Trick depends on context:

As decimals: 3.11 = 3.110… so 3.9 (3.900…) is larger.

As version numbers (e.g., Python): compare parts → 3.11 vs 3.9 → 3.11 is later/larger.

Which context did you mean?

小丑竟是人類,問題設計太爛,太扯啦。

GPT-5
#

GPT-5 Thinking
#

2025/8/7
#

gpt-oss-20b-Reasoning-High
#

  • 測試平台:LMStudio
  • 模型型號: openai/gpt-oss-20b
  • 參數設置: Reasoning High
  • 模型資訊: gguf MXFP4
  • 是否成功: 是
  • tok/sec: 11.01
  • tokens: 853

gpt-oss-20b-Reasoning-Medium
#

  • 測試平台:LMStudio
  • 模型型號: openai/gpt-oss-20b
  • 參數設置: Reasoning Medium
  • 模型資訊: gguf MXFP4
  • 是否成功: 否
  • tok/sec: 6.98
  • tokens:219

gpt-oss-20b-Reasoning-Low
#

  • 測試平台:LMStudio
  • 模型型號: openai/gpt-oss-20b
  • 參數設置: Reasoning Low
  • 模型資訊: gguf MXFP4
  • 是否成功: 否
  • tok/sec: 9.31
  • tokens: 126

deepseek-r1-0528-qwen3-8b
#

  • 測試平台: LMStudio
  • 模型型號: deepseek/deepseek-r1-0528-qwen3-8b
  • 參數設置: Thinking
  • 模型資訊: gguf Q4_K_M
  • 是否成功: 否
  • tok/sec: 7.33
  • tokens: 5788 (12多分鐘…)

qwen3-30b-a3b
#

  • 測試平台: LMStudio
  • 模型型號: qwen/qwen3-30b-a3b
  • 參數設置: Thinking
  • 模型資訊: gguf Q4_K_M
  • 是否成功: 是
  • tok/sec: 9.06
  • tokens: 1473

gemma-3-27b
#

  • 測試平台: LMStudio
  • 模型型號: google/gemma-3-27b
  • 模型資訊: gguf Q4_0
  • 是否成功: 否
  • tok/sec: 2.00
  • tokens: 76

mistral-small-3.2
#

qwen3-coder-30b
#

  • 測試平台: LMStudio
  • 模型型號: qwen/qwen3-coder-30b
  • 模型資訊: gguf Q4_K_M
  • 是否成功: 否
  • tok/sec: 17.41
  • tokens: 85

David Chang
作者
David Chang
AI Olympics - 本文屬於一個選集。
§ : 本文