3.11 vs 3.9 哪個數字比較大? (持續更新)

AI Olympics - 本文屬於一個選集。

§ : 日常任務測試 - 建築師考題整理

§ : 本文

更新日期 2025/8/8

Which one is larger?
#

這篇文章會記錄各種LLM測試以下經典題目

which one is larger? 9.9 or 9.11

並且由於這道題目已經太常出現，為避免已經被含括在訓練集內，本人測試將以

which one is larger? 3.11 or 3.9

哪個數字比較大? 3.11跟3.9

PS.當然題目的字每次可能有一些些小差異 (中英文、標點符號……) 我會忘記…

2025/8/9更新，gpt 5教訓我說是題目出太爛，之後多開一篇文章來測試 which one is larger as decimals? 3.11 or 3.9

實驗方法
#

紀錄資料包含

測試時間
測試平台
模型型號
參數設置
是否成功

實驗結果
#

是否成功	是否推理	模型型號	參數設置	測試平台
✨	✓	gpt-5	Thinking	ChatGPT
💥	✗	gpt-5	No Thinking	ChatGPT
✨	✓	gpt-oss-20b	Reasoning High	LMStudio
💥	✓	gpt-oss-20b	Reasoning Medium	LMStudio
💥	✓	gpt-oss-20b	Reasoning Low	LMStudio
💥	✓	deepseek-r1-0528-qwen3-8b		LMStudio
✨	✓	qwen3-30b-a3b		LMStudio
💥	✗	gemma-3-27b		LMStudio
💥	✗	mistral-small-3.2		LMStudio
💥	✗	qwen3-coder-30b		LMStudio

實驗記錄
#

2025/8/8
#

被 GPT 5 震撼教育了一下，原本先測沒Thinking的，失敗覺得椅也不過如此，後來Thinking版本給出以下回覆：

Trick depends on context:

As decimals: 3.11 = 3.110… so 3.9 (3.900…) is larger.

As version numbers (e.g., Python): compare parts → 3.11 vs 3.9 → 3.11 is later/larger.

Which context did you mean?

小丑竟是人類，問題設計太爛，太扯啦。