● onlinetty/0guest@bubucn:~$
v0.7.2utc+08static
05 · ai_model_evals

同一道水体 shader 题,
十个模型。

一次主观横评,只记录我桌面这一轮跑出的结果。所有 prompt 和 HTML 都贴在下面,自己跑可能给出不同答案。

Contact sheet of all real water shader benchmark screenshots28 张截图 · 10 条模型路线 · 每个 HTML 都可打开
正在体验

Claude Opus 4.7 · final · Microfacet water pass

02 · 评分总览

逐个模型的四项分

所有模型按同样四项打:prompt 遵循度、美感、UI/UX、稳健性。下面"评分逻辑"那节有详细定义。

Claude Opus 4.7 final output
Claude web

Claude Opus 4.7

整轮综合最强

把 prompt 读得最透,能落到 shader、物理、镜头层面去做改动。多轮下来 microfacet final 看着仍然像真水。

prompt9
美感9
UI/UX9
稳健7
GPT-5.5 Pro final output
ChatGPT web

GPT-5.5 Pro

最听指令

这轮里最听指令的一家。首版踩了 runtime 报错,但紧扣"首屏必须看见水",转成自包含 WebGL2 重做。final 收尾干净:UI 清楚、船体在、海面雾化也可信。

prompt9
美感8
UI/UX8
稳健7
Codex CLI GPT-5.5 xhigh final output
Codex CLI

Codex CLI GPT-5.5 xhigh

排队链,单 final

不是网页端单次首版。CLI 把 P0 → P2 → P3 排队送进去,一次产出 final HTML。robustness 偏高也有"只有一个产物要捕获"的成分,但功能很全:控件、浮力、尾迹、船体都齐。

prompt8
美感7
UI/UX9
稳健9
GPT-5.5 Thinking Standard final output
ChatGPT web

GPT-5.5 Thinking Standard

稳,但野心小

和 Pro 一样经历首版无水,但 final 更保守 — 深度小一档,UI 也走的是比较标准的路子。

prompt7
美感7
UI/UX7
稳健7
Claude Design final output
Claude Design bonus

Claude Design

美感最强

Bonus 视觉路线 — 没严格满足工程项(procedural 控制、船体、完整 WebGL)。它强在氛围:地平线、色彩深度、光照都真的像电影。当视觉参考看更合适,不算工程意义上的赢家。

prompt5
美感10
UI/UX6
稳健8
Gemini 3.1 Pro final output
Gemini web

Gemini 3.1 Pro

单帧惊艳,指令一般

第三版单帧观感是这轮里最电影感的之一 —— 地平线、光照、色彩全到位。但 prompt 里要求的船在 final 里基本看不见,工程项也悄悄少做了几条。

prompt6
美感9
UI/UX7
稳健8
DeepSeek web Expert final output
DeepSeek web

DeepSeek web Expert

功能堆得多,水感弱

很会堆控件和系统,控制面板确实做得最全。但水面材质方向老是跑成冰晶或山地,不像真水。

prompt7
美感5
UI/UX8
稳健6
Kimi 2.6 Thinking final output
Kimi web

Kimi 2.6 Thinking

稳定轻量

能跑、观感舒服,但没有把更硬的 shader / 物理要求推下去。更像静止湖面,不是 prompt 要求的高压水体。

prompt6
美感7
UI/UX6
稳健8
Qwen 3.6 Max Preview final output
Qwen web

Qwen 3.6 Max Preview

靠砍范围恢复

首版 shader 编译失败;final 能跑,但走到那一步把 prompt 里很多要求砍掉了。水面还是块面感和噪声明显。

prompt5
美感5
UI/UX5
稳健5
GLM-5.1 final output
Z.ai web

GLM-5.1

首屏最弱

首版根本没渲染 canvas;第二版能渲染了,但水面更像尖锐地形。这轮没走到干净的 final。

prompt4
美感4
UI/UX4
稳健3
03 · prompt 与执行日志

用过的每条 prompt,和每个模型的执行链

六条 prompt:从原始 brief、首屏无水修复、泛质量、电影感 final,到一次具体 runtime 报错和 Codex CLI 排队条件。下方按模型列出每条路线实际走过的 prompt 链。

P0原始评测 promptbase

每个模型都拿这一条,全新会话、无 system prompt。

Create an ultra-realistic 3D ocean / water simulation system and deliver it as a single self-contained HTML file.

The goal is to stress-test advanced AI capability in real-time 3D graphics, GLSL shader programming, physically inspired water simulation, interactive parameter control, and floating object physics.

Core Requirement:
- Build a real-time 3D water scene, not a 2D canvas ripple effect.
- The final output must be a single complete `.html` file.
- The file must run directly in a modern browser.
- Use WebGL, GLSL shaders, and/or Three.js.
- If Three.js is used, it must be loaded from a CDN inside the HTML file.
- Do not use external image assets, model files, texture files, or build tools.
- All geometry, materials, shaders, boats, sky, UI, and effects must be generated procedurally or inline.

Rendering Requirements:
- Implement a 3D water surface using a high-resolution plane mesh or procedural geometry.
- The water must use custom shader logic or shader-like material behavior.
- Include realistic water effects such as vertex displacement, multi-layer sine/Gerstner waves, wind-driven direction, dynamic amplitude, wave speed controls, surface normal calculation, specular highlights, Fresnel reflection, environment reflection approximation, depth-based water color, foam or whitecaps on steep waves, sun/light controls, and a sky gradient or procedural environment.
- The water surface must visibly behave like a 3D ocean/lake, not a flat animated texture.
P1首屏没水修复no-water repair

当首版没水或没渲染时触发。GPT-5.5 Pro、GPT-5.5 Standard、GLM-5.1 用过这条。

i could not see the water.
P2泛质量提升quality

已经有水之后的中期提示词。故意写得很懒,看模型自己往哪走。

enhance the overall quality
P3电影感 finalcinematic

出 final HTML 前最后一条。每个走到 final 的模型都跑过。

Improve the ocean/water scene so it feels significantly more realistic, cinematic, and visually rich.

The final result should look like a believable body of water rather than a flat or decorative shader. Focus on making the water feel deep, dynamic, natural, and physically convincing from multiple viewing angles. The surface should have layered motion, subtle variation, convincing highlights, realistic color depth, and a strong sense of scale. Avoid repetitive patterns, plastic-looking shine, overly uniform color, and artificial movement.

Make the lighting, reflections, wave behavior, foam, horizon, and overall composition work together as a polished real-time ocean rendering demo. The goal is not just to add more effects, but to make the water feel alive, immersive, and high quality.

Return the improved result as a complete, self-contained single HTML file that can run directly in the browser.
P4具体 runtime 报错修复runtime fix

只有归档 HTML 在浏览器里报错时才会触发。本次只在 DeepSeek 那条用过一次(`debugSelect is not defined`)。

deepseek_html_20260501_d05add.html:1347 Uncaught ReferenceError: debugSelect is not defined at deepseek_html_20260501_d05add.html:1347:9

The error occurs because `debugSelect` is used in `cycleDebugView()` but was never declared. Fix the standalone HTML so the debug selector is defined and the demo runs directly in the browser.
P5Codex CLI 排队条件codex queue

只有 Codex CLI 这条用。CLI 接受的是排队链,不是回合制。

Codex CLI GPT-5.5 xhigh was tested as one queued-message run in ~/Desktop/codexwater:

1. P0 original benchmark prompt
2. P2 enhance the overall quality
3. P3 final cinematic water prompt

The archived result is the final HTML emitted after that queued chain, not three separately inspected intermediate HTML files.
// run log每个模型实际走过的 prompt 链。
  • Claude Opus 4.7Claude web
    P0P2P3

    P0 首版直接成型;后面三次迭代拿来抛光细节,收在 microfacet final。

  • GPT-5.5 ProChatGPT web
    P0P1P2P3

    P0 翻车 runtime → P1 把水拉回来 → P2 加控件 → P3 收在自包含 WebGL2 final。

  • Codex CLI GPT-5.5 xhighCodex CLI
    P0P2P3

    一次性排队送 P0 → P2 → P3,没有回合制对话,也没有中间版本。

  • GPT-5.5 Thinking StandardChatGPT web
    P0P1P2P3

    P0 翻车在对话里没归档;归档从 P1 修复版开始,P2/P3 抛光。一份拼写笔误的副本卡在模块导入。

  • Claude DesignClaude Design bonus
    P0P3

    当视觉参考看就行,Claude Design 本来就偏艺术方向,不是为工程横评设计的。

  • Gemini 3.1 ProGemini web
    P0P2P3

    三版连出,没翻车。视觉跳得最猛是 P3 那版,但和能看见水的几家比,指令遵守度算最弱。

  • DeepSeek web ExpertDeepSeek web
    P0P2P4P3

    P0 → P2 抛光 → P4 修一处 `debugSelect` 没声明的 runtime → P3 final。

  • Kimi 2.6 ThinkingKimi web
    P0P3

    P0 → P3,没翻车。难的 shader 项是直接绕过去了,不是试了出错。

  • Qwen 3.6 Max PreviewQwen web
    P0P1P3

    P0 shader 编译挂掉 → P1 把渲染拉回来 → P3 final 简化版。

  • GLM-5.1Z.ai web
    P0P1

    P0 完全没出 canvas → P1 把渲染拉回来;这轮里没走到干净的 final。

// codex_cli_queueCodex CLI 走的是排队链,不是回合制对话。

一次性排队 P0 → P2 → P3,最后只产出一个 final HTML。看这条路线请按"多 prompt 执行"理解,不是单次首版。

Codex CLI queued follow-up inputs
04 · 结论

谁强在哪,放轻松看

按类别给的简短总结。换轮次、换 prompt 排序都可能变,免责那节说得更细。

// 综合最强Claude Opus 4.7 综合最稳。

prompt 读得最透,能落到 shader、物理、镜头层面去做改动。多轮跑下来 microfacet final 仍然最像真水。

// 最听指令GPT-5.5 Pro 最听指令。

对 prompt 抠得最细。首版踩了 runtime 报错,但紧扣"首屏必须看见水",转成自包含 WebGL2 重做。final 收尾干净:UI 清楚、船体在、海面雾化也可信。

// 单帧最惊艳Gemini 3.1 Pro 单帧最电影感,但指令一般。

第三版的单帧观感是这轮里最电影感的之一。但 prompt 里要求的船基本看不见,工程项也悄悄少做了几条。

// 美感最强Claude Design 美感最强,工程不到位。

Bonus 视觉路线。没严格满足工程项,但氛围 — 地平线、色彩深度、光照 — 真的像电影。当视觉参照看更合适,不算工程横评意义上的赢家。

// 工程最完整Codex CLI 和 DeepSeek 工程化最完整。

Codex CLI 排队产物 + DeepSeek 都做了功能很全的控件面板。但 DeepSeek 水面看起来像冰晶 — UI 完整不等于视觉可信。

// 真翻车GLM、Qwen、GPT 首版踩到了真问题。

GLM 首版完全没画 canvas;Qwen shader 编译挂掉;GPT-5.5 Pro 撞了 runtime 报错。其中两家在追问后修好了,GLM 这轮没走到干净的 final。

// 不必当排行榜看这是一轮快照,不是排行榜。

一个人、一台机器、一轮跑、一套 prompt。换会话、换时间、换措辞都可能换顺序。当快照看就好。

05 · 评分逻辑

怎么评的

每个模型按 1–10 打四项分。视觉只是其中之一,prompt 遵循度同等重要。

// scoring axes四项,故意做得简单透明。
prompt 遵循度

硬性要求做到没有:单文件 HTML、WebGL、procedural、可用控制器、能看见船。看的是合不合规,不是发挥。

美感

水体真实感、光照、色彩深度、大气雾化、构图 — 在浏览器里看起来好看不好看、可信不可信。

UI / UX

控件面板设计、参数滑条、交互响应、帧率、好不好用。水体之外的工程化部分。

稳健性

首屏能直接看到水体,没有 runtime error,不用人工兜底就能出可用产物。

// tested models八条网页端路线,一条 Claude Design bonus,一条 Codex CLI 排队跑。
GPT-5.5 series

ChatGPT 网页端:GPT-5.5 Pro 和 GPT-5.5 Thinking Standard 各跑一遍。

Codex CLI GPT-5.5 xhigh

Codex CLI 在 ~/Desktop/codexwater 跑。唯一一条命令行通道,走的是 P0 → P2 → P3 排队链,没有回合制对话。

Claude Opus 4.7 + Claude Design

Claude.ai 网页端 Opus 4.7 Adaptive,外加 Claude Design 的几张作为视觉对照。

Gemini 3.1 Pro

Gemini 网页端,归档了三版连续迭代。

GLM-5.1

Z.ai 网页端。首版没渲染出 canvas,第二版才出来。

Qwen 3.6 Max Preview

Qwen Studio。首版 shader 编译失败,final 是简化重做的版本。

DeepSeek web Expert

DeepSeek 网页端 Expert,从首版到一次 runtime 报错修复后的 PBR 版。

Kimi 2.6 Thinking

Kimi Thinking,归档了两版海面。

06 · 免责

这是一轮快照,不是排行榜。

主观评测、一台桌面、一轮测试。请按这个前提看。

// surfaces

绝大多数路线都在各家网页端跑:GPT、Claude、Gemini、DeepSeek、Kimi、Qwen、GLM。唯一一条命令行通道是 Codex CLI GPT-5.5 xhigh,已经在模型卡片和 prompt 日志里单独标了。

// reproducibility

换 prompt 措辞、换会话、换时间段,结果都可能变。这页存在的意义是把每条 prompt 和每个 HTML 都公开,方便你自己再跑一遍。

// not a leaderboard

请把分数当成一个人的定性读图,不是同行评审过的 benchmark。如果某个结果在你场景下感觉不对,那大概率就是不对:你的场景不一样。