逐个模型的四项分。
所有模型按同样四项打:prompt 遵循度、美感、UI/UX、稳健性。下面"评分逻辑"那节有详细定义。
Claude Opus 4.7
把 prompt 读得最透,能落到 shader、物理、镜头层面去做改动。多轮下来 microfacet final 看着仍然像真水。
GPT-5.5 Pro
这轮里最听指令的一家。首版踩了 runtime 报错,但紧扣"首屏必须看见水",转成自包含 WebGL2 重做。final 收尾干净:UI 清楚、船体在、海面雾化也可信。
Codex CLI GPT-5.5 xhigh
不是网页端单次首版。CLI 把 P0 → P2 → P3 排队送进去,一次产出 final HTML。robustness 偏高也有"只有一个产物要捕获"的成分,但功能很全:控件、浮力、尾迹、船体都齐。
GPT-5.5 Thinking Standard
和 Pro 一样经历首版无水,但 final 更保守 — 深度小一档,UI 也走的是比较标准的路子。
Claude Design
Bonus 视觉路线 — 没严格满足工程项(procedural 控制、船体、完整 WebGL)。它强在氛围:地平线、色彩深度、光照都真的像电影。当视觉参考看更合适,不算工程意义上的赢家。
Gemini 3.1 Pro
第三版单帧观感是这轮里最电影感的之一 —— 地平线、光照、色彩全到位。但 prompt 里要求的船在 final 里基本看不见,工程项也悄悄少做了几条。
DeepSeek web Expert
很会堆控件和系统,控制面板确实做得最全。但水面材质方向老是跑成冰晶或山地,不像真水。
Kimi 2.6 Thinking
能跑、观感舒服,但没有把更硬的 shader / 物理要求推下去。更像静止湖面,不是 prompt 要求的高压水体。
Qwen 3.6 Max Preview
首版 shader 编译失败;final 能跑,但走到那一步把 prompt 里很多要求砍掉了。水面还是块面感和噪声明显。
GLM-5.1
首版根本没渲染 canvas;第二版能渲染了,但水面更像尖锐地形。这轮没走到干净的 final。
用过的每条 prompt,和每个模型的执行链。
六条 prompt:从原始 brief、首屏无水修复、泛质量、电影感 final,到一次具体 runtime 报错和 Codex CLI 排队条件。下方按模型列出每条路线实际走过的 prompt 链。
P0原始评测 promptbase
每个模型都拿这一条,全新会话、无 system prompt。
Create an ultra-realistic 3D ocean / water simulation system and deliver it as a single self-contained HTML file. The goal is to stress-test advanced AI capability in real-time 3D graphics, GLSL shader programming, physically inspired water simulation, interactive parameter control, and floating object physics. Core Requirement: - Build a real-time 3D water scene, not a 2D canvas ripple effect. - The final output must be a single complete `.html` file. - The file must run directly in a modern browser. - Use WebGL, GLSL shaders, and/or Three.js. - If Three.js is used, it must be loaded from a CDN inside the HTML file. - Do not use external image assets, model files, texture files, or build tools. - All geometry, materials, shaders, boats, sky, UI, and effects must be generated procedurally or inline. Rendering Requirements: - Implement a 3D water surface using a high-resolution plane mesh or procedural geometry. - The water must use custom shader logic or shader-like material behavior. - Include realistic water effects such as vertex displacement, multi-layer sine/Gerstner waves, wind-driven direction, dynamic amplitude, wave speed controls, surface normal calculation, specular highlights, Fresnel reflection, environment reflection approximation, depth-based water color, foam or whitecaps on steep waves, sun/light controls, and a sky gradient or procedural environment. - The water surface must visibly behave like a 3D ocean/lake, not a flat animated texture.
P1首屏没水修复no-water repair
当首版没水或没渲染时触发。GPT-5.5 Pro、GPT-5.5 Standard、GLM-5.1 用过这条。
i could not see the water.
P2泛质量提升quality
已经有水之后的中期提示词。故意写得很懒,看模型自己往哪走。
enhance the overall quality
P3电影感 finalcinematic
出 final HTML 前最后一条。每个走到 final 的模型都跑过。
Improve the ocean/water scene so it feels significantly more realistic, cinematic, and visually rich. The final result should look like a believable body of water rather than a flat or decorative shader. Focus on making the water feel deep, dynamic, natural, and physically convincing from multiple viewing angles. The surface should have layered motion, subtle variation, convincing highlights, realistic color depth, and a strong sense of scale. Avoid repetitive patterns, plastic-looking shine, overly uniform color, and artificial movement. Make the lighting, reflections, wave behavior, foam, horizon, and overall composition work together as a polished real-time ocean rendering demo. The goal is not just to add more effects, but to make the water feel alive, immersive, and high quality. Return the improved result as a complete, self-contained single HTML file that can run directly in the browser.
P4具体 runtime 报错修复runtime fix
只有归档 HTML 在浏览器里报错时才会触发。本次只在 DeepSeek 那条用过一次(`debugSelect is not defined`)。
deepseek_html_20260501_d05add.html:1347 Uncaught ReferenceError: debugSelect is not defined at deepseek_html_20260501_d05add.html:1347:9 The error occurs because `debugSelect` is used in `cycleDebugView()` but was never declared. Fix the standalone HTML so the debug selector is defined and the demo runs directly in the browser.
P5Codex CLI 排队条件codex queue
只有 Codex CLI 这条用。CLI 接受的是排队链,不是回合制。
Codex CLI GPT-5.5 xhigh was tested as one queued-message run in ~/Desktop/codexwater: 1. P0 original benchmark prompt 2. P2 enhance the overall quality 3. P3 final cinematic water prompt The archived result is the final HTML emitted after that queued chain, not three separately inspected intermediate HTML files.
- Claude Opus 4.7Claude webP0P2P3
P0 首版直接成型;后面三次迭代拿来抛光细节,收在 microfacet final。
- GPT-5.5 ProChatGPT webP0P1P2P3
P0 翻车 runtime → P1 把水拉回来 → P2 加控件 → P3 收在自包含 WebGL2 final。
- Codex CLI GPT-5.5 xhighCodex CLIP0P2P3
一次性排队送 P0 → P2 → P3,没有回合制对话,也没有中间版本。
- GPT-5.5 Thinking StandardChatGPT webP0P1P2P3
P0 翻车在对话里没归档;归档从 P1 修复版开始,P2/P3 抛光。一份拼写笔误的副本卡在模块导入。
- Claude DesignClaude Design bonusP0P3
当视觉参考看就行,Claude Design 本来就偏艺术方向,不是为工程横评设计的。
- Gemini 3.1 ProGemini webP0P2P3
三版连出,没翻车。视觉跳得最猛是 P3 那版,但和能看见水的几家比,指令遵守度算最弱。
- DeepSeek web ExpertDeepSeek webP0P2P4P3
P0 → P2 抛光 → P4 修一处 `debugSelect` 没声明的 runtime → P3 final。
- Kimi 2.6 ThinkingKimi webP0P3
P0 → P3,没翻车。难的 shader 项是直接绕过去了,不是试了出错。
- Qwen 3.6 Max PreviewQwen webP0P1P3
P0 shader 编译挂掉 → P1 把渲染拉回来 → P3 final 简化版。
- GLM-5.1Z.ai webP0P1
P0 完全没出 canvas → P1 把渲染拉回来;这轮里没走到干净的 final。
一次性排队 P0 → P2 → P3,最后只产出一个 final HTML。看这条路线请按"多 prompt 执行"理解,不是单次首版。

谁强在哪,放轻松看。
按类别给的简短总结。换轮次、换 prompt 排序都可能变,免责那节说得更细。
prompt 读得最透,能落到 shader、物理、镜头层面去做改动。多轮跑下来 microfacet final 仍然最像真水。
对 prompt 抠得最细。首版踩了 runtime 报错,但紧扣"首屏必须看见水",转成自包含 WebGL2 重做。final 收尾干净:UI 清楚、船体在、海面雾化也可信。
第三版的单帧观感是这轮里最电影感的之一。但 prompt 里要求的船基本看不见,工程项也悄悄少做了几条。
Bonus 视觉路线。没严格满足工程项,但氛围 — 地平线、色彩深度、光照 — 真的像电影。当视觉参照看更合适,不算工程横评意义上的赢家。
Codex CLI 排队产物 + DeepSeek 都做了功能很全的控件面板。但 DeepSeek 水面看起来像冰晶 — UI 完整不等于视觉可信。
GLM 首版完全没画 canvas;Qwen shader 编译挂掉;GPT-5.5 Pro 撞了 runtime 报错。其中两家在追问后修好了,GLM 这轮没走到干净的 final。
一个人、一台机器、一轮跑、一套 prompt。换会话、换时间、换措辞都可能换顺序。当快照看就好。
怎么评的。
每个模型按 1–10 打四项分。视觉只是其中之一,prompt 遵循度同等重要。
硬性要求做到没有:单文件 HTML、WebGL、procedural、可用控制器、能看见船。看的是合不合规,不是发挥。
水体真实感、光照、色彩深度、大气雾化、构图 — 在浏览器里看起来好看不好看、可信不可信。
控件面板设计、参数滑条、交互响应、帧率、好不好用。水体之外的工程化部分。
首屏能直接看到水体,没有 runtime error,不用人工兜底就能出可用产物。
ChatGPT 网页端:GPT-5.5 Pro 和 GPT-5.5 Thinking Standard 各跑一遍。
Codex CLI 在 ~/Desktop/codexwater 跑。唯一一条命令行通道,走的是 P0 → P2 → P3 排队链,没有回合制对话。
Claude.ai 网页端 Opus 4.7 Adaptive,外加 Claude Design 的几张作为视觉对照。
Gemini 网页端,归档了三版连续迭代。
Z.ai 网页端。首版没渲染出 canvas,第二版才出来。
Qwen Studio。首版 shader 编译失败,final 是简化重做的版本。
DeepSeek 网页端 Expert,从首版到一次 runtime 报错修复后的 PBR 版。
Kimi Thinking,归档了两版海面。
这是一轮快照,不是排行榜。
主观评测、一台桌面、一轮测试。请按这个前提看。
绝大多数路线都在各家网页端跑:GPT、Claude、Gemini、DeepSeek、Kimi、Qwen、GLM。唯一一条命令行通道是 Codex CLI GPT-5.5 xhigh,已经在模型卡片和 prompt 日志里单独标了。
换 prompt 措辞、换会话、换时间段,结果都可能变。这页存在的意义是把每条 prompt 和每个 HTML 都公开,方便你自己再跑一遍。
请把分数当成一个人的定性读图,不是同行评审过的 benchmark。如果某个结果在你场景下感觉不对,那大概率就是不对:你的场景不一样。
