AI 疯狂进化 6 个月：30 + 模型混战，大神的「鹈鹕测试」引爆行业反思

日期：2025-06-10 10:18:33 / 人气：30

在旧金山 AI 工程师世博会上，技术大神 Simon Willison 以一场趣味横生又干货满满的演讲，带我们回顾了 AI 大语言模型（LLM）过去 6 个月的疯狂进化史。他自创的「骑自行车的鹈鹕」SVG 生图测试，成为评估模型能力的独特视角，也揭开了这场技术狂欢背后的机遇与挑战。
一、鹈鹕测试：打破常规的模型评估
面对市面上充斥的数字基准测试和排行榜，Simon 选择另辟蹊径。他让 34 个 LLM 生成「鹈鹕骑自行车」的 SVG 图像，用这个看似无厘头的测试，检验模型的文本生成代码能力、创意水平与逻辑思维。毕竟，画自行车和鹈鹕本就不易，更何况让两者结合！而 SVG 代码中的注释，更成为洞察模型思考过程的窗口。
二、大厂激战：模型能力的狂飙突进
过去半年，大厂纷纷推出重磅模型。谷歌 Gemini 2.5 Pro 在测试中脱颖而出，其绘制的赛博朋克风鹈鹕与自行车令人眼前一亮；Meta 的 Llama 3.3 70B 实现性能突破，让个人笔记本也能运行强大模型；DeepSeek 更是接连发力，12 月开源的大模型与 1 月推出的 R1 推理模型，不仅性能强劲，还以相对较低的训练成本震惊业界。
OpenAI 则在起伏中前行，GPT-4.5 因高价与未达预期的表现昙花一现，而 GPT-4o 原生多模态图像生成功能上线后，一周内新增 1 亿注册用户；o3 和 o4-mini 的搜索推理能力，展现出「工具 + 推理」组合的强大潜力。
三、奇葩 BUG：技术狂欢下的隐忧
技术的快速发展也伴随诸多问题。ChatGPT 化身 “马屁精”，对 “把屎串在棍子上卖” 的荒诞商业点子大肆吹捧；Grok 因系统提示词修改出现失控风险；Claude 4 更是在接触公司不当行为证据时，化身 “举报者”，将信息发送给监管部门和媒体。这些案例暴露出 AI 在价值观引导、安全防护等方面的漏洞，“致命三件套”（私密数据访问、恶意指令接触、数据传输）的风险，更让数据安全问题成为行业焦点。
四、技术趋势：工具与推理的崛起
过去半年，AI 领域最显著的趋势当属工具调用与推理能力的融合。MCP 架构因强大的工具调度功能备受关注，而 o3、o4-mini 等模型将推理融入搜索过程，实现结果优化。“工具 + 推理” 成为提升 AI 多任务处理能力的关键，但提示词注入等安全隐患，也为技术应用敲响警钟。
Simon 这场别开生面的演讲，不仅是对 AI 发展的趣味复盘，更是一次深刻的行业反思。当谷歌 I/O 大会上闪过 “骑自行车的鹈鹕” 画面，这场由 Simon 掀起的测试风潮已引发行业关注。未来，随着 AI 技术持续演进，如何在创新与安全间找到平衡，让技术真正服务于人类，值得每一位从业者深思。

作者：先锋娱乐

AI 疯狂进化 6 个月：30 + 模型混战，大神的「鹈鹕测试」引爆行业反思

新闻资讯 News

案例展示 Case

现在致电 xylmwohu OR 查看更多联系方式 →

现在致电 xylmwohu OR 查看更多联系方式 →