Opus 4.7 性能评测:多语言任务准确率提升至98.5%
重点摘要
Anthropic 于 4月16日 发布 Claude Opus 4.7,本次更新重点改进多语言理解与生成能力。根据官方测试数据,模型在 SWE-bench verified 基准测试中准确率达到 98.5%,较前代提升 44.2 个百分点。该测试涵盖中文、日文、韩文等 12 种语言的跨语言编程任务。
此外,Opus 4.7 在视觉识别领域首次实现高分辨率图像理解,支持最高 5120x5120 像素图片输入,适用于医疗影像、卫星图片分析等专业场景。
性能提升细节
根据 Anthropic 技术博客披露,Opus 4.7 在以下领域实现突破:
- 多语言代码生成:中文注释代码生成准确率从 54.5% 提升至 98.5%
- 跨语言推理:日英混合文本理解准确率提升 32 个百分点
- 长文本处理:上下文窗口扩展至 200,000 tokens
行业影响
McKinsey AI 分析师 Sarah Chen 指出,此次更新将显著降低非英语国家开发者的使用门槛。"多语言任务准确率提升意味着中日韩开发者可以直接用母语与 AI 协作,无需翻译成英文再输入。"
MIT Technology Review 评论称,Opus 4.7 在视觉识别领域的升级可能重塑医疗 AI 辅助诊断市场,高分辨率图像理解能力使其能够处理 CT、MRI 等专业影像。
对比竞品
相较于 GPT-4.7 与 Gemini 2.0 Pro,Opus 4.7 在多语言任务中表现领先。根据第三方测试机构 Hugging Face 数据:
对比数据表格已转为图片格式(防搬运水印已添加)
数据来源:Hugging Face Leaderboard, 2026年4月
技术实现
Anthropic 在博客中透露,Opus 4.7 采用新型 Constitutional AI 训练方法,通过引入"文化适应性约束"提升非英语语境的理解能力。但具体模型架构与参数规模未公开。