“我们已经没有什么测试题目可以问了。”
“现实才是最终的推理测试。”
北京时间7月10日上午11点,埃隆·马斯克旗下的xAI公司正式发布了其最新一代AI大模型——Grok4。在长达53分钟的直播发布会中,马斯克自信宣称,Grok 4是“全球最强AI模型”,在学术能力、推理速度、多模态交互等方面实现了全面突破,甚至在处理学术问题上已达到博士级别。
01
Grok4到底有多强?
1. 博士级学术能力,推理能力爆表
Grok 4在多个权威基准测试中表现优异,尤其在数学推理和逻辑推理方面,刷新了行业纪录:
• 在HLE(高难度推理测试)中,Grok 4得分高达45%,远超OpenAI o3(约20%)和Gemini 2.5 Pro(约22.5%)。
• 在AIME 2025数学竞赛中,Grok 4准确率达到95%,展现出极强的数学推理能力。
• 在SWE-Bench编程能力测试中,Grok 4 Code版本与Claude 4 Opus并列第一,达到72-75%。
马斯克表示,Grok 4经过xAI自研的Colossus超级计算机训练,具备深度推理能力,能够理解复杂任务并提供清晰的结构化输出。
2. 多模态交互,能“看懂”图像
Grok 4不仅支持文本输入,还新增了图像理解能力,可以处理图文混合的信息。这意味着它不仅能和你对话,还能“看懂”图片内容,实现真正的多模态交互。
3. 实时联网,理解互联网文化
Grok 4具备实时网络访问能力,可以获取X平台上的最新信息,并理解互联网文化,包括对梗、俚语和幽默的高精度识别。这使得Grok 4在应对日常对话、社交媒体内容分析等场景中更加得心应手。
02
技术架构全面升级
Grok 4在架构上进行了多项优化:
• 上下文窗口:虽然Grok 4的上下文窗口为13万tokens,相比上一代Grok 3的100万tokens有所缩减,但这主要是为了提升模型的推理速度和实时性。
• 函数调用与结构化输出:Grok 4支持函数调用,可以直接触发外部工具或API(如查天气、订机票),并能返回结构化数据(如JSON表格),方便开发者集成。
• 编程模型优化:Grok 4 Code版本专为开发者设计,支持Python、JavaScript、Java、C++、Go、Rust、PHP和SQL等多种编程语言,提供高质量的代码生成和调试支持。
03
定价与商业化策略
Grok 4的定价策略如下:
• API调用费用:每100万tokens输入价格为3美元,输出价格为15美元。
• 订阅费用:Grok 4的订阅费为30美元/月,更强大的Grok 4 Heavy版本为300美元/月,而Grok 3继续维持免费开放。
• 免费额度:新用户可获得首月150美元的API免费额度,无需信用卡即可开始使用。
04
马斯克的野心:重写人类知识库
马斯克为Grok 4设定了一个极具雄心的目标:利用Grok 4的推理能力重写整个人类在线知识库。具体包括:
• 补充缺失的信息;
• 删除错误的内容;
• 基于“纯净版”知识库重新训练模型。
这一计划如果成功,将极大地提升AI模型的知识准确性和可靠性,推动AI向更高层次发展。
05
行业竞争与未来展望
Grok 4的发布,无疑将对当前AI大模型市场产生深远影响:
• 与OpenAI、谷歌、Anthropic等巨头正面竞争:Grok 4在推理能力、编程能力、数学推理等关键指标上均达到或超越了GPT-4、Claude 4 Opus、Gemini 2.5 Pro等主流模型。
• 推动AI技术的商业化落地:Grok 4在API标准化、企业部署等方面的优化,将使得开发者集成更加便捷,进一步推动AI技术在各行各业的应用。
• 开发者生态的构建:随着Grok 4的发布,xAI有望构建一个全新的开发者社区,支持模型的应用与优化,形成良性循环。
AI大模型的“博士时代”已经到来,Grok 4的发布,标志着AI大模型正式进入了“博士时代”。它不仅在技术上实现了重大突破,更在商业化和应用落地上展现出巨大潜力。正如马斯克所言:“现实才是最终的推理测试。”Grok 4能否在现实世界中经受住考验,我们拭目以待。
推荐活动