2026年的AI格局正在经历一场奇特的"双向撕裂"。
一边,GPT-5级别的模型在数学竞赛中击败人类、AI Agent能伪装八年老贡献者潜入开源社区、编码Agent自动生成数百万行代码。能力在狂飙,天花板在不断被捅破。
另一边,WordPress VIP的最新调查显示——86%的消费者无法完全信任AI生成内容,60%的消费者看到品牌营销中出现"AI"二字反而心生反感。企业投入巨资把AI塞进产品,换来的却是用户更深的怀疑。
这中间横亘着一个根本性的矛盾:
AI"看起来"越来越聪明,但你永远无法"证明"它是对的。
大语言模型的本质是概率引擎——它不是在"推理",而是在"预测下一个最可能的词"。这赋予了它令人惊叹的创造力,但也注定了它在关键决策场景中的致命缺陷:幻觉不是bug,是feature。
2026年6月17日,一家名为 Pramaana Labs 的初创公司宣布完成 2700万美元种子轮融资,由硅谷顶级风投Khosla Ventures领投。这家公司的野心直指上述矛盾的核心——它试图用数学界的"终极武器"——形式化验证(Formal Verification)——来给AI的输出施加一层不可篡改的逻辑约束,让AI从"我觉得对"变成"我证明了对"。
这不是又一个"AI+某技术"的缝合故事。这可能是AI从工具走向可信基础设施的关键转折点。
要理解Pramaana Labs在做什么,首先要理解一个核心概念:形式化验证。
想象你在写一个财务软件。如果用户的账户余额是100元,他取了50元,余额应该是50元。传统测试的做法是——写一个测试用例,运行一下,看输出是不是50元。你写了100个测试,通过了,你很放心。
但是,测试只能证明有bug,不能证明没有bug。
形式化验证的思路完全不同。它不"测试"代码,而是用数学证明"代码正确"。具体来说:
这种做法的核心工具之一是 Lean——微软研究院开发的开源交互式定理证明器。在Lean中写出的代码,不是"大概率正确",而是**"数学上正确"**。
举个极其简化的例子。在传统编程中,你可能写:
def add(x, y):
return x + y
测试时你传入(2, 3)得到5,传入(-1, 1)得到0,你觉得没问题。但在Lean中,你不仅要写这个函数,还要证明它满足交换律(add(x, y) = add(y, x))、结合律等性质——证明的过程由机器逐行验证。
听起来很美,但代价巨大。在过去几十年里,形式化验证一直是个极度昂贵的事情。它主要用在航天、核反应堆控制、操作系统内核等"错误不可接受"的领域。一个典型的案例是:亚马逊的AWS加密服务用形式化验证发现了数百个常规测试发现不了的漏洞,但这项工作的投入是以"人年"为单位的。
直到AI的出现,让事情发生了反转。
Pramaana Labs的架构并不复杂,但极其聪明。
核心思路:把AI当成"草稿机",把形式化验证当成"判卷老师"。
具体来说,Pramaana的系统分为两层:
这一层就是传统的大模型。它接收自然语言的问题(比如"根据美国税法第X条,这个案例中的应纳税额是多少?"),然后生成答案或代码。这一层是概率性的——它可能对,也可能错。
这是Pramaana真正的技术壁垒。LLM的输出不会直接交付给用户,而是先送入一个基于LEAN语言构建的形式化验证层。
这个验证层的工作方式是:
最终交付给用户的,不是一个"我觉得没错的答案",而是一个带有数学证明的答案。
Pramaana的CEO Ranjan Rajagopalan说得非常直白:
"从某种程度上说,这就像数学——你必须遵守大量规则。一旦将其编码化,在此基础上进行推理就会变得可预测。"
这不是巧合。这三个领域有一个共同特征:规则密度极高,且规则本身是明文的。
Rajagopalan说了一句意味深长的话:
"世界上最难的问题并非无解,而是缺乏形式化表达。"
Pramaana Labs的融资绝非孤立事件。2026年上半年,形式化验证与AI的结合已经形成了一个不容忽视的技术浪潮:
CATALA是法国的国家级项目,将法国庞大而复杂的税收和社会福利制度编译为可执行代码。简单说,就是把"什么条件下可以领什么补贴"这一套规则全部形式化。Pramaana的CEO明确表示CATALA是其灵感来源。
2026年初,DeepMind发布了AlphaProof Nexus——一个通过Lean工具约束AI逻辑步骤的系统。它能将LLM生成的自然语言推理转化为形式化证明,并在测试中解决了9个埃尔德什问题和44个序列猜想。陶哲轩对此高度评价。
法国AI公司Mistral发布了Leanstral——首个开源的、专为Lean 4设计的代码代理。它能同时生成代码和对应的形式化证明。这意味着:AI不仅写代码,还写证明来证明自己的代码是对的。
另一家形式化验证+AI公司Axiom Math在今年早些时候获得了2亿美元融资,目标同样是"用数学证明消除AI幻觉"。
菲尔兹奖得主陶哲轩近年来持续推动AI+形式化验证。他曾用AI生成1125行Lean代码完成复杂证明,验证器自动识别出了3处隐含逻辑漏洞——这些漏洞人类数学家可能几年都发现不了。
2026年4月,港科大团队开发了一种新框架——不是事后检查答案,而是在推理的每一步都加入形式化验证,让AI在"走错路"的瞬间就收到反馈并纠正自己。
支持者认为,形式化验证是AI从"有趣的花瓶"变成"可信的工具"的唯一路径。
批判者则指出了几个致命的局限:
形式化验证保证的是逻辑一致性——如果前提为真,那么结论为真。但前提本身谁来保证?
在税务场景中,如果编码的税法规则本身有漏洞(美国税法经常有"立法意外"),那么即使AI的推理完全符合形式化验证,结论也可能是荒谬的。形式化验证不能替代对规则本身的批判性审视。
让我们诚实一点:如果一个任务有极其明确的规则(比如"如果A则B"),那么传统软件就足以解决,根本不需要AI。
AI的独特价值在于那些没有明确规则的领域——写一篇引人共鸣的文案、设计一个创新的分子结构、对一个开放性问题提出洞见。而这些任务,恰恰是形式化验证无能为力的。
Pramaana选择税务、法律、药物研发,确实是巧妙的切入点——这些领域既有明确规则的"刚性骨架",又有需要AI的"柔性空间"。但这不是通用方案,而是一系列精心挑选的特例。
Pramaana模式需要顶级人才(LEAN专家 + 领域专家 + 工程团队)的深度介入。前IRS局长当顾问、伯克利教授做学术支持——这不是一个平民化的技术方案。
如果形式化验证AI最终变成只有大企业和富裕国家用得起的"贵族技术",我们是否需要担心一个新的"AI可靠性鸿沟"?那些最需要AI帮助的领域(发展中国家的小型法律咨询、基层医疗机构诊断),反而因为负担不起形式化验证的成本而继续使用"不可靠的AI"?
Pramaana Labs的2700万美元融资,Khosla Ventures的押注,DeepMind和Mistral的跟进——所有这些信号指向同一个方向:
AI正在从"展现能力"的阶段,进入"为自己的输出负责"的阶段。
2024-2025年的AI叙事是"模型变大了、变强了"。2026年的叙事正在转向"模型变可信了、变可用了"。形式化验证不是AI的全部未来——但它可能是AI从"消费级玩具"走向"工业级工具"的必经之路。
正如Pramaana的CEO所说:
"每一个'出错就意味着损害健康、财产或自由'的领域,都有其规则存在。"
而现在,这些规则终于有了可以被数学证明来守护的可能。