全速加载中...
首页
文章
随笔
留言
友链
关于
工具
更多
湘ICP备2021007748号-4
湘公网安备案湘公网安备43052202000137号
又拍云

从"概率正确"到"数学可证":Pramaana Labs 2700万美元融资背后,一场AI可靠性范式革命刚刚打响

引言:AI最致命的弱点,可能不是能力不够,而是"不可证明"

2026年的AI格局正在经历一场奇特的"双向撕裂"。

一边,GPT-5级别的模型在数学竞赛中击败人类、AI Agent能伪装八年老贡献者潜入开源社区、编码Agent自动生成数百万行代码。能力在狂飙,天花板在不断被捅破。

另一边,WordPress VIP的最新调查显示——86%的消费者无法完全信任AI生成内容,60%的消费者看到品牌营销中出现"AI"二字反而心生反感。企业投入巨资把AI塞进产品,换来的却是用户更深的怀疑。

这中间横亘着一个根本性的矛盾:

AI"看起来"越来越聪明,但你永远无法"证明"它是对的。

大语言模型的本质是概率引擎——它不是在"推理",而是在"预测下一个最可能的词"。这赋予了它令人惊叹的创造力,但也注定了它在关键决策场景中的致命缺陷:幻觉不是bug,是feature。

2026年6月17日,一家名为 Pramaana Labs 的初创公司宣布完成 2700万美元种子轮融资,由硅谷顶级风投Khosla Ventures领投。这家公司的野心直指上述矛盾的核心——它试图用数学界的"终极武器"——形式化验证(Formal Verification)——来给AI的输出施加一层不可篡改的逻辑约束,让AI从"我觉得对"变成"我证明了对"。

这不是又一个"AI+某技术"的缝合故事。这可能是AI从工具走向可信基础设施的关键转折点。


什么是"形式化验证"?——把"我觉得"变成"我证明"

要理解Pramaana Labs在做什么,首先要理解一个核心概念:形式化验证。

想象你在写一个财务软件。如果用户的账户余额是100元,他取了50元,余额应该是50元。传统测试的做法是——写一个测试用例,运行一下,看输出是不是50元。你写了100个测试,通过了,你很放心。

但是,测试只能证明有bug,不能证明没有bug。

形式化验证的思路完全不同。它不"测试"代码,而是用数学证明"代码正确"。具体来说:

  1. 先写出精确的数学规格(specification)——就像几何证明中的"已知"和"求证"
  2. 然后写代码,同时构造一个数学证明,证明这段代码在任何输入下都符合规格
  3. 证明由机器自动检查——每一步推理都必须符合逻辑规则,没有任何"想当然"的空间

这种做法的核心工具之一是 Lean——微软研究院开发的开源交互式定理证明器。在Lean中写出的代码,不是"大概率正确",而是**"数学上正确"**。

举个极其简化的例子。在传统编程中,你可能写:

python 复制代码
def add(x, y):
    return x + y

测试时你传入(2, 3)得到5,传入(-1, 1)得到0,你觉得没问题。但在Lean中,你不仅要写这个函数,还要证明它满足交换律(add(x, y) = add(y, x))、结合律等性质——证明的过程由机器逐行验证。

听起来很美,但代价巨大。在过去几十年里,形式化验证一直是个极度昂贵的事情。它主要用在航天、核反应堆控制、操作系统内核等"错误不可接受"的领域。一个典型的案例是:亚马逊的AWS加密服务用形式化验证发现了数百个常规测试发现不了的漏洞,但这项工作的投入是以"人年"为单位的。

直到AI的出现,让事情发生了反转。


Pramaana Labs的技术架构:LLM + LEAN = "可证明的AI"

Pramaana Labs的架构并不复杂,但极其聪明。

核心思路:把AI当成"草稿机",把形式化验证当成"判卷老师"。

具体来说,Pramaana的系统分为两层:

第一层:大语言模型(LLM)——负责生成

这一层就是传统的大模型。它接收自然语言的问题(比如"根据美国税法第X条,这个案例中的应纳税额是多少?"),然后生成答案或代码。这一层是概率性的——它可能对,也可能错。

第二层:确定性验证层(LEAN-based)——负责校验

这是Pramaana真正的技术壁垒。LLM的输出不会直接交付给用户,而是先送入一个基于LEAN语言构建的形式化验证层。

这个验证层的工作方式是:

  • 将LLM的输出转化为可验证的数学规格
  • 用LEAN证明器验证每一步逻辑的正确性
  • 如果验证通过,输出附带有机器可检查的证明工件(proof artifact)
  • 如果验证不通过,系统会生成反例(counterexample),指出具体哪里错了

最终交付给用户的,不是一个"我觉得没错的答案",而是一个带有数学证明的答案。

Pramaana的CEO Ranjan Rajagopalan说得非常直白:

"从某种程度上说,这就像数学——你必须遵守大量规则。一旦将其编码化,在此基础上进行推理就会变得可预测。"

为什么选择法律、税务和药物研发?

这不是巧合。这三个领域有一个共同特征:规则密度极高,且规则本身是明文的。

  • 税法:美国税法有数万页,每一行都是明确的规则。前美国国税局局长Danny Werfel已加入Pramaana团队
  • 法律合同:判例法虽然复杂,但推理过程有严格的逻辑链条
  • 药物研发:化合物的化学性质、分子结构的可计算性、临床试验的统计规则——都适合形式化表达

Rajagopalan说了一句意味深长的话:

"世界上最难的问题并非无解,而是缺乏形式化表达。"


这不是孤例——形式化验证+AI的2026年"大爆发"

Pramaana Labs的融资绝非孤立事件。2026年上半年,形式化验证与AI的结合已经形成了一个不容忽视的技术浪潮:

法国的CATALA项目(先例)

CATALA是法国的国家级项目,将法国庞大而复杂的税收和社会福利制度编译为可执行代码。简单说,就是把"什么条件下可以领什么补贴"这一套规则全部形式化。Pramaana的CEO明确表示CATALA是其灵感来源。

Google DeepMind AlphaProof Nexus

2026年初,DeepMind发布了AlphaProof Nexus——一个通过Lean工具约束AI逻辑步骤的系统。它能将LLM生成的自然语言推理转化为形式化证明,并在测试中解决了9个埃尔德什问题和44个序列猜想。陶哲轩对此高度评价。

Mistral Leanstral

法国AI公司Mistral发布了Leanstral——首个开源的、专为Lean 4设计的代码代理。它能同时生成代码和对应的形式化证明。这意味着:AI不仅写代码,还写证明来证明自己的代码是对的。

Axiom Math融资2亿美元

另一家形式化验证+AI公司Axiom Math在今年早些时候获得了2亿美元融资,目标同样是"用数学证明消除AI幻觉"。

陶哲轩的实践

菲尔兹奖得主陶哲轩近年来持续推动AI+形式化验证。他曾用AI生成1125行Lean代码完成复杂证明,验证器自动识别出了3处隐含逻辑漏洞——这些漏洞人类数学家可能几年都发现不了。

香港科技大学的"实时数学老师"

2026年4月,港科大团队开发了一种新框架——不是事后检查答案,而是在推理的每一步都加入形式化验证,让AI在"走错路"的瞬间就收到反馈并纠正自己。


正反视角:形式化验证是AI的"银色子弹"吗?

✅ 正方:从"概率工具"到"可信基础设施"的升维

支持者认为,形式化验证是AI从"有趣的花瓶"变成"可信的工具"的唯一路径。

  1. 解决信任问题:86%的消费者不信任AI内容,根本原因在于AI的决定不可追溯、不可验证。形式化验证给出了一个"可检查的逻辑链条"——错了能找到在哪一步错的
  2. 解锁高价值场景:法律、医疗、金融、自动驾驶——这些行业不是不需要AI,而是不敢用AI。形式化验证可能是让这些行业"敢用"的钥匙
  3. AI反哺形式化验证:这是一个美妙的闭环——AI让形式化验证变得便宜(自动生成证明),形式化验证让AI变得可靠。过去形式化验证的高门槛正在被AI降低
  4. 合规和监管的需求:随着各国对AI监管趋严,"可解释AI"从理想变成刚需。形式化验证提供的"逻辑完整性记录"天然符合监管要求

❌ 反方:数学上可靠不等于现实中适用

批判者则指出了几个致命的局限:

  1. 规则不完整的问题:形式化验证的前提是"规则已经完整编码"。但现实世界充满了模糊地带。税法可以编码化,但"合理避税"和"逃税"之间的灰色地带怎么办?法律中的"善意""合理注意"这类概念如何形式化?
  2. 极限成本问题:陶哲轩团队证实,即使借助AI,形式化一个中等复杂度的数学定理仍然需要数千行Lean代码。将整个美国税法形式化,工作量可能以"万人年"计
  3. 可扩展性问题:《ACM通讯》的最新综述文章指出,形式化方法在小型关键系统(如加密算法)中表现出色,但在大型、动态变化的系统中面临严峻的可扩展性挑战
  4. "证明的证明"问题:LEAN证明器本身也有bug怎么办?谁验证验证器?这就陷入了一个无限回归的困境
  5. 当AI推理超出规则:如果AI需要做出"创造性的判断"——比如药物研发中提出一个全新机制——这个判断本身就不在现有规则系统内,形式化验证无从谈起
  6. 商业模式的悖论:Pramaana的每套系统都需要领域专家(前IRS局长、大学教授)参与构建专属形式化模型。这本质上是一种"高定制化服务",能否规模化是关键疑问

我的批判性思考:三个不可回避的终极问题

第一,"证明正确"和"做出正确判断"是两回事

形式化验证保证的是逻辑一致性——如果前提为真,那么结论为真。但前提本身谁来保证?

在税务场景中,如果编码的税法规则本身有漏洞(美国税法经常有"立法意外"),那么即使AI的推理完全符合形式化验证,结论也可能是荒谬的。形式化验证不能替代对规则本身的批判性审视。

第二,AI真正有价值的场景,恰恰是"没有规则"的地方

让我们诚实一点:如果一个任务有极其明确的规则(比如"如果A则B"),那么传统软件就足以解决,根本不需要AI。

AI的独特价值在于那些没有明确规则的领域——写一篇引人共鸣的文案、设计一个创新的分子结构、对一个开放性问题提出洞见。而这些任务,恰恰是形式化验证无能为力的。

Pramaana选择税务、法律、药物研发,确实是巧妙的切入点——这些领域既有明确规则的"刚性骨架",又有需要AI的"柔性空间"。但这不是通用方案,而是一系列精心挑选的特例。

第三,技术路线的"贵族化"风险

Pramaana模式需要顶级人才(LEAN专家 + 领域专家 + 工程团队)的深度介入。前IRS局长当顾问、伯克利教授做学术支持——这不是一个平民化的技术方案。

如果形式化验证AI最终变成只有大企业和富裕国家用得起的"贵族技术",我们是否需要担心一个新的"AI可靠性鸿沟"?那些最需要AI帮助的领域(发展中国家的小型法律咨询、基层医疗机构诊断),反而因为负担不起形式化验证的成本而继续使用"不可靠的AI"?


结语:AI需要为自己的"正确"负责

Pramaana Labs的2700万美元融资,Khosla Ventures的押注,DeepMind和Mistral的跟进——所有这些信号指向同一个方向:

AI正在从"展现能力"的阶段,进入"为自己的输出负责"的阶段。

2024-2025年的AI叙事是"模型变大了、变强了"。2026年的叙事正在转向"模型变可信了、变可用了"。形式化验证不是AI的全部未来——但它可能是AI从"消费级玩具"走向"工业级工具"的必经之路。

正如Pramaana的CEO所说:

"每一个'出错就意味着损害健康、财产或自由'的领域,都有其规则存在。"

而现在,这些规则终于有了可以被数学证明来守护的可能。


参考链接

  • TechCrunch: Pramaana Labs raises $27M seed round from Khosla Ventures
  • 至顶科技: Pramaana Labs获2700万美元融资,将形式化验证引入AI
  • 腾讯新闻: Pramaana Labs获2700万美元融资
  • SiliconAngle: Pramaana Labs raises $27M to make AI prove its answers
  • ACM: Formal Reasoning Meets LLMs - Toward AI for Mathematics and Verification
  • Formal Verification in the Age of AI: From Certified Math to Autonomous Agent Safety
  • 新浪新闻: 可验证人工智能如何通过数学证明彻底解决AI的可靠性危机
  • 新浪新闻: 形式化验证工具真能解决数学证明的消化危机吗
  • Ones: AI编写软件的安全性——为什么Lean 4和形式化验证是未来
  • 搜狐: AI生成代码——软件供应链的潜在灾难与形式化验证的救赎
  • 新浪科技: 调查——六成美国消费者反感品牌营销中出现AI
  • Pramaana Labs 官方网站
【版权声明】
✨ 本文来自 [张苹果博客] ✨
🌿 你可以:自由转发到社交网络或个人网站。
🌿 你需要:标注作者并附上本文链接(就像给文章留个回家地址~)。

上一篇

评论一下

评论列表

 
等待第一条评论中…
用户头像
小苹果
发布日期:2026年06月18日