互联网巡回犬 Vol.19：给 Agent 装分析仪表盘，给企业数字系统装「图纸导航」，还有一个把相机变成会思考的眼睛

今天叼回三个项目。一个旧金山的物理系毕业生，厌倦了 AI 行业的过度承诺，要给每一个上线的 Agent 装上 Amplitude 级别的分析仪；一个前 Salesforce 工程副总裁，发现 Salesforce 自己卖的 AI Agent 在客户那里落地成功率极低，于是辞职来修这个洞；还有一个从豆包出来的人，想让手机相机不只是认出东西，而是读懂你要干什么。

Voker：Agent 上线了，但没人知道它到底在干什么

Tyler Postle 学的是物理，做了几年数据科学和机器学习，用他自己的话说，是个「天生的怀疑论者」——对所有技术炒作都保持审慎，直到数据证明为止。大模型刚涌现时，他的反应也是这样：承认有真实应用价值，但对那些「PhD 级别智能」「完全自动化」的营销措辞持怀疑态度。

后来他发现，大模型把 Agent 的搭建门槛拉低了，但没有人认真解决「Agent 上线之后表现如何」这个问题。1

他做了一个调研，访谈了 100 多名 AI 创始人、产品经理和 Agent 工程师，问同一个问题：你们怎么监控线上 Agent 的？答案基本一致：靠人工翻 trace 日志，偶尔加点 eval，主要靠等用户投诉来发现问题。

这就是 Tyler 认为缺的那条腿。任何一个网站或者产品都有 Amplitude、PostHog 这类分析工具，能告诉你用户在点哪里、路径是什么、哪个功能转化率低。Agent 没有等价物。用户在跟 Agent 说什么、Agent 在哪些地方卡壳、哪次提示词改动导致预订成功率下降了——这些在现有工具里都是盲区。

Voker 做的就是 Agent Analytics Platform。产品逻辑很直接：接入一个轻量 SDK，它就开始自动采集 Agent 的对话数据，自动标注三类事件：用户意图（比如「帮我在拉斯维加斯订下周六有泳池景的房间」）、修正信号（「不对，那个房间没有泳池景，重试」）、Agent 解决结果（工具调用返回订单号，成功）。

这三类标注叠加起来，就形成了 Agent 在真实用户场景下的行为全景，不需要你手动设规则，自动跑出来的。2

他们的目标客户是线上 Agent 月均对话量超过 1000 次的团队——这个量级下，人工翻日志已经完全失效，靠 ChatGPT 分析原始日志在统计上也不可靠，但专门的分析工具又几乎不存在。

2026 年 5 月 19 日，Voker 宣布完成 220 万美元 pre-seed 融资，投资方为 Y Combinator（YC S24 批次）和 FundersClub。产品同天在 ProductHunt 正式发布，免费层支持每月 2000 次事件。3

为什么现在做有意义：Agent 行业正处在一个转折点——从「能不能搭」跑向「搭了能不能用」。大量企业把 Agent 推上线，发现它承诺的东西实际上没有被兑现，但又不知道出了什么问题。Tyler 把这个情况总结得很干：「AI 行业写了支票，留给独立开发者去兑付。」如果可观测性问题不解决，Agent 失败会成为一个让用户倒退回旧工作方式的加速器。Voker 切的是 Agent 基础设施里一个还没人认真填的坑，产品层面它更像是一个监控平台，而不是另一个 Agent 框架——这在现有竞争格局里相对独立，没有直接的同类比较对象。

Tribal AI：Salesforce 自己的 Agent 产品为什么会在客户那里跑失败

Yoav Kolodner 在 Salesforce 做了多年工程副总裁，职责是帮公司把 AI 产品落地到企业客户那里。在他观察的大量案例里，有一个规律：AI Agent 在 demo 里表现很好，进了真实的企业环境就容易翻车。

原因不是模型不够强，而是企业环境有一套极度复杂的「规则层」。每家公司的 Salesforce CRM 里都堆积了多年业务规则——对象之间的依赖关系、权限控制、自定义字段、触发器逻辑、合规约束——这些东西 AI Agent 一概不知道。它在执行任务时，可能改了一个字段，触发了一条自动化规则，最后导致下游的账务系统多发了一封对账邮件，或者客户记录在某个审计字段上留下了错误状态。没有人在部署之前告诉过它这些会发生。4

Yakir Daniel，Tribal 的 COO，之前创立了两家公司分别被 NetApp 和华为收购；CTO Lior Sidi 在 Wix 领导过 AI 团队，他的总结最直接：「我们太清楚上下文信息对生产负载有多重要。」

Tribal AI 三位联合创始人（左起：Yakir Daniel、Yoav Kolodner、Lior Sidi）穿着品牌 T 恤在户外合影|图片来源：SiliconAngle

Tribal 的产品逻辑是：在 AI Agent 进企业之前，先把这家公司的 CRM 系统的「元数据层」完整扫一遍——所有对象、自动化规则、权限配置、字段依赖关系、业务流程约束，全部摄取进来，形成一个他们叫做 Metadata Fabric 的上下文底座。Agent 在这个底座上运行，知道自己在哪个环境里、哪些操作会触发什么后果、哪些规则不能碰。

第一个落地场景是 Salesforce Agentforce——Salesforce 自己的 Agent 平台产品，刚开始铺开到企业客户，正好需要这种元数据理解层来提升部署成功率。后续计划拓展到 ServiceNow、SAP、NetSuite、Workday 等主流企业平台。

2026 年 5 月 20 日，Tribal AI 宣布完成 1000 万美元种子轮，Team8 领投，DYDX Capital 跟投，还有一批在 Salesforce 生态有多次退出经历的匿名天使投资人参与。公司总部在纽约。5

为什么这件事没人早做：把企业元数据抽象化本来就是一件费力的脏活，需要对每家公司的系统深度理解，不是通用的模型能力问题。大模型供应商的利益在于卖更强的模型，不在于替客户做实施层的打磨工作。Salesforce 自己的 Agentforce 已经有落地问题被广泛讨论，这给 Tribal 提供了一个清晰的进场理由：让 Agent 的出错不再靠投诉发现，而是靠系统性的前置规则理解来预防。Team8 作为领投方的主要赌注，是企业 AI 从「试用」到「可信任」这一跃迁阶段里，会出现一批专门解决落地可靠性的基础设施公司。

Chance AI：把相机做成会思考的眼睛

曾熙在巴塞罗那大学读认知科学与当代艺术的博士，研究的问题是：人类视觉系统是怎么把视觉信号转化成情绪、记忆和意义的。毕业后他去了一加、OPPO，做产品和设计，最后一份工作是字节跳动 Flow 团队高级总监，主导了豆包的拍照功能。

他离职创业的时间节点是 2024 年 GPT-4o 多模态模型出来的时候。他觉得技术上的信号终于对了：在这之前，视觉 AI 基本上是把图片识别出来，但没有推理能力；GPT-4o 之后，让 AI 理解「用户拍这张照片是要解决什么问题」这件事，第一次变得可行。6

Chance AI 的产品叫 Chance，核心入口是相机，而不是输入框。打开 App，直接拍，系统自动理解你在看什么、你大概想做什么，然后给出解释、建议或者行动方案。

技术上曾熙做了一个反行业共识的选择：不用一个大模型解决所有视觉问题，而是把视觉推理过程拆成四个独立的工程模块——采集视觉信号、转化成模型可理解的格式、建立统一通信协议、执行深度理解推理。他类比的是人类生物视觉机制：眼睛的视网膜、视神经、视皮层各司其职，没有一个统一的「超级眼睛」负责所有事情。

效果可以量化：Chance AI 在多模态推理基准 MMMU-Pro 上跑出 86.07% 的准确率，超过了 Gemini 3 Pro、GPT-5.4 和 Claude Opus 4.6，也超过了人类基线（85.4%），目前是已公开数据里的最高分。

产品在北美的增长轨迹比较清晰：切入北美大学生群体，在纽约大学、南加州大学建立种子用户网络，核心使用场景是穿搭判断、出行决策、个人形象分析。上线约一年，积累了 20 万用户，40% 来自北美，几乎没有买量，30 天回访率 49.2%，两度拿到 Product Hunt 当日榜首。

Chance AI 在北美高校开展线下活动，活动标语为「Stay curious, or stay average」|图片来源：硬氪

2026 年 5 月 20 日，Chance AI 宣布完成数百万美元天使轮融资，由美图领投，NYX Ventures 和阿里系投资机构跟投。7

美图作为领投方的逻辑值得一提：美图现在做的事情，从相机 App 到 AI 形象工具，和 Chance AI 的方向有明显产品层面的交叉。美图领投不只是财务布局，它同时是一个战略认可信号：视觉 AI 从「处理图片的工具」向「理解视觉意图的 Agent」演进，而美图本身也在这条路上走。曾熙的判断是，大厂会继续做统一的视觉基础模型，但视觉理解推理的「中间神经系统」——把视觉信号组织成有意义的行动——是一个大厂目前没有专门做、创业团队又够小步快跑的空间。

三条线索，一个共同信号：Agent 从「能不能搭」走到「能不能真正落地且可信任」，这个跃迁需要一批新的工具层。Voker 补的是上线后的可见性，Tribal 补的是部署前的上下文理解，Chance AI 走的是面向消费者的 Visual Agent 方向——用户不再打字，拿起相机就是开始。