题图采用 Recraft 生成,尝试一下

现状观察

最近在开发向量脉络这个 AI 工作流产品时,我观察到一个有趣的现象。虽然我已经详细介绍了 AI 的使用方法,并手把手教过提示词编写,但真正将 AI 融入日常工作的同事却很少。大多数同事只是尝鲜,一个月用不了几次,也有人觉得“用 AI 还不如自己来得快”。

这个现象其实在我和其他公司交流时也经常听到。大家都在谈 AI,都觉得 AI 很重要,可是真正把 AI 变成工作伙伴的人凤毛麟角。更多的人停留在尝鲜阶段:听说最近的 AI 不错,注册一个账号试试,问几个问题觉得挺有意思,然后就渐渐被遗忘在浏览器的某个标签页里。

为什么会这样?

被动式AI的困境

最开始我以为是因为 AI 不够强大,但是随着这一年来对 AI 产品的深入研究和开发,我逐渐意识到问题可能出在另一个地方:当前绝大多数 AI 产品的交互模式都是“被动式”的。

什么是“被动式”?简单来说就是 AI 永远在等待用户主动发起对话或操作。你要主动打开 ChatGPT 的页面,主动思考要问什么问题,主动组织语言发送请求,AI 才会开始工作。在 Notion 里写文章,你要主动按下 “/” 键,选择 AI 相关的功能,它才会帮你做事。这就像是一个永远等着你发号施令的助理,如果你不主动开口,Ta 就会一直安静地站在角落里。

但是你更喜欢哪种助理?是那种你每件事都要主动吩咐的,还是那种有眼力见、会提前帮你想到并做好各种事情的?

采用 Recraft 的 2D 艺术海报风格生成,尝试一下

显然是后者。可是为什么现在的 AI 产品大多采用被动式的交互模式呢?

这里面有一个很现实的原因:Token 的成本。在2023年初,调用 AI 模型的成本还比较高,一次普通的对话可能就要花费几美元,如果让 AI 在后台不停地主动分析和处理,那么费用会相当可观。因此,产品设计上不得不采取这种被动式的方案,等待用户主动发起请求才调用 AI。

但是现在情况开始发生变化了,各家 AI 公司竞争激烈,模型的性能在提升的同时 Token 的价格在不断下降。就像当年 Arduino 的出现降低了硬件开发的门槛,让“人人皆创客”成为可能一样,更低成本的 AI 模型也为“主动式 AI”的普及创造了条件。

模型年份输入价格 (/1M Tokens)输出价格 (/1M Tokens)
gpt-4-32k2024$60$120
gpt-4o2025$2.5$10
DeepSeek2025$0.14$0.28

也就是说在今年你可以用千分之二的成本(DeepSeek 对比 gpt-4-32k)获得比去年最强王者还厉害的 AI 模型(排名来自 lmarena)。成本已经发生了巨大的量级变化,但是产品的交互范式呢?目前我们能看到的大部分 AI 应用还是以 Chatbot 类型为主。Chatbot 应用的好处是用户基本没有学习成本,和日常聊天一样使用即可,用户上手就能用。

但是没有学习成本不意味着没有心智成本。

还记得你第一次使用 Excel 的时候吗?你可能会觉得它就是一个可以画表格的工具。直到有一天看到别人使用 Excel 时轻轻往下一拉,整个列的数据就自动按规律填充好了,你才恍然大悟:原来 Excel 还可以这样用!

blog/a2b478b0-548a-47d8-896f-c15e9a34a039excel-smart-fill.gif

这就是一个典型的心智成本问题:即便 Excel 的智能填充功能非常强大,但如果用户不知道这个功能的存在,或者在使用时没有想起来可以用这个功能,那么这个功能对这个用户来说可能永远都是不存在的。

现在的 AI 产品也是如此。我经常看到这样的场景:

一个同事正在搜集并整理资料,通过搜索引擎查找了海量的页面,删删改改写得很痛苦。明明我们已经给大家介绍过各种 AI 工具,但他完全没想到可以让 AI 帮忙。等我提醒他:“要不要用 AI 试试?”他才如梦初醒:“对哦,我都忘了还可以用 AI!”

另一个同事在整理商品图片,一条一条人工分类统计,对图片进行几种不同维度的打标。我问他:“为什么不用 AI 来分类呢?”他说:“啊?AI 还可以理解图片?”

想试试 AI 的图像理解和生成?试试这个 魔法影像转换仪

客服的同事我专门给他们设计了工作流,可以查询工单/查询专业知识/优化回复语言,但是我们从后台观察发现几天后使用频次就逐步降低,询问得知很多客服同事觉得还是不如自己直接回答客户问题更快。

这就是大部分人在使用 AI 时的真实写照:

  1. 要么完全忘记了还有 AI 这个选项
  2. 要么不知道 AI 能做什么
  3. 要么觉得用 AI 比直接做更麻烦

就算他们知道可以用 AI,还要面临一系列的心智负担:

  • 要打开一个新的网页或软件
  • 要思考如何描述自己的需求
  • 要担心 AI 会不会理解错误
  • 要检查 AI 的输出是否可靠
  • 要把结果复制粘贴回工作界面

这些步骤每一个看起来都很简单,但是加在一起就会让人不自觉地想:“算了,还是自己来做吧。”

这就像你有一个助理,但是这个助理在另一个办公室,你每次要找他帮忙都要:

  1. 走到他的办公室
  2. 详细解释你要做什么
  3. 等他完成后检查是否符合要求
  4. 如果不对还要重新解释
  5. 最后还要把他的工作成果搬回自己的办公室

久而久之,除非必要,谁还会主动去找这个助理帮忙呢?

blog/dda134cc-a52b-49ec-bca4-c33c2048f26ean-isometric-modern-office-scene--two-offices-sepa.jpg

所以当我们说“大部分人用不起来 AI”的时候,其实不是技术能力的问题,而是我们目前的 AI 产品设计让用户承担了不必要的心智负担。用户需要时刻记得“我可以用 AI”,需要主动切换到另一个工具,需要学习如何与 AI 沟通,这些都是在阻碍 AI 真正融入日常工作流程的绊脚石。

那么,到底应该怎么设计才能让用户真正无缝地用起来 AI 呢?

从被动到主动的范式转变

先说一个我觉得非常棒的产品设计例子:Cursor AI。Cursor AI 是一个 AI 辅助的代码编辑器。

AI 辅助编程这个场景从几年前就已经有了,基本的操作包括自动补全和 AI 对话生成代码。

code-completion.gif
chatbot-code-generation.gif

Cursor AI 作为一个新入局的玩家是如何在这些基本操作上玩出花来获取这么多开发者的青睐的呢?

首先对于自动补全功能,Cursor 更进一步,不仅仅只预测需要补全的代码,还预测你接下来可能会需要编辑哪一行(或者编辑哪几行),自动帮你把光标移到那一行去,省去你用鼠标或键盘移动光标的时间。千万不要小看这一点点时间,对于开发者来说这实际上允许我们一直按 Tab 键就可以实现 自动补全->移动到下一个位置->继续自动补全,每天积少成多其实能省很多时间。Cursor 称之为 Just hit tab

blog/3af31d84-2bd4-4c05-a486-9ca4d0ca6d91cpp-full-video.gif

而对于代码生成这个标准功能,Cursor 也是更近一步,不仅生成代码,他们还专门训练了一个专有模型,只用于处理如何将 AI 生成的代码插入到用户的文件中。要知道用户的代码可能很长,AI 经过分析后可能发现用户的新需求只需要修改两个地方,但是这两个地方可能隔了很远,如果 AI 不能自动帮助用户将修改的代码插入到指定的位置,用户就必须自己手动复制粘贴。Cursor 帮用户把这一步直接省掉,AI 自动帮用户找到新代码应该插入/修改的位置。Cursor 称之为 Instant Apply,他们专门写过博客介绍这个专有模型。

另外 Cursor 还有一个功能叫做 Shadow Workspace,他不是一个直观的功能,然而却能极大地改善开发体验,在某些时候会让人不仅发出感叹:我靠你怎么知道要改这里的!简单来说这个功能就是开启一个隐形的工作区,让 AI 在后台一直同步观测并理解用户的代码。注意这不是仅仅分析用户当前正在编辑的单一代码文件,而是对整个项目都在进行分析。你可以想象成有一个专家就坐在旁边和你一起编写代码,他不仅知道你正在编辑什么代码,还知道你整个项目的结构关系,在你需要的时候会提示你:这里要不这样写。这就是一个绝佳的“主动式” AI 助手的例子,不是等到我问的时候它才回应,而是在我工作的同时一起干活,在有必要的时候给我提示。

那么按照“主动式” AI 的设计方式,我们可以如何改造现有的工具?

例如前面提到的 Excel 智能填充例子,如果要使用智能填充功能,需要先框选内容然后下拉。这个操作对于一个只会基本 Excel 操作的用户来说并不直观,他可能根本想不到还有这么个功能。但是如果我们换个思路:AI 一直在背景中观察用户的操作,当 AI 发现用户在第一行填了学号 20240101,第二行填了 20240102,它就可以立刻发现这个规律。这时与其等着用户去“发现”智能填充功能,不如主动在后面的单元格上显示一个半透明的预览,用户觉得对就确认,不对就继续自己输入,完全不会打断工作流。

blog/12ef43d8-92d3-488e-8e6b-205258bfd2edimage.png

同样的逻辑可以应用到表格的其他部分。比如我输入了“姓名”列和“性别”列,AI 是不是可以主动提示我是否需要添加“出生日期”、“联系电话”、“家庭住址”等列?再比如我输入了一列日期数据,AI 是不是可以主动建议我生成一个图表来可视化这些数据?一个真正智能的 AI 在我做表格的时候,就应该像一个经验丰富的老师傅一样,随时在旁边提供一些有用的建议,而不是等我求助的时候才姗姗来迟。

再比如一个智能的浏览器助手,是否可以在对我的背景知识有所了解的情况下,自动地在后台为我时刻查询我打开的网页中那些我可能不熟悉的关键词/专业术语,整理一个思维导图、相关资料链接给我?当我看到对应专业术语的位置自动为我呈现提示?

当 AI 应用的交互范式从“被动式”转向“主动式”后,用户就不再需要时刻提醒自己要使用 AI 工具来辅助自己,主动式的 AI 工具会不断强化用户的心智,让用户逐渐接受 AI 辅助这一概念。

过渡期的产品设计思考

主动式 AI 一定是接下来 AI 产品的设计趋势,但在大部分用户还没建立起使用 AI 辅助这一心智的时期,步子迈太大容易导致产品叫好不叫座,更多的人只是来尝个鲜。

那在这样一个有点尴尬的过渡时期我们可以如何设计 AI 产品呢?这里分享一点我的拙见。

首先来看现在这个过渡期的状况:

  1. 大语言模型成本已经降到一个较低的价格,主动式 AI 的技术成本处于可控状态。
  2. 用户对 AI 的概念停留在“知道”的阶段,没有形成日常使用 AI 的心智。

因此我觉得过渡期的 AI 产品可以考虑采用将主动式 AI 融合进用户熟悉的现有产品、工具中,在不打断用户现有工作流的情况下不断通过主动式 AI 来增强用户心智,让用户知道 AI 的能力和边界,这样才能逐步过渡到下一个时期。

一个古老的例子来自于 7-11 便利店的收银机。7-11 为了收集客户数据做分析,同时为了尽可能降低收银员的心智负担,直接在收银机的按键上设计了快速记录客户性别和年龄的按钮,收银员简单做一个判断按下按键即可。不需要在客人走后再用另外的小本子记录下客户的具体情况。这样的设计就是不打断原有工作流,尽可能结合原场景进行设计,对收银员而言使用起来没什么理解成本。

blog/119795b9-62cf-4b89-8858-0c9791f48f5cimage.png

因此与其设计完全新的 AI 产品,不如思考一下现有的产品、工具有哪些值得改造的地方,用主动式 AI 来辅助用户,也许是一个更适合的研究方向。

主动式AI的设计原则

主动式 AI 的设计有哪些值得注意的地方?

产品设计原则

不打扰用户的工作流
主动不等于强制,AI 的建议应该像便利贴一样,随时可以看到,也随时可以忽略。主动式 AI 不能喧宾夺主,为了凸现自己的存在出现在阻碍用户正常使用产品的路径上。

准确把握时机
就像一个优秀的助理知道什么时候该主动汇报工作,什么时候该保持安静,AI也需要学会在恰当的时机在恰当的位置提供帮助。

提供清晰的控制选项
让用户能够方便地调整 AI 的主动程度,有些用户可能希望获得更多主动建议,有些用户可能更喜欢安静的工作环境。

完善反馈机制
主动式 AI 的一个好处是你可以清晰地从后台知道用户有没有接受 AI 给出的这个建议,因为用户接受 AI 建议时是需要一个行为操作来确认。这样的行为数据一定不能忽略,记录下来能够为产品的优化升级带来巨大帮助。

持续学习用户偏好
通过记录用户对 AI 建议的接受程度,不断优化推送的频率和内容,做到真正的个性化服务。

最终决定权留给用户
在 LLM 的幻觉消除之前,AI 始终无法完全代替人类的决策,绝大部分的产品都应该将最终决定权留给用户,用户应该可以随时接管,做最终决定判断。

隐私信息处理
由于采用主动式 AI,我们不像被动式 AI 那样可以让用户直观地看到哪些信息是交给 AI 处理了,因此需要给用户提前说明为了达到主动式 AI 的效果,哪些信息将会被 AI 读取。

技术实现要点

严格控制成本
由于采用了主动式 AI 设计,成本可能会相较于被动式 AI 有大幅提升,因此设计上必须严格控制成本。成本的控制方法有很多,例如:

  • 根据任务的难易程度自动匹配不同的大语言模型。不必一味地追求性能最强的模型,特定的简单任务完全可以交给小模型处理。
  • 调整提示词的结构设计,尽量用上很多大模型厂商提供的提示词缓存功能。即对于公共部分尽量抽离为单个对话轮次,尽量命中缓存。以 DeepSeek 为例,命中缓存的提示词价格只有 0.1元人民币/百万 Tokens。
blog/04152c6f-f74a-49b8-bcd5-4cac49028599image.png

异步处理机制
主动式 AI 需要在后台持续运行分析,为了不影响用户的正常操作体验,必须采用异步处理机制。后台运行的任务除了提供主动式 AI 建议外,还可以持续对用户的更多数据进行前置处理分析,以在合适时间提供给大模型生成更精准的建议。例如对文档进行切分、格式化、总结、关键词提取、专业术语整理等任务。

分层架构设计

  • 感知层:实时捕获用户行为和上下文
  • 分析层:理解用户意图和需求
  • 决策层:确定是否需要主动提供帮助
  • 执行层:生成并展示建议

合理的上下文长度
合理设计需要放入提示词的内容,把所有能想到的内容一股脑放进去固然简单,但随之而来的是高昂的成本和更高的首 Token 延迟。因此上述第二点在这里就可以派上用场,一些非关键信息可以依赖之前的前置总结处理作为替代,既降低了长度又不损失信息。

向量脉络的尝试

我开发的向量脉络是一个无代码的工作流平台(去年的文章介绍:向量脉络:一个开源的无代码 AI 工作流+本地知识库软件),其实同样存在用户学习门槛的问题。因此最近我也在尝试给工作流画布设计界面上增加主动提示的功能,让 AI 提示用户可以考虑使用某个节点,使用某个连线,同时建议的理由也一并给出方便用户理解,希望通过这种方式能够降低用户的设计门槛。

blog/9e169c1b-d19f-4e14-9774-f12ed3479c8eimage.png

在工作流的使用方面,虽然当前已经开发了浏览器插件和 PC 端软件,但是依然需要用户主动调用,而按照本文讨论的主动式 AI 的设计范式,我希望未来能做到让 AI 可以在用户使用浏览器乃至使用电脑时,自动判断何时调用哪个工作流来辅助用户当前的工作,那向量脉络就会成为一个全能且智能的主动式 AI 助手了。

写在最后

回顾整个计算机的发展历程,每一次重大的范式转变都伴随着交互方式的革新。从命令行到图形界面,从键鼠操作到触摸屏,每一次改变都让计算机离用户更近了一步。

而现在,AI 正在掀起新一轮的革命。但是我们要思考的不仅仅是如何让 AI 变得更强大,更重要的是如何让它更贴近人性。就像一个刚到公司充满新鲜知识的新人,他的能力也许很强,但如果不懂得主动,不懂得在合适的时机提供帮助,那么他的价值就永远无法充分发挥。

从被动式到主动式 AI 的转变,不仅仅是一个产品设计的改进,更是 AI 向着“助理”而不是“工具”方向迈出的重要一步。当 AI 开始主动观察、思考、建议的时候,我们就离真正的“智能助理”更近了一步。

记得我在成立清华创客空间的时候就提出的降低技术门槛的口号:“动手造万物,人人皆创客”。今天我们讨论 AI 产品的设计,本质上依然是在降低技术的使用门槛,让更多的人能够轻松地使用 AI、感受 AI。未来的 AI 产品设计,不应该是等着用户来“学会使用”,而是主动去“理解用户”。

毕竟,科技向善的第一步,就是让科技变得更懂人心。

我是 Maker毕,我们下次再见。