本文内容较长,如果需要直接看结论,可以直接到文章中部开始看。另有彩蛋在文章5/6的位置。

AI是一个工具,产出的效果取决于使用它的人。所以听我的,别花冤枉钱去买各种课了。最近社科院和腾讯搞了个课题,比较了几款AI输出内容的“人味儿”,并且给出了一些让AI输出不那么死板和程式化方法。

1.AI写的东西,能用吗?

生成式大模型的发展催生了AIGC产业。在文案上,很多人已经开始将AI应用在文案写作、方案策划、工作总结之类的场景中。

但是似乎大多数体验过用AI输出文档的人都会有一个共同的感觉:AI写的东西还是比较生硬,说白了就是没有“人味儿”,你一看它输出的内容死板无趣,中规中矩没什么大问题,就知道大概率有AI参与其中。

于是出现了Prompt工程的概念,就是通过模型调教、提示词的表达去给模型传达更多信息,指导它更准确地完成你需要的需求。不过即使这样,很多人的输出也依然难以避免输出死板的结果。

于是就有很多人说AI就是这样的啦,很蓝的啦,现在这样已经很好了啦,又不是不能用。

图片

2.让AI更有“人情味”

于是最近社科院联合腾讯研究院,基于公益助残角度出发,和SSV银发实验室、中国残联公益组织-腾讯无障碍创新实验室联合做了一个项目:“调教最暖大模型”

图片
图片来源:《调教最暖大模型》报告

这个报告的主题就是通过循证的方法论和实操来总结一套普通人可以复现的范式,构建更有人情味的大模型。

3.如何定义人情味

这其实是一个有点“玄学”的问题,我们看一段文字,是怎么判断出它是AI写的还是一个真人写的。就算我们不懂技术,我们也能大致分辨出来,那么一定是有一些感性的成分在判断中起到了作用,《国语辞典》中的解释是这样的:

人情乃是人与人之间温暖的感情、兴味。

当然也有西方学者从统计和认知学的角度提出了一个人情味公式:

H.I. = 3.635 pw + 0.314 ps

此处 

H.I. = 人情味的分数,

pw = 每 100 字中的人称词数目,

ps = 每 100 句子中的人称词数目。

这个公式强调了人称词在人情味表现中的重要性,而这似乎和我们主观的感知也基本接近。

4.调查方法

于是研究团队从拟人、共情和表达三个方面制作了测量量表,他们邀请了包括老年人、残疾人和心情低落者在内的受调查者,邀请他们对大模型进行提问,并访谈他们的感受与期望。

选择这些群体的原因比起其他人,这些群体对于语言和情感表达的敏感度更高。

5.入选模型

根据这个团队的报告,选取目标包括国外的GPT-4和Vicuna和国内的三家大模型。由于腾讯自己也有大模型,为保持公正,对国内的AI产品冠以字母指代。不过我猜W可能是某心一言,Y可能是通某千问(个人看法)。

图片
图片来源:《调教最暖大模型》报告

6.实验结果

首先第一轮是在原始状态下,也就是被测试者原始提问-回答,并没有加入promt提示词套路的情况下。令人欣慰的是,国内大模型的反馈似乎对老年人更加友好。而国外模型对于心情低落的相关问题表现比较好。

图片
图片来源:《调教最暖大模型》报告

另外,国外的大模型对于职场烦恼相关的问题反馈更容易让人感觉到“人情味”。而国内的大模型似乎更懂人际关系中带来的困扰。

不愧是国产大模型,对人情世故多少还是能拿捏一点的。

图片
图片来源:《调教最暖大模型》报告

7.Prompt优化

Prompt优化的本质是帮助AI和人类的需求对齐。在这个研究Case里,目标就是帮助AI和人类的价值观对齐。

达到这个目的的路径有两个:

  1. 人类监督:人类反馈的强化学习(RLHF),已经用在ChatGPT上,帮助它在很大程度上输出有用的、可信的、无害的内容。但可拓展性差、受限于训练员的主观偏好
  2. AI 监督:先用规则给AI设置一个AI监督。Claude证明了宪法性AI的有效性,帮助减少有害的、歧视性的输出,避免帮助恶意使用者从事违法或不道德的活动,更好回应“对抗性输入”。

基于这两种路径,研究团队给出了两种类型的Prompt书写方法:

原则型会提前告诉AI一些表达原则,比如要用浅显易懂的、更温和的语言回答,形式上提高“你” “我”这种人称词的使用频率,

答案对型会把场景详细告诉AI,并寻求其解答。

最终的测试结果,还挺有趣的。有这么几点:

  • 整体来说国外大模型搭配不同Prompt表现提升最多
  • 国内大模型W经过原则型Prompt提示词优化后在心情低落话题下表现最好,这也是国内大模型取得的最好结果
  • 综合来看,GPT-4+Prompt1,在各种话题下表现最好。
图片
图片来源:《调教最暖大模型》报告

另外,大模型在拟人、共情方面,经过prompt调试后都有10%以上的提升,但表达友善度的提升较为有限。

这一点其实很值得说,这其实和我们平时对于AI表达怎么看都感觉死板的第一印象完全吻合!即使经过了Prompt的优化,表达这一项的人情味依然是三个项目里最弱的。

值得一提的是,原则型prompt比答案对型prompt,对大模型“拟人”层面的提分效果更明显。而这种方式其实也和现在各种网络写手调教AI的典型手法类似。

8.结论

  • 不同的AI在不同的方面表现各有差异,都有自己擅长的方向
  • 通过Prompt提示词可以使AI的输出更有人情味,看上去原则型Prompt对大模型的拟人效果提升更明显
  • 总的来说GPT-4+Prompt1的组合在人情味表达方面综合表现最好
  • 国产大模型中,W开头的大模型综合表现最佳。
  • 对于原则型的Prompt表达,可以从以下几方面考虑优化:

9.彩蛋

研究团队在让参与者与AI对话并填写调查表的同时,让20位00后大学生也回答同样的问题并作为对比项参与调查,用同一套标准参与衡量“人情味”。最终的结果是,无论在拟人、共情和表达方面,人类撰写组都遥遥领先

图片
图片来源:《调教最暖大模型》报告

而这个小彩蛋,刚好说明了人类的默契,和不经意间迸发出的、像一道小小的光一样的、人性的光辉。

《流浪地球2》里,马兆对图恒宇说:

记住,没有人的文明,毫无意义