使用 NSFW 聊天机器人模拟人类 - 与 Jesse Silver 对话 [译]

利用开源的大语言模型 (LLM) 和 DSPy 技术来缓解提示注入问题,我们开发了迄今为止最先进的 AI 电子商务聊天机器人,使 OnlyFans 网红的收入提高了 2-5 倍。

访谈记录

最后召集 AI 工程师世界博览会 早鸟票!查看我们关于 Microsoft 的这一集 了解更多信息。

免责声明: 今天的这一集涉及 NSFW(不适合工作场合)话题。虽然没有图形内容或露骨的语言,但我们不建议在工作环境中播放。


二十多年来,色情行业一直是推动许多新消费技术创新的公开秘密,从 VHS 和按次付费VR 和互联网。在 AI 领域也是如此,许多顶级的 Stable Diffusion 和 Llama 用户以及合并/提示/PEFT 技术都是在 Reddit 和 4chan 板块的深处发展起来的,这些地方被 我们的朋友 Nathan Lambert 亲切地称为 Waifu 研究部门。然而,由于其禁忌性质,这个话题在主流 AI 媒体中很少被提及。

今天,这种情况有所改变,感谢我们的新嘉宾 Jesse Silver

AI 二次元女友爆发

在 2023 年,硅谷最公开的秘密之一是,Character.ai 等产品的快速增长和惊人的用户留存率主要是由“AI 二次元女友”推动的(男性版本也有,但名称不详!)。

这一点由a16z 的数据证实,a16z 是 Character.ai 的投资者。

我们可以通过subreddit的增长来观察这一类应用的普及情况(在 2023 年的最后 8 个月中增长了 10 倍):

当所有 B2B 创始人都在尝试让模型返回 JSON时,消费者应用使这些聊天机器人变得非常吸引人,并且很好地掌握了让它们遵循指令和“角色”的方法,满足了最高标准的审核和最严格的长文本要求。其中一些应用,比如 Replika,每年收入超过 5000 万美元,即使在他们有争议地取消了情色角色扮演 (ERP)功能后,仍然表现出色。

几天前,OpenAI 宣布了 GPT-4o(参见我们的 AI 新闻回顾)。现场的语音演示显然受到了电影《Her》的启发。

Latent Space 的 Discord 频道举行了一场观影派对,无论是在 Discord 还是 X 上,许多人都在开玩笑说这个模型表现得非常调情,但这也确实让不少人感到不安

从 Waifus 到粉丝平台

当用户明确知道 Waifus 是 AI 聊天机器人时,NSFW AI 市场的另一个更具挑战性的领域是那些成功模拟特定人类个性以进行聊天和电商的 AI。

你可能听说过像 OnlyFans 这样的粉丝平台。用户可以付费订阅网红的私人内容,类似于 Patreon,但没有任何 NSFW 限制或其他内容政策。2023 年,OnlyFans 的收入超过了 11 亿美元(总交易额为 56 亿美元)。

什么是 OnlyFans? - OnlyFans 的统计数据、用户、收入等
什么是 OnlyFans? - OnlyFans 的统计数据、用户、收入等

目前,许多网红将与粉丝的聊天外包给菲律宾等低成本国家的团队,费用为每小时约 3 美元加 5% 佣金,但质量非常差,大多数网红因此解雇了多支团队。

今天的嘉宾是 Jesse Silver。他和联合创始人 Adam Scrivener 共同运营一个 SaaS 平台,帮助粉丝平台上的网红为其粉丝构建 AI 聊天机器人,并销售数字内容。有些用户每月能赚取超过 20 万美元的收入。

我们讨论了他们的技术栈,为什么需要一个状态机来成功运行数千轮对话,他们如何使用 DSPy 开发提示词和微调模型,以及商业模型的 NSFW 限制。但其中一个最有趣的点是,用户通常知道他们不是在和真人对话,但选择忽略这一点。正如 Jesse 所说,聊天机器人的任务是*“让他们持续相信这是真实的对话”*。

这涉及到真金白银(每天每个客户花费数百美元购买高价内容)。12 月,1 美元买雪佛兰 Tahoe 的故事 因一个设计不佳的聊天机器人而在网络上迅速传播开来:

想象一下,为一个潜在市场规模达到 10 亿到 40 亿美元的电商运行聊天机器人。这正是这些 NSFW AI 先驱们今天所做的事情。

节目说明

出于显而易见的原因,我们无法链接到提到的许多内容:)

章节

  • [00:00:00] 介绍

  • [00:00:24] 构建 NSFW (不适合工作场所) AI 聊天机器人

  • [00:04:54] AI 女友与 NSFW 聊天机器人的对比

  • [00:09:23] 模仿人类的技术挑战

  • [00:13:15] 服务的商业模式和经济学

  • [00:15:04] 为 AI 注入个性

  • [00:22:52] 微调大语言模型 (LLMs) 而不带有“OpenAI-ness”

  • [00:29:42] 构建评估系统及将大语言模型 (LLMs) 作为评判者

  • [00:36:21] Prompt 注入和安全措施

  • [00:43:02] 与粉丝平台的互动及潜在集成

  • [00:46:57] 长对话的内存管理

  • [00:48:28] 使用 DSPy 的好处

  • [00:49:41] 与网红的反馈循环

  • [00:53:24] 未来方向和结束思考

录音稿

Alessio [00:00:00]:大家好,欢迎收听 Latent Space 播客节目。我是 Alessio,Decibel Partners 的驻所合伙人兼 CTO,今天和我一起主持的是我的联合主持人 Swyx,Smol AI 的创始人。

Swyx [00:00:14]:大家好,今天我们在远程工作室请到了一位特别嘉宾,Jesse Silver。Jesse,欢迎你。你是我们节目上少见的嘉宾。

Jesse [00:00:23]:谢谢。很高兴能来这里。

Swyx [00:00:24]:Jesse,你在一个我猜不便透露名字的机构工作。它称自己为网红工具,今天我们要讨论的主题是成人内容 AI 聊天机器人。我发出邀请后,你的室友回复了我并把我们联系起来,我们花了一段时间才安排好这期节目。我想很多人都对这个领域的现状、行业发展以及你发现的心理和技术很感兴趣。我们之前进行了准备通话,你也愿意分享一些见解,因为我认为你很了解你的工作,大家也都很好奇。

Jesse [00:01:01]:好的,很高兴开始。

Swyx [00:01:03]:那么,我们就从最基本的问题开始吧,你是如何进入聊天机器人行业的?

Jesse [00:01:08]: 好的,我也来谈谈行业背景。在 2023 年 1 月,我开始寻求创办一家基于大语言模型 (LLM) 的公司。我的一个朋友通过 OnlyFans 每月赚大约 5 千美元。她每天工作 8 到 10 小时,与粉丝一对一互动,这非常耗时且让人精疲力竭,但看起来相当容易自动化。因此,这里显然有一个客户需求。所以我开始采访她和她的朋友们。在此之前,我对这些粉丝平台并不了解。但在成人行业中,一般会有一些所谓的粉丝平台,如 OnlyFans,这是最大的一个。我们目前并不与 OnlyFans 合作,而是与其他粉丝平台合作。在这些平台上,我们称之为网红的性工作者可以创建一个个人资料,粉丝可以订阅这些个人资料,看到独家照片和视频,并有机会与该网红一对一互动和发送消息。这些平台非常庞大。我认为 OnlyFans 每年的总商品价值 (GMV) 大约为 60 亿美元,这相当于平台上所有内容的销售总额。而那些正在成长的小平台,每年的总商品价值大约为 40 亿美元。我了解到的一个惊人事实是,在这些平台上运行良好的个人资料上,大约 80% 的收入来自聊天。这是因为网红与粉丝进行费力的互动,如聊天、推销视频和建立关系,都是非常耗时的。粉丝可能不会花钱。此外,网红如果不自己辛苦工作,其替代方案也不太好。比如,他们可以建立一个离岸团队,但这很难做到,需要雇佣很多人,且离岸常见国家的互联网速度很慢。或者他们可以与一些机构合作,但我们不是机构,机构的运作方式有所不同,效果也不太好。

有一些不错的公司,但总体来说,他们的收费太高。他们处理内容,而我们不处理内容。他们处理流量。因此,我发现了一个现象:这些中小型企业,这些网红,他们的月收入在几千到二十万美元之间,却没有任何先进的工具和好的软件工具,因为这些工具都很差。所以这是一个严重忽视的市场。网红没有好的替代方案。因此,我和我的一个朋友一起考虑这个问题,他后来成为了我的联合创始人。我们决定开发一个产品,自动化网红赚钱的过程。让我们自动化他们最困难也是最赚钱的操作,即与粉丝建立关系,发信息,进行色情聊天会话,出售存档媒体,协商定制内容等等,为网红赚更多的钱,节省大量时间。所以我们开发了一个原型,并去了 AVN,这是最大的粉丝会议之一,向主流色情行业的人推销它。我们获得了大约 5 万美元的交易额和一些可以合作的用户资料。这使我们能够开始自筹资金。大约一年后,我们在 12 月将原型改进成一个更完善的产品,并重新推出。我们像对待其他行业一样对待这个行业。只是人们对它有先入为主的观念。他们没有先进的 AI 工具,这个领域也没有很多风投资助的竞争者。所以现在我们创建了一个功能相当广泛的产品。我们与超过 150 位网红合作,每天与大约 5 万用户互动。这些都是来回的对话。我们每月的网红账户总额超过 200 万美元。

Alessio [00:04:54]: 我有很多后续问题。首先,当时你看到其他人在做什么?当时有一种趋势是利用角色 AI 把虚拟人物变得更加真实,例如所谓的 AI 二次元老婆。相比之下,你们的做法是把真实的人虚拟化。你怎么看?人们是更愿意和知道是真人但互动是虚拟的对象交流,还是更愿意和知道是虚拟但试图进行真实对话的对象交流,比如一些聊天机器人公司提供的角色 AI?

Jesse [00:05:33]: 是的,我认为这有几个方向可以探讨。一方面是这个行业的结构和人们在做什么。在这方面,很多人正在开发 AI 女友,我认为这些在某种程度上会与内容网红竞争。我们的产品重点在于,我们相信这些粉丝平台上的用户主要有几种需求。我可以详细说说。首先,有些人感到孤独,需要找人聊天。其次,有些人为了方便获取内容。而第三种,也是最有意义的一种,是他们想进行有利害关系的权力游戏或幻想游戏。对他们来说,在电话另一端有个人存在,会让游戏更有意义。我可以深入讨论粉丝体验的结构,也可以谈谈其他人在粉丝平台领域开发的 AI 产品。还有大量对 AI 男友和女友的需求,我认为这取决于用户的具体需求和体验。

Alessio [00:06:34]: Shawn,你还记得吗?他们当时在说角色 AI 男朋友比 AI 女朋友更受欢迎,因为女性更喜欢对话。我不太同意这个观点。我们和其他人讨论了很久,我想知道你对不同类型的网红如何看待最重要的因素有什么见解。你提到了内容与对话以及对话的类型。虚拟角色与人类在某些情况下无法竞争的区别是什么?其他网红会选择更实际的内容吗?

Jesse [00:07:10]: 这个问题很有趣。我猜你最感兴趣的是哪方面?

Alessio [00:07:14]: 我想知道,当你与网红交流或考虑用户留存率时,有些产品像 AI 男朋友、AI 女朋友,每天互动频率很高,而其他网红可能没那么吸引人。他们的互动可能是一次性的或周期性出现的。

Jesse [00:07:34]: 是的,是的,是的。这个问题很好。我们的建模方式可能不是最理想的,但确实有许多用户每天都在使用我们的产品,只是为了找人聊天或者缓解孤独。这导致了一些数千回合的长对话,这其实并不是我们产品的主要目的。我们的产品主要是为了丰富网红的生活,通过销售内容或者对话来赚钱。我认为,把服务提供给女性客户和男性客户是有很大区别的。在粉丝平台上,80% 的客户是男性,而在 Character AI 上,我们的产品更多是基于情境驱动的。在粉丝平台上,客户订阅一个用户档案的月度流失率大约是 50% 到 80%。很多收入来自那些寻求新体验的用户,我们会为他们提供一个有目标、有胜利条件的体验,就像玩游戏一样。一旦他们完成了这个体验,就会想要寻找新的体验。在终端客户方面,我们有很多回头客,大约 10% 的用户会坚持使用一年以上,这个比例对我来说是非常高的。我认为在这些喜欢玩游戏的用户中,有很多不同的细分。但我不确定这是否完全回答了你的问题。是的,这很有道理。

Swyx [00:09:23]: 我们在准备电话中讨论过,你们需要尽可能真实地模仿人类。令我惊讶的是,这种游戏化的设计意味着用户知道他们不是在和真人对话。到底是哪种情况?两者都令人惊讶吗?还是说有一种模式让用户知道他们在玩游戏?因为你告诉我,当用户相信他们在直接与网红对话时,你们赚的钱更多。

Jesse [00:09:51]: 在模仿一个人的过程中,我想我们可以先简要谈谈这个行业,然后再讨论如何技术上实现。目前,很多聊天都是由离岸聊天团队的代理机构管理的。这样一来,许多粉丝要么被忽视,要么被离岸团队处理不当。因此,我们有时会直接与网红合作,或者与代理机构合作,取代他们的聊天团队。但是,我认为粉丝们对于他们在做什么或在和谁聊天,可能介于两者之间。一个朋友曾经告诉我,性工作是一种有偿的亲密幻觉。我认为粉丝并不愚蠢。他们来这里是为了购买一种体验。只要我们能让他们暂时忘记这是一种虚拟交流,我们就能让他们满意,提供比离岸聊天团队更好的体验,或者提供他们无法从网红那里得到的互动,同时也实现为网红赚钱的目标,尤其是因为这通常是网红唯一的收入来源。如果我们能帮助他们从每月赚 1 万美元提高到 2 万美元,这将是巨大的变化。他们可以负担得起住房或存更多的钱。尊重他们给予我们的信任,确保我们在互动中维护他们的品牌形象,这是非常重要的一部分。在模仿一个人时,关键是要把握好语气。这涉及到是否手工制作提示,如何呈现少样本示例,是否进行微调。在互动和建立关系时,会涉及很多问题,比如“你是谁?你在做什么?你喜欢什么?”我们不能凭空回答这些问题,尤其是“你住在哪里?”这样的问题,比如“我住在 5553 号大道”。所以,我们要处理好边界和内容,这是一个独特的领域。这些粉丝平台的资料可能包含成千上万的内容。

这些内容中包含了很多背景信息。粉丝们对所收到的内容是否符合预期非常敏感。在这里,我所说的“游戏”指的是所有那些仿真都不是真实行为。我们如何在这里扮演一个一致的角色,给粉丝提供一种体验,而不是让他们觉得只要给网红发个消息,就能马上得到想要的东西?卖出一件内容很容易,但在几个月内卖出 40 件内容就非常难了。为了实现这个目标,所需要的体验、工作流程或业务逻辑产品都是截然不同的。

Swyx [00:12:26]: 我很想深入探讨模拟一个人时所遇到的技术挑战,比如你提到的上下文理解、长时记忆、库存管理和行为设计等有趣内容。但在此之前,我想确保我们已经了解了你的业务的所有核心数据和基本情况。我在介绍中搞错了,把你说成是一个代理机构,实际上你是一个 SaaS 工具。事实上,你是有史以来最先进的客户支持系统。你提到了一些数据,基本上人们会给你他们的 GMV。你说你去了 AVN,并获得了一些 GMV,然后你返还给他们的金额大约是两倍。那么,这里涉及的经济学原理是什么,大家需要了解什么?

Jesse [00:13:15]: 是的。这个产品是一个大语言模型 (LLM) 工作流或智能体,可以与客户的观众互动。我们合作的客户通常每月收入在 2 万到 15 万美元之间,这是在我们帮助他们启动产品后实现的。这个产品能将他们的收入提高 2 到 5 倍,这是一笔非常可观的金额,而我们只从我们销售的部分中提取 20%。所以,我们不会从他们已有的订阅或销售收入中抽成,只是从我们销售的部分中直接提成。收入提高 2 到 5 倍,是因为有很多未被充分利用的机会,无论是聊天团队还是网红,都没有机会与他们的大部分观众互动。你可能有 100 个粉丝,也可能有 50 万甚至 100 万粉丝,但你永远无法与其中的绝大多数人交流。即使你有一个全天候运行的聊天团队,每个代表同时能进行的对话数量仍然非常有限。我们的产品旨在为粉丝提供良好的体验,并尽可能多地帮助网红赚钱。如果我们不能至少将他们的收入提高一倍,通常是我们的策略出了问题。接下来,我想谈谈产品的主要功能,它可以建立关系、进行媒体短信聊天 (sexting)、满足客户的请求以及协商定制内容。技术上的挑战在于复制个性,而产品或商业上的挑战在于为各种不同的网红和粉丝提供重要的粉丝体验要素。我认为我们合作的网红种类繁多,这是让这项工作变得非常困难的关键因素。问题真的很多。

Swyx [00:15:04]: 好的,那具体有哪些不同的网红呢?我不太了解。我们对性话题持开放态度,所以请随意说你认为合适的内容。

Jesse [00:15:17]: 我记得我们第一次处理一个月收入超过 15 万美元的账户时,我们上线产品后两天内没有任何收入。我们每天预期收入是 5,000 美元或更多,但实际只赚了几百美元。所以我们在想,出了什么问题?这个账户之前由一家有海外聊天团队的代理机构运营,我们试图弄清楚他们做了什么以及为什么他们成功了。我们发现,团队在威胁和骚扰粉丝,威胁要离开。粉丝们很不高兴,他们在抱怨,并且要求打赏。我们在想,这是什么阴暗手段?结果发现,这位网红是一个难以接近的女神型人物。她去了一次非常昂贵的购物旅行,大家都知道这件事。当我们在账户上放一个机器人,说:“哦,我很高兴认识你。你叫什么名字?”我们打破了网红难以接近的幻想。所以我们意识到,我们需要根据网红的品牌和他们期望的互动类型,为粉丝提供一致的体验。我们不想违背这种期望。我们希望能够为粉丝提供一种体验,例如这个网红,你要通过花费来证明你的男子气概并以某种方式赢得她的青睐。这通常是聊天团队在做的。所以问题是,总体的粉丝体验是什么样的?我们的产品如何调整以适应各种截然不同的环境,既要服务于截然不同的网红,又要服务于在不同日子想要体验少量不同事物的粉丝?这有道理吗?

Alessio [00:17:10]: 我认为这是一个跨行业的技术问题,对吧?也就是说,如何为这些机器人构建个性?我们需要提取一个人的个性吗?是查看之前的对话,还是分析内容?你能分享一些构建个性的方法吗?当然了。无论是构建销售智能体还是客户支持智能体,大家都在面对同样的问题,关键是如何让这些智能体听起来符合我们的期望。我觉得大多数人只是进行提示工程,而你似乎找到了比提示工程更好的方法。

Jesse [00:17:47]: 对。回到复制语气的问题上。你可以手工编写提示,也可以进行微调,提供示例,甚至自动化这些操作。我想通过描述整体的粉丝体验来提供一个结构化的视角。如果你想象一下在线女友体验或邻家女孩的场景,当你对这个网红说“我很饥渴”时,她只是简单地回应“太好了,这是我的照片,我准备和你玩”,这对粉丝来说并不有趣。更有趣的是,当你说同样的话时,她回答说“我甚至不知道你是谁,告诉我你自己吧”。接着,粉丝开始谈论他们的兴趣和项目,她回应“哦,那太酷了,你的项目真有趣,你真聪明”。这样,粉丝感觉到安全,可以自由表达自己的想法和愿望。在某个时刻,粉丝会说“哇,你真的很有吸引力”,然后网红就从那里继续互动。因此,这种互动有一个显露程度逐步升级的结构,首先是建立关系的阶段。你设计的互动不能让客户在第一次或第二次就满足,他们应该在每次互动中期待更多。当然,这些互动不会永远持续下去,尽管有些可以持续很长时间。我试过一些其他不适合工作的聊天机器人,发现它们基本上不会引导对话,没有明确的目标,只是提供你想要的内容。当然,一种方法是精心设计这些业务逻辑并融入工作流程中,但当你切换到不同的原型时,这种方法就会失败。所以我们在原型阶段特别注重精细的手工设计。

在原型阶段,我们进行了大量的提示工程,但随着我们扩展到不同类型的网红群体,需要逐步减少手动提示工程,转而寻找自动化的解决方案。比如,分析之前成功的销售策略、以往资料的语气,以及类似资料中的信息,然后利用这些数据来优化提示。在网红入驻时或进行中选择示例时,都能优化流程。因此,这引发了我们讨论是否要从原型阶段转向使用自动化工具,如 DSPy。

Swyx 00:20:1800 : 20 : 18: 这是个有趣的话题。稍后我们会直接讨论技术栈问题,但在探讨个性剖析时,我想问问你,对个性剖析是否有一些特定的哲学观点?我对心理学略有兴趣,你认为有哪些有效或流行但实际无效的个性剖析方法?在你的阅读和理解中,有哪些是特别有用的?

Jesse [00:20:45]: 我们并不会使用统一的心理框架来将网红或粉丝分类,然后据此推断互动方式。我们更多的是考虑如何根据网红的品牌生成适合的互动角色。因此,有各种各样的类别。如果你去 Pornhub 查看所有类别的列表,有些类别可以简化成几种类型。比如,对于“女王类型” (diva type) 的网红,你需要证明自己,征服她并赢得她的欢心;对于“邻家女孩类型”的网红,你需要展示自己,让她们喜欢你,从而建立关系;而对于支配型网红和顺从型粉丝,粉丝会想要证明自己,并且不断地失败。我认为语言模型在角色扮演方面很有优势。我们确实有一些心理画像的理解,但在工作流程中并没有非常复杂的心智理论 (Theory of Mind) 元素,更多的是反思粉丝的需求以及我们采取的行动为何成功或失败。我可以分享一个例子:我和一个朋友讨论她如何吸引男性。她说,如果她在艺术画廊遇到一个年长的男人,她会有多个假设,猜测这个人为什么在这里,他想从她那里得到什么,以及她该如何与他们互动以获得最大的优势。他们是希望她表现得天真无邪,还是希望她像个平等的对话者?为什么?粉丝在选择粉丝平台的个人资料时有很多选择。大多数情况下,一个粉丝会订阅 50 到 100 个个人资料,他们希望从不同的人那里获得不同的体验。

Alessio [00:22:52]: 这很有道理。那关于底层模型呢?在 OpenAI 上的原型是什么?然后你们用了开源模型,比如商业模型方面的限制有多大?我知道有很多关于 RLHF (强化学习与人类反馈) 的研究,你有没有试过一些未过滤的模型,比如 Dolphins (海豚) 之类的?有任何见解都非常有帮助。

Jesse [00:23:12]: 嗯,我认为在某些封闭源模型上可以得到不错的结果,但它们的成本效益不高,因为对话可能会非常长。这只是粉丝体验的一部分。因此,如果你使用 OpenAI,到某个阶段你需要转向别的选择。而且用 OpenAI 的话,你几乎可以感受到它生成内容的特性,它不会做某些事情,你会不断碰到问题。我们最初在 OpenAI 上开发原型,然后很快转向了开源模型。所以我们现在是开源的。在我们的工作流程中,有不同的模块执行不同的任务。比如如果我们在对话中,会有一个状态机元素;如果我们提供某种性体验,就会有不同的状态。有些模块负责推理要发送的内容,有些模块理解内容本身,还有一些模块负责聊天。这些模块每一个可能都依赖不同的微调模型。我们也有一个评估框架来评估这些模型。

Alessio [00:24:14]: 当你考虑微调模型时,怎么构建数据集呢?比如数据集本身是什么样的,你用什么产品触发器来决定优化哪些行为?产品中有没有类似的分析工具?还有,在交付方面,聊天是在粉丝的应用程序中进行的吗?还是在网红提供给客户的外部聊天系统中?你如何连接这些系统来获取数据?这个问题比较广泛,但我想你明白我的意思。

Jesse [00:24:46]: 是的,我们的后端系统需要扩展,每月可能要处理数百万次对话。然后,我们有一个 API 来连接我们合作的粉丝平台。接着,我们有一个工作流程,会生成内容并发送给粉丝平台上的粉丝。在数据微调 (fine-tune) 方面,我们需要一些引导,使用更智能的模型。部分数据来自于抓取的个人资料和成功互动历史。我们还会用模型评分来判断粉丝是否不满意或未付款,或者是否出现问题。我觉得数据很混乱。有时候,一个个人资料每月收入高达 20 万美元,但网红从未和粉丝交谈过,仅靠一个位于菲律宾的聊天团队,他们的英语不够好,训练不足,薪酬低,也不太受经纪公司重视,因而聊天质量不高。如果你从这些聊天团队的数据进行训练,他们会大量管理那些不消费的粉丝,而我们不需要这样做,因为我们每次生成内容的成本不像人工团队那么高。所以他们可能会说,“我没有时间理你,花钱在我身上”,但我们不希望这样,而是希望更好地了解粉丝。

Swyx [00:26:27]: 有意思。你有没有估算过人工团队每次生成内容的成本?他们实际收费是多少?

Jesse [00:26:32]: 嗯,每次生成的具体成本我不太清楚。但人工团队通常的薪酬是每小时 3 美元,再加上销售额的 5%。所以如果按照每天 24 小时,每月 30 天计算,费用大概在 2000 到 4000 美元之间。不过,很多离岸团队是由机构管理的,这些机构会大幅提高产品售价。在这个行业中,有一些信誉好的机构。机构主要做三件事:聊天、内容和流量管理,这三者实际上是互相制约的。流量指的是吸引粉丝访问个人资料页面。内容是指你拥有的能够吸引粉丝的素材。而即使你拥有所有的流量和聊天能力,但如果没有足够的内容,你也无法盈利。我们只专注于聊天服务。但据我所知,大多数机构不能代表他们,但至少对我们来说,尊重网红和粉丝非常重要。我们必须保持专业标准。我与许多网红交流过,他们至少解雇过两家机构,原因往往很糟糕,比如机构泄露他们的信息,失去了所有粉丝,或者以某种方式欺骗了他们。所以我要再次强调,虽然有好的机构,但它们是少数。

Swyx [00:27:57]: 我想更深入地了解一下技术方面的内容。我们已经开始谈论你的状态机和使用的模型。你能以一种对工程师来说有趣的方式介绍一下你的技术栈吗?你做了哪些重要选择?评估了哪些但没有采用?类似的任何事情?

Jesse [00:28:12]: 起初,我们的产品非常简单,语言生成能力有限。基于此,我们开始使用低代码原型工具,为少量网红和特定情况创建一个可行的工作流程。但我认为我们遇到的最大挑战之一是,很多次我们把产品放在一个账户上,却效果很差。我们必须找出原因。网红会说,“我真不敢相信你们卖 11 美元,13 美元更合理。”我们才意识到,我们忽略了世界上的一些情况。所以在开始时,低代码原型平台在帮助我们理解一个完整模型的样子方面非常有用。后来它变得负担过重,我们决定转向 DSPy。我们希望利用它在实时优化、优雅的工作流程表示、在 Python 中运行以及更方便地微调模型的能力。是的,我认为另一个重要的方面是我们评估事物的方式。如果你感兴趣,我可以详细谈谈。

Swyx [00:29:42]: 是的,你说你有自己的评估框架。可能这是我们应该深入探讨的。我想知道,当你在选择模型时,是如何进行评估的?

Jesse [00:29:50]:对,如我所提到的,我们确实有状态机的元素。在对话和性行为中,这些都是不同的状态。你可以准备一个手动标记的数据集来处理状态转换,并找到管理这些转换的方法。然后你可以测试你的准确性。这部分相对来说比较简单。我们有专门的评估方法来测试特定行为。举个例子,有些人已经被推荐了很多内容,并且购买了一些,但后来停止购买。我们在尝试测试一些新的工作流程元素,看看针对某种特定行为的细微变化会产生什么影响。我们有一种类似黄金标准的数据集,当我们对基础模型进行重大更改时,我们会在一个具有代表性的行为范围内检查性能,确保没有出现重大错误。在工作流程中,我们有模型评估。这些大多是为了安全,但我们也会看一些其他的东西,比如这个回应是否合理?客户是否不满意等。最后,我们有一支非常聪明的团队在查看数据样本,并根据这些样本提供产品反馈。以前,每次我查看原始执行数据时,总会发现需要改进的地方,但没有时间处理,所以让一个部分运营团队来做这件事非常有帮助。对。

Swyx [00:31:34]:等等,这些是你们内部的吗?你们建立了这个运营团队?

Jesse [00:31:37]:是的。

Swyx [00:31:38]:哇。

Jesse [00:31:39]:是的。好的。对。虽然这是一个小型的运营团队,但我们雇用了很多部分运营人员,原因有很多,因为你可以花每小时三到七美元雇人来检查生成结果并找出问题所在。

Jesse [00:29:50]:对,如我所提到的,我们确实有状态机的元素。在对话和性行为中,这些都是不同的状态。你可以准备一个手动标记的数据集来处理状态转换,并找到管理这些转换的方法。然后你可以测试你的准确性。这部分相对来说比较简单。我们有专门的评估方法来测试特定行为。举个例子,有些人已经被推荐了很多内容,并且购买了一些,但后来停止购买。我们在尝试测试一些新的工作流程元素,看看针对某种特定行为的细微变化会产生什么影响。我们有一种类似黄金标准的数据集,当我们对基础模型进行重大更改时,我们会在一个具有代表性的行为范围内检查性能,确保没有出现重大错误。在工作流程中,我们有模型评估。这些大多是为了安全,但我们也会看一些其他的东西,比如这个回应是否合理?客户是否不满意等。最后,我们有一支非常聪明的团队在查看数据样本,并根据这些样本提供产品反馈。以前,每次我查看原始执行数据时,总会发现需要改进的地方,但没有时间处理,所以让一个部分运营团队来做这件事非常有帮助。对。

Swyx [00:31:34]:等等,这些是你们内部的吗?你们建立了这个运营团队?

Jesse [00:31:37]:是的。

Swyx [00:31:38]:哇。

Jesse [00:31:39]:是的。好的。对。虽然这是一个小型的运营团队,但我们雇用了很多部分运营人员,原因有很多,因为你可以花每小时三到七美元雇人来检查生成结果并找出问题所在。

Jesse [00:32:55]: 我认为大语言模型(LLMs)作为评判工具,不仅仅是对模型评分评估有帮助,还能应用于更多方面。我们的许多监控和评估并不完全依赖于模型评分反馈,而是更多关注我们经历了多少状态转换,有多少对话最终达到用户付费的状态,并从过程控制的角度监控所有基本数据,判断是否有超出预期范围的情况。我们在工作流程中使用了很多推理模块,尤其是为了确保安全。可以把安全问题想象成同心圆,其中有些事情是绝对不能做的,比如血腥内容,这些基本的 RLHF(强化学习与人类反馈)已经很好地处理了。但是,不能允许提示注入(prompt injection)这样的事情发生。所以我们有控制模块和推理模块,确保任何奇怪的坏事要么不会进入工作流程,要么不会传递给最终用户。还有一些是来自粉丝平台的安全问题。这些问题有一定的限制,也有网红特定的限制,这些限制会被客户积极测试和挑战。例如,有客户可能会说,我需要你剃光头,并愿意支付 10 美元,但不会支付更多,我要求你发给我这个视频,你必须剃光头。这样的事情经常发生,你需要产品能够明确地回应,绝对不行,我永远不会那样做,别再跟我说这件事了。所以,我认为大语言模型作为评判工具,既可以评估我们的输出,有时也可以判断粉丝是否不满。如果对话的背景是情色的,粉丝可能会说,你在惩罚我?那太好了,粉丝想要被惩罚之类的情况也会发生。

因此,我们需要从过程控制的角度来审视这个问题。通常情况下,粉丝的不满率可能在一个复杂的趋势中是 30%,但如果突然上升到 70%,我们就会仔细分析数据。这中间存在一些已知的问题,其中一个最大的挑战是如何准确描述内容,以及在我们登录到一个粉丝平台时,如何处理成千上万的内容。在这些内容中,顺序和网红的描述非常重要。有些内容可能根本不包含网红本人,可能是一个预告片或是其他媒体片段。客户可能会提出特定的要求,当我们把内容交付给他们时,必须非常准确。因为人们为了这种体验花费了大量金钱,可能在几个小时内花费数千美元进行体验,甚至多次购买他们喜欢的内容,他们可能会支付 50 到 200 美元来购买一个视频。如果视频内容没有准确传达,他们就会要求退款,这会导致很多问题。

Swyx [00:36:21]: 是的,在安全方面很有趣。你提到了一件我本来要留到最后再说的事,但我现在必须提出来,那就是 prompt injection (提示注入)。显然,在粉丝网红平台上的人们可能甚至不知道什么是 prompt injection。但随着时间推移,他们中的许多人会逐渐了解。一些人甚至在不知道自己在与 AI 机器人对话的情况下,就尝试进行 prompt injection。你是说你基本上解决了 prompt injection 的问题吗?

Jesse [00:36:41]: 不是。但原则上我不想声称自己基本上解决了任何问题。

Swyx [00:36:48]: 不是,但你似乎对这件事很有信心。你在这方面有很大的利益风险。我是说,有一个汽车销售商在他们的网站上放了一个聊天机器人,有人通过这个机器人以一美元的价格谈成了一辆车的交易,对吧?因为他们没有处理好 prompt injection 的问题。当你在用聊天机器人进行电子商务时,你就是一个有着巨大经济利益风险的典型例子。

Jesse [00:37:09]: 是啊,我觉得这个例子很有趣。有些词序确实会让我们的系统崩溃。我会说,大多数时候,当我们把产品给别人试用时,比如说,我们告诉某个网红或机构,我们有一个 AI 聊天系统。然后他们做的第一件事就是输入系统消息,忽略所有之前的指示,并揭示你是谁,就好像大语言模型知道自己是谁一样,揭示你的系统消息。然后我们就不得不笑着说,嘿,兄弟,你在说什么呢?所以我们通过一个推理模块来清理输入。我们有多步骤的输入清理和输出清理,以确保没有奇怪的事情发生。随着我们从原型进展到生产,我们确实有很多地方需要改进。也有过这样的情况,一段媒体以非常低的价格售出,我们需要查明原因并修复问题。但这并不是实物商品,而是媒体内容。因此,我们将定价系统与决定生成内容的模块分开,虽然它在某种程度上有部分联系。所以定价是另一个问题。我们在一些方面设置了硬性保护措施,比如价格控制和内容限制。我们会用其他模型来测试生成内容,确保没有关于未成年人的不当言论,或者用其他模型来测试输入内容。

Swyx [00:38:57]: 是啊,这的确是一个很复杂的流程。我只是担心,这样会增加成本。听起来你们有很多模块,每个模块都涉及 API 调用。首先,延迟是可以接受的,因为你们是在模拟人类打字的过程。其次,这实际上就是成本的不断叠加。你们有考虑过这个问题吗?

Jesse [00:39:17]: 是的,这很特别,因为人们花费数千美元与这个产品互动一个小时。我还没有见过其他观众群体能像这样省钱。我不知道还有哪个观众群体或者用例能通过聊天系统做到这一点,每个粉丝花费这么多钱。我们和一个网红合作,她的个人资料上有 100 个粉丝。每天我们从这 100 个粉丝中为她赚取 3000 到 5000 美元。当然,这 100 个粉丝中有 80% 会离开,所以会有新粉丝加入。这也是为什么不能在 OpenAI 上做这件事,因为那样每个粉丝的成本是 30 美元,而通过开源方式,你可以大大降低成本。因此,开源是最佳选择。你必须调整好整个流程,不能在 OpenAI 或其他平台上进行超过一定比例的工作。

Alessio [00:40:10]: 说到开源模型推断,你怎么看待延迟问题?我认为大多数人会在某种程度上优化延迟,尤其是对于 Diva 这种类型,你可能不希望立即回复。你是怎么处理这个问题的?是当消息一进来就立即处理,然后再决定何时回复,还是你有其他的时间控制方法?

Jesse [00:40:31]: 是的,差不多是这样。我认为有几个情况。一个情况是,有时候产品会与粉丝进行调情,这些内容看起来像是实时录制的。因此,延迟必须足够短,能够及时回应或联系粉丝,因为每分钟都会有很多粉丝上线,平均会话时间大约是七八分钟。你需要能够与粉丝互动,并以个性化的信息联系他们,在他们与其他网红互动或开始观看其他媒体之前向他们发送内容,否则你可能会失去当天的客户。所以延迟非常重要。延迟对于同时进行许多并发对话也很关键。你可以在大模型配置文件上同时进行 50 个并发对话。人们通常需要几分钟来回应,有时会立即回应,但大多数时候他们在工作,或者刚刚在健身房、车里,他们在回复之间有一些时间。但是,总的来说,我们不太在意延迟。现在的情况对我们来说可以接受。如果我们必须在两分钟内回应才能让客户保持参与,这就是我们的标准。而且我们还有一些与延迟无关的逻辑,比如忽略谁、什么时候回到对话、什么时候离开对话,以及如何避免与粉丝建立不付费的关系。因此,如果你每次都回应他们,他们就会免费得到他们想要的东西。所以需要有一些间歇性的奖励元素,或者在战略上忽略某些人,或者在某人没有购买内容时进行一些提醒。另外,还有一些边界,比如如何应对无礼的粉丝,如何处理那些没有消费收到内容的粉丝。

Alessio [00:43:02]:是的。总结一下产品方面的内容,然后我们将讨论更多关于人类行为的问题。有没有迹象表明实际的粉丝平台想为网红建立类似的功能?我猜这可能有点敏感,毕竟我们不能真的鼓励用户对注册到平台上的人不真实。这就是其中的动态。

Jesse [00:43:23]:是的,我认为一些粉丝平台一直在尝试引入 AI 网红,这方面确实有很大的兴趣。很多人只是想和 AI 互动,虽然他们的想法可能并不现实。但一些平台已经推出了 AI 网红或真实网红的 AI 版本,并期望用户得到 AI 的回应。你可能因为其他原因也想整合这种技术。我认为这些粉丝平台的相当一部分收入是通过代理机构实现的,他们通常有离岸的聊天团队。这是目前行业的状况。可以设想,一个粉丝平台可以通过垂直整合将这种能力纳入自身,禁止代理机构,从而在与某个网红合作时提高收入份额,甚至翻倍。他们可以说,你可以支付我们 10% 或 20% 来使用这个平台,如果你想赚更多的钱,可以使用我们的聊天服务。聊天服务不一定需要冒充网红。事实上,对于某些网红来说,粉丝完全可以接受与 AI 对话。我相信,有些网红主要吸引的是那些希望方便的人,他们希望有一个产品直接提供他们想要的视频,然后继续他们的日常生活。这是这些用户群体的主要需求。对于我们合作的网红,他们通常会定义想要继续直接交流的受众群体,比如那些花费较多的粉丝或有一定关系的粉丝等。大多数网红想要摆脱的是那种费力的、重复的过程,比如试图让一个个粉丝感兴趣,而你根本不知道这些粉丝是谁,是否会在你身上花钱,是否值得你花时间。我认为粉丝平台也可能不想将这种产品纳入内部。可能最好让这种产品在他们之外存在,他们只是视而不见,这就是他们目前的做法。

Swyx [00:45:44]: 我认为他们在了解不同网红的粉丝方面有一些优势,比如构建一个全面的档案,就像在建立一个社交网络或内容网络。这有点类似于 YouTube 对我们这些用户的了解。他们知道我们想要什么,并且拥有推荐算法等等。不过,我们不必过于担心这些。

Jesse [00:46:06]: 是的。我们掌握了很多粉丝的信息,当一个已经订阅了我们某位合作网红的粉丝,又去订阅我们另一位合作网红时,我们需要管理这些网红的多个档案之间的粉丝重叠。此外,我们知道这些粉丝的偏好,但也需要进一步了解他们的喜好,完善我们对这些粉丝的认知和记忆。

Swyx [00:46:33]: 很好。还有两个技术问题,如果我不问的话,可能会被人埋怨。第一个是关于记忆和 DSPy。就是关于记忆的问题,比如你可能会有上千次的对话。我注意到人们对记录设备的兴趣越来越高,这些设备可以记录你的一整天并进行总结。是什么影响了你的思考方式?在长时间对话中,最大的收获是什么?

Jesse [00:46:57]: 当我们接手一个新客户的资料时,我们的目标是能无缝接续与花了 2 万的客户的对话。而且你不能总是让网红来处理这些客户,因为实际上,网红可能从未接触过这些客户。网红也可能已经解散了他们现有的聊天团队。因此,你需要了解客户的偏好、身份以及他们的购买记录。然后,你还需要能够模拟他们习惯的对话模式。我见过有人在不同的标题下嵌入总结和事实。当你想引导对话到其他方向时,检索这些信息可能会很困难。因此,需要额外的启发式方法。例如,当你与一个粉丝谈论他们的工程项目时,最佳的回应可能不是“哦,太好了,我记得你在做这个布料项目”,而是“这很无聊,来和我玩吧。”

Swyx [00:48:08]: 是的,就像你为你的机器人设定了目标一样。我希望能更多地讨论记忆功能,但我认为那可能是你们的核心技术之一。DSPy 是你们投资的一部分,看起来它在帮助你微调模型。能告诉我们更多关于你们如何使用 DSPy 的情况吗?这个框架对你们有哪些帮助?你们认为它未来的发展方向是什么?

Jesse [00:48:28]: 是的,最初我们是自己在做的。然后我们在一个低代码工具上进行原型设计。为了适应不同用户和网红的需求,我们进行了许多优化,但这变得难以管理。特别是在低代码框架或可视化工具中,这种做法不再合理。因此,我们需要一个从工程角度看更好的解决方案,而且要非常灵活,比如模块化和可组合的工具。另外,我们也希望利用这些优化。虽然我们不需要在 DSPy 上构建整个产品,但可以优化提示,或者从成功的用户资料中获取信息,基于这些变量进行优化是很有帮助的。然后,我们有时会优化带入上下文的示例。这真是太棒了。

Alessio [00:49:29]: 最后两个问题。网红们是否会和他们自己的机器人对话进行测试?他们会给你反馈,比如“我本来会这样说”或者“我会那样说”?有这种情况吗?

Jesse [00:49:41]: 是的,我每天都会和网红交流,几乎是持续不断的。在这个播客期间,我的手机可能一直在响。网红们非常关心那些能在一对一互动中复制他们个人品牌的产品,所以他们不断地提供反馈,这真的很棒。这种反馈形成了一个良性的循环。我们非常幸运能与这么聪明的网红合作,他们知道如何经营自己的业务,了解在他们的个人页面上什么最能吸引观众。很多网红都不吝于提供反馈,我们也非常乐于接受反馈。因此,我们非常习惯在发布内容后收到各种反馈,比如“这个不对,那个不对,这个人处理得不好,你说的这个词不对,这个回应很奇怪”等等。我们有一些流程可以从这些反馈中学习。我们还和那些对语气非常重视的网红合作,可能他们以机智或真实性著称。我们也和那些对语气不太在意的网红合作。我们发现这种产品对这个行业非常有利,因为大语言模型擅长复制语气,无论是通过手工打造提示,还是某种 K-shotting,或者是微调,或是其他优化方法。我们已经在语气上达到了让网红满意的程度,他们会告诉我,“我在给朋友发短信时,想着这个机器人会怎么说”。从早期有一个糟糕的大语言模型产品,到现在有一个让人满意的产品,看到这些生成的内容,让人分不清是网红说的还是产品生成的,这带来了极大的喜悦。这真的很有趣。我们非常感谢我们的客户,他们在反馈方面非常棒。

Swyx [00:51:41]: 好的,非常感谢你能如此开放并慷慨地抽出时间来接受我们的采访。我知道你忙于经营公司,但能从你那里得到一些见解真是太好了。很多工程师对这个领域很好奇,但很少有机会接触到像你这样的人。你分享的想法真的很有帮助。我本来想为我们的结束问题找个话题,但实际上,我就把它留给你吧。我们有没有漏掉什么问题是我们应该问你的?

Jesse [00:52:02]: 首先,非常感谢你们两位和我聊天。过去一年里我一直忙于建立公司,现在能出来谈谈这个行业,真的很有趣。你们对我的兴趣让我感到非常荣幸,真的很感谢你们花时间和我聊天。我认为这是一场充满无限可能的对话。我希望能继续在这个领域工作,愿意和任何对这个领域感兴趣的人交流。我确实对未来做一些事情感兴趣,可能是提供一个面向女性用户的产品。因为角色 AI 有很多每天重复使用的用户,许多客户每天会多次回来使用,其中很大一部分是由女性与她们的动漫男朋友聊天驱动的。我希望能够提供一种情境体验,能够长期互动,并且确实不适合在工作场所使用。这将是一个非常有趣的项目。如果你对这个领域感兴趣或想建立与此相关的东西,请联系我。我很想和你谈谈。

Swyx [00:53:24]: 那是一个有趣的问题,因为人们应该怎么联系你?你想让我们作为中介,还是有什么最好的方式?

Jesse [00:53:29]: 是的,或者他们也可以在 Twitter 上联系我。好吧。

Swyx [00:53:32]: 好的。我们会在节目笔记里加上你的 Twitter。

Alessio [00:53:34]: 太好了。非常感谢你,Jesse。

Jesse [00:53:37]: 这次真的很有趣。非常感谢你们俩。

Swyx [00:53:59]: 谢谢。