小鱼儿的空间

Tuesday, 10 March 2026

连续运行30天的AI Agent系统

智东西3月10日报道，海外知名AI科技博主、前谷歌产品经理Shubham Saboo近日在社交平台公开复盘了自己连续运行30天的AI Agent系统。

在他的设想中，这支“龙虾团队”应该像一个自动运转的小型内容工作室：有人负责研究行业信息，有人负责写内容，还有人负责发布和运营账号，整个流程全天候自动运行。但现实很快给了他一记闷棍。

最初几天，这套系统几乎可以用“灾难”来形容：负责写内容的Agent写出来的推文又长又空，读起来像模板拼接；负责搜集信息的Agent一天抓回47条所谓的“行业线索”，其中40条都是没用的假消息。

Saboo后来回忆，那几天他几乎一直在给Agent“擦屁股”。他花在修改Agent输出上的时间，甚至比自己手动把这些事情做完还多。上线第4天，他差点直接把整套系统关掉。

但事情在几周后开始出现转折。同样的模型、同样的提示词，第4周时，这些Agent生成的内容已经可以直接拿来用，大多数草稿只需要改两三个词就能发布。原本需要他反复返工的任务，开始自动跑通。

在这份复盘里，他回答了一个问题：为什么那么多人“养虾”时，第一周就速速放弃，而有些人却能把龙虾变成同事，效率倍增。

01 第1周几乎是“负收益”：改Agent比自己干活还累

Saboo最早上线的Agent是运营Agent——“Kelly”，负责运营他的X账号。第一天只是搭建环境，第二天开始生成推文，但结果并不理想。

Kelly写出来的内容既冗长又套路化，经常使用列表和箭头符号，开头是“我很高兴宣布……”，结尾再配上一串标签，整体风格不是作者平时的表达方式。

Saboo回忆，在第一周里，他几乎每天都在修改这些内容，花在修正Agent输出上的时间，比自己直接写一条推文还多。原本期待AI带来效率提升，现实却是不断修补错误输出，同时还要维护系统本身。

后来复盘这段经历时，他把这个过程称为 “纠错式Prompt工程（Corrective Prompt Engineering）”。与其一开始就设计完美提示词，不如先在SOUL.md（Agent行为设定文件）中写一个粗略设定，然后通过持续反馈不断修正，就像管理新员工一样。第一版通常很普通，第十版开始能用，第三十版才会真正稳定。

Saboo坦言，在第一周结束前，他一度差点把整个系统关掉。

02 把具体反馈写进文件，而不是停留在聊天里

Saboo发现，Agent真正变好的关键在于具体规则的积累。在“运营Agent”Kelly第一次生成推文后，他把一组明确规则写入Agent的记忆文件。

这个记忆文件后来逐渐形成两个部分：一个叫“BAD”，记录所有被否定的写作模式，比如使用bullet points（项目符号列表）、箭头格式或领英帖子的语气；另一个叫“GOOD”，里面放的是作者过去表现最好的推文，让Agent在每次写作时进行模仿。

随着这些规则不断累积，Kelly的表现逐渐改善。第10天时emoji基本消失，第15天开始模仿作者的句式结构，到第20天时，大部分草稿只需要改一两个词就能发布。

Saboo认为，很多人使用Agent时会忽略一个关键环节：反馈必须写入文件，而不是停留在聊天记录里。如果反馈只存在对话记录中，下一次任务Agent就会再次犯同样的错误。只有当这些经验被写入可持续加载的文件，系统才会真正进化。

03 一次错误，让研究Agent学会判断“信号”和“噪音”

Saboo的第二个Agent是研究Agent——“Dwight”，负责每天扫描AI行业信息，为内容团队寻找选题线索。第一次扫描时，Dwight推送了47条信息，其中40条都属于噪音：包括各种小更新、未经验证的传闻，以及几乎没有价值的项目。

于是Saboo给了它一个非常严格的规则：如果读者Alex今天无法据此做任何事情，就不要推送。Alex是Saboo设定的目标读者画像：一位AI产品开发者。

这个规则很快改变了Agent的行为。第10天时，Dwight每天只推送18条信息，而且大多有价值；到第25天时，数量减少到7条，但每一条都值得阅读。

此外，一次错误也让系统进一步优化。Dwight曾把一个工具当成“新发布项目”推荐给Saboo，后来才发现，这个工具早已存在，只是当天有人在X上提到它。Dwight误把“被讨论”当成“刚发布”。

Saboo随后调整流程，要求Agent在推荐项目之前必须验证发布时间，例如检查GitHub仓库创建日期、Hacker News发布时间以及实际发布记录。如果项目已经存在一周以上且没有明显更新，就直接跳过。

他还彻底移除了GitHub趋势榜作为信息源，因为那里噪音太多，很多项目只是被重新讨论而已。取而代之的是goodailist.com（专门筛选新AI项目的网站）。

04 Agent团队也会“发胖”：上下文太多反而拖慢系统

随着系统不断积累经验，一个新的问题出现了：上下文膨胀。

Kelly的上下文一度达到161000个token，Dwight也超过156000个token。大量历史记录占据了模型的上下文空间，导致响应变慢，输出质量也开始下降。

Saboo最终对两个Agent进行了“压缩”：Kelly的上下文从161K减少到40K，Dwight从156K减少到43K。做法很简单，只保留当前真正有用的规则和记忆，其余内容全部归档。

他后来把这件事变成固定流程，每两周检查一次Agent记忆文件。Saboo形容，这个过程就像软件项目里的代码重构，如果长期不清理，系统就会越来越臃肿。

同一时期，他还解决了另一个系统问题。

第三周时，定时任务调度器出现Bug：任务在队列中推进，但实际上并没有执行。Saboo几个小时后才发现问题，因为系统表面状态看起来一切正常。

于是他新增了一个“首席运营Agent”——Monica。Monica负责定期检查系统“heartbeat（任务心跳信号）”。如果某个任务超过26小时没有运行，她会自动触发重新执行。

05 每个Agent团队，都会经历的三个阶段

根据自己的实践经验，Saboo认为大多数Agent团队都会经历三个阶段。

第一阶段是混乱期，通常发生在上线后的前一周。Agent输出内容普遍比较普通，修改成本甚至高于人工完成任务，很多人会在这一阶段放弃。

第二阶段是稳定期，大约在第8到第21天之间。随着反馈不断积累，明显错误逐渐消失，输出开始接近可用状态，只需要少量编辑。

第三阶段是复利期。当系统积累了足够多的规则和上下文后，Agent会逐渐理解用户的表达习惯和判断标准，新任务也能继承过去的经验，整体效率明显提升。

在他看来，能够坚持度过“混乱期”的人，最终得到的是一套会不断学习的自动化系统；而那些中途放弃的人，则每一次都要从零开始。

06 真正提升效率的是：两类文件和一个闭环

Saboo在复盘这30天时特别强调，真正会随着时间不断变好的，其实只有三样东西，其他部分基本都没有本质变化。

第一类是记忆文件。记忆文件存放的是Agent从反馈里学到的“偏好”，每一条反馈一旦写进记忆文件，就意味着这类错误以后不必再纠正一次。

第二类是技能文件。和记忆文件不同，技能文件记录的是从失败中提炼出来的“操作规则”。Saboo认为，技能文件更像是任务说明书，它告诉Agent这项工作到底该怎么做，而不仅仅是用户个人偏好是什么。也正因为更具指令性，技能文件往往比记忆文件积累得更快，效果也更直接。

第三类真正持续起作用的东西，是反馈闭环。Saboo认为，这是最容易被忽略的一环。很多人搭完Agent之后就让它自己运行，过几天发现效果没提升，便觉得系统没有用。但问题往往不在模型，而在于反馈没有真正进入系统。

比如“运营Agent”Kelly写完一条推文，如果Saboo只是当场说一句“太长了，把第一段删掉”，但这句反馈没有被写进文件，那么下一次Kelly还是会犯同样的错误。只有当这条反馈被记录进记忆文件或技能文件，并在下一次任务开始时重新加载，Agent才会真正“记住”这件事。

Saboo自己后来形成了一套固定动作：先给反馈，再由Agent更新记忆文件或技能文件，下一轮任务开始时把这条经验重新加载进去。整个流程并不复杂，但前提是执行上必须足够严格。

在他看来，模型在第1天和第30天其实没有变化，不会越用越“聪明”。真正发生变化的，是围绕模型构建的系统——包括规则文件、记忆记录以及持续反馈形成的工作流程。

07 他踩过的坑，也正是多数人会放弃的地方

回头看这30天，Saboo也总结了几个自己最典型的失误。

第一个问题是Agent上得太快、太多了。

他在两周之内一口气搭了6个Agent，结果很快发现：单个Agent本身都还没有进入稳定状态，多个Agent之间的衔接自然更容易混乱。更合理的方式应该是先把一个Agent做到稳定可用状态，再去加第二个。

第二个问题是文件结构一开始就设计错了。

最初两周里，他把所有内容都塞进同一个文件：偏好、规则、经验、教训混在一起。结果就是，Agent加载到的上下文经常互相打架。比如第一周形成的是一种表达偏好，第二周又写入了一条更明确的规则，二者之间可能彼此冲突，最终反而让Agent理解混乱。

Saboo后来才把记忆文件和技能文件彻底拆开，并给自己定了一条更明确的要求：当上下文达到15万token以上时，就必须强力压缩，不能再拖。

第三个问题是反馈给得太模糊。

Saboo认为，“把这个改好一点”这种话几乎不会留下任何有效积累，因为它无法写成一条规则，也无法指导下一次任务。真正有用的反馈，必须具体到足以直接写进文件。可靠的反馈不仅能解释为什么有问题，也能直接告诉Agent下次应该怎么改。换句话说，只有能被规则化的反馈，才有复利价值。

08 如果从零开始，前30天应该怎么跑

在文章最后，Saboo也给出了一套更适合新手照着执行的30天方案。

第一周，最重要的不是追求复杂系统，而是只挑一个自己每天最重复、最机械的任务。

围绕这个任务搭建一个Agent，写好SOUL.md，设置一条简单的定时任务，让它先跑起来。Saboo提醒，这一周产出的内容大概率会很普通，甚至很糟糕，这本来就是正常现象。第一周唯一的任务是把所有错误都具体地纠正出来，不是简单说“这个不行”，而是明确告诉它：“这条不行，是因为X；下次请按Y来做。”

第二周，要开始检查这些经验到底有没有真正留下来。

Saboo建议，可以让同一个Agent跑两次相似任务，然后观察它是否还会犯同样的错误。如果同样的问题再次出现，就说明反馈闭环没有成型，也就是经验没有真正进入可持续存储的文件。这一阶段，用户应该开始建立自己的技能文件，把那些反复重复的规则正式写下来。

第三周，如果前两周执行得比较扎实，Agent通常会逐渐进入第二阶段，也就是“内容需要编辑，但不需要重写”。这个阶段可以开始记录一个更实际的指标：每次审稿到底花了多久。

Saboo认为，这个数字应该是一周比一周下降的。如果没有下降，通常不是模型不行，而是反馈仍然不够具体。

到了第四周，才适合考虑引入第二个Agent，而且前提是第一个Agent已经能够稳定产出有用结果。

Saboo建议，这时两个Agent之间的配合也不要设计得太复杂，最简单的方式就是基于文件协作：第一个Agent把产出写进共享文件，第二个Agent去读取这个文件再继续处理。集成方式越简单，系统越不容易失控。

Tuesday, 24 February 2026

医生只能看到你父母健康状况的一个快照，因此，了解他们日常的功能状态，有助于医生更有效地诊断和治疗你的父母

美国人的寿命越来越长，但常常同时与多种慢性病共存。然而，许多成年子女并不真正了解父母的健康状况——直到他们摔倒、被救护车送走或住院之后。

加州大学旧金山分校的老年病学专家、《老年岁月》一书的作者路易丝·阿隆森博士表示，这种沟通的缺乏对所有人都有害。在紧急情况下，成年子女可能不知所措，与兄弟姐妹发生争执，并在事后很长一段时间内为自己是否做出了正确的决定而感到内疚。对于父母来说，沉默可能意味着他们的意愿未被理解，而他们的子女则要承受不必要的、猜测所带来的压力。

为了避免这些情况，我们咨询了专家，在危机发生之前，你需要了解年迈父母的哪些情况——以及如何开启这些艰难的对话。

"感觉上像是你在让他们经历一些困难的事，但这其实是为了避免未来发生更糟糕得多的情况，"阿隆森博士说。

了解他们的日常基线

在紧急情况下，医生只能看到你父母健康状况的一个快照，因此，了解他们日常的功能状态，有助于医生更有效地诊断和治疗你的父母。

首先，询问父母的日常生活习惯。然后，温和地转向更具体的、关于他们行动能力和认知能力的问题，迈阿密大学卫生系统普通内科主任萨布丽娜·塔尔东博士说。

这些可能是敏感话题，所以在讨论前要先征得同意，并解释你为何要问："因为我关心你，并且想在紧急情况下确保我能支持你，"塔尔东博士说。有时最好旁敲侧击。与其直接问他们是否摔倒或有记忆问题，不如试着问是否有他们现在会避免的情况（比如走楼梯、长距离步行或夜间开车），或者是否有些事情过去觉得轻松但现在需要费更多力气（比如管理账单或记住预约）。

塔尔东博士说，至少每年要重新讨论这些问题一次，或者在发生任何重大健康事件（如住院或手术）之后。如果你不住在附近，无法亲眼目睹逐渐的变化，这一点尤其重要。

询问病史

首先，整理一份你父母正在服用的药物清单，连同他们的医生姓名和电话号码、过敏史以及过往手术史，哈佛医学院医学助理教授、阿里阿德涅实验室前主任纳米塔·塞思·莫塔博士建议。

莫塔博士说，这份清单在紧急情况下特别有用，因为它告诉医生病人有哪些基础疾病，某种症状是否可能与药物有关，以及在医院里应该继续使用或避免哪些药物。

如果可能，记下你父母正在使用的任何补充剂，或者任何他们没有规律服用的处方药，无论是因为费用、副作用还是遗忘。

莫塔博士还说，也记下他们药房的名字和电话号码，这样在紧急情况下，医生可以致电核实已经取了哪些药。如果你的父母不愿意与你分享他们的药物清单，这一点尤为重要。

你可以把这些信息保存在手机的文件或照片里，但也值得在钱包里放一份复印件，以防手机没电。

明确最重要的考量

在健康危机期间，父母或成年子女可能需要做出无数选择。虽然你无法预见每一个，但提前讨论目标和价值观，可以帮助父母为紧急情况做好更多准备，并让成年子女保持一致。

"这不仅关乎你在生命终结时想要什么，"莫塔博士说，"更关乎随着年纪增长，你想要的生活是什么样子。"

探索什么给你的父母带来快乐和意义，他们最大的担忧是什么，他们在医疗方面的优先事项是什么，以及他们希望避免什么。例如，父母可能会说，他们希望最大化在家度过的时间；或者他们想尽一切可能活下去；又或者他们不想在重症监护室里靠机器维持生命。

"在紧急情况下，你是在匆忙中做决定——情绪化的决定，"莫塔博士说。"这是提前反思的机会。"

你也可以尝试将这视为一项集体活动——在家庭聚会时留出时间，让每个人都分享对他们来说重要的事情，莫塔博士建议。这可以避免让你的父母感到被针对，并且提前通知可以让每个人都有时间准备，而不是感到被突然袭击。

讨论他们的居住环境

阿隆森博士说，人们最终住院或进入护理机构的一个主要原因是，他们的日常能力与家庭环境不匹配。

因此，与你的父母讨论对房屋进行一些改造，以延长他们的独立性。例如，随着视力和平衡能力下降，移走松动的地毯和杂物可能会有帮助——并安装更好的照明、淋浴椅和扶手。一次摔倒可能导致住院、康复治疗，甚至搬到养老院，所以，将这些调整包装成一种帮助父母掌控自己日常生活的方式。

阿隆森博士说，也值得讨论一下你的父母长期将在哪里生活——不是催促他们搬家，而是作为一种了解偏好的方式。你的父母愿意不惜任何代价待在家里吗？他们愿意考虑缩小居住规模吗？他们会考虑请人帮忙、与家人同住或尝试辅助生活吗？

尽早进行这些对话有助于最大化你父母的选择，因为护理机构的等待名单可能很长，而且有些地方无法容纳病情更严重的老人。

阿隆森博士说，这有时是一场协商：成年子女可能优先考虑安全，而父母可能优先考虑他们的独立性。"我们的想法是找到一种能在两者之间有所平衡的方案，"她说。

指定一个核心联络人

当父母病重到无法为自己发声时，亲人可能需要介入。但如果这群人不一致或不明确谁负责，护理可能会被延误，信息传递容易混乱，父母的意愿可能会被忽略，阿隆森博士说。

这就是为什么成年子女应该明确询问他们的父母，谁将负责医疗决策——并确保这一点对每个人都是清楚的。塔尔东博士说，进行这次谈话是最基本的要求，但最好同时完成生前遗嘱和医疗委托代理人表格，这些文件明确说明了医疗意愿，并正式指定一个在紧急情况下做决定的唯一核心联络人。

塔尔东博士说，请记住，这不是要挑一个最喜欢的人，而是要选择最适合这个角色的人。她解释说，可以考虑一个住在附近或密切参与、了解父母意愿并且能在他人反对时依然遵循这些意愿的人。换句话说，可能是你或你的兄弟姐妹之一，但也可能是父母的伴侣、密友、兄弟或姐妹。

"很多时候，一个家庭共同做决定，但归根结底有一个人负责，"塔尔东博士说

Pages