Language:Chinese VersionEnglish Version

现代AI写作工具最危险之处不在于它们生产出糟糕的内容。而在于它们能生产出足够好的内容——快速、廉价,且规模之大让数量看起来像是策略。每家在2025或2026年建立内容的出版商都面临同样的诱惑:工具已经存在,边际成本接近于零,为什么不发布更多内容呢?

NovVista也曾面临这种诱惑。我们至今仍面临这种诱惑。我们最终得出的答案不是一条反对AI的道德底线——那既不诚实也不切实际。答案是一个专门构建的工作流,旨在提取AI擅长做的事情,同时为其不能做的事情设定明确的界限。正确把握这个界限比我想象的更久,并且在我们纠正方向的过程中,让我们失去了一些排名。

这是我们AI编辑工作流实际运作方式的完整记录,我们为此付出的代价,以及我们现在视为不可协商的内容质量护栏。如果你经营独立出版物并试图解决同样的问题,以下大部分内容应该可以直接适用。

我们试图解决的问题(以及我们创造的问题)

NovVista以一个简单的理念起步:报道科技行业中大型媒体要么忽视要么简化为新闻稿摘要的部分。这意味着原创报道、有来源的分析,以及真正立场鲜明的编辑观点——而不是伪装成新闻的谨慎聚合。

这类内容生产耗时。一份有良好来源的技术分析可能需要两到三天的研究、写作和修改才能达到我们的标准。当AI写作工具强大到能在四分钟内生成结构连贯的1500字文章时,数学计算看起来很有吸引力。更多产出,更快节奏,同样的团队。

在开始尝试AI辅助生产大约八个月后,我们发现谷歌的质量系统已经显著提升,能够识别出结构合理但信息贫乏的内容。那些读起来流畅但没有任何新意的内容——没有原创观点,没有超出每篇竞争文章已有的来源数据,没有证据表明人类真正参与了这个主题——正在被降级,而那些具有明显深度信号的内容则获得提升。

我们没有以通常理解的方式成为内容农场。我们没有发布数百篇充满关键词但没有编辑价值的文章。我们做了更微妙、而且事后看来更具腐蚀性的事情:我们让AI先起草,人类再编辑,这意味着即使人类阅读了每一句话,AI的结构和优先级也在塑造我们发布的内容。表面上看,声音是我们的。但判断不是。

解决这个问题需要从信息发现阶段开始重建工作流程,而不仅仅是在最后增加更严格的编辑审核。

工作流程现在实际如何运作

当前的NovVista工作流程有六个不同阶段。其中三个阶段涉及AI。所有重要决策都由人类做出。

阶段1:信息发现与选题选择

不使用AI。就这么简单。出现在NovVista上的每篇文章都始于人类关于什么值得报道的编辑判断。这一判断基于RSS源、原始资料、行业联系人、读者提问,以及越来越多地来自我们自身分析的数据信号——这些信号告诉我们受众实际在参与什么,而不仅仅是点击什么。

我明确提及这一点,因为很多AI辅助的出版物在选题选择阶段就悄悄交出了控制权。如果你使用AI工具根据关键词量或热门话题来提供选题想法,那么你已经基于流量信号而非新闻判断做出了最重要的编辑决策——报道什么。在那一点上,你已经将你的出版物导向了排名优先而非内容重要。这两者有时会重叠,但它们经常是背道而驰的。

NovVista的选题选择是一个每周讨论的过程。我们关注科技行业的实际动态,我们的报道发现了哪些其他人没有覆盖的内容,以及我们的读者积极向我们提出哪些问题。一旦我们确定了候选选题,AI工具可能会帮助我们进行研究。但它不会为我们确定选题。

阶段2:研究与资料整理

这是AI工具进入工作流程的第一个阶段,其角色是有限的:研究合成和资料整理,而非原始研究。

当我们有了一个要跟进的选题,我们主要使用LLM来加速两项任务。首先,总结大量原始资料——电话会议记录、学术论文、长篇技术文档、监管文件——这样人类研究员可以在完整阅读前确定哪些内容相关。其次,帮助快速梳理某个领域的全景:主要的不同观点是什么,可信的来源之前说过什么,我们需要基于哪些已公开确立的事实基础进行构建。

这些任务都不能替代原始研究。AI生成的财报摘要仍需要研究人员阅读原文中的相关部分。行业图谱仍需要验证。改变的是在不熟悉领域建立背景知识的时间成本。以前,报道新领域的记者需要花费三到四个小时来建立背景知识。而现在,这个定向阶段只需不到一小时,这意味着有更多时间用于真正产生原创报道的工作:打电话、阅读原始资料、确定尚未被报道的角度。

第三阶段:AI辅助起草

这是需要最谨慎管理的阶段,也是大多数AI辅助出版物出错的地方。

我们使用AI生成结构草稿——一个框架,而非完整的作品。提示词非常具体:根据研究笔记、引用来源和我们已确定的编辑角度,生成一个逻辑组织材料的第一遍结构。输出被视为起点,而非需要编辑的文档。我们的工作假设是AI生成的草稿将被大幅重写。

这种区分——框架与草稿——以重要方式改变了人类作者与AI输出之间的关系。当你编辑AI草稿时,你是在修改一份文档。当你使用AI框架时,你是在用自己的内容填充一个结构。第二种过程产生原创写作,第一种过程则产生经过优化的AI写作,这是不同的东西。

框架方法还具有实际的品质效果:它迫使人类作者积极参与结构设计,而不是被动接受AI的组织选择。AI语言模型对某些结构模式有强烈的倾向性——宽泛的介绍、三个主要部分、总结性结论——这些模式优化了整体连贯性,但不适用于特定故事的特定论证逻辑。我们的作者在填充框架前,经常会拒绝或大幅重组这个框架。

第四阶段:人工编辑审查

每篇经过AI辅助流程的文章都会由一位未参与写作的编辑使用结构化质量评分标准进行审查。审查不是草草了事。一篇2000字的文章通常需要45分钟到1小时的审查时间。

审查流程在下面的护栏部分有更详细的描述。核心要点是,这个阶段是编辑判断在没有AI参与的情况下运作的环节。这篇文章是否说了些无法从现有资料中整合的内容?论点是否明确表达,还是仅被暗示?这些主张是否达到了我们标准要求的引用级别?这篇文章听起来像NovVista的风格,还是像一个组织良好的语言模型?

最后一个问题——这听起来像是我们吗?——比听起来更难操作化,我们在这方面投入了大量时间。声音不仅仅是风格。它是长期以来编辑决策累积的分量:什么需要谨慎表述,什么可以直接陈述,我们使用哪些框架,我们愿意在出版物中提及哪些特定公司或产品。AI无法复制这一点,因为它无法访问我们的决策历史。它只能近似模仿。编辑的工作就是捕捉这些近似之处。

第5阶段:质量评分

在任何文章获得发表批准之前,都会根据五个维度的评分标准进行评分。每个维度采用五分制评分,最高分为25分。我们不发布低于18分的任何内容。

五个维度如下:

  • 原创性:这篇文章是否包含通过阅读我们引用的来源无法复制的报道、分析或观点?要获得5分,需要只有本出版物才能提供的内容——有来源的采访、有文档记录的案例研究、先前不存在的数据综合。1分则是重新包装的内容,没有原创贡献。
  • 事实准确性:所有事实性主张是否都引用了主要或可信的次要来源,并且这些来源是否被引用?这一维度会惩罚模糊的引用(”专家称”、”研究表明”)和那些暗示有证据但未提供证据的谨慎表述。
  • 声音一致性:这篇文章读起来是否符合NovVista的风格?这是最主观的维度,但也是对抗AI导致同质化最重要的检查。编辑根据他们对编辑特质的累积感受来评分,这种感觉由我们维护并每季度更新的特定声音标记文档所强化。
  • 结构完整性:论证是否逻辑清晰?各部分是否与所主张的内容相称?是否存在结构缺陷——提出主张但未支持,开启线索却未继续?
  • 读者价值:我们目标受众的读者读完这篇文章后,是否会学到一些新知识,或者对主题有了更清晰的理解框架?这是与参与度信号最直接相关的质量维度,也是在AI辅助草稿中未被充分重写时最常被强调的维度。

18分的阈值是在将评分标准应用于我们采用该标准前六个月的内容,并确定与我们表现最佳文章相关的分数范围后设定的。它不是任意的,但也并非神奇。我们每季度会重新审视这一阈值。

第6阶段:发布与内容审核

发布后,每篇文章都会进入90天的观察期。我们会跟踪参与深度(滚动深度、页面停留时间、回访次数)以及搜索表现。那些尽管搜索可见度足够但参与指标表现不佳的文章会被标记出来进行内容审核。

审核过程是刻意让人不舒服的。它提出了一个问题:如果这篇文章排名靠前但无法吸引读者,这告诉我们我们在优化内容和读者实际需求之间存在怎样的差距?答案几乎总是我们过于追求内容的广度而牺牲了深度,或者AI辅助生成的稿件保留了结构上连贯但不吸引人的模式。

在过去一年中,我们通过这一审核流程更新或大幅重写了22篇文章。在这些案例中,大约有一半的原文章在我们的评分标准上得分超过18分,但在参与度上失败了。这种差异很有启发性:如果结构选择正确但结构内的内容单薄,一篇文章可以满足我们的编辑质量标准,却无法提供真正的读者价值。为此,我们的评分标准已经更新了两次。

在我们的流程中AI擅长做什么

在花了相当多篇幅讨论AI不能做什么之后,值得具体说明它在工作流程中真正发挥作用的地方。

快速研究综合。当报道需要跨多个学科理解的技术主题,或需要理解监管或金融文件背景的内容时,AI工具显著降低了获得可用基线的时间成本。这是我们获得的最清晰、最一致的价值。

结构压力测试。要求大型语言模型(LLM)概述一个主题的全面处理方案,是检查我们自己的计划结构是否遗漏重要角度的有用方法。我们不使用输出结果作为大纲,而是将其作为比较基准——这里面有什么我们没有计划涵盖的内容,我们是否做出了刻意的选择将其省略?

翻译和本地化支持。对于那些将适应其他语言市场的文章,AI翻译工具已经消除了外包初步翻译的需求。虽然仍需要人工审核AI翻译的输出,但现在的流程已经足够快,可以在标准编辑周期内完成。

标题和元数据生成。AI工具在生成备选标题、元描述和小标题进行测试方面一直很有用。这类输出的质量门槛较低——我们是从选项中选择而不是直接发布——而且大型语言模型在几秒钟内生成的变体数量,人类文案人员可能需要一小时才能完成。

在我们的流程中AI不能做什么

我们遇到的最明显的失败模式并非模型的技术局限性。它们是对所分配任务类型的类别错误。

AI无法决定什么值得报道。这是一种编辑判断,需要理解我们出版物的使命、受众的实际需求,以及尚未被表达的内容的感知。LLM(大型语言模型)根据提示优化连贯性和相关性。它没有评估提示本身是否是正确问题的视角。

AI无法核实事实。它可以提供引用,可以听起来自信地提出主张。它无法区分来源实际说了什么与该来源可能延续的内容之间的区别。NovVista文章中的每一个事实主张都由人工对照原始来源进行核实。这不是可选的,也不是一个小问题——这是我们读者信任我们的基础。

AI无法在判断层面维持编辑声音,只能在风格层面做到。充分提示的LLM可以模仿我们的语调、句子结构和段落节奏。它无法复制NovVista说什么不说的累积决策,我们对哪些公司采用哪些标准,哪些主张比其他主张需要更多证据。这些决策存在于人身上,而不是在我们能访问的任何模型中。

AI无法决定何时谨慎表述,何时直接陈述。这听起来可能不重要。实际上,这是我们在AI辅助草稿中看到的最一致的编辑失败之一:应该作为事实陈述的主张被软化,我们的报道支持的结论被呈现为可能性,累积的效果是一篇技术上准确但智力上谨慎到无用的文章。这种谨慎被训练到模型中。从草稿中移除它需要编辑判断我们实际报道建立了什么。

透明度本身实现了什么

我们内部就是否公开我们的AI工作流程进行了长时间的讨论。担忧的是,关于AI使用的透明度会引发对我们编辑独立性的质疑。我们得出的结论——并通过读者反馈得到确认——是情况恰恰相反。

读者对媒体中AI的使用很了解。他们中的大多数人都认为出版物正在使用AI工具但没有披露。关于如何以及在哪里使用AI的明确透明度,加上对现有护栏的诚实说明,传递了与你预期相反的信号:它表明编辑决策是由那些认真对待这个问题并愿意公开思考的人做出的。

失去读者信任的出版物,并非那些公开使用人工智能的,而是那些在选题和风格层面明显放弃编辑判断的——那里的每篇文章结构上合格,主题上紧跟潮流,却与其他上百篇类似文章毫无二致。问题不在于AI辅助的句子,而在于缺乏只有这本刊物凭借其特定历史和价值观才能提供的独特视角。

公布这一工作流程既是一种透明度声明,也是一种承诺机制。它使我们的标准公之于众,并对此负责。这种责任并非没有代价,但不承担这种责任的代价——在出版速度压力下逐渐滑向内容农场经济模式——则更高。

我们向其他出版商的建议

以下内容基于我们曾经犯错而后改正的经验,以及与其他正在解决相同问题的独立出版商的交流。

  • 在需要之前就划定界限。在更多工作流程中使用AI的压力是逐渐形成的。当问题在你的数据中显现时,这种偏离已经持续数月。提前决定哪些决策必须由人类做出——选题选择、事实核查、编辑风格——并围绕保护这些决策来构建流程。
  • 在内容发布前而非仅发布后进行评分。将质量标准应用于表现不佳的内容是有效的,但在发布前应用则更有价值。发布前对文章进行评分,会迫使编辑进行讨论,而这正是AI辅助生产往往会跳过的环节。
  • 将脚手架视为真正的脚手架。如果你的编辑是在修改AI草稿,而不是在AI结构中写作,你就已经将编辑权交给了模型。这两种行为在实践中看起来区别很小,但对输出质量的影响却很大。
  • 定期并以具体问题审查你的内容。哪些文章排名高但参与度低?哪些文章被分享但无法留住读者?每个差距告诉你哪些编辑判断被让渡给了流程?这些问题的答案是对改进工作流程最可靠的输入。
  • 公布你的工作流程。透明度的成本比感觉到的要低,而责任带来的好处比看起来要高。而且,那些足够关心这个问题以至于会阅读声明的读者,几乎肯定是你最希望获得长期参与度的读者。

在编辑工作中有效使用AI的模式,与使用任何强大工具的模式并无太大不同:了解它真正擅长的领域,围绕其无法做到的事情建立纪律,并建立问责机制,防止工具超出适用范围使用时出现的偏差。这比发布政策更难,但比失去信誉后再重建要容易。

我们仍在不断迭代。此处描述的工作流程是当前版本,而非最终版本。如果您也在解决相同的问题,我们希望了解您的发现——通过联系页面或新闻通讯与我们联系。

By Michael Sun

Founder and Editor-in-Chief of NovVista. Software engineer with hands-on experience in cloud infrastructure, full-stack development, and DevOps. Writes about AI tools, developer workflows, server architecture, and the practical side of technology. Based in China.

Leave a Reply

Your email address will not be published. Required fields are marked *

You missed