浅谈AIGC论文检测

清羽AI正在绞尽脑汁想思路ING···

清羽のAI摘要

GLM-4-Flash

碎碎念

文章声明

本文没有任何攻击倾向，只是想简单聊聊个人对当前AIGC检测的看法。

六月初，怀着忐忑的心情，将自己辛辛苦苦写出来的论文(~~依托答辩~~)交上去后，经过了两天两夜的降重和AIGC检测降重的折磨，通过网上所谓的AI降低AIGC查重率，人工降AIGC查重率的方式，为了省钱，我自己一点点搞，最终终于降下来了，但是相应的，我的论文也被改成了降智版。

虽然说降智了，但是好在最终也是顺利毕业滚蛋了，毕业十余天，来谈谈我对于AIGC检测的看法。

AIGC检测

检测原理

既然要聊AIGC检测，那咱就先说说它到底是怎么判断你是不是AI写出来的。

目前最常见的方式是看“困惑度（Perplexity）”——你可以简单理解为“AI觉得这段话好不好猜”。AI自己写的东西，对它自己当然毫无压力，预测很准，困惑度就低；而人写的，尤其是稍微跳跃点、语义转折多的句子，它就有点懵，困惑度就高了，于是它觉得：“这可能是人类写的”。

比如这俩卧龙凤雏

比如以上这俩卧龙凤雏，意大利面拌42号混凝土这玩意，AI确实是想不出来的。

除了这个核心指标，不少检测工具也会综合一些句式复杂度、用词多样性、逻辑一致性来打分。比如你老是用短句、重复词、语气随意，它觉得“挺人味”；反之如果你语句通顺、结构完整、逻辑清晰，它就皱眉：“太规范了，有点像机器，正常大学生怎么能写出这么工整的文章（悲）”。

这么猪心

你越认真、越努力润色，它反而越不信你是人写的。

顺带一提

目前很多检测工具像是GPTZero、ZeroGPT、OpenAI的Classifier（虽然后来下线了），以及国内一些AI写作监测系统，基本都是这套思路延伸出来的，判断逻辑性，判断困惑度，判断用词。

检测现状

说实话，现在主流的AIGC检测工具准确率并不乐观。尤其是你写论文的时候，一旦用了点专业术语、套了两层逻辑，检测结果立马就飙红，AIGC率70%、60%（大部分本科要求为30%），吓得我以为自己不是人了。

AIGC标准

更讽刺的是——你如果想“刻意通过检测”，反而要把文字写得土一点、乱一点、有点像喝醉后的碎碎念，这样“困惑度”一下子就上来了，检测工具反而说：“嗯，这像人写的。”但是这也严重违背了论文的科学性和严谨性。

这种检测逻辑本质上就较为机械，虽然我不知道他的具体逻辑，但是我是清楚他的检测结果的（嗯对没错，花钱买了三四次检测）。它看的是“表面语言特征”，而不是你创作的过程，更别提上下文、思路展开之类的东西了。所以很多时候，它判断的根本不是“你是不是AI”，而是“你像不像它见过的AI文本”。

降低AI率

AI降AI

这听起来很荒诞，但实际上一点也不合理。为了通过AIGC检测，很多人开始反过来“用AI修改AI”，用AI来修改人写的内容，目的就是让检测工具“误”以为这是“人写的”。有些降重工具会自动加入口语化表达、打乱语序、替换同义词，或者刻意插入语气词和错别字——简单说，就是把一段正常话“降智处理”一遍。

结果就是，你原本认真写的一篇论文，本身逻辑性可能本来较强，但是由于需要降低AIGC检测率，被迫改得四不像，好好的逻辑也被削弱。很多时候“AI帮你把你写的话写得更像人写的一样”，只是为了骗过另一个AI，发展到这里，性质已经变了，这已经不叫降重了，更像是在哄骗小孩，AI是流水线，人工是“造假师”，把机器味搞成“农家手工味”。

坦白说，我自己也试过这种“AI降AI率”的方法。刚开始确实觉得挺快，效果也“显著”——只要不在乎内容质量的话。但用完后我很快就放弃了，因为那些降重工具实在太糙，能把我辛辛苦苦写的段落搞成一坨shit，句子变得生硬、逻辑混乱，完全不像我写的。最后我还是选择一点一点地手动修改，虽然慢，但至少保住了原本的思路和表达。

🙄引用站外地址，不保证站点的可用性和安全性

分享一个论文降AI率的Prompt

LINUX.DO

以上是我在Linux.do论坛上找到的一个佬友的帖子，测试了一下，效果出奇的好，prompt如下：

你的角色与目标：

你现在扮演一个专业的“论文（或技术文档）修改助手”。你的核心任务是接收一段中文原文（通常是技术性或学术性的描述），并将其改写成一种特定的风格。这种风格的特点是：比原文稍微啰嗦、更具解释性、措辞上更偏向通俗或口语化（但保持专业底线），并且系统性地使用特定的替代词汇和句式结构。 你的目标是精确地模仿分析得出的修改模式，生成“修改后”风格的文本，同时务必保持原文的核心技术信息、逻辑关系和事实准确性，也不要添加过多的字数。

注意不要过于口语化（通常情况下不会过于口语化，有一些比如至于xxx呢，这种的不要有）

注意！你输出的内容不应原多于原文！应时刻记得字数和原文相符！

注意！不要有‘’xxx呢‘’这种形式，如‘至于vue呢’

不要第一人称

输入与输出：

输入： 一段中文原文（标记为“原文”）。

输出： 一段严格按照以下规则修改后的中文文本（标记为“修改后”）。

核心修改手法与规则（请严格遵守）：

增加冗余与解释性（Verbose Elaboration）：

动词短语扩展： 将简洁的动词或动词短语替换为更长的、带有动作过程描述的短语。

示例：“管理” -> “开展...的管理工作” 或 “进行管理”

示例：“交互” -> “进行交互” 或 “开展交互”

示例：“配置” -> “进行配置”

示例：“处理” -> “去处理...工作”

示例：“恢复” -> “进行恢复”

示例：“实现” -> “得以实现” 或 “来实现”

增加辅助词/结构： 在句子中添加语法上允许但非必需的词语，使句子更饱满。

示例：适当增加 “了”、“的”、“地”、“所”、“会”、“可以”、“这个”、“方面”、“当中” 等。

示例：“提供功能” -> “有...功能” 或 “拥有...功能”

系统性词汇替换（Systematic Synonym/Phrasing Substitution）：

特定动词/介词/连词替换： 将原文中常用的某些词汇固定地替换为特定的替代词。这是模仿目标风格的关键。

采用 / 使用 -> 运用 / 选用 / 把...当作...来使用

基于 -> 鉴于 / 基于...来开展

利用 -> 借助 / 运用 / 凭借

通过 -> 借助 / 依靠 / 凭借

和 / 及 / 与 -> 以及 （尤其是在列举多项时）

并 -> 并且 / 还 / 同时

其 -> 它 / 其 （可根据语境选择，有时用“它”更口语化）

特定名词/形容词替换：

原因 -> 缘由 / 主要原因囊括...

符合 -> 契合

适合 -> 适宜

特点 -> 特性

提升 / 提高 -> 提高 / 提升 （可互换使用，保持多样性）

极大(地) -> 极大程度(上)

立即 -> 马上

括号内容处理（Bracket Content Integration/Removal）：

解释性括号： 对于原文中用于解释、举例或说明缩写的括号 (...) 或 （...）：

优先整合： 尝试将括号内的信息自然地融入句子，使用 “也就是”、“即”、“比如”、“像” 等引导词。

示例：ORM（对象关系映射） -> 对象关系映射即ORM 或 ORM也就是对象关系映射

示例：功能（如ORM、Admin） -> 功能，比如ORM、Admin 或 功能，像ORM、Admin等

谨慎省略： 如果整合后语句极其冗长或别扭，并且括号内容并非核心关键信息（例如，非常基础的缩写全称），可以考虑省略。但要极其小心，避免丢失重要上下文或示例。 在提供的范例中，有时示例信息被省略了，你可以模仿这一点，但要判断是否会损失过多信息。

代码/标识符旁括号： 对于紧跟在代码、文件名、类名旁的括号，通常直接移除括号。

示例：视图 (views.py) 中 -> 视图也就是views.py中

示例：权限类 (admin_panel.permissions) -> 权限类 admin_panel.permissions``

句式微调与口语化倾向（Sentence Structure & Colloquial Touch）：

使用“把”字句： 在合适的场景下，倾向于使用“把”字句。

示例：“会将对象移动” -> “会把对象移动”

条件句式转换： 将较书面的条件句式改为稍口语化的形式。

示例：“若...，则...” -> “要是...，那就...” 或 “如果...，就...”

名词化与动词化转换： 根据需要进行调整，有时将名词性结构展开为动词性结构，反之亦然，以符合更自然的口语表达。

示例：“为了将...解耦” -> “为了实现...的解耦”

增加语气词/连接词： 如在句首或句中添加“那么”、“这样”、“同时”等。

保持技术准确性（Maintain Technical Accuracy）：

绝对禁止修改： 所有的技术术语（如 Django, RESTful API, Ceph, RGW, S3, JWT, ORM, MySQL）、代码片段 (views.py, settings.py, accounts.CustomUser, .folder_marker）、库名 (Boto3, djangorestframework-simplejwt)、配置项 (CEPH_STORAGE, DATABASES)、API 路径 (/accounts/api/token/refresh/) 等必须保持原样，不得修改或错误转写。

核心逻辑不变： 修改后的句子必须表达与原文完全相同的技术逻辑、因果关系和功能描述。

执行指令：

请根据以上所有规则，对接下来提供的“原文”进行修改，生成符合上述特定风格的“修改后”文本。务必仔细揣摩每个规则的细节和示例，力求在风格上高度一致。注意不要过于口语化（通常情况下不会过于口语化，有一些比如至于xxx呢，这种的不要有）注意！你输出的内容不应原多于原文！应时刻记得字数和原文相符！注意！不要有‘’xxx呢‘’这种形式，如‘至于vue呢’

不要第一人称

如果有形如[1]的引用请保留。

为了测试这个Prompt的实战效果，在这里我做了一个简单的测试，首先我尝试用AI生成了一段文本：请给我写一段介绍transformer的论文片段，DeepSeek返回回来的结果如下：

Transformer模型由Vaswani等学者于2017年提出，彻底颠覆了传统序列建模依赖循环或卷积结构的范式。其革命性在于完全基于自注意力机制构建全局依赖建模能力，实现了前所未有的并行计算效率。模型由编码器与解码器堆栈组成，每个层均包含两大核心组件：多头自注意力模块与前馈神经网络模块，通过残差连接和层归一化保障训练稳定性。

自注意力机制是Transformer的基石。该机制通过动态计算序列内部元素间的关联强度，直接捕获任意距离的依赖关系。具体而言，系统为每个输入词元生成查询向量、键向量和值向量，通过查询向量与键向量的点积运算，量化词元间的相关性权重，再经缩放因子调整和softmax归一化后形成概率分布，最终加权聚合值向量生成上下文感知的表征。这一过程摒弃了RNN的时序迭代约束，使得所有词元关联计算可并行执行。

多头注意力架构进一步拓展了模型的表示空间。通过将查询、键、值矩阵拆分为多组子空间投影，各子空间独立计算注意力权重并拼接结果，模型能够并行学习异构的依赖模式——某些注意力头可能聚焦局部语法结构，另一些则捕获长距离语义关联。这种设计显著增强了模型解析复杂语言模式的能力，如同从多角度观察同一语言现象。

位置编码技术解决了无时序操作的固有缺陷。由于自注意力机制对输入序列的排列顺序不变，Transformer创新性地注入正弦函数生成的位置向量。该编码为每个词元位置生成独特的高维波形信号，其波长随维度索引呈几何级数变化，使模型能够通过线性变换学习相对位置关系。这种显式的位置感知设计成为后续位置嵌入方法的基础范式。

解码器的掩蔽自注意力实现自回归生成。在文本生成任务中，解码器通过因果掩蔽矩阵强制当前位置仅关注已生成的左侧词元，屏蔽未来信息以保证预测的因果性。同时引入的编码器-解码器注意力层，使解码过程动态聚焦源端序列的关键片段，该机制显著提升了机器翻译等任务的生成质量。

Transformer通过上述技术创新，在WMT 2014英德翻译任务中以28.4 BLEU值刷新纪录，且训练速度提升超10倍。其架构衍生出双向编码的BERT、自回归生成的GPT等划时代模型，不仅重构了自然语言处理的技术体系，更在计算机视觉、语音合成等领域引发跨模态革命。该设计证明：基于纯注意力机制构建的全局依赖建模框架，足以替代循环与卷积网络成为序列建模的通用范式。

再通过大家常用的朱雀AI检测助手进行检测，不出意外，检测结果为 AI浓度100% ：

直出文本检测结果

下面我将该AI文段，通过这段降重Prompt尝试降重，这里我用的是Gemini 2.5 Pro模型，众所周知Gemini是文科生，非常适合这种文本内容。

经过降重后的文本结果如下：

Transformer模型是由Vaswani等学者在2017年所提出的，它彻底颠覆了传统序列建模工作依赖于循环或是卷积结构的既定范式。它的革命性主要体现在，完全是基于自注意力机制来构建出全局依赖的建模能力，从而得以实现前所未有的并行计算效率。整个模型是由编码器以及解码器的堆栈所组成的，其中每一个层都包含了两大核心组件，也就是多头自注意力模块以及前馈神经网络模块，并且借助残差连接和层归一化来保障训练过程的稳定性。

自注意力机制，可以说是Transformer得以成立的基石。该机制是借助动态地去计算序列内部元素之间的关联强度，来直接捕获处在任意距离的依赖关系。具体来讲，系统会为每个输入词元去生成查询向量、键向量以及值向量，再借助查询向量与键向量的点积运算这个操作，来量化词元间的相关性权重，随后经过缩放因子的调整以及softmax归一化处理后形成一种概率分布，并最终把值向量进行加权聚合，以此生成具备上下文感知的表征。这样的处理过程摒弃了RNN所具有的时序迭代约束，这就使得所有词元关联的计算工作都可以并行得以执行。

多头注意力架构对模型的表示空间进行了进一步的拓展。它借助把查询、键、值矩阵拆分为多组子空间的投影，让各个子空间独立地去进行注意力权重的计算并且拼接结果，这样模型就能够并行地学习到异构的依赖模式——比如，某些注意力头可能会聚焦于局部的语法结构，而另一些则用来捕获长距离的语义关联。这样的设计极大程度上提升了模型解析复杂语言模式的能力，就好比是从多个角度去观察同一个语言现象。

位置编码技术则解决了无时序操作本身固有的一个缺陷。鉴于自注意力机制对于输入序列的排列顺序是无法感知的，Transformer创新性地注入了运用正弦函数所生成的位置向量。这种编码方式会为每一个词元的位置去生成独特的高维波形信号，它的波长会随着维度索引呈现几何级数的变化，从而使得模型能够借助线性变换来学习到相对位置关系。这种明确地引入位置感知的设计，也就成为了后续位置嵌入方法的基础范式。

解码器当中的掩蔽自注意力，主要是用来实现自回归的生成。在进行文本生成的任务中，解码器会借助因果掩蔽矩阵，强制当前位置只能关注到已经生成的左侧词元，通过屏蔽掉未来的信息来保证预测的因果性。同时，它所引入的编码器-解码器注意力层，能够让解码过程去动态地聚焦于源端序列的关键片段，该机制极大程度上提高了诸如机器翻译等任务的生成质量。

正是凭借上述的这些技术创新，Transformer在WMT 2014英德翻译任务当中，以28.4的BLEU值刷新了纪录，并且训练速度也得到了超过10倍的提升。它的这个架构衍生出了一系列划时代的模型，比如双向编码的BERT以及自回归生成的GPT，不单单重构了自然语言处理领域的技术体系，更是在计算机视觉、语音合成等领域当中，引发了一场跨模态的革命。这个设计足以证明：一个基于纯注意力机制来构建的全局依赖建模框架，是足以替代循环网络以及卷积网络，并成为序列建模的一种通用范式。

再对降重后的文本进行检测，毫无意外，检测结果几乎为0。

降重后检测

简单对比后不难发现，所谓的“降重”，其实就是不断加入主语、语气词、过渡词，或者把原本正常的句式扭来扭去，以此来“提高困惑度”。这种方法在AIGC检测中确实效果显著，能让AI判定为“更像人写的”。但问题是，如果放在论文、期刊这类对语言规范性和专业性要求极高的文体中，这种方式是否真的合适？这个问题恐怕还需要进一步讨论。

付费降AI

相比自己折腾，有些人会选择在网上购买现成的“降AI”服务。宣传口号一个比一个响亮——什么“100%人工降重”、“包过AI检测”、“专业语义重构”、“论文不过全额退款”，听得跟保过驾校似的，让人不由自主地点进去看几眼。至于它到底是不是人工改？有没有真“语义理解”？我们不清楚，客服也不会说，只有商家的钱包最清楚。

更离谱的是，现在不少平台干脆搞起了“自家打假自家解药”的生意。一边提供“权威AI检测”，报告上满屏红黄条，把你写得像AI的嫌疑放大到极致；另一边又推出付费降重服务，承诺“快速通过检测”、“修改后立即生成新报告”。检测你、吓唬你、再收你钱，这一整套流程下来，堪称闭环收割，精准打击焦虑用户群体。

这种做法已经不仅仅是割韭菜了，更像是——自己放火，自己卖灭火器，顺带把你钱包也烧个精光。说好听点是“提供完整服务链”，说难听点就是又当裁判又当运动员，比赛还没开始结果就写好了。

最可怕的是，这类操作在不少高校外包系统、论文投稿机构中都在真实上演，很多学生和写作者明知道其中猫腻，也只能被动配合。毕竟，和一份被误判为“AI生成”的报告比起来，掏点钱换个安心，听起来似乎划算得多。

这个点不敢细讲，我怕有些商家顺着网线过来擂我

AI的普及

AI使用率

近几年，AI工具的使用率一路飙升，已从实验室走入写作、学习、创作的每个场景。根据近期报道，越来越多高校和机构开始正式接纳AI辅助写作，大学生群体中使用率已超过50%。无论是撰写论文提纲、翻译摘要，还是潤色语句、优化结构，AI几乎成为继“搜索引擎”之后的第二大写作帮手。可以说，今天这个年代，想完全不用AI来辅助写作，反倒显得有点“落后”。

AI普及率

AI工具化

AI被妖魔化的一个原因在于它的“自动生成内容”，让人以为使用AI就是偷懒、作弊（虽然就是）。但实际上，AI更像是一个主动型搜索+内容辅助系统。它输出的东西，需要我们去筛选、判断、修改，过程并不比“自己写”简单多少。就像你用百度或谷歌查资料，没人会说你“抄袭”；你用有道词典翻译句子，也不会被当成作弊——AI其实只是多了一点“提炼能力”。

人类的进步，总是朝着更加省力的方向走的。从石器到铁器，从算盘到计算机，一次次的技术革新都是为了让人类少动点手、多动点脑。AI也是一样。虽然说自动生成内容确实有点偷懒的嫌疑，但能够偷懒，本身就是技术进步的标志之一。问题不在于你是不是用了省力工具，而在于你有没有在使用之后，把这个东西真正消化吸收。

所以我一直认为，偷懒不是问题，理解才是关键。哪怕你是拿AI帮你写的，只要你能讲得清楚、答得上来、融入自己的思路，那这段内容就属于你自己。毕竟，知识不是靠谁手敲的键盘来衡量，而是看你脑子里有没有东西。

真正的问题不是“用了AI”，而是“你有没有学会它说了什么”。而这，也是我个人认为，教育和写作评价真正应该关注的地方。

风口

AI已经不是未来了，而是现在进行时。从大模型爆发、写作工具流行，到各行各业纷纷接入AI辅助系统，陈旧的思维已经不适合这个时代，我们可以很明显地感受到，这场浪潮已经席卷过来。谁掌握工具，谁就掌握了效率；谁适应得快，谁就能先一步起飞。

AI超越人类

在教育、创作、办公这些原本“人力密集”的领域，AI正以一种前所未有的速度改变着我们的工作方式。对学生来说，这是写论文、写作业的“外挂”；对内容创作者来说，这是构思、起草的“发动机”；甚至对程序员、设计师来说，它也正在成为日常工作的一部分，AI从始至终。都不是替代性的发展。

但和所有风口一样，一旦火了，就会有人割韭菜，也会有人被反割。这其中最典型的，就是所谓的 AIGC 检测和降重产业链。一边说“要防范AI滥用”，一边自己又靠AI吃饭，割的不是韭菜，是焦虑。

AI是风口没错，但别把风口当陷阱跳进去，也别因为别人的风声鹤唳，把自己吓退了。风口来了，站稳再说，方向选对，比起一味“规避”更加的重要。

个人看法

说到底，AIGC检测效果不佳，不是因为技术不到位，而是因为它本身就是一个悖论。AI本来就是基于人类海量语料训练出来的，它的目标就是“写得像人”。而当它真的越写越像人的时候，我们却又反过来用另一个AI来判断“这个像人，是不是太像AI”。这不是自我否定吗？

你发展得越好，就越难分辨，这就注定了检测这件事迟早会陷入死胡同。现在写作场景里已经逐渐出现了内容生成的LLM、内容检测的LLM、内容降重的LLM，三者互相打架、互相模仿、互相规避，逐渐形成一个闭环、一个死锁。它们彼此围绕着“像不像人类”这个标准不停内卷，结果就是谁也说服不了谁。

就像上面提到的那样，我们真正应该关注的从来不是这段话是不是AI写的，而是——你自己有没有理解？你能不能讲清楚？你是不是真的吸收了这个知识？一篇文章是你敲出来的还是你生成出来的，并不是决定你有没有学会的核心指标。你可以用AI，但你不能让AI替你思考；你可以参考它的表达，但你最终要有自己的表达。

AIGC检测可能还能继续发展下去，但它注定无法决定一个人的真实水平。工具可以帮你写，但不能帮你理解。真正属于你的内容，不在文档里，而在你脑子里。