OpenAI自研反AI神器，憋了两年啥也不是？

发布时间：2025-05-22　点此：911次

ChatGPT刚发布时，一度成为学生党写论文时的神助攻。

而现在，恐怕要变成学生党的噩梦了。

据内部消息泄漏，OpenAI现已悄然研制出了一种“反抄袭神器”，能够精准检测是否有人在论文或研讨陈述中动用了ChatGPT。尽管学生们运用AI做弊的行为让教育界焦头烂额，但OpenAI却迟迟按兵不动，没有揭露这项技能。

图片来历：视觉我国

知情人士和内部文件提醒，这个项目在OpenAI内部现已上演了长达两年的拉锯战，而实际上它早在一年前就现已箭在弦上，蓄势待发。

“就差按下那个按钮了，”一位知情人士如是说。

OpenAI为何对这个功用如此纠结？更重要的是，这个所谓的水印真的能百分百破解GPT生成的文本吗？

给GPT打“码”

幻想一下，ChatGPT就像一个超级聪明的文字接龙高手。它总是能猜到下一个最合适的词，这些词在AI界被称为「词元」（Token）。

比如说，当你抛出“我最喜欢的生果是__”这样一个最初，ChatGPT的大脑就会开端张狂作业，依据上下文语境，它会在“苹果”、“香蕉”、“草莓”、“榴莲”等选项中随机挑选一个。这个进程，便是大言语模型（LLM）的日常作业。

但是，OpenAI正在酝酿的这个反做弊神器，计划给这个选词进程来个暗度陈仓。它会悄然地调整词语的挑选概率，在「词元」的挑选上埋下了一些特定的概率形式。

这种水印尽管对人类读者来说毫无发觉，但在OpenAI内部的检测下却无所遁形。知情人士泄漏，只需ChatGPT产出足够多的文本，这种水印的有效率能高达99.9%。

那么，这个水印到底是怎么运作的呢？

PConline依据已有材料了解到，或许是经过改动一个语句中词元呈现的频率完成。

让咱们来玩个文字游戏：

仍是那句“我最喜欢的生果是__”。

在联络前文的语境下，一切生果呈现的概率或许相同。但有了水印技能，这个概率散布就会被略微改动一下。苹果和橙子一同呈现的概率最高。这种奇妙的概率改动，便是GPT所埋下的水印，像是给整片文章埋下了一串看不见的暗号。

OpenAI打水印简易示意图（制图：高海晏）

这种打暗号的高超之处在于，即使不是最佳选词，对一般读者来说也不会感到突兀。但在OpenAI的解码器下，这些文字就会露出其AI生成的真身。

Reddit网友弥补解释道，这是在限制语境下，词元概率从随机到故意的进程。幻想AI在写作时偷偷地抛了一枚看不见的硬币。对咱们人类来说，这枚硬币的正反面彻底随机。但对OpenAI来说，这枚硬币每次的回转都代表一种规则，组成了一种只要它才干破译的暗码。

Reddit网友解读

不过，这个水印终究是否可信，咱们还得打个问号。究竟OpenAI至今仍在藏着掖着，没有揭露详细的技能细节。仅仅仅仅在8月7号悄然于官网发布了一篇博客，供认内部团队在研讨给GPT打水印这回事。

OpenAI还在为是否揭露这个水印而犹豫不定，其实市面上现已涌现出各式各样的AI文本检测东西了。

AI与反AI的“猫鼠游戏”现已悄然开端。

AI文本届福尔摩斯

2024年5月，谷歌推出了一款名为SynthID的“文字水印”东西，它给Gemini AI生成的每一段文字都打上了一个看不见的符号。

处于Beta版其他SynthID原理与猜测的OpenAI水印技能千篇一律。它给每个词元都赋予了一个奥秘的概率分数。当AI在选词时，SynthID就会悄然地调整这些分数。这种做法既不影响文章的质量，又能留下AI的“数字指纹”。

谷歌 SynthID演示更为杂乱的打水印作用（Src.谷歌官网）

谷歌信誓旦旦地表明，SynthID特别适用于长篇幅、多样化的文本，如文章、戏曲剧本或电子邮件。

幻想一下，在一篇AI生成的文章中，每个语句或许藏有十多个这样的记号，而整个页面或许隐藏数百个。这些记号与AI的选词形式交错在一同，形成了一个共同的水印。而且，至少要有三个语句，这个水印才干真实发挥作用。文字越长，这种水印就越简单被发现。

在欧美学术界和新闻圈，AI文本检测现已成了学生、教师和记者等必学技能。其间，最炙手可热的莫过于GPT Zero了。

GPT Zero官网截图

这个由普林斯顿大学学霸爱德华·田（Edward·Tian）开发的AI模型，好像数字国际的福尔摩斯，专门破解AI生成的文字之谜。它的侦破理念根据深度学习算法和计算特征，就像是给每段文字做了一次CT扫描。

作为市面上老练且商业化的产品，GPT Zero的付费形式从10～23美元（约人民币71～163元）/每月收费，供给多字数的AI检测筛查、多言语检测、语法主张等功用。能够让用户经过给出的AI检测陈述，逐字逐句人工修正，削减AI感。

GPT Zero收费规范

不过，GPT Zero也不是全能的。面临杂乱或混合的文本时，它也或许会犯模糊。而且，它关于其他言语的检测并不精确。尽管GPT Zero自称精确率高达99%，但仍有1%的时机看走眼。

这不，就有小红书网友吐槽说，自己随手写的东西居然被校园判定为AI著作。这位网友无法地表明：“我写的东西便是没有逻辑算了。”

小红书网友吐槽自己的原创被识别为AI

箭在弦上，为何不发？

那么问题来了，为什么OpenAI迟迟不发布这款文字水印功用呢？

一是给文字打上AI水印并没有那么简单。

文字更为散装，而图画愈加全体。同一个主意能够用无数种方法表达，就像一个故事能够有千百种讲法。每个词既独立又多义，这让计算分析的难度大大添加。相比之下，图片尽管也构成杂乱，但在数字（Digital）国际里，它们就像是由积木建立的城堡，每个像素都是一块积木，在“积木”上打符号反而更简单被AI和人眼捕捉到。

图片无限扩大后能够看到一个个像素（拍摄/制图：高海晏）

而且，聪明的网友发现，只需经过来回翻译不同言语即可破解所谓的GPT文字水印。Reddit网友共享教程：把AI生成的文字先翻译成其他言语，再翻译回来，就能奇妙地避开生成式AI文本的套路感。

OpenAI自己也供认，运用翻译软件很简单绕开它们的水印。