留学生和研究者担心AI作弊检测工具准确性有误,澳洲多所大学回应(组图)
当李佳(Jia Li,音)通过一个用于检测人工智能(AI)内容的计算机程序检查她的一篇大学论文草稿时,程序给出的结论是超过一半的内容可能是机器写的。
国际学生担心自己写的作业可能会被标记为AI生成的。(Unsplash: Andrew Neel)
该程序标记了这位国际学生用中文写完然后用程序翻译成英文的句子,但同时也标记了她自己用英文写的其他句子。
“这是我自己的作品,但[程序]说它是人工智能生成的,”她告诉澳大利亚广播公司(AB)。
李女士使用AI检测程序是因为她所在的大学已经开始采用类似的工具,使用文本生成的人工智能程序来标记可能作弊的学生。
“我知道有其他学生被发现有不当行为,”她在匿名的条件下与ABC谈。
李女士是澳大利亚的一位留学生,他们中的一些人在中文社交媒体上发帖,表示担心写作检测工具不可靠,可能导致他们被错误地指控作弊。
ChatGPT等生成型人工智能工具的迅速出现,能够生成诸如大学论文等材料,一些学生已经能够将生成的文字作为自己的作品,这迫使各个大学慌忙争相作出反应。
一些大学选择使用工具检测人工智能(AI)生成的文本的工具,作为一种发现可能由机器撰写的作业的方式。
不过,人工智能专家认为该技术可能是不准确的,一些人认为这类检测工具还不应该被用来检查学生作业。
美国研究员呼吁大家小心
处于争议中心的检测器之一是Turnitin在4月推出的新的AI写作检测工具,该工具声称具有高度的准确性。
随着大学开始使用这一工具,加州斯坦福大学的一项研究敦促人们谨慎行事,因为它发现AI文本检测工具可能对 “非英语母语作者” 有偏见。
这项研究不包括Turnitin的AI检测工具。
研究人员将中国学生的91篇英文作文和美国学生的88篇英文作文,通过7种不同的人们能够用到的检测器进行检测。
这些工具发现61%的中国学生的作文是由人工智能生成的,但对美国学生的作文显示出 "接近完美的准确性",这意味着他们的作品没有被标记。
报告共同作者、斯坦福大学生物医学数据科学助理教授詹姆斯·邹(James Zou)说,他现在还不相信AI检测器,因为研究表明它们很容易被愚弄,而且错误太多。
邹教授说,目前的许多人工智能检测算法过度依赖“困惑度”指标,即衡量文本中使用的复杂词汇。
“如果有很多复杂的词汇,那么它们的困惑度就会很高,”他说,非母语人士的写作常常被误认为是人工智能产生的,因为他们没有使用那么多“花哨”的词语。
他还认为,人工智能翻译和语法工具所使用的算法最终降低了写作的“困惑度”,因此检测工具会更容易将这些文本行也标记为人工智能生成的。
“研究的结论是呼吁对ChatGPT内容检测工具在评估中或者教育环境中使用的道德问题进行更广泛的讨论。”
悉尼新南威尔士大学(UNSW)的学生李女士通过ZeroGPT(斯坦福大学研究中出现的工具之一)检查了她的作业。
ZeroGPT的一位发言人说,其检测器是准确的,对“非英语母语写作者”没有偏见,而且该公司“一直在寻找改进”服务的方法。
新南威尔士大学在使用Turnitin的AI检测工具。
学校的一位发言人说,AI检测工具协助教师“在学生提交的作业中发现任何未经授权使用人工智能的情况”。
“初步检测并不是作弊的确切证据,也不会直接导致判定学术不端行为。它会触发进一步的调查,”该发言人说。
在李女士将她的文章通过ZeroGPT检测后,她花了几个小时重写了所有被检测工具标记的句子,以降低文章被标记为机器生成的风险。
而她的作业仍然得到了“很低的分数”。
“老师告诉我,我的文字非常难懂,”李女士说。
“不过我也没办法。我需要降低AI比例。”
李女士说,新南威尔士大学允许她偶尔使用翻译程序,前提是她要注明哪些是AI翻译的内容。
新工具对学习“影响很大”
墨尔本大学的中国留学生索菲告诉澳大利亚广播公司,她最近的一份作业被Turnitin标记为30%可能是机器写的。
“我认为[Turnitin]的人AI检测功能目前还不完善,”索菲说,她只愿意使用自己的英文名。
她说,她没有使用任何语法、翻译或人工智能文本生成工具来完成一篇作业,大学应该等到该工具更准确时再使用它来标记可能的不当行为。
“我的许多朋友不得不购买Turnitin来提前检查[他们的作业]。”
“AI检测工具的[使用]对我们的学习产生了很大的影响。”
墨尔本大学的一位发言人说,Turnitin的新工具只是对进行下一步调查的一个提示,学生提交的所有作业“必须是他们自己的”。
该大学的网站指出,该工具已经开始使用,“这样使我们能够彻底测试它[文本],并积极向Turnitin提供关于其设计的意见”。
“这可能意味着,该工具错误地将一些作业认定为是由人工智能写出来的,而实际上并非如此。”
“如果你被要求讨论或解释你作业任务的某些部分,请理解这本身并不是对学术不端行为的指控。”
Turnitin亚太区域副总裁詹姆斯·索利(James Thorley)表示,公司正在努力尽量减少出现假阳性结果的可能。
“在发布工具的第一阶段,我们的目标当然是能够大规模地检测ChatGPT生成的文本,”索利先生说。
“这是一个不同寻常的新领域。我们正在学习,并将根据我们看到的情况进行调整和改变。”
索利先生表示,该公司从澳大利亚学术界收到的大多数反馈都是积极的。
在上周刚刚发表的一份声明中,Turnitin的首席产品官安妮·切奇泰利(Annie Chechitelli)说,该公司现在已经对AI检测工具进行了一些修改。
切奇泰利女士表示,在其上市后的七周内,更多的“现实世界”测试显示,如果该工具将写作样本中不到20%的内容标记为AI完成的,那么假阳性结果的概率会更高。
“这是不一致的表现,我们将继续测试以了解其中的根本原因。”
“为了减少错误解读的可能,我们已经更新了相似性报告中的人工智能指标的按钮,对于百分比低于20%的情况添加了一个星号,以提示注意该评分实际上不那么可靠。”
把学生当作“犯人”
维州的迪肯大学已经决定不启用Turnitin的AI检测工具。
该大学数字学习中心主任特里什·麦克卢斯基(Trish McCluskey)副教授说,虽然该大学使用了Turnitin的文本匹配工具,但他们对其AI检测工具高度准确的说法持谨慎态度。
“在学校能够测试Turnitin新产品的功效和数据管理流程之前,迪肯大学选择不在学生作业的评分中应用该工具,”她说。
“这是为了保护学生的数据,并且与越来越多的全球教育机构采取的方法一致,我们预计许多澳大利亚大学将学习我们的做法。”
麦克卢斯基教授说,她理解对国际学生来说,使用人工智能是 “一个雷区”。
“我们必须做的是改变这种文化,努力支持学者,支持大学社区接受这种技术。”
新南威尔士大学悉尼分校人工智能专家托比·沃尔什(Toby Walsh)教授也对人工智能检测工具的不准确表示担忧。
沃尔什教授说,人工智能工具,包括那些用于检查翻译和语法的工具,可以成为主要语言不是英语的学生的有用的学习辅助工具。
“[人工智能技术]既可以提高文本的质量,帮助[学生]沟通想法,也可以自行生成观点,”。
“问题是我们如何将这二者区分开。“
《人工智能和学习的未来》一书的作者斯特凡·波佩尼奇(Stefan Popenici)表示,AI检测最棘手的问题之一是,大学 “从一开始就把学生当作潜在的罪犯”。
在查尔斯·达尔文大学(Charles Darwin University)工作的波佩尼奇博士说,大学应该谨慎使用这些工具来解决AI文本生成带来的挑战。
“我们试图为一个非常复杂的问题找到迅速的解决方式,因为我们喜欢简单的解决方案,”他说。
“我们抱怨我们的学生走捷径。然后我们也在走捷径。”
“我认为这不公平。”