Don't Miss
GPT文本檢測存偏見 非英文母語者較蝕底
By EJ Tech on July 12, 2023
最近教育界陸續放寬在課業層面,採用生成式人工智能(Generative AI)工具,老師亦有利用GPT檢測器,查驗學生有否抄襲文章等違規行為。美國史丹福大學一支科研團隊,近日證實這類檢測器存在偏見,特別是並非以英文為母語的人士,容易將其原創內容定義為AI生成,或導致他們在教育領域被邊緣化,研究發表在學術期刊Patterns。
該研究以91篇出自中國作者之手的托福(TOEFL)文章,以及88篇來自美國八年級學生的文章為樣本。結果表明,過半中國作者的樣本,被GPT檢測器識別為AI生成內容,而後者的樣本準確率卻「接近完美」,其平均誤報率高達61.3%。
平均誤報率超六成
研究顯示,上述誤差皆因GPT檢測器以「文本困惑度」(Text Perplexity)作為檢測依據。若檢測器無法預判文章的下一個單詞,意味其文本困惑度較高,傾向將之判定為人類作者手筆。因此,所謂「文學語言」(Literary Language )更多地被識別為人類所寫;反觀非英文母語的人士,通常選用較為簡單、常用的單詞,當他們的文章被檢測時,往往處於不利地位。