為降低生成式AI在創作過程中可能引發的侵權、濫用與倫理問題,國立臺灣大學電機系王鈺強教授團隊,在國科會補助支持下,推出針對生成式模型的「概念抹除(Concept Erasing)」技術Receler(Reliable Concept Erasing via Lightweight Erasers)。這項技術能在不需重新訓練整個生成式模型的情況下,精準切斷模型對特定高風險概念的聯想與生成能力,例如血腥暴力、深偽換臉,或特定藝術家與品牌風格。
國科會表示,該研究成果於2024年底發表於國際頂尖的歐洲計算機視覺研討會(European Conference on Computer Vision, ECCV),發表後在Google Scholar上的引用數量迅速增加,且在GitHub上被廣泛下載與應用,獲得國際AI學術界高度關注與肯定。
生成式AI雖能提升創作效率與質量,甚至媲美專業水準,但同時也伴隨生成血腥暴力內容、深偽詐騙或未經授權風格仿作等問題。傳統依靠關鍵字過濾或人工審核的方法,容易出現漏網或誤攔情況。Receler技術的出現,提供了更精準的解決方案,在模型抹除「暴力」概念後,即便使用者輸入與暴力相關的直接或隱喻指令,模型也不會生成相關內容;同理,抹除「某藝術家風格」後,系統將以中性、非侵權的風格呈現創作結果。
國科會說明,Receler有助於平臺、教育單位、品牌及政府部門,在維持生成式AI創作能力的同時,打造可信任、可審核、可持續演進的安全創作環境。未來,國家科研資源將持續投入AI安全與模型強健研究,確保生成式AI具備可解釋性、隱私保護與降低潛在風險,實現以人為本的AI應用。