3月1日,全國網(wǎng)絡(luò)安全標(biāo)準(zhǔn)化技術(shù)委員會(huì)(TC260)發(fā)布了《生成式人工智能服務(wù)安全基本要求》(TC260-003),旨在確立生成式人工智能服務(wù)的安全標(biāo)準(zhǔn)。這些要求涵蓋語料安全、模型安全、安全措施,并詳細(xì)說明了安全評估的流程。文件的目標(biāo)是指導(dǎo)服務(wù)提供者進(jìn)行安全評估,提升安全管理水平,并為主管部門提供評估服務(wù)安全水平的參考。要點(diǎn)概覽如下:
一、語料安全要求:服務(wù)提供者在采集和使用語料時(shí),必須確保來源的安全性和合法性,并在采集前后進(jìn)行安全評估,限制違法信息的比例不超過5%。語料來源應(yīng)多樣化且可追溯,包括開源語料、自采語料、商業(yè)語料及用戶輸入信息的合法授權(quán)。服務(wù)提供者還需通過技術(shù)手段和人工抽檢確保語料內(nèi)容的合規(guī)性,妥善管理知識產(chǎn)權(quán),并在處理個(gè)人信息時(shí)遵守法律規(guī)定。此外,標(biāo)注人員應(yīng)接受安全培訓(xùn),以確保標(biāo)注內(nèi)容的準(zhǔn)確性和安全性。
二、模型安全要求:服務(wù)提供者使用第三方基礎(chǔ)模型時(shí),必須確保模型已獲得主管部門備案。在模型訓(xùn)練過程中,內(nèi)容安全性應(yīng)作為主要評價(jià)指標(biāo),同時(shí)建立監(jiān)測機(jī)制,及時(shí)處理安全問題,并通過技術(shù)手段優(yōu)化模型。此外,應(yīng)提高模型對用戶輸入意圖的響應(yīng)能力,確保內(nèi)容的科學(xué)性和準(zhǔn)確性,以及內(nèi)容格式的合理性和有效性。
三、安全措施要求:服務(wù)提供者應(yīng)確保其服務(wù)在適用性、安全性、透明度等方面符合規(guī)定要求。這包括確保服務(wù)適用于正確的人群和場合,提供必要的保護(hù)措施,公開服務(wù)信息,提供關(guān)閉個(gè)人信息用于訓(xùn)練的選項(xiàng),滿足國家規(guī)定和標(biāo)準(zhǔn)要求,評估供應(yīng)鏈安全,提供多種投訴舉報(bào)途徑,防止違法信息的生成,設(shè)置監(jiān)看人員,制定模型更新升級的安全管理策略,隔離訓(xùn)練和推理環(huán)境,防范惡意攻擊,定期進(jìn)行安全審計(jì),以及建立備份和恢復(fù)策略。
四、其他要求:為確保網(wǎng)絡(luò)安全和內(nèi)容合規(guī)性,應(yīng)建立全面且代表性的關(guān)鍵詞庫和測試題庫,并定期更新。關(guān)鍵詞庫應(yīng)覆蓋各種安全風(fēng)險(xiǎn),而測試題庫應(yīng)用于內(nèi)容過濾和安全評估。
五、安全評估要求:評估可以自行進(jìn)行或委托給第三方,應(yīng)包含所有相關(guān)條款的評估結(jié)果。評估報(bào)告需包含證明材料,并由三名負(fù)責(zé)人簽字。語料和生成內(nèi)容的安全評估應(yīng)通過抽檢確保合格率達(dá)標(biāo),而問題拒答評估則確保模型正確拒答不當(dāng)內(nèi)容。
總結(jié):文件的發(fā)布為生成式人工智能服務(wù)提供了一套全面的安全指南,涉及語料收集、模型使用、安全措施和評估流程,以確保服務(wù)的安全性和合規(guī)性,促進(jìn)服務(wù)提供者提升安全水平,保護(hù)用戶權(quán)益,并支持可持續(xù)發(fā)展。