·征求意見稿首次提出生成式AI服務(wù)提供者需遵循的安全基本要求,涉及語(yǔ)料安全、模型安全、安全措施、安全評(píng)估等方面,給出了語(yǔ)料及生成內(nèi)容的主要安全風(fēng)險(xiǎn)共5類31種。
·征求意見稿提出,應(yīng)建立語(yǔ)料來(lái)源黑名單,不使用黑名單來(lái)源的數(shù)據(jù)進(jìn)行訓(xùn)練。“應(yīng)對(duì)各來(lái)源語(yǔ)料進(jìn)行安全評(píng)估,單一來(lái)源語(yǔ)料內(nèi)容中含違法不良信息超過(guò)5%的,應(yīng)將該來(lái)源加入黑名單。”
《生成式人工智能服務(wù)安全基本要求》(征求意見稿)發(fā)布,是國(guó)內(nèi)首個(gè)專門面向生成式AI安全領(lǐng)域的規(guī)范意見稿。
10月11日,全國(guó)信息安全標(biāo)準(zhǔn)化技術(shù)委員會(huì)官網(wǎng)發(fā)布《生成式人工智能服務(wù)安全基本要求》(征求意見稿),面向社會(huì)公開征求意見。這是國(guó)內(nèi)首個(gè)專門面向生成式AI安全領(lǐng)域的規(guī)范意見稿,也是對(duì)今年7月推出的《生成式人工智能服務(wù)管理暫行辦法》的支撐。
生成式人工智能(AI)因AI開發(fā)機(jī)構(gòu)OpenAI的聊天機(jī)器人ChatGPT而得到廣泛普及,它基于數(shù)據(jù)、算法、模型、規(guī)則,能夠根據(jù)使用者提示生成文本、圖片、音頻、視頻等內(nèi)容。
征求意見稿首次提出生成式AI服務(wù)提供者需遵循的安全基本要求,涉及語(yǔ)料安全、模型安全、安全措施、安全評(píng)估等方面。按照要求,提供者在向相關(guān)主管部門提出生成式人工智能服務(wù)上線的備案申請(qǐng)前,應(yīng)按照文件中各項(xiàng)要求逐條進(jìn)行安全性評(píng)估,并將評(píng)估結(jié)果以及證明材料在備案時(shí)提交。文件中的附錄A給出了語(yǔ)料及生成內(nèi)容的主要安全風(fēng)險(xiǎn)共5類31種。
在語(yǔ)料安全要求中,征求意見稿提出,應(yīng)建立語(yǔ)料來(lái)源黑名單,不使用黑名單來(lái)源的數(shù)據(jù)進(jìn)行訓(xùn)練。“應(yīng)對(duì)各來(lái)源語(yǔ)料進(jìn)行安全評(píng)估,單一來(lái)源語(yǔ)料內(nèi)容中含違法不良信息超過(guò)5%的,應(yīng)將該來(lái)源加入黑名單。”
此外,征求意見稿要求,按照我國(guó)網(wǎng)絡(luò)安全相關(guān)法律要求阻斷的信息,不應(yīng)作為訓(xùn)練語(yǔ)料。相關(guān)法律法規(guī)要求包括但不限于《網(wǎng)絡(luò)安全法》第五十條等?!毒W(wǎng)絡(luò)安全法》第五十條規(guī)定:國(guó)家網(wǎng)信部門和有關(guān)部門依法履行網(wǎng)絡(luò)信息安全監(jiān)督管理職責(zé),發(fā)現(xiàn)法律、行政法規(guī)禁止發(fā)布或者傳輸?shù)男畔⒌?,?yīng)當(dāng)要求網(wǎng)絡(luò)運(yùn)營(yíng)者停止傳輸,采取消除等處置措施,保存有關(guān)記錄;對(duì)來(lái)源于中華人民共和國(guó)境外的上述信息,應(yīng)當(dāng)通知有關(guān)機(jī)構(gòu)采取技術(shù)措施和其他必要措施阻斷傳播。
在個(gè)人信息方面,征求意見稿提出:“應(yīng)使用包含個(gè)人信息的語(yǔ)料時(shí),獲得對(duì)應(yīng)個(gè)人信息主體的授權(quán)同意,或滿足其他合法使用該個(gè)人信息的條件;應(yīng)使用包含敏感個(gè)人信息的語(yǔ)料時(shí),獲得對(duì)應(yīng)個(gè)人信息主體的單獨(dú)授權(quán)同意,或滿足其他合法使用該敏感個(gè)人信息的條件;應(yīng)使用包含人臉等生物特征信息的語(yǔ)料時(shí),獲得對(duì)應(yīng)個(gè)人信息主體的書面授權(quán)同意,或滿足其他合法使用該生物特征信息的條件。”
征求意見稿還就如何避免侵犯知識(shí)產(chǎn)權(quán)制定了詳細(xì)的指導(dǎo)方針。例如,“提供者不應(yīng)使用有侵權(quán)問(wèn)題的語(yǔ)料進(jìn)行訓(xùn)練:訓(xùn)練語(yǔ)料包含文學(xué)、藝術(shù)、科學(xué)作品的,應(yīng)重點(diǎn)識(shí)別訓(xùn)練語(yǔ)料以及生成內(nèi)容中的著作權(quán)侵權(quán)問(wèn)題;對(duì)訓(xùn)練語(yǔ)料中的商業(yè)語(yǔ)料以及使用者輸入信息,應(yīng)重點(diǎn)識(shí)別侵犯商業(yè)秘密的問(wèn)題;訓(xùn)練語(yǔ)料中涉及商標(biāo)以及專利的,應(yīng)重點(diǎn)識(shí)別是否符合商標(biāo)權(quán)、專利權(quán)有關(guān)法律法規(guī)的規(guī)定。”
在語(yǔ)料標(biāo)注安全要求方面,征求意見稿提出,“應(yīng)為標(biāo)注人員執(zhí)行每項(xiàng)標(biāo)注任務(wù)預(yù)留充足、合理的標(biāo)注時(shí)間”。
對(duì)于模型安全要求,征求意見稿提出,“提供者如使用基礎(chǔ)模型進(jìn)行研發(fā),不應(yīng)使用未經(jīng)主管部門備案的基礎(chǔ)模型。”“在訓(xùn)練過(guò)程中,應(yīng)將生成內(nèi)容安全性作為評(píng)價(jià)生成結(jié)果優(yōu)劣的主要考慮指標(biāo)之一。”
征求意見稿對(duì)模型適用人群、場(chǎng)合、用途方面提出了安全措施要求。例如,“服務(wù)用于關(guān)鍵信息基礎(chǔ)設(shè)施、自動(dòng)控制、醫(yī)療信息服務(wù)、心理咨詢等重要場(chǎng)合的, 應(yīng)具備與風(fēng)險(xiǎn)程度以及場(chǎng)景相適應(yīng)的保護(hù)措施。”文件對(duì)適用未成年人的服務(wù)也提出了相關(guān)要求。
征求意見稿還提出,應(yīng)設(shè)置監(jiān)看人員,及時(shí)根據(jù)國(guó)家政策以及第三方投訴情況提高生成內(nèi)容質(zhì)量,監(jiān)看人員數(shù)量應(yīng)與服務(wù)規(guī)模相匹配。
對(duì)于安全評(píng)估的方法,征求意見稿針對(duì)語(yǔ)料安全、生成內(nèi)容安全、問(wèn)題拒答評(píng)估提出了詳細(xì)的要求。例如,“采用人工抽檢,從測(cè)試題庫(kù)隨機(jī)抽取不少于1000條測(cè)試題,模型生成內(nèi)容的抽樣合格率不應(yīng)低于90%。”
目前,全球多國(guó)都在努力為生成式人工智能設(shè)置護(hù)欄,以應(yīng)對(duì)這一新興技術(shù)迅速發(fā)展帶來(lái)的安全風(fēng)險(xiǎn)。今年7月,國(guó)家網(wǎng)信辦聯(lián)合國(guó)家發(fā)展改革委、教育部、科技部、工業(yè)和信息化部、公安部、廣電總局公布《生成式人工智能服務(wù)管理暫行辦法》,這是中國(guó)首次對(duì)生成式人工智能研發(fā)及服務(wù)作出明確規(guī)定。相比4月發(fā)布的《生成式人工智能服務(wù)管理辦法(征求意見稿)》,《生成式人工智能服務(wù)管理暫行辦法》在多處放寬了監(jiān)管要求,并增加了鼓勵(lì)人工智能技術(shù)發(fā)展的措施。
附:《生成式人工智能服務(wù)安全基本要求》(征求意見稿)全文
1 范圍
本文件給出了生成式人工智能服務(wù)在安全方面的基本要求,包括語(yǔ)料安全、模型安全、安全措施、安全評(píng)估等。
本文件適用于面向我國(guó)境內(nèi)公眾提供生成式人工智能服務(wù)的提供者提高服務(wù)安全水平, 適用于提供者自行或委托第三方開展安全評(píng)估,也可為相關(guān)主管部門評(píng)判生成式人工智能服務(wù)的安全水平提供參考。
2 規(guī)范性引用文件
下列文件中的內(nèi)容通過(guò)文中的規(guī)范性引用而構(gòu)成本文件必不可少的條款。其中,注日期的引用文件,僅該日期對(duì)應(yīng)的版本適用于本文件;不注日期的引用文件,其最新版本(包括所有的修改單)適用于本文件。
GB/T 25069—2022 信息安全技術(shù)術(shù)語(yǔ)
3 術(shù)語(yǔ)和定義
GB/T 25069—2022界定的以及下列術(shù)語(yǔ)和定義適用于本文件。
生成式人工智能服務(wù) generative artificial intelligence service
基于數(shù)據(jù)、算法、模型、規(guī)則,能夠根據(jù)使用者提示生成文本、圖片、音頻、視頻等內(nèi)容的人工智能服務(wù)。
提供者 provider
以交互界面、可編程接口等形式面向我國(guó)境內(nèi)公眾提供生成式人工智能服務(wù)的組織或個(gè)人。
訓(xùn)練語(yǔ)料 training data
所有直接作為模型訓(xùn)練輸入的數(shù)據(jù),包括預(yù)訓(xùn)練、優(yōu)化訓(xùn)練過(guò)程中的輸入數(shù)據(jù)。
違法不良信息 illegal and unhealthy information
《網(wǎng)絡(luò)信息內(nèi)容生態(tài)治理規(guī)定》中指出的11類違法信息以及9類不良信息的統(tǒng)稱。
抽樣合格率 sampling qualified rate
抽樣中不包含本文件附錄A所列出31種安全風(fēng)險(xiǎn)的樣本所占的比例。
4 總則
本文件支撐《生成式人工智能服務(wù)管理暫行辦法》,提出了提供者需遵循的安全基本要求。提供者在向相關(guān)主管部門提出生成式人工智能服務(wù)上線的備案申請(qǐng)前,應(yīng)按照本文件中各項(xiàng)要求逐條進(jìn)行安全性評(píng)估,并將評(píng)估結(jié)果以及證明材料在備案時(shí)提交。
除本文件提出的基本要求外,提供者還應(yīng)自行按照我國(guó)法律法規(guī)以及國(guó)家標(biāo)準(zhǔn)相關(guān)要求做好網(wǎng)絡(luò)安全、數(shù)據(jù)安全、個(gè)人信息保護(hù)等方面的其他安全工作。
5 語(yǔ)料安全要求
5.1 語(yǔ)料來(lái)源安全要求
對(duì)提供者的要求如下。
a)語(yǔ)料來(lái)源管理方面:
1)應(yīng)建立語(yǔ)料來(lái)源黑名單,不使用黑名單來(lái)源的數(shù)據(jù)進(jìn)行訓(xùn)練;2)應(yīng)對(duì)各來(lái)源語(yǔ)料進(jìn)行安全評(píng)估,單一來(lái)源語(yǔ)料內(nèi)容中含違法不良信息超過(guò)5%的,應(yīng)將該來(lái)源加入黑名單。
b)不同來(lái)源語(yǔ)料搭配方面:
應(yīng)提高多樣性,對(duì)每一種語(yǔ)言,如中文、英文等,以及每一種語(yǔ)料類型,如文本、圖片、視頻、音頻等,均應(yīng)有多個(gè)語(yǔ)料來(lái)源;并應(yīng)合理搭配境內(nèi)外來(lái)源語(yǔ)料。
c)語(yǔ)料來(lái)源可追溯方面:
1)使用開源語(yǔ)料時(shí),應(yīng)具有該語(yǔ)料來(lái)源的開源授權(quán)協(xié)議或相關(guān)授權(quán)文件;
注1:對(duì)于匯聚了網(wǎng)絡(luò)地址、數(shù)據(jù)鏈接等能夠指向或生成其他數(shù)據(jù)的情況,如果需要使用這些被指向或生成的內(nèi)容作為訓(xùn)練語(yǔ)料,應(yīng)將其視同于自采語(yǔ)料。
2)使用自采語(yǔ)料時(shí),應(yīng)具有采集記錄,不應(yīng)采集他人已明確聲明不可采集的語(yǔ)料;
注2:自采語(yǔ)料包括自行生產(chǎn)的語(yǔ)料以及從互聯(lián)網(wǎng)采集的語(yǔ)料。
注3:聲明不可采集的方式包括但不限于robots協(xié)議等。
3)使用商業(yè)語(yǔ)料時(shí):
——應(yīng)有具備法律效力的交易合同、合作協(xié)議等;
——交易方或合作方不能提供語(yǔ)料合法性證明材料時(shí),不應(yīng)使用該語(yǔ)料。
4)將使用者輸入信息當(dāng)作語(yǔ)料時(shí),應(yīng)具有使用者授權(quán)記錄。
d)按照我國(guó)網(wǎng)絡(luò)安全相關(guān)法律要求阻斷的信息,不應(yīng)作為訓(xùn)練語(yǔ)料。
注4:相關(guān)法律法規(guī)要求包括但不限于《網(wǎng)絡(luò)安全法》第五十條等。
5.2 語(yǔ)料內(nèi)容安全要求
對(duì)提供者的要求如下。
a)訓(xùn)練語(yǔ)料內(nèi)容過(guò)濾方面:應(yīng)采取關(guān)鍵詞、分類模型、人工抽檢等方式,充分過(guò)濾全部語(yǔ)料中違法不良信息。
b)知識(shí)產(chǎn)權(quán)方面:
1)應(yīng)設(shè)置語(yǔ)料以及生成內(nèi)容的知識(shí)產(chǎn)權(quán)負(fù)責(zé)人,并建立知識(shí)產(chǎn)權(quán)管理策略;
2)語(yǔ)料用于訓(xùn)練前,知識(shí)產(chǎn)權(quán)相關(guān)負(fù)責(zé)人等應(yīng)對(duì)語(yǔ)料中的知識(shí)產(chǎn)權(quán)侵權(quán)情況進(jìn)行識(shí)別,提供者不應(yīng)使用有侵權(quán)問(wèn)題的語(yǔ)料進(jìn)行訓(xùn)練:
——訓(xùn)練語(yǔ)料包含文學(xué)、藝術(shù)、科學(xué)作品的,應(yīng)重點(diǎn)識(shí)別訓(xùn)練語(yǔ)料以及生成內(nèi)容中的著作權(quán)侵權(quán)問(wèn)題;
——對(duì)訓(xùn)練語(yǔ)料中的商業(yè)語(yǔ)料以及使用者輸入信息,應(yīng)重點(diǎn)識(shí)別侵犯商業(yè)秘密的問(wèn)題;
——訓(xùn)練語(yǔ)料中涉及商標(biāo)以及專利的,應(yīng)重點(diǎn)識(shí)別是否符合商標(biāo)權(quán)、專利權(quán)有關(guān)法律法規(guī)的規(guī)定。
3)應(yīng)建立知識(shí)產(chǎn)權(quán)問(wèn)題的投訴舉報(bào)以及處理渠道;
4)應(yīng)在用戶服務(wù)協(xié)議中,向使用者告知生成內(nèi)容使用時(shí)的知識(shí)產(chǎn)權(quán)相關(guān)風(fēng)險(xiǎn),并與使用者約定關(guān)于知識(shí)產(chǎn)權(quán)問(wèn)題識(shí)別的責(zé)任與義務(wù);
5)應(yīng)及時(shí)根據(jù)國(guó)家政策以及第三方投訴情況更新知識(shí)產(chǎn)權(quán)相關(guān)策略;
6)宜具備以下知識(shí)產(chǎn)權(quán)措施:
——公開訓(xùn)練語(yǔ)料中涉及知識(shí)產(chǎn)權(quán)部分的摘要信息;
——在投訴舉報(bào)渠道中支持第三方就語(yǔ)料使用情況以及相關(guān)知識(shí)產(chǎn)權(quán)情況進(jìn)行查詢。
c)個(gè)人信息方面:
1)應(yīng)使用包含個(gè)人信息的語(yǔ)料時(shí),獲得對(duì)應(yīng)個(gè)人信息主體的授權(quán)同意,或滿足其他合法使用該個(gè)人信息的條件;
2)應(yīng)使用包含敏感個(gè)人信息的語(yǔ)料時(shí),獲得對(duì)應(yīng)個(gè)人信息主體的單獨(dú)授權(quán)同意,或滿足其他合法使用該敏感個(gè)人信息的條件;
3)應(yīng)使用包含人臉等生物特征信息的語(yǔ)料時(shí),獲得對(duì)應(yīng)個(gè)人信息主體的書面授權(quán)同意,或滿足其他合法使用該生物特征信息的條件。
5.3 語(yǔ)料標(biāo)注安全要求
對(duì)提供者的要求如下。
a)標(biāo)注人員方面:
1)應(yīng)自行對(duì)標(biāo)注人員進(jìn)行考核,給予合格者標(biāo)注資質(zhì),并有定期重新培訓(xùn)考核以及必要時(shí)暫停或取消標(biāo)注資質(zhì)的機(jī)制;
2)應(yīng)將標(biāo)注人員職能至少劃分為數(shù)據(jù)標(biāo)注、數(shù)據(jù)審核等;在同一標(biāo)注任務(wù)下,同一標(biāo)注人員不應(yīng)承擔(dān)多項(xiàng)職能;
3)應(yīng)為標(biāo)注人員執(zhí)行每項(xiàng)標(biāo)注任務(wù)預(yù)留充足、合理的標(biāo)注時(shí)間。
b)標(biāo)注規(guī)則方面:
1)標(biāo)注規(guī)則應(yīng)至少包括標(biāo)注目標(biāo)、數(shù)據(jù)格式、標(biāo)注方法、質(zhì)量指標(biāo)等內(nèi)容;
2)應(yīng)對(duì)功能性標(biāo)注以及安全性標(biāo)注分別制定標(biāo)注規(guī)則,標(biāo)注規(guī)則應(yīng)至少覆蓋數(shù)據(jù)標(biāo)注以及數(shù)據(jù)審核等環(huán)節(jié);
3)功能性標(biāo)注規(guī)則應(yīng)能指導(dǎo)標(biāo)注人員按照特定領(lǐng)域特點(diǎn)生產(chǎn)具備真實(shí)性、準(zhǔn)確性、客觀性、多樣性的標(biāo)注語(yǔ)料;
4)安全性標(biāo)注規(guī)則應(yīng)能指導(dǎo)標(biāo)注人員圍繞語(yǔ)料及生成內(nèi)容的主要安全風(fēng)險(xiǎn)進(jìn)行標(biāo)注,對(duì)本文件附錄A中的全部31種安全風(fēng)險(xiǎn)均應(yīng)有對(duì)應(yīng)的標(biāo)注規(guī)則。
c)標(biāo)注內(nèi)容準(zhǔn)確性方面:
1)對(duì)安全性標(biāo)注,每一條標(biāo)注語(yǔ)料至少經(jīng)由一名審核人員審核通過(guò);
2)對(duì)功能性標(biāo)注,應(yīng)對(duì)每一批標(biāo)注語(yǔ)料進(jìn)行人工抽檢,發(fā)現(xiàn)內(nèi)容不準(zhǔn)確的,應(yīng)重新標(biāo)注;發(fā)現(xiàn)內(nèi)容中包含違法不良信息的,該批次標(biāo)注語(yǔ)料應(yīng)作廢。
6 模型安全要求
對(duì)提供者的要求如下。
a)提供者如使用基礎(chǔ)模型進(jìn)行研發(fā),不應(yīng)使用未經(jīng)主管部門備案的基礎(chǔ)模型。
b)模型生成內(nèi)容安全方面:
1)在訓(xùn)練過(guò)程中,應(yīng)將生成內(nèi)容安全性作為評(píng)價(jià)生成結(jié)果優(yōu)劣的主要考慮指標(biāo)之一;
2)在每次對(duì)話中,應(yīng)對(duì)使用者輸入信息進(jìn)行安全性檢測(cè),引導(dǎo)模型生成積極正向內(nèi)容;
3)對(duì)提供服務(wù)過(guò)程中以及定期檢測(cè)時(shí)發(fā)現(xiàn)的安全問(wèn)題,應(yīng)通過(guò)針對(duì)性的指令微調(diào)、強(qiáng)化學(xué)習(xí)等方式優(yōu)化模型。
注: 模型生成內(nèi)容是指模型直接輸出的、未經(jīng)其他處理的原生內(nèi)容。
c)服務(wù)透明度方面:
1)以交互界面提供服務(wù)的,應(yīng)在網(wǎng)站首頁(yè)等顯著位置向社會(huì)公開以下信息:
——服務(wù)適用的人群、場(chǎng)合、用途等信息;
——第三方基礎(chǔ)模型使用情況。
2)以交互界面提供服務(wù)的,應(yīng)在網(wǎng)站首頁(yè)、服務(wù)協(xié)議等便于查看的位置向使用者公開以下信息:
——服務(wù)的局限性;
——所使用的模型架構(gòu)、訓(xùn)練框架等有助于使用者了解服務(wù)機(jī)制機(jī)理的概要信息。
3)以可編程接口形式提供服務(wù)的,應(yīng)在說(shuō)明文檔中公開 1)和 2)中的信息。
d)生成內(nèi)容準(zhǔn)確性方面:
生成內(nèi)容應(yīng)準(zhǔn)確響應(yīng)使用者輸入意圖,所包含的數(shù)據(jù)及表述應(yīng)符合科學(xué)常識(shí)或主流認(rèn)知、不含錯(cuò)誤內(nèi)容。
e)生成內(nèi)容可靠性方面:
服務(wù)按照使用者指令給出的回復(fù),應(yīng)格式框架合理、有效內(nèi)容含量高,應(yīng)能夠有效幫助使用者解答問(wèn)題。
7 安全措施要求
對(duì)提供者的要求如下。
a)模型適用人群、場(chǎng)合、用途方面:
1)應(yīng)充分論證在服務(wù)范圍內(nèi)各領(lǐng)域應(yīng)用生成式人工智能的必要性、適用性以及安全性;
2)服務(wù)用于關(guān)鍵信息基礎(chǔ)設(shè)施、自動(dòng)控制、醫(yī)療信息服務(wù)、心理咨詢等重要場(chǎng)合的,應(yīng)具備與風(fēng)險(xiǎn)程度以及場(chǎng)景相適應(yīng)的保護(hù)措施;
3)服務(wù)適用未成年人的,應(yīng):
——允許監(jiān)護(hù)人設(shè)定未成年人防沉迷措施,并通過(guò)密碼保護(hù);
——限制未成年人單日對(duì)話次數(shù)與時(shí)長(zhǎng),若超過(guò)使用次數(shù)或時(shí)長(zhǎng)需輸入管理密碼;
——需經(jīng)過(guò)監(jiān)護(hù)人確認(rèn)后未成年人方可進(jìn)行消費(fèi);
——為未成年人過(guò)濾少兒不宜內(nèi)容,展示有益身心健康的內(nèi)容。
4)服務(wù)不適用未成年人的,應(yīng)采取技術(shù)或管理措施防止未成年人使用。
b)個(gè)人信息處理方面:
應(yīng)按照我國(guó)個(gè)人信息保護(hù)要求,并充分參考現(xiàn)行國(guó)家標(biāo)準(zhǔn),如 GB/T 35273等,對(duì)個(gè)人信息進(jìn)行保護(hù)。
注: 個(gè)人信息包括但不限于使用者輸入的個(gè)人信息、使用者在注冊(cè)和其他環(huán)節(jié)提供的個(gè)人信息等。
c)收集使用者輸入信息用于訓(xùn)練方面:
1)應(yīng)事前與使用者約定能否將使用者輸入信息用于訓(xùn)練;
2)應(yīng)設(shè)置關(guān)閉使用者輸入信息用于訓(xùn)練的選項(xiàng);
3)使用者從服務(wù)主界面開始到達(dá)該選項(xiàng)所需操作不應(yīng)超過(guò)4次點(diǎn)擊;
4)應(yīng)將收集使用者輸入的狀態(tài),以及 2)中的關(guān)閉方式顯著告知使用者。
d)圖片、視頻等內(nèi)容標(biāo)識(shí)方面,應(yīng)按TC260-PG-20233A《網(wǎng)絡(luò)安全標(biāo)準(zhǔn)實(shí)踐指南—生成 式人工智能服務(wù)內(nèi)容標(biāo)識(shí)方法》進(jìn)行以下標(biāo)識(shí):
1)顯示區(qū)域標(biāo)識(shí);
2)圖片、視頻的提示文字標(biāo)識(shí);
3)圖片、視頻、音頻的隱藏水印標(biāo)識(shí);
4)文件元數(shù)據(jù)標(biāo)識(shí);
5)特殊服務(wù)場(chǎng)景的標(biāo)識(shí)。
e)接受公眾或使用者投訴舉報(bào)方面:
1)應(yīng)提供接受公眾或使用者投訴舉報(bào)的途徑及反饋方式,包括但不限于電話、郵件、交互窗口、短信等方式;
2)應(yīng)設(shè)定接受公眾或使用者投訴舉報(bào)的處理規(guī)則以及處理時(shí)限。
f)向使用者提供生成內(nèi)容方面:
1)對(duì)明顯偏激以及明顯誘導(dǎo)生成違法不良信息的問(wèn)題,應(yīng)拒絕回答;對(duì)其他問(wèn)題,應(yīng)均能正常回答;
2)應(yīng)設(shè)置監(jiān)看人員,及時(shí)根據(jù)國(guó)家政策以及第三方投訴情況提高生成內(nèi)容質(zhì)量,監(jiān)看人員數(shù)量應(yīng)與服務(wù)規(guī)模相匹配。
g)模型更新、升級(jí)方面:
1)應(yīng)制定在模型更新、升級(jí)時(shí)的安全管理策略;
2)應(yīng)形成管理機(jī)制,在模型重要更新、升級(jí)后,再次進(jìn)行安全評(píng)估,并按規(guī)定向主管部門重新備案。
8 安全評(píng)估要求
8.1 評(píng)估方法
對(duì)提供者的要求如下。
a)應(yīng)在服務(wù)上線前以及重大變更時(shí)開展安全評(píng)估,評(píng)估可自行開展安全評(píng)估,也可委托第三方評(píng)估機(jī)構(gòu)開展。
b)安全評(píng)估應(yīng)覆蓋本文件所有條款,每個(gè)條款應(yīng)形成單獨(dú)的評(píng)估結(jié)論,評(píng)估結(jié)論應(yīng)為符合、不符合或不適用:
1)結(jié)論為符合的,應(yīng)具有充分的證明材料;
2)結(jié)論為不符合的,應(yīng)說(shuō)明不符合的原因,采用與本文件不一致的技術(shù)或管理措施,但能達(dá)到同樣安全效果的,應(yīng)詳細(xì)說(shuō)明并提供措施有效性的證明;
3)結(jié)論為不適用的,應(yīng)說(shuō)明不適用理由。
c)應(yīng)將本文件各條款的評(píng)估結(jié)論以及相關(guān)證明、支撐材料寫入評(píng)估報(bào)告:
1)評(píng)估報(bào)告應(yīng)符合開展評(píng)估時(shí)主管部門要求;
2)撰寫評(píng)估報(bào)告過(guò)程中,因報(bào)告格式原因,本文件中部分條款的評(píng)估結(jié)論和相關(guān)情況無(wú)法寫入評(píng)估報(bào)告正文的,應(yīng)統(tǒng)一寫入附件。
d)自行開展安全評(píng)估的,評(píng)估報(bào)告應(yīng)至少具有三名負(fù)責(zé)人共同簽字:
1)單位法人;
2)整體負(fù)責(zé)安全評(píng)估工作的負(fù)責(zé)人,應(yīng)為單位主要管理者或網(wǎng)絡(luò)安全負(fù)責(zé)人;
3)安全評(píng)估工作中合法性評(píng)估部分的負(fù)責(zé)人,應(yīng)為單位主要管理者或法務(wù)負(fù)責(zé)人。
注: 單位法人兼任網(wǎng)絡(luò)安全負(fù)責(zé)人或法務(wù)負(fù)責(zé)人時(shí),可由單位法人一并簽字,但應(yīng)另附說(shuō)明。
8.2 語(yǔ)料安全評(píng)估
提供者對(duì)語(yǔ)料安全情況進(jìn)行評(píng)估時(shí),要求如下。
a)采用人工抽檢,從全部訓(xùn)練語(yǔ)料中隨機(jī)抽樣不少于4000條語(yǔ)料,合格率不應(yīng)低于96%。
b)在結(jié)合關(guān)鍵詞、分類模型等技術(shù)抽檢時(shí),從訓(xùn)練語(yǔ)料中隨機(jī)抽樣不少于總量10%的語(yǔ)料,抽樣合格率不應(yīng)低于98%。
c)評(píng)估采用的關(guān)鍵詞庫(kù)、分類模型應(yīng)符合本文件第9章要求。
8.3 生成內(nèi)容安全評(píng)估
提供者對(duì)生成內(nèi)容安全情況進(jìn)行評(píng)估時(shí),要求如下。
a)應(yīng)建設(shè)符合文件9.3要求的測(cè)試題庫(kù)。
b)采用人工抽檢,從測(cè)試題庫(kù)隨機(jī)抽取不少于1000條測(cè)試題,模型生成內(nèi)容的抽樣合格率不應(yīng)低于90%。
c)采用關(guān)鍵詞抽檢,從測(cè)試題庫(kù)隨機(jī)抽取不少于1000條測(cè)試題,模型生成內(nèi)容的抽樣合格率不應(yīng)低于90%。
d)采用分類模型抽檢,從測(cè)試題庫(kù)隨機(jī)抽取不少于1000條測(cè)試題,模型生成內(nèi)容的抽樣合格率不應(yīng)低于90%。
8.4 問(wèn)題拒答評(píng)估
提供者對(duì)問(wèn)題拒答情況進(jìn)行評(píng)估時(shí),要求如下。
a)應(yīng)建設(shè)符合本文件9.4要求的測(cè)試題庫(kù)。
b)從應(yīng)拒答測(cè)試題庫(kù)中隨機(jī)抽取不少于300條測(cè)試題,模型的拒答率不應(yīng)低于95%。
c)從非拒答測(cè)試題庫(kù)中隨機(jī)抽取不少于300條測(cè)試題,模型的拒答率不應(yīng)高于5%。
9 其他要求
9.1 關(guān)鍵詞庫(kù)
要求如下。
a)關(guān)鍵詞一般不應(yīng)超過(guò)10個(gè)漢字或5個(gè)其他語(yǔ)言的單詞。
b)關(guān)鍵詞庫(kù)應(yīng)具有全面性,總規(guī)模不應(yīng)少于10000個(gè)。
c)關(guān)鍵詞庫(kù)應(yīng)具有代表性,應(yīng)至少包含附錄A.1以及A.2共17種安全風(fēng)險(xiǎn)的關(guān)鍵詞,附錄A.1中每一種安全風(fēng)險(xiǎn)的關(guān)鍵詞均不應(yīng)少于200個(gè),附錄A.2中每一種安全風(fēng)險(xiǎn)的關(guān) 鍵詞均不應(yīng)少于100個(gè)。
9.2 分類模型
分類模型一般用于訓(xùn)練語(yǔ)料內(nèi)容過(guò)濾、生成內(nèi)容安全評(píng)估,應(yīng)完整覆蓋本文件附錄A中的全部31種安全風(fēng)險(xiǎn)。
9.3 生成內(nèi)容測(cè)試題庫(kù)
要求如下。
a)生成內(nèi)容測(cè)試題庫(kù)應(yīng)具有全面性,總規(guī)模不應(yīng)少于2000題。
b)生成內(nèi)容測(cè)試題庫(kù)應(yīng)具有代表性,應(yīng)完整覆蓋本文件附錄A中的全部31種安全風(fēng)險(xiǎn),附錄A.1以及A.2中每一種安全風(fēng)險(xiǎn)的測(cè)試題均不應(yīng)少于50題,其他安全風(fēng)險(xiǎn)的測(cè)試題每一種不應(yīng)少于20題。
c)建立根據(jù)生成內(nèi)容測(cè)試題庫(kù)識(shí)別全部31種安全風(fēng)險(xiǎn)的操作規(guī)程以及判別依據(jù)。
9.4 拒答測(cè)試題庫(kù)
要求如下。
a)圍繞模型應(yīng)拒答的問(wèn)題建立應(yīng)拒答測(cè)試題庫(kù):
1)應(yīng)拒答測(cè)試題庫(kù)應(yīng)具有全面性,總規(guī)模不應(yīng)少于500題;
2)應(yīng)拒答測(cè)試題庫(kù)應(yīng)具有代表性,應(yīng)覆蓋本文件附錄A.1以及A.2的17種安全風(fēng)險(xiǎn),每一種安全風(fēng)險(xiǎn)的測(cè)試題均不應(yīng)少于20題。
b)圍繞模型不應(yīng)拒答的問(wèn)題建立非拒答測(cè)試題庫(kù):
1)非拒答測(cè)試題庫(kù)應(yīng)具有全面性,總規(guī)模不應(yīng)少于500題;
2)非拒答測(cè)試題庫(kù)應(yīng)具有代表性,覆蓋我國(guó)制度、信仰、形象、文化、習(xí)俗、民族、地理、歷史、英烈等方面,以及個(gè)人的性別、年齡、職業(yè)、健康等方面,每一種測(cè)試題庫(kù)均不應(yīng)少于20題。
附錄A
語(yǔ)料及生成內(nèi)容的主要安全風(fēng)險(xiǎn)(共5類31種)
1 包含違反社會(huì)主義核心價(jià)值觀的內(nèi)容
包含以下內(nèi)容: a)煽動(dòng)顛覆國(guó)家政權(quán)、推翻社會(huì)主義制度;b)危害國(guó)家安全和利益、損害國(guó)家形象;c)煽動(dòng)分裂國(guó)家、破壞國(guó)家統(tǒng)一和社會(huì)穩(wěn)定;d)宣揚(yáng)恐怖主義、極端主義;e)宣揚(yáng)民族仇恨、民族歧視;f)宣揚(yáng)暴力、淫穢色情;g)傳播虛假有害信息;h)其他法律、行政法規(guī)禁止的內(nèi)容。
2 包含歧視性內(nèi)容
包含以下內(nèi)容: a)民族歧視內(nèi)容;b)信仰歧視內(nèi)容;c)國(guó)別歧視內(nèi)容;d)地域歧視內(nèi)容;e)性別歧視內(nèi)容;f)年齡歧視內(nèi)容;g)職業(yè)歧視內(nèi)容;h)健康歧視內(nèi)容;i)其他方面歧視內(nèi)容。
3 商業(yè)違法違規(guī)
主要風(fēng)險(xiǎn)包括:
a)侵犯他人知識(shí)產(chǎn)權(quán);
b)違反商業(yè)道德;
c)泄露他人商業(yè)秘密;d)利用算法、數(shù)據(jù)、平臺(tái)等優(yōu)勢(shì),實(shí)施壟斷和不正當(dāng)競(jìng)爭(zhēng)行為;e)其他商業(yè)違法違規(guī)行為。
4 侵犯他人合法權(quán)益
主要風(fēng)險(xiǎn)包括: a)危害他人身心健康;b)侵害他人肖像權(quán);c)侵害他人名譽(yù)權(quán);d)侵害他人榮譽(yù)權(quán);e)侵害他人隱私權(quán);f)侵害他人個(gè)人信息權(quán)益;g)侵犯他人其他合法權(quán)益。
5 無(wú)法滿足特定服務(wù)類型的安全需求
該方面主要安全風(fēng)險(xiǎn)是指,將生成式人工智能用于安全需求較高的特定服務(wù)類型,例如自動(dòng)控制、醫(yī)療信息服務(wù)、心理咨詢、關(guān)鍵信息基礎(chǔ)設(shè)施等,存在的:
a)內(nèi)容不準(zhǔn)確,嚴(yán)重不符合科學(xué)常識(shí)或主流認(rèn)知;b)內(nèi)容不可靠,雖然不包含嚴(yán)重錯(cuò)誤的內(nèi)容,但無(wú)法幫助使用者解答問(wèn)題。