作者 | Sanjana Thakur
編譯 | 徐杰承
人工智能技術(shù)正在世界范圍內(nèi)以一種前所未有的速度發(fā)展,大量的AI應(yīng)用在短時間內(nèi)被構(gòu)建出來,當(dāng)開發(fā)人員正在熱火朝天的追趕進度時,測試人員也需要及時跟上這個時代的步伐。
值得慶幸的是,隨著人工智能的快速進步,測試、自動化和質(zhì)量保證 (QA) 的新方法也正在出現(xiàn),為 AI 應(yīng)用程序測試打開了新的大門。測試人員該如何在現(xiàn)在與將來測試AI和ML應(yīng)用程序?以下是你應(yīng)當(dāng)了解的一些主要方法。
1.數(shù)據(jù)質(zhì)量測試
數(shù)據(jù)測試環(huán)節(jié)需要使用基準(zhǔn)來評估數(shù)據(jù)的狀態(tài),雖然每家公司的目標(biāo)可能有所不同,但高質(zhì)量的數(shù)據(jù)通常是AI應(yīng)用的最核心要求:
- 無誤差:所使用的數(shù)據(jù)沒有結(jié)構(gòu)和格式的任何問題。
- 合并:數(shù)據(jù)在一個集中式系統(tǒng)中得到保護,而不是分散在多個系統(tǒng)中。
- 唯一性:數(shù)據(jù)不重復(fù)。
- 實時性:信息是及時和相關(guān)的。
- 準(zhǔn)確性:提供準(zhǔn)確的信息,幫助應(yīng)用做出明智的決策。
-
測試數(shù)據(jù)質(zhì)量意味著通過將企業(yè)信息與既定的已知事實進行比較來識別標(biāo)記錯誤、過時或不相關(guān)的數(shù)據(jù)。在此級別的測試中,它可以像為數(shù)據(jù)集創(chuàng)建數(shù)據(jù)配置文件一樣簡單,此過程稱為合成數(shù)據(jù)生成。使用此數(shù)據(jù)集的定義驗證,公司可以對其數(shù)據(jù)是否有效進行分類,從而衡量其質(zhì)量。
2.偏差測試
另一個越來越受歡迎的重要測試是偏差測試。人工智能系統(tǒng)的偏見在很大程度上取決于它收集的數(shù)據(jù)。
例如,2016年的一份報告發(fā)現(xiàn)亞馬遜偏向于男性IT申請人。當(dāng)這家電子商務(wù)巨頭訓(xùn)練其人工智能機器人找到最適合這份工作的候選人時,它使用現(xiàn)有員工的簡歷作為數(shù)據(jù)庫,這些數(shù)據(jù)庫主要是男性。根據(jù)這些信息,他們的人工智能推測只有男性候選人才能成為最好的IT員工,但事實并非如此。
為了避免犯同樣的錯誤,你應(yīng)該在將算法推送到網(wǎng)上時進行偏差測試。
早在 2016 年,偏差測試只是分析需求以建立對一組輸入的適當(dāng)響應(yīng)的問題。現(xiàn)在,它沒有那么明確。你需要更多種類和更多選擇。你希望創(chuàng)建多個測試用例來考慮所有可能的變量,而不是使用一個數(shù)據(jù)集僅生成一個方案。雖然結(jié)果可能并不總是完美的,但它們?nèi)匀惶峁┝艘环N更好、更公平、更全面的方法來消除偏見和開發(fā)更具包容性的人工智能應(yīng)用。
3.AI 模型評估與測試
AI 模型評估和測試可幫助你預(yù)測分析和評估的結(jié)果,它涉及三個步驟:在 AI 測試的第一階段,收集的數(shù)據(jù)分為訓(xùn)練集、驗證集和測試集。訓(xùn)練集包含多達 75% 的數(shù)據(jù)集,并分配模型權(quán)重和偏差。驗證集由訓(xùn)練期間 15% 到 20% 的數(shù)據(jù)組成,以評估初始準(zhǔn)確性并查看模型如何適應(yīng)、學(xué)習(xí)和微調(diào)超參數(shù)。
在此階段,模型僅考慮驗證數(shù)據(jù),但尚未使用它來學(xué)習(xí)模型的權(quán)重和偏差。測試集則占整個數(shù)據(jù)集的 10% 到 15%。這用于最終評估,作為一個受控集,沒有偏見。
測試過程的第二階段是調(diào)整超參數(shù)。在此階段,開發(fā)人員可以控制訓(xùn)練算法的行為,并根據(jù)第一階段的結(jié)果調(diào)整參數(shù)。在人工智能和深度學(xué)習(xí)的背景下,可能的超參數(shù)可能包括學(xué)習(xí)率、卷積核寬度、隱藏單元數(shù)量、正則化技術(shù)等。
最后,執(zhí)行批量規(guī)范化涉及兩種技術(shù):規(guī)范化和標(biāo)準(zhǔn)化,以便在訓(xùn)練準(zhǔn)備期間以相同的比例轉(zhuǎn)換數(shù)據(jù)。一旦AI模型經(jīng)過充分的訓(xùn)練、微調(diào)和標(biāo)準(zhǔn)化,就應(yīng)該通過混淆矩陣、AUC ROC、F1分?jǐn)?shù)和其他精度/準(zhǔn)確度指標(biāo)來衡量其性能。經(jīng)歷這一嚴(yán)格的過程對于了解你的算法執(zhí)行的有效性和準(zhǔn)確性至關(guān)重要。
4.安全測試
測試你的AI應(yīng)用程序的安全性需要結(jié)合傳統(tǒng)的安全性測試方法和特定于AI系統(tǒng)的考慮。從以下幾點開始考慮:
- 確定安全目標(biāo)和風(fēng)險:確定與AI應(yīng)用程序相關(guān)的安全目標(biāo)和潛在風(fēng)險。考慮數(shù)據(jù)隱私、模型完整性、對抗性攻擊和對輸入變化的魯棒性等方面。這一步將有助于形成你的測試策略。
- 數(shù)據(jù)安全性:評估用于訓(xùn)練、驗證和推斷的數(shù)據(jù)安全性。評估數(shù)據(jù)隱私、存儲、處理實踐和訪問控制。確保敏感數(shù)據(jù)得到適當(dāng)保護,并遵守隱私法規(guī)。
- 系統(tǒng)架構(gòu)和基礎(chǔ)設(shè)施:分析人工智能應(yīng)用程序的架構(gòu)和基礎(chǔ)設(shè)施。考慮安全性方面,如身份驗證、授權(quán)和加密。驗證在系統(tǒng)的設(shè)計和實施中是否遵循了安全最佳實踐。
- 輸入驗證和凈化:注意輸入驗證和凈化機制。驗證應(yīng)用程序是否正確處理輸入數(shù)據(jù),以防止常見的漏洞,如注入攻擊或緩沖區(qū)溢出。
- 第三方組件:評估AI應(yīng)用程序中使用的任何第三方庫、框架或組件的安全性。確保它們是最新的,沒有已知的漏洞,并且配置正確。
- 文件和報告:記錄你的發(fā)現(xiàn)、建議和測試結(jié)果。創(chuàng)建全面的安全測試報告,概述已識別的漏洞、風(fēng)險和緩解措施。
5.性能和可擴展性測試
要對AI應(yīng)用進行性能測試,需要全面了解應(yīng)用的架構(gòu)、組件和數(shù)據(jù)流至關(guān)重要。容量測試、耐久性測試和壓力測試是最重要的性能測試類型,必須在AI應(yīng)用程序上執(zhí)行,以評估其性能和可擴展性。
這可以通過不同的測試數(shù)據(jù)來實現(xiàn),包括大的和小的測試數(shù)據(jù)集,因為大量的測試數(shù)據(jù)會占用更多的計算資源。此外,硬件資源的并行監(jiān)控有助于設(shè)置正確的配置,以支持人工智能應(yīng)用程序的預(yù)期用戶請求。
6.聊天機器人測試
隨著聊天機器人在人工智能應(yīng)用中越來越受歡迎,確保這些機器人向用戶提供的信息是準(zhǔn)確的至關(guān)重要。如果你的企業(yè)使用聊天機器人的功能,你必須測試聊天機器人的功能和非功能組件。
- 領(lǐng)域測試:聊天機器人旨在處理特定的領(lǐng)域或主題。領(lǐng)域測試包括在與其指定領(lǐng)域相關(guān)場景中徹底測試聊天機器人。這確保聊天機器人理解并準(zhǔn)確響應(yīng)其預(yù)期范圍內(nèi)的查詢。
- 極限測試:極限測試評估聊天機器人如何處理不適當(dāng)或意外的用戶輸入。這包括測試聊天機器人對無效或無意義問題的反應(yīng),并在聊天機器人遇到故障或錯誤時識別結(jié)果。極限測試有助于發(fā)現(xiàn)潛在的漏洞,并改善錯誤處理和用戶體驗。
- 對話因素:聊天機器人依靠對話流來提供有意義和引人入勝的互動。驗證不同的對話流對于評估聊天機器人在各種場景下的響應(yīng)至關(guān)重要。這包括評估聊天機器人理解用戶意圖、處理對話中的多個回合以及提供相關(guān)和連貫響應(yīng)的能力。評估對話因素有助于優(yōu)化聊天機器人的對話技能,并增強用戶體驗。
7.機器人測試
機器人測試需要模擬真實世界的場景,并評估這些場景中系統(tǒng)或算法的行為。基于模擬的行為測試包括算法調(diào)試、對象檢測、響應(yīng)測試和驗證定義的目標(biāo)。
為了確保全面的測試,你應(yīng)該采用低保真度2D模擬和高保真度3D模擬。前者用于模塊級行為測試,后者用于系統(tǒng)級行為測試。這允許你在模擬中檢查不同級別的復(fù)雜性和準(zhǔn)確性。該過程還測試硬件可用性場景和硬件不可用性場景。這些場景評估系統(tǒng)或算法在不同硬件條件下的行為和性能,確保在不同環(huán)境下的穩(wěn)健性和適應(yīng)性。
8.優(yōu)先考慮測試
對于AI/ML應(yīng)用的測試與傳統(tǒng)軟件測試有著很大不同,且存在著一些技術(shù)挑戰(zhàn)。但伴隨著越來越多AI/ML應(yīng)用的誕生,對AI/ML應(yīng)用的測試方法和實踐也在迅速發(fā)展和逐步完善。
以上便是目前為止對于AI/ML應(yīng)用的一些有效且合理的測試方法及思路。如果你的企業(yè)使用或提供人工智能解決方案,你必須優(yōu)先考慮全面的測試方法,以確保準(zhǔn)確性,安全性和包容性。
原文鏈接:https://dzone.com/articles/10-top-trends-in-ai-based-Application-testing-you