大語言模型賦能自動化測試實踐、挑戰(zhàn)與展望-復旦大學(董震)_第1頁
大語言模型賦能自動化測試實踐、挑戰(zhàn)與展望-復旦大學(董震)_第2頁
大語言模型賦能自動化測試實踐、挑戰(zhàn)與展望-復旦大學(董震)_第3頁
大語言模型賦能自動化測試實踐、挑戰(zhàn)與展望-復旦大學(董震)_第4頁
大語言模型賦能自動化測試實踐、挑戰(zhàn)與展望-復旦大學(董震)_第5頁
已閱讀5頁,還剩87頁未讀, 繼續(xù)免費閱讀

下載本文檔

版權說明:本文檔由用戶提供并上傳,收益歸屬內容提供方,若內容存在侵權,請進行舉報或認領

文檔簡介

大語言模型賦能自動化測試實踐、挑戰(zhàn)與展望報告人:董震復旦大學計算機學院背景介紹案例分享001基于大語言模型的等價類劃分測試技術02基于大語言模型的測試輸入增強三挑戰(zhàn)與展望03基于大語言模型的場景測試用例生成04基于大語言模型的跨APP測試用例遷移三挑戰(zhàn)與展望一背景介紹大語言模型(LLM)的演變圖片來源:Yang,J.,Jin,H.,Tang,R.,Han,X.,Feng,Q.,Jia大語言模型(LLM)的應用大語言模型(LLM)應用案例圖片來源:Hong,S.,Zheng,X.,Chen,J.,Cheng,Y.,Wang,J.,Zhang,C.,...&Wu,C.(2023).Metagpt:Me軟件測試全流程中的大語言模型(LLM)l測試輸入生成ll測試輸入生成l測試用例生成lOracle生成ll回歸測試用例生成測試報告與評測試報告與評l業(yè)務邏輯分析l測試場景分析l邊界條件識別缺陷管理與回歸測缺陷管理與回歸測測試執(zhí)行測試執(zhí)行測試計劃制定測試計劃制定測試設計與實現(xiàn)結構化報告生成l測試設計與實現(xiàn)結構化報告生成l測試集優(yōu)化與選擇l測試集優(yōu)化與選擇l測試用例執(zhí)行l(wèi)反饋分析與策略調整l測試計劃生成l風險預測l測試優(yōu)先級建議案例分享案例分享二基于大語言模型的等價類劃分測試技術等價類劃分2.程序顯示此三角形是等邊三角形(三條邊都相等)、等腰三角形(只有兩條邊相等)或432不等邊三角形432等邊三角形22等腰三角形等價類劃分輸入非三角形輸入非三角形三角形三角形根據(jù)“輸出”情況細分“三角形”主類等邊等邊三角形等腰三角形等腰三角形不等邊三角形<200,100,200>代表所有“等腰三角形”大語言模型的常識推理與代碼理解能力用于判斷三角形的程序代碼大語言模型對代碼的理解大語言模型具備常識推理與代碼理解的能力利用大語言模型進行等價類劃分測試由于大語言模型具備常識推理和代碼理解能力,我們可以利用其分析程序代碼,自動劃分適當?shù)牡葍r類。隨后,為每個等價類生成若干輸入,從而提升輸入生成的效率。用于判斷三角形的程序代碼任何一對邊的和不大于第三邊三條邊都相等有兩條邊相等,第三條邊不同三條邊都不相等大模型劃分出的等價類大模型生成的測試輸入基于大語言模型的等價類劃分測試工具由于大語言模型具備常識推理和代碼理解能力,我們可以利用其分析程序代碼,自動劃分適當?shù)牡葍r類。隨后,為每個等價類生成若干輸入,從而提升輸入生成的效率。程序源代碼我們從10個第三方開源庫中選取了共2205個方法對工具進行了性能測試,并設計對比實驗。結果如下:①基于大語言模型的等價類劃分測試工具使用更少的輸入,達到更高的覆蓋②在等價類劃分是增加更多的深層函數(shù)信息不能提升工具的覆蓋效果結論①基于大語言模型的等價類劃分測試工具的生成效果遠好于傳統(tǒng)的基于搜索的軟件測試生成工具以及符號執(zhí)行工具,證明了將大語言模型與等價類劃分測試結合可以顯著提高測試效率。②提供待測方法調用的更深層次代碼并沒有顯著提高大語言模型劃分等價類的效果,反而大大增加了成本?;诖笳Z言模型的測試輸入增強測試輸入增強測試輸入增強:就是在現(xiàn)有測試用例的基礎上為測試生成更多樣化的輸入,來覆蓋不同的場景增強前增強前用戶名:user123密碼:password123增強后增強后用戶名:user123密碼:p用戶名:user!@#密碼:password123密碼:password123基于大語言模型的測試輸入增強大語言模型憑借其語義理解和常識推理能力,能夠在示例:測試應用在不同區(qū)域下的搜索功能,軟件依據(jù)地區(qū)和時區(qū)提供符合當前參數(shù)名參數(shù)含義region地區(qū)名稱query搜索的內容tzname時區(qū)名稱version應用的版本號有效輸入無效輸入地區(qū)與時區(qū)不匹配流量數(shù)據(jù)使用錄制使用系統(tǒng)用戶待測試系統(tǒng)流量數(shù)據(jù)基于流量數(shù)據(jù)的大語言模型測試輸入增強工具①工具從流量數(shù)據(jù)中提取參數(shù)間約束關系 統(tǒng)計學算法預分析&流量數(shù)據(jù)潛在約束關系的參數(shù)對經過約減的流量數(shù)據(jù)模型推斷出的約束基于流量數(shù)據(jù)的大語言模型測試輸入增強工具②結合參數(shù)間約束關系,輔助大語言模型生成高質量測試輸入以實現(xiàn)輸入增強LLM分析出的約束條件結合約束生成的有效輸入我們工具已在某企業(yè)的2個業(yè)務模塊上進行落地實驗,涵蓋不同的功能接口。結果如下:①基于流量數(shù)據(jù)的大語言模型測試輸入增強工具協(xié)助團隊提升了代碼覆蓋率②去掉預分析及流量約減后,提取出的有效約束數(shù)量減少9結論①利用實際的流量數(shù)據(jù)與大語言模型結合進行測試輸入增強,可以生成更多符合系統(tǒng)實際運行場景的測試輸入,從而提高測試的全面性和覆蓋率。②預分析及流量約減對有效約束的提取至關重要,可以有效減少LLM處理過程中可能產生的幻覺問題,避免因數(shù)據(jù)過載或不相關信息干擾導致的錯誤推斷?;诖笳Z言模型的場景測試用例生成測試場景:描述用戶在某個具體情況下會怎么操作軟件,用來檢查系統(tǒng)在這個情況下能不能正常工作。 搜索想購買的商品名稱 點擊商品進入詳情頁 點擊立即購買 選擇地址和支付方式點擊支付按鈕點擊支付按鈕場景測試用例場景測試用例由操作、測試輸入、預期結果構成操作搜索搜索查看詳情購買修改提交測試輸入手機手機當前詳情頁中的手機地址和支付方式其中一個手機結算詳情預期結果預期成功修改地址和支付方式預期成功修改地址和支付方式預期返回支付成功提示,并生成訂單號預期加載該手機詳情預期顯示手機商品預期進入結算頁面?zhèn)鹘y(tǒng)人工編寫場景測試用例代碼①操作步驟:根據(jù)測試用例描述文檔,結合API文檔或與開發(fā)人員溝通,人工逐步模擬用戶的操作流程。②測試輸入:根據(jù)測試需求,手動準備場景需要的測試輸入。③預期結果:通過理解業(yè)務邏輯,手動編寫斷言驗證每一步操作后產生的結果是否正確。API文檔測試用例描述文檔 人工理解推斷后編寫 人工理解推斷后編寫場景測試用例代碼』場景測試用例代碼基于大語言模型生成場景測試用例的挑戰(zhàn)我們嘗試利用大語言模型的自然語言理解和代碼生成能力,直接通過大語言模型解析測試用例描述文檔和API文檔,生成測試用例代碼,但效果不佳。經分析,主要原因是:①測試用例描述文檔編寫質量參差不齊②API文檔維護不及時需要真實且符合測試用例描述文檔的實時數(shù)據(jù)場景流量數(shù)據(jù)場景流量:在測試場景下,系統(tǒng)按順序發(fā)送和接收的所有網絡請求與響應。條目2條目3條目4條目5操作步驟搜索搜索查看詳情購買購買修改修改提交提交用戶輸入手機手機當前詳情頁中的手機地址和支付方式其中一個手機結算詳情系統(tǒng)輸出顯示進入結算頁面顯示進入結算頁面成功修改地址和支付方式返回支付成功提示,并顯示訂單號該手機的詳情手機商品列表基于大語言模型的測試用例生成工具基于錄制的場景流量數(shù)據(jù),結合大模型對測試用例描述文檔的語義理解,生成場景測試用例場景流量信息測試用例描述文檔結合流量與文檔分析場景測試用例代碼工具效果與結論用于驗證專輯信息修改功能的測試用例基于大語言模型的跨APP測試用例遷移移動應用測試移動應用測試的挑戰(zhàn)!測試用例遷移案例分析源購物清單應用的測試用例:測試價格降序功能,下圖為該測試案例分析而在目標應用中的價格降序功能的工作流卻 利用大模型克服挑戰(zhàn)利用大模型克服挑戰(zhàn) 方法控件上下文控件上下文 ?LLM#SuccessRate:成功遷移率#Time#SuccessRate:成功遷移率#Time:遷移1條測試用例的平均耗時(min)#SuccessRate提供上下文48不提供上下文69%4.5控件識別利用XML進行控件識別LLMLLM利用圖像進行控件識別圖像即應用界面

溫馨提示

  • 1. 本站所有資源如無特殊說明,都需要本地電腦安裝OFFICE2007和PDF閱讀器。圖紙軟件為CAD,CAXA,PROE,UG,SolidWorks等.壓縮文件請下載最新的WinRAR軟件解壓。
  • 2. 本站的文檔不包含任何第三方提供的附件圖紙等,如果需要附件,請聯(lián)系上傳者。文件的所有權益歸上傳用戶所有。
  • 3. 本站RAR壓縮包中若帶圖紙,網頁內容里面會有圖紙預覽,若沒有圖紙預覽就沒有圖紙。
  • 4. 未經權益所有人同意不得將文件中的內容挪作商業(yè)或盈利用途。
  • 5. 人人文庫網僅提供信息存儲空間,僅對用戶上傳內容的表現(xiàn)方式做保護處理,對用戶上傳分享的文檔內容本身不做任何修改或編輯,并不能對任何下載內容負責。
  • 6. 下載文件中如有侵權或不適當內容,請與我們聯(lián)系,我們立即糾正。
  • 7. 本站不保證下載資源的準確性、安全性和完整性, 同時也不承擔用戶因使用這些下載資源對自己和他人造成任何形式的傷害或損失。

評論

0/150

提交評論