123悬赏网_发布悬赏任务_广告任务平台

首頁 > 活動線報 > 每日福利 > 保持對話繼續:使用ChatGPT修復337個bug中的162個,每個0.42美元

保持對話繼續:使用ChatGPT修復337個bug中的162個,每個0.42美元

發布時間:2024-05-28 16:40:11

引用

Xia C S, Zhang L. Keep the Conversation Going: Fixing 162 out of 337 bugs for $0.42 each using ChatGPT[J]. arXiv preprint arXiv:2304.00385, 2023.

論文:
https://arxiv.org/abs/2304.00385

摘要

自動程序修復(APR)旨在自動為有錯誤的程序生成補丁。傳統的 APR 技術缺乏補丁多樣性,因為它們嚴重依賴手工或挖掘的錯誤修復模式,并且不能輕易推廣到其他錯誤/修復類型。為了解決這一限制,最近的 APR 工作重點是利用現代大型語言模型 (LLM) 直接生成 APR 補丁。這種基于 LLM 的 APR 工具的工作原理是,首先構建使用原始錯誤代碼構建的輸入提示,然后查詢 LLM 以在錯誤位置填寫(完型式 APR)正確的代碼,或者生成一個全新的代碼片段作為修補。雖然基于 LLM 的 APR 工具能夠實現最先進的結果,但它仍然遵循經典的生成和驗證 (GV) 修復范例,即首先通過從相同的初始提示中采樣來生成大量補丁,然后驗證每個補丁之后的一個。這不僅會導致許多不正確的重復補丁,而且還會錯過測試失敗以及看似合理的補丁中的關鍵但之前被忽略的信息。為了解決上述限制,我們提出了 ChatRepair,這是第一個完全自動化的對話驅動的 APR 方法,它將補丁生成與即時反饋交織在一起,以對話方式執行 APR。 ChatRepair 首先向 LLM 提供相關測試失敗信息,然后從同一錯誤的早期修補嘗試的失敗和成功中學習,以獲得更強大的 APR。對于未能通過所有測試的早期補丁,我們將不正確的補丁與其相應的相關測試失敗信息結合起來,構建一個新的提示,供LLM生成下一個補丁。這樣,我們就可以避免犯同樣的錯誤。對于通過所有測試的早期補丁(即合理的補丁),我們進一步要求LLM生成原始合理補丁的替代變體。通過這種方式,我們可以進一步借鑒早期的成功經驗,生成更合理的補丁,從而增加獲得正確補丁的機會。雖然我們的方法是通用的,但我們使用最先進的基于對話的 LLM – ChatGPT 來實現 ChatRepair。我們對廣泛研究的 Defects4j 數據集的評估表明,ChatRepair 能夠在修復性能方面達到最先進的水平,在 Defects4j 1.2 和 2.0 上分別實現 114 和 48 個正確修復。通過計算訪問 ChatGPT 的成本,我們可以修復 337 個錯誤中的 162 個,每個錯誤 0.42 美元!

1 引言

自動程序修復 (APR) 是一種自動生成軟件錯誤補丁的有前途的方法。傳統的 APR 工具通常使用生成和驗證 (GV)范例,首先生成大量候選補丁,然后根據原始測試套件驗證每個補丁,以發現一組合理的補丁(通過所有測試)。然后將這些看似合理的補丁提供給開發人員,以找到正確修復潛在錯誤的正確補丁。傳統的APR技術可以分為基于模板的,基于啟發式的和基于約束的APR工具。在這些傳統技術中,基于模板的 APR 工具,使用手工制作或挖掘的修復模板來匹配和修復有缺陷的代碼模式,被認為是最先進的。然而,基于模板的工具缺乏補丁多樣性,因為它們無法輕松泛化到預定義模板列表之外的錯誤和模式。為了解決傳統 APR 技術的局限性,研究人員提出了利用深度學習進步的基于學習的 APR 方法。基于學習的方法主要基于神經機器翻譯(NMT)或大型語言模型(LLM)。基于 NMT 的 APR 工具將修復視為一項翻譯任務,通過使用歷史錯誤修復數據集訓練 NMT 模型將有錯誤的代碼轉換為正確的代碼。然而,這種基于 NMT 的 APR 工具嚴重依賴于其訓練數據,這些數據是通過抓取開源存儲庫來進行錯誤修復提交而獲得的。這意味著不僅訓練數據集可能有噪音(即包含不相關的提交/更改),而且這些基于 NMT 的方法可能無法推廣到在有限的訓練數據中未見的錯誤修復類型。

最近,研究人員開始直接利用高級LLM進行 APR。現代LLM接受了數十億個開源代碼片段的訓練,在許多與代碼相關的任務上展示了令人印象深刻的性能,并且可以學習在給定周圍上下文的情況下直接生成代碼(由于代碼自然性)。 AlphaRepair提出了第一個完形填空式(或填充式)APR 方法,其中有錯誤的代碼被刪除,并且 LLM 在給定前綴和后綴上下文的情況下直接預測正確的代碼。最近的工作還應用基于 LLM 的 APR 來自動完成單個正確行或生成完整的固定函數。一項更廣泛的研究研究了將更大的 LLM 和不同的 LLM 架構(即生成式和填充式)應用于 APR,并證明基于 LLM 的 APR 工具可以在許多 APR 任務上實現新的最先進的性能。同時,現有的基于LLM的APR渠道仍然存在以下局限性:

1)缺少測試失敗信息。當前基于 LLM 的工具沒有考慮原始 bug 暴露測試中的豐富信息。這些信息不僅可以幫助LLM理解被測源代碼的含義,還可以通過具體的代碼片段提供幫助和提示。圖 1 顯示了錯誤修復示例以及原始測試失敗信息。我們看到解決方法是將附加字符串交換為“\\000”。對于基于 LLM 的方法來說,這可能是一個極其困難的修復,因為這個獨特的字符串是這不是預訓練期間常用的字符串,并且當前函數上下文中也沒有其他三重字符串(“\\XXX”)的示例。然而,從測試中的失敗行和相應的錯誤消息中,我們看到測試期望輸出包含三個零,甚至包含直接在補丁中使用的代碼片段(“\\000”)!LLM在處理/利用測試失敗日志等非結構化/復雜信息方面表現出了強大的能力。如果不考慮它們,基于 LLM 的工具可能會浪費大量時間來生成不相關的補丁。

2)重復采樣。當前基于 LLM 的方法首先使用原始有缺陷的代碼構建輸入提示,然后要求 LLM 填寫正確的代碼(即完型填空式 APR)或生成全新的固定函數。使用初始提示,基于 LLM 的技術將對 LLM 進行多次采樣以生成許多補丁,類似于傳統的程序修復 GV 范例。然而,由于每個樣本都是完全獨立的,LLM 不知道任何先前生成的補丁。因此,基于 LLM 的工具可能會生成許多重復或類似的補丁,這些補丁已被確定為不正確,從而浪費 API 訪問的成本或 GPU 執行的時間。此外,這種重復采樣過程也與人類開發人員修復錯誤的方式截然不同,人類開發人員在知識的基礎上迭代構建,并嘗試從之前失敗的嘗試中提出下一個可能的補丁。

3)對有價值的合理補丁的無知。除了無法使用過去的錯誤補丁之外,當前基于 LLM 的 APR 工具也無法有效利用之前生成的合理補丁。合理的補丁已被證明是有價值的,因為它們通常與實際正確的補丁共享相似的位置。此外,我們進一步假設合理的補丁可能還包括通過所有測試的關鍵代碼成分,并且還可以幫助LLM更好地學習如何通過所有測試以生成更合理的補丁(從而增加生成正確補丁的機會)。通過忽略這些有價值的合理補丁信息并在生成合理補丁后從頭開始,現有的基于 LLM 的 APR 可能會錯過正確修復更多錯誤的機會。

我們的工作。我們推出 ChatRepair – 一種完全自動化的對話驅動的 APR 方法,它將補丁生成與即時反饋交織在一起,以對話方式執行補丁生成。雖然我們的想法很籠統,但為了構建 ChatRepair,我們使用最近開發的、當前最先進的基于對話的 LLM – ChatGPT,它不僅經過數十億代碼片段的訓練,而且還經過設計以對話方式使用,以更好地理解說明。 ChatRepair 首先提取相關測試失敗信息作為初始提示,為 ChatGPT 提供更多 APR 上下文信息。此外,ChatRepair 進一步從早期修補的失敗和成功中學習嘗試相同的錯誤以獲得更強大的 APR。對于未能通過所有測試的早期補丁,我們將不正確的補丁與其相應的測試失敗信息結合起來,構建一個新的提示,供 LLM 生成下一個補丁。這樣,我們就可以避免犯同樣的錯誤。對于通過所有測試的早期補丁(即合理的補丁),我們進一步要求LLM生成原始合理補丁的替代變體。通過這種方式,我們可以進一步借鑒早期的成功經驗,生成更合理的補丁,從而增加獲得正確補丁的機會。由于我們的方法使用 ChatGPT 模型,因此我們還計算用于修復錯誤的 ChatGPT API 查詢的美元成本。令人驚訝的是,我們發現通過使用 ChatRepair,我們可以修復 337 個錯誤中的 162 個,每個錯誤 0.42 美元。

本文做出以下貢獻:

維度。我們為全自動程序修復開辟了對話驅動范例的新維度。我們的工作首次證明,我們可以有效地利用以前被忽略的測試失敗信息,以及以對話方式進行的早期補丁嘗試,以提示LLM生成更正確的補丁。此外,我們展示了利用基于對話的LLM進行 APR 的廣闊前景。
技術。我們使用最新的ChatGPT 模型開發了ChatRepair,這是一種完全自動化的對話驅動的APR 工具。更具體地說,我們自動提取有關初始測試失敗以及早期補丁嘗試的簡潔相關信息,以提示 ChatGPT 進行有效的 APR。
評估。我們在廣泛研究的 Defects4j 1.2、2.0和 QuixBugs數據集上針對當前最先進的基于學習的傳統 APR 工具評估 ChatRepair。 ChatRepair 在 Defects4j 1.2 和 2.0 上分別獲得了 114 個和 48 個正確錯誤修復(比之前的最佳基線多 15 個和 17 個)的新的最先進修復結果。此外,我們進行了廣泛的消融研究,以證明利用豐富的語義測試失敗信息和 ChatRepair 的對話范例進行修復所獲得的改進。
2 技術介紹

我們提出了 ChatRepair,一種完全自動化的對話驅動的 APR 技術,它結合了多個維度的反饋信息來迭代查詢模型以生成補丁。 ChatRepair 不像現有基于 LLM 的 APR 技術那樣直接根據有缺陷的代碼生成補丁,而是另外提供有價值的測試失敗信息,以進一步幫助 LLM 生成補丁。此外,ChatRepair 并沒有像之前基于 LLM 的 APR 技術那樣從相同的提示中連續采樣,而是跟蹤對話歷史記錄,并通過提示從先前失敗和成功的同一錯誤修補嘗試中進一步學習。通過這種方式,ChatRepair 既可以避免以前的失敗,又可以在早期的成功(例如合理的補丁)的基礎上構建更有效的 APR。因此,ChatRepair 最大限度地提高了獲得正確修復潛在錯誤的真正正確補丁的能力。雖然我們的方法是通用的,可以使用不同的 LLM 并應用于各種不同的修復場景,但在這項工作中,我們使用專為對話交互設計的最先進的 ChatGPT 模型,如圖1所示。


圖1:ChatRepair整體工作流程

2.1 初始輸入

首先,我們使用原始的bug項目和bug來構建ChatGPT的初始提示,以啟動修復過程。我們遵循先前基于學習的APR工具,并主要關注線級修復(特別是填充或封閉型APR,因為它已被證明是最先進的[58])。同時,ChatRepair通常也可以用于各種不同的修復場景,我們將在后面的部分中更詳細地對其進行評估。

ChatRepair使用來自失敗測試的各種信息,包括1)它的名稱,2)觸發測試失敗的相關代碼行,以及3)產生的錯誤消息。失敗測試的名稱可以作為被測函數的簡短摘要。在圖2的例子中,失敗的測試是
testGreatestSubtypeUnionTypes5(),它告訴我們,我們正在測試一個與從聯合類型中確定最大子類型相關的功能。相關的測試代碼和錯誤消息給出了關于測試失敗原因的具體信息。在示例中,相關的測試代碼和錯誤消息告訴模型,我們正在比較No_OBJECT_TYPE,但源代碼函數錯誤地返回了一個None對象。這樣失敗的測試信息不僅在源代碼的功能方面為模型提供了更多的解釋,而且在預期輸出和函數使用方面提供了具體的信息,以幫助模型生成正確的修復。注意,如果有多個失敗的測試,ChatRepair只提供其中一個的信息,以保持簡潔的初始提示。最后,我們通過給model生成正確的行來替換填充位置的有bug的代碼來結束我們的初始提示。設C為輸出生成序列概率的ChatGPT,preandsufas為刪除錯誤行后的錯誤代碼的前綴和后綴,Ifillas為替換錯誤行的填充令牌,f0為構造的失敗測試信息,Ifillas為填充指令提示符。補丁pgenerated可以形式化的條件概率:C(p|pre,infill,suf,f0,Ifill)

據我們所知,ChatRepair是第一個通過結合故障信息的自然語言描述(例如,代碼在此測試中失敗:{failure_test})作為輸入到強大的ChatGPT模型中,以純提示方法應用這些測試失敗和錯誤消息的工作。與之前使用的修復測試執行信息不同[61],它依賴于自定義編碼或手工制作的啟發式,通過使用ChatGPT通過提示進行ChatRepair不僅是跨越不同編程語言但也不受測試信息類型的限制。

2.2 會話修補

我們首先使用創建的初始提示來查詢ChatGPT以獲得模型輸出并提取候選補丁。然后,我們轉移到方法的對話部分,我們將patch生成與測試驗證反饋交織在一起,以對話的方式提示未來的生成。每個由模型生成的補丁之后,都立即有一個補丁驗證步驟,以在測試套件上編譯和運行補丁。如果補丁未能通過測試,我們將使用不正確的補丁和失敗的測試構建詳細的反饋信息,作為下一個補丁生成提示的一部分。與初始提示類似,測試失敗信息可以幫助模型了解失敗原因,并為生成正確修復提供指導。在對話步驟中,我們進一步將測試失敗信息與之前不正確的補丁結合起來,不僅可以避免生成更多類似的不正確補丁,還可以從前幾代的錯誤中學習。我們重復這個過程,直到生成一個通過整個測試套件的可信補丁。

2.3 貌似合理的補丁生成

在前一步之后,ChatRepair應該獲得一個可以通過整個測試套件的貌似合理的補丁。然而,一個似是而非的補丁可能并不總是能夠正確地修復底層bug,因為測試套件可能是不完整的,因此無法覆蓋底層代碼的所有可能的預期用法。因此,開發人員必須手動檢查合理的補丁以確定正確的補丁。合理的補丁和最終正確的補丁都有一個相似的特點:它們都可以通過整個測試套件。因此,ChatRepair不是從頭開始),而是直接利用現有的可信補丁來創建更可信的補丁。簡而言之,為了增加我們能夠生成正確補丁的概率,ChatRepair采用之前生成的可信補丁,并要求模型生成替代變體并產生額外的候選補丁。

首先,我們采用最初使用的提示符,其中包含原始的有bug的代碼功能以及有用的測試失敗信息。然后,我們在提示符后面添加生成的合理補丁列表。在開始時,該列表將只包含上一步中單個合理的補丁,但是隨著我們繼續生成額外的合理補丁,它會增長。接下來,我們在提示符中指出我們想要解決的任務-請生成一個替代修復行。然后,我們使用這個提示符作為ChatGPT的輸入,并獲得一個候選補丁,我們將再次編譯并運行測試套件,以檢查它是否確實是另一個合理的補丁。我們不斷地查詢ChatGPT并更新提示符,以包含生成的新的可信補丁,以避免再次重復生成相同的可信補丁,并進一步構建早期的可信補丁。再次設C為輸出生成序列概率的ChatGPT模型,Ibe為初始提示符,Iplas為任務指令,PL<n={pl1,…,pln−1}是之前生成的可信補丁。生成的下一個似是而非的補丁可以形式化為條件概率:C(pli|I,PL<i,IPL)。

最后,我們得到一個似是而非的補丁列表,這些補丁可以交給開發人員進行人工檢查。與之前的APR工具(僅對原始錯誤代碼進行操作以生成補丁)不同,ChatRepair利用每個可能的補丁中額外的有用信息來獲得更多可能的補丁。一個合理的補丁通常包含有用的成分/模式,允許它通過原始測試套件;因此,ChatGPT不是從頭開始(即再次修復錯誤),而是在現有的可信補丁的基礎上構建,通過其強大的理解指令的能力,可以獲得額外的可信補丁,以增加我們的最終補丁列表中包含修復錯誤的正確補丁的可能性。

每日福利更多>>

真實車主泣血忠告:傳祺M8乾崑治好我的MPV PTSD! 五菱銀標全新MPV諜照曝光,三排7座,插混系統更省錢 豐田普銳斯25年不換“新裝”?2026款北美低調上市,油耗仍是王牌 bp pulse與小鵬汽車合作的首座超充站落地廣州 濟南高新區章錦小學:孩子們演示正確的洗手方法 傳祺M8:混動油耗6.15L+綜合續航1200km,限時優惠3.8萬的豪華MPV 堅守3.0T發動機 全新寶馬M350諜照曝光 有望明年底投產 零陵:移風易俗顯成效 巋山新風撲面來 香港導演林奕華:梁祝舞臺劇的“專”“轉”“傳” 大眾ID.2量產版首曝:最親民純電掀背車即將登場 本田思域TYPE-R最終版,限量40臺,轉型純電化? 美國FDA叫停吉利德HIV復方藥物臨床試驗 從SUV王者到越野專家,長城把″聚焦″這個方法論貫徹始終 國產煥新Model Y 或是特斯拉5月份澳大利亞銷量主要來源 小桔充電與比亞迪達成戰略合作 共建超充網絡開放生態 一汽奧迪Q6L e-tron:讓華為智駕有“德味”,比“堆料”更懂本質 蔚來精細化管理研發投入:CBU機制推行后,非必要研發項目不予立項 蘋果iPhone 13 5G手機128GB午夜色到手價1584元 多彩小直屏vivo S30系列發布 官方稱vivo X Fold5 將打破 X Fold3最輕記錄 榮耀 Earbuds 4i 耳機首銷:50dB 降噪、11mm 鍍鈦低音單元,249 元 帕沃森摸魚戰士手機殼限時特惠9.1元 榮耀進軍機器人!手機廠商扎堆機器人賽道 環球、華納和索尼音樂正與兩初創公司磋商AI音樂權限 小米618推出線下主題科技展,國內首款自主研發3 nm旗艦亮相展出 東風汽車賀琳曼詳解車載光通信的技術研究與應用實踐 大眾報業集團駐地媒體聯合采訪團走進山東鳳凰制藥股份有限公司 滬深兩市今日成交額合計1.19萬億,比亞迪成交額居首 吉利集團旗下電池公司吉曜通行:預計到2027年形成70GWh電池產能規模 2025款長安UNI-Z上市,燃油版11.59萬起、PHEV版12.69萬起
主站蜘蛛池模板: DWS物流设备_扫码称重量方一体机_快递包裹分拣机_广东高臻智能装备有限公司 | 气动|电动调节阀|球阀|蝶阀-自力式调节阀-上海渠工阀门管道工程有限公司 | 福州甲醛检测-福建室内空气检测_环境检测_水质检测-福建中凯检测技术有限公司 | 地脚螺栓_材质_标准-永年县德联地脚螺栓厂家 | 工业车间焊接-整体|集中除尘设备-激光|等离子切割机配套除尘-粉尘烟尘净化治理厂家-山东美蓝环保科技有限公司 | 依维柯自动挡房车,自行式国产改装房车,小型房车价格,中国十大房车品牌_南京拓锐斯特房车 - 南京拓锐斯特房车 | 安规_综合测试仪,电器安全性能综合测试仪,低压母线槽安规综合测试仪-青岛合众电子有限公司 | 电动葫芦|环链电动葫芦-北京凌鹰名优起重葫芦 | 武汉高温老化房,恒温恒湿试验箱,冷热冲击试验箱-武汉安德信检测设备有限公司 | 全自动五线打端沾锡机,全自动裁线剥皮双头沾锡机,全自动尼龙扎带机-东莞市海文能机械设备有限公司 | 步进电机_agv电机_伺服马达-伺服轮毂电机-和利时电机 | HDPE土工膜,复合土工膜,防渗膜价格,土工膜厂家-山东新路通工程材料有限公司 | 聚丙烯酰胺PAM-聚合氯化铝PAC-絮凝剂-河南博旭环保科技有限公司 巨野电机维修-水泵维修-巨野县飞宇机电维修有限公司 | 游泳池设备安装工程_恒温泳池设备_儿童游泳池设备厂家_游泳池水处理设备-东莞市君达泳池设备有限公司 | 罐体电伴热工程-消防管道电伴热带厂家-山东沃安电气 | 温州富欧金属封头-不锈钢封头厂家 | Q361F全焊接球阀,200X减压稳压阀,ZJHP气动单座调节阀-上海戎钛 | 福建自考_福建自学考试网 | 自动气象站_气象站监测设备_全自动气象站设备_雨量监测站-山东风途物联网 | 珠海白蚁防治_珠海灭鼠_珠海杀虫灭鼠_珠海灭蟑螂_珠海酒店消杀_珠海工厂杀虫灭鼠_立净虫控防治服务有限公司 | 衬塑管道_衬四氟管道厂家-淄博恒固化工设备有限公司 | 广东恩亿梯电源有限公司【官网】_UPS不间断电源|EPS应急电源|模块化机房|电动汽车充电桩_UPS电源厂家(恩亿梯UPS电源,UPS不间断电源,不间断电源UPS) | 披萨石_披萨盘_电器家电隔热绵加工定制_佛山市南海区西樵南方综合保温材料厂 | 精密钢管,冷拔精密无缝钢管,精密钢管厂,精密钢管制造厂家,精密钢管生产厂家,山东精密钢管厂家 | 搅拌磨|搅拌球磨机|循环磨|循环球磨机-无锡市少宏粉体科技有限公司 | 滚珠丝杆升降机_螺旋升降机_丝杠升降机-德迈传动 | 即用型透析袋,透析袋夹子,药敏纸片,L型涂布棒-上海桥星贸易有限公司 | 糖衣机,除尘式糖衣机,全自动糖衣机,泰州市长江制药机械有限公司 体感VRAR全息沉浸式3D投影多媒体展厅展会游戏互动-万展互动 | 网站建设-临朐爱采购-抖音运营-山东兆通网络科技 | 北京康百特科技有限公司-分子蒸馏-短程分子蒸馏设备-实验室分子蒸馏设备 | 二手电脑回收_二手打印机回收_二手复印机回_硒鼓墨盒回收-广州益美二手电脑回收公司 | 称重传感器,测力传感器,拉压力传感器,压力变送器,扭矩传感器,南京凯基特电气有限公司 | 筒瓦厂家-仿古瓦-寺庙-古建琉璃瓦-宜兴市古典园林建筑陶瓷厂有限公司 | 我爱古诗词_古诗词名句赏析学习平台 | 数字展示在线_数字展示行业门户网站 | 汽液过滤网厂家_安平县银锐丝网有限公司 | 钢格板|热镀锌钢格板|钢格栅板|钢格栅|格栅板-安平县昊泽丝网制品有限公司 | 驾驶人在线_专业学车门户网站 | 电镀电源整流器_高频电解电源_单脉双脉冲电源 - 东阳市旭东电子科技 | 青岛侦探_青岛侦探事务所_青岛劝退小三_青岛调查出轨取证公司_青岛婚外情取证-青岛探真调查事务所 | 代写标书-专业代做标书-商业计划书代写「深圳卓越创兴公司」 |