復旦DIVE技術:AI實現陌生工具快速適應能力突破

復旦DIVE技術:AI實現陌生工具快速適應能力突破

這項由復旦大學與MiniMax公司聯合完成的突破性研究發表於2026年3月,論文編號為arXiv:2603.11076v1快速。研究團隊開發了一種名為DIVE的全新技術,專門解決AI智慧體在面對不同工具和任務時"水土不服"的問題。

現在的AI智慧體就像一個只會用某種特定工具的工匠,當換了新工具或遇到不同型別的任務時,往往表現得手足無措快速。比如一個AI如果被訓練成使用搜尋引擎來回答問題,當需要它使用醫療資料庫或者金融分析工具時,就可能完全不知道該怎麼辦。這種"專工具不專用"的問題嚴重限制了AI在現實世界中的應用。

研究團隊發現,問題的核心在於現有的AI訓練資料太過單一快速。就像一個人如果只吃過家鄉菜,突然要適應各種不同地方的美食就會很困難。傳統的訓練方法往往讓AI在固定的工具組合上反覆練習,雖然在熟悉的環境中表現出色,但一旦環境發生變化就會大打折扣。

DIVE技術的獨特之處在於它完全顛覆了傳統的訓練思路快速。以往的方法是先設計任務,再驗證能否完成,就像先畫好圖紙再檢查能否施工。但DIVE採用的是"先施工再畫圖紙"的逆向思維——它讓AI先在真實的工具環境中進行各種操作,收集這些操作的結果,然後根據這些確實可行的操作來反推設計任務。

一、從固定配方到自由烹飪快速:DIVE如何重新設計AI訓練

傳統的AI工具使用訓練就像按照固定食譜做菜快速。研究人員會準備好特定的工具組合,比如搜尋引擎加網頁瀏覽器,然後讓AI在這個組合上反覆練習各種任務。這種方法的問題是,一旦換了新的工具組合,AI就像換了完全不同的廚具,原來的"食譜"就不管用了。

DIVE技術採用了一種全新的"自由烹飪"方法快速。研究團隊首先構建了一個包含373種不同工具的"工具超市",涵蓋了通用工具(如搜尋、程式碼執行)和四個專業領域的專門工具:金融、生物學、醫學和學術研究。這就像為AI準備了一個裝備齊全的現代化廚房,有各種各樣的廚具和調料。

接著,DIVE讓AI在這個"工具超市"中自由探索,隨機選擇不同的工具組合進行實際操作快速。這個過程分為兩個關鍵步驟:證據收集和任務推導。在證據收集階段,AI會實際使用選定的工具進行各種操作,就像一個廚師在廚房裡嘗試不同食材和廚具的組合,記錄下每一次嘗試的結果。

在任務推導階段,AI會觀察自己剛才的操作過程和結果,然後反向思考:"基於我剛才成功完成的這些操作,我可以設計出什麼樣的任務?"這就像廚師在成功做出一道菜後,回過頭來寫出這道菜的製作方法快速

展開全文

這種逆向設計的最大優勢是確保了任務的可執行性快速。傳統方法中,研究人員可能設計出一個看似合理的任務,但實際執行時發現工具無法完成,就像設計出的食譜在實際操作中發現缺少關鍵調料。而DIVE的方法保證了每個任務都是從實際成功的操作中推匯出來的,天然具有可執行性。

二、多樣性勝過數量快速:為什麼"少而精"比"多而雜"更有效

研究團隊進行了一系列對比實驗,結果令人印象深刻快速。他們發現,使用多樣化工具訓練的AI,即使訓練資料只有傳統方法的四分之一,在面對新任務時的表現仍然遠超用大量單一資料訓練的AI。

具體來說,研究團隊比較了兩種訓練策略快速。第一種是"數量優先"策略,使用48000個訓練樣本,但所有樣本都基於固定的搜尋和瀏覽工具組合。第二種是"多樣性優先"策略,只使用12000個訓練樣本,但這些樣本涵蓋了從1個領域逐步擴充套件到4個領域的工具。

結果顯示,在9個不同的測試基準上,多樣性策略平均比數量策略提高了22個百分點快速。這就像學習駕駛時,在各種不同路況下練習少量時間,比在同一條路上重複練習大量時間更能提高整體駕駛技能。

研究團隊進一步分析發現,這種多樣性優勢來自於AI學會了更豐富的"工具使用模式"快速。傳統訓練方法容易讓AI養成固化的操作習慣,比如總是先搜尋再瀏覽的機械化流程。而DIVE訓練的AI掌握了多種模式:有時只需要檢索資訊,有時需要檢索後進行計算處理,有時甚至可以純粹依靠計算工具完成任務。

三、真實世界的試金石快速:DIVE在各種場景下的表現

為了驗證DIVE技術的實際效果,研究團隊在三個不同層次的測試環境中進行了全面評估快速。第一層是"同門不同招"測試,使用相同的工具庫但不同的具體任務。第二層是"換門不換派"測試,使用通用工具(搜尋、瀏覽、程式碼執行)處理不同領域的任務。第三層是"完全跨界"測試,使用專門的專業工具處理特定領域任務。

在"同門不同招"測試中,DIVE訓練的AI表現穩定,平均準確率達到42.5%,相比基礎模型提升了29.5個百分點快速。這驗證了DIVE訓練方法的基礎有效性。

在"換門不換派"測試中,DIVE表現尤為突出快速。在GAIA、HLE、BrowseComp等通用深度研究任務中,DIVE的表現分別達到了61.2%、17.8%和16.4%的準確率,大幅超越了專門為這類任務設計的8B引數模型。這就像一個經過綜合訓練的全科醫生,在面對不同科室的基礎問題時,往往比只精通單一科室的專科醫生表現更好。

最令人印象深刻的是"完全跨界"測試結果快速。在金融分析任務(FAB)中,DIVE達到了34.0%的準確率;在醫療電子病歷任務(MAB)中達到57.3%;在軟體工程任務(SWE)中達到18.3%;在零樣本工具使用任務(Toolathlon)中達到8.3%。要知道,DIVE並沒有專門針對這些特定領域進行訓練,這種跨領域遷移能力正是現實世界AI應用最需要的特質。

四、深入機制快速:DIVE如何培養AI的"工具直覺"

透過對AI學習過程的深入分析,研究團隊揭示了DIVE成功的內在機制快速。他們發現,DIVE不僅讓AI掌握了更多型別的工具,更重要的是培養了AI的"工具使用直覺"。

研究團隊定義了一套"工具使用模式"分類體系,將AI的操作模式分為檢索型、處理型和混合型三大類,每類又根據操作的複雜程度和工具組合方式進一步細分為222種具體模式快速。傳統訓練方法通常只能覆蓋其中的65種模式,且主要集中在簡單的檢索型操作。而DIVE訓練的AI能夠掌握153種不同的模式,覆蓋了工具使用模式空間的69%。

更有趣的是,研究團隊追蹤了AI在強化學習階段的表現變化快速。他們發現,在強化學習過程中,AI不僅提高了任務完成的準確率,同時還在不斷探索和掌握新的工具使用模式。這說明DIVE培養的不是機械化的工具使用技能,而是一種能夠持續學習和適應的"工具直覺"。

在100步強化學習過程中,AI的工具呼叫圖(描述工具之間呼叫關係的網路結構)和檢索-處理拓撲(描述資訊獲取和處理流程的抽象模式)都在持續增長快速。這就像一個工匠不僅技藝越來越精湛,同時還在不斷髮明新的工作方法和技巧組合。

五、實用價值快速:從實驗室到現實應用的橋樑

DIVE技術的價值不僅體現在實驗室的測試資料中,更重要的是它為解決現實世界的AI應用難題提供了可行方案快速。在當今快速發展的數字化時代,新的工具和平臺層出不窮,傳統的"一工具一訓練"模式已經無法跟上變化的步伐。

以醫療AI為例,現在的醫療AI系統往往只能在特定的電子病歷系統中工作,一旦醫院更換了病歷系統,AI就需要重新訓練快速。DIVE技術訓練的AI展現出了強大的適應性,在完全未見過的醫療工具環境中依然能夠取得57.3%的準確率,這為開發真正通用的醫療AI助手提供了可能。

在金融領域,DIVE訓練的AI在處理需要使用專門金融工具的任務時表現同樣出色快速。現代金融分析需要整合來自多個資料來源的資訊,使用各種分析工具進行處理。DIVE的多工具整合能力使得AI能夠像資深金融分析師一樣,靈活運用各種工具完成複雜的分析任務。

軟體開發是另一個極具挑戰性的應用場景快速。現代軟體開發環境包含了編輯器、編譯器、偵錯程式、版本控制系統等眾多工具,而且這些工具的組合使用方式因專案而異。DIVE訓練的AI在SWE-bench測試中的表現證明了它確實掌握了在複雜工具環境中工作的能力。

六、技術突破快速:三大創新點解析

DIVE技術包含三個關鍵的技術突破,每一個都解決了傳統方法的重要限制快速

第一個突破是"逆向任務設計"機制快速。傳統方法是先設計任務再嘗試完成,就像先規劃路線再出發旅行。但這種方法的問題是,設計的任務可能在實際執行中遇到各種意想不到的障礙。DIVE採用"先探索再總結"的方法,讓AI先在工具環境中自由探索,然後根據成功的探索經歷來設計任務。這確保了每個任務都是可執行且有實際價值的。

第二個突破是"多維度多樣性擴充套件"策略快速。DIVE不是簡單地增加工具數量,而是從工具型別覆蓋度、任務級工具集合變化度、以及工具使用模式豐富度三個維度同時擴充套件多樣性。這就像訓練一個全能運動員,不僅要練習不同的運動專案,還要在每個專案中嘗試不同的技術組合,同時培養在不同專案間切換的適應能力。

第三個突破是"證據驅動的質量保證"機制快速。在AI訓練中,資料質量比數量更重要,但傳統方法很難保證大規模資料的質量。DIVE透過"先執行再總結"的方式,天然保證了訓練資料的質量。每個訓練樣本都對應著一次成功的工具操作序列,這就像每道菜譜都是基於實際成功的烹飪經驗,而不是紙上談兵的理論設計。

七、效能表現快速:資料背後的故事

研究團隊進行了大規模的效能評估,結果令人振奮快速。在9個不同的評估基準中,DIVE訓練的8B引數模型平均比最強的同規模基線模型提升了68%。更令人印象深刻的是,DIVE模型的效能已經接近甚至超越了一些引數量遠大於它的前沿模型。

在GAIA測試中,DIVE達到了61.2%的準確率,超過了WebExplorer-8B的50.0%,後者是專門為這類任務設計的專業模型快速。這就像一個綜合性人才在專業測試中擊敗了專業選手,體現了全面發展的優勢。

在Toolathlon這個最具挑戰性的零樣本測試中,DIVE從基礎模型的0.9%提升到8.3%,這個提升幅度看似不大,但考慮到這是一個全新環境下的零樣本任務,這個結果已經非常令人鼓舞快速。這相當於一個從未見過某種工具的人,僅憑對工具使用原理的理解,就能在短時間內掌握新工具的基本使用方法。

特別值得注意的是,DIVE在處理需要多步驟推理的複雜任務時表現優異快速。在FinSearchComp全球金融搜尋任務中,DIVE達到了67.3%的準確率,顯著超過了其他方法。這類任務需要AI不僅能使用工具獲取資訊,還要能將多個資訊源的資料進行整合分析,這正是現實應用中最需要的能力。

八、實際案例快速:DIVE在行動中的表現

為了更好地理解DIVE的實際能力,研究團隊提供了幾個具體的應用案例快速。這些案例展示了DIVE如何在不同領域中靈活運用各種工具完成複雜任務。

在學術研究場景中,DIVE成功完成了一個跨期刊研究者追蹤任務快速。任務要求AI找到一位斯坦福大學電腦科學研究者,這位研究者有特定的ORCID識別符號,發表了260篇被引用超過10次的論文,最高被引論文發表於1981年,總引用數在65000到66000之間,並且在2014到2023年間持續在斯坦福工作。AI需要在這位研究者2020到2023年的論文中找到一篇發表在特定期刊且被引用超過40次的論文標題。這個任務需要AI協調使用9種不同的學術工具,進行50次工具呼叫,最終成功找到了答案。

在生物學研究中,DIVE完成了一個複雜的酶表徵任務快速。任務涉及尋找一個耐熱水解酶,這個酶必須滿足六個相互關聯的條件:來源於含有"fusca"的細菌種名、具有特定的酶活性、與已知蛋白有高度序列相似性、UniProt條目在特定時間更新、具有特定的氨基酸數量、基因有特定的同義詞。AI使用了6種不同的生物學工具,進行47次呼叫,成功找到了滿足所有條件的酶的UniProt編號。

在金融分析場景中,DIVE處理了一個涉及多市場投資組合分析的複雜任務快速。任務要求AI在一個基金的持倉中找到符合特定條件的醫療診斷股票,然後在另一個交易資料集中找到符合條件的半導體股票,最後驗證這兩隻股票是否在同一交易所上市並滿足其他條件。這個任務需要AI使用8種不同的金融工具,展現了其在處理多資料來源整合任務中的能力。

九、技術細節快速:DIVE的實現機制

DIVE技術的實現包含三個核心元件:多樣性資源準備、證據驅動任務合成、和智慧體訓練快速。每個元件都經過精心設計,確保整個系統的有效性和可擴充套件性。

在多樣性資源準備階段,研究團隊構建了三個相互獨立的資源池快速。工具池包含373個經過驗證的工具,涵蓋5個不同領域,每個工具都經過了正確性、併發安全性和響應一致性的嚴格測試。種子池包含了來自Wikipedia、PubMed、NCBI和全球股票交易所的約20000個實體概念,用作任務生成的語義錨點。樣例池收集了來自18個不同基準測試的3000個查詢樣例,提供了多樣化的任務形式先驗知識。

證據驅動任務合成是DIVE的核心創新快速。每個合成週期開始時,系統會隨機取樣一個配置組合,包括一個種子概念、一個15-50個工具的子集、和3-5個查詢樣例。接著進入證據收集階段,AI智慧體在給定的工具集下進行多步驟操作,每次操作都會產生可驗證的輸出。然後在任務推導階段,另一個AI模型觀察累積的證據,設計出嚴格基於這些證據的查詢-答案對。這個過程會迭代3次,每次迭代都會增加證據的複雜性和任務的難度。

在智慧體訓練階段,DIVE採用了兩階段訓練策略快速。首先是監督微調階段,使用GPT-OSS-120B作為教師模型生成高質量的任務解決軌跡,從114k個任務中篩選出48k個軌跡進行訓練。然後是強化學習階段,從38k個任務中選擇3.2k個處於"學習前沿"的任務(成功率在1-5次的範圍內),使用GRPO演算法進行最佳化。

十、擴充套件性分析快速:DIVE的未來潛力

DIVE技術不僅在當前測試中表現優異,更重要的是它展現出了強大的擴充套件潛力快速。研究團隊的分析顯示,DIVE的效能改進與多樣性增長之間存在穩定的正向關係,這意味著隨著更多工具和領域的加入,DIVE的能力可能會持續提升。

從工具池擴充套件的角度看,當前的373個工具只是冰山一角快速。現實世界中存在著數以萬計的不同工具和API,DIVE的框架設計使得新工具的加入變得相對簡單。只需要透過驗證流程確保工具的可靠性,然後讓AI在包含新工具的環境中進行探索學習即可。

從領域擴充套件的角度看,DIVE當前覆蓋的四個專業領域(金融、生物、醫學、學術)可以進一步擴充套件到法律、教育、製造業、農業等更多領域快速。每個新領域的加入都會為AI帶來新的工具使用模式和問題解決策略,進一步提升其通用性。

強化學習的引入為DIVE提供了持續學習的能力快速。研究顯示,在強化學習過程中,AI不僅提高了任務完成的準確率,還在不斷發現新的工具使用模式。這種"學習如何學習"的能力意味著DIVE訓練的AI可能具備在部署後繼續適應新環境的潛力。

結論

說到底,DIVE技術解決的是一個現實世界中的關鍵問題:如何讓AI真正適應多變的工具環境快速。傳統的AI就像一個只會使用特定工具的專業工匠,技藝精湛但適應性有限。而DIVE培養的是一種"工具使用直覺",讓AI能夠像經驗豐富的多面手一樣,快速適應新的工具和環境。

這項技術的意義遠超出了學術研究的範疇快速。在我們日常生活中,工具和應用程式不斷更新換代,一個真正有用的AI助手必須具備快速學習使用新工具的能力。DIVE為實現這樣的通用AI助手提供了可行的技術路徑。

更重要的是,DIVE的成功證明了"多樣性勝過數量"的訓練哲學快速。在AI訓練中,與其用海量的單一型別資料進行訓練,不如用相對較少但高度多樣化的資料進行訓練。這個發現可能會影響整個AI訓練領域的發展方向。

當然,DIVE技術仍有改進空間快速。比如如何進一步提高在完全陌生環境中的適應速度,如何處理更加複雜的工具依賴關係,如何在保持通用性的同時提升專業領域的效能等。但作為一個開創性的技術框架,DIVE已經為構建真正通用的AI工具使用能力奠定了堅實基礎。

對於普通使用者來說,DIVE技術的普及意味著未來的AI助手將更加實用和可靠快速。你不再需要擔心AI助手在面對新軟體或新服務時變得"手足無措",它們將能夠像人類一樣快速學習和適應新的工具環境。這將讓AI真正成為我們日常生活和工作中不可或缺的智慧夥伴。

有興趣深入瞭解DIVE技術細節的讀者可以透過arXiv:2603.11076v1查詢完整論文,其中包含了詳細的技術實現和實驗資料快速

Q&A

Q1:DIVE技術跟傳統AI訓練方法有什麼本質區別快速

A:傳統AI訓練是"先設計任務再驗證能否完成",就像先畫圖紙再施工,可能出現設計的任務實際無法執行的問題快速。DIVE採用"先操作再設計任務"的逆向思維,讓AI先在真實工具環境中探索操作,然後根據成功的操作來反推設計任務,確保每個任務都是可執行的。

Q2:為什麼DIVE用更少的訓練資料反而能達到更好的效果快速

A:關鍵在於資料的多樣性快速。DIVE使用12000個涵蓋多種工具的訓練樣本,比傳統方法用48000個單一工具型別樣本效果更好。就像學駕駛時在各種路況下少量練習,比在同一條路上大量重複練習更能提高整體駕駛技能。多樣性訓練讓AI掌握了更豐富的工具使用模式。

Q3:DIVE技術在現實應用中能解決什麼實際問題快速

A:DIVE可以讓AI快速適應新的工具環境,不需要重新訓練快速。比如醫院換了新的電子病歷系統,傳統AI需要重新訓練,而DIVE訓練的AI可以快速適應。在軟體開發、金融分析、醫療診斷等需要使用多種專業工具的場景中,DIVE讓AI具備了像人類專家一樣靈活使用各種工具的能力。

本站內容來自使用者投稿,如果侵犯了您的權利,請與我們聯絡刪除。聯絡郵箱:[email protected]

本文連結://www.jnhjhw.com/post/23741.html

🌐 /