復旦DIVE技術：AI實現陌生工具快速適應能力突破

這項由復旦大學與MiniMax公司聯合完成的突破性研究發表於2026年3月，論文編號為arXiv:2603.11076v1快速。研究團隊開發了一種名為DIVE的全新技術，專門解決AI智慧體在面對不同工具和任務時"水土不服"的問題。

現在的AI智慧體就像一個只會用某種特定工具的工匠，當換了新工具或遇到不同型別的任務時，往往表現得手足無措快速。比如一個AI如果被訓練成使用搜尋引擎來回答問題，當需要它使用醫療資料庫或者金融分析工具時，就可能完全不知道該怎麼辦。這種"專工具不專用"的問題嚴重限制了AI在現實世界中的應用。

研究團隊發現，問題的核心在於現有的AI訓練資料太過單一快速。就像一個人如果只吃過家鄉菜，突然要適應各種不同地方的美食就會很困難。傳統的訓練方法往往讓AI在固定的工具組合上反覆練習，雖然在熟悉的環境中表現出色，但一旦環境發生變化就會大打折扣。

DIVE技術的獨特之處在於它完全顛覆了傳統的訓練思路快速。以往的方法是先設計任務，再驗證能否完成，就像先畫好圖紙再檢查能否施工。但DIVE採用的是"先施工再畫圖紙"的逆向思維——它讓AI先在真實的工具環境中進行各種操作，收集這些操作的結果，然後根據這些確實可行的操作來反推設計任務。

一、從固定配方到自由烹飪快速：DIVE如何重新設計AI訓練

傳統的AI工具使用訓練就像按照固定食譜做菜快速。研究人員會準備好特定的工具組合，比如搜尋引擎加網頁瀏覽器，然後讓AI在這個組合上反覆練習各種任務。這種方法的問題是，一旦換了新的工具組合，AI就像換了完全不同的廚具，原來的"食譜"就不管用了。

DIVE技術採用了一種全新的"自由烹飪"方法快速。研究團隊首先構建了一個包含373種不同工具的"工具超市"，涵蓋了通用工具（如搜尋、程式碼執行）和四個專業領域的專門工具：金融、生物學、醫學和學術研究。這就像為AI準備了一個裝備齊全的現代化廚房，有各種各樣的廚具和調料。

接著，DIVE讓AI在這個"工具超市"中自由探索，隨機選擇不同的工具組合進行實際操作快速。這個過程分為兩個關鍵步驟：證據收集和任務推導。在證據收集階段，AI會實際使用選定的工具進行各種操作，就像一個廚師在廚房裡嘗試不同食材和廚具的組合，記錄下每一次嘗試的結果。

在任務推導階段，AI會觀察自己剛才的操作過程和結果，然後反向思考："基於我剛才成功完成的這些操作，我可以設計出什麼樣的任務？"這就像廚師在成功做出一道菜後，回過頭來寫出這道菜的製作方法快速。

展開全文

這種逆向設計的最大優勢是確保了任務的可執行性快速。傳統方法中，研究人員可能設計出一個看似合理的任務，但實際執行時發現工具無法完成，就像設計出的食譜在實際操作中發現缺少關鍵調料。而DIVE的方法保證了每個任務都是從實際成功的操作中推匯出來的，天然具有可執行性。

二、多樣性勝過數量快速：為什麼"少而精"比"多而雜"更有效

研究團隊進行了一系列對比實驗，結果令人印象深刻快速。他們發現，使用多樣化工具訓練的AI，即使訓練資料只有傳統方法的四分之一，在面對新任務時的表現仍然遠超用大量單一資料訓練的AI。

具體來說，研究團隊比較了兩種訓練策略快速。第一種是"數量優先"策略，使用48000個訓練樣本，但所有樣本都基於固定的搜尋和瀏覽工具組合。第二種是"多樣性優先"策略，只使用12000個訓練樣本，但這些樣本涵蓋了從1個領域逐步擴充套件到4個領域的工具。

結果顯示，在9個不同的測試基準上，多樣性策略平均比數量策略提高了22個百分點快速。這就像學習駕駛時，在各種不同路況下練習少量時間，比在同一條路上重複練習大量時間更能提高整體駕駛技能。

研究團隊進一步分析發現，這種多樣性優勢來自於AI學會了更豐富的"工具使用模式"快速。傳統訓練方法容易讓AI養成固化的操作習慣，比如總是先搜尋再瀏覽的機械化流程。而DIVE訓練的AI掌握了多種模式：有時只需要檢索資訊，有時需要檢索後進行計算處理，有時甚至可以純粹依靠計算工具完成任務。

三、真實世界的試金石快速：DIVE在各種場景下的表現

為了驗證DIVE技術的實際效果，研究團隊在三個不同層次的測試環境中進行了全面評估快速。第一層是"同門不同招"測試，使用相同的工具庫但不同的具體任務。第二層是"換門不換派"測試，使用通用工具（搜尋、瀏覽、程式碼執行）處理不同領域的任務。第三層是"完全跨界"測試，使用專門的專業工具處理特定領域任務。

在"同門不同招"測試中，DIVE訓練的AI表現穩定，平均準確率達到42.5%，相比基礎模型提升了29.5個百分點快速。這驗證了DIVE訓練方法的基礎有效性。

在"換門不換派"測試中，DIVE表現尤為突出快速。在GAIA、HLE、BrowseComp等通用深度研究任務中，DIVE的表現分別達到了61.2%、17.8%和16.4%的準確率，大幅超越了專門為這類任務設計的8B引數模型。這就像一個經過綜合訓練的全科醫生，在面對不同科室的基礎問題時，往往比只精通單一科室的專科醫生表現更好。

最令人印象深刻的是"完全跨界"測試結果快速。在金融分析任務（FAB）中，DIVE達到了34.0%的準確率；在醫療電子病歷任務（MAB）中達到57.3%；在軟體工程任務（SWE）中達到18.3%；在零樣本工具使用任務（Toolathlon）中達到8.3%。要知道，DIVE並沒有專門針對這些特定領域進行訓練，這種跨領域遷移能力正是現實世界AI應用最需要的特質。

四、深入機制快速：DIVE如何培養AI的"工具直覺"

透過對AI學習過程的深入分析，研究團隊揭示了DIVE成功的內在機制快速。他們發現，DIVE不僅讓AI掌握了更多型別的工具，更重要的是培養了AI的"工具使用直覺"。

研究團隊定義了一套"工具使用模式"分類體系，將AI的操作模式分為檢索型、處理型和混合型三大類，每類又根據操作的複雜程度和工具組合方式進一步細分為222種具體模式快速。傳統訓練方法通常只能覆蓋其中的65種模式，且主要集中在簡單的檢索型操作。而DIVE訓練的AI能夠掌握153種不同的模式，覆蓋了工具使用模式空間的69%。

更有趣的是，研究團隊追蹤了AI在強化學習階段的表現變化快速。他們發現，在強化學習過程中，AI不僅提高了任務完成的準確率，同時還在不斷探索和掌握新的工具使用模式。這說明DIVE培養的不是機械化的工具使用技能，而是一種能夠持續學習和適應的"工具直覺"。

在100步強化學習過程中，AI的工具呼叫圖（描述工具之間呼叫關係的網路結構）和檢索-處理拓撲（描述資訊獲取和處理流程的抽象模式）都在持續增長快速。這就像一個工匠不僅技藝越來越精湛，同時還在不斷髮明新的工作方法和技巧組合。

五、實用價值快速：從實驗室到現實應用的橋樑

DIVE技術的價值不僅體現在實驗室的測試資料中，更重要的是它為解決現實世界的AI應用難題提供了可行方案快速。在當今快速發展的數字化時代，新的工具和平臺層出不窮，傳統的"一工具一訓練"模式已經無法跟上變化的步伐。

以醫療AI為例，現在的醫療AI系統往往只能在特定的電子病歷系統中工作，一旦醫院更換了病歷系統，AI就需要重新訓練快速。DIVE技術訓練的AI展現出了強大的適應性，在完全未見過的醫療工具環境中依然能夠取得57.3%的準確率，這為開發真正通用的醫療AI助手提供了可能。

在金融領域，DIVE訓練的AI在處理需要使用專門金融工具的任務時表現同樣出色快速。現代金融分析需要整合來自多個資料來源的資訊，使用各種分析工具進行處理。DIVE的多工具整合能力使得AI能夠像資深金融分析師一樣，靈活運用各種工具完成複雜的分析任務。

軟體開發是另一個極具挑戰性的應用場景快速。現代軟體開發環境包含了編輯器、編譯器、偵錯程式、版本控制系統等眾多工具，而且這些工具的組合使用方式因專案而異。DIVE訓練的AI在SWE-bench測試中的表現證明了它確實掌握了在複雜工具環境中工作的能力。

六、技術突破快速：三大創新點解析

DIVE技術包含三個關鍵的技術突破，每一個都解決了傳統方法的重要限制快速。

第一個突破是"逆向任務設計"機制快速。傳統方法是先設計任務再嘗試完成，就像先規劃路線再出發旅行。但這種方法的問題是，設計的任務可能在實際執行中遇到各種意想不到的障礙。DIVE採用"先探索再總結"的方法，讓AI先在工具環境中自由探索，然後根據成功的探索經歷來設計任務。這確保了每個任務都是可執行且有實際價值的。

第二個突破是"多維度多樣性擴充套件"策略快速。DIVE不是簡單地增加工具數量，而是從工具型別覆蓋度、任務級工具集合變化度、以及工具使用模式豐富度三個維度同時擴充套件多樣性。這就像訓練一個全能運動員，不僅要練習不同的運動專案，還要在每個專案中嘗試不同的技術組合，同時培養在不同專案間切換的適應能力。

第三個突破是"證據驅動的質量保證"機制快速。在AI訓練中，資料質量比數量更重要，但傳統方法很難保證大規模資料的質量。DIVE透過"先執行再總結"的方式，天然保證了訓練資料的質量。每個訓練樣本都對應著一次成功的工具操作序列，這就像每道菜譜都是基於實際成功的烹飪經驗，而不是紙上談兵的理論設計。

七、效能表現快速：資料背後的故事

研究團隊進行了大規模的效能評估，結果令人振奮快速。在9個不同的評估基準中，DIVE訓練的8B引數模型平均比最強的同規模基線模型提升了68%。更令人印象深刻的是，DIVE模型的效能已經接近甚至超越了一些引數量遠大於它的前沿模型。

在GAIA測試中，DIVE達到了61.2%的準確率，超過了WebExplorer-8B的50.0%，後者是專門為這類任務設計的專業模型快速。這就像一個綜合性人才在專業測試中擊敗了專業選手，體現了全面發展的優勢。

在Toolathlon這個最具挑戰性的零樣本測試中，DIVE從基礎模型的0.9%提升到8.3%，這個提升幅度看似不大，但考慮到這是一個全新環境下的零樣本任務，這個結果已經非常令人鼓舞快速。這相當於一個從未見過某種工具的人，僅憑對工具使用原理的理解，就能在短時間內掌握新工具的基本使用方法。

特別值得注意的是，DIVE在處理需要多步驟推理的複雜任務時表現優異快速。在FinSearchComp全球金融搜尋任務中，DIVE達到了67.3%的準確率，顯著超過了其他方法。這類任務需要AI不僅能使用工具獲取資訊，還要能將多個資訊源的資料進行整合分析，這正是現實應用中最需要的能力。

八、實際案例快速：DIVE在行動中的表現

為了更好地理解DIVE的實際能力，研究團隊提供了幾個具體的應用案例快速。這些案例展示了DIVE如何在不同領域中靈活運用各種工具完成複雜任務。

在學術研究場景中，DIVE成功完成了一個跨期刊研究者追蹤任務快速。任務要求AI找到一位斯坦福大學電腦科學研究者，這位研究者有特定的ORCID識別符號，發表了260篇被引用超過10次的論文，最高被引論文發表於1981年，總引用數在65000到66000之間，並且在2014到2023年間持續在斯坦福工作。AI需要在這位研究者2020到2023年的論文中找到一篇發表在特定期刊且被引用超過40次的論文標題。這個任務需要AI協調使用9種不同的學術工具，進行50次工具呼叫，最終成功找到了答案。

在生物學研究中，DIVE完成了一個複雜的酶表徵任務快速。任務涉及尋找一個耐熱水解酶，這個酶必須滿足六個相互關聯的條件：來源於含有"fusca"的細菌種名、具有特定的酶活性、與已知蛋白有高度序列相似性、UniProt條目在特定時間更新、具有特定的氨基酸數量、基因有特定的同義詞。AI使用了6種不同的生物學工具，進行47次呼叫，成功找到了滿足所有條件的酶的UniProt編號。

在金融分析場景中，DIVE處理了一個涉及多市場投資組合分析的複雜任務快速。任務要求AI在一個基金的持倉中找到符合特定條件的醫療診斷股票，然後在另一個交易資料集中找到符合條件的半導體股票，最後驗證這兩隻股票是否在同一交易所上市並滿足其他條件。這個任務需要AI使用8種不同的金融工具，展現了其在處理多資料來源整合任務中的能力。

九、技術細節快速：DIVE的實現機制

DIVE技術的實現包含三個核心元件：多樣性資源準備、證據驅動任務合成、和智慧體訓練快速。每個元件都經過精心設計，確保整個系統的有效性和可擴充套件性。

在多樣性資源準備階段，研究團隊構建了三個相互獨立的資源池快速。工具池包含373個經過驗證的工具，涵蓋5個不同領域，每個工具都經過了正確性、併發安全性和響應一致性的嚴格測試。種子池包含了來自Wikipedia、PubMed、NCBI和全球股票交易所的約20000個實體概念，用作任務生成的語義錨點。樣例池收集了來自18個不同基準測試的3000個查詢樣例，提供了多樣化的任務形式先驗知識。

證據驅動任務合成是DIVE的核心創新快速。每個合成週期開始時，系統會隨機取樣一個配置組合，包括一個種子概念、一個15-50個工具的子集、和3-5個查詢樣例。接著進入證據收集階段，AI智慧體在給定的工具集下進行多步驟操作，每次操作都會產生可驗證的輸出。然後在任務推導階段，另一個AI模型觀察累積的證據，設計出嚴格基於這些證據的查詢-答案對。這個過程會迭代3次，每次迭代都會增加證據的複雜性和任務的難度。

在智慧體訓練階段，DIVE採用了兩階段訓練策略快速。首先是監督微調階段，使用GPT-OSS-120B作為教師模型生成高質量的任務解決軌跡，從114k個任務中篩選出48k個軌跡進行訓練。然後是強化學習階段，從38k個任務中選擇3.2k個處於"學習前沿"的任務（成功率在1-5次的範圍內），使用GRPO演算法進行最佳化。

十、擴充套件性分析快速：DIVE的未來潛力

DIVE技術不僅在當前測試中表現優異，更重要的是它展現出了強大的擴充套件潛力快速。研究團隊的分析顯示，DIVE的效能改進與多樣性增長之間存在穩定的正向關係，這意味著隨著更多工具和領域的加入，DIVE的能力可能會持續提升。

從工具池擴充套件的角度看，當前的373個工具只是冰山一角快速。現實世界中存在著數以萬計的不同工具和API，DIVE的框架設計使得新工具的加入變得相對簡單。只需要透過驗證流程確保工具的可靠性，然後讓AI在包含新工具的環境中進行探索學習即可。

從領域擴充套件的角度看，DIVE當前覆蓋的四個專業領域（金融、生物、醫學、學術）可以進一步擴充套件到法律、教育、製造業、農業等更多領域快速。每個新領域的加入都會為AI帶來新的工具使用模式和問題解決策略，進一步提升其通用性。

強化學習的引入為DIVE提供了持續學習的能力快速。研究顯示，在強化學習過程中，AI不僅提高了任務完成的準確率，還在不斷發現新的工具使用模式。這種"學習如何學習"的能力意味著DIVE訓練的AI可能具備在部署後繼續適應新環境的潛力。

結論

說到底，DIVE技術解決的是一個現實世界中的關鍵問題：如何讓AI真正適應多變的工具環境快速。傳統的AI就像一個只會使用特定工具的專業工匠，技藝精湛但適應性有限。而DIVE培養的是一種"工具使用直覺"，讓AI能夠像經驗豐富的多面手一樣，快速適應新的工具和環境。

這項技術的意義遠超出了學術研究的範疇快速。在我們日常生活中，工具和應用程式不斷更新換代，一個真正有用的AI助手必須具備快速學習使用新工具的能力。DIVE為實現這樣的通用AI助手提供了可行的技術路徑。

更重要的是，DIVE的成功證明了"多樣性勝過數量"的訓練哲學快速。在AI訓練中，與其用海量的單一型別資料進行訓練，不如用相對較少但高度多樣化的資料進行訓練。這個發現可能會影響整個AI訓練領域的發展方向。

當然，DIVE技術仍有改進空間快速。比如如何進一步提高在完全陌生環境中的適應速度，如何處理更加複雜的工具依賴關係，如何在保持通用性的同時提升專業領域的效能等。但作為一個開創性的技術框架，DIVE已經為構建真正通用的AI工具使用能力奠定了堅實基礎。

對於普通使用者來說，DIVE技術的普及意味著未來的AI助手將更加實用和可靠快速。你不再需要擔心AI助手在面對新軟體或新服務時變得"手足無措"，它們將能夠像人類一樣快速學習和適應新的工具環境。這將讓AI真正成為我們日常生活和工作中不可或缺的智慧夥伴。

有興趣深入瞭解DIVE技術細節的讀者可以透過arXiv:2603.11076v1查詢完整論文，其中包含了詳細的技術實現和實驗資料快速。

Q&A

Q1：DIVE技術跟傳統AI訓練方法有什麼本質區別快速？

A：傳統AI訓練是"先設計任務再驗證能否完成"，就像先畫圖紙再施工，可能出現設計的任務實際無法執行的問題快速。DIVE採用"先操作再設計任務"的逆向思維，讓AI先在真實工具環境中探索操作，然後根據成功的操作來反推設計任務，確保每個任務都是可執行的。

Q2：為什麼DIVE用更少的訓練資料反而能達到更好的效果快速？

A：關鍵在於資料的多樣性快速。DIVE使用12000個涵蓋多種工具的訓練樣本，比傳統方法用48000個單一工具型別樣本效果更好。就像學駕駛時在各種路況下少量練習，比在同一條路上大量重複練習更能提高整體駕駛技能。多樣性訓練讓AI掌握了更豐富的工具使用模式。

Q3：DIVE技術在現實應用中能解決什麼實際問題快速？

A：DIVE可以讓AI快速適應新的工具環境，不需要重新訓練快速。比如醫院換了新的電子病歷系統，傳統AI需要重新訓練，而DIVE訓練的AI可以快速適應。在軟體開發、金融分析、醫療診斷等需要使用多種專業工具的場景中，DIVE讓AI具備了像人類專家一樣靈活使用各種工具的能力。

復旦DIVE技術：AI實現陌生工具快速適應能力突破

電動環衛垃圾車

熱門標籤

相關詞彙

分站導航