123悬赏网_发布悬赏任务_广告任务平台

首頁(yè) > 活動(dòng)線報(bào) > 每日福利 > 科學(xué)家用STEM數(shù)據(jù)集評(píng)測(cè)神經(jīng)網(wǎng)絡(luò)模型基礎(chǔ),加快人工智能實(shí)現(xiàn)進(jìn)程

科學(xué)家用STEM數(shù)據(jù)集評(píng)測(cè)神經(jīng)網(wǎng)絡(luò)模型基礎(chǔ),加快人工智能實(shí)現(xiàn)進(jìn)程

發(fā)布時(shí)間:2024-05-01 15:08:46來(lái)源: 15210273549

理工科 STEM 技能,是解決真實(shí)世界中諸多問(wèn)題的基礎(chǔ)。譬如,探索蛋白質(zhì)結(jié)構(gòu)、證明數(shù)學(xué)定理、發(fā)現(xiàn)新藥物等。(編者注:STEM,即科學(xué)、技術(shù)、工程和數(shù)學(xué)四門學(xué)科英文首字母的縮寫。)

 

而對(duì)于人工智能領(lǐng)域來(lái)說(shuō),理解視覺(jué)-文本的多模態(tài)信息,則是掌握 STEM 技能的關(guān)鍵。

 

可是,現(xiàn)有的數(shù)據(jù)集主要集中在檢驗(yàn)?zāi)P徒鉀Q專家級(jí)別難題的能力上,難以反映模型在基礎(chǔ)知識(shí)方面的掌握情況。并且,其往往只考慮文本信息而忽略視覺(jué)信息,又或者只關(guān)注 STEM 中某單一學(xué)科的能力。

 

另外,由于缺少細(xì)粒度的信息,該領(lǐng)域的科學(xué)家也無(wú)法更好地分析與改進(jìn)神經(jīng)網(wǎng)絡(luò)模型存在的薄弱之處。

 

所以,模型在這種情況下生成的內(nèi)容,既無(wú)法讓人充分信任,又不能幫助指導(dǎo)未來(lái)模型開(kāi)發(fā)的方向。

 

更重要的是,由于缺乏和人類表現(xiàn)相關(guān)的數(shù)據(jù),因此科學(xué)家也不可能獲取到更具實(shí)際意義的模型表現(xiàn)參考,嚴(yán)重阻礙了人工智能的健康發(fā)展。

 

為了攻克上述局限性,近期,來(lái)自北京大學(xué)和美國(guó)圣路易斯華盛頓大學(xué)的研究團(tuán)隊(duì),不僅成功完成了首個(gè)多模態(tài) STEM 數(shù)據(jù)集的構(gòu)建,還在此基礎(chǔ)上實(shí)現(xiàn)對(duì)大語(yǔ)言模型與多模態(tài)基礎(chǔ)模型的評(píng)測(cè)。

 

結(jié)果發(fā)現(xiàn),即使是目前最先進(jìn)的人工智能模型,其 STEM 基礎(chǔ)水平也存在較大的提升空間,尚不具備解決更有難度的現(xiàn)實(shí)問(wèn)題的能力。也就是說(shuō),與人類智能相比,目前人工智能的水平還有一定差距。

 

 

圖丨綜合評(píng)測(cè)效果(來(lái)源:ICLR 2024)

 

近日,相關(guān)論文以《測(cè)量神經(jīng)網(wǎng)絡(luò)模型的視覺(jué)-語(yǔ)言理工科技能》(Measuring Vision-Language STEM Skills of Neural Models)為題收錄于 2024 國(guó)際表征學(xué)習(xí)大會(huì)(ICLR 2024,International Conference on Learning Representations 2024)上[1]。

 

據(jù)悉,該會(huì)議將于今年 5 月 7 日至 5 月 11 日在奧地利的首都維也納召開(kāi)。

 

STEM 數(shù)據(jù)集相關(guān)資源如下。

 

評(píng)測(cè)鏈接:
https://huggingface.co/spaces/stemdataset/stem-leaderboard

數(shù)據(jù)集頁(yè)面:
https://huggingface.co/datasets/stemdataset/STEM

代碼 GitHub:
https://github.com/stemdataset/STEM

 

北京大學(xué)博士研究生沈劍豪和袁野是共同第一作者,圣路易斯華盛頓大學(xué)王晨光助理教授和北京大學(xué)張銘教授擔(dān)任共同通訊作者。王晨光助理教授博士畢業(yè)于北京大學(xué),導(dǎo)師是張銘教授。

 

圖丨相關(guān)論文(來(lái)源:ICLR 2024)

 

 

搭建 STEM 數(shù)據(jù)集,全方位評(píng)測(cè)神經(jīng)網(wǎng)絡(luò)模型的基礎(chǔ)理工科能力

 

據(jù)王晨光介紹,課題組在確定研究目標(biāo)和題目之后,便開(kāi)始著手收集數(shù)據(jù)。

 

一向擅長(zhǎng)于算法研究的團(tuán)隊(duì)成員,在面對(duì)爬蟲編寫、數(shù)據(jù)清洗和去重等工作時(shí)不免有些犯難。盡管如此,他們還是迎難而上,設(shè)計(jì)了多種用于數(shù)據(jù)清洗和去重的規(guī)則,最終成功獲得了首個(gè)多模態(tài) STEM 數(shù)據(jù)集。

 

圖丨左起;王晨光、張銘、沈劍豪、袁野、Srbuhi Mirzoyan(來(lái)源:課題組)

 

值得一提的是,該數(shù)據(jù)集包含 448 個(gè) STEM 技能,共 1073146 道題目,是目前涵蓋面最廣、包含題目最多的多模態(tài) STEM 題目數(shù)據(jù)集。

 

圖丨相關(guān)論文(來(lái)源:ICLR 2024)

 

接著,他們開(kāi)始針對(duì)數(shù)據(jù)集進(jìn)行評(píng)測(cè)與分析。

 

由于該數(shù)據(jù)集包含科目(科學(xué)、技術(shù)、工程、數(shù)學(xué))、技能和年級(jí)三個(gè)維度標(biāo)簽,因此研究人員選擇從這三個(gè)維度切入,對(duì)每個(gè)維度的數(shù)據(jù)數(shù)量分布、問(wèn)題類型分布、問(wèn)題長(zhǎng)度分布等信息進(jìn)行了詳盡分析。

 

與此同時(shí),他們也針對(duì)每個(gè)科目,按照 6:2:2 的比例,劃分了訓(xùn)練集、驗(yàn)證集與未公開(kāi)標(biāo)簽的測(cè)試集。

 

隨后,研究人員又設(shè)計(jì)了模型評(píng)測(cè)方案。

 

其中,在選擇評(píng)測(cè)指標(biāo)時(shí),他們除了關(guān)注準(zhǔn)確率,還重點(diǎn)使用全球范圍內(nèi)最被認(rèn)可的在線習(xí)題網(wǎng)站之一(https://www.ixl.com/)的考試分?jǐn)?shù)。

 

后者是基于該網(wǎng)站千萬(wàn)用戶的真實(shí)考試成績(jī)得出的,與學(xué)生對(duì)知識(shí)的掌握程度呈正相關(guān)。當(dāng)分?jǐn)?shù)達(dá)到 90 以上(通常是小學(xué)生水平)時(shí),就代表學(xué)生掌握了該技能。

 

“我們讓模型模仿考生在線答題,再將得到的考試分?jǐn)?shù)與真實(shí)人類的考試結(jié)果進(jìn)行比較。”王晨光表示。

 

這也正是該工作的一大亮點(diǎn)。原因在于,過(guò)去將人類的表現(xiàn)與人工智能做比較時(shí),前者都是由相對(duì)較小的樣本(例如幾百到幾千人)總結(jié)出的,而該團(tuán)隊(duì)的結(jié)果卻是基于千萬(wàn)量級(jí)的數(shù)據(jù)得到的,可信度更高。

 

然后,在模型評(píng)測(cè)環(huán)節(jié),研究人員選擇使用當(dāng)前主流的大基礎(chǔ)模型,包括 OpenAI 的多模態(tài) CLIP 模型,以及大語(yǔ)言模型 ChatGPT 的 GPT3.5-Turbo 版本。

 

前者根據(jù)模型判斷問(wèn)題選項(xiàng)與圖片的匹配程度來(lái)做出選擇,后者則利用字幕模型為圖片生成描述,并利用語(yǔ)言模型選擇回答。

 

“我們?cè)u(píng)測(cè)了不同規(guī)模的 CLIP 模型與 GPT3.5-Turbo 模型,發(fā)現(xiàn)在 0 樣本的設(shè)置下,模型的錯(cuò)誤率很高。這表明現(xiàn)有模型無(wú)法直接真正地掌握這些知識(shí)。”王晨光表示。

 

進(jìn)一步地,他們又利用劃分出的訓(xùn)練數(shù)據(jù)集,對(duì) CLIP 模型進(jìn)行了微調(diào),發(fā)現(xiàn)微調(diào)后的模型取得了顯著的效果提升,綜合準(zhǔn)確率從 54.4% 提升至 76.3%。不過(guò),這離 90 分依然有一定差距。

 

除此之外,該課題組還對(duì)模型結(jié)果的各個(gè)側(cè)面進(jìn)行了分析。

 

具體來(lái)說(shuō),首先,在年級(jí)層面,他們發(fā)現(xiàn)模型的測(cè)驗(yàn)分?jǐn)?shù)隨著題目所屬年級(jí)的升高而降低,這符合年級(jí)越高的題目難度就越高的預(yù)期。

 

圖丨測(cè)驗(yàn)分?jǐn)?shù)隨年級(jí)變化(來(lái)源:ICLR 2024)

 

其次,通過(guò)模型在不同技能上的評(píng)測(cè)表現(xiàn),他們發(fā)現(xiàn)模型在抽象知識(shí)與復(fù)雜推理任務(wù)上的表現(xiàn)欠佳。

 

另外,過(guò)去的經(jīng)驗(yàn)表明,模型應(yīng)該對(duì)正確答案有著較高的預(yù)測(cè)置信度,這代表著模型的校準(zhǔn)度較好。

 

“我們發(fā)現(xiàn)在我們的數(shù)據(jù)集上微調(diào)過(guò)的模型,表現(xiàn)出了良好的校準(zhǔn)性,模型的置信度與準(zhǔn)確率呈現(xiàn)清晰的相關(guān)性。”王晨光說(shuō)。

 

另一方面,他們?cè)谘芯磕P鸵?guī)模與效果之間關(guān)系的過(guò)程中,也發(fā)現(xiàn)了清晰的正相關(guān)關(guān)系。

 

與此同時(shí),他們還分析了模型表現(xiàn)與問(wèn)題長(zhǎng)度、問(wèn)題類型、選項(xiàng)數(shù)量等其它因素之間的關(guān)系,發(fā)現(xiàn)隨著問(wèn)題變長(zhǎng)、選項(xiàng)數(shù)量變多和樣例數(shù)量變少,模型的表現(xiàn)都會(huì)下降。

 

除此之外,他們也評(píng)估了準(zhǔn)確率與測(cè)驗(yàn)考試分?jǐn)?shù)這兩種指標(biāo)的相關(guān)性,發(fā)現(xiàn)它們同樣呈現(xiàn)出顯著的正相關(guān)。

 

“最終,在整體的評(píng)價(jià)指標(biāo)上,我們確認(rèn)即使是微調(diào)過(guò)的模型,與人類對(duì)應(yīng)年級(jí)學(xué)生水平相比也有顯著差距。基于此,我們?nèi)匀恍枰獙ふ腋行У姆椒ǎ鼓P驼莆?STEM 知識(shí)技能。”王晨光說(shuō)。

 

圖丨與人類表現(xiàn)比較(來(lái)源:ICLR 2024)

 

 

嘗試推出更多評(píng)測(cè)大語(yǔ)言模型的數(shù)據(jù)集,加快通用人工智能實(shí)現(xiàn)的進(jìn)程

 

顯而易見(jiàn),在該項(xiàng)研究中,STEM 數(shù)據(jù)集發(fā)揮了關(guān)鍵作用。

 

它不僅有利于模型增強(qiáng) STEM 的基礎(chǔ)知識(shí),還能幫助研究人員評(píng)估模型對(duì)于基礎(chǔ) STEM 技能掌握的程度,并通過(guò)細(xì)粒度的數(shù)據(jù)分析有針對(duì)性地改進(jìn)模型。

 

王晨光表示,他和團(tuán)隊(duì)期待該數(shù)據(jù)集可以進(jìn)一步推動(dòng)當(dāng)前多模態(tài)大模型的研究,朝著模型能夠充分理解 STEM 技能、解決真實(shí)場(chǎng)景下 STEM 問(wèn)題的目標(biāo)更進(jìn)一步。

 

并且,也希望發(fā)布的測(cè)試集可以作為評(píng)測(cè)人工智能基礎(chǔ)模型能力的標(biāo)準(zhǔn)評(píng)測(cè)之一,得到社區(qū)的廣泛使用。

 

“更重要的是,我們提供的與大規(guī)模人類(主要是小學(xué)生)真實(shí)水平的比較,可以作為未來(lái)模型開(kāi)發(fā)的目標(biāo)和參考,以加快通用人工智能目標(biāo)實(shí)現(xiàn)的進(jìn)程。”他說(shuō)。

 

目前,基于該數(shù)據(jù)集,該課題組已經(jīng)成功評(píng)測(cè)了神經(jīng)網(wǎng)絡(luò)模型在基礎(chǔ)教育中的理工科能力。

 

接下來(lái),他們一方面計(jì)劃繼續(xù)收集數(shù)據(jù),并嘗試推出諸如人文學(xué)科、社會(huì)學(xué)科等領(lǐng)域的數(shù)據(jù)集,以更好地評(píng)測(cè)大語(yǔ)言模型在其他關(guān)鍵學(xué)科上的能力。

 

在這方面值得關(guān)注的是,該團(tuán)隊(duì)最近已經(jīng)提出了一個(gè)新的社會(huì)學(xué)科數(shù)據(jù)集 Social,包含較大規(guī)模的文本評(píng)估數(shù)據(jù),可用來(lái)評(píng)測(cè)大語(yǔ)言模型的社會(huì)學(xué)科基礎(chǔ)能力。

 

進(jìn)一步地,還設(shè)計(jì)了一種多智能體交互的方法,能夠增強(qiáng)大語(yǔ)言模型在 Social 數(shù)據(jù)集上的表現(xiàn)。

 

相關(guān)論文以《衡量大語(yǔ)言模型的社會(huì)規(guī)范》(Measuring Social Norms of Large Language Models)為題收錄于計(jì)算語(yǔ)言學(xué)協(xié)會(huì)北美分會(huì) 2024 年年會(huì)(NAACL 2024,2024 Annual Conference of the North American Chapter of the Association for Computational Linguistics)上[2]。

 

據(jù)悉,該會(huì)議將于今年 6 月 16 日至 6 月 21 日在墨西哥的首都墨西哥城召開(kāi)。

 

另一方面,他們也打算通過(guò)研究模型在細(xì)粒度數(shù)據(jù)集上的表現(xiàn),找出模型能力不足的部分,并研究如何改進(jìn)。

 

此外,還希望通過(guò)結(jié)合檢索的 RAG 方法、設(shè)計(jì)特殊的模型架構(gòu)和訓(xùn)練方法,來(lái)進(jìn)一步增強(qiáng)模型的基礎(chǔ)能力。

 

“我們相信,只有先在基礎(chǔ)理工科和文科領(lǐng)域?qū)崿F(xiàn)突破,扎實(shí)打好基礎(chǔ),人工智能才有被進(jìn)一步應(yīng)用的可能性。”王晨光如是說(shuō)。

每日福利更多>>

從SUV王者到越野專家,長(zhǎng)城把″聚焦″這個(gè)方法論貫徹始終 國(guó)產(chǎn)煥新Model Y 或是特斯拉5月份澳大利亞銷量主要來(lái)源 小桔充電與比亞迪達(dá)成戰(zhàn)略合作 共建超充網(wǎng)絡(luò)開(kāi)放生態(tài) 一汽奧迪Q6L e-tron:讓華為智駕有“德味”,比“堆料”更懂本質(zhì) 蔚來(lái)精細(xì)化管理研發(fā)投入:CBU機(jī)制推行后,非必要研發(fā)項(xiàng)目不予立項(xiàng) 蘋果iPhone 13 5G手機(jī)128GB午夜色到手價(jià)1584元 多彩小直屏vivo S30系列發(fā)布 官方稱vivo X Fold5 將打破 X Fold3最輕記錄 榮耀 Earbuds 4i 耳機(jī)首銷:50dB 降噪、11mm 鍍鈦低音單元,249 元 帕沃森摸魚戰(zhàn)士手機(jī)殼限時(shí)特惠9.1元 榮耀進(jìn)軍機(jī)器人!手機(jī)廠商扎堆機(jī)器人賽道 環(huán)球、華納和索尼音樂(lè)正與兩初創(chuàng)公司磋商AI音樂(lè)權(quán)限 小米618推出線下主題科技展,國(guó)內(nèi)首款自主研發(fā)3 nm旗艦亮相展出 東風(fēng)汽車賀琳曼詳解車載光通信的技術(shù)研究與應(yīng)用實(shí)踐 大眾報(bào)業(yè)集團(tuán)駐地媒體聯(lián)合采訪團(tuán)走進(jìn)山東鳳凰制藥股份有限公司 滬深兩市今日成交額合計(jì)1.19萬(wàn)億,比亞迪成交額居首 吉利集團(tuán)旗下電池公司吉曜通行:預(yù)計(jì)到2027年形成70GWh電池產(chǎn)能規(guī)模 2025款長(zhǎng)安UNI-Z上市,燃油版11.59萬(wàn)起、PHEV版12.69萬(wàn)起 阿電入烏儲(chǔ)能采購(gòu)開(kāi)標(biāo):0.46-0.58元/Wh,構(gòu)網(wǎng)型600MWh,比亞迪最低,陽(yáng)光最高 日系車質(zhì)量投訴霸榜,一汽豐田“開(kāi)不壞”神話破滅了? 小鵬MONA發(fā)布會(huì)變身車友派對(duì),歐陽(yáng)娜娜亮相何小鵬信心十足 16個(gè)區(qū)全覆蓋!蔚來(lái)能源實(shí)現(xiàn)天津換電縣縣通 限時(shí)先享價(jià)7.99萬(wàn)元起,“國(guó)民智趣純電SUV”東風(fēng)納米06正式上市! 35.99萬(wàn)-40.99萬(wàn)!乾崑智駕奢享旗艦MPV,傳祺向往M8乾崑正式上市 10萬(wàn)級(jí)純電家轎,610km續(xù)航+2C快充,試駕五菱星光EV 3000億!長(zhǎng)安汽車董事長(zhǎng)朱華榮定下今年銷量目標(biāo),不會(huì)因重組改變既定戰(zhàn)略 比亞迪打響價(jià)格戰(zhàn)!比亞迪海豹06DM-i旅行版是否為務(wù)實(shí)之選? 2025款釔為3 VS 埃安UT,誰(shuí)更值得選購(gòu)? 比亞迪成為CCTV科技強(qiáng)國(guó)戰(zhàn)略合作伙伴 EQB對(duì)L6,一個(gè)奔馳“圖騰”,一個(gè)理想“家庭戰(zhàn)車”,選哪個(gè)?
主站蜘蛛池模板: 智能监控-安防监控-监控系统安装-弱电工程公司_成都万全电子 | 施工围挡-施工PVC围挡-工程围挡-深圳市旭东钢构技术开发有限公司 | 深圳高新投三江工业消防解决方案提供厂家_服务商_园区智慧消防_储能消防解决方案服务商_高新投三江 | 浙江寺庙设计-杭州寺院设计-宁波寺庙规划_汉匠 | 活性炭-果壳木质煤质柱状粉状蜂窝活性炭厂家价格多少钱 | 非标压力容器_碳钢储罐_不锈钢_搪玻璃反应釜厂家-山东首丰智能环保装备有限公司 | 台湾HIWIN上银直线模组|导轨滑块|TBI滚珠丝杆丝杠-深圳汉工 | 购买舔盐、舔砖、矿物质盐压块机,鱼饵、鱼饲料压块机--请到杜甫机械 | 东莞工作服_东莞工作服定制_工衣订做_东莞厂服 | 众品地板网-地板品牌招商_地板装修设计_地板门户的首选网络媒体。 | 山东彩钢板房,山东彩钢活动房,临沂彩钢房-临沂市贵通钢结构工程有限公司 | 1000帧高速摄像机|工业高速相机厂家|科天健光电技术 | 飞行者联盟-飞机模拟机_无人机_低空经济_航空技术交流平台 | 冷藏车厂家|冷藏车价格|小型冷藏车|散装饲料车厂家|程力专用汽车股份有限公司销售十二分公司 | 工业电炉,台车式电炉_厂家-淄博申华工业电炉有限公司 | 电梯乘运质量测试仪_电梯安全评估测试仪-武汉懿之刻 | 河南砖机首页-全自动液压免烧砖机,小型砌块水泥砖机厂家[十年老厂] | 120kv/2mA直流高压发生器-60kv/2mA-30kva/50kv工频耐压试验装置-旭明电工 | 探鸣起名网-品牌起名-英文商标起名-公司命名-企业取名包满意 | 学生作文网_中小学生作文大全与写作指导| 新疆乌鲁木齐网站建设-乌鲁木齐网站制作设计-新疆远璨网络 | 复合土工膜厂家|hdpe防渗土工膜|复合防渗土工布|玻璃纤维|双向塑料土工格栅-安徽路建新材料有限公司 | 黄石东方妇产医院_黄石妇科医院哪家好_黄石无痛人流医院 | 除湿机|工业除湿机|抽湿器|大型地下室车间仓库吊顶防爆除湿机|抽湿烘干房|新风除湿机|调温/降温除湿机|恒温恒湿机|加湿机-杭州川田电器有限公司 | 番茄畅听邀请码怎么输入 - Dianw8.com | 二手光谱仪维修-德国OBLF光谱仪|进口斯派克光谱仪-热电ARL光谱仪-意大利GNR光谱仪-永晖检测 | 网站seo优化_seo云优化_搜索引擎seo_启新网络服务中心 | 耐磨陶瓷,耐磨陶瓷管道_厂家-淄博拓创陶瓷科技 | 扬子叉车厂家_升降平台_电动搬运车|堆高车-扬子仓储叉车官网 | 假肢-假肢价格-假肢厂家-河南假肢-郑州市力康假肢矫形器有限公司 | 政府回应:200块在义乌小巷能买到爱情吗?——揭秘打工族省钱约会的生存智慧 | pH污水传感器电极,溶解氧电极传感器-上海科蓝仪表科技有限公司 | 英国雷迪地下管线探测仪-雷迪RD8100管线仪-多功能数字听漏仪-北京迪瑞进创科技有限公司 | 中医中药治疗血小板减少-石家庄血液病肿瘤门诊部 | 河南彩印编织袋,郑州饲料编织袋定制,肥料编织袋加工厂-盛军塑业 河南凯邦机械制造有限公司 | PVC地板|PVC塑胶地板|PVC地板厂家|地板胶|防静电地板-无锡腾方装饰材料有限公司-咨询热线:4008-798-128 | 工业冷却塔维修厂家_方形不锈钢工业凉水塔维修改造方案-广东康明节能空调有限公司 | 众品地板网-地板品牌招商_地板装修设计_地板门户的首选网络媒体。 | 食安观察网| 贴片电容-贴片电阻-二三极管-国巨|三星|风华贴片电容代理商-深圳伟哲电子 | 沥青灌缝机_路面灌缝机_道路灌缝机_沥青灌缝机厂家_济宁萨奥机械有限公司 |