123悬赏网_发布悬赏任务_广告任务平台

首頁 > 生活分享 > 免費教學 > DeepSeek用的GRPO占用大量內存?有人給出了些破解方法

DeepSeek用的GRPO占用大量內存?有人給出了些破解方法

發布時間:2025-02-07 19:15:56來源: 15210273549
RTX 3080 移動版能訓練哪種大模型?本文為那些 GPU 資源有限時使用 GRPO 訓練的開發者提供了寶貴的指導。
 
自 DeepSeek-R1 發布以來,群組相對策略優化(GRPO)因其有效性和易于訓練而成為大型語言模型強化學習的熱門話題。R1 論文展示了如何使用 GRPO 從遵循 LLM(DeepSeek-v3)的基本指令轉變為推理模型(DeepSeek-R1)。
 
GRPO 是一種在線學習算法(online learning algorithm),它通過使用訓練過程中由訓練模型自身生成的數據來進行迭代改進。GRPO 的目標是最大化生成補全(completions)的優勢函數(advantage),同時確保模型保持在參考策略(reference policy)附近。
 
 
本文的目的是幫你節省一些時間,讓你根據硬件預算選擇合適的模型大小。在開始微調時,你必須做出的重要決定是選擇模型大小,以及你是執行完全微調還是參數高效微調(PEFT)。
 
文章作者來自 AI 公司 Oxen.ai 的 CEO Greg Schoeninger。
 
 
原文鏈接:https://www.oxen.ai/blog/grpo-vram-requirements-for-the-gpu-poor
 
作者表示,他發現 trl 庫中已經有一個易于使用的 GRPO 實現,便立刻開始了訓練,使用的硬件是配備了 16GB 顯存的 Nvidia GeForce RTX 3080 的小型筆記本電腦。正如大家可能遇到的問題,作者發現示例代碼中的參數設置導致了一個巨大的顯存不足(OOM,out of memory )錯誤。
 
torch
.
OutOfMemoryError
:
CUDA
out
of memory
.
Tried
to allocate
1.90
 
GiB
.
GPU
0
has a total capacity of
15.73
 
GiB
of which
1.28
 
GiB
 
is
free
.
 
Including
non
-
PyTorch
memory
,
 
this
process has
14.43
 
GiB
memory
in
 
use
.
 
Of
the allocated memory
11.82
 
GiB
 
is
allocated
by
 
PyTorch
,
 
and
 
2.41
 
GiB
 
is
reserved
by
 
PyTorch
but unallocated
.
 
If
reserved but unallocated memory
is
large
try
setting PYTORCH_CUDA_ALLOC_CONF
=
expandable_segments
:
True
to avoid fragmentation
.
 
See
documentation
for
 
Memory
 
Management
 
(
https
:
//pytorch.org/docs/stable/notes/cuda.html#environment-variables)
實際使用情況
 
作者表示,他們進行了一系列實驗,以確定訓練各種大小的模型所需的顯存(VRAM)要求。參數數量從 5 億到 140 億不等,他們比較了權重的完全微調與參數高效微調(使用 LoRA),所有訓練運行都在英偉達 H100 上完成,因此這里的 OOM 意味著 >80GB 的 VRAM。
 
 
在表格中,你可以找到 GSM8K 數據集上訓練的前 100 步中的峰值內存使用情況。用于實驗的模型是:
 
 
所有實驗均使用 Shadeform 的 GPU 市場完成,因此每次實驗只需要花費幾美元 H100。
 
實驗結果表明,內存需求隨著模型大小和訓練方式的不同而顯著變化。例如,全參數微調比 PEFT 需要更多的內存。
 
為什么 GRPO 對內存需求較高
 
這要從 GRPO 的原理說起,這是它的流程圖。
 
 
GRPO 對內存需求較高的原因在于,其內部涉及多個模型,并且在訓練數據中每個查詢會產生多個輸出。上圖中的策略模型、參考模型和獎勵模型各自都是一個需要進行推理的 LLM。(盡管從技術上講,獎勵模型可能不需要參數化,可以只是一個 Python 函數或正則表達式,但不影響 GRPO 對內存的高需求。)
 
為什么 8-Bit 優化和梯度檢查點有助于減少內存占用?
 
通常來講,訓練一個大型語言模型需要在內存中存儲三種主要類型的信息:模型參數、模型學習所需的梯度、優化器的跟蹤數據。
 
對上述內容我們可以這樣理解:如果模型的參數占用了 X 的空間,那么梯度也會占用大約相同的空間。然后,像 AdamW 這樣的優化器需要更多的空間,因為它們就像一個記錄員,跟蹤最近的更新歷史,以便更好地決定未來的優化。
 
為了減輕這種內存負擔,通常采用兩種技術:
 
首先,可以使用像 AdamW 這樣的 8-bit 優化器版本,它們能更高效地存儲跟蹤數據,同時仍保持良好的性能 —— 類似于壓縮照片可以節省空間,同時保留大部分圖像質量;
其次,使用梯度檢查點技術,這就像在訓練過程中拍攝快照,而不是記錄所有內容。雖然這會使訓練速度減慢約 20-30%,但它顯著減少了內存使用。
結合這些技術,即使對 GPU 資源有限的人來說,也能夠訓練更大的模型。
 
代碼示例
 
像 trl 這樣的庫已經開始支持 GRPO,使得微調由 transformers 構成的 LLM 變得非常簡單。代碼也非常簡潔,只需將訓練器替換為 GRPOTrainer 并定義一些獎勵即可。GRPO 的最小代碼量大約只有 99 行,如果你使用的是像 meta-llama/Llama-3.2-1B-Instruct 這樣的小型模型和像 openai/GSM8K 這樣的數據集,可以非常快速地啟動。

免費教學更多>>

長安汽車朱華榮:“0公里二手車”出口到海外,擾亂了市場,這對中國品牌傷害極大 無人值守全自動洗車機適合SUV嗎?自動支付方便嗎? 日本人不用眼饞!日產:考慮在日推出電動轎車N7 阿維塔喊出“新央企”口號,官宣將推出大六座百萬級旗艦新車 5299 → 2999 元:蘋果 iPad mini(A17 Pro)eSIM 版京東低過 WLAN 版 番禺耀勝新世界廣場|耀勝尊府戶型解密 79~132㎡約62800元/㎡ 央企巨變!長安汽車升“嫡系”,東風股價“跳水”背后 長安、東風重組按下暫停鍵 長安“升級”駛入央企新賽道 長城汽車“越野技能分級標準”首發,用戶有望成為預備車手 上汽大眾增程SUV要來了,純電續航350公里,硬剛問界M9 上汽大眾5月銷量又同比下滑讓人擔心 執行副總傅強怎么看? 騰勢 N9 靈鳶?比亞迪智能車載無人機系統開啟交付 17萬奧迪A4、20萬奔馳C...低價BBA的真相挖出來了 趕快抄底,寶馬5系30萬能落地?還要啥自行車 都在比誰跑得快,一汽奧迪愿意陪大家走得更遠 與華為乾崑聯合研發!小鵬汽車發布“追光全景”抬頭顯示技術,G7將首發搭載 蔚來一季度財報公布:調整后凈虧損67.5億元!今年4季度實現盈利 添可聯動蔚來跨界活動深化用戶價值,共筑品質生活 李斌談蔚來的2025:蔚來過去交的學費,今年要變現了 廣西梧州:以舊換新汽車銷售旺 深耕中東市場,廣汽 GS8 旅行者版汽車約旦首發 三星將與汽車芯片制造商共同開發下一代車載半導體技術 馬自達EZ60首發亮相 早報:多款舊蘋果設備無法升級iOS 26 問界M8銷量大漲 方盒子SUV那么多,為什么燃油猛龍能硬鋼沙漠? 阿維塔07搭載華為智駕,800V快充10分鐘補能400km 看點不斷 上汽大眾5月終端銷售8.7萬輛 同比上升4.3% 對標iPad mini,王騰官宣REDMI首款旗艦小平板:8.8英寸LCD屏幕 放棄軒逸,這兩款才是合資“省油耐用王”,4毛油耗,僅需6萬起 五菱全新純電動小型SUV諜照曝光 或命名五菱繽果S
主站蜘蛛池模板: 哈尔滨发电机,黑龙江柴油发电机组-北方星光 | 私人别墅家庭影院系统_家庭影院音响_家庭影院装修设计公司-邦牛影音 | 防水套管-柔性防水套管-刚性防水套管-上海执品管件有限公司 | 企业微信scrm管理系统_客户关系管理平台_私域流量运营工具_CRM、ERP、OA软件-腾辉网络 | 自动记录数据电子台秤,记忆储存重量电子桌称,设定时间记录电子秤-昆山巨天 | 合肥仿石砖_合肥pc砖厂家_合肥PC仿石砖_安徽旭坤建材有限公司 | 无压烧结银_有压烧结银_导电银胶_导电油墨_导电胶-善仁(浙江)新材料 | 硅胶管挤出机厂家_硅胶挤出机生产线_硅胶条挤出机_臣泽智能装备 贵州科比特-防雷公司厂家提供贵州防雷工程,防雷检测,防雷接地,防雷设备价格,防雷产品报价服务-贵州防雷检测公司 | 长沙网站建设制作「网站优化推广」-网页设计公司-速马科技官网 | 六维力传感器_六分量力传感器_模腔压力传感器-南京数智微传感科技有限公司 | 油液红外光谱仪-油液监测系统-燃油嗅探仪-上海冉超光电科技有限公司 | 车充外壳,车载充电器外壳,车载点烟器外壳,点烟器连接头,旅行充充电器外壳,手机充电器外壳,深圳市华科达塑胶五金有限公司 | 福建自考_福建自学考试网 | 真空粉体取样阀,电动楔式闸阀,电动针型阀-耐苛尔(上海)自动化仪表有限公司 | 多功能三相相位伏安表-变压器短路阻抗测试仪-上海妙定电气 | 智慧养老_居家养老_社区养老_杰佳通 | 空冷器|空气冷却器|空水冷却器-无锡赛迪森机械有限公司[官网] | 阳光模拟试验箱_高低温试验箱_高低温冲击试验箱_快速温变试验箱|东莞市赛思检测设备有限公司 | 对照品_中药对照品_标准品_对照药材_「格利普」高纯中药标准品厂家-成都格利普生物科技有限公司 澳门精准正版免费大全,2025新澳门全年免费,新澳天天开奖免费资料大全最新,新澳2025今晚开奖资料,新澳马今天最快最新图库 | 车载加油机品牌_ 柴油加油机厂家 | 东莞压铸厂_精密压铸_锌合金压铸_铝合金压铸_压铸件加工_东莞祥宇金属制品 | 申江储气罐厂家,储气罐批发价格,储气罐规格-上海申江压力容器有限公司(厂) | 振动传感器,检波器-威海广达勘探仪器有限公司 | 云阳人才网_云阳招聘网_云阳人才市场_云阳人事人才网_云阳人家招聘网_云阳最新招聘信息 | 除甲醛公司-甲醛检测-广西雅居环境科技有限公司 | 济南网站建设|济南建网站|济南网站建设公司【济南腾飞网络】【荐】 | 短信通106短信接口验证码接口群发平台_国际短信接口验证码接口群发平台-速度网络有限公司 | 不锈钢轴流风机,不锈钢电机-许昌光维防爆电机有限公司(原许昌光维特种电机技术有限公司) | 底部填充胶_电子封装胶_芯片封装胶_芯片底部填充胶厂家-东莞汉思新材料 | 无锡网站建设_企业网站定制-网站制作公司-阿凡达网络 | 奥运星-汽车性能网评-提供个性化汽车资讯 | 【官网】博莱特空压机,永磁变频空压机,螺杆空压机-欧能优 | 过滤器_自清洗过滤器_气体过滤器_苏州华凯过滤技术有限公司 | 立式壁挂广告机厂家-红外电容触摸一体机价格-华邦瀛 | 聚合氯化铝价格_聚合氯化铝厂家_pac絮凝剂-唐达净水官网 | 标准件-非标紧固件-不锈钢螺栓-非标不锈钢螺丝-非标螺母厂家-三角牙锁紧自攻-南京宝宇标准件有限公司 | 卡诺亚轻高定官网_卧室系统_整家定制_定制家居_高端定制_全屋定制加盟_定制家具加盟_定制衣柜加盟 | 不锈钢水管-不锈钢燃气管-卫生级不锈钢管件-不锈钢食品级水管-广东双兴新材料集团有限公司 | 淘剧影院_海量最新电视剧,免费高清电影随心观看 | 除甲醛公司-甲醛检测治理-杭州创绿家环保科技有限公司-室内空气净化十大品牌 | 长沙广告公司_制作,长沙喷绘_发光字_招牌制作_长沙泓润广告官网 长城人品牌官网 |