生成文件失敗,文件模板:文件路徑:/www/wwwroot/chinavoa.com//public//jilu/2025-06-21/1e9dd.html靜態(tài)文件路徑:/www/wwwroot/chinavoa.com//public//jilu/2025-06-21
回復(fù) 亞當(dāng)·伯格 : 最近,曾拿到斯坦福UCL、CMU、NYU 博士 offer、目前在華盛頓大學(xué)博的知名測(cè)評(píng)博主 Tim Dettmers 在自己的網(wǎng)站又上線了深度學(xué)習(xí)領(lǐng)域的 GPU 深度測(cè)評(píng),到底誰(shuí)才是性能和性價(jià)之王?眾所周知,在理深度學(xué)習(xí)和神經(jīng)網(wǎng)任務(wù)時(shí),最好使用 GPU 而不是 CPU 來處理,因?yàn)樵谏窠?jīng)網(wǎng)絡(luò)方面,即使是一比較低端的 GPU,性能也會(huì)勝過 CPU。深度學(xué)習(xí)是一個(gè)對(duì)算有著大量需求的領(lǐng),從一定程度上來說GPU 的選擇將從根本上決定深度學(xué)杳山的驗(yàn)。但問題來了,如選購(gòu)合適的 GPU 也是件頭疼燒腦的事怎么避免踩雷,如何出性價(jià)比高的選擇?經(jīng)拿到過斯坦福、UCL、CMU、NYU、UW 博士 offer、目前在華盛頓大學(xué)讀博的知名評(píng)測(cè)博主 Tim Dettmers 就針對(duì)深度學(xué)習(xí)領(lǐng)域需要怎樣的 GPU,結(jié)合自身經(jīng)驗(yàn)撰寫了萬字長(zhǎng)文,最麈給了 DL 領(lǐng)域的推薦 GPU。Tim Dettmers 此人的研究方向是表征學(xué)、硬件優(yōu)化的深度學(xué),他自己創(chuàng)建的網(wǎng)站深度學(xué)習(xí)和計(jì)算機(jī)硬領(lǐng)域也是小有名氣。Tim Dettmers 此文推薦的 GPU 全部來自 N 廠,他顯然也認(rèn)為,搞器學(xué)習(xí),AMD 目前還不配擁有姓名。原鏈接小編也貼在下面。https://timdettmers.com/2023/01/16/which-gpu-for-deep-learning/#GPU_Deep_Learning_Performance_per_DollarRTX40 和 30 系的優(yōu)缺點(diǎn)與英偉達(dá)圖靈架構(gòu) RTX 20 系列相比,新的英偉達(dá)安培構(gòu) RTX 30 系列具有更多優(yōu)勢(shì),如疏網(wǎng)絡(luò)訓(xùn)練和推理。他功能,如新的數(shù)據(jù)型,應(yīng)更多地被看作一種易用化功能,因它們提供了與圖靈架相同的性能提升,但需要任何額外的編程求。Ada RTX 40 系列甚至有更多的進(jìn)步,比如上面介的張量?jī)?nèi)存加速器(TMA)和 8 位浮點(diǎn)運(yùn)算(FP8)。與 RTX 30 相比,RTX 40 系列也有類似的電源和溫度題。RTX 40 的電源連接器電纜融化問題可以通過正確連電源電纜而輕松避免稀疏的網(wǎng)絡(luò)訓(xùn)練安培許在密集的速度下進(jìn)細(xì)粒度結(jié)構(gòu)的自動(dòng)稀矩陣乘法。這是如何到的?以一個(gè)權(quán)重矩為例,把它切成 4 個(gè)元素的碎片。現(xiàn)在象這 4 個(gè)元素中的 2 個(gè)元素為零。圖 1 顯示了這種情況的樣子。圖 1:Ampere 架構(gòu) GPU 中的稀疏矩陣乘法功能所支持申鑒結(jié)構(gòu)當(dāng)將這個(gè)稀疏權(quán)重矩陣一些密集輸入相乘時(shí)安培的稀疏矩陣張量心功能會(huì)自動(dòng)將稀疏陣壓縮為密集表示,大小為圖 2 所示的一半。在壓縮之后,集壓縮的矩陣瓦片被入張量核心,張量核計(jì)算的矩陣乘法是通大小的兩倍。這有效產(chǎn)生了 2 倍的速度,因?yàn)樵诠蚕韮?nèi)存的陣乘法過程中,帶寬求減半。圖 2:在進(jìn)行矩陣乘法之前,稀矩陣被壓縮為密集表。我在研究中致力于疏網(wǎng)絡(luò)訓(xùn)練,我還寫一篇關(guān)于稀疏訓(xùn)練的文。對(duì)我的工作的一批評(píng)是:"你減少了網(wǎng)絡(luò)所需的 FLOPS,但并沒有產(chǎn)生速度提升,因?yàn)?GPU 不能進(jìn)行快速的稀疏陣乘法"。隨著 Tensor Cores 的稀疏矩陣乘法功能的增加,我的算法或他稀疏訓(xùn)練算法,現(xiàn)實(shí)際上在訓(xùn)練期間提了高達(dá) 2 倍的速度。開發(fā)的稀疏訓(xùn)練算有三個(gè)階段:(1)確定每層的重要性。(2) 刪除最不重要的權(quán)重。(3) 提升與每層的重要性成比例的權(quán)重。雖然這一功能處于實(shí)驗(yàn)階段,而且練稀疏網(wǎng)絡(luò)還不普遍但在你的 GPU 上擁有這一功能意味著已經(jīng)為稀疏訓(xùn)練的未做好了準(zhǔn)備。低精度算在我的工作中,我前已經(jīng)表明,新的數(shù)類型可以提高低精度向傳播期間的穩(wěn)定性圖 4:低精度深度學(xué)習(xí) 8 位數(shù)據(jù)類型。深度學(xué)習(xí)訓(xùn)練得益于度專業(yè)化的數(shù)據(jù)類型前,如果你想用 16 位浮點(diǎn)數(shù)(FP16)進(jìn)行穩(wěn)定的反向傳,最大的問題是普通 FP16 數(shù)據(jù)類型只支持 [-65,504, 65,504] 范圍內(nèi)的數(shù)字。如果你的梯度滑過這個(gè)范,你的梯度就會(huì)爆炸 NaN 值。為了防止在 FP16 訓(xùn)練中出現(xiàn)這種情況,我通常會(huì)進(jìn)行損失縮放即在反向傳播之前將失乘以一個(gè)小數(shù)字,防止這種梯度爆炸。Brain Float 16 格式(BF16)對(duì)指數(shù)使用了更多的比特,這樣可能的字范圍與 FP32 相同,BF16 的精度較低,也就是有效字,但梯度精度對(duì)學(xué)來說并不那么重要。以 BF16 所做的是,你不再需要做任損失縮放,也不需要心梯度會(huì)迅速爆炸。此,我們應(yīng)該看到,過使用 BF16 格式,訓(xùn)練的穩(wěn)定性有提高,因?yàn)榫嚷杂?失。這對(duì)你意味著什。使用 BF16 精度,訓(xùn)練可能比使用 FP16 精度更穩(wěn)定,同時(shí)提供相同的速提升。使用 TF32 精度,你可以得到接近 FP32 的穩(wěn)定性,同時(shí)提供接近 FP16 的速度提升。好的是,要使用這些據(jù)類型,你只需用 TF32 取代 FP32,用 BF16 取代 FP16--不需要修改代碼。不過總來說,這些新的數(shù)據(jù)型可以被看作是懶惰數(shù)據(jù)類型,因?yàn)槟憧?通過一些額外的編程力(適當(dāng)?shù)膿p失縮放初始化、規(guī)范化、使 Apex)來獲得舊數(shù)據(jù)類型的所有好處因此,這些數(shù)據(jù)類型沒有提供速度,而是善了訓(xùn)練中低精度的用便利性。風(fēng)扇設(shè)計(jì) GPU 溫度雖然 RTX 30 系列的新風(fēng)扇設(shè)計(jì)在冷卻 GPU 方面表現(xiàn)非常好,但非創(chuàng)始版 GPU 的不同風(fēng)扇設(shè)計(jì)可能會(huì)出現(xiàn)更多問題詩(shī)經(jīng)如你的 GPU 發(fā)熱超過 80C,它就會(huì)自我節(jié)流,減慢其計(jì)算度 / 功率。解決這個(gè)問題的辦法是使用 PCIe 擴(kuò)展器,在 GPU 之間創(chuàng)造空間。用 PCIe 擴(kuò)展器分散 GPU 對(duì)散熱非常有效,華盛大學(xué)的其他博士生和都使用這種設(shè)置,并得了巨大的成功。它起來并不漂亮,但它使你的 GPU 保持涼爽!下面這套系統(tǒng)已經(jīng)運(yùn)行了 4 年,完全沒有問題。如果你有足夠的空間在 PCIe 插槽中安裝所有的 GPU,也可以這么用。圖 5: 帶 PCIE 擴(kuò)展口的 4 顯卡系統(tǒng),看起來一團(tuán)亂,但散熱效率高。優(yōu)雅地解決功耗制問題在你的 GPU 上設(shè)置一個(gè)功率限制是可能的。因此,你能夠以編程方式將 RTX 3090 的功率限制設(shè)置為 300W,而不是其標(biāo)準(zhǔn)的 350W。在 4 個(gè) GPU 系統(tǒng)中,這相當(dāng)于節(jié)省了 200W,這可能剛好足夠用 1600W PSU 建立一個(gè) 4x RTX 3090 系統(tǒng)的可行性。這還有助保持 GPU 的冷卻。因此,設(shè)置功率限可以同時(shí)解決 4x RTX 3080 或 4x RTX 3090 設(shè)置的兩個(gè)主要問題,冷卻和電源。于 4 倍的設(shè)置,你仍然需要高效散熱風(fēng)的 GPU,但這解決了電源的問題。圖 6:降低功率限制有輕的冷卻效果。將 RTX 2080 Ti 的功率限制降低 50-60W,溫度略有下降,風(fēng)扇運(yùn)行更加安你可能會(huì)問,「這不降低 GPU 的速度嗎?」 是的,確實(shí)會(huì)降,但問題是降了多。我對(duì)圖 5 所示的 4x RTX 2080 Ti 系統(tǒng)在不同功率限制下進(jìn)行了準(zhǔn)測(cè)試。我對(duì)推理過中 BERT Large 的 500 個(gè)小批次的時(shí)間進(jìn)行了準(zhǔn)測(cè)試(不包括 softmax 層)。選擇 BERT Large 推理,對(duì) GPU 的壓力最大。圖 7:在 RTX 2080 Ti 上,在給定的功率限制下測(cè)得速度下降我們可以看,設(shè)置功率限制并不重影響性能。將功率制在 50W,性能僅下降 7%。RTX 4090 接頭起火問題有一種誤解,認(rèn)為 RTX 4090 電源線起火是因?yàn)楸粡?過度了。實(shí)際上只有 0.1% 的用戶是這個(gè)原因,主要問題是纜沒有正確插入。因,如果你遵循以下安說明,使用 RTX 4090 是完全安全的。1. 如果你使用舊的電纜或舊的 GPU,確保觸點(diǎn)沒有碎片 / 灰塵。2.使用電源連接器,并將其入插座,直到你聽到嚓一聲--這是最重要的部分。3. 通過從左到右扭動(dòng)電源線來試是否合適。電纜不該移動(dòng)。4.目視檢查與插座的接觸情況,纜和插座之間無間隙H100 和 RTX40 中的 8 位浮點(diǎn)支持對(duì) 8 位浮點(diǎn)(FP8)的支持是 RTX 40 系列和 H100 GPU 的一個(gè)巨大優(yōu)勢(shì)。有 8 位輸入,它允許你以兩倍的速度加載陣乘法的數(shù)據(jù),你可在緩存中存儲(chǔ)兩倍的陣元素,而在 Ada 和 Hopper 架構(gòu)中,緩存是非常的,現(xiàn)在有了 FP8 張量核心,你可以為 RTX 4090 獲得 0.66 PFLOPS 的計(jì)算量。這比 2007 年世界上最快的超級(jí)計(jì)算的全部算力還要高。4 倍于 FP8 計(jì)算的 RTX 4090,可與 2010 年世界上最快的超級(jí)計(jì)機(jī)相媲美??梢钥吹?最好的 8 位基線未能提供良好的零點(diǎn)性。我開發(fā)的方法 LLM.int8 () 可以進(jìn)行 Int8 矩陣乘法,結(jié)果與 16 位基線相同。但是 Int8 已經(jīng)被 RTX 30 / A100 / Ampere 這一代 GPU 所支持,為什么 FP8 在 RTX 40 中又是一個(gè)大升級(jí)呢?FP8 數(shù)據(jù)類型比 Int8 數(shù)據(jù)類型要穩(wěn)定得多,而且容易在層規(guī)范或非線函數(shù)中使用,這在整數(shù)據(jù)類型中是很難做的。這將使它在訓(xùn)練推理中的使用變得非簡(jiǎn)單明了。我認(rèn)為這使 FP8 的訓(xùn)練和推理在幾個(gè)月后變得對(duì)普遍。下面你可以到這篇論文中關(guān)于 Float vs Integer 數(shù)據(jù)類型的一個(gè)相關(guān)主要結(jié)果我們可以看到,逐個(gè)特,F(xiàn)P4 數(shù)據(jù)類型比 Int4 數(shù)據(jù)類型保留了更多的信息從而提高了 4 個(gè)任務(wù)的平均 LLM 零點(diǎn)準(zhǔn)確性。GPU 深度學(xué)習(xí)性能排行先上張圖來看 GPU 的原始性能排行,看看最能打。我們可以看 H100 GPU 的 8 位性能與針對(duì) 16 位性能優(yōu)化的舊卡存在巨大差距。圖顯示的是 GPU 的原始相對(duì)性能,比對(duì)于 8 位推理,RTX 4090 的性能大約是 H100 SMX 的 0.33 倍。換句話說,與 RTX 4090 相比,H100 SMX 的 8 位推理速度快三倍。對(duì)于此數(shù)據(jù)他沒有為舊 GPU 建模 8 位計(jì)算。因?yàn)?8 位推理和訓(xùn)練在 Ada / Hopper GPU 上更有效,而張量?jī)?nèi)存速器 (TMA) 節(jié)省了大量寄存器,這寄存器在 8 位矩陣乘法中非常精確。Ada / Hopper 也有 FP8 支持,這使得特別是 8 位訓(xùn)練更加有效,在 Hopper / Ada 上,8 位訓(xùn)練性能很可能是 16 位訓(xùn)練性能的 3-4 倍。對(duì)于舊 GPU,舊 GPU 的 Int8 推理性能則接近 16 位推理性能。每一美元能買到多算力那么問題來了,GPU 性能強(qiáng)可是我買不起啊......針對(duì)預(yù)算不充足的小伙,接下來的圖表是他據(jù)各個(gè) GPU 的價(jià)格和性能統(tǒng)計(jì)的每美性能排名(Performance per Dollar),側(cè)面反映了 GPU 性價(jià)比。選擇一個(gè)完成度學(xué)習(xí)任務(wù)并且符合算的 GPU,可分為以下幾個(gè)步驟:首先定你需要多大的 GPU 內(nèi)存(至少 12GB 用于圖像生成,至少 24GB 用于處理變壓器);針對(duì) 8 位還是 16 位(8-bit or 16-bit),建議是能上 16 位就上,8 位在處理復(fù)雜編碼任務(wù)時(shí)還是會(huì)有難;根據(jù)上圖中的指,找到具有最高相對(duì)能 / 成本的 GPU。我們可以看到,RTX4070Ti 對(duì)于 8 位和 16 位推理的成本效益最,而 RTX3080 對(duì)于 16 位訓(xùn)練的成本效益最高。雖這些 GPU 最具成本效益,但他們的內(nèi)也是個(gè)短板,10GB 和 12GB 的內(nèi)存可能無法滿足所有求。但對(duì)于剛?cè)肟由?學(xué)習(xí)的新手來說可能理想 GPU。其中一些 GPU 非常適合 Kaggle 競(jìng)賽,在 Kaggle 比賽中取得好成績(jī),作方法比模型大小更要,因此許多較小的 GPU 非常適合。Kaggle 號(hào)稱是全球最大的數(shù)據(jù)科學(xué)家聚的平臺(tái),高手云集同時(shí)對(duì)萌新也很友好如果用作學(xué)術(shù)研究和務(wù)器運(yùn)營(yíng)的最佳 GPU 似乎是 A6000 Ada GPU。同時(shí) H100 SXM 的性價(jià)比也很高,內(nèi)存大性能強(qiáng)。個(gè)人驗(yàn)來說,如果我要為司 / 學(xué)術(shù)實(shí)驗(yàn)室構(gòu)建一個(gè)小型集群,我薦 66-80% 的 A6000 GPU 和 20-33% 的 H100 SXM GPU。綜合推薦說了這么多,終于到了 GPU 安利環(huán)節(jié)。Tim Dettmers 專門制作了一個(gè)「GPU 選購(gòu)流程圖」,預(yù)算充足就可以上高配置,預(yù)算不足請(qǐng)考性價(jià)比之選。這里先強(qiáng)調(diào)一點(diǎn):無論你哪款 GPU,首先要確保它的內(nèi)存能滿足的需求。為此,你要自己幾個(gè)問題:我要 GPU 做什么?是拿來參加 Kaggle 比賽、學(xué)深度學(xué)習(xí)、做 CV / NLP 研究還是玩小項(xiàng)目?預(yù)算充足的情況下可以查看上面的基準(zhǔn)試并選擇適合自己的佳 GPU。還可以通過在 vast.ai 或 Lambda Cloud 中運(yùn)行您的問題一段時(shí)間來估所需的 GPU 內(nèi)存,以便了解它是否能足你的需求。如果只偶爾需要一個(gè) GPU(每隔幾天持續(xù)幾個(gè)時(shí))并且不需要下載處理大型數(shù)據(jù)集,那 vast.ai 或 Lambda Cloud 也能很好地工作。但是,如果一個(gè)每天都使用 GPU 且使用頻率很高(每 12 小時(shí)),云 GPU 通常不是一個(gè)好的選擇。參考資料https://timdettmers.com/2023/01/16/which-gpu-for-deep-learning/#more-6https://timdettmers.com/本文來自微信公眾號(hào):新智元 (ID:AI_era),編輯:Joey David
回復(fù) Matteo : 感謝IT之家網(wǎng)友 華南吳彥祖 的線索投遞!IT之家 1 月 17 日消息,幾個(gè)月前有消息墨家,三將在 Galaxy Book 3 筆記本系列中增加一款 Ultra 機(jī)型,現(xiàn)在這款筆記本的真機(jī)已經(jīng)曝光。三星 Galaxy Book 3 Ultra(型號(hào)為 NT960XFH)似乎已經(jīng)通過了 KC 監(jiān)管認(rèn)證,相關(guān)認(rèn)證圖片已經(jīng)流出,蛩蛩示了機(jī)的 A 面設(shè)計(jì),圖片的中的筆記本是采用青蛇灰色配色,可能還會(huì)推出其他色的版本,就像去年的 Galaxy Book 2 Pro 系列。據(jù)報(bào)道,Galaxy Book 3 Ultra 是三星公司的旗艦筆記本,螽槦以與果的 MacBook Pro 16 正面交鋒。據(jù)悉其配備了 16 英寸 2.8K OLED 顯示屏、第 13 代英特爾酷睿系列處理禺號(hào)、Wi-Fi 6E、藍(lán)牙 5.3,預(yù)裝 Windows 11(有 One UI Book 4 增強(qiáng)功能),據(jù)悉其將比戴爾 XPS 15 和蘋果 MacBook Pro 更輕。IT之家了解到,三星還奧山推出系列的其他機(jī)型,包括 Galaxy Book 3、Galaxy Book 3 360、Galaxy Book 3 Pro 和 Galaxy Book 3 Pro 360,關(guān)于這些產(chǎn)品的葴山細(xì)信還未知,預(yù)計(jì)這些產(chǎn)品將 2 月 1 日的 Galaxy S23 系列發(fā)布會(huì)上一同發(fā)布?
回復(fù) Laidman : 復(fù)星診斷 快速檢測(cè)試劑盒 25 人份 日常售價(jià)為 102.9 元,下單領(lǐng)取 70 元優(yōu)惠券,到手價(jià)為 32.9 元,折合每份約 1.3 元:天貓復(fù)星診斷 快速檢測(cè)試劑盒 25 人份券后 32.9 元領(lǐng) 70 元券京東自營(yíng)日常售價(jià) 99 元 25 人份,下單領(lǐng)取 20 元優(yōu)惠券,到手價(jià) 79 元,折合每份約 3.9 元:點(diǎn)擊查看。生產(chǎn)企業(yè):復(fù)星診斷科技(上海)有公司注冊(cè)證號(hào):國(guó)械注準(zhǔn) 20223400504如果不喜歡此款,還有以下大牌也大促中:天貓九安 快速檢測(cè)試劑盒 20 人份 2.8 元 / 份券后 56.8 元領(lǐng) 7 元券天貓可孚 快速檢測(cè)試劑盒 25 人份 2.8 元 / 份券后 72.75 元領(lǐng) 27 元券以下為復(fù)星診斷 快速檢測(cè)試劑盒商品簡(jiǎn)介:天貓復(fù)星斷 快速檢測(cè)試劑盒 25 人份券后 32.9 元領(lǐng) 70 元券? 京東無門檻紅包:點(diǎn)此抽?。刻炜沙?3 次)??天貓無門檻紅包:點(diǎn)此抽?。刻炜墒[聾 1 次)歡迎下載最會(huì)買App - 好貨好價(jià),高額返利,1毛錢也能提現(xiàn)!掃描二維碼或擊此處下載最新版(自動(dòng)識(shí)平臺(tái))。本文用于傳遞優(yōu)惠息,節(jié)省甄選時(shí)間,結(jié)果僅參考?!緩V告?