筆記-曲博談AI模型.群聯-24.05.05

2024/05/06閱讀時間約 1 分鐘

投資理財內容聲明

https://www.youtube.com/watch?v=JHE88hwx4b0&t=2034s

*大型語言模型三個步驟:

1.預訓練，訓練一次要用幾萬顆處理器、訓練時間要1個月，ChatGPT訓練一次的成本為1000萬美金。

2.微調(fine tune)，預訓練之後，類神經網路裡的參數還不夠精準，所以需要微調，

例如要用來做翻譯功能的語言模型，就要把翻譯的資料、明確的輸入到神經網路，去微調這個參數。

微調完之後，才會得到一個可以拿來應用的模型。

3.推論，把要翻譯的資料輸入，模型經過推論運算，會輸入翻譯好的結果。

*訓練，類似花10年學英文、運算量龐大，學好之後等於把英文的模型建立好；

遇到外國人時講英文，這就是推論。

*推論，需要的處理效能不高，但是推論是個很長時間的運用，會有大量的使用者、不停的運算，

可以不用最高階的處理器，需要的處理器數量龐大。

*微調，用大量的數據，標註、改變微調參數，不用大量的運算，需要的是大量的記憶體，所以需要記憶體容量大的伺服器。

*HBM在GPU旁邊，先進封裝能夠封的HBM記憶體數量是固定的，

想要做微調的廠商，如果拿訓練用的伺服器來做微調，成本很高，因為只是需要記憶體，並不用那麼多的算力。

--群聯作的是快閃記憶體固態硬碟，屬於速度比較慢的記憶體，

在微調的時候，可以用中介軟體，讓程式誤以為固態硬碟是跟HBM一樣的記憶體，就可以用低成本的方式放大記憶體容量，因為固態硬碟的容量大，

群聯的aiDAPTIV，屬於微調專用的伺服器，

讓企業可以拿別人預訓練好的大模型，用低價的微調伺服器，微調成企業想要做的產品。

*曲博也認為aiDAPTIV為正確的發展方向。

69會員

214內容數

股市x 投資x 自耕農

留言0

查看全部

發表第一個留言支持創作者！