搞大模型,200-300台A100服务器是入门。但服务器很多企业就没这个能力,一次训练费用大几百W,人员工资一年又几Y,通用大模型不是谁想搞就能搞的。
CHAT GTP网传用了1万块GPU,那是按V100算的,3块V100差不多等于1块A100那么1W块V100也就是3000来块A100,一台服务器8块A100,就是300多台。CHATGTP的参数是175B,大概就是300多台A100服务器一起训练。千亿级参数的入门按这个算就是200台A100服务器。如果时间允许可以在少几台,训练时间稍微拉长一些。