作者您好,感谢您的优秀工作与代码开源贡献,想请教一下两张80G的A100能否支撑起整个模型的训练?如果可以,请问大概需要花费多久呢?最佳batchsize应该如何设置?恳请回复,祝蒸蒸日上。
作者您好,感谢您的优秀工作与代码开源贡献,想请教一下两张80G的A100能否支撑起整个模型的训练?如果可以,请问大概需要花费多久呢?最佳batchsize应该如何设置?恳请回复,祝蒸蒸日上。