背景

深度学习非常依赖设备,训练模型就类似在“炼丹”,没有好的炼丹炉,想要复现顶刊中那些动辄8卡/4卡 Tesla V100显卡训练的模型,只能是“望洋兴叹”。

那么对于缺乏设备的“穷人”来说,有没有办法去白嫖免费的算力资源呢?经过我的调研,基本有以下三种途径:

免费GPU:九天•毕昇平台使用教程

新建实例

创建好账号之后,进入到控制台页面,在模型训练这里点击新建实例。

免费GPU:九天•毕昇平台使用教程
新建实例时,需要选择挂载的数据集,平台默认提供了很多公开数据集,可以自行选择。

免费GPU:九天•毕昇平台使用教程
通常情况下,需要训练自己的数据,那么在创建实例之前,可以在数据管理这里上传自己数据的压缩包。

免费GPU:九天•毕昇平台使用教程
这里的资源套餐有三种,为了训练速度,选择最好的那种即可,可以免费使用一款V100的GPU。

免费GPU:九天•毕昇平台使用教程

运行实例

创建完实例之后,点击运行,稍等片刻,实例就开始启动。

免费GPU:九天•毕昇平台使用教程
启动完之后,平台提供了Jupyter和VSCode两种进入方式,经实测,建议选择Jupyter方式。

进入之后,新建一个终端,输入nvidia-smi,可以看到提供的一块Tesla V100显卡,显存约有32G.

再输入free可以查看内存情况,可以看到可用内存约为633GB.

免费GPU:九天•毕昇平台使用教程

开始训练

挂载的数据存放在data文件夹下,但是该文件夹没有读写权限,因此首先需要把数据解压出来。
新建一个文件夹,命名为dataset,然后进入到data文件夹中,将其解压到外面,以我上传的zip文件夹为例:

unzip data.zip -d /root/dataset

解压之后就可以在外面进行数据调用。

如果需要用notebook,选择合适环境新建notebook运行即可。
如果需要运行py文件,上传整个工程,再解压缩,在终端运行即可。

运行完成之后,实例会自动关闭,以便节省算力。下次打开时,会看到运行结果已经存放在文件夹中。

下载文件

最后就是将训练好的文件进行下载,如果是单个文件(例如模型文件),右键->下载即可。

如果是整个文件夹,可以使用tar -zcvf 压缩包名.tar.gz 文件夹名先将其打包成压缩包,再下载即可。

免费GPU:九天•毕昇平台使用教程

Enjoy yourself!