背景
深度学习非常依赖设备,训练模型就类似在“炼丹”,没有好的炼丹炉,想要复现顶刊中那些动辄8卡/4卡 Tesla V100显卡训练的模型,只能是“望洋兴叹”。
那么对于缺乏设备的“穷人”来说,有没有办法去白嫖免费的算力资源呢?经过我的调研,基本有以下三种途径:
-
谷歌的Colab
谷歌的Colab可能不少人都用过,能够免费提供GPU,不过GPU的质量有点“开盲盒”的感觉,并且如果不花钱买它的pro服务,很容易产生连接不稳定的情况。 -
百度的Ai studio
百度的Ai studio每周都能提供几十小时的免费GPU算力,不过缺点是只能采用百度自研的PaddlePaddle框架,终端没有root权限,想装其它框架非常麻烦,而且每次启动实例之后pip会被初始化。 -
移动的九天•毕昇
九天•毕昇是近期移动新推出的算力平台,目前还在测试阶段。使用起来非常便捷,并且里面内置了多种框架,终端具有root权限,也可以自己装里面没有的框架。终端默认是装好Anaconda的,符合多数人的使用习惯。唯一的缺点是算力获取方式比较有限,维护较为频繁。
本篇就将介绍该平台如何进行使用。
平台地址:https://jiutian.10086.cn/#/register?token=MDdiNzE2ZDctNzY1OC00MmE3LTljZTAtZjc3NWY3YTI2NDk1
新建实例
创建好账号之后,进入到控制台页面,在模型训练这里点击新建实例。
新建实例时,需要选择挂载的数据集,平台默认提供了很多公开数据集,可以自行选择。
通常情况下,需要训练自己的数据,那么在创建实例之前,可以在数据管理这里上传自己数据的压缩包。
这里的资源套餐有三种,为了训练速度,选择最好的那种即可,可以免费使用一款V100的GPU。
运行实例
创建完实例之后,点击运行,稍等片刻,实例就开始启动。
启动完之后,平台提供了Jupyter和VSCode两种进入方式,经实测,建议选择Jupyter方式。
进入之后,新建一个终端,输入nvidia-smi
,可以看到提供的一块Tesla V100显卡,显存约有32G.
再输入free
可以查看内存情况,可以看到可用内存约为633GB.
开始训练
挂载的数据存放在data
文件夹下,但是该文件夹没有读写权限,因此首先需要把数据解压出来。
新建一个文件夹,命名为dataset
,然后进入到data文件夹中,将其解压到外面,以我上传的zip文件夹为例:
unzip data.zip -d /root/dataset
解压之后就可以在外面进行数据调用。
如果需要用notebook,选择合适环境新建notebook运行即可。
如果需要运行py文件,上传整个工程,再解压缩,在终端运行即可。
运行完成之后,实例会自动关闭,以便节省算力。下次打开时,会看到运行结果已经存放在文件夹中。
下载文件
最后就是将训练好的文件进行下载,如果是单个文件(例如模型文件),右键->下载即可。
如果是整个文件夹,可以使用tar -zcvf 压缩包名.tar.gz 文件夹名
先将其打包成压缩包,再下载即可。
Enjoy yourself!