使用 ray 做分布式计算和训练

作者: 张志强 , 2024-07-05 , 共 8524 字

假设你有多个很耗时的任务，比如训练多个神经网络模型：

for model in models:
    train(model)

使用 ray 可以很简单地实现在实现定义好的集群分布式地（或本服务器上并行地）训练这些神经网络模型：

import ray

for model in models:
    ray.remote(train).options(num_gpus=1).remote(model)

1、组建集群

事实上，如果只在本地进行并行计算，不需要组建集群。前面的示例， ray 会自动在本服务器上启动一个节点，然后可以执行并行任务。这时候有点类似于使用multiproccessing启动一个子进程，但在使用上更方便，而且涉及到调用 GPU 时， ray 能自动调度到最空闲的 GPU 设备上。

若要组建 ray 集群也特别简单。云服务一般都内置了服务。对于自己的普通服务器，先选一台机器作为控制机器（ ray 称之为 head 节点），直接执行下面命令即可，其中 6379 是集群通信的端口，可以任意选择自己喜欢的：

sudo -E pip3 install ray 
ray start --head --port=6379

在集群里添加服务器（在 ray 里称之为 node ，或节点，注意 head 机器自动成为一个 node ），直接在这些服务器上执行下面命令即可：

sudo -E pip3 install ray 
ray start --address ip-of-head-machine:6379

如果我们要关闭一个节点：

# 关闭节点。如果在head节点上执行该命令，所有节点都会被关闭。
# 如果在非head节点上执行，则不会影响其它节点和head节点。
ray stop

注意事项：

集群里的服务器的 Python 版本要保持严格一致，精确到小版本。即使 3.8.5 和 3.8.10 都不行。
服务器之间除了指定的端口外，还需要用到多个端口（待完善）。

集群组建完毕后，可以通过ray status查看集群信息，会显示当前有多少个节点， CPU 核和 GPU ，以及已经使用了多少。其结果类似于：

$ ray status
======== Autoscaler status: 2024-07-08 11:35:41.940675 ========
Node status
---------------------------------------------------------------
Active:
 1 node_fca78d3c7f990e99f092154ada842be982e5e6acb0bbf87ecaf90dc6
 1 node_5f1502b1eae186c0e859e801a6f5c5bf80f29ec561c675c0e37755f3
 1 node_4c4067efd85155e66eabc12a4c5b45ef47837686e356fbce44b07ded
Pending:
 (no pending nodes)
Recent failures:
 (no failures)

Resources
---------------------------------------------------------------
Usage:
 0.0/112.0 CPU
 0.0/2.0 GPU
 0B/462.92GiB memory
 0B/202.06GiB object_store_memory

Demands:
 (no resource demands)

你甚至不需要到服务器上去依次启动。如果你配置了服务器之间的 SSH 免 Key 登录，那么只需要修改配置文件，填入控制机器和节点机器的 IP ，在某台机器上简单执行该配置文件即可。ray 会按照配置文件依次登录机器，配置和启动该机器上的服务，组建集群：

# 下载样例配置
wget https://raw.githubusercontent.com/ray-project/ray/master/python/ray/autoscaler/local/example-full.yaml
# 修改配置，主要是添加head/node机器的IP。
vim example-full.yaml

# 启动集群
ray up example-full.yaml

# 查看集群
ray attach example-full.yaml

# 关闭集群
ray down example-full.yaml

还有一个特殊的情况， ray 有一个 dashboard 服务，可以通过网页查看集群数据。但需要安装ray[default]：

pip install 'ray[default]'
ray start --head

2、提交或执行任务

如最前面的例子所示，假设我们有一个很耗时的函数func(*args,**kwargs)，我们可以用ray.remote(func).remote(*args, **kwargs)来分布式执行：

def train(model, date):
    time.sleep(600)
    return 1    

ret = ray.remote(train).remote(model, date)

ray.remote(func).remote(*args, **kwargs)分为两部分，第一部分ray.remote(func)将一个函数转为远程函数。除了这个方法，也可以直接在函数定义时添加@ray.remote装饰器：

@ray.remote
def remote_train(model, date):
    time.sleep(600)
    return 1

ret = remote_train.remote(model, date=date)

不过我个人还是更喜欢定义普通函数，然后在需要的时候通过ray.remote()进行转换，这样函数既可以常规地执行，也可以分布式地执行。

后面的.remote(*args, **kwargs)则是在远程执行该函数。ray 会自动选择集群里合适的节点来执行这些任务。任务在结束后自动销毁，解除对资源的占用。

3、指定任务所需要的资源

一种方法是在装饰器里标记：

@ray.remote(num_cpus=1, num_gpus=0.2)
def remote_train(model, date): ...

ret = remote_train.remote(model, date)

还有一种方法是通过options函数添加或修改资源要求：

ret = ray.remote(train).options(num_cpus=1, num_gpus=0.2).remote(model)

若不指定，则表示不用占用资源。若指定，在任务执行过程中，集群的资源会被扣减（即使任务实际并没有使用这些资源），当资源不足时，新的任务将需要等待。

在指定 GPU 时， ray 会设置CUDA_VISIBLE_DEVICES，任务将只能看到指定（个数）的 GPU ，不能自己随意选择 GPU ，否则会报错。

任务在调度时会考虑到所需要的资源。不指定 GPU ，程序能看到节点上所有的 GPU ，但任务就不会考虑这些 GPU 的占用情况，有可能被调度到 GPU 已经满载的机器上。因此在真正需要资源时，还是指定更好一些。

4、任务的返回值

remote 执行的返回值是一个引用，也是一个 future 值，即它还不是一个真正的返回值，因为任务可能还在计算中。我们需要使用ray.get来获取真正的返回值，但这可能会导致程序的挂起，即需要等待并行任务执行完毕返回后，当前程序才会继续向下运行：

ret1 = ray.remote(train).remote(model1)
ret2 = ray.remote(train).remote(model2)

# 下面这一行会等到上面train(model1)执行完毕，但不用等待 train(model2)。
ret1 = ray.get(ret1)

ray.get 支持一次性获取多个返回值，列表或者字典都可以的：

rets = [ray.remote(train).remote(model) for model in models]
rets = ray.get(rets)

5、带状态的任务 Actor

Actor 被认为是一个带状态的任务，也就是它内部可以不断执行子任务，且子任务之间有公共的状态：

class Calculator:
    def __init__(self):
        self._sum = 0

    def add(self, i):
        time.sleep(10)
        self._sum += i
        return self._sum

    def minus(self, i):
        time.sleep(10)
        self._sum -= i
        return self._sum

# calc 将绑定到某个节点上。
calc = ray.remote(Calculator).options(num_cpus=1).remote();
# 此时 add(1) 和 minus(2) 是串行的。
s1 = calc.add.remote(1)
s2 = calc.minus.remote(2)

print(ray.get(s2))

也可以用装饰器@ray.remote：

@ray.remote(num_cpus=1)
class Calculator: ...

calc = Calculator.remote();
s1 = calc.add.remote(1)
s2 = calc.minus.remote(2)

print(ray.get(s2))

上面代码里 calc是在集群的某个节点上创建了一个 Calculator 类的远程实例，这种实例被称之为 actor。后面就可以不断调用其成员函数在远程的节点上运行。

Actor 在变量的存续期内是一直占有资源的，不像普通函数任务（ task ），运行结束之后直接销毁。ray list actors可以查看存续的 actors。如果想让 actor 提前销毁释放资源，可以手工ray.kill(actor)。

6、分布式任务池

Actor 可以认为是一个分布式任务代理，因为我们可以很简单地定义一个run成员用来执行任意函数任务：

@ray.remote(gpu_num=1)
class GenericActor:
    def run(self, func, args, kwargs):
        return func(*args, **kwargs)

actor = GenericActor.remote()

# 注意此时r1, r2 的执行是串行的！
r1 = actor.run.remote(train, (model, date1))
r2 = actor.run.remote(train, (model, date2))

利用它我们可以很容易实现一个分布式池（ Pool ），以固定的并行数量来执行任意任务。 ray内置了 ActorPool，可以集合多个 Actor ，在上面执行任务。

actors = [GenericActor.remote() for _ in range(num_workers)]
pool = ActorPool(actors)

# 提交多个任务，返回的是一个iter。
rs = pool.map(lambda a, v: a.run.remote(*v), [
    (train, (model, date)) for date in dates
])

# 对于 pool.map，直接实例化iter，就会自动获取到结果。
rs = list(rs)

# 提交单个任务 train(model, date)，注意这个函数没有返回值！
pool.submit(lambda a, v: a.run.remote(*v), (train, (model, date1))
pool.submit(lambda a, v: a.run.remote(*v), (train, (model, date2))

# 获取任务结果，此时需要使用 poo.get_next()，但需要自己去维护结果和之前提交任务之间的对应关系。
r1 = pool.get_next()
r2 = pool.get_next()

7、多用户体系

ray 的一个关键问题是，它在设计上是针对单用户的，多用户的权限有很大问题。如果某个用户（我们称该用户为启动用户）启动了一个集群：

另外一个用户可以随便查看和访问集群。集群对它是透明的。
ray 使用了/tmp/ray目录作为存储目录，若不修改该目录权限，其它用户启动无法读取这些数据，无法提交任务到集群。
提交的任务都在启动用户的权限下执行，这意味着： 1 ）启动用户可能不具备足够的权限，比如提交的任务可能访问了任务用户个人目录下的数据或文件。2 ）任务获得了启动用户的权限，比如他可以随便访问启动用户的文件或数据，他也可以查看其它任务的数据，理论上启动用户的数据被泄露了。

8、API

8.1、ray.init()

它有一个返回值，其 address_info 属性可以获得 head 节点的信息：

RayContext(
    dashboard_url='', 
    python_version='3.8.10', 
    ray_version='2.10.0', 
    ray_commit='09abba26b5bf2707639bb637c208d062a47b46f6',
    address_info={
        'node_ip_address': '172.18.90.154', 
        'raylet_ip_address': '172.18.90.154', 
        'redis_address': None, 
        'object_store_address': '/tmp/ray-zhangzq/session_2024-07-11_11-45-31_938877_1655112/sockets/plasma_store', 
        'raylet_socket_name': '/tmp/ray-zhangzq/session_2024-07-11_11-45-31_938877_1655112/sockets/raylet', 
        'webui_url': '', 
        'session_dir': '/tmp/ray-zhangzq/session_2024-07-11_11-45-31_938877_1655112', 
        'metrics_export_port': 64734, 
        'gcs_address': '172.18.90.154:8085', 
        'address': '172.18.90.154:8085', 
        'dashboard_agent_listen_port': 52365, 
        'node_id': '6f42be814626b489c596e956915f889dc711a3c52817c2227913ef78'
    }
)

8.2、ray.nodes()

返回节点列表，每个节点是一个字典。但需要注意，死掉的节点也包含在内。需要通过 Alive 进行判断。

每个节点的结果信息如下：

{
    "NodeID": "bc39451211d1507e8f740907a498c43a534650bb608dd59b93043007",
    "Alive": true,
    "NodeManagerAddress": "172.18.90.185",
    "NodeManagerHostname": "sh185",
    "NodeManagerPort": 44609,
    "ObjectManagerPort": 40453,
    "ObjectStoreSocketName": "/tmp/ray-zhangzq/session_2024-07-11_11-45-31_938877_1655112/sockets/plasma_store.3",
    "RayletSocketName": "/tmp/ray-zhangzq/session_2024-07-11_11-45-31_938877_1655112/sockets/raylet.2",
    "MetricsExportPort": 54316,
    "NodeName": "172.18.90.185",
    "RuntimeEnvAgentPort": 61960,
    "alive": true,
    "Resources": {
        "accelerator_type:RTX": 1.0,
        "CPU": 32.0,
        "node:172.18.90.185": 1.0,
        "GPU": 8.0,
        "object_store_memory": 161813962752.0,
        "memory": 377565913088.0
    },
    "Labels": {
        "ray.io/node_id": "bc39451211d1507e8f740907a498c43a534650bb608dd59b93043007"
    }
},

9、遇到的一些问题

9.1、ray 2.10 以上不支持 python3.8 及以下版本

python3.8 只能用 ray 2.10。而现在 ray 最新版本是 2.32。

9.2、ray::IDLE 进程

ray 会产生非常多的 ray::IDLE 进程（和 CPU 核心一样多），官方说法是待命进程，降低任务响应时间的。

一般情况下没啥问题，只是看着烦心。但有时候这个任务会跑到 GPU 上，而且任务还不释放 GPU 的显存，导致大量 IDLE 进程占用了 GPU 显存，其它任务无法执行了。

9.3、ssh 启动工作节点会挂

下面命令，从 24 启动 25 作为工作节点，刚开始看着正常，但很快该节点就会掉线：

ssh -t 10.24.10.25 "ray start --address 10.24.10.24:8083"

直接 ssh 登录 25 后执行 ray start --address 10.24.10.24:8083 则一切正常。

Q. E. D.

类似文章：

Python 的多线程和并行相似度: 0.124

2021-04-06, 编程 » Python, 并行计算

核心就是threading.Thread：

Python 的 unittest 的一些细节和笔记相似度: 0.092

2024-05-17, 编程 » python, 单元测试

unittest 是 python 官方的单元测试工具。最近发现一个之前没注意到的盲区：

Matlab 的并行计算相似度: 0.078

2010-11-04, 编程 » Matlab, 并行计算, 编程和算法效率

以下对并行计算的个人理解受到较多质疑，删除之。

github 的登录问题相似度: 0.075

2022-10-08, IT » github

github 自从废除用户名密码直接登录之后，就乱了很多。直接用户名密码会提示：

Python 的 argparse 的常见用法相似度: 0.074

2022-11-16, 编程 » Python, argparse, 命令行, Python标准库

命令行参数的初步说明，请参考argparse 模块用法实例详解，写的很清晰而详细。

在 ubuntu 中设置 selenium 和 ChromeDriver 相似度: 0.071

2024-01-11, 编程 » Python库, Linux, Ubuntu, selenium

安装 selenium ，使用 requestium 来调用 selenium 程序更为简单，因此可一起安装：

Python 的 requests 用法和 django 后台处理相似度: 0.069

2022-03-18, 编程 » django, requests, python

这里的 requests 是指 Python 的 requests 包。

设置 Bash on Windows 的 SSHD 服务并开机启动相似度: 0.068

2019-01-18, IT » WSL, SSH

世界上最好的 Linux 发行版 Bash on Windows 已经升级到了 Ubuntu 18.04 ，并且提供越来越多的功能。下面是笔记，记录如何启动子系统的 SSHD 服务并设置开机自动启动，也顺带开机自动启动了子系统。

Python 的私有变量和方法相似度: 0.064

2023-07-19, 编程 » Python

今天写一段程序时遇到一个问题，查了好一会才搞清楚。代码可以简化为下面这个小代码：

如何在 GIT 撤销操作和恢复文件相似度: 0.063

2022-10-09, IT » git

如果还没有执行git add，此时被认为尚未暂存以备提交的变更，git status结果如下：

前一篇：昆玉河长河湾码头划浆板和游

2024-06-29, 户外 » 浆板, 戏水, 昆玉河

周六下午，在昆玉河的长河湾划了浆板。

后一篇：洪水口 ~ 聚灵峡 ~ 东灵山 ~ 江水河穿越（14 公里爬升 1400 米）

2024-07-20, 户外 » 亲子徒步路线, 徒步强度4.0, 门头沟片区

京蔚高速开通后，发现从北三环到东灵山从三小时降到了两小时。实测从家里到洪水口聚灵峡口只用了八十分钟。所以组队安排了这次灵山两日游，走一个大环线：