本文共 450 字,大约阅读时间需要 1 分钟。
计算服务器中在运行程序跑完之后,无法完全退出,导致服务器中残留大量程序。
残留进程原因:各个计算服务器的epilog清理脚本开关没有打开!在每个计算节点的slurm配置文件/etc/slum/slurm.conf中, Epilog=/etc/slurm/slurm.epilog.clean都以注释符号#开头,因此该行无效。
[root@mn1%tinhe2 load]# for n in `expnodes cn[0-1]`;do echo $n; ssh $n cat /etc/slurm/slurm.conf | grep Epilog= ; donecn0#Epilog=/etc/slurm/slurm.epilog.clean#ResvEpilog=#SrunEpilog=#TaskEpilog=cn1#Epilog=/etc/slurm/slurm.epilog.clean#ResvEpilog=#SrunEpilog=#TaskEpilog=
之前的处理方法是直接重启节点。
转载地址:http://zworb.baihongyu.com/