作业相关问题及排查

1. 作业一直在排队无法运行

查看排队作业:squeue

[slurmtest@login02 ~]$ squeue
             JOBID PARTITION     NAME     USER   ST       TIME  NODES NODELIST(REASON)
           8977234      test TF_Datas slurmtest  PD                 1 (AssocGrpCpuLimit)
           8977236      test TF_Datas slurmtest  PD                 1 (Resource)

Reason为AssocGrpCpuLimit的作业:
原因:AssocGrpCpuLimit的提示信息表示该作业的使用核心数超过了该用户的限额
解决方案:请取消该作业(scancel 作业ID)并尝试减少作业脚本中占用核心数后重新提交

Reason为Resource的可用如下步骤排查:
1.sinfo | grep 使用的队列中是否有空闲节点
2.scontrol show job 8977236 查看作业中申请的节点数,核心数,内存数等信息
3.确认队列中剩余的节点数,核心数,内存数是否大于作业中申请的数量:
如果还有可用资源,但是小于作业中申请的数量,则需要继续登录该作业
如果剩余的资源大于作业中申请的,但是作业还是不运行,则需要联系管理员查看

2. 提交作业时报错

在E-Shell中提交作业时,有如下报错时:

error: Unable to allocate resources: Invalid account or account/partition combination specified

解决方案:该报错是因为没有使用正确的可访问队列,需要在“概览”中的可访问队列查看您可用的队列名,提交作业时指定该队列

sbatch -p <PARTITION> 脚本名称

results matching ""

    No results matching ""