在安装Slurm进行作业调度和管理于Ubuntu 22.04 LTS在WSL2下的过程中,可能会遇到一些报错。本文将详细记录安装过程中遇到的错误及其解决方法,帮助你顺利解决安装Slurm时可能遇到的问题。
首先,确保你的系统使用的是SysV初始化系统。在Windows中通过WSL使用Ubuntu时,系统默认使用的是SysV而不是systemd,因此在运行systemctl命令时会遇到错误。可以通过检查系统运行的第一个进程(PID 1)名称来确认是否使用的是SysV初始化系统。若使用的是SysV,使用sysvinit命令代替systemctl命令,避免报错。
当遇到"System has not been booted with systemd as init system (PID 1). Can't operate."错误时,更换为sysvinit命令即可解决。sysvinit命令与systemctl命令的语法相似,操作简单易行。
在Slurm配置中,若同时设置了ControlMachine 和 SlurmctldHost参数,则会导致错误"slurmd: error: Ignoring ControlMachine since SlurmctldHost is set."。解决此问题需检查slurm.conf文件,确保只设置了一个正确的参数,这将帮助你成功启动slurmd。
当在sinfo命令中显示STATE为unk*时,表示某个节点下slurmd未启动。只需使用特定命令启动slurmd,即可解决此问题。
若在使用Slurm提交VASP任务时,出现libmkl_blacs_intelmpi_ilp64.so.2未找到的错误,需要确认该文件路径。文件路径通常位于/opt/intel/oneapi/mkl/2024.0/lib。在bashrc文件中添加export PATH=$PATH:/opt/intel/oneapi/2024.0/bin指令,确保该文件路径被正确引入,从而避免该错误。
在安装过程中若中途断网,可能导致sinfo的STATE为down,任务停止。为解决此问题,可以使用特定命令恢复状态,让任务自动继续进行。请根据具体情况调整命令,以确保任务正常执行。
温馨提示:内容为网友见解,仅供参考