常见问题

Q:高算平台是什么?

A:南京农业大学校级高性能计算平台(以下简称“高算平台”)是为全校师生教学、科研服务的重要实验平台,由信息化建设中心高性能计算中心负责管理、运行、支持和服务。

目前高算平台部署于滨江校区高算机房。

Q:纳管系统是什么?

A:纳管系统是用于整合前期农业大数据项目和人文大数据项目以及学校后期建设的各类算力、存储和网络资源。

纳管系统访问地址为:https://hpc.njau.edu.cn

Q:高算平台中的组、用户是什么概念?

A:目前,为了便于管理,我们在高算平台设置了组的概念,组就是课题、项目的管理单元,用户都归属于特定的组中。组可以完成资源配置、费用管理等功能。

高算平台中首先要完成组的建立和配置,然后再加入用户。

Q:高算平台中的组是如何建立的?

A:组是由课题、项目的负责人(或负责人指定人员)通过办事大厅中的“高算平台使用申请”来提交建立的,只不过表单中的“项目负责人”填写为本人。审批通过后,高算平台管理员会完成组的建立和配置。用户才可以开始申请并由加入组。

Q:aTrust是什么,为什么要用?

A:aTrust是零信任平台的英文简称,是一套集VPN、安全监控与防护一体的网络信息安全机制,是保护高算平台正常运行的必要手段。

用户在使用高算平台前,必须登录https://sdp.njau.edu.cn,下载aTrust客户端并运行,才可访问高算平台。

注意:aTrust是使用统一身份认证系统的账户的。

Q:用户申请完成后,为什么又要设置高算平台的密码?

A:当用户申请通过后,会收到信息,浏览器打开https://hpc.njau.edu.cn,利用统一身份认证入口登录高算平台,设置一个高算平台的密码。

这是为了在SSH工具登录平台所使用。

Q:常见的SSH登录工具有哪些?

A:Xshell、PuTTY、SecureCRT、Termius。

Q:Slurm是什么?

A:SLURM(Simple Linux Utility for Resource Management)是一种可扩展的工作负载管理器,已被全世界的国家超级计算机中心广泛采用。 它是免费且开源的,根据GPL通用公共许可证发行。

Q:作业如何提交?

A: 先编写slurm脚本,设定队列、节点、CPU核心数、内存等参数,然后运行脚本提交作业

示例:

编写My1.sh

#!/bin/bash

#SBATCH --job-name=my1.slrum 作业名称

#SBATCH --partition=cpu64 选择队列

#SBATCH --nodes=1 节点数量

#SBATCH --ntasks=1 任务数量

#SBATCH -cpu-per-task 核心数量

#SBATCH --output=%j.out 输出文件

#SBATCH --error=%j.err 报错文件

Module load R/4.4.2 调用模块

Rscript --no-save my.R my.R计算程序

提交作业

Sbatch my1.slurm

Q:登录节点可以运行作业吗

A: 登录节点是用户进入平台的入口,是用于资源查询、作业投送、文件传输的节点,用户并发量较大,是不能运行作业(作业程序)的,同样slurm的脚本也不能直接运行,而必须通过sbatch命令提交。

Q:如何了解高算平台集群队列资源

A:高算平台中的资源整体称为集群,集群资源按规格划分为不同的队列(也称为分区),可利用SLURM的指令Sinfo和scontrol查看集群及队列的状态

如:

Sinfo -N 按节点显示

Sinfo -p <partition> 查看特定队列

其中:drain(节点故障),alloc(节点在用),idle(节点可用),down(节点下线),mix(节点部分占用,但仍有剩余资源)

Scontrol show node <node-name>查看节点详细信息

Scontrol show partition <partition> 查看队列详细信息

Q:如何查看、管理和控制作业

A:利用SLURM的指令squeue、sacct、sstat、scancel、scontrolt等查看、管理和控制作业

squeue -u <username> - 查看指定用户的作业

squeue -p <partition> - 查看指定队列的作业

其中:R(正在运行),PD(正在排队),CG(即将完成),CD(已完成)

sstat <job_id> - 查看运行中作业的资源使用情况

sacct -j <job_id> - 查看已完成的特定作业详细信息

scancel <job_id> - 取消作业

scontrol hold <job_id> - 挂起作业

Q:高算平台的存储系统是如何管理的

A:高算平台按组管理存储空间,即分配给高算平台用户的存储配额是全组用户共用的,也就是说某一组全体用户家目录空间大小之和为全组存储空间使用量。根据最新政策,每用户默认免费空间为2T,全组默认免费空间为组用户数*2T,超过部分按10元/T.月收取存储费用。

Q:存储空间使用量如何查询,需要更大的空间怎么办

A:高算平台上运行pecx命令可查询用户组空间实际限额及使用量,如需要扩大存储空间可由组长或组长指定联系人向管理员申请。

Q:高算平台安装了哪些软件,如果没有我需要的软件怎么办

A:高算平台安装软件通过module和conda形式安装,请参见高性能计算公共平台网站中资源环境-软件资源(不定期更新),平台软件安装在/hpc/software目录中。如果没有自己需要的,如使用场景较小,可自行安装在自己的家目录中;如使用场景较多,可提供给管理员,由管理员安装在上述目录中,共享给平台用户。

[ 1 2 ]