From a727afac7bc184604395e95b106185c8f73be845 Mon Sep 17 00:00:00 2001 From: Thomas Keller Date: Tue, 27 Aug 2024 18:31:17 +0200 Subject: [PATCH] Update Workstations-Getting-Started.md --- Workstations-Getting-Started.md | 11 ++++++++--- 1 file changed, 8 insertions(+), 3 deletions(-) diff --git a/Workstations-Getting-Started.md b/Workstations-Getting-Started.md index 1429449..28ef96a 100644 --- a/Workstations-Getting-Started.md +++ b/Workstations-Getting-Started.md @@ -90,12 +90,17 @@ Für *sbatch* muss ein Shellskript geschrieben werden das einerseits einen Absch #SBATCH --error="slurm-%j.err" ## Ähnlich wie --output. Jedoch ein Log für Fehlermeldungen. #SBATCH --time=1:30:00 ## Zeitlimite. Diese sollte gleich oder kleiner der Partitions Zeitlimite sein. In diesem Fall ist diese auf 1 Stunde und 30 Minuten gesetzt. #SBATCH --job-name="Mein Test" ## Job Name. -#SBATCH --partition=students ## Partitionsname. Die zur Verfügung stehenden Partitionen können mit dem Befehl sinfo angezeigt werden +#SBATCH --partition=staff ## Partitionsname. Die zur Verfügung stehenden Partitionen können mit dem Befehl sinfo angezeigt werden #SBATCH --cpus-per-task=1 ## Die Anzahl Threads die Slurm starten soll #SBATCH --ntasks-per-node=64 ## Die Anzahl Prozesse die gestartet werden sollen +#SBATCH --gpus=a100:2 ## Die Anzahl GPUs (hier eine GPU, mit der Syntax :1) + +### Ausführen des effektiven Befehls in der Shell. Bei einer Machine Learning Aufgabe würde hier typischerweise ein Python Skript aufgerufen werden +srun factor 1234567890123456789012345678901234567890 + +### Ein etwas anspruchsvolleres Python Script mit dem Namen 'my-script.py' das eine bestehende Conda Umgebung mit dem Namen 'tf' benötigt würde so aussehen +## srun conda run -n tf python3 ml.py -### Ausführen des effektiven Befehls in der Shell. Bei einer Machine Learning Aufgabe würde hier typischerweise ein Python Skript aufgerufen werden -srun -G a100:1 -p students -n 64 factor 1234567890123456789012345678901234567890 ``` Ob das Skript nun aktiv ist (oder einfach nur hängt ohne etwas zu machen) ist nicht immer ganz eindeutig festzustellen. Jedoch sieht man mit den Befehlen ```top``` oder ```sudo nvtop``` ob das gestartete Skript CPU oder GPU Resourcen verwendet. Weiter kann in den Logfiles die im sbatch Skript angegeben wurden nachgeschaut werden ob es Fehler bei der Skriptausführung gegeben hat. Zum Beispiel für den Job 101 mit dem Befehl `cat slurm-101*`.