forked from CDS/infrastruktur-dok
Update Workstations-Getting-Started.md
This commit is contained in:
parent
6f9f45a323
commit
a727afac7b
@ -90,12 +90,17 @@ Für *sbatch* muss ein Shellskript geschrieben werden das einerseits einen Absch
|
||||
#SBATCH --error="slurm-%j.err" ## Ähnlich wie --output. Jedoch ein Log für Fehlermeldungen.
|
||||
#SBATCH --time=1:30:00 ## Zeitlimite. Diese sollte gleich oder kleiner der Partitions Zeitlimite sein. In diesem Fall ist diese auf 1 Stunde und 30 Minuten gesetzt.
|
||||
#SBATCH --job-name="Mein Test" ## Job Name.
|
||||
#SBATCH --partition=students ## Partitionsname. Die zur Verfügung stehenden Partitionen können mit dem Befehl sinfo angezeigt werden
|
||||
#SBATCH --partition=staff ## Partitionsname. Die zur Verfügung stehenden Partitionen können mit dem Befehl sinfo angezeigt werden
|
||||
#SBATCH --cpus-per-task=1 ## Die Anzahl Threads die Slurm starten soll
|
||||
#SBATCH --ntasks-per-node=64 ## Die Anzahl Prozesse die gestartet werden sollen
|
||||
#SBATCH --gpus=a100:2 ## Die Anzahl GPUs (hier eine GPU, mit der Syntax :1)
|
||||
|
||||
### Ausführen des effektiven Befehls in der Shell. Bei einer Machine Learning Aufgabe würde hier typischerweise ein Python Skript aufgerufen werden
|
||||
srun factor 1234567890123456789012345678901234567890
|
||||
|
||||
### Ein etwas anspruchsvolleres Python Script mit dem Namen 'my-script.py' das eine bestehende Conda Umgebung mit dem Namen 'tf' benötigt würde so aussehen
|
||||
## srun conda run -n tf python3 ml.py
|
||||
|
||||
### Ausführen des effektiven Befehls in der Shell. Bei einer Machine Learning Aufgabe würde hier typischerweise ein Python Skript aufgerufen werden
|
||||
srun -G a100:1 -p students -n 64 factor 1234567890123456789012345678901234567890
|
||||
```
|
||||
|
||||
Ob das Skript nun aktiv ist (oder einfach nur hängt ohne etwas zu machen) ist nicht immer ganz eindeutig festzustellen. Jedoch sieht man mit den Befehlen ```top``` oder ```sudo nvtop``` ob das gestartete Skript CPU oder GPU Resourcen verwendet. Weiter kann in den Logfiles die im sbatch Skript angegeben wurden nachgeschaut werden ob es Fehler bei der Skriptausführung gegeben hat. Zum Beispiel für den Job 101 mit dem Befehl `cat slurm-101*`.
|
||||
|
||||
Loading…
x
Reference in New Issue
Block a user