diff --git a/Workstations-Getting-Started.md b/Workstations-Getting-Started.md index 5df70ec..67af19d 100644 --- a/Workstations-Getting-Started.md +++ b/Workstations-Getting-Started.md @@ -60,7 +60,9 @@ srun -G a100:1 -p students -n 64 factor 1234567890123456789012345678901234567890 ``` Mit der Option `-p` wird die Partition ausgewählt, im obigen Fall die 'students' Partition. Mit der Option `-n` teilen wir Slurm mit, wieviele parallele Tasks (Prozesse) wir ausführen wollen. Da wir pro Computenode 36 physische Cores und pro Core zwei hyperthreading Cores zur Verfügung haben, können wir den Parameter `-n` auf maximal 64 setzen. Die Option `-G a100:1` fordert eine Nvidia A100 GPU für die Berechnung an. Sobald die Computerresource frei ist, wird der Befehl `srun` ausgeführt und es werden auf der CPU 64 Prozesse gestartet. Sobald die Berechnung abgeschlossen ist, wird das Ergebniss auf der Kommandozeile ausgegeben. -Für nicht-interaktive und länger laufende Jobs ist es sinnvoll `sbatch` zu verwenden. Damit muss nicht gewartet werden bis die Workstation frei wird, sondern der Jobscheduler übernimmt das Skript und bringt es zur Ausführung sobald die Hardwareresourcen frei sind. An welcher Reihe sich mein Job befindet, kann mit dem Befehl +Im obigen Befehl, ist die Option `-G a100:1` nicht nötig und nur als Beispiel aufgeführt. Eine GPU ist für diese Berechnung nicht nötig, da der Befehl `factor` die GPU nicht nutzen kann. + +Für nicht-interaktive und länger laufende Jobs ist es sinnvoll den Befehl `sbatch` zu verwenden. Damit muss nicht gewartet werden bis die Workstation frei wird, sondern der Jobscheduler übernimmt das Skript und bringt es zur Ausführung sobald die Hardwareresourcen frei sind. An welcher Reihe sich mein Job befindet, kann mit dem Befehl `squeue` angezeigt werden. @@ -86,18 +88,20 @@ Es ist auch möglich eine interaktive Slurm Session zu nutzen. Dazu kann zum Bei ``` salloc -p staff --time=00:01:00 ``` -Danach können +Danach können wir unsere Befehle interaktiv in der Konsole aufrufen. + +Um die Auslastung der GPUs anzuzeigen kann der Befehl + +``` +sudo nvtop +``` +aufgerufen werden + + -[1]: https://de.wikipedia.org/wiki/Beowulf_(Cluster) "Beowulf Cluster" -[2]: https://openhpc.community/ "OpenHPC" -[3]: https://warewulf.org/ "Warewulf" -[4]: https://docs.oracle.com/en/servers/x86/x86-server-x5-2l/ "Handbücher" -[5]: https://en.wikipedia.org/wiki/Remote_direct_memory_access [6]: https://slurm.schedmd.com/ [7]: https://slurm.schedmd.com/sched_config.html [8]: https://gitea.fhgr.ch/CDS/infrastruktur-dok/src/branch/main/Installation-Tensorflow.md -[9]: https://de.wikipedia.org/wiki/Network_File_System -[10]:https://top500.org/ [11]:https://www.tensorflow.org/guide/checkpoint \ No newline at end of file