Update Workstations-Getting-Started.md

This commit is contained in:
Thomas Keller 2024-08-22 09:59:56 +02:00
parent 11b082a073
commit ab06e98f9c

View File

@ -32,15 +32,14 @@ Grundsätzlich folgt Slurm auf den Workstations dem [FIFO mit Backfill][7] Prinz
|-------|--------------|----| |-------|--------------|----|
| Debug | Zum Testen und Experimentieren| 5 Min| | Debug | Zum Testen und Experimentieren| 5 Min|
| Students| Für lange laufende Berechnungen| 7 Tage| | Students| Für lange laufende Berechnungen| 7 Tage|
|Staff| Für lange laufende Berechnungen| 14 Tage |
Falls deine Berechnung weniger als sieben Tage benögtigt, sind dir deine Mitstudierenden sicherlich sehr dankbar, wenn Du den Slurmjob beendest sobald deine Berechnung abgeschlossen ist. Ansonsten bleibt die GPU für 7 Tage blockiert. Falls deine Berechnung weniger als sieben Tage benögtigt, sind dir deine Mitstudierenden sicherlich sehr dankbar, wenn Du den Slurmjob beendest sobald deine Berechnung abgeschlossen ist. Ansonsten bleibt die GPU für 7 Tage blockiert. Deinen laufenden Slurmjob kannst Du mit `squeue` (Zeigt die Job ID an) und `scancel` beenden.
Eine Berechnung die länger als die durch die Partition vorgegebene Zeit läuft wird **abgebrochen**. Diese Limite ist dazu da, damit ein Benutzer nicht irrtümlich oder absichtlich den Cluster für eine unbegrenzte Zeit blockieren kann. Daher empfiehlt es sich dringend, im Skript sogenannte 'Checkpoints' zu implementieren. Wie Checkpoints im Falle von Tensorflow oder Keras implementiert werden, findest Du [hier][11]. Checkpoints schützen übrigens auch vor einem verlust der Berechnung bei einem Stromausfall oder Diskausfall. Eine Berechnung die länger als die durch die Partition vorgegebene Zeit läuft wird **abgebrochen**. Diese Limite ist dazu da, damit ein Benutzer nicht irrtümlich oder absichtlich den Cluster für eine unbegrenzte Zeit blockieren kann. Daher empfiehlt es sich dringend, im Skript sogenannte 'Checkpoints' zu implementieren. Wie Checkpoints im Falle von Tensorflow oder Keras implementiert werden, findest Du [hier][11]. Checkpoints schützen übrigens auch vor einem Datenverlust der Berechnung bei einem Stromausfall oder Diskausfall.
Falls Du deutlich mehr als die oben erwähnten Zeitspannen für eine Berechnung brauchst, melde dich bitte beim ![DAViS Admin](mailto:davis-admin@fhgr.ch). Falls Du deutlich mehr als die oben erwähnten Zeitspannen für eine Berechnung brauchst, melde dich bitte beim ![DAViS Admin](mailto:davis-admin@fhgr.ch).
Übrigens: sobald deine Berechnung fertig ist (aber dein Slurmjob noch nicht) beende auch deinen Slurmjob, zum Beispiel mit ```scancel```. Somit wird die GPU für den nächsten Benutzer freigegeben.
## Slurm Commands ## Slurm Commands
Slurm auf den Workstations wird nur zwingend benötigt, falls deine Berechnung auf der GPU ausgeführt werden soll. Jobs, die nur auf der CPU rechnen, müssen Slurm nicht verwenden. Bei sehr intensiver und lange anhaltender CPU Belegung, empfehlen wir jedoch eine Nutzung von Slurm, damit eine parallel laufende GPU Berechnung nicht gestört wird. Slurm auf den Workstations wird nur zwingend benötigt, falls deine Berechnung auf der GPU ausgeführt werden soll. Jobs, die nur auf der CPU rechnen, müssen Slurm nicht verwenden. Bei sehr intensiver und lange anhaltender CPU Belegung, empfehlen wir jedoch eine Nutzung von Slurm, damit eine parallel laufende GPU Berechnung nicht gestört wird.