diff --git a/Workstations-Getting-Started.md b/Workstations-Getting-Started.md index e0edb26..c6cdf9f 100644 --- a/Workstations-Getting-Started.md +++ b/Workstations-Getting-Started.md @@ -34,7 +34,9 @@ Grundsätzlich folgt Slurm auf den Workstations dem [FIFO mit Backfill][7] Prinz | Students| Für lange laufende Berechnungen| 7 Tage| |Staff| Für lange laufende Berechnungen| 14 Tage | -Falls deine Berechnung weniger als sieben Tage benögtigt, sind dir deine Mitstudierenden sicherlich sehr dankbar, wenn Du den Slurmjob beendest sobald deine Berechnung abgeschlossen ist. Ansonsten bleibt die GPU für 7 Tage blockiert. Deinen laufenden Slurmjob kannst Du mit `squeue` (Zeigt die Job ID an) und `scancel` beenden. +Slurm weiss nicht, wann dein Job sich beendet hat. Da die wenigsten Berechnungen im Studium sieben Tage oder mehr dauern, solltest Du deinen Slurmjob nachdem deine Berechnung abgeschlossen, ist von Hand beenden (Mit `squeue` (Zeigt die Job ID an) und `scancel` beenden). Besser noch, Du gibts beim starten des Batchjobs die ungefähre Laufzeit deiner Berechnung an. Dies kannst Du mit dem Parameter `--time=` angeben. Zum Beispiel `--time=1:30:00`, für einen Slurmjob der maximal 1h 30 Minuten laufen soll. Damit Slurm deine Berechnung nicht vorzeitig abbricht addiere zur Schätzung der Laufzeit deiner Berechnung noch etwas zeitliche Sicherheitsmarge dazu. + +Falls deine Berechnung weniger als sieben Tage benögtigt, sind dir deine Mitstudierenden sicherlich dankbar, wenn Du den Slurmjob beendest sobald deine Berechnung abgeschlossen ist. Ansonsten bleibt die GPU für 7 Tage blockiert. Eine Berechnung die länger als die durch die Partition vorgegebene Zeit läuft wird **abgebrochen**. Diese Limite ist dazu da, damit ein Benutzer nicht irrtümlich oder absichtlich den Cluster für eine unbegrenzte Zeit blockieren kann. Daher empfiehlt es sich dringend, im Skript sogenannte 'Checkpoints' zu implementieren. Wie Checkpoints im Falle von Tensorflow oder Keras implementiert werden, findest Du [hier][11]. Checkpoints schützen übrigens auch vor einem Datenverlust der Berechnung bei einem Stromausfall oder Diskausfall.