From ae45d45a0e6d22c1717215565ec14570a1d66197 Mon Sep 17 00:00:00 2001 From: Thomas Keller Date: Thu, 22 Aug 2024 11:16:45 +0200 Subject: [PATCH] Update Workstations-Getting-Started.md --- Workstations-Getting-Started.md | 17 ++++++++++++++++- 1 file changed, 16 insertions(+), 1 deletion(-) diff --git a/Workstations-Getting-Started.md b/Workstations-Getting-Started.md index 8dbcf4e..b0853b9 100644 --- a/Workstations-Getting-Started.md +++ b/Workstations-Getting-Started.md @@ -139,7 +139,7 @@ In der letzten Ausgabezeile unseres Skripts sollte im Falle eines Erfolgs nun stehen. Falls anstatt der obigen Meldung ein Index Error erscheint (IndexError: list index out of range), hat der Zugriff auf die GPU nicht geklappt. -Als nächstes berechnen wir ein kleines ![Machine Learning Model](https://www.tensorflow.org/tutorials/quickstart/beginner): +Als nächstes berechnen wir ein kleines ![Machine Learning Model](https://www.tensorflow.org/tutorials/quickstart/beginner). Dazu kopieren wir den folgenden Code in eine Datei im Homeverzeichnis mit dem Namen ml.py: ``` # https://www.tensorflow.org/tutorials/quickstart/beginner @@ -183,6 +183,21 @@ probability_model = tf.keras.Sequential([ probability_model(x_test[:5]) ``` +Danach starten wir unseren Tensorflow Container mit dem Befehl + +`apptainer shell --nv "/scratch/${USER}/tensorflow-2.16.1-gpu-modified.sif"` + +Der Kommandozeilen Prompt wechselt nun sein Aussehen zu *Apptainer>* + +Da unser Skript (ml.py) im Homeverzeichnis liegt, können wir dieses mit dem Befehl + +`python3 "$HOME/ml.py"` + +aufstarten. + +Falls während der Initialisierung des Skripts der Fehler `failed call to cuInit: CUDA_ERROR_NO_DEVICE: no CUDA-capable device is detected` auftaucht, wurde die Berechnung auf der CPU ausgeführt und nicht auf der GPU. In diesem Fall nochmals überprüfen ob der Container in einer Slurm Session gestartet wurde (Slurm Session wurde zuerst gestartet und der Container als Zweites) und ob die Slurm Session immer noch aktiv ist (Mit dem Befehl `squeue``. + +