diff --git a/Cluster-PySpark-Howto.md b/Cluster-PySpark-Howto.md index 7dab78f..22b6b4f 100644 --- a/Cluster-PySpark-Howto.md +++ b/Cluster-PySpark-Howto.md @@ -139,6 +139,9 @@ ssh computenode1 export JAVA_HOME="$HOME/miniconda3/envs/spark/bin" export SPARK_HOME="$HOME/spark/spark-3.4.1-bin-hadoop3" export SPARK_CONF_DIR="/tmp/$USER/spark/spark-test/*/spark/conf" +``` +Danach die spark Environment starten +``` conda activate spark ``` Danach kann ein beliebiger PySpark Befehl ausgeführt werden. Zum Beispiel eine Sparkshell: @@ -146,6 +149,7 @@ Danach kann ein beliebiger PySpark Befehl ausgeführt werden. Zum Beispiel eine ``` $SPARK_HOME/bin/pyspark ``` + ## Installation von SparkNLP auf PySpark Wie auch andere Python-Bibliotheken kann beispielsweise auch die auf Spark-basierende NLP-Library [SparkNLP][3] über die aufgesetzte virtuelle Umgebung "spark" via pip oder conda installiert werden. Für SparkNLP werden als Ergänzung der Miniconda-Basisumgebung noch folgende Bibliotheken benötigt: