Update Cluster-PySpark-Howto.md

This commit is contained in:
Thomas Keller 2024-03-07 16:34:25 +01:00
parent 9811965de8
commit 91a3278307

View File

@ -139,6 +139,9 @@ ssh computenode1
export JAVA_HOME="$HOME/miniconda3/envs/spark/bin"
export SPARK_HOME="$HOME/spark/spark-3.4.1-bin-hadoop3"
export SPARK_CONF_DIR="/tmp/$USER/spark/spark-test/*/spark/conf"
```
Danach die spark Environment starten
```
conda activate spark
```
Danach kann ein beliebiger PySpark Befehl ausgeführt werden. Zum Beispiel eine Sparkshell:
@ -146,6 +149,7 @@ Danach kann ein beliebiger PySpark Befehl ausgeführt werden. Zum Beispiel eine
```
$SPARK_HOME/bin/pyspark
```
## Installation von SparkNLP auf PySpark
Wie auch andere Python-Bibliotheken kann beispielsweise auch die auf Spark-basierende NLP-Library [SparkNLP][3] über die aufgesetzte virtuelle Umgebung "spark" via pip oder conda installiert werden. Für SparkNLP werden als Ergänzung der Miniconda-Basisumgebung noch folgende Bibliotheken benötigt: