forked from CDS/infrastruktur-dok
Update Cluster-PySpark-Howto.md
This commit is contained in:
parent
9811965de8
commit
91a3278307
@ -139,6 +139,9 @@ ssh computenode1
|
||||
export JAVA_HOME="$HOME/miniconda3/envs/spark/bin"
|
||||
export SPARK_HOME="$HOME/spark/spark-3.4.1-bin-hadoop3"
|
||||
export SPARK_CONF_DIR="/tmp/$USER/spark/spark-test/*/spark/conf"
|
||||
```
|
||||
Danach die spark Environment starten
|
||||
```
|
||||
conda activate spark
|
||||
```
|
||||
Danach kann ein beliebiger PySpark Befehl ausgeführt werden. Zum Beispiel eine Sparkshell:
|
||||
@ -146,6 +149,7 @@ Danach kann ein beliebiger PySpark Befehl ausgeführt werden. Zum Beispiel eine
|
||||
```
|
||||
$SPARK_HOME/bin/pyspark
|
||||
```
|
||||
|
||||
## Installation von SparkNLP auf PySpark
|
||||
|
||||
Wie auch andere Python-Bibliotheken kann beispielsweise auch die auf Spark-basierende NLP-Library [SparkNLP][3] über die aufgesetzte virtuelle Umgebung "spark" via pip oder conda installiert werden. Für SparkNLP werden als Ergänzung der Miniconda-Basisumgebung noch folgende Bibliotheken benötigt:
|
||||
|
||||
Loading…
x
Reference in New Issue
Block a user