成人免费xxxxx在线视频软件_久久精品久久久_亚洲国产精品久久久_天天色天天色_亚洲人成一区_欧美一级欧美三级在线观看

在 Windows 上安裝 PySpark 保姆級教程

系統 Windows
PySpark 是一個用 Python 編寫的 Spark 庫,用于使用 Apache Spark 功能運行 Python 應用程序。所以沒有 PySpark 庫可供下載。一切只需要 Spark。按照以下步驟在 Windows 上安裝 PySpark。

安裝 Python 或 Anaconda 發行版

圖片?https://www.python.org/downloads/windows/

從 Python.org? 或 Anaconda 發行版 下載并安裝 Python, 其中包括 Python、Spyder IDE 和 Jupyter notebook。我建議使用 Anaconda,因為它很受機器學習和數據科學社區的歡迎和使用。

圖片

?https://www.anaconda.com/

推薦使用 Anaconda 安裝 PySpark 并運行 Jupyter notebook。

安裝 Java 8

要運行 PySpark 應用程序,需要 Java 8 或更高版本,因此從 Oracle 下載 Java 版本并將其安裝在系統上。

圖片

?https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html

安裝后設置 JAVA_HOME 和 PATH 變量。

JAVA_HOME = C:\Program Files\Java\jdk1.8.0_201
PATH = %PATH%;C:\Program Files\Java\jdk1.8.0_201\bin

在 Windows 上安裝 PySpark

PySpark 是一個用 Python 編寫的 Spark 庫,用于使用 Apache Spark 功能運行 Python 應用程序。所以沒有 PySpark 庫可供下載。一切只需要 Spark。按照以下步驟在 Windows 上安裝 PySpark。

1. 在Spark下載頁面,選擇 Download Spark (第3點) 鏈接進行下載。如果你想使用其他版本的 Spark 和 Hadoop,請從下拉列表中選擇你想要的版本,第 3 點上的鏈接會更改為所選版本,并為你提供更新的下載鏈接。

圖片

?https://spark.apache.org/downloads.html

2. 下載后,解壓二進制文件并將底層文件夾復制 spark-3.0.0-bin-hadoop2.7? 到 c:\apps

3. 現在設置以下環境變量。

SPARK_HOME  = C:\apps\spark-3.0.0-bin-hadoop2.7
HADOOP_HOME = C:\apps\spark-3.0.0-bin-hadoop2.7
PATH=%PATH%;C:\apps\spark-3.0.0-bin-hadoop2.7\bin

如果你還不知道如何在 Windows 上添加或編輯環境變量,請按照以下步驟操作。

1.打開編輯系統環境變量窗口,在高級選項卡下選擇環境變量。

圖片

編輯系統環境變量

2.在以下環境變量屏幕上,通過選擇新建選項添加 SPARK_HOME?、 HADOOP_HOME ?及 JAVA_HOME

圖片

3. 這將打開用戶變量窗口,可以在其中輸入變量名稱和值。

圖片

4.現在編輯PATH變量

5. 通過選擇新建選項添加 Spark、Java 和 Hadoop bin 路徑。

圖片

在 Windows 上安裝 winutils.exe

從winutils 下載 winutils.exe 文件 ,并將其復制到%SPARK_HOME%\bin文件夾中。Winutils 對于每個 Hadoop 版本都不同,因此請從下載正確的版本。

圖片

?https://github.com/steveloughran/winutils/blob/master/hadoop-2.7.1/bin/winutils.exe

PySpark shell

現在打開命令提示符并鍵入 pyspark 命令以運行 PySpark shell。應該在下面看到類似的內容。

圖片

Spark-shell 還創建了一個 Spark 上下文 Web UI,默認情況下,它可以從 http://localhost:4041/ 訪問。

Web UI

Apache Spark 提供了一套 Web UI(Jobs, Stages, Tasks, Storage, Environment, Executors, and SQL)來監控 Spark 應用程序的狀態。

圖片

Spark Web UI

歷史服務器

歷史服務器,記錄你通過 spark-submit、pyspark shell 提交的所有 PySpark 應用程序。在開始之前,首先需要設置以下配置 spark-defaults.conf

spark.eventLog.enabled true
spark.history.fs.logDirectory file:///c:/logs/path

現在,通過運行在 Linux 或 Mac 上啟動歷史服務器。

$SPARK_HOME/sbin/start-history-server.sh

如果在 Windows 上運行 PySpark,可以通過啟動以下命令來啟動歷史服務器。

$SPARK_HOME/bin/spark-class.cmd org.apache.spark.deploy.history.HistoryServer

默認情況下,歷史服務器監聽 18080 端口,你可以使用http://localhost:18080/從瀏覽器訪問它。

圖片

History Server

通過單擊每個 App ID,將在 PySpark Web UI 中獲取應用程序的詳細信息。

責任編輯:武曉燕 來源: 數據STUDIO
相關推薦

2022-12-01 11:41:24

2022-12-02 11:37:47

2022-09-14 11:31:37

MySQL數據庫管理系統

2021-10-23 06:45:43

Windows 11操作系統微軟

2021-08-13 20:47:52

微軟Windows 10Windows

2023-09-27 17:41:59

WindowsVirtualBox

2020-03-09 12:31:08

WindowsWindows 10GNU Emacs

2021-10-07 11:11:45

Windows 11操作系統微軟

2011-04-08 10:10:23

2023-07-06 09:01:33

2024-07-24 20:01:03

2009-03-10 10:53:42

安裝ApacheMySQL

2025-02-24 00:00:09

2023-11-27 00:18:38

2021-02-27 10:37:20

WindowsDocker版本

2012-11-09 09:35:18

Win 8

2022-06-02 07:38:47

Python游戲

2023-05-29 07:39:49

2023-06-26 00:07:14

2024-12-26 12:03:48

LinuxRedis部署
點贊
收藏

51CTO技術棧公眾號

主站蜘蛛池模板: 天天搞天天操 | 国产一区二区在线91 | 中文字幕一区二区三区四区五区 | 久久99久久99精品免视看婷婷 | 亚州精品天堂中文字幕 | 做a的各种视频 | 欧美精品一区二区三区在线 | 亚洲国产精品一区二区三区 | 亚洲高清一区二区三区 | 天天射中文 | 久久久久久国产免费视网址 | av夜夜操 | 精品欧美乱码久久久久久 | 久久成人午夜 | 国产精品毛片久久久久久久 | 日韩欧美一区二区三区在线播放 | 精品国产一区二区三区性色av | av网站免费观看 | 亚洲欧洲日韩精品 中文字幕 | 国产一区二区影院 | 高清人人天天夜夜曰狠狠狠狠 | 欧美mv日韩mv国产网站91进入 | 日本三级网站在线 | 亚洲一区影院 | 亚洲一区二区在线视频 | 91久久视频 | av免费网站在线观看 | 午夜久久久 | 青青草原综合久久大伊人精品 | 欧美日韩激情 | 国产精品一区二区久久久久 | 久久精品成人 | 国精产品一区一区三区免费完 | 国产精品一区二区不卡 | 色性av| 国产精品一区久久久久 | 精品在线 | 中文字幕在线一区 | 中文字幕亚洲欧美 | 91麻豆产精品久久久久久 | 欧美日韩大陆 |