Spark在Windows下的环境搭建及pyspark的使用

这篇具有很好参考价值的文章主要介绍了Spark在Windows下的环境搭建及pyspark的使用。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

  一、JDK的安装

    Spark是一个用于大数据处理的开源框架,它是用Scala编写的,而Scala是一种运行在Java虚拟机(JVM)上的编程语言,因此它依赖于Java的运行环境。所以首先需要安装JDK(JavaTM Platform Standard Edition Development Kit),并将环境变量配置好。

可参考我的另一篇博客:

二、Spark的安装

1.下载Spark

        从Spark官网进行下载:Apache Spark™ - Unified Engine for large-scale data analytics,点击Download

Spark在Windows下的环境搭建及pyspark的使用,spark,大数据,分布式,hadoop,jdk

这里我下载2.2.0版本,滑到下面,选择Archived releases,点击Spark release archives

Spark在Windows下的环境搭建及pyspark的使用,spark,大数据,分布式,hadoop,jdk

找到2.2.0版本

Spark在Windows下的环境搭建及pyspark的使用,spark,大数据,分布式,hadoop,jdk

选择带有Hadoop版本的Spark: spark-2.2.0-bin-hadoop2.7.tgz     

意思是Spark版本是2.2.0,还需安装hadoop2.7版本

Spark在Windows下的环境搭建及pyspark的使用,spark,大数据,分布式,hadoop,jdk

单击即可下载

下载完成后将文件进行解压,得到大约200M的文件: spark-2.2.0-bin-hadoop2.7

Spark在Windows下的环境搭建及pyspark的使用,spark,大数据,分布式,hadoop,jdk

最好解压到一个盘的根目录下,并重命名为Spark,简单不易出错。并且需要注意的是,在Spark的文件目录路径名中,不要出现空格和中文,类似于“Program Files”这样的文件夹名是不被允许的,我放的位置是D:\Spark

2.配置环境变量

系统变量创建SPARK_HOME:D:\Spark\spark-2.2.0-bin-hadoop2.7

Spark在Windows下的环境搭建及pyspark的使用,spark,大数据,分布式,hadoop,jdk

系统变量中的Path添加:%SPARK_HOME%\bin 

3.测试是否安装成功

Win+R键打开运行窗口,输入cmd,命令行串口输入spark-shell

出现下图即安装成功

Spark在Windows下的环境搭建及pyspark的使用,spark,大数据,分布式,hadoop,jdk

        这时开启的是Spark的交互式命令行模式,但直接使用很有可能会碰到各种错误,如下图,这里主要是因为Spark是基于hadoop的,所以这里还需配置一个Hadoop的运行环境。

Spark在Windows下的环境搭建及pyspark的使用,spark,大数据,分布式,hadoop,jdk

三、Hadoop的安装

1.下载Hadoop

下载上面spark对应版本的hadoop 2.7:Hadoop Releases

我这里选择2.7.1版本

Spark在Windows下的环境搭建及pyspark的使用,spark,大数据,分布式,hadoop,jdk

选择好相应版本并点击后,进入详细的下载页面,如下图所示

Spark在Windows下的环境搭建及pyspark的使用,spark,大数据,分布式,hadoop,jdk

上面的src版本就是源码,需要对Hadoop进行更改或者想自己进行编译的可以下载对应src文件,我这里下载的就是已经编译好的版本,即图中的“hadoop-2.7.1.tar.gz”文件

下载并解压到指定目录,我这里是D:\Hadoop

Spark在Windows下的环境搭建及pyspark的使用,spark,大数据,分布式,hadoop,jdk

2.配置环境变量

系统变量创建HADOOP_HOME:D:\Hadoop\hadoop-2.7.1

Spark在Windows下的环境搭建及pyspark的使用,spark,大数据,分布式,hadoop,jdk

系统变量中的Path添加:%HADOOP_HOME%\bin

3.安装winutils.exe

winutils.exe是在window系统上安装hadoop时必要的文件,可在github上下载

github下载地址:https://github.com/steveloughran/winutils

选择对应安装的Hadoop版本号

Spark在Windows下的环境搭建及pyspark的使用,spark,大数据,分布式,hadoop,jdk

进入到bin目录下

Spark在Windows下的环境搭建及pyspark的使用,spark,大数据,分布式,hadoop,jdk

找到winutils.exe文件,单击下载

Spark在Windows下的环境搭建及pyspark的使用,spark,大数据,分布式,hadoop,jdk

将下载好的winutils.exe文件放入到Hadoop的bin目录下,我是D:\Hadoop\hadoop-2.7.1\bin

Spark在Windows下的环境搭建及pyspark的使用,spark,大数据,分布式,hadoop,jdk

4.测试是否安装成功

Win+R键打开运行窗口,输入cmd,命令行串口输入hadoop

Spark在Windows下的环境搭建及pyspark的使用,spark,大数据,分布式,hadoop,jdk

 四、常见问题

        正常情况下是可以运行成功并进入到Spark的命令行环境下的,但是可能会遇到如下错误:

<console>:14: error: not found: value spark
       import spark.implicits._
              ^
<console>:14: error: not found: value spark
       import spark.sql
              ^

 解决办法是:

用以下命令创建 C:\tmp\hive diroctory 并授予访问权限(777是获取所有权限)

C:\Hadoop\winutils-master\hadoop-2.7.1\bin>winutils.exe chmod -R 777 C:\tmp\hive

删除C盘的本地元存储metastore_db目录(如果存在的话)

C:\Users\<User_Name>\metastore_db

        然后再次开启一个新的cmd窗口,如果正常的话,应该就可以通过直接输入spark-shell来运行Spark了。正常的运行界面应该如下图所示:

Spark在Windows下的环境搭建及pyspark的使用,spark,大数据,分布式,hadoop,jdk

五、Python下Spark开发环境搭建

1、将Spark目录下的pyspark文件夹(D:\Spark\spark-2.2.0-bin-hadoop2.7\python\pyspark)复制到要使用的python环境的安装目录(E:\APP\python3.7.0\Lib\site-packages)里。如图所示:

Spark在Windows下的环境搭建及pyspark的使用,spark,大数据,分布式,hadoop,jdk

2.cmd进入目录(python环境下的Scripts)E:\APP\python3.7.0\Scripts,运行pip install py4j安装py4j库。如图所示:

Spark在Windows下的环境搭建及pyspark的使用,spark,大数据,分布式,hadoop,jdk

3.在系统变量中新建一个PYTHONPATH的系统变量,然后设置好下面变量值

D:\Spark\spark-2.2.0-bin-hadoop2.7\python(根据自己目录更改)

D:\Spark\spark-2.2.0-bin-hadoop2.7\python\lib\py4j-0.10.4-src.zip(根据自己目录更改)

Spark在Windows下的环境搭建及pyspark的使用,spark,大数据,分布式,hadoop,jdk

Spark在Windows下的环境搭建及pyspark的使用,spark,大数据,分布式,hadoop,jdk

后面就可以在VScode或者PyCharm等IDE中使用PySpark了!

参考文献:
Why does spark-shell fail with “error: not found: value spark”? - Stack Overflow
文章来源地址https://www.toymoban.com/news/detail-788454.html

到了这里,关于Spark在Windows下的环境搭建及pyspark的使用的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • (头哥)Spark环境搭建与使用

    第1关:安装Spark 第2关(略,很简单,不适合脚本) 第3关:通过Spark API编写一个独立应用程序 第4关:使用Maven对Java独立应用程序进行编译打包 第5关:使用Maven对Scala独立应用程序进行编译打包

    2024年04月27日
    浏览(10)
  • Spark环境搭建和使用方法

    目录 一、安装Spark (一)基础环境 (二)安装Python3版本 (三)下载安装Spark (四)配置相关文件 二、在pyspark中运行代码 (一)pyspark命令 (二)启动pyspark  三、开发Spark独立应用程序 (一)编写程序 (二)通过spark-submit运行程序  (一)基础环境 安装Spark之前需要安装

    2024年02月04日
    浏览(16)
  • 《PySpark大数据分析实战》-12.Spark on YARN配置Spark运行在YARN上

    📋 博主简介 💖 作者简介:大家好,我是wux_labs。😜 热衷于各种主流技术,热爱数据科学、机器学习、云计算、人工智能。 通过了TiDB数据库专员(PCTA)、TiDB数据库专家(PCTP)、TiDB数据库认证SQL开发专家(PCSD)认证。 通过了微软Azure开发人员、Azure数据工程师、Azure解决

    2024年02月03日
    浏览(23)
  • 大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

    前言:七八九用于Spark的编程实验 大数据开源框架之基于Spark的气象数据处理与分析_木子一个Lee的博客-CSDN博客_spark舆情分析 目录 实验环境: 实验步骤: 一、解压 二、配置环境变量:  三、修改配置文件  1.修改spark-env.sh配置文件: 2.修改配置文件slaves: 3.分发配置文件:

    2024年02月11日
    浏览(22)
  • Python与大数据:Hadoop、Spark和Pyspark的应用和数据处理技巧

      在当今的数字时代,数据成为了无处不在的关键资源。大数据的崛起为企业提供了无限的机遇,同时也带来了前所未有的挑战。为了有效地处理和分析大规模数据集,必须依靠强大的工具和技术。在本文中,我们将探讨Python在大数据领域的应用,重点介绍Hadoop、Spark和Pysp

    2024年02月16日
    浏览(24)
  • spark-shell(pyspark)单机模式使用和编写独立应用程序

    spark有四种部署方式:Local,Standalone,Spark on Mesos,Spark on yarn。第一个为单机模式,后三个为集群模式。 spark-shell支持python和scala,这里使用python。 1.启动pyspark环境 在spark安装目录下 进入之后,如下图:  2.编写程序 新建代码文件WordCount.py,并编写程序 运行代码:python3 Wor

    2024年04月14日
    浏览(12)
  • Linux CentOS下大数据环境搭建(zookeeper+hadoop+hbase+spark+scala)

    本篇文章是结合我个人学习经历所写,如果遇到什么问题或者我有什么错误,欢迎讨论。 百度网盘链接:https://pan.baidu.com/s/1DCkQQVYqYHYtPws9hWGpgw?pwd=zh1y 提取码:zh1y 软件在连接中VMwareWorkstation_V16.2.1_XiTongZhiJia的文件夹下。 双击运行安装包,这里下一步即可。 这里勾选我接受许可

    2024年04月15日
    浏览(41)
  • Spark环境搭建及Spark shell

    环境准备:三台Linux,一个安装Master,其他两台机器安装Worker 下载spark安装包,下载地址:https://spark.apache.org/downloads.html 上传spark安装包到Linux服务器上 解压spark安装包 进入到spark按照包目录并将conf目录下的spark-env.sh.template重命名为spark-env.sh,再修改 将conf目录下的workers.tem

    2024年02月11日
    浏览(18)
  • 在IDEA运行spark程序(搭建Spark开发环境)

           建议大家写在Linux上搭建好Hadoop的完全分布式集群环境和Spark集群环境,以下在IDEA中搭建的环境仅仅是在window系统上进行spark程序的开发学习,在window系统上可以不用安装hadoop和spark,spark程序可以通过pom.xml的文件配置,添加spark-core依赖,可以直接在IDEA中编写spark程序

    2024年02月06日
    浏览(20)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包