在IDEA运行spark程序(搭建Spark开发环境)

这篇具有很好参考价值的文章主要介绍了在IDEA运行spark程序(搭建Spark开发环境)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

       建议大家写在Linux上搭建好Hadoop的完全分布式集群环境和Spark集群环境,以下在IDEA中搭建的环境仅仅是在window系统上进行spark程序的开发学习,在window系统上可以不用安装hadoop和spark,spark程序可以通过pom.xml的文件配置,添加spark-core依赖,可以直接在IDEA中编写spark程序并运行结果。

一、相关软件的下载及环境配置

1.jdk的下载安装及环境变量配置(我选择的版本是jdk8.0(即jdk1.8),建议不要使用太高版本的,不然配置pom.xml容易报错)

链接:https://pan.baidu.com/s/1deXf6pgMiRca1O724fUOxg 
提取码:sxuy

双击安装包,一直“Next”即可,最好不要安装到C盘,中间修改一下安装路径即可,最后点击“Finish”。我将jdk1.8安装在了D盘目录下的soft文件夹,bin路径如下:

在IDEA运行spark程序(搭建Spark开发环境),大数据开发,intellij-idea,java,ide,spark,大数据

配置环境变量:

在IDEA运行spark程序(搭建Spark开发环境),大数据开发,intellij-idea,java,ide,spark,大数据在IDEA运行spark程序(搭建Spark开发环境),大数据开发,intellij-idea,java,ide,spark,大数据

在IDEA运行spark程序(搭建Spark开发环境),大数据开发,intellij-idea,java,ide,spark,大数据在IDEA运行spark程序(搭建Spark开发环境),大数据开发,intellij-idea,java,ide,spark,大数据

在IDEA运行spark程序(搭建Spark开发环境),大数据开发,intellij-idea,java,ide,spark,大数据

win+R打开命令窗口输入:javac -verison ,进行检测是否成功配置环境变量:

在IDEA运行spark程序(搭建Spark开发环境),大数据开发,intellij-idea,java,ide,spark,大数据

2.IDEA的下载安装(我选择的版本是2019.2.3,建议选择低版本的IDEA)

官网下载地址:IntelliJ IDEA – 领先的 Java 和 Kotlin IDE (jetbrains.com.cn)

在IDEA运行spark程序(搭建Spark开发环境),大数据开发,intellij-idea,java,ide,spark,大数据

3.scala的下载(我选择的版本是2.12.15)安装及环境变量的配置

官网下载地址:The Scala Programming Language (scala-lang.org)

在IDEA运行spark程序(搭建Spark开发环境),大数据开发,intellij-idea,java,ide,spark,大数据

双击打开下载好的安装程序,一直“Next”即可,最好不要安装到C盘,中间修改一下安装路径即可,最后点击“Finish”。我将scala软件安装在了D盘目录下的Develop文件夹,bin路径如下:

在IDEA运行spark程序(搭建Spark开发环境),大数据开发,intellij-idea,java,ide,spark,大数据

配置scala的系统环境变量,将scala安装的bin目录路径加入到系统环境变量path中:

在IDEA运行spark程序(搭建Spark开发环境),大数据开发,intellij-idea,java,ide,spark,大数据

win+R打开命令窗口输入:scala -verison ,进行检测是否成功配置环境变量:

在IDEA运行spark程序(搭建Spark开发环境),大数据开发,intellij-idea,java,ide,spark,大数据

4.scala插件(版本要与IDEA版本保持一致,下载2019.2.3版本)的下载安装

官网地址:Scala - IntelliJ IDEs Plugin | Marketplace

下载完成后,将下载的压缩包解压到IDEA安装目录下的plugins目录下:

在IDEA运行spark程序(搭建Spark开发环境),大数据开发,intellij-idea,java,ide,spark,大数据

5.maven的下载(我选择的版本是3.5.4)与安装,系统环境变量的配置

官网地址:Maven – Download Apache Maven

将对应版本的压缩包下载到本地,并新建一个文件夹Localwarehouse,用来保存下载的依赖文件

在IDEA运行spark程序(搭建Spark开发环境),大数据开发,intellij-idea,java,ide,spark,大数据

配置maven的系统环境配置,跟以上配置的方法一样,将bin目录地址写入path环境变量:

在IDEA运行spark程序(搭建Spark开发环境),大数据开发,intellij-idea,java,ide,spark,大数据

在IDEA运行spark程序(搭建Spark开发环境),大数据开发,intellij-idea,java,ide,spark,大数据

打开maven安装包下的conf文件夹下面的settings.xml,添加如下代码:

<localRepository>D:\\Develop\\maven\\Localwarehouse</localRepository>

在IDEA运行spark程序(搭建Spark开发环境),大数据开发,intellij-idea,java,ide,spark,大数据

添加如下代码用来配置jdk版本:

   <profile>
    <id>jdk-1.8.0</id>
    <activation>
    <activeByDefault>true</activeByDefault>
    <jdk>1.8.0</jdk>
    </activation>
    <properties>
    <maven.compiler.source>1.8.0</maven.compiler.source>
    <maven.compiler.target>1.8.0</maven.compiler.target>
    <maven.compiler.compilerVersion>1.8.0</maven.compiler.compilerVersion>
    </properties>
    </profile>

在IDEA运行spark程序(搭建Spark开发环境),大数据开发,intellij-idea,java,ide,spark,大数据

二、将maven加载到IDEA中

在IDEA运行spark程序(搭建Spark开发环境),大数据开发,intellij-idea,java,ide,spark,大数据在IDEA运行spark程序(搭建Spark开发环境),大数据开发,intellij-idea,java,ide,spark,大数据

三、检测scala插件是否在IDEA中已经安装成功

在IDEA运行spark程序(搭建Spark开发环境),大数据开发,intellij-idea,java,ide,spark,大数据

四、用maven新建一个工程项目

在IDEA运行spark程序(搭建Spark开发环境),大数据开发,intellij-idea,java,ide,spark,大数据在IDEA运行spark程序(搭建Spark开发环境),大数据开发,intellij-idea,java,ide,spark,大数据

在IDEA运行spark程序(搭建Spark开发环境),大数据开发,intellij-idea,java,ide,spark,大数据在IDEA运行spark程序(搭建Spark开发环境),大数据开发,intellij-idea,java,ide,spark,大数据

在IDEA运行spark程序(搭建Spark开发环境),大数据开发,intellij-idea,java,ide,spark,大数据

五、配置pom.xml文件

1.如果只需要在本地运行spark程序,则只需要添加scala-library、spark-core、spark-sql、spark-streaming等依赖,添加代码如下:

<properties>
        <!-- 声明scala的版本 -->
        <scala.version>2.12.15</scala.version>
        <!-- 声明linux集群搭建的spark版本,如果没有搭建则不用写 -->
        <spark.version>3.2.1</spark.version>
        <!-- 声明linux集群搭建的Hadoop版本 ,如果没有搭建则不用写-->
        <hadoop.version>3.1.4</hadoop.version>
    </properties>
    <dependencies>
        <!--scala-->
        <dependency>
            <groupId>org.scala-lang</groupId>
            <artifactId>scala-library</artifactId>
            <version>${scala.version}</version>
        </dependency>
        <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core -->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-core_2.12</artifactId>
            <version>3.2.1</version>
        </dependency>
        <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-sql -->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-sql_2.12</artifactId>
            <version>3.2.1</version>
        </dependency>
        <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-streaming -->
        <dependency>
            <groupId>org.apache.spark</groupId>
            <artifactId>spark-streaming_2.12</artifactId>
            <version>3.2.1</version>
            <scope>provided</scope>
        </dependency>
    </dependencies>

六、新建scala类文件编写代码

当你右键发现无法新建scala类,需要将scala SDK添加到当前项目中。

在IDEA运行spark程序(搭建Spark开发环境),大数据开发,intellij-idea,java,ide,spark,大数据

在IDEA运行spark程序(搭建Spark开发环境),大数据开发,intellij-idea,java,ide,spark,大数据在IDEA运行spark程序(搭建Spark开发环境),大数据开发,intellij-idea,java,ide,spark,大数据

鼠标点击java文件夹,右键new--->Scala Class

在IDEA运行spark程序(搭建Spark开发环境),大数据开发,intellij-idea,java,ide,spark,大数据

在IDEA运行spark程序(搭建Spark开发环境),大数据开发,intellij-idea,java,ide,spark,大数据

在WordCount文件中编写如下代码:

import org.apache.spark.sql.SparkSession
object WordCount {
  def main(args: Array[String]): Unit = {
    val spark = SparkSession
      .builder()
      .master("local[*]")
      .appName("word count")
      .getOrCreate()
    val sc = spark.sparkContext
    val rdd = sc.textFile("data/input/words.txt")
    val counts = rdd.flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_)
    counts.collect().foreach(println)
    println("全部的单词数:"+counts.count())
    counts.saveAsTextFile("data/output/word-count")
  }
}

准备好测试文件words.txt,将文件存放在scalaproject-->data-->input-->words.txt

hello me you her
hello me you
hello me
hello

在IDEA运行spark程序(搭建Spark开发环境),大数据开发,intellij-idea,java,ide,spark,大数据

运行WordCount程序

在IDEA运行spark程序(搭建Spark开发环境),大数据开发,intellij-idea,java,ide,spark,大数据

运行结果:

在IDEA运行spark程序(搭建Spark开发环境),大数据开发,intellij-idea,java,ide,spark,大数据

在IDEA运行spark程序(搭建Spark开发环境),大数据开发,intellij-idea,java,ide,spark,大数据文章来源地址https://www.toymoban.com/news/detail-738771.html

到了这里,关于在IDEA运行spark程序(搭建Spark开发环境)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 尚硅谷大数据技术Spark教程-笔记01【Spark(概述、快速上手、运行环境、运行架构)】

    尚硅谷大数据技术Spark教程-笔记01【Spark(概述、快速上手、运行环境、运行架构)】

    视频地址: 尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili 尚硅谷大数据技术Spark教程-笔记01【Spark(概述、快速上手、运行环境、运行架构)】 尚硅谷大数据技术Spark教程-笔记02【SparkCore(核心编程、案例实操)】 尚硅谷大数据技术Spark教程-笔记03【SparkSQL(概述、核心编程、

    2023年04月21日
    浏览(14)
  • 尚硅谷大数据技术Spark教程-笔记01【Spark(概述、快速上手、运行环境)】

    尚硅谷大数据技术Spark教程-笔记01【Spark(概述、快速上手、运行环境)】

    视频地址: 尚硅谷大数据Spark教程从入门到精通_哔哩哔哩_bilibili 尚硅谷大数据技术Spark教程-笔记01【Spark(概述、快速上手、运行环境、运行架构)】 尚硅谷大数据技术Spark教程-笔记02【SparkCore(核心编程、案例实操)】 尚硅谷大数据技术Spark教程-笔记03【SparkSQL(概述、核心编程、

    2023年04月15日
    浏览(13)
  • Intellij IDEA编写Spark应用程序的环境配置和操作步骤

    Intellij IDEA编写Spark应用程序的环境配置和操作步骤

    本文介绍如何在win系统中使用IDEA开发spark应用程序,并将其打成jar包上传到虚拟机中的三个Ubuntu系统,然后在分布式环境中运行。 主要步骤包括: 安装Scala插件:在Intellij IDEA中安装Scala插件,并重启IDEA。 创建Maven项目:在Intellij IDEA中创建一个Maven项目,选择Scala语言,并添加

    2024年02月12日
    浏览(8)
  • Windows下的Spark环境配置(含IDEA创建工程--《Spark大数据技术与应用》第九章-菜品推荐项目)

    Windows下的Spark环境配置(含IDEA创建工程--《Spark大数据技术与应用》第九章-菜品推荐项目)

    本文适用于《Spark大数据技术与应用》第九章-菜品推荐项目环境配置:` 跟着做就行… 资源都在网盘里面,纯粹的无脑配置… 提示:以下是本篇文章正文内容,所用资源版本过低,用于课本实验 ,且已有Java环境 scala:2.12.8 spark:1.6.2 hadoop:2.6.4 hadoop启动文件exe JAVA 如果按照

    2024年02月09日
    浏览(13)
  • .Net大数据平台Microsoft.Spark环境构建 附可运行源码。

    .Net大数据平台Microsoft.Spark环境构建 附可运行源码。

    前言:大什么数据?什么大数据?什么数据大?挖野菜才是正道。  NBNBNB 老资终于可以不用花太多精力搞python了  。 window环境的.Net大数据平台环境构建 附带可运行源码。 windows 安装jdk 相关坑 java jdk1.8.0_221 安装步骤_云草桑的博客-CSDN博客_jdk1.8.0_221  .NET for Apache Spark 使用

    2024年02月09日
    浏览(11)
  • Spark大数据处理学习笔记(2.4)IDEA开发词频统计项目

    Spark大数据处理学习笔记(2.4)IDEA开发词频统计项目

    该文章主要为完成实训任务,详细实现过程及结果见【http://t.csdn.cn/0qE1L】 从Scala官网下载Scala2.12.15 - https://www.scala-lang.org/download/2.12.15.html 安装在默认位置 安装完毕 在命令行窗口查看Scala版本(必须要配置环境变量) 启动HDFS服务 启动Spark集群 在master虚拟机上创建单词文件

    2024年02月08日
    浏览(19)
  • 大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

    大数据开源框架环境搭建(七)——Spark完全分布式集群的安装部署

    前言:七八九用于Spark的编程实验 大数据开源框架之基于Spark的气象数据处理与分析_木子一个Lee的博客-CSDN博客_spark舆情分析 目录 实验环境: 实验步骤: 一、解压 二、配置环境变量:  三、修改配置文件  1.修改spark-env.sh配置文件: 2.修改配置文件slaves: 3.分发配置文件:

    2024年02月11日
    浏览(51)
  • Intellij IDEA安装配置Spark与运行

    Intellij IDEA安装配置Spark与运行

    目录 Scala配置教程 配置Spark运行环境 编写Spark程序  1、包和导入 2、定义对象 3、主函数 4、创建Spark配置和上下文 5、定义输入文件路径 6、单词计数逻辑 7、输出结果 8、完整代码: IDEA配置Scala:教程 添加Spark开发依赖包(快捷键:Ctrl+Alt+Shift+S) 找到Spark安装目录下的jars文

    2024年04月16日
    浏览(8)
  • idea配置spark环境

    idea配置spark环境

     1. 首先,需要准备maven的环境配置,我的idea是2021版本,(新版应该差不多) 下载maven的版本包,建议去官网下载Maven – Maven Releases History (apache.org) 建议下载版本是3.8.8 然后进入settings里的maven界面 将maven home path 设置为你下载的路径: 此时下面的version会改变 随后打开路径中

    2024年02月03日
    浏览(10)
  • Linux CentOS下大数据环境搭建(zookeeper+hadoop+hbase+spark+scala)

    Linux CentOS下大数据环境搭建(zookeeper+hadoop+hbase+spark+scala)

    本篇文章是结合我个人学习经历所写,如果遇到什么问题或者我有什么错误,欢迎讨论。 百度网盘链接:https://pan.baidu.com/s/1DCkQQVYqYHYtPws9hWGpgw?pwd=zh1y 提取码:zh1y 软件在连接中VMwareWorkstation_V16.2.1_XiTongZhiJia的文件夹下。 双击运行安装包,这里下一步即可。 这里勾选我接受许可

    2024年04月15日
    浏览(40)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包