搭建伪分布式Hadoop

这篇具有很好参考价值的文章主要介绍了搭建伪分布式Hadoop。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

一、Hadoop部署模式

(一)独立模式

  • 在独立模式下,所有程序都在单个JVM上执行,调试Hadoop集群的MapReduce程序也非常方便。一般情况下,该模式常用于学习或开发阶段进行调试程序。

(二)伪分布式模式

  • 在伪分布式模式下, Hadoop程序的守护进程都运行在一台节点上,该模式主要用于调试Hadoop分布式程序的代码,以及程序执行是否正确。伪分布式模式是完全分布式模式的一个特例。

(三)完全分布式模式

  • 在完全分布式模式下,Hadoop的守护进程分别运行在由多个主机搭建的集群上,不同节点担任不同的角色,在实际工作应用开发中,通常使用该模式构建企业级Hadoop系统。

二、搭建伪分布式Hadoop

(一)登录虚拟机

  • 登录ied虚拟机
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节

(二)上传安装包

  • 上传jdk和hadoop安装包
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节

  • 查看上传的安装包
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节

(三)配置免密登录

1、生成密钥对

  • 执行命令:ssh-keygen
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节
  • 执行命令后,连续敲回车,生成节点的公钥和私钥,生成的密钥文件会自动放在/root/.ssh目录下。
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节

2、将生成的公钥发送到本机

  • 执行命令:ssh-copy-id root@ied
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节

3、验证虚拟机是否能免密登录自己

  • 执行命令:ssh ied
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节

(四)配置JDK

1、解压到指定目录

(1)解压到指定目录
  • 执行命令:tar -zxvf jdk-8u231-linux-x64.tar.gz -C /usr/local
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节
(2)查看java解压目录
  • 执行命令:ll /usr/local/jdk1.8.0_231
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节

2、配置JDK环境变量

  • 执行命令:vim /etc/profile
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节
export JAVA_HOME=/usr/local/jdk1.8.0_231
export PATH=$JAVA_HOME/bin:$PATH
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
  • 存盘退出
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节

3、让环境变量配置生效

  • 执行命令:source /etc/profile
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节
  • 查看环境变量JAVA_HOME
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节

4、查看JDK版本

  • 执行命令:java -version
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节

5、玩一玩Java程序

  • 编写源程序,执行命令:vim HelloWorld.java
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节
  • 编译成字节码文件,执行命令:javac HelloWorld.java
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节
  • 解释执行类,执行命令:java HelloWorld
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节

(五)配置Hadoop

1、解压hadoop安装包

(1)解压到指定目录
  • 执行命令:tar -zxvf hadoop-3.3.4.tar.gz -C /usr/local
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节
(2)查看hadoop解压目录
  • 执行命令:ll /usr/local/hadoop-3.3.4
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节
(3)常用目录和文件
  • bin目录 - 存放命令脚本
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节
  • etc/hadoop目录 - 存放hadoop的配置文件
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节
  • lib目录 - 存放hadoop运行的依赖jar包
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节
  • sbin目录 - 存放启动和关闭Hadoop等命令
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节
  • libexec目录 - 存放的也是hadoop命令,但一般不常用
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节

2、配置hadoop环境变量

  • 执行命令:vim /etc/profile
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节
export HADOOP_HOME=/usr/local/hadoop-3.3.4
export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root
  • 说明:hadoop 2.x用不着配置用户,只需要前两行即可

3、让环境变量配置生效

  • 执行命令:source /etc/profile
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节

4、查看hadoop版本

  • 执行命令:hadoop version
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节

5、编辑Hadoop环境配置文件 - hadoop-env.sh

  • 执行命令:cd etc/hadoop,进入hadoop配置目录
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节
  • 执行命令:vim hadoop-env.sh,添加三条环境变量配置
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节
  • 存盘退出后,执行命令source hadoop-env.sh,让配置生效
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节

6、编辑Hadoop核心配置文件 - core-site.xml

  • 执行命令:vim core-site.xml
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节
<configuration>
   <!--用来指定hdfs的老大-->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://ied:9000</value>
    </property>
    <!--用来指定hadoop运行时产生文件的存放目录-->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/usr/local/hadoop-3.3.4/tmp</value>
    </property>
</configuration>
  • 由于配置了IP地址主机名映射,因此配置HDFS老大节点可用hdfs://ied:9000,否则必须用IP地址hdfs://192.168.1.100:9000
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节

7、编辑HDFS配置文件 - hdfs-site.xml

  • 执行命令:vim hdfs-site.xml
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节
<configuration>
    <!--设置名称节点的目录-->
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>/usr/local/hadoop-3.3.4/tmp/namenode</value>
    </property>
    <!--设置数据节点的目录-->
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>/usr/local/hadoop-3.3.4/tmp/datanode</value>
    </property>
    <!--设置辅助名称节点-->
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>ied:50090</value>
    </property>
    <!--hdfs web的地址,默认为9870,可不配置-->
    <!--注意如果使用hadoop2,默认为50070-->
    <property>
        <name>dfs.namenode.http-address</name>
        <value>0.0.0.0:9870</value>
    </property>
    <!--副本数,默认为3-->
    <property>
        <name>dfs.replication</name>
        <value>1</value>
    </property>
    <!--是否启用hdfs权限,当值为false时,代表关闭-->
    <property>
        <name>dfs.permissions.enabled</name>
        <value>false</value>
    </property>
</configuration>

8、编辑MapReduce配置文件 - mapred-site.xml

  • 执行命令:vim mapred-site.xml
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节
<configuration>
    <!--配置MR资源调度框架YARN-->
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
    <property>
        <name>yarn.app.mapreduce.am.env</name>
        <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
    </property>
    <property>
        <name>mapreduce.map.env</name>
        <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
    </property>
    <property>
        <name>mapreduce.reduce.env</name>
        <value>HADOOP_MAPRED_HOME=${HADOOP_HOME}</value>
    </property>
</configuration>
  • 后三个属性如果不设置,在运行Hadoop自带示例的词频统计时,会报错:Error: Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster

9、编辑YARN配置文件 - yarn-site.xml

  • 执行命令:vim yarn-site.xml
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节
<configuration>
    <!--配置资源管理器:ied-->
    <property>
        <name>yarn.resourcemanager.hostname</name>
        <value>ied</value>
    </property>
    <!--配置节点管理器上运行的附加服务-->
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <!--关闭虚拟内存检测,在虚拟机环境中不做配置会报错-->
    <property>
        <name>yarn.nodemanager.vmem-check-enabled</name>
        <value>false</value>
    </property>
</configuration>

10、编辑workers文件确定数据节点

  • 说明:hadoop-2.x里配置slaves文件,hadoop-3.x里配置workers文件
  • 执行命令:vim workers
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节
  • 只有1个数据节点,正好跟副本数配置的1一致

(六)格式化名称节点

  • 执行命令:hdfs namenode -format
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节
  • Storage directory /usr/local/hadoop-3.3.4/tmp/namenode has been successfully formatted. 表明名称节点格式化成功。

(七)启动Hadoop服务

1、启动hdfs服务

  • 执行命令:start-dfs.sh
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节

2、启动yarn服务

  • 执行命令:start-yarn.sh
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节

3、查看Hadoop进程

  • 执行命令:jps
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节

  • 说明:start-dfs.shstart-yarn.sh可以用一条命令start-all.sh来替换
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节

(八)查看Hadoop WebUI

  • 在浏览器里访问http://ied:9870
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节
  • 查看文件系统
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节
  • 根目录下没有任何内容
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节
  • 创建目录 - BigData
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节
  • 上传一个大文件 - hadoop安装包
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节
  • Hadoop3.x里文件块尺寸 - 128MB,安装包有673.24MB,需要切分成6块
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节
  • 删除文件和目录
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节

(九)关闭Hadoop服务

1、关闭hdfs服务

  • 执行命令:stop-dfs.sh
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节

2、关闭yarn服务

  • 执行命令:stop-yarn.sh
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节

  • 说明:stop-dfs.shstop-yarn.sh可以用一条命令stop-all.sh来替换
    搭建伪分布式Hadoop,数据清洗和预处理,大数据离线分析,分布式,hadoop,大数据,1024程序员节文章来源地址https://www.toymoban.com/news/detail-737751.html

到了这里,关于搭建伪分布式Hadoop的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • Hadoop完全分布式搭建

    Hadoop完全分布式搭建

    1.下载VM 2.下载Centos镜像 3.下载hadoop 4.下载FinalShell 5.下载jdk文件  6.下载hive,数据仓库学习大数据专业的用的到     注:开启虚拟机把鼠标放入屏幕点击后消失,使用键盘上下键进行选择   注:点击之后,什么都不动,再点击完成(因为它自动帮我们分区了) 注:我们配置

    2024年02月04日
    浏览(14)
  • Hadoop分布式集群搭建

    Hadoop分布式集群搭建

    集群以三台电脑搭建,每台电脑创建一个UbuntuKylin虚拟机,集群以三台UbuntuKylin虚拟机为基础搭建,虚拟机主机名分别为hadoop101、hadoop111和hadoop121。IP地址分别为192.168.214.101、192.168.214.111和192.168.214.121。 主机名 IP地址: hadoop101 192.168.214.101 hadoop111 192.168.214.111 hadoop121 192.168.214

    2024年02月03日
    浏览(13)
  • Hadoop的完全分布式搭建

    Hadoop的完全分布式搭建

    主机名 Hadoop10 Hadoop11 Hadoop12 网络 192.168.10.10 192.168.10.11 192.168.10.12 用户 hadoop root hadoop root hadoop root HDFS NameNode DateNode DateNode Secondary NameNode DataNode YARN NodeManager NodeManager ResourceManager NodeManager 安装虚拟机系统,省略 第一步:网卡配置 使用 vi 编辑器编辑系统的网卡配置文件,配置以下

    2024年02月08日
    浏览(14)
  • hadoop平台完全分布式搭建

    安装前准备 一、设置ssh免密登录 1.编辑hosts文件,添加主机名映射内容 vim  /etc/hosts 添加内容: 172.17.0.2      master 172.17.0.3      slave1 172.17.0.4      slave2 2.生成公钥和私钥 ssh-keygen –t rsa 然后按三次回车 3.复制公钥到其他容器(包括自己) ssh-copy-id master ssh-copy-id slav

    2024年03月17日
    浏览(14)
  • Hadoop 完全分布式集群搭建

    Hadoop 完全分布式集群搭建

    部署前可以先了解下 Hadoop运行模式及目录结构-CSDN博客 服务 hadoop102 hadoop103 hadoop104 NameNode √ DataNode √ √ √ Secondary NameNode √ ResourceManager √ NodeManager √ √ √ JobHistoryServer √ IPv4 192.168.88.102 192.168.88.103 192.168.88.104 NodeObject master worker1 worker2 最小化安装 Neokylin7.0 用于搭建 Had

    2024年02月04日
    浏览(31)
  • 【Hadoop】完全分布式集群搭建

    【Hadoop】完全分布式集群搭建

    大家好,我是向阳花花花花,这篇文章是我历时三天,推翻重做两小时进行搭建的Hadoop集群(完全分布式)个人笔记和感想,收录于初心的《大数据》专栏。 🏠 个人主页:初心%个人主页 🧑 个人简介:大家好,我是初心,一名正在努力的双非二本院校计算机专业学生 💕

    2024年02月15日
    浏览(16)
  • HADOOP 伪分布式集群搭建

    HADOOP 伪分布式集群搭建

    由于笔者这里使用的是vmware 虚拟机 采用centos7 linux 操作系统进行搭建,所以一下示例均以centos7进行示例 1.  搭建vmware 虚拟机 (1)创建好虚拟机后采用linux ISO镜像文件启动安装centos7操作系统 (其 它方式也可以) (2)完成之后设置网络模式,笔者采用桥接模式进行设置  

    2024年02月01日
    浏览(9)
  • Hadoop完全分布式集群搭建

    Hadoop完全分布式集群搭建

    1.在虚拟机关机的状态下选择克隆 2.开始克隆 3.选择从当前状态创建 4.创建一个完整的克隆 5.选择新的虚拟机存储位置(选择内存充足的磁盘) 6.开始克隆 7.克隆完成 8.同样的方法克隆第二台虚拟机 9.在计算机中存在三台虚拟机 将第一台虚拟机更名为hadoop01 修改hadoop01的主机

    2024年02月02日
    浏览(11)
  • Hadoop分布式集群搭建教程

    Hadoop分布式集群搭建教程

    大数据课程需要搭建Hadoop分布式集群,在这里记录一下搭建过程 搭建Haoop分布式集群所需环境: VMware:VMware-workstation-full-17.0.2-21581411 CentOS:CentOS-7-x86_64-DVD-2003, Hadoop:hadoop-3.1.3.tar JDK:jdk-8u212-linux-x64.tar.gz 新建虚拟机 设置用户 命名虚拟机 自定义硬件,完成虚拟机创建 开始

    2024年02月08日
    浏览(11)
  • Hadoop完全分布式搭建(Hadoop-3.3.0)

    Hadoop完全分布式搭建(Hadoop-3.3.0)

            本教程讲解Hadoop-3.3.0在Ubuntu系统下集群的搭建。         在正式开始之前,需要自己先安装好一台虚拟机。下面给大家整理了过程中需要用到的资源包,可以自行获取: 1.打开终端,输入命令,创建新用户 2.为hadoop用户设置密码 3.为了我们后面操作方便,这里可以给

    2024年04月11日
    浏览(13)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包