Hadoop——HDFS的Java API操作(文件上传、下载、删除等)

这篇具有很好参考价值的文章主要介绍了Hadoop——HDFS的Java API操作(文件上传、下载、删除等)。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

1、创建Maven项目

hadoop java 上传文件,Hadoop,Java,hadoop,hdfs,java,大数据

2、修改pom.xml文件

<dependencies>
        <!-- Hadoop所需依赖包 -->
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-common</artifactId>
            <version>2.7.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-hdfs</artifactId>
            <version>2.7.0</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>2.7.0</version>
        </dependency>

        <!-- junit测试依赖,因为我只想测试HDFS是否能正常使用 -->
        <dependency>
            <groupId>junit</groupId>
            <artifactId>junit</artifactId>
            <version>4.12</version>
        </dependency>
</dependencies>

3、添加四个配置文件

为避免运行的一些错误,我们将Hadoop的四个重要配置文件添加到resources中

hadoop java 上传文件,Hadoop,Java,hadoop,hdfs,java,大数据

4、创建测试文件JavaAPI

hadoop java 上传文件,Hadoop,Java,hadoop,hdfs,java,大数据

5、初始化

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.*;
import org.junit.After;
import org.junit.Before;
import org.junit.Test;

import java.io.IOException;

public class JavaAPI {
    // 可操作HDFS文件系统的对象
    FileSystem hdfs = null;

    // 测试方法执行前执行,用于初始化操作,避免频繁初始化
    @Before
    public void init() throws IOException {
        // 构造一个配置参数对象,设置一个参数:要访问的HDFS的URI
        Configuration conf = new Configuration();
        // 指定使用HDFS访问
        conf.set("fs.defaultFS","hdfs://localhost:9000");
        // 进行客户端身份的设置(root为虚拟机的用户名,hadoop集群节点的其中一个都可以)
        System.setProperty("HADOOP_USER_NAME","root");
        // 通过FileSystem的静态get()方法获取HDFS文件系统客户端对象
        hdfs = FileSystem.get(conf);
    }

    // 测试方法执行后执行,用于处理结尾的操作,关闭对象
    @After
    public void close() throws IOException {
        // 关闭文件操作对象
        hdfs.close();
    }
}

因为对文件的操作我们都需要获取hdfs对象和关闭对象,所以为避免重复编写,将两个操作对立成单独方法,分别在文件相应操作执行前和执行后执行。

这里"hdfs://localhost:9000"对应core-site.xml的配置

hadoop java 上传文件,Hadoop,Java,hadoop,hdfs,java,大数据

6、文件操作

可以在浏览器访问http://localhost:50070/,点击Browse the file system 查看HDFS文件系统的目录

hadoop java 上传文件,Hadoop,Java,hadoop,hdfs,java,大数据

文件上传

我提前在本地E:\hadoop下创建一个HDFSTest.txt文件文章来源地址https://www.toymoban.com/news/detail-737050.html

    // 上传文件到HDFS文件系统
    @Test
    public void testUploadFileToHDFS() throws IOException {
        // 待上传的文件路径(windows)
        Path src = new Path("E:/hadoop/HDFSTest.txt");
        // 上传之后存放的路径(HDFS)
        Path dst = new Path("/HDFSTest.txt");
        // 上传
        hdfs.copyFromLocalFile(src, dst);
        System.out.println("上传成功");
    }
文件下载
    // 从HDFS下载文件到本地
    @Test
    public void testDownFileToLocal() throws IOException {
        // 待下载的路径(HDFS)
        Path src = new Path("/HDFSTest.txt");
        // 下载成功之后存放的路径(windows)
        Path dst = new Path("E:/hadoop/HDFSTest1.txt");
        // 下载
        hdfs.copyToLocalFile(false,src,dst,true);
        System.out.println("下载成功");
    }
创建目录
    // 创建目录
    @Test
    public void testMkdirFile() throws IOException {
        // 待创建目录路径
        Path src = new Path("/HDFS");
        // 创建目录
        hdfs.mkdirs(src);
        System.out.println("创建成功");
    }
目录重命名
    // 重命名
    @Test
    public void testRenameFile() throws IOException {
        // 重命名之前的名字
        Path src = new Path("/HDFS");
        // 重命名之后的名字
        Path dst = new Path("/HDFS1");
        // 重命名
        hdfs.rename(src,dst);
        System.out.println("重命名成功");
    }
删除目录
    // 删除目录
    @Test
    public void testDeleteFile() throws IOException {
        // 待删除目录路径(HDFS)
        Path src = new Path("/HDFS1");
        // 删除
        hdfs.delete(src, true);
        System.out.println("删除成功");
    }
查看文件信息
    // 查看HDFS目录中的文件信息
    @Test
    public void testCheckFile() throws IOException {
        // 获取迭代器对象("/"表示获取全部目录下的文件)
        RemoteIterator<LocatedFileStatus> listFiles = hdfs.listFiles(new Path("/"), true);
        while (listFiles.hasNext()) {
            LocatedFileStatus fileStatus = listFiles.next();
            // 打印当前文件名
            System.out.println("文件名:" + fileStatus.getPath().getName());
            // 打印当前文件块大小
            System.out.println("文件块大小:" + fileStatus.getBlockSize());
            // 打印当前文件权限
            System.out.println("文件权限:" + fileStatus.getPermission());
            // 打印当前文件内容的长度
            System.out.println("文件内容长度:" + fileStatus.getLen());
            // 获取该文件块的信息(包含长度,数据块,DataNodes的信息)
            BlockLocation[] blockLocations = fileStatus.getBlockLocations();
            for (BlockLocation bl : blockLocations) {
                System.out.println("block-length:" + bl.getLength());
                System.out.println("block-offset:" + bl.getOffset());
                // 获取DataNodes的主机名
                String[] hosts = bl.getHosts();
                for (String host : hosts) {
                    System.out.println(host);
                }
            }
            System.out.println("-----------------分割线-----------------");
        }
    }

到了这里,关于Hadoop——HDFS的Java API操作(文件上传、下载、删除等)的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • Hadoop系统应用之HDFS相关操作 - - Java-API对HDFS的操作(IDEA版)

    通过Java API来操作HDFS文件系统HDFS,相关的操作有:文件上传、文件下载、新建文件夹、查看文件、删除文件。 1.Linux下安装好hadoop,这里使用hadoop2.7.3 2.window解压hadoop2.7.3的包 2.Windows下安装好jdk1.8  3.Windows下安装好IDEA,这里使用IDEA2022 4.Windows下安装好maven,这里使用Maven3.6.3

    2024年02月05日
    浏览(22)
  • hadoop调用HDFS java api实现在HDFS上创建文件夹

    目录 一、前期准备 1、Hadoop集群已配置完毕 2、Linux系统安装jdk 3、安装并破解IntelliJ IDEA 二、通过JAVA API操纵HDFS 1.在IDEA中创建项目  2.在hdfs项目的src-main-java路径下创建一个包,然后在包下创建一个java类实现hdfs的文件操作  3.java类的代码 4.对JAVA程序传入参数后运行程序  5

    2024年02月08日
    浏览(26)
  • 【Hadoop】HDFS API 操作大全

    🦄 个人主页——🎐开着拖拉机回家_Linux,大数据运维-CSDN博客 🎐✨🍁 🪁🍁 希望本文能够给您带来一定的帮助🌸文章粗浅,敬请批评指正!🍁🐥 🪁🍁🪁🍁🪁🍁🪁🍁 🪁🍁🪁🍁🪁🍁🪁 🪁🍁🪁🍁🪁🍁🪁🍁🪁🍁🪁🍁 🍁🪁🍁 🪁🍁🪁🍁 感谢点赞和关注 ,

    2024年02月07日
    浏览(18)
  • Hadoop HDFS的API操作

    hadoop的 Windows依赖文件夹,拷贝hadoop-3.1.0到非中文路径(比如d:)。 配置HADOOP_HOME环境变量 配置Path环境变量。 不能放在包含有空格的目录下,cmd 输入hadoop显示此时不应有 hadoop-3.0.0bin。我放在E:Program Files (x86) hadoop-3.0.0bin中,就出现错误 验证Hadoop环境变量是否正常。双击

    2024年02月05日
    浏览(22)
  • 大数据:HDFS的Shell操作,进程启动管理,文件系统操作命令,创建文件文件夹,下载上传,复制移动,删除,展示,追加内容

    2022找工作是学历、能力和运气的超强结合体,遇到寒冬,大厂不招人,可能很多算法学生都得去找开发,测开 测开的话,你就得学数据库,sql,oracle,尤其sql要学,当然,像很多金融企业、安全机构啥的,他们必须要用oracle数据库 这oracle比sql安全,强大多了,所以你需要学

    2024年02月07日
    浏览(22)
  • Hadoop上传文件到hdfs中

    hadoop常见指令: hdfs dfs -copyFromLocal /local/data /hdfs/data :将本地文件上传到 hdfs 上(原路径只能是一个文件) hdfs dfs -put /tmp/ /hdfs/ :和 copyFromLocal 区别是,put 原路径可以是文件夹等 hadoop fs -ls / :查看根目录文件 hadoop fs -ls /tmp/data :查看/tmp/data目录 hadoop fs -cat /tmp/a.txt :查看

    2023年04月15日
    浏览(15)
  • 从零开始的Hadoop学习(五)| HDFS概述、shell操作、API操作

    1.1 HDFS 产出背景及定义 1) HDFS 产生背景 随着数据量越来越大,在一个操作系统存不下所有的数据,那么就分配到更多的操作系统管理的磁盘中,但是不方便管理和维护,迫切 需要一种系统来管理多台机器上的文件 ,这就是分布式文件管理系统。 HDFS只是分布式文件管理系统

    2024年02月10日
    浏览(13)
  • Windwos安装Hadoop 并在IDEA中利用Maven实现HDFS API操作

    本次hadoop的安装系统为Windows10、Hadoop版本为3.3.6、Maven版本为3.9.4、Java版本为17.0.2。本教程基于前篇教程Hadoop集群、Java安装均完成后的后续教程,如未完成安装请查看前置教程。Hadoop、java安装 ############################################################################################# 此外,大数

    2024年01月18日
    浏览(13)
  • hadoop:hafs:上传文件、删除文件、改变文件权限等常用命令

    Hadoop是一个开源的分布式计算框架,用于处理和分析大数据集。Hadoop提供了大量的命令来管理集群、处理数据以及执行其他相关任务。 🍀以下是一些常用的Hadoop命令的汇总: 1 启动和关闭Hadoop服务 启动所有Hadoop服务 关闭所有Hadoop服务 2 HDFS文件系统命令 上传文件到HDFS 查看

    2024年04月14日
    浏览(9)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包