hive使用文件方式批量导入数据

1年前作者：liuyunaaaaaa分类：Toy博客阅读(7)违法举报

这篇具有很好参考价值的文章主要介绍了hive使用文件方式批量导入数据。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

hive使用文件方式批量导入数据

1. 创建表，确定分隔符，换行符：

CREATE TABLE test(
	id int，
	name STRING,
	tel STRING
)ROW FORMAT DELIMITED 
FIELDS TERMINATED BY ','
LINES TERMINATED BY '\n'
STORED AS TEXTFILE;

2. 编写数据文件：

hive 批量插入,hive,数据库,hadoop,大数据

3. 查看此表所在路径：describe extended 表名;

describe extended test;

hive 批量插入,hive,数据库,hadoop,大数据

4. 将本地生成好的数据上传至服务器

5. 将生成的txt文件put进HDFS集群

hadoop fs -put /home/hadoop/2023ge.txt /hive/warehouse/mdp_uat.db/test

/hive/warehouse/mdp_uat.db/test ：集群路径,第三部查询到的表路径(提前使用 hadoop fs -ls 查看下路径，确认路径正确)；
/home/hadoop/2023ge.txt ：本地路径；

6. 将数据文件导入到表里

注意单引号；文章来源地址https://www.toymoban.com/news/detail-647538.html

在hive执行:
load data inpath '集群中存放事先已经生成好的txt路径，不需要文件名，指定到目录层级即可' into table 目标表名称;

load data inpath '/hive/warehouse/mdp_uat.db/test' into table test;

7. 验证数据是否导入成功

如果数据量大的话，最好不要全部查出来，使用limit 查询部分数据；
select * from test limit 10;

到了这里，关于hive使用文件方式批量导入数据的文章就介绍完了。如果您还想了解更多内容，请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章，希望大家以后多多支持TOY模板网！

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：如若内容造成侵权/违法违规/事实不符，请点击违法举报进行投诉反馈，一经查实，立即删除！

分享到：

领支付宝红包赞助服务器费用

sql文件导入数据库的三种方式
方式一：在数据库的表中直接右键运行sql文件方式二：终端窗口 cmd,管理员身份运行 C:WINDOWSsystem32mysql -uroot -p 输入密码 use 数据库名； mysql use reggie； source sql文件路径（不能含有中文）方式三：在数据库或终端输入sql指令新建查询--输入sql语句--运行
2024年02月03日
浏览(20)
【大数据】Hive 中的批量数据导入
在博客【大数据】Hive 表中插入多条数据中，我简单介绍了几种向 Hive 表中插入数据的方法。然而更多的时候，我们并不是一条数据一条数据的插入，而是以批量导入的方式。在本文中，我将较为全面地介绍几种向 Hive 中批量导入数据的方法。 overwrite ：表示覆盖表中已有数
2024年02月11日
浏览(7)
数据库批量插入数据的三种方法
测试环境：SpringBoot项目+MybatisPlus框架+MySQL数据库+Lombok 方法一： for循环插入（单条）（总耗时：n分钟，每次都要获取连接Connection、释放连接和关闭资源等操作，比较耗时，这里就没测了）方法二：批量插入saveBatch （4~7秒，这里用到了MybatisPLus的saveBatch批量插入方法，实际
2024年02月14日
浏览(9)
【数据库】Python脚本实现数据库批量插入事务
在工作中可能会遇到需要批量插入的场景, 而批量插入的过程具有耗时长的特点, 再此过程很容易出现程序崩溃的情况.为了解决插入大量数据插入后崩溃导致已插入数据无法清理及未插入数据无法筛出的问题, 需要编写一个脚本记录已插入和未插入的数据, 并可以根据记录
2024年02月08日
浏览(8)
SpringBoot+MyBatis批量插入数据的三种方式
最近导入表格数据时需要同时插入修改大量数据，研究了一下有三种实现方式 1、用for循环调用sql插入数据这种方式插入大量数据时，效率非常底下，不推荐 2、利用mybatis的foreach来实现循环插入这种方式插入大量数据时，好处是不用频繁访问数据库，一条sql搞定，效率比较
2024年02月16日
浏览(9)
使用Python创建faker实例生成csv大数据测试文件并导入Hive数仓
这段Python代码用于生成模拟的个人信息数据，并将数据保存为CSV文件。导入必要的模块： csv ：用于处理CSV文件的模块。 random ：用于生成随机数。 faker ：用于生成模拟数据的库。定义生成数据所需的基本信息： file_base_path ：生成的CSV文件的基本路径。 rows_per_file ：每个C
2024年02月07日
浏览(8)
Linux 使用bash创建MYSQL数据库并导入数据库文件
主要是杠一下的数据库123-456.sql，这个神经病一样，试了很多写法
2024年01月22日
浏览(14)
批量数据导入Neo4j的方式
Linux版本： Ubuntu Kylin 16.04 Neo4j版本： Neo4j-3.2.7 最常见的数据格式之一是平面文件上的行和列。这种电子表格格式被用于各种关系型数据库的导入和导出，所以用这种方式检索现有数据是很容易的。很明显，CSV格式就是这种类型。 Cypher中的 LOAD CSV 命令允许我们指定一个文件
2023年04月12日
浏览(10)
Hive基础知识（十）：Hive导入数据的五种方式
1）语法（1）load data:表示加载数据（2）local:表示从本地加载数据到 hive 表；否则从 HDFS 加载数据到 hive 表（3）inpath:表示加载数据的路径（4）overwrite:表示覆盖表中已有数据，否则表示追加（5）into table:表示加载到哪张表（6）student:表示具体的表（7）partition:表示上传到
2024年01月18日
浏览(9)
PostgreSQL数据库——Docker版本的postgres安装 & Navicat连接方式+导入向导使用 & SpringBoot结合Jpa使用PostgreSQL初步
1.PostgreSQL数据库初始，开源； 2.Docker版本的postgres安装，以及挂载启动； 3.Navicat连接方式+导入向导使用，导入csv文件； 4.SpringBoot结合Jpa使用PostgreSQL初步； PostgreSQL是一种开源的关系型数据库管理系统（RDBMS），它是一种高度可扩展的、可靠的、功能丰富的数据库系统。以下是
2024年02月04日
浏览(9)