大数据Hadoop教程-学习笔记06【Hadoop生态综合案例：陌陌聊天数据分析】

这篇具有很好参考价值的文章主要介绍了大数据Hadoop教程-学习笔记06【Hadoop生态综合案例：陌陌聊天数据分析】。希望对大家有所帮助。如果存在错误或未考虑完全的地方，请大家不吝赐教，您也可以点击"举报违法"按钮提交疑问。

视频教程：哔哩哔哩网站：黑马大数据Hadoop入门视频教程，总时长：14:22:04

教程资源：https://pan.baidu.com/s/1WYgyI3KgbzKzFD639lA-_g，提取码：6666

【P001-P017】大数据Hadoop教程-学习笔记01【大数据导论与Linux基础】【17p】

【P018-P037】大数据Hadoop教程-学习笔记02【Apache Hadoop、HDFS】【20p】

【P038-P050】大数据Hadoop教程-学习笔记03【Hadoop MapReduce与Hadoop YARN】【13p】

【P051-P068】大数据Hadoop教程-学习笔记04【数据仓库基础与Apache Hive入门】【18p】

【P069-P083】大数据Hadoop教程-学习笔记05【Apache Hive DML语句与函数使用】【15p】

【P084-P096】大数据Hadoop教程-学习笔记06【Hadoop生态综合案例：陌陌聊天数据分析】【13p】

01【陌陌聊天数据分析案例需求】

P084【01-课程内容的大纲与学习目标】

P085【02-陌陌聊天数据分析案例需求】

02【基于Hive数仓使用SQL实现需求开发】

P086【03-基于Hive数仓实现需求开发--建库建表与加载数据】

P087【04-基于Hive数仓实现需求开发--ETL需求分析与技术支撑】

P088【05-基于Hive数仓实现需求开发--ETL SQL实现】

P089【06-基于Hive数仓实现需求开发--sql编写思路与指标计算part1】

P090【07-基于Hive数仓实现需求开发--指标计算part2】

P091【08-基于Hive数仓实现需求开发--指标计算part3】

03【FineBI实现可视化报表】

P092【09-基于FineBI实现可视化报表--FineBI介绍与安装】

P093【10-基于FineBI实现可视化报表--配置数据源及数据准备】

P094【11-基于FineBI实现可视化报表--标题配置与文本框使用】

P095【12-基于FineBI实现可视化报表--地图、雷达图、柱状图构建】

P096【13-基于FineBI实现可视化报表--饼图、词云、趋势图构建】

01【陌陌聊天数据分析案例需求】

P084【01-课程内容的大纲与学习目标】

目录

陌陌聊天数据分析案例需求

基于Hive数仓使用SQL实现需求开发

基于FineBI实现可视化报表

学习目标

了解案例背景、目标需求、原始数据内容

掌握Hive数仓建库建表、ETL操作

掌握Hive SQL查询统计分析的基本操作

知道FineBI基本报表图形的使用与构建

P085【02-陌陌聊天数据分析案例需求】

数据内容

数据大小：两个文件共14万条数据

列分隔符：制表符 \t

数据字典及样例数据

02【基于Hive数仓使用SQL实现需求开发】

P086【03-基于Hive数仓实现需求开发--建库建表与加载数据】

node1

start-all.sh

nohup /export/server/apache-hive-3.1.2-bin/bin/hive --service metastore

nohup /export/server/apache-hive-3.1.2-bin/bin/hive --service hiveserver2 &

jps

node3

/export/server/apache-hive-3.1.2-bin/bin/beeline

! connect jdbc:hive2://node1:10000

root

--------------1、建库-------------------

--如果数据库已存在就删除
drop database if exists db_msg cascade;
--创建数据库
create database db_msg;
--切换数据库
use db_msg;


--------------2、建表-------------------
--如果表已存在就删除
drop table if exists db_msg.tb_msg_source;
--建表
create table db_msg.tb_msg_source
(
    msg_time           string comment "消息发送时间",
    sender_name        string comment "发送人昵称",
    sender_account     string comment "发送人账号",
    sender_sex         string comment "发送人性别",
    sender_ip          string comment "发送人ip地址",
    sender_os          string comment "发送人操作系统",
    sender_phonetype   string comment "发送人手机型号",
    sender_network     string comment "发送人网络类型",
    sender_gps         string comment "发送人的GPS定位",
    receiver_name      string comment "接收人昵称",
    receiver_ip        string comment "接收人IP",
    receiver_account   string comment "接收人账号",
    receiver_os        string comment "接收人操作系统",
    receiver_phonetype string comment "接收人手机型号",
    receiver_network   string comment "接收人网络类型",
    receiver_gps       string comment "接收人的GPS定位",
    receiver_sex       string comment "接收人性别",
    msg_type           string comment "消息类型",
    distance           string comment "双方距离",
    message            string comment "消息内容"
)
--指定分隔符为制表符
    row format delimited fields terminated by '\t';


--------------3、加载数据-------------------
--上传数据文件到node1服务器本地文件系统（HS2服务所在机器）
--shell：mkdir -p /root/hivedata

--加载数据到表中
load data local inpath '/root/hivedata/data1.tsv' into table db_msg.tb_msg_source;
load data local inpath '/root/hivedata/data2.tsv' into table db_msg.tb_msg_source;

--查询表：验证数据文件是否映射成功
select * from tb_msg_source
limit 10;

--统计行数
select count(*) as cnt
from tb_msg_source;

P087【04-基于Hive数仓实现需求开发--ETL需求分析与技术支撑】

ETL，是英文Extract-Transform-Load的缩写，用来描述将数据从来源端经过抽取（extract）、转换（transform）、加载（load）至目的端的过程。ETL一词较常用在数据仓库，但其对象并不限于数据仓库。

CTAS：Create table …… as select ……

create table t_test as select msg_time, sender_name from tb_msg_source limit 5;

select * from t_test;