基于Hadoop的豆瓣影视数据分析

这篇具有很好参考价值的文章主要介绍了基于Hadoop的豆瓣影视数据分析。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

课题简介

       网络电影平台拥有大量的影片库资源,每天数千万用户活跃在平台上,拥有数亿人次的用户点击试看、收藏等行为。在影视作品方面,更是拥有数万的影视作品形成作品库,如此庞大的数据资源库对于电影及电视剧流行趋势的把握有着极为重要的指引作用。通过设计和实现基于Hadoop的影视数据分析系统,可以为影视产业提供重要的数据支持和决策方向,帮助影视从业者更好地了解观众需求、优化内容创作、改进营销策略,提高影视作品的商业成功率和用户满意度。同时,该系统也为研究人员和学者提供了一个丰富的数据资源,用于对影视产业进行深入研究和分析。

过程要求

1、搭建Hadoop分布式系统环境。

2、爬取某网站电影名、评论数、评分、评论、国家、类型、年份等数据,存储到HDFS。

3、数据清洗,去掉缺失值、空值等,做必要的数据转换.

4、MapReduce数据分析,分析维度:所属国家、类型、评论量、评分、等多个维度统计分析。

5、通过数据可视化技术,将复杂的影视数据以直观的图像呈现,并展示流行趋势预测结果。

使用技术

Hadoop、MySQL、Python、Pandas、Java、SpringBoot、Html、JS、CSS、Echarts

使用软件

VMware Workstation、MobaXterm、Idea、DBeaver

1 搭建Hadoop分布式系统环境

       这里我们使用Hadoop完全分布式,搭建过程不再描述,可以在网上搜索教程。

1.启动三台虚拟机

基于Hadoop的豆瓣影视数据分析,hadoop,大数据,spring boot,毕业设计,mapreduce,java

2.开启hadoop集群

用MobaXterm图形界面用户操作工具连接虚拟机,启动hadoop集群:

在配置了 NameNode 的节点(node1) 启动 HDFS:
[root@node1 ~]# start-dfs.sh
在配置了 ResourceManager 的节点(node2) 启动 YARN
[root@node2 ~]$ start-yarn.sh

(下图启动方式是设置了一键启动脚本)基于Hadoop的豆瓣影视数据分析,hadoop,大数据,spring boot,毕业设计,mapreduce,java

3.确认网页能打开

基于Hadoop的豆瓣影视数据分析,hadoop,大数据,spring boot,毕业设计,mapreduce,java

2 爬虫爬取数据集

1.编写Java程序

这里我们使用Java代码爬取豆瓣评分前250名电影数据

目标网站:豆瓣电影 Top 250 (douban.com)

爬取字段:电影名字、国家、年份、简介、类型、评分、评论数量

基于Hadoop的豆瓣影视数据分析,hadoop,大数据,spring boot,毕业设计,mapreduce,java

2.运行Java程序

爬虫已开始,等待程序爬完即可

基于Hadoop的豆瓣影视数据分析,hadoop,大数据,spring boot,毕业设计,mapreduce,java

3.数据展示

爬完后保存为csv文件到本地

基于Hadoop的豆瓣影视数据分析,hadoop,大数据,spring boot,毕业设计,mapreduce,java

4.上传数据

再将该csv文件上传到HDFS,将本地文件上传到HDFS可以直接用鼠标拖拽到虚拟机里,然后再通过shell命令上传至HDFS,也可以通过Java代码直接连接HDFS将本地文件上传到HDFS

基于Hadoop的豆瓣影视数据分析,hadoop,大数据,spring boot,毕业设计,mapreduce,java

点击运行创建文件和上传文件Test

基于Hadoop的豆瓣影视数据分析,hadoop,大数据,spring boot,毕业设计,mapreduce,java

5.结果展示

基于Hadoop的豆瓣影视数据分析,hadoop,大数据,spring boot,毕业设计,mapreduce,java

3 数据清洗

1.安装python3

具体步骤:

sudo yum install python3 

wget https://bootstrap.pypa.io/pip/3.6/get-pip.py

sudo python3.6 get-pip.py

pip3 install pandas

其中第三步sudo python3.6 get-pip.py可能会报以下错误 :

 ERROR: This script does not work on Python 3.6 The minimum supported Python version is 3.7.           Please use https://bootstrap.pypa.io/pip/3.6/get-pip.py instead.

解决方法:

打开安装失败报错所给的网址:bootstrap.pypa.io/pip/3.6/get-pip.py

将网址所有内容ctrl+A、ctrl+C复制,在虚拟机创建get-pip.py文件并将内容ctrl+V进去后保存文件,再次执行sudo python3.6 get-pip.py即可成功安装

基于Hadoop的豆瓣影视数据分析,hadoop,大数据,spring boot,毕业设计,mapreduce,java

下载HDFS文件到虚拟机本地,也可直接从Windows本地拖拽到虚拟机,还可以使用shell命令从HDFS下载到虚拟机本地,代码如下:

hadoop fs -get /bysj/input/data.csv /opt/data/data.csv

以下是通过Java代码下载HDFS文件到虚拟机 

基于Hadoop的豆瓣影视数据分析,hadoop,大数据,spring boot,毕业设计,mapreduce,java

2.编写Python程序

vi sjqx.py 进去编辑一段简单的数据清洗python代码,并保存

import pandas as pd

# 读取 CSV 文件
df = pd.read_csv('/opt/data/data.csv')

# 处理缺失值
df = df.dropna() # 删除包含缺失值的行

# 删除重复行
df = df.drop_duplicates()

# 保存为新的文件
cleaned_csv_path = '/opt/data/new_data.csv'
df.to_csv(cleaned_csv_path, index=False)

3.运行Python程序

在虚拟机输入 python3 sjqx.py 即可运行代码,刷新文件夹后得到新的数据集

基于Hadoop的豆瓣影视数据分析,hadoop,大数据,spring boot,毕业设计,mapreduce,java

4.结果展示

基于Hadoop的豆瓣影视数据分析,hadoop,大数据,spring boot,毕业设计,mapreduce,java

4 数据分析

1.分析维度

这里我将对数据集进行七个方面维度的分析,分别是:

①每个类型电影总数

②电影简介中关键词出现次数总和

③每个国家上榜电影总数

④各个年份上映电影总数

⑤电影类型热度排行榜

⑥每部电影评论总数

⑦电影评分排行榜

2.编写Map Reduce代码

Ⅰ “ 每个类型电影总数 ” Mapper代码(mapper部分):

基于Hadoop的豆瓣影视数据分析,hadoop,大数据,spring boot,毕业设计,mapreduce,java

Ⅱ  “ 每个类型电影总数 ” Reduce代码(reduce部分):

基于Hadoop的豆瓣影视数据分析,hadoop,大数据,spring boot,毕业设计,mapreduce,java

Ⅲ  “ 每个类型电影总数 ” Runner代码(提交部分):

基于Hadoop的豆瓣影视数据分析,hadoop,大数据,spring boot,毕业设计,mapreduce,java

Ⅳ  “ 每个类型电影总数 ” Table代码(上传数据库部分):

基于Hadoop的豆瓣影视数据分析,hadoop,大数据,spring boot,毕业设计,mapreduce,java

Ⅴ 数据库连接 

基于Hadoop的豆瓣影视数据分析,hadoop,大数据,spring boot,毕业设计,mapreduce,java

Ⅵ hadoop连接

基于Hadoop的豆瓣影视数据分析,hadoop,大数据,spring boot,毕业设计,mapreduce,java

Ⅶ 最后将所有维度的mapreduce分析由“ AllMain ”启动项一起启动

基于Hadoop的豆瓣影视数据分析,hadoop,大数据,spring boot,毕业设计,mapreduce,java

3.运行Map Reduce代码

在AllMain中右击运行

基于Hadoop的豆瓣影视数据分析,hadoop,大数据,spring boot,毕业设计,mapreduce,java

4.结果展示

基于Hadoop的豆瓣影视数据分析,hadoop,大数据,spring boot,毕业设计,mapreduce,java

5 数据可视化

数据可视化这里我们使用Spring Boot + Html + Js + Css + MySQL + Echarts实现

1.编写后端代码

①Controll层

基于Hadoop的豆瓣影视数据分析,hadoop,大数据,spring boot,毕业设计,mapreduce,java

②Service层

基于Hadoop的豆瓣影视数据分析,hadoop,大数据,spring boot,毕业设计,mapreduce,java

③Dao层

基于Hadoop的豆瓣影视数据分析,hadoop,大数据,spring boot,毕业设计,mapreduce,java

2.编写前端代码

①Html主页面代码

基于Hadoop的豆瓣影视数据分析,hadoop,大数据,spring boot,毕业设计,mapreduce,java

②Css渲染代码

基于Hadoop的豆瓣影视数据分析,hadoop,大数据,spring boot,毕业设计,mapreduce,java

③Js、Echarts图形代码 

基于Hadoop的豆瓣影视数据分析,hadoop,大数据,spring boot,毕业设计,mapreduce,java

3.运行spring boot项目

右击Application运行即可

基于Hadoop的豆瓣影视数据分析,hadoop,大数据,spring boot,毕业设计,mapreduce,java

4.结果展示

打开浏览器,输入 “ http://localhost:8088/ ” 

 基于Hadoop的豆瓣影视数据分析,hadoop,大数据,spring boot,毕业设计,mapreduce,java

至此整个毕业设计完成!文章来源地址https://www.toymoban.com/news/detail-789038.html

到了这里,关于基于Hadoop的豆瓣影视数据分析的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包赞助服务器费用

相关文章

  • 基于hadoop的气象数据可视化分析

    基于hadoop的气象数据可视化分析

    目 录 摘 要 I Abstract III 1绪论 1 1.1选题背景及意义 1 1.2研究现状及趋势 1 1.3研究主要内容 2 2相关技术简介 3 2.1开发工具 3 2.1.1 JDK1.7 3 2.1.2 eclipse luna 3 2.1.3 Hadoop 2.7.2 3 2.1.4 hbase 1.1.3 3 2.1.5 hive 1.2.1 3 2.1.6 zookeeper 3.4.8 4 2.1.7 mysql 5.5 4 2.1.8 swing 4 2.1.9 VMware Workstation 12 Pro 4 2.1.10其他辅助

    2024年02月02日
    浏览(42)
  • 基于Hadoop的电商数据分析系统设计与实现

    基于Hadoop的电商数据分析系统设计与实现 Design and Implementation of E-commerce Data Analysis System based on Hadoop 目录 2 摘要 3 3 第一章 绪论 4 1.1 研究背景 4 1.2 研究目的与意义 5 1.3 现有研究综述 6 第二章 Hadoop技术介绍 8 2.1 Hadoop概述 8 2.2 Hadoop生态系统 9 2.3 Hadoop数据处理模型 10 第

    2024年02月04日
    浏览(12)
  • 基于Hadoop的京东商城数据分析的研究与实现

    题目 基于 Hadoop 的京东商城数据分析的研究与实现 1. 课题研究立项依据 (1)课题来源 随着互联网信息技术的发展,企业商务模式也发生了翻天覆地的变化,很多传统企业都把目光投向了互联网电子商务。近年来,越来越多的电子商务平台的诞生,引起了电子商务业内的广泛

    2024年02月06日
    浏览(14)
  • 大数据设计基于Hadoop全国天气可视化分析系统

    大数据设计基于Hadoop全国天气可视化分析系统

      全国天气可视化分析系统主要功能模块包括系统首页、轮播图、公告消息、资源管理(天气资讯、资讯分类)系统用户(管理员、普通用户)模块管理(天气信息、降水数据),采取面对对象的开发模式进行软件的开发和硬体的架设,能很好的满足实际使用的需求,完善

    2024年04月14日
    浏览(13)
  • Java大数据分析基于hadoop云旅游系统的设计与实现

    Java大数据分析基于hadoop云旅游系统的设计与实现

    云旅游系统主要功能模块包括景点介绍、酒店信息、酒店民宿、特色餐饮、路线分享、云文物、景点排行、酒店排行、餐饮统计等,采取面对对象的开发模式进行软件的开发和硬体的架设,能很好的满足实际使用的需求,完善了对应的软体架设以及程序编码的工作,系统采取

    2024年02月03日
    浏览(14)
  • 基于Hadoop和Hive的聊天数据(FineBI)可视化分析

    基于Hadoop和Hive的聊天数据(FineBI)可视化分析

    目录 1. 准备工作 2. 新建数据库连接 3. 在Hive数据库中创建存放数据的表 4. ETL数据清洗 5. 指标 ​6. 进入Fine BI数据中心 参考内容https://www.bilibili.com/read/cv15490959/ 数据文件、jar包、插件 https://pan.baidu.com/s/1Mpquo0EgkyZtLHrCPIK2Qg?pwd=7w0k 在FineBI6.0webappswebrootWEB-INFlib下放置jar包 启动

    2024年04月17日
    浏览(55)
  • 大数据背后的绿色收割:基于Hadoop的农产品价格信息智能分析

    大数据背后的绿色收割:基于Hadoop的农产品价格信息智能分析

    随着信息技术的不断发展,农业领域也在数字化的浪潮中逐渐崭露头角。本文将介绍如何利用强大的Hadoop生态系统,结合pandas数据处理、MySQL数据库和Flask框架,对VIP蔬菜网的农产品数据进行深度分析。通过这一创新性的方法,我们将揭示农产品价格的趋势、提供实时价格检索

    2024年01月17日
    浏览(13)
  • 数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析

    数据分享|基于Python、Hadoop零售交易数据的Spark数据处理与Echarts可视化分析

    案例数据集是在线零售业务的交易数据,采用Python为编程语言,采用Hadoop存储数据,采用Spark对数据进行处理分析,并使用Echarts做数据可视化。由于案例公司商业模式类似新零售,或者说有向此方向发展利好的趋势,所以本次基于利于公司经营与发展的方向进行数据分析。

    2024年02月11日
    浏览(20)
  • 加速大规模数据处理和多维分析:基于Lucene和Hadoop的开源项目

    大数据时代带来了处理和分析海量数据的挑战,我很高兴向大家介绍我的个人开源项目:Lucene-Hadoop。这个项目基于Lucene和Hadoop,旨在提供高效的数据存储和查询引擎,加速大规模数据处理和多维分析。 项目介绍 https://github.com/arlixu/lucene-hadoop Lucene-Hadoop利用Lucene和Hadoop的强大

    2024年02月08日
    浏览(14)
  • 【大数据实训】基于Hadoop的2019年11月至2020年2月宁波天气数据分析(五)

    【大数据实训】基于Hadoop的2019年11月至2020年2月宁波天气数据分析(五)

    博主介绍 : ✌ 全网粉丝6W+,csdn特邀作者、博客专家、Java领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于大数据技术领域和毕业项目实战 ✌ 🍅 文末获取项目联系 🍅 2019—2020 学年第二学期《分布式系统原理与技术》期末大作业评分表 评价内容

    2024年02月06日
    浏览(31)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包