大数据技术介绍

这篇具有很好参考价值的文章主要介绍了大数据技术介绍。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

为了方便大家梳理清楚大数据学习路线,本文从以下四个方面来介绍大数据技术:
大数据技术栈
大数据发展史
大数据应用
大数据开发岗位

一、大数据技术栈

之前有同事问我怎么转大数据开发,他在网上搜了一堆大数据相关的技术,但是不知道从哪里开始入门,也不知道要学习哪些技术,这些技术栈之间的关系是什么。我一开始转大数据的时候也有点懵逼,整体接触了一遍之后才把大数据技术栈给弄明白了。

做大数据开发,无非要干四件事情,采集、存储、查询、计算。此外,一些开发必备的基础语言能力是需要的。我按照这几个维度,对大数据常见技术栈做了下划分。

大数据技术介绍
基础能力
java不用说,当今世界使用最广泛的语言,做程序员基本必会的,而且大数据生态很多组建都是通过java开发的。python通常用在爬虫,数据分析,机器学习上,部分大数据组件是python开发的,例如airflow。scala底层还是java,由于spark是scala开发的,且scala也集成了很多spark的算子,所以scala一般用在spark开发上。

数据采集
一般通过filebeat,logstash,kafka,flume做日志采集。一些应用系统的数据,也会通过kafka或者binlog的方式同步到大数据组件做存储。

数据存储
这里的数据存储引擎和传统的关系型数据库有很大的区别。常见分布式存储文件系统有hdfs。此外,对于一些非结构化的数据会通过nosql的方式做存储,常见的nosql存储组件有hbase,redis。

数据查询
常见的有hive、spark sql、presto、kylin、impala、durid、clickhouse、greeplum,每个组件都有自己的查询特性和使用场景。这里不展开篇幅详细介绍了,后面慢慢聊。

数据计算
常见的计算方式有流计算和批处理,按实效性又分离线计算和实时计算。对应的计算组件有storm,spark stream,flink。

其它
分布式协调器:大数据组件为了提高可靠性通常是分布式存储的,这样就涉及到各个组件之间的协调同步。最常见的协调器就是zookeeper。
资源管理器:为了提高计算能力,会对计算资源(CPU,内存,磁盘)做分配,常见的组件有yarn,mesos。
调度管理器:调度管理器管理任务何时执行,周期执行,是否重试等。常见的有airflow,dalphine schduler,oozie,azkaban。

二、大数据技术发展史

学习一门技术,知道会用已经够了,至少能解决问题。但是要想走得更远,还是需要知道一门技术的发展历史,通过发展史可以更深刻的理解为何会产生这门技术,它背后这样设计的原有,它的使用场景。

大数据技术的起源
大数据最早是起源于google。大家都知道google主要是提供网页检索服务,而这项服务依赖两个能力:网页的收集,索引的构建。有了这两个能力,我们才能通过检索服务搜索到互联网上的网页。这些网页和索引都需要大量的存储和计算能力。为了提高这两个能力,谷歌发表了三篇重要的论文。
2003年,分布式文件系统GFS。
2004年,大数据分布式计算框架MapReduce。
2006年,NoSql数据库系统。
这三篇论文奠定了大数据技术的基础。

Hadoop技术
受谷歌论文启发,2004年7月Doug和Mike Cafarella在Nutch(Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能)中实现了类似于GFS的功能,也就是HDFS的前身。2005年2月,Mike Cafarella在Nutch中实现了MapReduce的最初版本。GFS和MapReduce作为hadoop前身,2006年hadoop从Nutch项目中分离出来,贡献给了Apache,至此成为Apache顶级项目。

Yahoo的Pig
2006年,为了让MapReduce技术更好使用,雅虎对MapReduce技术做了封装,开发了一套通过类似于SQL脚本查询的工具Pig,使用Pig写SQL会自动转换成MapReduce来执行,大大优化了MapReduce的使用难度。

Facebook的Hive
2007年,facebook对查询方式做了进一步优化,开发出了一套可以直接使用SQL的工具做大数据查询-HIVE,只要懂得SQL的开发人员都能使用这个组件。

Powerset的HBASE
2007年Powerset的工作人员,通过google的论文开发出了BigTable的java版本,即HBASE。2008年HBASE贡献给了Apache。

Spark的产生
2009年,UC伯克利里面的研究员在使用MapReduce做实验项目时,性能无法满足需求。于是着手开始设计spark,基于内存计算的spark性能要远远高于spark


三、大数据应用

大数据技术介绍
推荐领域:电商购物,猜你喜欢。信息流方面,像头条文章推荐,抖音视频推荐。

风控:仿电信诈骗,黄赌毒识别,反洗钱等等。

医疗:通过用户一些医疗信息做疾病的识别。

智慧城市:自动驾驶,智慧物流,城市交通管理等等。


四、大数据开发岗位

基础组件开发:需要扎实的java或者C++语言能力,对大数据组件有独到认知,能对大数据组件结合公司业务场景做二次封装。

大数据应用开发:开发一些大数据工具,比如标签管理系统,元数据管理系统,埋点系统,爬虫系统等。需要具备扎实的java或者python能力,能熟练使用大数据相关组件。

数仓工程师:一般都是做一些BI报表的开发,数据治理。精通SQL,精通常见的数仓模型。

算法工程师:精通常见机器学习算法,能熟练使用大数据组件。结合公司的业务场景灵活的使用算法能力赋能。


更多大数据技术知识,欢迎搜索关注微信公众号“大数据入坑指南”。

大数据技术介绍文章来源地址https://www.toymoban.com/news/detail-461548.html

到了这里,关于大数据技术介绍的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 全网最全的网络安全技术栈内容梳理(持续更新中)

    据我了解现在我国网络安全人才缺口相当大,预计在2023年这方面人才缺口达到327万,我每年这方面的大学生才2W多。现在各政企都在发展数字化变革,对网络安全方面人才也是垂涎若渴,所以大家选择网络安全方向发展是一个不错的选择,只要有互联网的存在,网络安全就需

    2024年02月05日
    浏览(1)
  • 今天给大家介绍一篇基于springboot的医院管理系统的设计与实现

    临近学期结束,你还在做java程序网络编程,期末作业,老师的作业要求觉得大了吗?不知道毕业设计该怎么办?网页功能的数量是否太多?没有合适的类型或系统?等等。这里根据疫情当下,你想解决的问题,今天给大家介绍一篇基于springboot的医院管理系统的设计与实现。 随着科

    2023年04月14日
    浏览(1)
  • AIGC + 任意应用情景组合,从技术层面给了大家体验不同领域的创作的机会

    还在为学技术的时候面对一大堆教程苦恼? 画画、剪辑、建模 ...  啥啥啥都想学 🤯 AIGC 来解决!! 每个人都有机会当五分钟艺术家! AIGC 究竟有多强大? 简单用一个公式来概况 AIGC 的强大之处,就是 AIGC + 任意应用情景组合在一起,就可以生成无限的可能,诞生出巨大的

    2024年02月09日
    浏览(1)
  • 单片机原理与应用以及C51编程技术——硬件体系结构梳理

    内部程序存储器ROM :4K的flash程序存储器; 寄存器区 :4个寄存器区,每个区有R0-R7八个工作寄存器; 8位并行输入输出端口 :P0、P1、P2和P3; 定时/计数器 :2个16位的定时/计数器 T0、T1; 串型口 :全双工串行端口(RXD:接收端、TXD发送端); 中断系统 :设有5个中断源(T

    2023年04月10日
    浏览(2)
  • web服务和前端交互相关的上中游业务技术知识点梳理

    可能之前在学校里面做的很多东西是纯后端的,不会涉及到太多和前端交互的细节,很多新手对前后端交互以及上中游业务链路的整体流程不够清晰,做一些javaWeb项目可以让我们有机会对其进行更深入的研究,最近总结了一下相关技术知识点并结合自己的实践经验来和大家分

    2024年02月21日
    浏览(2)
  • 随机生成工具类---主要目的是为了造大量数据准备

    有时候需要造大量数据进行测试,或者是用于学习,当然了这个工具类的目的就是为了后面测试easyExcel与 easyPoi 两者性能准备的 需要引入一个 hutool工具类 hutool 工具类在此工具类上的影响并不多,好像就一个随机生成年龄的地方,才用到了,如果不想引入可以直接删除即可

    2024年02月04日
    浏览(1)
  • 数据中台、数据平台、数据湖、数据仓库傻傻分不清楚?带你一文理清

    随着数字经济蓬勃发展,数字化转型步伐不断加快,大数据技术的不断更新与迭代,数据技术加速创新融合应用,在数字化发展的不同阶段,数据管理工具历经了从数据库、数据仓库、数据集市与数据湖,再到大数据平台与如今的数据中台的发展历程。大数据平台、数据湖、

    2024年04月26日
    浏览(1)
  • 数据治理----集中、分布的各种模式傻傻分不清楚

    1 、数据治理运营模型类型 :集中式治理;分布式治理;联邦式治理。在集中式管理模式中,数据治 理组织监督所有业务领域中的活动。在分布式管理模式中,每个业务单元中采用相同的数据治理 运营模型和标准。在联邦式管理模式中,数据治理组织与多个业务单元协同,

    2024年02月11日
    浏览(1)
  • 图表数据分析怎么做,举实例给你说清楚

    现在工作离不开图表数据分析,但是图表数据分析却容易出错。而且容易出现错误的地方不是在对数据的处理上,而是在对图表的选择上。   要正确的做好图表数据分析就要选择合适的图表再进行分析。下面跟大家说说怎么解决这个难题,做好图表数据分析: 废话不多说,

    2024年02月05日
    浏览(2)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包