大数据技术介绍

这篇具有很好参考价值的文章主要介绍了大数据技术介绍。希望对大家有所帮助。如果存在错误或未考虑完全的地方,请大家不吝赐教,您也可以点击"举报违法"按钮提交疑问。

为了方便大家梳理清楚大数据学习路线,本文从以下四个方面来介绍大数据技术:
大数据技术栈
大数据发展史
大数据应用
大数据开发岗位

一、大数据技术栈

之前有同事问我怎么转大数据开发,他在网上搜了一堆大数据相关的技术,但是不知道从哪里开始入门,也不知道要学习哪些技术,这些技术栈之间的关系是什么。我一开始转大数据的时候也有点懵逼,整体接触了一遍之后才把大数据技术栈给弄明白了。

做大数据开发,无非要干四件事情,采集、存储、查询、计算。此外,一些开发必备的基础语言能力是需要的。我按照这几个维度,对大数据常见技术栈做了下划分。

大数据技术介绍
基础能力
java不用说,当今世界使用最广泛的语言,做程序员基本必会的,而且大数据生态很多组建都是通过java开发的。python通常用在爬虫,数据分析,机器学习上,部分大数据组件是python开发的,例如airflow。scala底层还是java,由于spark是scala开发的,且scala也集成了很多spark的算子,所以scala一般用在spark开发上。

数据采集
一般通过filebeat,logstash,kafka,flume做日志采集。一些应用系统的数据,也会通过kafka或者binlog的方式同步到大数据组件做存储。

数据存储
这里的数据存储引擎和传统的关系型数据库有很大的区别。常见分布式存储文件系统有hdfs。此外,对于一些非结构化的数据会通过nosql的方式做存储,常见的nosql存储组件有hbase,redis。

数据查询
常见的有hive、spark sql、presto、kylin、impala、durid、clickhouse、greeplum,每个组件都有自己的查询特性和使用场景。这里不展开篇幅详细介绍了,后面慢慢聊。

数据计算
常见的计算方式有流计算和批处理,按实效性又分离线计算和实时计算。对应的计算组件有storm,spark stream,flink。

其它
分布式协调器:大数据组件为了提高可靠性通常是分布式存储的,这样就涉及到各个组件之间的协调同步。最常见的协调器就是zookeeper。
资源管理器:为了提高计算能力,会对计算资源(CPU,内存,磁盘)做分配,常见的组件有yarn,mesos。
调度管理器:调度管理器管理任务何时执行,周期执行,是否重试等。常见的有airflow,dalphine schduler,oozie,azkaban。

二、大数据技术发展史

学习一门技术,知道会用已经够了,至少能解决问题。但是要想走得更远,还是需要知道一门技术的发展历史,通过发展史可以更深刻的理解为何会产生这门技术,它背后这样设计的原有,它的使用场景。

大数据技术的起源
大数据最早是起源于google。大家都知道google主要是提供网页检索服务,而这项服务依赖两个能力:网页的收集,索引的构建。有了这两个能力,我们才能通过检索服务搜索到互联网上的网页。这些网页和索引都需要大量的存储和计算能力。为了提高这两个能力,谷歌发表了三篇重要的论文。
2003年,分布式文件系统GFS。
2004年,大数据分布式计算框架MapReduce。
2006年,NoSql数据库系统。
这三篇论文奠定了大数据技术的基础。

Hadoop技术
受谷歌论文启发,2004年7月Doug和Mike Cafarella在Nutch(Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能)中实现了类似于GFS的功能,也就是HDFS的前身。2005年2月,Mike Cafarella在Nutch中实现了MapReduce的最初版本。GFS和MapReduce作为hadoop前身,2006年hadoop从Nutch项目中分离出来,贡献给了Apache,至此成为Apache顶级项目。

Yahoo的Pig
2006年,为了让MapReduce技术更好使用,雅虎对MapReduce技术做了封装,开发了一套通过类似于SQL脚本查询的工具Pig,使用Pig写SQL会自动转换成MapReduce来执行,大大优化了MapReduce的使用难度。

Facebook的Hive
2007年,facebook对查询方式做了进一步优化,开发出了一套可以直接使用SQL的工具做大数据查询-HIVE,只要懂得SQL的开发人员都能使用这个组件。

Powerset的HBASE
2007年Powerset的工作人员,通过google的论文开发出了BigTable的java版本,即HBASE。2008年HBASE贡献给了Apache。

Spark的产生
2009年,UC伯克利里面的研究员在使用MapReduce做实验项目时,性能无法满足需求。于是着手开始设计spark,基于内存计算的spark性能要远远高于spark


三、大数据应用

大数据技术介绍
推荐领域:电商购物,猜你喜欢。信息流方面,像头条文章推荐,抖音视频推荐。

风控:仿电信诈骗,黄赌毒识别,反洗钱等等。

医疗:通过用户一些医疗信息做疾病的识别。

智慧城市:自动驾驶,智慧物流,城市交通管理等等。


四、大数据开发岗位

基础组件开发:需要扎实的java或者C++语言能力,对大数据组件有独到认知,能对大数据组件结合公司业务场景做二次封装。

大数据应用开发:开发一些大数据工具,比如标签管理系统,元数据管理系统,埋点系统,爬虫系统等。需要具备扎实的java或者python能力,能熟练使用大数据相关组件。

数仓工程师:一般都是做一些BI报表的开发,数据治理。精通SQL,精通常见的数仓模型。

算法工程师:精通常见机器学习算法,能熟练使用大数据组件。结合公司的业务场景灵活的使用算法能力赋能。


更多大数据技术知识,欢迎搜索关注微信公众号“大数据入坑指南”。

大数据技术介绍文章来源地址https://www.toymoban.com/news/detail-461548.html

到了这里,关于大数据技术介绍的文章就介绍完了。如果您还想了解更多内容,请在右上角搜索TOY模板网以前的文章或继续浏览下面的相关文章,希望大家以后多多支持TOY模板网!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处: 如若内容造成侵权/违法违规/事实不符,请点击违法举报进行投诉反馈,一经查实,立即删除!

领支付宝红包 赞助服务器费用

相关文章

  • 离线和实时数仓技术架构梳理

    离线数仓架构基本都是基于 Hive进行构建,数据分层方式如下: ODS Operational Data store,贴源层(原始数据层) 从各个业务系统、数据库或消息队列采集的原始数据,只做简单处理,尽可能维持数据原貌 DWD Data Warehouse Detail,数据明细层 将贴源层的原始数据进行清洗补全后存入

    2023年04月09日
    浏览(14)
  • 给大家介绍几个手机冷门但好用的小技巧

    技巧一:拍照识别植物 手机的拍照识别植物功能是指在使用手机相机时,可以通过对植物进行拍照,并通过植物识别技术,获取植物的相关信息和资料。其主要优点如下: 方便实用:使用拍照识别植物功能,用户只需对植物进行拍照即可获取相关信息,方便快捷。 资料齐全

    2024年02月01日
    浏览(69)
  • 联动规则组件-KOV场景梳理&技术方案

    多场景使用到kov类型组件,但是实现上不统一,各个场景的协议都比较定制,且开发的时候难度较大。所以将组件进行抽离 目标:支撑所有逻辑场景 什么是kov?如下图:  难点:        1、不同类型组件对应的操作符有哪些 ???        2、value组件展示形式,如何确定

    2024年02月17日
    浏览(23)
  • 今天给大家介绍一下华为智选手机与华为手机的区别

    华为智选手机是由华为品牌方与其他公司合作推出的手机产品,虽然其机身上没有“华为”标识,但是其品质和技术水平都是由华为来保证的。这些手机在制造、设计和使用方面都采用了华为的相关技术和标准,因此可以享受到和华为旗舰手机相同的优质使用体验。    目前

    2024年02月09日
    浏览(25)
  • 今天跟大家好好介绍一下接口工具(jmeter、postman、swagger等)

    一、接口都有哪些类型? 接口一般分为两种:1.程序内部的接口 2.系统对外的接口 系统对外的接口:比如你要从别的网站或服务器上获取资源或信息,别人肯定不会把 数据库共享给你,他只能给你提供一个他们写好的方法来获取数据,你引用他提供的接口就能使用他写好的

    2024年02月05日
    浏览(28)
  • 27岁,没有学历,没有技术,大家有什么好的职业发展建议吗?

    我们常常把人的学习能力划分为三个阶段,25岁以前的黄金期,25-28岁的白银期,28-33岁以后的青铜期。主要依据无外乎个人的学习能力、记忆力和精力、生活压力等各方面因素综合考量而来的。一般都是越年轻越有活力,思维更敏捷,学习东西也更快;但也不是说年龄大了就

    2023年04月27日
    浏览(26)
  • 数据中台、数据平台、数据湖、数据仓库傻傻分不清楚?带你一文理清

    随着数字经济蓬勃发展,数字化转型步伐不断加快,大数据技术的不断更新与迭代,数据技术加速创新融合应用,在数字化发展的不同阶段,数据管理工具历经了从数据库、数据仓库、数据集市与数据湖,再到大数据平台与如今的数据中台的发展历程。大数据平台、数据湖、

    2024年04月26日
    浏览(22)
  • 全网最全的 Java 技术栈内容梳理(持续更新中)

    大家好,我是栗筝i,从 2022 年 10 月份开始,我将持续梳理出全面的 Java 技术栈内容,一方面是对自己学习内容进行整合梳理,另一方面是希望对大家有所帮助,使我们一同进步。 ~ Ps:大家还可以加入我的社区:栗筝i的社区,在更新上我将尽量保证文章的高频、高质、高量

    2024年02月10日
    浏览(18)
  • 国外MR/AR重点企业梳理及其核心技术

    一、国外AR/MR重点企业梳理 在增强现实(AR)和混合现实(MR)领域,国外一些知名企业如微软、谷歌、苹果、Magic Leap等在这一领域具有显著的技术优势和市场影响力。以下是对这些企业的简要梳理: 微软(Microsoft) 微软是全球领先的AR/MR技术提供商之一,其产品HoloLens是一

    2024年02月02日
    浏览(23)
  • 数据治理----集中、分布的各种模式傻傻分不清楚

    1 、数据治理运营模型类型 :集中式治理;分布式治理;联邦式治理。在集中式管理模式中,数据治 理组织监督所有业务领域中的活动。在分布式管理模式中,每个业务单元中采用相同的数据治理 运营模型和标准。在联邦式管理模式中,数据治理组织与多个业务单元协同,

    2024年02月11日
    浏览(21)

觉得文章有用就打赏一下文章作者

支付宝扫一扫打赏

博客赞助

微信扫一扫打赏

请作者喝杯咖啡吧~博客赞助

支付宝扫一扫领取红包,优惠每天领

二维码1

领取红包

二维码2

领红包