大数据技术有哪些(大数据核心技术都有哪些?)

上文说到大数据的由来,重要的事情说上三遍,只有需求才能产生市场,只有满足需求的技术才是有生命力的,才是有价值的。

大数据这门技术无疑是有价值的,因为它就是因为市场的需求才应运而生的。移动互联网时代的到来,手机成为了人们身体的一部分,人们每天花在手机上的时间逐渐超过了睡眠和工作,一举拿下了第一名。随之而来的,就是人们在手机上留下了大量的数据,海量的数据。这些数据有购物的,有聊天的,有刷短视频的,有听歌的,有出行的,有理财的,有游戏的,有看新闻的,有学习的,有点外卖的,甚至有工作相关的,这无数的数据共同组成了一个又一个鲜活人物形象,要不业内总是流传着一个传说:那就是大数据比你自己还了解你。

但是,想要把这些留在移动互联网上的数据变成有意义的结论,是需要很多步骤来进行处理的,这些步骤就是大数据技术的核心。

首先第一步,就是数据的采集。数据如果不采集起来,就像庄稼地里的庄稼不收获,过期就都烂掉了。移动互联网上的数据采集跟庄稼地里的庄稼还不太一样,因为移动互联网里的数据类型非常丰富,有结构化的,非结构化的,有存在数据库里的,有存在日志文件里的。而大数据技术第一步要解决的问题就是把这些有用的数据或者看似有用的数据统统收集起来,为下一步的处理做准备。还是以Hadoop家族来举例,可以参看下图:

大数据技术有哪些(大数据核心技术都有哪些?) 第1张

Hadoop家族

比较常用的包括Sqoop,Flume等工具,它们或可以将数据库中的数据导百思特网到HDFS中,或可以将日志进行收集处理。

接下来,需要对收集上来的数据进行预处理。什么叫预处理?就像收上来的庄稼,总得先晒两天,然后再去加工。数据也是一样,收集上来的数据需要对其进行清洗、合并、转化等操作,这里还有一个专门的术语叫ETL,全称是extract-transform-load,抽取-转换-加载。而这里的概念就非常不统一了,叫啥的都有,有叫ETL的,有叫数据清洗的,有叫数据集成的,概念有一些偏差,但基本上都是属于预处理这一步的,相当于我们在正式做菜之前,先百思特网收拾菜。

与此同时的,还有大数据的存储。这里出现了百思特网一个大数据最核心的思想,就是分布式。分布式的思想可以追溯很久很久以前,具体发明者已无从考证。但是历史上没有任何一个时代能像今天这样在技术上使用分布式的思想。大数据的存储都是以分布式存储的方式来实现的。其实,我们平时都会经常使用分布式的思想来工作:比如我们要运送一批煤炭,一辆车得运送一个月才能运完,时间不够了怎么办?那就用两辆车运;两辆车需要半个月运完,时间还是有点来不及,怎么办?再加车,10辆够不够?10辆的话,3天就运完了。这就便是分布式的思想。同样的,Hadoop中最重要的发明HDFS,就是一个分布式文件系统,它也是Hadoop技术中能够实现分布式存储的关键。有了HDFS,数据可以很容易的存在数量庞大的分布式存储集群当中,还都是通用的存储设备,价格简直不要太香。

大数据技术有哪些(大数据核心技术都有哪些?) 第2张

分布式存储打破了垄断

话说,大数据技术之所以能够发展起来,除了移动互联网的到来使用数据的产生出现了井喷式爆发之外,还有一点就是成本的压力。无论是Google,Facebook,AWS,还是国内的阿里腾讯等,他们本质上是互联网公司,他们像传统行业一样都是IT行业的客户,他们也要买服务器,也要买存储,也要买数据库,而且他们还是大客户,因为,他们的需求量很大,非常大,大到难以想象。

我们都知道,互联网巨头虽然很赚钱,但是巨头们也都是从小不点儿长起来的,更何况互联网赚钱的方式无非也就是会员和广告两种,君不见有多少互联网公司到现在还挣扎在盈利的边缘上。所以,互联网公司非常有动力去钻研各种各样的省钱方法。

这回好了,大数据技术使得整个架构都可以部署在便宜的通用服务器上,再也不用被某些IT巨头卡着脖子了,再也不用背负着为传统IT巨头打工的命运了。

刚才扯远了,回到大数据。再接下来就是数据开发了。根据业务的不同,笼统的可以分为离线开发和实时开发这么两大类。具体使用哪一种,就根据业务的时效性来定吧。这个不需要太多说什么,时效性需求基本一眼就能看出来。实现的工具就更丰富了,从开源软件到商业软件应用尽有,甚至隐隐约约已经出现了内卷的苗头。这里还是以开源的Hadoop来举例,像MapReduce,Spark,Storm都是开发人员最常用的开发工具。

大数据技术有哪些(大数据核心技术都有哪些?) 第3张

你有几个认识的?

再往下就是数据服务了。严格地说,数据服务本质上已经不属于大数据平台的范畴,它更多是数据中台的概念了,也是玩大数据的最终目标。大数据的最终目标就是为了让数据能够持续不断地用起来,让数据能够来源于业务并反哺业务。当然这是传统行业在拥抱大数据时的行动方向,而互联网公司并不存在这种问题,或者说很多互联网公司根本不需要特意去强调数据反哺业务的目标,因为互联网公司原生的就是这么设计的,从业务的属性,到公司的组织架构,再到具体的IT架构,一切的一切都是为了数据更好的采集、集成、存储、分析、挖掘,再到建模、预测,最终完成数据变现。

以上内容就是大数据技术的内部世界。当然大数据技术的实现方式可不只一种,真正在落地应用的过程当中,实践才是检验真理的唯一标准。架构的设计,产品的选型,供应商的甄别,选择开源还是选择商业化软件,这一切都需要根据实现情况选择最优的解决方案。请记住,技术的世界没有好与坏,只有合适与不合适。