欢迎光临虹猫学园
IT实战型人才培养基地
免费咨询电话:0731-83870039
当前位置:网站首页 > IT知识库 > 大数据 >

长沙大数据培训:虹猫学园精讲大数据领域正确的打开方式

长沙大数据培训:虹猫学园精讲大数据领域正确的打开方式
1.大数据的始源

什么是大数据?随着近些年大数据概念的普及,大家对这一词的理解逐渐加深,其定义和特性也是随手可查。那么本次发帖,将以开发者的角度来为大家讲述“大数据”的前世今生。

 

追根溯源,在很久之前,人们只能通过文字来记录信息,即数据的作用就是把所需要的信息记录下来。在过去,数据的流通极其不便,且数据的增长量并不高,其类型也相对单一。而随着时代的向前发展,声音和图像开始被人们记录,通过相应的设备,以相应格式的文件存储在电脑的磁盘之中,我们可以理解,此时的数据的类型不再是单一的文本类型。有意思的是,在《遗失的访谈》:尘封的预见一文中,乔布斯就曾预言:“软件行业正在发生两件激动人心的事:一个是面向对象编程,另一个就是Web。Web将实现我们盼望已久的梦想,计算机不再仅仅充当计算工具,开始承担通信功能。”而这段访谈发生在1995年,可见大数据的兴起已然初露端倪。

互联网的发展引起巨大的时代变革,数据作为其衍生的产物也随之改变。数据流通变得更为简单且频繁。随之而来的是众多电商平台和社交网站,以及各大搜索引擎的蓬勃兴起。无疑,在这个过程中数据发挥了其不可替代的价值与作用。此时,在金融证券领域中积攒了不少的数据,但是与之俱来也出现了相对应的状况。当数据量较小时,我们对其进行分析并不困难,通过相关的建模工具和数据库软件,并结合统计分析的方法,可以得到我们所需的结果。然而,当数据量突然增大,数据的类型变得异常复杂的时候,我们对其了解的需求并未改变,依然期待通过对真实历史数据进行分析,并在可接受的时间范围内获得其潜在的利用价值,以此来应对我们待解决的问题,但是此时的问题解决就变得繁琐复杂,由此,一个庞大的大数据软件体系应运而生。

2.大数据的应用领域

在了解了大数据的相关概念以及致力于解决的问题后,不难看出其存在的核心价值在于创造利润和提高效益。各行各业对其存在和发展都有着难分难解的欲望支持,这也反向助长了其发展,现今大数据无处不在,无时不在。哪怕我们一个个体,我们日常使用的电子设备都在不断地进行着数据的交互。而着眼高处,宏观上看,作为各个软件服务的提供商收集到的数据量是特别庞大的。诸如购物平台的交易数据,金融证券的变化信息,各应用中能够采集到的用户行为信息等等,都包含着大量的信息。

 

不难看出现今的大数据所涉及的领域已是十分广泛,在我国人口大国的国情背景下,数据量之大甚至超乎想象。无论是生物领域的基因大数据,科教领域的智慧教育,和我们生活相关的智慧城市,还是具体到某一个领域的数据分析,何时何地都能发现大数据的影子。从事相关工作的朋友应该了解,对于一个数据计算结果影响更多的还是数据质量,而算法只能起到修正和调优的作用。那么数据质量可以通过数据维度的数量以及数据本身是否失真等因素决定,如果数据维度越全面,那么我们可以将一个角色刻画的更为细致和具体,也更容易做出精确的预测。数据维度大家可以理解为是角色的属性或者发生的某个行为的指标,比如身高,体重,月收入,每个月的花销等等。

3.企业的人才需求

既然大数据的应用领域如此之广,那么是不是对于从业者的要求都是那么高呢?其实不然,因为即便领域不同,但是处理数据的过程是基本一致的。其最直接的不同便在于数据的来源。对于开发者来说,以上的不同可以使用四个字来概括,那就是——业务逻辑。在一个团队中,必然要有一个相应领域的专家去把控大的方向,而并不需要每个人都在这个领域中钻研的很深入。

目前的人才需求主要可以分为两个方向:大数据开发,数据分析师。或许大家听说过开发工程师和算法工程师两个岗位,但是都比较笼统。在大数据领域中,开发工程师需要从事的工作主要包括大数据集群环境的搭建以及维护,应用的封装与开发,实现整个数据分析的各个流程的业务衔接;算法工程师主要负责数据分析的核心部分,即知道了What I want的前提下,进一步确定What I need,最终明确How to do,通常需要数学专业出身,有丰富的业务经验,吃过大量paper的人才能完美胜任。

4.大数据的学习路线

那接下来着重以开发者和学习者的角度,介绍一下如何转型大数据领域并推开大数据的大门。在确定学习路线之前,我们要关注当下的主流技术,针对去学习,比较直接的方式就是在各大招聘网站去看一下岗位职责以及技术要求,或者通过百度指数的走势对比来确定学习的优先级。

现在来说一些专业性的知识,当我们需要处理大数据量的数据时,一台机器是不够的,核心思想就是分而治之,一项任务由多个人,多台机器一同完成,同时为了保证数据存储的稳定性,会采用冗余存储的方式。早年时Google发布了有关于GFS的论文,提出了分布式和扩展性的概念,这也是大数据存储的核心思想,将一份数据存储多份,为此,需要多台计算机协同工作,而Windows在商用服务器方面的表现一直差强人意。所以我们除了大数据相关概念的学习以外,首先要学习的就是Linux操作系统。

 

整个大数据处理软件种类繁多,也各司其职,适用于不同的数据处理需要。从整个数据分析的流程来说,可以分为三大部分:数据采集、数据分析、结果展现。其中数据采集部分根据数据类型的不同也有不同的处理方式。国内主要使用Hadoop作为分布式文件存储系统,称之为HDFS。也就是说首先我们需要想办法将数据存储到HDFS中,对于文本文件的处理较为简单,可以直接进行上传,而对于各应用产生的数据,通常存放在数据库中,我们会使用Sqoop组件进行数据的拉取,同时使用Hive数据仓库以及Hbase分布式数据库进行管理。由于时间的关系我们不能对每一个软件展开介绍,感兴趣的朋友可以关注我的知识星球进行提问。

在数据分析阶段,我们需要先进行准备工作,称之为数据清洗,通常可以使用hql来完成,在数据分析阶段,如果是简单的统计分析,我们可以使用Hadoop封装的MapReduce计算模型来实现,或者使用hql;如果需要进行预测分析,则需要使用相应支持机器学习库的计算框架来完成,如Spark,并且整个的分析过程也会发生一些变化,聚类与分类算法的流程是不同的,随着学习的深入大家可以自行扩展。

在数据可视化部分主要是使用一些web组件进行图表的展现,这一部分对于开发者来说应该算是轻车熟路,主要使用的是百度的开源项目Echarts,特别新版本推出以后,对于千万级别数据的渲染提供了较好的支持。当然,以上介绍的都只是必须掌握的部分,除此之外根据不同的业务场景,还需要针对流数据的处理,低延时的数据分析,深度学习框架等等,在此列举部分技术点:flume,kafka,Storm,Elasticsearch,Cboard。

那么对于还在学校中的同学们,如果你是数学专业,而又想向大数据开发岗位发展,那么恭喜你,你做了一个很明智的选择,虽然在刚开始的时候受限于编码的能力,但是数学对人思维的影响是潜移默化的,后期你所展现出的优势是十分明显的。除了学好本专业的课程以外,还需要付出一番努力,去接触一些相关的基础学习内容,如:Linux,Java,数据库,软件工程,数据结构。如果你想在数据分析方向更有建树,那么根据我目前对市场的了解,企业还是会更认可研究生学历,并且科班出身的统计专业以及数学相关专业的学生,如果是非名校毕业的本科生可能很难在一开始就找到十分心仪的数据分析师的工作,毕竟这一岗位需要的并不仅仅是算法的知识,业务经验同样重要。


在线咨询