大数据处理流程可以概括为哪几步?四个步骤教会你!

在当前这个数据爆炸的时代,随着ICT技术的不断发展和进步,大数据已经不简简单单是数据量大,而是对大量数据的分析,只有通过分析才能获取更多智能的、深入的、有价值的信息。

无论数据如何变幻,应用场景如何精细,数据处理是基础,基于处理后的数据再进行深入的业务应用创新,或融合AI进行自动化的认知决策,是大数据未来发展和应用的主要方向。

本文为多年前闲鱼时光整理的内容,介绍的四大处理过程均为一般性数据处理过程,而四大分析模式则是通行的分析方向(参考了相关信息),需要依据具体的业务进行落地到应用场景方能呈现出数据分析的价值。

一、 大数据处理的四个步骤

大数据的价值是为业务应用创新提供服务,只有业务增值了,数据价值也就体现了。在企业数字化转型过程中,需要解决“数据在哪里、数据去哪里、数据怎么用、数据如何看”的问题,因此数据的处理过程如下图所示:

大数据处理流程可以概括为哪几步?四个步骤教会你!

数据处理过程包括数据采集、数据处理、数据分析、数据挖掘,加上数据源(寻源)和数据可视化(结果),则形成了数据完整应用链,现仅说明四个主体环节。

1、 大数据采集

大数据的采集是指利用多个数据库来接收发自客户端(Web、App、应用系统或IoT传感器等)的数据,用户可以通过分布式数据库来进行简单的查询和处理工作。例如,业务系统使用的传统关系型数据库MySQL或Oracle来存储事务数据;在大数据采集过程中,需要挑战是并发要求高、实时数据周期短等问题,对于不同类型的数据需要按照业务规则或业务需求设定不同的采集策略,例如涉及到突然事件需要采集SNS舆情舆论时则需要即时采集、即时处理。在应用不同的采集工具时,需要考虑采集端与接收端的数据同步,包括数据的时钟同步、断点续传、原始数据与前置机处理后的数据保持唯一正确等问题,并考虑如何在这些数据库之间进行负载均衡和分片。

2、 大数据预处理

如果对采集端采集回来的海量数据进行有效分析,则需要基于一个集中的大型分布式数据库,或者分布式存储集群,并且在导入(ETL)时进行清洗和预处理工作。在数据导入或预处理时,一般用Storm来对数据进行流式计算,用NiFi来对批量数据进行处理,用Flume来对日志数据进行处理,用KafKa来对高吞吐量的分布式消息进行处理,以满足不同业务应用的需求。导入与预处理过程的特点和挑战主要是导入的数据量大,每秒导入量会达到百兆,甚至千兆级别。

3、 大数据分析

利用分布式数据库,或分布式计算集群来对存储于其内的海量数据进行分析和分类汇总,以满足大多数常见的分析需求。如果实时性要求较高的应用,则可以采用GreenPlum、HANA,以及基于MySQL的列式存储Infobright等;而一些批处理,或者基于半结构化数据的需求可以使用Hadoop。该环节大数据分析涉及的数据量大,其对系统资源,特别是I/O、内存会有极大的占用。

4、 大数据挖掘

在大数据处理过程来看,往往将分析与挖掘并提,但实际上他们是有细微的差别的。大数据分析主要是依据已知的需求,对数据进行建模,建立业务所需的主题,然后在数据分析时利用预设的主题进行汇总、统计和分析;而大数据挖掘则没有预先设定的主题,而是在现有数据基础上进行基于各种算法的计算,从而起到预测的效果,实现高级别数据分析的需求。比较典型算法有用于聚类的Kmeans、用于统计学习的SVM和用于分类的NaiveBayes,主要使用的工具有Mahout、Spark等。大数据挖掘环节可以结合AI技术,深入的融合数据和算法后,达到自动认知与自我决策的高度。

大数据的流程环节满足这四个方面的步骤,才能算得上是一个比较完整的大数据处理。

二、 大数据分析的四种模式

大数据分析通常都认为是“预测”为主,其实不尽然。对于大数据的分析,最重要的是利用专业的模型和算法将数据转换为非专业人员也能清楚理解意义和见解的可视化图表,其分析与挖掘结果的可视化不仅仅是预测型的,还有描述型、诊断型和认知型。

大数据处理流程可以概括为哪几步?四个步骤教会你!

1、 描述型

这是最常见的一种,主要是说明:发生了什么?在业务分析中,它提供了衡量标准的方法,例如,每月的营收和损失账单。数据分析师可以通过这些账单,获取大量的客户数据,并对这些信息所反映出来的业务规则进行分析,汇总和说明数据所带来的业务表达或描述。

2、 诊断型

诊断型数据分析主要是说明了:为什么会发生?通过评估业务描述的数据,诊断分析能够让数据分析师深入地分析数据细节,钻取到数据的核心。

设计良好的Dashboard能够整合:按照时间序列进行数据读入、特征过滤和钻取数据等功能,以便更好的分析数据价值。

3、 预测型

预测型分析主要是说明了:可能会发生什么? 事件未来发生的可能性、预测一个可量化的值,或者是预估事情发生的时间点,都可以通过预测模型来完成。

预测模型通常运用各种可变数据来作出预测。数据成员的多样化与可能预测的目标是相关联的(例如,人的年龄越大,越可能发生心脏病,我们可以说年龄与心脏病风险是线性相关的)。在充满不确定性因素的环境下,预测能够帮助做出更好的决定。

4、 认知型

认知型分析基于对“发生了什么”、“为什么会发生”和“可能会发生什么”的分析,来帮助说明:我能做什么?在价值和复杂度上,帮助用户确定要采取的最好的措施。很显然,认知性分析不是一个单独的行为,实际上它是其他很多行为的主导。例如,交通规划分析考量了每条路线的距离、每条线路的行驶速度、以及目前的交通管制等方面因素,来帮助选择最佳的目标路线。

每一种分析方法或模式都对业务分析具有很大的帮助,同时也应用在数据分析的各个方面。在实际数据分析过程中,可能对其中的一种或多种进行综合运用,以达到大数据分析的最佳应用方式。

(0)
打赏 微信扫一扫 微信扫一扫

相关推荐

本站部分文章来源或改编自互联网及其他公众平台,主要目的在于分享信息,版权归原作者所有,内容仅供读者参考,如有侵权请联系我们,如若转载,请注明出处:https://www.5iyuyan.com/101608.html