大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到[xié]取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。[2]
大数据的概念最早由Gartner公司的分析师Doug Laney于2001年提出。他在论文《3D数据管理:控制数据量、速度和多样性》中首次引入了“大数据3V”概念,即数据量(Volume)、速度(Velocity)和多样性(Variety),以描述大数据的基本特征。[29]后来,IBM公司在2012年增加了“真实性(Veracity)”这一维度,扩展为“4V”模型,以应对数据质量和可信度的挑战。[20]随后,业界又引入了“价值(Value)”作为第五个维度,强调从大数据中提取有用信息和洞察的重要性,从而形成了“5V”模型,即数据量、速度、多样性、真实性和价值。[14]

狭义定义

大数据是通过获取、存储、分析,从大容量数据中挖掘价值的一种全新的技术架构。这种架构涉及数据的获取、存储和分析三个核心活动。它面向技术人员,目的在于高效处理和分析大规模数据集,挖掘其隐藏价值。人类科学能够探索应用的一切大数据,都算是狭义大数据。[30]

广义定义

大数据是指物理世界到数字世界的映射和提炼,通过发现其中的数据特征,从而做出提升效率的决策行为。这个世界上存在的河流、山川、日月、星辰、花鸟、鱼虫,乃至人类思维念头、外太空的细微震动,人们生活的这个维度、乃至于所有维度的一切事物,都是大数据。上到宇宙的运动,下到质子活动,全都能够被细化成为一组组的数据。 广义的定义有点哲学意味,突破了人类所定义的科学与宗教范围的一种存在。[30]

特点

数据量:大数据最显著的特征之一。大数据通常涉及极其庞大的数据集,数据量以TB(太字节)、PB(拍字节)甚至ZB(泽字节)[a]为单位计量。[31]数据量的增加来源于各种数据生成源,如社交媒体、传感器、交易记录等。[32]例如,Facebook每天产生超过600TB的数据,而Google每天也需处理超过3.5亿次的搜索请求。[33]
速度:指的是数据生成和处理的速度。在大数据背景下,数据以极快的速度不断生成和流动,这需要实时或近实时的处理能力。[34]例如,社交媒体上的数据和传感器数据需要实时分析,以便快速响应市场变化和环境变化。[35]数据处理速度的提升依赖于先进的计算技术和大规模并行处理能力,以确保能够在短时间内处理大量数据。[36]
多样性:指数据类型的多样性。大数据不仅包括结构化数据(如数据库中的数据),还包括大量的非结构化数据(如文本、图像、视频等)。这种多样性要求采用不同的数据处理和分析技术,以便从各种数据中提取有价值的信息。[37]
真实性:指数据的准确性和可信度。这意味着数据需要尽可能少的噪声、偏差和异常,确保数据来源可靠,数据处理方法合理。[38]数据的不准确性会导致错误的分析结果和决策,从而影响业务的各个方面。例如,在金融行业中,准确的数据对于检测欺诈行为至关重要。[39]
价值:指的是从数据中提取有价值信息的能力。尽管大数据的量非常庞大,但并不是所有的数据都具有同等的价值。关键在于通过分析和处理,提取出对决策和业务发展有用的信息。[40]例如,零售企业可以通过分析顾客购买数据,了解顾客的偏好和消费习惯,从而优化库存管理和营销策略。[41]大数据的真正价值在于能够通过数据分析,提供深刻的洞察和预测,支持智能决策和创新。[42]

发展历程

早期历史

大数据的历史渊源可追溯至18世纪80年代,在1887年至1890年间,美国统计学家赫尔曼·霍尔瑞斯(Herman Hollerith)为统计1890 年的人口普查数据发明了一台电动读取设备,[15]用于快速统计卡片上的洞数,这极大地提升了数据处理效率,使得预计耗时8年的人口普查工作在一年内完成,由此在全球范围内引发了数据处理的新纪元。[16]

概念提出与早期应用

1980年,未来学家阿尔文·托夫勒(Alvin Toffler)在其著作《第三次浪潮》中提出了“大数据”这一概念,在书中,他将“大数据”赞誉为“第三次浪潮的华彩乐章”,预见了数据在未来社会中的重要作用。他认为,信息和数据将成为新的经济资源,影响社会的方方面面,从商业到个人生活,再到政府治理,强调了大数据在未来社会发展中的巨大潜力。[17]
到2001年,Gartner公司的分析师道格·莱尼(Doug Laney)在其技术峰会上创新性地引入了“大数据”的概念,他提出了著名的“三个V”模型,即Volume(数据量)、Velocity(数据速度)和Variety(数据种类),以此描述大数据的特点和挑战。同时,他也明确指出了在数据规模不断扩大的背景下,人们亟需开发和应用新的数据管理和分析手段,以应对日益增长的数据处理需求。[18]后来,IBM公司在2012年又增加了“真实性(Veracity)”这一维度,扩展为“4V”模型。[20]随后,业界又引入了“价值(Value)”作为第五个维度,从而形成了现在人们熟知的“5V”模型。[14]

Google等公司的技术开发

在2003年,Google引入了Google File System (GFS),一种旨在处理大规模数据的分布式文件系统,解决了传统文件系统的瓶颈问题。[19]紧随其后的2004年,Google推出了MapReduce,这是一个编程模型及其实现[b],通过简化并行处理任务,有效地支持大数据集的处理。[43]
2005年,道格·卡廷(Doug Cutting)和迈克·卡法雷拉(Mike Cafarella)在Yahoo!支持下开发了Hadoop[44]这是一个基于GFS和MapReduce的开源软件框架,用于分布式处理大数据。[45]2006年,Google推出了BigTable,一个专为结构化数据设计的分布式存储系统,支持PB级数据存储需求。[45]随后在2008年,Yahoo!又推出了高级数据流语言Pig Latin,简化了复杂的数据转换和分析任务。[46]同年,Facebook也推出了Hive数据仓库系统,允许用户使用类似SQL的查询语言进行数据分析,大大降低了数据处理的门槛。[47]
进入2012年,Apache发布了Hadoop 2.0,引入了YARN,作为新一代资源管理框架,提高了资源利用效率。[48]同年,Apache Spark被引入,其核心特点是数据能在内存中处理,大大提高了处理速度。它提供了一个统一的分析引擎,支持批处理、流处理、机器学习和图计算。[49]在这一年,IBM公司也将“真实性(Veracity)”这一维度归纳入大数据的概念中,扩展为“4V”模型。[20]随后,业界又引入了“价值(Value)”作为第五个维度,从而形成了现在人们熟知的“5V”模型。[14]

技术演进与现代应用

2011年,Twitter将实时流数据处理框架Storm作为开源项目发布。而后于2014年,Storm正式成为Apache软件基金会的顶级项目。Storm能够处理无穷的数据流,确保低延迟的数据处理和高度的容错能力,使得实时数据处理成为可能。[50]此后,多个流处理框架如Apache Flink[21]和Apache Kafka相继出现,进一步推动了实时数据处理技术的发展。[51]
随着现代大数据技术的不断进步,各大公司不断整合其大数据平台以提供更高效、更可靠的数据处理解决方案。在2019年,Databricks推出了Delta Lake,这是一种构建在Spark之上的存储层,旨在解决数据湖中的一致性和性能问题,提供ACID事务支持,并提升查询性能。Delta Lake的出现,标志着大数据平台整合的一个重要里程碑。[22]2024年,AWS(亚马逊网络服务)宣布计划投资100亿美金在美国密西西比州建设两个数据中心综合体。同年,Meta(脸书母公司)计划耗资8亿美金在美国印第安纳州杰斐逊维尔建设一个数据中心园区。此外,Meta还正在重新设计其位于美国爱达荷州库纳和德克萨斯州坦普尔的数据中心,以满足人工智能等新兴领域的数据处理需求。[23]

数据类型

大数据的数据类型主要划分为三类:结构化数据、非结构化数据以及半结构化数据。[13]

结构化数据

结构化数据是指那些可以通过关系型数据库进行表示和存储的数据,它们以二维表格的形式呈现。在这种结构中,数据以行为单位,每一行数据代表一个特定的实体信息,且每一行数据的属性都是一致的。简单来说,就是可以存储到中的各种表格,如:[13]
PlainText
| ID | Name | Age | Gender |
|----|-------|-----|--------|
| 1 | John | 28 | Male |
| 2 | Alice | 34 | Female |

非结构化数据

非结构化数据一般指没有固定类型的数据,例如文本、图片、音频、视频、位置信息、链接信息、手机呼叫信息、网络日志等。[52]这些数据不遵循预定义的数据模型,通常不能直接存储在关系型数据库中,需要通过特定的工具和技术进行处理和分析。[53]

半结构化数据

半结构化数据介于结构化数据和非结构化数据之间,它具有一定的结构化特征,但又不符合关系型数据库的模型(即如上图所示的二维表格)。[13]半结构化数据包含一些易于分析的结构化元素,最为常见的半结构化数据包括日志文件XML文档、JSON文档、Email、HTML文档等。[54]

数据单位转换关系

在处理大数据时,数据量通常以字节(Byte,B)为基本单位,并通过多个量级单位来表示。常见的数据单位及其换算关系如下:[55]
数据单位换算关系[55]
名称
符号
十进制值 (base 10)
名称
符号
二进制值 (base 2)
千字节(Kilobyte)
KB
二进制千字节(kibibyte)
KiB
兆字节(megabyte)
MB
二进制兆字节(mebibyte)
MiB
吉字节(gigabyte)
GB
二进制吉字节(gibibyte)
GiB
太字节(terabyte)
TB
二进制太字节(tebibyte)
TiB
拍字节(petabyte)
PB
二进制拍字节(pebibyte)
PiB
艾字节(exabyte)
EB
二进制艾字节(exbibyte)
EiB

技术框架

大数据技术主要包括数据采集、数据预处理、数据存取、数据分析与挖掘、数据可视化及数据管理和治理。[24]

数据采集

数据采集(Data Collection)旨在从现实世界的多元环境中系统地搜集信息,并对这些信息进行准确的计量与记录。利用数据采集,企业可以通过从多种数据源(如销售记录、客户反馈、市场调研)抽取数据,进行深入分析,帮助制定战略决策,提高市场竞争力。[56]在医疗领域,也可从医疗记录、实验室报告和临床试验数据中采集数据进行分析,以改进诊断、治疗方案和公共卫生监测。[57]数据采集的具体操作体现为数据抽取。[58]
数据抽取需要从广泛的数据源中精确地抽取所需数据。这些数据源可能包括高精度传感器、关系型数据库、利用API[59]和Web抓取所获得的互联网上的开放数据源,以及日志数据等。[60]
数据抽取来源
来源
描述
用于检测和测量各种物理、化学信号,并将其转化为电信号,广泛应用于环境监测和工业自动化等领域[61]
关系型数据库
信息的集合,它以预定义的关系组织数据,数据存储在一个或多个由列和行构成的表(或“关系”)中,用户可以轻松查看和理解不同数据结构之间的关系[62]
API
允许软件系统间相互通信,以交换数据、特性和功能。通过标准化接口从各种在线服务获取数据,提高数据抽取和集成的灵活性和高效性[63]
Web抓取
使用自动化工具从网站提取数据,常用于市场调研和价格监控,通过模拟用户操作获取并解析网页内容[64]

数据预处理

从广义上来讲,数据预处理(Data Preprocessing)是对数据进行加工、处理,从中发现潜在规律或价值的过程。从狭义上来讲,数据处理是数据分析前的预处理,包括数据清洗、数据转换、特征选择和降维与数据集成。数据预处理在数据分析和机器学习中起着关键作用,它确保数据的准确性和一致性,提高模型的性能。通过数据清理、数据转换和特征选择等步骤,其能将数据调整为适合分析的格式,从而优化整个数据分析过程。[65]数据预处理具体包括以下步骤:[66]
数据清洗:处理数据中的缺失值、重复值和噪声数据。[67]具体方法如下:
数据清洗方法
方法
描述
处理缺失值
删除含有缺失值的记录和使用统计方法(如均值填补、[68]插值等)进行填补[69]
去除重复值
通过识别并删除数据集中重复的行来完成,这有助于减少数据冗余和提高分析精度[69]
处理噪声数据[c]
涉及识别和移除数据中的异常值和错误数据,以提高数据的质量和可靠性[67]
数据转换:将数据转换为适合分析的格式。这包括对数据进行归一化、标准化、[70]离散化等操作,使得不同数据源的数据可以在同一尺度上进行比较和分析。[71]
数据转换方法
方法
描述
归一化
将数据值调整到一个公共尺度(通常在0到1之间),以消除不同特征之间的量级差异[70]
标准化
将数据转换为具有零均值和单位方差的标准正态分布形式[70]
将连续数据转换为离散类别的过程,以便于分类和分析[71]
特征选择和降维:通过特征选择和降维技术,减少数据集中的特征数量,从而降低计算复杂度和提高模型的泛化能力。常用的特征选择方法有主成分分析(PCA[72]线性判别分析(LDA)等。[73]
特征选择方法
方法
描述
一种用于降维的技术,通过将数据投影到一个新的坐标系上,使得最大方差的投影在前几个主成分上,从而减少特征数量。PCA保留了数据的主要信息,降低了计算复杂度,并有助于去除噪声和多重共线性[72]
一种有监督的降维技术,通过创建线性组合,使得类别之间的可分性最大化。LDA能够在保留数据主要信息的同时,降低特征数量[73]
数据集成:将来自不同来源的数据整合到一个统一的数据存储中,确保数据的一致性和完整性。[66]

数据存取

数据存取(Data Access)是指在授权的情况下,用户可以按需检索、修改、复制或移动来自IT系统的数据。数据存取涉及对存储在数据库、数据仓库或云存储中的数据进行操作,确保用户能安全地获取和管理数据。有效的数据治理计划通常包含结构化的权限管理,以确保不同用户根据组织的角色和责任安全地访问数据。这种管理方式提高了数据完整性和合规性,同时保护数据免受未经授权的访问。[74]其关键环节包括处理前的缓存和分析后的持久化[58]
缓存处理:缓存是一种高效的数据存储层,用于临时存储频繁访问的数据,从而加快数据访问速度。缓存技术在流处理场景中尤为重要,因为它能够平衡数据流速与处理速度的不一致,确保数据处理的实时性和完整性。常用技术包括RedisMemcached等。[75]
缓存处理常用技术
技术
描述
一个开源的高性能内存数据库,广泛应用于缓存、实时分析和NoSQL数据库解决方案[76]
一种高性能的分布式内存对象缓存系统,主要用于通过缓解数据库负载来加速动态Web应用程序[77]
持久化存储:持久化存储指将处理后的数据保存到非易失性存储设备,以确保数据在应用程序关闭或系统崩溃后仍然可用。这种存储方式对于保证数据的可靠性和长期可访问性至关重要。常用的持久化存储技术包括Scalaris、MySQL ISAM、MongoDB等。[78]
常用持久化存储技术
技术
描述
Scalaris
一个可扩展的、事务性的分布式键值存储。它是首个支持多键事务ACID属性的NoSQL数据库,适用于构建可扩展的Web 2.0服务[79]
MySQL ISAM
MySQL中的一种存储引擎,设计用于读取密集型应用。它提供快速的数据插入、查询和删除操作。通常用于需要快速读取的大量数据场景,如数据分析和日志记录[80]
MongoDB
一个面向文档的NoSQL数据库,提供灵活的数据模型和强大的查询接口,支持事务、搜索、分析等多种工作负载。被广泛应用于大数据、实时分析和内容管理系统等领域[81]

数据分析与挖掘

数据分析与挖掘(Data Analysis and Mining)是大数据应用的核心技术。数据分析涉及使用各种工具和技术来处理和分析大量数据,主要有描述性分析、诊断性分析、预测性分析和规范性分析四个类型,通过这些方法可以全面理解和解读数据。[82]数据挖掘则是通过使用统计方法和机器学习算法识别数据模式的过程。其主要目的是从大量数据中提取有价值的信息和洞见。[83]大数据的分析与挖掘依赖于AI和机器学习,结合这些技术可以更好地处理和分析海量数据,从而支持智能决策。[84]常用的统计和机器学习方法包括:[85]
数据挖掘方法
方法
描述
常用技术或算法
有监督学习
机器学习的一种,使用已标记的数据集来训练算法,使其能够准确地分类数据或预测结果[86]
包括线性回归、k-邻近算法(KNN)、决策树、朴素贝叶斯和支持向量机(SVM)等[85]
使用机器学习算法来分析和聚类未标记的数据集。这些算法能够在没有人工干预的情况下发现数据中的隐藏模式和关系[87]
以聚类算法为主[87],如k-means算法[85]
机器学习的一种,利用多层神经网络来模拟人脑的工作方式,处理复杂的数据结构[88]
常用技术有神经网络、卷积网络。[85]其中常用框架包括TensorFlowPyTorch[89]
数据分析与挖掘在多个应用场景中发挥重要作用,包括市场营销金融风险管理、医疗健康和客户关系管理等。例如,通过分析客户行为数据,企业可以制定更有效的营销策略;在金融领域,数据挖掘技术用于检测欺诈交易和风险评估;在医疗健康中,数据分析帮助医生诊断疾病和制定个性化治疗方案。通过挖掘和分析大数据,企业和机构能够做出更明智的决策。[83]

数据可视化

数据可视化(Data Visualization)指通过使用普通图形(如图表、绘图、信息图表甚至动画)来表示数据。数据可视化使得复杂的数据关系和数据驱动变得更易理解,以帮助用户更直观地分析数据。[90]在医疗健康领域,数据可视化被用来分析患者数据,帮助医生诊断和制定治疗计划。[91]在市场营销中,数据可视化工具可以用于细分客户群体和分析消费行为,提升市场策略的有效性。[92]数据可视化包含以下几个主要方面:[93]
图表展示:常用的图表类型包括柱状图、折线图、散点图、饼图等。这些图表可以有效地展示数据的分布、趋势和关系。[94]
交互式可视化:通过交互式工具如Tableau、Power BI,用户可以动态地探索数据,进行筛选、排序和钻取分析,从而获得更深刻的洞察。[95]
仪表盘和报告:将多个可视化图表整合到一个仪表盘中,提供一站式的数据监控和分析平台,帮助管理者实时掌握关键指标和业务状况。[94]

数据管理和治理

数据管理和治理(Data Management and Governance)是确保数据在其整个生命周期中保持高质量、安全和合规的重要过程。数据管理和治理包括以下两方面:[96]
数据治理:数据治理指的是对企业或组织数据资产的可用性、可用性、完整性和安全性的总体管理。它通过建立流程和框架,确保数据资产以负责任的方式进行管理,并符合定义的政策和标准。数据治理的重要性体现在增强数据质量、确保合规性和风险管理、支持知情决策以及提高运营效率等方面。关键组件包括数据治理框架、团队角色、政策和实践、治理流程以及相应的工具和技术。[97]
合规管理:合规管理主要涉及确保组织在处理和存储数据时遵守数据安全和隐私的法规、行业标准和内部政策。这些标准因行业和地区而异,通常包括保护敏感信息、防止未经授权访问、数据准确性以及透明度和个人数据权利。常见的数据合规法规包括GDPR、HIPAA和CCPA。合规管理有助于减轻网络安全风险,避免罚款和法律处罚,并增进客户信任和企业声誉。[98]

关键技术

大数据安全

大数据安全是确保数据的机密性、完整性和可用性的重要过程。大数据安全包括所有应用于数据分析和处理的安全措施和工具。关键的安全策略包括加密、用户访问控制、入侵检测和预防,以及集中密钥管理。这些措施旨在保护数据的完整性、隐私性和可用性,确保企业能够在面对不断演变的网络攻击时有效地管理和利用大数据。[10]
加密:大数据安全技术中的加密保护静态数据和传输中的数据,[99]其关键在于可扩展性,确保存储格式和分析工具集及其输出的数据都被加密。即使数据被截获,良好实现的加密过程能确保数据不可读,从而保护其机密性和完整性。[100]
集中密钥管理:集中密钥管理通过采用集中加密密钥管理系统,以简化管理加密内容的流程,提高整体安全性。与传统的硬件安全模块(HSMs)不同,集中密钥管理系统专注于密钥管理任务,代表其他系统执行加密操作。这种方法不仅成本低,还降低了密钥泄露的风险。[99]
用户访问控制:通过基于角色的访问控制自动化管理用户权限,防止内部攻击。[101]常用方法有角色基于访问控制(RBAC)和属性基于访问控制(ABAC)。RBAC通过用户的角色分配权限,简化了权限管理。而ABAC则基于用户属性、资源属性和环境条件动态设定权限。[102]结合多因素认证(MFA)和单点登录(SSO),这些技术共同提高了系统的安全性和用户的便捷性。[103]
入侵检测和防御:入侵检测系统(IDS)和入侵防御系统(IPS)在大数据安全中发挥着重要作用。IDS监控网络流量,分析是否有已知攻击的特征,当检测到危险时可不中断流量地发出警报。而IPS则不仅能监控流量,且在检测到异常时,会立即采取措施阻止流量,防止攻击进一步扩散。[104]

实时处理

实时处理技术是一种在数据生成或接收时立即进行处理的技术,它确保信息和分析结果可以在极短的时间内获取。通过实时处理,企业能够迅速响应动态变化的市场需求和用户行为,提升决策的时效性和准确性。常见的实时处理应用包括金融交易监控、网络安全威胁检测、实时推荐系统和物联网设备数据处理。实时处理系统需要高性能的数据流处理引擎和低延迟的数据传输能力,以确保数据在整个处理管道中的延迟最小化。Apache Kafka、Apache Flink和Apache Storm是一些广泛使用的实时处理框架,它们提供了可靠的基础设施来处理大规模的数据流。[105]

分布式计算

分布式计算是大数据处理的基础技术,其通过将计算任务分散到多个节点上来提高计算效率和处理能力,以实现并行处理和资源共享。[11]分布式计算特别适用于处理单个计算机无法高效处理的大型或复杂任务,如大数据处理和高性能计算。随着数据量和应用性能需求的增加,分布式计算系统已成为现代数字架构的基本模型。这种方法能提高处理速度、优化性能,并在多个节点之间共享资源。[106]

数据集成与ETL

数据集成与ETL(Extract, Transform, Load)在大数据技术中起着至关重要的作用。其通过从多个数据源提取数据并转化格式,加载到数据仓库或数据湖中。ETL包括三个主要步骤:首先,从应用程序、数据库或文本文件中提取数据;其次,将数据转换为目标系统所需的格式,包括更改数据类型和应用复杂公式;最后,将转换后的数据加载到数据仓库或其他数据存储中。[107]
ETL技术不仅是数据迁移的过程,还确保了数据的质量和一致性,支持商业智能和高级分析。这对于企业整合不同来源的数据,形成统一的数据视图至关重要。此外,ETL工具通常具备自动化功能,可以调度和监控ETL任务,[108]确保数据及时更新和处理。通过高效的ETL过程,企业能够提升数据治理能力,优化决策过程,实现数据驱动的业务转型。[107]

相关工具及平台

现代计算系统提供了快速访问大量和多种类型的大数据所需的速度、功能和灵活性,使得大数据应用便捷。[36]同时,不同工具及平台的出现也推动了大数据的发展,以下工具和平台在大数据分析和处理过程中发挥着重要作用:
名称
描述
logo图
Apache Flink[26]
分布式流处理和批处理框架,可处理无限数据流和大规模数据集。可使用相同API和环境处理数据流,支持多种语言
Apache Kafka[109]
分布式事件流平台,用于高性能数据管道和流分析,支持高并发、扩展性和持久存储
Apache Storm[110][111]
实时数据流处理的分布式计算系统,每秒可处理百万条消息,具有高容错和扩展性
Apache Hadoop[112]
分布式存储和处理大规模数据集的软件框架,核心组件包括HDFS和MapReduce;HDFS负责高吞吐量的数据访问,MapReduce负责并行处理
Apache Spark[113]
统一分析引擎,支持批处理、流处理、机器学习和图计算,可在内存中计算,能够处理PB级别数据
Elastic search[25]
实时数据分析和搜索引擎,分布式架构支持快速索引和检索,可定义复杂数据结构和类型,适用于多种查询语言
MapReduce[114]
大规模数据处理的编程模型和框架,通过集群,简化数据处理任务并实现高效并行处理
Tableau[115]
数据可视化工具,支持实时分析和多种数据源连接,提供直观的用户界面和强大的可视化功能
KNIME[116]
数据分析、整合和报告平台,提供低代码界面,支持多种数据源和第三方工具集成
Google BigQuery[117]
无服务器数据仓库,支持大规模数据分析,具备高效实时处理能力和易用的SQL界面
Snowflake[118]
基于云的数据平台,简化数据工程和科学任务,支持多集群共享架构和高性能SQL查询
Power BI[119]
商业智能工具,将数据转换为视觉效果和交互式报告,由多数据源集成,具强大数据建模功能
Qlik View[120]
自助数据探索和分析平台,具有强大的关联引擎和高度互动的用户界面

价值与意义

重复利用提升效益:大数据及其产品具有易复制、成本低、叠加升值和传播升值等特点,具备广泛使用的潜力和高边际效用。相同的数据可以在合理合法的前提下以低成本提供给多个使用方,不仅服务多个主体,还可以针对不同目的进行分析,产生多样化的价值。这种一次投入、多次使用的特点使大数据效益倍增,提升了各行各业解决困难和问题的能力。[121]
众多领域的推动力:大数据技术提升了数据存储、传输和读写能力,降低了信息获取成本。[122]企业通过深入挖掘数据,发现新市场机会和业务模式。[123]在金融领域,大数据促进了比特币和互联网金融的发展。此外,大数据在推动科学研究进步、社会治理和公共服务方面也具有深远意义。通过云计算等技术,大数据实现自我产生和动态分析,帮助资本市场和银行进行智能化决策和风险预警。[122]
改善民生发展:大数据作为新型生产要素,蕴藏巨大价值,能有效推动经济转型和国家治理现代化。它可以成为欠发达地区发展的驱动力,通过广泛应用于企业生产、政府管理和社会治理等领域,显著提升效率和效果。在民生改善方面,大数据提供了新的解决方案,各级领导干部和公众需提高利用大数据推进工作的意识和能力,使其在经济社会发展中发挥更大作用。[121]

挑战

构建数据核心计算体系的迫切

随着全球大数据规模增长迅速,数据量从2020年的64ZB预计将增加到2035年的2140ZB,面对如此庞大的数据增长,如何构建以数据为中心的新型计算体系变得极为迫切。这个体系需要适应新的应用环境,并能组织和管理超大规模的数据元素,解决数据跨域访问和系统规模持续增长带来的问题。数据治理已成为重要的课题,如何在计算系统重构的背景下有效管理、处理、分析和治理数据,是当前面临的重大技术挑战。[124]

隐私安全问题突出

在信息化时代,人们的很多活动产生的数据会被记录,如浏览网页时留下的浏览痕迹,填写个人信息时留下的相关证件号码、手机号、身份证号,甚至数字化存储的国家机密、军事机密等,这些重要的数据一旦被不法分子窃取,后果将会十分严重,如何保护隐私和防止数据泄露成为重要问题。[27]

核心技术薄弱

大数据的核心技术薄弱问题主要表现在数据处理平台和分析工具的局限性,以及对新兴技术的整合不足。首先,现有的大数据处理平台,如Hadoop和Spark,尽管在处理海量数据方面表现出色,但在处理实时数据和提供低延迟响应方面仍存在挑战。[125]其次,许多数据分析工具在应对数据多样性和高维数据方面表现不佳,难以从复杂的数据集中提取有意义的见解。[126]

数据垄断风险

大数据的发展伴随着数据垄断的风险。少数大型科技公司凭借其在数据收集和处理能力上的优势,占据了大量的数据资源,形成了数据垄断。这不仅导致市场竞争不公平,还可能引发隐私问题和数据滥用风险。[28]例如,Onavo VPN被Facebook用于追踪用户在竞争对手应用(如SnapchatYouTubeAmazon)上的活动。通过这种方式,Facebook能够获取竞争对手的用户数据,从而进行市场分析,评估竞争对手的威胁并采取相应策略来保持其市场主导地位。[127]

算法依赖与社会割裂

大数据技术在决策过程中的广泛应用,使得社会对算法的依赖程度不断增加。然而,算法偏见和不公平问题也随之而来。依赖于已有数据和模型的算法,往往会在决策过程中体现出数据本身的偏见,从而加剧社会的不公平和割裂。[128]例如,在招聘、贷款审批等领域,算法可能会基于历史数据作出带有偏见的决策,导致某些群体受到系统性歧视。[129]这些偏见通常源于不平衡的数据集或反映历史不平等的有缺陷信息。如果不加以控制,偏见算法可能会导致决策对某些群体产生集体性的不利影响。[128]

数据资源价值认识不足

大数据的核心技术薄弱导致对数据资源价值认识不足的问题尤为明显。虽然数据科学家在训练算法时投入了大量资源,但他们往往忽视了数据质量和多样性的影响。偏向性的数据和不完整的数据样本导致算法做出系统性错误,进而影响决策的准确性和公平性。例如,在招聘过程中,如果算法使用了偏向于男性候选人的数据,结果可能会不公平地排除女性候选人。这种数据资源的误用不仅阻碍了技术的发展,还导致了市场上不公平竞争的现象。[130]

应用

金融领域

大数据在金融领域的应用主要体现在营销策略管理、风险管理等方面。金融机构利用大数据分析平台,可以深入挖掘、追踪并分析多样化的用户数据,这些数据涵盖了用户的基本信息、财务信息、消费数据、浏览数据、购买路径,以及他们的购买行为等。[3]例如,西班牙桑坦德银行(Banco Santander)利用大数据技术分析客户交易数据和社交媒体活动,制定个性化的营销活动,提高客户参与度和满意度。[131]在风险管理方面,大数据技术已经成为一种不可或缺的工具和手段,用于信用风险市场风险、操作风险和流动性风险的分析。[3]新加坡华侨银行(UOB)利用大数据技术提升其风险管理系统。传统上,计算风险价值需要长达20小时,但通过大数据系统,UOB将这一过程缩短至几分钟,实现了实时风险评估。这一实施显著提高了风险管理的效率和准确性。[132]此外,IBM等公司已经成功运用大数据信息技术研发出“经济指标预测系统”,用于预测股价等经济指标的走势。[4]该系统在美国证券市场中展现了高度的精确性和前瞻性。[133]
image
大数据预测股市

工业领域

工业物联网是指在工业生产的过程中,对涉及的产品、设备等各项数据进行采集和管理的系统。它通常采用远程管理方式,例如处理设备的历史数据、监控设备的运行状态等。在长期监控工业生产设备的过程中,所获取的海量数据是进行产能分析、预测设备故障概率以及检测产品合格率等关键信息的来源。由于这些数据规模庞大,人们称之为工业大数据。在处理工业大数据时,需要通过专门设计的平台进行数据的采集、预处理、挖掘、分析和存储。同时,还需利用大数据技术中的数据驱动方法对各种设备故障进行检测,以实现工业生产设备的合理优化。[5]
image
工业大数据

医疗领域

随着智能医疗技术的不断进步,其应用范围逐步渗透到医疗诊断与治疗的每一个流程中,显著提高了诊疗效率与质量,并推动了地区医疗资源的合理配置与优化。精准医疗作为典型应用,通过人类基因测序结合大数据分析,深入探索个体基因组与疾病之间的潜在关联,能够准确识别疾病的发病机制,找到精确治疗靶点,并有效评估重大疾病。其高精度、高效率和便捷性在肿瘤治疗、遗传病防控和妇科领域得到了广泛应用。[5]然而,大数据在医疗领域的应用也带来了数据真实性核查困难和网络安全风险等问题,部分人为短期经济利益而造成的数据失真也对研究可靠性产生了负面影响。[134]
image
大数据在医疗领域的运用

教育领域

大数据技术在教育领域的应用主要体现在适应性教学、教学规律挖掘和校园信息化管理等方面。基于大数据的Learnsprout系统能够科学评估高考备考过程,精准识别学生学习中的难题,并通过早期介入帮助学生解决学习障碍[5]大数据分析还可以对学习过程中产生的数据进行模型化分析,帮助学习者探索知识规律、实现可视化建模、构建知识框架,并预测学习发展动向,促进学习者之间的高效交流与合作。学校也可以通过详细分析教学数据,全面考核教师教学绩效,并评估和优化教学平台,为教学平台的进一步升级提供有力的数据支持。[6]
image
大数据在教育领域的运用

生态系统治理

生态系统相关的大数据涵盖了植被、土壤、海洋以及大气等多方面的生态数据。这些数据信息量巨大且种类繁多,传统的数据分析和处理技术难以有效应对。然而,通过合理的使用大数据技术,就可以实现对这些生态系统数据的高效分析和处理。以某环保局推出的“环保治理大数据平台”为例,该平台不仅能实时监控城市各类环境指标与污染源的动态数据,更能运用先进的大数据分析和人工智能算法,为环境治理提供科学的解决方案与政策制定参考。这样的系统化应用,极大地协助了环保及城市管理相关部门,在环境保护工作中做出更加明智和有效的决策。[5]
image
生态环境大数据平台

智慧交通

大数据技术在智慧交通中的应用主要体现在交通拥堵预测、车辆导航和公交系统优化等方面。通过采集城市交通的车流量、车速和车辆位置等数据,再运用大数据分析技术,可以科学预测交通拥堵及其持续时间。利用车辆位置、实时道路状态和详尽地图数据结合高效路线规划算法,大数据技术实现了高度智能化的导航服务,为驾驶员推荐便捷路线,主流导航软件正是依赖大数据技术进行实时路况预测和路线优化。公交系统方面,通过收集公交车辆实时位置和客流量数据,辅以人工智能和机器学习技术进行分析,实现公交车辆智能调度和线路优化设计。以深圳市“智慧公交”系统为例,该系统利用车载设备监控公交车辆位置和载客情况,并通过智能调度算法动态调整公交车路线和发车间隔,显著提升了公交运营效率和服务质量。[7]
image
大数据运用于智慧交通

农业经济

大数据技术在农业经济中的应用主要体现在优化农业生产管理、降低生产成本和促进涉农企业发展等方面。通过对土壤、光照、降水等外部因素进行深入的数据分析,农业生产可以做出更准确且及时的决策,持续优化生产流程,提升整体效率和水平。大数据技术还能够分析生产成本与农产品价格数据,提供市场趋势预测和价格预估,指导农民制定合理的生产规划,如在农用物资采购环节,通过对物资价格、质量和供应商信誉的综合评估,选购性价比更高的农用物资,降低采购成本。大数据技术还可以帮助涉农企业分析面临的挑战,推动企业持续发展,拉动当地经济增长。例如,通过实时监测土壤和气候条件,调整种植策略,提高农作物产量,并利用大数据分析了解用户反馈和市场动态,提升企业的营销能力。[8]
image

安全领域

随着大数据的深入应用,公安机关也建立起了以大数据智能应用为核心的“智慧公安”新模式。在公安民警长期的案件侦破中,他们可以从海量的案例信息和社会资源数据中筛选出有价值的数据。这些数据综合时间、空间、人文地理等多个维度进行深入分析,从而揭示出暴力犯罪、恐怖袭击以及恶性群体性事件等的核心发生条件。技术人员经过研究总结成功地概括出各类案件的关键特征,并在此基础上形成了一系列高效实用的侦查技术和策略,积累了深厚的实战经验。借助大数据技术,可以将这些资深警官的宝贵经验和侦查技术进行数据模型化。通过整合各类关键特征数据,构建出相应的数据模型,以实现对案件的智能化分析、风险的自动化预警、对犯罪的精确打击,以及提供更为便捷的管理服务。[9]
image
大数据在安全领域的应用

政府领域

大数据技术在政府领域的应用极为广泛,涵盖经济预测、金融风险监控、公共服务优化等多个方面。通过大数据分析,政府可以提升决策的科学性和管理的效率。以下是几个国家在大数据应用方面的具体事例:
美国:美国国家经济研究局(NBER)使用大量的经济数据(如个人收入、非农就业、个人消费支出等)制作美国商业周期年表,来识别经济活动的峰值和谷值,以精确确定经济周期的转折点,制定相应策略。[135]
中国:为综合评估金融机构理财、资金信托业务对货币政策传导和金融稳定的影响,2010年,人民银行建立逐笔、逐产品统计的理财与资金信托统计,成为金融统计大数据的试验田,有效监测了国内交叉性金融产品的发展。在理财与资金信托统计探索的基础上,2018年,“一行两会一局”共同建立了金融机构资管产品逐笔统计制度,实现对约80万亿金融机构资管产品的全覆盖。根据制度,将对每只产品进行从来源到运用、从发行到终止的全生命周期统计,实现对复杂资管产品的全方位统计。[136]
英国:英国政府通过大数据分析交通数据和社会行为数据,改善城市交通和公共服务。具体而言,英国政府发布了交通数据战略,旨在通过更好地使用和共享交通数据,推动行业创新和提升服务质量。该战略包括多个关键目标,如改进数据共享、推广数据标准、提升员工的数据技能以及确保数据治理和与行业的沟通。[137]
巴西:巴西政府利用大数据技术打击税收欺诈,通过对税务数据的深度分析,发现并阻止了大量虚假申报行为,提高了税收征管效率。[138]
印度:印度政府通过大数据技术监测和管理农业生产,利用气象数据和卫星影像帮助农民优化种植决策,提高农业产量和效率。[138]

发展趋势

数据货币化

数据货币化是指通过数据获取新的收入来源,其将成为大数据在经济领域发展的重要趋势。高效的数据货币化需要用户具备强大的数据和分析能力,以便从数据中提取有价值的见解。一些龙头企业在数据货币化方面表现出色,能够显著改变其核心业务功能,如供应链、研发和资本资产管理等。支付提供商通过将消费者数据与商户数据相结合,能够获得端到端的交易视图,从而解锁更多价值。成功的数据货币化通常依赖于与数据分析专家的合作,或者内部开发类似的能力。总体来看,数据货币化需要明确的业务焦点、合适的人才和克服法规与声誉障碍的能力。[139]

数据市场化交易

数据市场化交易通过专门的平台进行数据的买卖和交换,为数据提供了合法和安全的交易途径。在金融领域,这些平台帮助通过数据质量评估、数据定价机制和合规性审查,确保交易的透明性和安全性。用户可以利用数据市场化交易平台迅速获取并测试各种外部数据集,从而提升业务决策的准确性和效率。这些平台通常包括数据经纪商和聚合平台,能够为用户提供广泛的数据生态系统访问权限,促进业务创新和增长。通过有效的数据市场化交易,数据能够从外部被整合至其内部环境中,获得增值信息。[140]

数据管理智能化

数据管理智能化通过利用人工智能自动化技术,提升数据管理的效率和准确性。智能化的数据管理系统可以实时监控数据质量,自动识别和处理数据异常,从而确保数据的一致性和完整性。[141]例如,在金融服务领域,自动化技术能够显著增加交易吞吐量并减少错误,提升运营效率。此外,智能化的数据管理还可以通过自动化的数据清洗、分类和存储,减少人为错误,降低数据管理成本。[142]通过部署智能化数据管理系统,企业能够提升运营效率,优化业务决策,并增强市场竞争力。[143]

大数据产业链与生态构建

大数据产业链与生态构建通过整合数据采集、存储、处理和分析的各个环节,形成一个完整的生态系统,为生产经营者提供协同合作的机会。这种生态系统可以通过吸引多方参与,降低进入壁垒,创造规模经济,并在核心产品之外提供明确的客户利益和依赖性。[144]成功的生态系统能够激励大量具有相似利益的参与方(如应用开发者)共同追求目标,从而形成协同效应,提升整体价值。[145]通过标准化的API和数据交换机制,企业能够高效地共享和利用数据,推动业务创新和增长。[146]例如,API可以显著提高数据共享的效率,使得不同系统和组织之间能够更快速地集成和交换信息,从而提升业务的灵活性和市场响应能力。[147]

云计算

随着数据量的不断增加,云计算将更加普及,为大数据的发展提供更强大的支持。[148]云计算提供了灵活的存储和计算资源,支持大规模数据处理和分析,显著提升了处理效率和可扩展性。[149]云计算平台如亚马逊AWS、微软Azure谷歌云平台,已经成为大数据存储和计算的基础设施,通过虚拟化技术提供按需的计算资源和存储容量。[150]

AI技术

在大数据的发展中,人工智能(AI)技术扮演着至关重要的角色。AI的应用不仅提升了数据处理和分析的效率,还推动了生成式AI和小型语言模型(SLMs)的广泛应用,使AI技术更具普及性和成本效益。多模态AI(Multimodal AI)能够处理多种数据类型,如文本、图像、音频和视频,从而增强了应用的准确性和互动性。[151]此外,AI在科学研究中的应用显著加快了新药研发和材料科学等领域的进展,助力解决全球性挑战。[152]

边缘计算

边缘计算未来将成为大数据发展的重要趋势。[148]边缘计算通过在靠近数据源的位置(如移动设备或传感器)部署计算和存储节点,显著提升了云服务的响应速度、扩展性和隐私保护能力。这种分布式计算模式,不仅能降低云数据中心带宽需求,还能在云服务中断时提供备份服务,从而保证系统的连续性和可靠性。近年来,业界对边缘计算的投资和研究兴趣迅速增长,推动了相关标准的制定和应用的普及。[153]它也将与人工智能机器学习等其他技术融合,共同推动大数据领域的创新与变革。[154]

机器学习

机器学习平台可以为企业和组织提供更便捷的机器学习开发和部署环境,未来将成为大数据和AI技术发展的重要基础设施。[148]通过不断优化的算法和理论进步,以及在线数据和低成本计算的激增,机器学习已经从实验室研究转变为广泛应用于科学、技术和商业领域的实用技术。特别是数据密集型机器学习方法的采用,正在推动科学研究、医疗、制造、教育、金融建模、执法和营销等各个领域的发展,并使这些领域能够利用大数据带来的优势。[155]

分布式存储

分布式存储技术正在迅速发展,成为大数据领域的关键趋势。随着数据量的持续增长,企业对高效、可靠的数据存储解决方案的需求不断增加。分布式存储通过将数据分散到多个节点上,提供了更高的容错能力和数据可用性。它还支持按需扩展,能够灵活应对不同业务场景的需求。此外,分布式存储可以大幅降低存储成本,提高数据处理速度,是未来大数据存储技术的重要方向。[156]

实时分析与自动化分析

实时分析预测将成为未来数据分析的重要需求,可视化分析将成为未来数据分析的重要手段。[148]实时分析允许企业在数据生成的瞬间就进行分析和决策。通过实时分析,企业可以更快速地响应市场变化和客户需求,提高业务敏捷性。此外,实时分析还能帮助企业识别和解决潜在问题,优化运营效率。随着技术的进步,实时分析在大数据应用中的价值将继续提升。[157]
同时,越来越多的分析工作将会自动化,从而减少人工干预,提高分析效率和准确率。[148]例如,TableauDatabricks合作,通过湖仓架构(Lakehouse Architecture),将流数据和批数据结合在一个平台上,简化操作和实现统一的治理。这种架构不仅能加速数据管道的构建,还能通过自动化工具优化操作,使企业能够快速地进行实时分析和决策。通过Delta Live Tables和SQL仓库,数据可以被连续摄取、清洗和转换,并直接在Tableau中进行可视化分析,从而实现自动化的分析流程。[158]

相关概念

云计算

云计算是一种基于互联网的虚拟化计算平台,它通过算法高效地整合并处理平台上的数据资源,进而将这些处理后的数据推送给用户,实现数据信息的共享。云计算的应用范围广泛,其特点主要体现在计算规模庞大、资源使用非实体化、适用性强且性价比高。在数据处理过程中,云计算展现出显著的分布式计算优势。它能够将海量的数据拆分成多个小数据块,并按照一定的规则将这些小数据块分配到不同的计算机上进行并行计算。最后,通过整合这些计算结果,形成完整的数据结构,从而提升了计算结果的准确性和安全性。此外,云计算技术还能确保计算与存储过程的同步进行,有效防止了数据的丢失和遗漏。[159]

物联网

虽然物联网概念提出较早,但由于技术限制未获广泛关注,直到1999年互联网技术的发展才推动其逐渐受到重视,并通过不断进步的网络技术得到优化和完善。[159]
物联网技术的显著特点在于其能够根据应用对象的实际情况进行数据建模,通过技术手段实现物理对象与虚拟化信息系统的无缝对接,从而达到规范化处理和智能化监管的目标。经过处理后,数据信息得以科学化地处理、整合和归类,为相关人员的数据应用提供了极大的便利。物联网技术的核心是由多样化的传感器组成的网络体系,而数据挖掘服务网络则是其基准。通过各节点之间的信息传输,物联网技术能够确保各项内容实现交互和共享,最终将所需信息完整传输到使用者手中。[159]
vvv
大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到[xié]取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。[2]
大数据的概念最早由Gartner公司的分析师Doug Laney于2001年提出。他在论文《3D数据管理:控制数据量、速度和多样性》中首次引入了“大数据3V”概念,即数据量(Volume)、速度(Velocity)和多样性(Variety),以描述大数据的基本特征。[29]后来,IBM公司在2012年增加了“真实性(Veracity)”这一维度,扩展为“4V”模型,以应对数据质量和可信度的挑战。[20]随后,业界又引入了“价值(Value)”作为第五个维度,强调从大数据中提取有用信息和洞察的重要性,从而形成了“5V”模型,即数据量、速度、多样性、真实性和价值。[14]

狭义定义

大数据是通过获取、存储、分析,从大容量数据中挖掘价值的一种全新的技术架构。这种架构涉及数据的获取、存储和分析三个核心活动。它面向技术人员,目的在于高效处理和分析大规模数据集,挖掘其隐藏价值。人类科学能够探索应用的一切大数据,都算是狭义大数据。[30]

广义定义

大数据是指物理世界到数字世界的映射和提炼,通过发现其中的数据特征,从而做出提升效率的决策行为。这个世界上存在的河流、山川、日月、星辰、花鸟、鱼虫,乃至人类思维念头、外太空的细微震动,人们生活的这个维度、乃至于所有维度的一切事物,都是大数据。上到宇宙的运动,下到质子活动,全都能够被细化成为一组组的数据。 广义的定义有点哲学意味,突破了人类所定义的科学与宗教范围的一种存在。[30]

特点

数据量:大数据最显著的特征之一。大数据通常涉及极其庞大的数据集,数据量以TB(太字节)、PB(拍字节)甚至ZB(泽字节)[a]为单位计量。[31]数据量的增加来源于各种数据生成源,如社交媒体、传感器、交易记录等。[32]例如,Facebook每天产生超过600TB的数据,而Google每天也需处理超过3.5亿次的搜索请求。[33]
速度:指的是数据生成和处理的速度。在大数据背景下,数据以极快的速度不断生成和流动,这需要实时或近实时的处理能力。[34]例如,社交媒体上的数据和传感器数据需要实时分析,以便快速响应市场变化和环境变化。[35]数据处理速度的提升依赖于先进的计算技术和大规模并行处理能力,以确保能够在短时间内处理大量数据。[36]
多样性:指数据类型的多样性。大数据不仅包括结构化数据(如数据库中的数据),还包括大量的非结构化数据(如文本、图像、视频等)。这种多样性要求采用不同的数据处理和分析技术,以便从各种数据中提取有价值的信息。[37]
真实性:指数据的准确性和可信度。这意味着数据需要尽可能少的噪声、偏差和异常,确保数据来源可靠,数据处理方法合理。[38]数据的不准确性会导致错误的分析结果和决策,从而影响业务的各个方面。例如,在金融行业中,准确的数据对于检测欺诈行为至关重要。[39]
价值:指的是从数据中提取有价值信息的能力。尽管大数据的量非常庞大,但并不是所有的数据都具有同等的价值。关键在于通过分析和处理,提取出对决策和业务发展有用的信息。[40]例如,零售企业可以通过分析顾客购买数据,了解顾客的偏好和消费习惯,从而优化库存管理和营销策略。[41]大数据的真正价值在于能够通过数据分析,提供深刻的洞察和预测,支持智能决策和创新。[42]

发展历程

早期历史

大数据的历史渊源可追溯至18世纪80年代,在1887年至1890年间,美国统计学家赫尔曼·霍尔瑞斯(Herman Hollerith)为统计1890 年的人口普查数据发明了一台电动读取设备,[15]用于快速统计卡片上的洞数,这极大地提升了数据处理效率,使得预计耗时8年的人口普查工作在一年内完成,由此在全球范围内引发了数据处理的新纪元。[16]

概念提出与早期应用

1980年,未来学家阿尔文·托夫勒(Alvin Toffler)在其著作《第三次浪潮》中提出了“大数据”这一概念,在书中,他将“大数据”赞誉为“第三次浪潮的华彩乐章”,预见了数据在未来社会中的重要作用。他认为,信息和数据将成为新的经济资源,影响社会的方方面面,从商业到个人生活,再到政府治理,强调了大数据在未来社会发展中的巨大潜力。[17]
到2001年,Gartner公司的分析师道格·莱尼(Doug Laney)在其技术峰会上创新性地引入了“大数据”的概念,他提出了著名的“三个V”模型,即Volume(数据量)、Velocity(数据速度)和Variety(数据种类),以此描述大数据的特点和挑战。同时,他也明确指出了在数据规模不断扩大的背景下,人们亟需开发和应用新的数据管理和分析手段,以应对日益增长的数据处理需求。[18]后来,IBM公司在2012年又增加了“真实性(Veracity)”这一维度,扩展为“4V”模型。[20]随后,业界又引入了“价值(Value)”作为第五个维度,从而形成了现在人们熟知的“5V”模型。[14]

Google等公司的技术开发

在2003年,Google引入了Google File System (GFS),一种旨在处理大规模数据的分布式文件系统,解决了传统文件系统的瓶颈问题。[19]紧随其后的2004年,Google推出了MapReduce,这是一个编程模型及其实现[b],通过简化并行处理任务,有效地支持大数据集的处理。[43]
2005年,道格·卡廷(Doug Cutting)和迈克·卡法雷拉(Mike Cafarella)在Yahoo!支持下开发了Hadoop[44]这是一个基于GFS和MapReduce的开源软件框架,用于分布式处理大数据。[45]2006年,Google推出了BigTable,一个专为结构化数据设计的分布式存储系统,支持PB级数据存储需求。[45]随后在2008年,Yahoo!又推出了高级数据流语言Pig Latin,简化了复杂的数据转换和分析任务。[46]同年,Facebook也推出了Hive数据仓库系统,允许用户使用类似SQL的查询语言进行数据分析,大大降低了数据处理的门槛。[47]
进入2012年,Apache发布了Hadoop 2.0,引入了YARN,作为新一代资源管理框架,提高了资源利用效率。[48]同年,Apache Spark被引入,其核心特点是数据能在内存中处理,大大提高了处理速度。它提供了一个统一的分析引擎,支持批处理、流处理、机器学习和图计算。[49]在这一年,IBM公司也将“真实性(Veracity)”这一维度归纳入大数据的概念中,扩展为“4V”模型。[20]随后,业界又引入了“价值(Value)”作为第五个维度,从而形成了现在人们熟知的“5V”模型。[14]

技术演进与现代应用

2011年,Twitter将实时流数据处理框架Storm作为开源项目发布。而后于2014年,Storm正式成为Apache软件基金会的顶级项目。Storm能够处理无穷的数据流,确保低延迟的数据处理和高度的容错能力,使得实时数据处理成为可能。[50]此后,多个流处理框架如Apache Flink[21]和Apache Kafka相继出现,进一步推动了实时数据处理技术的发展。[51]
随着现代大数据技术的不断进步,各大公司不断整合其大数据平台以提供更高效、更可靠的数据处理解决方案。在2019年,Databricks推出了Delta Lake,这是一种构建在Spark之上的存储层,旨在解决数据湖中的一致性和性能问题,提供ACID事务支持,并提升查询性能。Delta Lake的出现,标志着大数据平台整合的一个重要里程碑。[22]2024年,AWS(亚马逊网络服务)宣布计划投资100亿美金在美国密西西比州建设两个数据中心综合体。同年,Meta(脸书母公司)计划耗资8亿美金在美国印第安纳州杰斐逊维尔建设一个数据中心园区。此外,Meta还正在重新设计其位于美国爱达荷州库纳和德克萨斯州坦普尔的数据中心,以满足人工智能等新兴领域的数据处理需求。[23]

数据类型

大数据的数据类型主要划分为三类:结构化数据、非结构化数据以及半结构化数据。[13]

结构化数据

结构化数据是指那些可以通过关系型数据库进行表示和存储的数据,它们以二维表格的形式呈现。在这种结构中,数据以行为单位,每一行数据代表一个特定的实体信息,且每一行数据的属性都是一致的。简单来说,就是可以存储到中的各种表格,如:[13]
PlainText
| ID | Name | Age | Gender |
|----|-------|-----|--------|
| 1 | John | 28 | Male |
| 2 | Alice | 34 | Female |

非结构化数据

非结构化数据一般指没有固定类型的数据,例如文本、图片、音频、视频、位置信息、链接信息、手机呼叫信息、网络日志等。[52]这些数据不遵循预定义的数据模型,通常不能直接存储在关系型数据库中,需要通过特定的工具和技术进行处理和分析。[53]

半结构化数据

半结构化数据介于结构化数据和非结构化数据之间,它具有一定的结构化特征,但又不符合关系型数据库的模型(即如上图所示的二维表格)。[13]半结构化数据包含一些易于分析的结构化元素,最为常见的半结构化数据包括日志文件XML文档、JSON文档、Email、HTML文档等。[54]

数据单位转换关系

在处理大数据时,数据量通常以字节(Byte,B)为基本单位,并通过多个量级单位来表示。常见的数据单位及其换算关系如下:[55]
数据单位换算关系[55]
名称
符号
十进制值 (base 10)
名称
符号
二进制值 (base 2)
千字节(Kilobyte)
KB
二进制千字节(kibibyte)
KiB
兆字节(megabyte)
MB
二进制兆字节(mebibyte)
MiB
吉字节(gigabyte)
GB
二进制吉字节(gibibyte)
GiB
太字节(terabyte)
TB
二进制太字节(tebibyte)
TiB
拍字节(petabyte)
PB
二进制拍字节(pebibyte)
PiB
艾字节(exabyte)
EB
二进制艾字节(exbibyte)
EiB

技术框架

大数据技术主要包括数据采集、数据预处理、数据存取、数据分析与挖掘、数据可视化及数据管理和治理。[24]

数据采集

数据采集(Data Collection)旨在从现实世界的多元环境中系统地搜集信息,并对这些信息进行准确的计量与记录。利用数据采集,企业可以通过从多种数据源(如销售记录、客户反馈、市场调研)抽取数据,进行深入分析,帮助制定战略决策,提高市场竞争力。[56]在医疗领域,也可从医疗记录、实验室报告和临床试验数据中采集数据进行分析,以改进诊断、治疗方案和公共卫生监测。[57]数据采集的具体操作体现为数据抽取。[58]
数据抽取需要从广泛的数据源中精确地抽取所需数据。这些数据源可能包括高精度传感器、关系型数据库、利用API[59]和Web抓取所获得的互联网上的开放数据源,以及日志数据等。[60]
数据抽取来源
来源
描述
用于检测和测量各种物理、化学信号,并将其转化为电信号,广泛应用于环境监测和工业自动化等领域[61]
关系型数据库
信息的集合,它以预定义的关系组织数据,数据存储在一个或多个由列和行构成的表(或“关系”)中,用户可以轻松查看和理解不同数据结构之间的关系[62]
API
允许软件系统间相互通信,以交换数据、特性和功能。通过标准化接口从各种在线服务获取数据,提高数据抽取和集成的灵活性和高效性[63]
Web抓取
使用自动化工具从网站提取数据,常用于市场调研和价格监控,通过模拟用户操作获取并解析网页内容[64]

数据预处理

从广义上来讲,数据预处理(Data Preprocessing)是对数据进行加工、处理,从中发现潜在规律或价值的过程。从狭义上来讲,数据处理是数据分析前的预处理,包括数据清洗、数据转换、特征选择和降维与数据集成。数据预处理在数据分析和机器学习中起着关键作用,它确保数据的准确性和一致性,提高模型的性能。通过数据清理、数据转换和特征选择等步骤,其能将数据调整为适合分析的格式,从而优化整个数据分析过程。[65]数据预处理具体包括以下步骤:[66]
数据清洗:处理数据中的缺失值、重复值和噪声数据。[67]具体方法如下:
数据清洗方法
方法
描述
处理缺失值
删除含有缺失值的记录和使用统计方法(如均值填补、[68]插值等)进行填补[69]
去除重复值
通过识别并删除数据集中重复的行来完成,这有助于减少数据冗余和提高分析精度[69]
处理噪声数据[c]
涉及识别和移除数据中的异常值和错误数据,以提高数据的质量和可靠性[67]
数据转换:将数据转换为适合分析的格式。这包括对数据进行归一化、标准化、[70]离散化等操作,使得不同数据源的数据可以在同一尺度上进行比较和分析。[71]
数据转换方法
方法
描述
归一化
将数据值调整到一个公共尺度(通常在0到1之间),以消除不同特征之间的量级差异[70]
标准化
将数据转换为具有零均值和单位方差的标准正态分布形式[70]
将连续数据转换为离散类别的过程,以便于分类和分析[71]
特征选择和降维:通过特征选择和降维技术,减少数据集中的特征数量,从而降低计算复杂度和提高模型的泛化能力。常用的特征选择方法有主成分分析(PCA[72]线性判别分析(LDA)等。[73]
特征选择方法
方法
描述
一种用于降维的技术,通过将数据投影到一个新的坐标系上,使得最大方差的投影在前几个主成分上,从而减少特征数量。PCA保留了数据的主要信息,降低了计算复杂度,并有助于去除噪声和多重共线性[72]
一种有监督的降维技术,通过创建线性组合,使得类别之间的可分性最大化。LDA能够在保留数据主要信息的同时,降低特征数量[73]
数据集成:将来自不同来源的数据整合到一个统一的数据存储中,确保数据的一致性和完整性。[66]

数据存取

数据存取(Data Access)是指在授权的情况下,用户可以按需检索、修改、复制或移动来自IT系统的数据。数据存取涉及对存储在数据库、数据仓库或云存储中的数据进行操作,确保用户能安全地获取和管理数据。有效的数据治理计划通常包含结构化的权限管理,以确保不同用户根据组织的角色和责任安全地访问数据。这种管理方式提高了数据完整性和合规性,同时保护数据免受未经授权的访问。[74]其关键环节包括处理前的缓存和分析后的持久化[58]
缓存处理:缓存是一种高效的数据存储层,用于临时存储频繁访问的数据,从而加快数据访问速度。缓存技术在流处理场景中尤为重要,因为它能够平衡数据流速与处理速度的不一致,确保数据处理的实时性和完整性。常用技术包括RedisMemcached等。[75]
缓存处理常用技术
技术
描述
一个开源的高性能内存数据库,广泛应用于缓存、实时分析和NoSQL数据库解决方案[76]
一种高性能的分布式内存对象缓存系统,主要用于通过缓解数据库负载来加速动态Web应用程序[77]
持久化存储:持久化存储指将处理后的数据保存到非易失性存储设备,以确保数据在应用程序关闭或系统崩溃后仍然可用。这种存储方式对于保证数据的可靠性和长期可访问性至关重要。常用的持久化存储技术包括Scalaris、MySQL ISAM、MongoDB等。[78]
常用持久化存储技术
技术
描述
Scalaris
一个可扩展的、事务性的分布式键值存储。它是首个支持多键事务ACID属性的NoSQL数据库,适用于构建可扩展的Web 2.0服务[79]
MySQL ISAM
MySQL中的一种存储引擎,设计用于读取密集型应用。它提供快速的数据插入、查询和删除操作。通常用于需要快速读取的大量数据场景,如数据分析和日志记录[80]
MongoDB
一个面向文档的NoSQL数据库,提供灵活的数据模型和强大的查询接口,支持事务、搜索、分析等多种工作负载。被广泛应用于大数据、实时分析和内容管理系统等领域[81]

数据分析与挖掘

数据分析与挖掘(Data Analysis and Mining)是大数据应用的核心技术。数据分析涉及使用各种工具和技术来处理和分析大量数据,主要有描述性分析、诊断性分析、预测性分析和规范性分析四个类型,通过这些方法可以全面理解和解读数据。[82]数据挖掘则是通过使用统计方法和机器学习算法识别数据模式的过程。其主要目的是从大量数据中提取有价值的信息和洞见。[83]大数据的分析与挖掘依赖于AI和机器学习,结合这些技术可以更好地处理和分析海量数据,从而支持智能决策。[84]常用的统计和机器学习方法包括:[85]
数据挖掘方法
方法
描述
常用技术或算法
有监督学习
机器学习的一种,使用已标记的数据集来训练算法,使其能够准确地分类数据或预测结果[86]
包括线性回归、k-邻近算法(KNN)、决策树、朴素贝叶斯和支持向量机(SVM)等[85]
使用机器学习算法来分析和聚类未标记的数据集。这些算法能够在没有人工干预的情况下发现数据中的隐藏模式和关系[87]
以聚类算法为主[87],如k-means算法[85]
机器学习的一种,利用多层神经网络来模拟人脑的工作方式,处理复杂的数据结构[88]
常用技术有神经网络、卷积网络。[85]其中常用框架包括TensorFlowPyTorch[89]
数据分析与挖掘在多个应用场景中发挥重要作用,包括市场营销金融风险管理、医疗健康和客户关系管理等。例如,通过分析客户行为数据,企业可以制定更有效的营销策略;在金融领域,数据挖掘技术用于检测欺诈交易和风险评估;在医疗健康中,数据分析帮助医生诊断疾病和制定个性化治疗方案。通过挖掘和分析大数据,企业和机构能够做出更明智的决策。[83]

数据可视化

数据可视化(Data Visualization)指通过使用普通图形(如图表、绘图、信息图表甚至动画)来表示数据。数据可视化使得复杂的数据关系和数据驱动变得更易理解,以帮助用户更直观地分析数据。[90]在医疗健康领域,数据可视化被用来分析患者数据,帮助医生诊断和制定治疗计划。[91]在市场营销中,数据可视化工具可以用于细分客户群体和分析消费行为,提升市场策略的有效性。[92]数据可视化包含以下几个主要方面:[93]
图表展示:常用的图表类型包括柱状图、折线图、散点图、饼图等。这些图表可以有效地展示数据的分布、趋势和关系。[94]
交互式可视化:通过交互式工具如Tableau、Power BI,用户可以动态地探索数据,进行筛选、排序和钻取分析,从而获得更深刻的洞察。[95]
仪表盘和报告:将多个可视化图表整合到一个仪表盘中,提供一站式的数据监控和分析平台,帮助管理者实时掌握关键指标和业务状况。[94]

数据管理和治理

数据管理和治理(Data Management and Governance)是确保数据在其整个生命周期中保持高质量、安全和合规的重要过程。数据管理和治理包括以下两方面:[96]
数据治理:数据治理指的是对企业或组织数据资产的可用性、可用性、完整性和安全性的总体管理。它通过建立流程和框架,确保数据资产以负责任的方式进行管理,并符合定义的政策和标准。数据治理的重要性体现在增强数据质量、确保合规性和风险管理、支持知情决策以及提高运营效率等方面。关键组件包括数据治理框架、团队角色、政策和实践、治理流程以及相应的工具和技术。[97]
合规管理:合规管理主要涉及确保组织在处理和存储数据时遵守数据安全和隐私的法规、行业标准和内部政策。这些标准因行业和地区而异,通常包括保护敏感信息、防止未经授权访问、数据准确性以及透明度和个人数据权利。常见的数据合规法规包括GDPR、HIPAA和CCPA。合规管理有助于减轻网络安全风险,避免罚款和法律处罚,并增进客户信任和企业声誉。[98]

关键技术

大数据安全

大数据安全是确保数据的机密性、完整性和可用性的重要过程。大数据安全包括所有应用于数据分析和处理的安全措施和工具。关键的安全策略包括加密、用户访问控制、入侵检测和预防,以及集中密钥管理。这些措施旨在保护数据的完整性、隐私性和可用性,确保企业能够在面对不断演变的网络攻击时有效地管理和利用大数据。[10]
加密:大数据安全技术中的加密保护静态数据和传输中的数据,[99]其关键在于可扩展性,确保存储格式和分析工具集及其输出的数据都被加密。即使数据被截获,良好实现的加密过程能确保数据不可读,从而保护其机密性和完整性。[100]
集中密钥管理:集中密钥管理通过采用集中加密密钥管理系统,以简化管理加密内容的流程,提高整体安全性。与传统的硬件安全模块(HSMs)不同,集中密钥管理系统专注于密钥管理任务,代表其他系统执行加密操作。这种方法不仅成本低,还降低了密钥泄露的风险。[99]
用户访问控制:通过基于角色的访问控制自动化管理用户权限,防止内部攻击。[101]常用方法有角色基于访问控制(RBAC)和属性基于访问控制(ABAC)。RBAC通过用户的角色分配权限,简化了权限管理。而ABAC则基于用户属性、资源属性和环境条件动态设定权限。[102]结合多因素认证(MFA)和单点登录(SSO),这些技术共同提高了系统的安全性和用户的便捷性。[103]
入侵检测和防御:入侵检测系统(IDS)和入侵防御系统(IPS)在大数据安全中发挥着重要作用。IDS监控网络流量,分析是否有已知攻击的特征,当检测到危险时可不中断流量地发出警报。而IPS则不仅能监控流量,且在检测到异常时,会立即采取措施阻止流量,防止攻击进一步扩散。[104]

实时处理

实时处理技术是一种在数据生成或接收时立即进行处理的技术,它确保信息和分析结果可以在极短的时间内获取。通过实时处理,企业能够迅速响应动态变化的市场需求和用户行为,提升决策的时效性和准确性。常见的实时处理应用包括金融交易监控、网络安全威胁检测、实时推荐系统和物联网设备数据处理。实时处理系统需要高性能的数据流处理引擎和低延迟的数据传输能力,以确保数据在整个处理管道中的延迟最小化。Apache Kafka、Apache Flink和Apache Storm是一些广泛使用的实时处理框架,它们提供了可靠的基础设施来处理大规模的数据流。[105]

分布式计算

分布式计算是大数据处理的基础技术,其通过将计算任务分散到多个节点上来提高计算效率和处理能力,以实现并行处理和资源共享。[11]分布式计算特别适用于处理单个计算机无法高效处理的大型或复杂任务,如大数据处理和高性能计算。随着数据量和应用性能需求的增加,分布式计算系统已成为现代数字架构的基本模型。这种方法能提高处理速度、优化性能,并在多个节点之间共享资源。[106]

数据集成与ETL

数据集成与ETL(Extract, Transform, Load)在大数据技术中起着至关重要的作用。其通过从多个数据源提取数据并转化格式,加载到数据仓库或数据湖中。ETL包括三个主要步骤:首先,从应用程序、数据库或文本文件中提取数据;其次,将数据转换为目标系统所需的格式,包括更改数据类型和应用复杂公式;最后,将转换后的数据加载到数据仓库或其他数据存储中。[107]
ETL技术不仅是数据迁移的过程,还确保了数据的质量和一致性,支持商业智能和高级分析。这对于企业整合不同来源的数据,形成统一的数据视图至关重要。此外,ETL工具通常具备自动化功能,可以调度和监控ETL任务,[108]确保数据及时更新和处理。通过高效的ETL过程,企业能够提升数据治理能力,优化决策过程,实现数据驱动的业务转型。[107]

相关工具及平台

现代计算系统提供了快速访问大量和多种类型的大数据所需的速度、功能和灵活性,使得大数据应用便捷。[36]同时,不同工具及平台的出现也推动了大数据的发展,以下工具和平台在大数据分析和处理过程中发挥着重要作用:
名称
描述
logo图
Apache Flink[26]
分布式流处理和批处理框架,可处理无限数据流和大规模数据集。可使用相同API和环境处理数据流,支持多种语言
Apache Kafka[109]
分布式事件流平台,用于高性能数据管道和流分析,支持高并发、扩展性和持久存储
Apache Storm[110][111]
实时数据流处理的分布式计算系统,每秒可处理百万条消息,具有高容错和扩展性
Apache Hadoop[112]
分布式存储和处理大规模数据集的软件框架,核心组件包括HDFS和MapReduce;HDFS负责高吞吐量的数据访问,MapReduce负责并行处理
Apache Spark[113]
统一分析引擎,支持批处理、流处理、机器学习和图计算,可在内存中计算,能够处理PB级别数据
Elastic search[25]
实时数据分析和搜索引擎,分布式架构支持快速索引和检索,可定义复杂数据结构和类型,适用于多种查询语言
MapReduce[114]
大规模数据处理的编程模型和框架,通过集群,简化数据处理任务并实现高效并行处理
Tableau[115]
数据可视化工具,支持实时分析和多种数据源连接,提供直观的用户界面和强大的可视化功能
KNIME[116]
数据分析、整合和报告平台,提供低代码界面,支持多种数据源和第三方工具集成
Google BigQuery[117]
无服务器数据仓库,支持大规模数据分析,具备高效实时处理能力和易用的SQL界面
Snowflake[118]
基于云的数据平台,简化数据工程和科学任务,支持多集群共享架构和高性能SQL查询
Power BI[119]
商业智能工具,将数据转换为视觉效果和交互式报告,由多数据源集成,具强大数据建模功能
Qlik View[120]
自助数据探索和分析平台,具有强大的关联引擎和高度互动的用户界面

价值与意义

重复利用提升效益:大数据及其产品具有易复制、成本低、叠加升值和传播升值等特点,具备广泛使用的潜力和高边际效用。相同的数据可以在合理合法的前提下以低成本提供给多个使用方,不仅服务多个主体,还可以针对不同目的进行分析,产生多样化的价值。这种一次投入、多次使用的特点使大数据效益倍增,提升了各行各业解决困难和问题的能力。[121]
众多领域的推动力:大数据技术提升了数据存储、传输和读写能力,降低了信息获取成本。[122]企业通过深入挖掘数据,发现新市场机会和业务模式。[123]在金融领域,大数据促进了比特币和互联网金融的发展。此外,大数据在推动科学研究进步、社会治理和公共服务方面也具有深远意义。通过云计算等技术,大数据实现自我产生和动态分析,帮助资本市场和银行进行智能化决策和风险预警。[122]
改善民生发展:大数据作为新型生产要素,蕴藏巨大价值,能有效推动经济转型和国家治理现代化。它可以成为欠发达地区发展的驱动力,通过广泛应用于企业生产、政府管理和社会治理等领域,显著提升效率和效果。在民生改善方面,大数据提供了新的解决方案,各级领导干部和公众需提高利用大数据推进工作的意识和能力,使其在经济社会发展中发挥更大作用。[121]

挑战

构建数据核心计算体系的迫切

随着全球大数据规模增长迅速,数据量从2020年的64ZB预计将增加到2035年的2140ZB,面对如此庞大的数据增长,如何构建以数据为中心的新型计算体系变得极为迫切。这个体系需要适应新的应用环境,并能组织和管理超大规模的数据元素,解决数据跨域访问和系统规模持续增长带来的问题。数据治理已成为重要的课题,如何在计算系统重构的背景下有效管理、处理、分析和治理数据,是当前面临的重大技术挑战。[124]

隐私安全问题突出

在信息化时代,人们的很多活动产生的数据会被记录,如浏览网页时留下的浏览痕迹,填写个人信息时留下的相关证件号码、手机号、身份证号,甚至数字化存储的国家机密、军事机密等,这些重要的数据一旦被不法分子窃取,后果将会十分严重,如何保护隐私和防止数据泄露成为重要问题。[27]

核心技术薄弱

大数据的核心技术薄弱问题主要表现在数据处理平台和分析工具的局限性,以及对新兴技术的整合不足。首先,现有的大数据处理平台,如Hadoop和Spark,尽管在处理海量数据方面表现出色,但在处理实时数据和提供低延迟响应方面仍存在挑战。[125]其次,许多数据分析工具在应对数据多样性和高维数据方面表现不佳,难以从复杂的数据集中提取有意义的见解。[126]

数据垄断风险

大数据的发展伴随着数据垄断的风险。少数大型科技公司凭借其在数据收集和处理能力上的优势,占据了大量的数据资源,形成了数据垄断。这不仅导致市场竞争不公平,还可能引发隐私问题和数据滥用风险。[28]例如,Onavo VPN被Facebook用于追踪用户在竞争对手应用(如SnapchatYouTubeAmazon)上的活动。通过这种方式,Facebook能够获取竞争对手的用户数据,从而进行市场分析,评估竞争对手的威胁并采取相应策略来保持其市场主导地位。[127]

算法依赖与社会割裂

大数据技术在决策过程中的广泛应用,使得社会对算法的依赖程度不断增加。然而,算法偏见和不公平问题也随之而来。依赖于已有数据和模型的算法,往往会在决策过程中体现出数据本身的偏见,从而加剧社会的不公平和割裂。[128]例如,在招聘、贷款审批等领域,算法可能会基于历史数据作出带有偏见的决策,导致某些群体受到系统性歧视。[129]这些偏见通常源于不平衡的数据集或反映历史不平等的有缺陷信息。如果不加以控制,偏见算法可能会导致决策对某些群体产生集体性的不利影响。[128]

数据资源价值认识不足

大数据的核心技术薄弱导致对数据资源价值认识不足的问题尤为明显。虽然数据科学家在训练算法时投入了大量资源,但他们往往忽视了数据质量和多样性的影响。偏向性的数据和不完整的数据样本导致算法做出系统性错误,进而影响决策的准确性和公平性。例如,在招聘过程中,如果算法使用了偏向于男性候选人的数据,结果可能会不公平地排除女性候选人。这种数据资源的误用不仅阻碍了技术的发展,还导致了市场上不公平竞争的现象。[130]

应用

金融领域

大数据在金融领域的应用主要体现在营销策略管理、风险管理等方面。金融机构利用大数据分析平台,可以深入挖掘、追踪并分析多样化的用户数据,这些数据涵盖了用户的基本信息、财务信息、消费数据、浏览数据、购买路径,以及他们的购买行为等。[3]例如,西班牙桑坦德银行(Banco Santander)利用大数据技术分析客户交易数据和社交媒体活动,制定个性化的营销活动,提高客户参与度和满意度。[131]在风险管理方面,大数据技术已经成为一种不可或缺的工具和手段,用于信用风险市场风险、操作风险和流动性风险的分析。[3]新加坡华侨银行(UOB)利用大数据技术提升其风险管理系统。传统上,计算风险价值需要长达20小时,但通过大数据系统,UOB将这一过程缩短至几分钟,实现了实时风险评估。这一实施显著提高了风险管理的效率和准确性。[132]此外,IBM等公司已经成功运用大数据信息技术研发出“经济指标预测系统”,用于预测股价等经济指标的走势。[4]该系统在美国证券市场中展现了高度的精确性和前瞻性。[133]
image
大数据预测股市

工业领域

工业物联网是指在工业生产的过程中,对涉及的产品、设备等各项数据进行采集和管理的系统。它通常采用远程管理方式,例如处理设备的历史数据、监控设备的运行状态等。在长期监控工业生产设备的过程中,所获取的海量数据是进行产能分析、预测设备故障概率以及检测产品合格率等关键信息的来源。由于这些数据规模庞大,人们称之为工业大数据。在处理工业大数据时,需要通过专门设计的平台进行数据的采集、预处理、挖掘、分析和存储。同时,还需利用大数据技术中的数据驱动方法对各种设备故障进行检测,以实现工业生产设备的合理优化。[5]
image
工业大数据

医疗领域

随着智能医疗技术的不断进步,其应用范围逐步渗透到医疗诊断与治疗的每一个流程中,显著提高了诊疗效率与质量,并推动了地区医疗资源的合理配置与优化。精准医疗作为典型应用,通过人类基因测序结合大数据分析,深入探索个体基因组与疾病之间的潜在关联,能够准确识别疾病的发病机制,找到精确治疗靶点,并有效评估重大疾病。其高精度、高效率和便捷性在肿瘤治疗、遗传病防控和妇科领域得到了广泛应用。[5]然而,大数据在医疗领域的应用也带来了数据真实性核查困难和网络安全风险等问题,部分人为短期经济利益而造成的数据失真也对研究可靠性产生了负面影响。[134]
image
大数据在医疗领域的运用

教育领域

大数据技术在教育领域的应用主要体现在适应性教学、教学规律挖掘和校园信息化管理等方面。基于大数据的Learnsprout系统能够科学评估高考备考过程,精准识别学生学习中的难题,并通过早期介入帮助学生解决学习障碍[5]大数据分析还可以对学习过程中产生的数据进行模型化分析,帮助学习者探索知识规律、实现可视化建模、构建知识框架,并预测学习发展动向,促进学习者之间的高效交流与合作。学校也可以通过详细分析教学数据,全面考核教师教学绩效,并评估和优化教学平台,为教学平台的进一步升级提供有力的数据支持。[6]
image
大数据在教育领域的运用

生态系统治理

生态系统相关的大数据涵盖了植被、土壤、海洋以及大气等多方面的生态数据。这些数据信息量巨大且种类繁多,传统的数据分析和处理技术难以有效应对。然而,通过合理的使用大数据技术,就可以实现对这些生态系统数据的高效分析和处理。以某环保局推出的“环保治理大数据平台”为例,该平台不仅能实时监控城市各类环境指标与污染源的动态数据,更能运用先进的大数据分析和人工智能算法,为环境治理提供科学的解决方案与政策制定参考。这样的系统化应用,极大地协助了环保及城市管理相关部门,在环境保护工作中做出更加明智和有效的决策。[5]
image
生态环境大数据平台

智慧交通

大数据技术在智慧交通中的应用主要体现在交通拥堵预测、车辆导航和公交系统优化等方面。通过采集城市交通的车流量、车速和车辆位置等数据,再运用大数据分析技术,可以科学预测交通拥堵及其持续时间。利用车辆位置、实时道路状态和详尽地图数据结合高效路线规划算法,大数据技术实现了高度智能化的导航服务,为驾驶员推荐便捷路线,主流导航软件正是依赖大数据技术进行实时路况预测和路线优化。公交系统方面,通过收集公交车辆实时位置和客流量数据,辅以人工智能和机器学习技术进行分析,实现公交车辆智能调度和线路优化设计。以深圳市“智慧公交”系统为例,该系统利用车载设备监控公交车辆位置和载客情况,并通过智能调度算法动态调整公交车路线和发车间隔,显著提升了公交运营效率和服务质量。[7]
image
大数据运用于智慧交通

农业经济

大数据技术在农业经济中的应用主要体现在优化农业生产管理、降低生产成本和促进涉农企业发展等方面。通过对土壤、光照、降水等外部因素进行深入的数据分析,农业生产可以做出更准确且及时的决策,持续优化生产流程,提升整体效率和水平。大数据技术还能够分析生产成本与农产品价格数据,提供市场趋势预测和价格预估,指导农民制定合理的生产规划,如在农用物资采购环节,通过对物资价格、质量和供应商信誉的综合评估,选购性价比更高的农用物资,降低采购成本。大数据技术还可以帮助涉农企业分析面临的挑战,推动企业持续发展,拉动当地经济增长。例如,通过实时监测土壤和气候条件,调整种植策略,提高农作物产量,并利用大数据分析了解用户反馈和市场动态,提升企业的营销能力。[8]
image

安全领域

随着大数据的深入应用,公安机关也建立起了以大数据智能应用为核心的“智慧公安”新模式。在公安民警长期的案件侦破中,他们可以从海量的案例信息和社会资源数据中筛选出有价值的数据。这些数据综合时间、空间、人文地理等多个维度进行深入分析,从而揭示出暴力犯罪、恐怖袭击以及恶性群体性事件等的核心发生条件。技术人员经过研究总结成功地概括出各类案件的关键特征,并在此基础上形成了一系列高效实用的侦查技术和策略,积累了深厚的实战经验。借助大数据技术,可以将这些资深警官的宝贵经验和侦查技术进行数据模型化。通过整合各类关键特征数据,构建出相应的数据模型,以实现对案件的智能化分析、风险的自动化预警、对犯罪的精确打击,以及提供更为便捷的管理服务。[9]
image
大数据在安全领域的应用

政府领域

大数据技术在政府领域的应用极为广泛,涵盖经济预测、金融风险监控、公共服务优化等多个方面。通过大数据分析,政府可以提升决策的科学性和管理的效率。以下是几个国家在大数据应用方面的具体事例:
美国:美国国家经济研究局(NBER)使用大量的经济数据(如个人收入、非农就业、个人消费支出等)制作美国商业周期年表,来识别经济活动的峰值和谷值,以精确确定经济周期的转折点,制定相应策略。[135]
中国:为综合评估金融机构理财、资金信托业务对货币政策传导和金融稳定的影响,2010年,人民银行建立逐笔、逐产品统计的理财与资金信托统计,成为金融统计大数据的试验田,有效监测了国内交叉性金融产品的发展。在理财与资金信托统计探索的基础上,2018年,“一行两会一局”共同建立了金融机构资管产品逐笔统计制度,实现对约80万亿金融机构资管产品的全覆盖。根据制度,将对每只产品进行从来源到运用、从发行到终止的全生命周期统计,实现对复杂资管产品的全方位统计。[136]
英国:英国政府通过大数据分析交通数据和社会行为数据,改善城市交通和公共服务。具体而言,英国政府发布了交通数据战略,旨在通过更好地使用和共享交通数据,推动行业创新和提升服务质量。该战略包括多个关键目标,如改进数据共享、推广数据标准、提升员工的数据技能以及确保数据治理和与行业的沟通。[137]
巴西:巴西政府利用大数据技术打击税收欺诈,通过对税务数据的深度分析,发现并阻止了大量虚假申报行为,提高了税收征管效率。[138]
印度:印度政府通过大数据技术监测和管理农业生产,利用气象数据和卫星影像帮助农民优化种植决策,提高农业产量和效率。[138]

发展趋势

数据货币化

数据货币化是指通过数据获取新的收入来源,其将成为大数据在经济领域发展的重要趋势。高效的数据货币化需要用户具备强大的数据和分析能力,以便从数据中提取有价值的见解。一些龙头企业在数据货币化方面表现出色,能够显著改变其核心业务功能,如供应链、研发和资本资产管理等。支付提供商通过将消费者数据与商户数据相结合,能够获得端到端的交易视图,从而解锁更多价值。成功的数据货币化通常依赖于与数据分析专家的合作,或者内部开发类似的能力。总体来看,数据货币化需要明确的业务焦点、合适的人才和克服法规与声誉障碍的能力。[139]

数据市场化交易

数据市场化交易通过专门的平台进行数据的买卖和交换,为数据提供了合法和安全的交易途径。在金融领域,这些平台帮助通过数据质量评估、数据定价机制和合规性审查,确保交易的透明性和安全性。用户可以利用数据市场化交易平台迅速获取并测试各种外部数据集,从而提升业务决策的准确性和效率。这些平台通常包括数据经纪商和聚合平台,能够为用户提供广泛的数据生态系统访问权限,促进业务创新和增长。通过有效的数据市场化交易,数据能够从外部被整合至其内部环境中,获得增值信息。[140]

数据管理智能化

数据管理智能化通过利用人工智能自动化技术,提升数据管理的效率和准确性。智能化的数据管理系统可以实时监控数据质量,自动识别和处理数据异常,从而确保数据的一致性和完整性。[141]例如,在金融服务领域,自动化技术能够显著增加交易吞吐量并减少错误,提升运营效率。此外,智能化的数据管理还可以通过自动化的数据清洗、分类和存储,减少人为错误,降低数据管理成本。[142]通过部署智能化数据管理系统,企业能够提升运营效率,优化业务决策,并增强市场竞争力。[143]

大数据产业链与生态构建

大数据产业链与生态构建通过整合数据采集、存储、处理和分析的各个环节,形成一个完整的生态系统,为生产经营者提供协同合作的机会。这种生态系统可以通过吸引多方参与,降低进入壁垒,创造规模经济,并在核心产品之外提供明确的客户利益和依赖性。[144]成功的生态系统能够激励大量具有相似利益的参与方(如应用开发者)共同追求目标,从而形成协同效应,提升整体价值。[145]通过标准化的API和数据交换机制,企业能够高效地共享和利用数据,推动业务创新和增长。[146]例如,API可以显著提高数据共享的效率,使得不同系统和组织之间能够更快速地集成和交换信息,从而提升业务的灵活性和市场响应能力。[147]

云计算

随着数据量的不断增加,云计算将更加普及,为大数据的发展提供更强大的支持。[148]云计算提供了灵活的存储和计算资源,支持大规模数据处理和分析,显著提升了处理效率和可扩展性。[149]云计算平台如亚马逊AWS、微软Azure谷歌云平台,已经成为大数据存储和计算的基础设施,通过虚拟化技术提供按需的计算资源和存储容量。[150]

AI技术

在大数据的发展中,人工智能(AI)技术扮演着至关重要的角色。AI的应用不仅提升了数据处理和分析的效率,还推动了生成式AI和小型语言模型(SLMs)的广泛应用,使AI技术更具普及性和成本效益。多模态AI(Multimodal AI)能够处理多种数据类型,如文本、图像、音频和视频,从而增强了应用的准确性和互动性。[151]此外,AI在科学研究中的应用显著加快了新药研发和材料科学等领域的进展,助力解决全球性挑战。[152]

边缘计算

边缘计算未来将成为大数据发展的重要趋势。[148]边缘计算通过在靠近数据源的位置(如移动设备或传感器)部署计算和存储节点,显著提升了云服务的响应速度、扩展性和隐私保护能力。这种分布式计算模式,不仅能降低云数据中心带宽需求,还能在云服务中断时提供备份服务,从而保证系统的连续性和可靠性。近年来,业界对边缘计算的投资和研究兴趣迅速增长,推动了相关标准的制定和应用的普及。[153]它也将与人工智能机器学习等其他技术融合,共同推动大数据领域的创新与变革。[154]

机器学习

机器学习平台可以为企业和组织提供更便捷的机器学习开发和部署环境,未来将成为大数据和AI技术发展的重要基础设施。[148]通过不断优化的算法和理论进步,以及在线数据和低成本计算的激增,机器学习已经从实验室研究转变为广泛应用于科学、技术和商业领域的实用技术。特别是数据密集型机器学习方法的采用,正在推动科学研究、医疗、制造、教育、金融建模、执法和营销等各个领域的发展,并使这些领域能够利用大数据带来的优势。[155]

分布式存储

分布式存储技术正在迅速发展,成为大数据领域的关键趋势。随着数据量的持续增长,企业对高效、可靠的数据存储解决方案的需求不断增加。分布式存储通过将数据分散到多个节点上,提供了更高的容错能力和数据可用性。它还支持按需扩展,能够灵活应对不同业务场景的需求。此外,分布式存储可以大幅降低存储成本,提高数据处理速度,是未来大数据存储技术的重要方向。[156]

实时分析与自动化分析

实时分析预测将成为未来数据分析的重要需求,可视化分析将成为未来数据分析的重要手段。[148]实时分析允许企业在数据生成的瞬间就进行分析和决策。通过实时分析,企业可以更快速地响应市场变化和客户需求,提高业务敏捷性。此外,实时分析还能帮助企业识别和解决潜在问题,优化运营效率。随着技术的进步,实时分析在大数据应用中的价值将继续提升。[157]
同时,越来越多的分析工作将会自动化,从而减少人工干预,提高分析效率和准确率。[148]例如,TableauDatabricks合作,通过湖仓架构(Lakehouse Architecture),将流数据和批数据结合在一个平台上,简化操作和实现统一的治理。这种架构不仅能加速数据管道的构建,还能通过自动化工具优化操作,使企业能够快速地进行实时分析和决策。通过Delta Live Tables和SQL仓库,数据可以被连续摄取、清洗和转换,并直接在Tableau中进行可视化分析,从而实现自动化的分析流程。[158]

相关概念

云计算

云计算是一种基于互联网的虚拟化计算平台,它通过算法高效地整合并处理平台上的数据资源,进而将这些处理后的数据推送给用户,实现数据信息的共享。云计算的应用范围广泛,其特点主要体现在计算规模庞大、资源使用非实体化、适用性强且性价比高。在数据处理过程中,云计算展现出显著的分布式计算优势。它能够将海量的数据拆分成多个小数据块,并按照一定的规则将这些小数据块分配到不同的计算机上进行并行计算。最后,通过整合这些计算结果,形成完整的数据结构,从而提升了计算结果的准确性和安全性。此外,云计算技术还能确保计算与存储过程的同步进行,有效防止了数据的丢失和遗漏。[159]

物联网

虽然物联网概念提出较早,但由于技术限制未获广泛关注,直到1999年互联网技术的发展才推动其逐渐受到重视,并通过不断进步的网络技术得到优化和完善。[159]
物联网技术的显著特点在于其能够根据应用对象的实际情况进行数据建模,通过技术手段实现物理对象与虚拟化信息系统的无缝对接,从而达到规范化处理和智能化监管的目标。经过处理后,数据信息得以科学化地处理、整合和归类,为相关人员的数据应用提供了极大的便利。物联网技术的核心是由多样化的传感器组成的网络体系,而数据挖掘服务网络则是其基准。通过各节点之间的信息传输,物联网技术能够确保各项内容实现交互和共享,最终将所需信息完整传输到使用者手中。[159]

点赞(0) 打赏

微信小程序

微信扫一扫体验

立即
投稿

微信公众账号

微信扫一扫加关注

发表
评论
返回
顶部