“Data is the new oil”,数据是新石油这个比喻,最早由英国数学家 Clive Humby 在 2006 年提出。但真正让这一概念深入人心的,是《经济学人》2017 年的封面文章:“世界上最有价值的资源不再是石油,而是数据”。
这个论断在消费互联网领域迅速得到验证:Google、Facebook、阿里巴巴、腾讯等巨头的崛起,本质上都是数据价值的变现。然而在工业领域,数据的价值觉醒却要缓慢得多。
直到今天,仍有大量制造企业把数据采集视为“不得不做的监管要求”,把数据存储视为“令人头疼的成本支出”。但另一方面,行业领先者已经将数据视为核心竞争力,甚至开始探索数据变现的商业模式。
这种巨大的认知差异背后,是工业数据价值演进的三个阶段。
工业数据价值演进的三个阶段
第一阶段:被动记录——数据是“必要的成本”
为什么要采集数据?
在工业数据的早期阶段,企业采集数据通常出于三个被动的原因:
•合规要求是最主要的驱动力。制药行业的 GMP(药品生产质量管理规范)要求记录每一批产品的关键工艺参数;食品行业的 HACCP(危害分析与关键控制点)体系要求监控温度、湿度等关键指标;化工行业的安全生产法规要求记录设备运行日志。不记录不行,但记录了也不知道有什么用。
•故障排查是第二个原因。设备突然停机,工程师需要查看停机前的运行数据来判断原因。但这种“事后诸葛亮”式的数据使用,价值非常有限。更多时候,日志记录不完整或者数据缺失,让故障排查变得更加困难。
•生产统计是第三个原因。每月、每季度的产量报表、能耗统计需要数据支撑。但这些数据往往是人工抄表、手工录入,不仅效率低下,而且错误率高。
数据的“成本属性”
在这个阶段,数据在企业内部完全是成本项:
•存储成本让人头疼。2000 年代初期,1TB 的硬盘价格一度高达几千美元。企业不得不精打细算,能少存就少存,能晚存就晚存。很多企业采用“滚动存储”策略,只保留最近几个月的数据,更早的数据要么删除,要么转存到磁带备份。
•采集成本同样不菲。每增加一个监测点,就意味着要采购传感器、布线、配置通讯协议。很多老设备根本没有数据接口,改造成本高昂。人工抄表虽然原始,但在很多企业仍是主流方式。
•维护成本也是隐性负担。系统需要专人维护,传感器需要定期校准,网络故障需要及时排查。对于IT基础薄弱的制造企业来说,这是一笔不小的开支。
在这种背景下,企业普遍的心态是:数据采集是不得不做的事,能省则省。
典型场景与痛点
这一阶段的工业数据呈现出明显的特征:
•数据分散是最大的问题。生产数据在 SCADA 系统里,质量数据在 Excel 表格中,设备台账在纸质文件夹里,能耗数据在电表抄录本上。这些数据各自为战,无法形成合力。
•数据质量差是第二大问题。人工录入带来大量错误,传感器故障导致数据缺失,时间戳不统一让数据关联变得困难。某钢铁企业的数据分析师曾经苦笑着说:“我们 50% 的时间都花在清洗数据上,真正的分析时间反而很少”。
•数据利用率低是普遍现象。在整体数据环境中,被真正分析和持续使用的数据比例始终处于较低水平,这一状况在工业企业中尤为明显。大量工业数据在采集之后,仅完成了存储这一环节,真正参与分析和决策的比例不足个位数。
业内甚至流传一个说法:“企业的服务器就像数据坟墓,数据进去就出不来了”。
这一阶段的技术栈
受限于技术水平,这一时期的数据基础设施相当原始:
•关系数据库是主要的存储方式。Oracle、SQL Server 这些为事务处理设计的数据库,被用来存储时序数据。但它们对时间序列查询的支持有限,性能也跟不上。
•SCADA 系统是工业监控的标配。但早期的 SCADA 功能单一,主要用于实时监控和简单的报警。历史数据查询能力弱,数据分析功能几乎为零。
•本地存储占据主导。云计算刚刚兴起,企业对数据上云心存疑虑。所有数据都存在本地服务器上,这带来了管理难题:硬件故障、容量不足、扩展困难。
回过头看,这个阶段最大的问题不是技术,而是认知:企业没有意识到数据的价值,所以投入不足、重视不够、利用不充分。
第二阶段:价值初现——数据是“优化工具”
转折点:工业 4.0 的概念冲击
2013 年,德国政府在汉诺威工业博览会上正式推出“工业4.0”战略,这个概念迅速在全球制造业引发震动。几乎同时,美国 GE 公司提出"工业互联网"概念,并推出 Predix 工业云平台。2015 年,中国发布《中国制造 2025》战略规划。
这些顶层战略的共同点,都是强调数据的重要性。工业 4.0 的核心,就是通过数据连接物理世界和数字世界,实现“智能制造”。
在这个背景下,企业开始重新审视手中的数据:这些长期被忽视的数字资产,会不会蕴藏着巨大的价值?
数据价值的三个突破
这一阶段,工业数据开始产生可量化的商业价值,主要体现在三个方向:
1. 设备预测性维护:传统的设备维护策略有两种:一是定期保养(不管设备状态如何,到时间就换零件),二是故障后维修(坏了再修)。前者浪费资源,后者导致非计划停机。数据驱动的预测性维护改变了这一切。通过持续监测设备的振动、温度、电流等参数,系统可以在故障发生前数小时甚至数天发出预警。
2. 工艺参数优化:制造业有句老话:“三分设备,七分工艺”。同样的设备,不同的工艺参数会带来截然不同的产品质量和生产效率。传统上,最优参数的确定依赖“老师傅”的经验,这种隐性知识很难传承。数据分析让工艺优化有了新的路径。一旦找到,就可以固化到生产系统中,不会因为“老师傅”退休而失传。
3. 质量追溯与根因分析:当客户反馈产品存在质量问题时,快速定位问题根源至关重要。传统的批次级追溯能力已经不够用,企业需要更精细的单件级追溯。如果没有完整的数据追溯,这个问题可能需要几周甚至几个月才能定位。有了数据支撑,问题从发现到定位到解决的时间大大缩短。
这一阶段的技术进步
数据价值的实现,离不开技术工具的进步:
•时序数据库的崛起是一个标志性事件。InfluxDB、OpenTSDB、TimescaleDB 等专门为时序数据设计的数据库开始流行。它们针对时间序列的特点优化了存储结构和查询算法,性能相比传统关系数据库提升了 10-100 倍。
•大数据平台的应用也在工业场景落地。Hadoop、Spark 等大数据处理框架被用于历史数据的批量分析。某电力企业使用 Spark 处理 10 年的电网运行数据,发现了设备故障的周期性规律,这在传统工具上几乎不可能实现。
•机器学习的初步应用让数据分析从“人工找规律”走向“算法找规律”。虽然这一时期的工业 AI 应用还比较初级,主要是简单的预测模型,但已经展现出巨大潜力。
•工业互联网平台的兴起也值得一提。GE 的 Predix、西门子的 MindSphere、海尔的 COSMOPlat 等平台纷纷推出。尽管多数平台在商业化层面并未取得预期成功,但它们推广了“数据上云”、“工业 APP”等新理念。
观念的转变
更重要的变化发生在企业的观念层面:
•从“不得不采集”到“主动采集”:企业开始意识到,数据越全面,分析的可能性越大
•从“越少越好”到“越全越好”:存储成本的下降让“全量采集”成为可能
•数据开始有独立的预算和 ROI 评估:CFO 不再质疑数据投入,因为回报看得见
•从“IT部门的事”到“业务部门关注”:生产、质量、设备等部门开始主动要求数据分析
但这一阶段,数据仍然是辅助角色。数据服务于生产,而非驱动生产。企业用数据来优化现有流程,而不是用数据来重新定义业务模式。
真正的质变,发生在下一个阶段。
第三阶段:战略资产——数据是“核心竞争力”
从量变到质变的临界点
2018 年前后,工业数据的价值认知发生了质的飞跃。多重因素在这个时间点交汇:
•技术的成熟是基础。AI 从实验室走向应用,边缘计算解决了实时性问题,5G 提供了低延迟网络,云原生架构让系统更加灵活。这些技术的组合,让此前无法实现的应用场景成为可能。
•政策的推动提供了外部动力。中国在 2020 年提出“数据要素市场化”,将数据列为与土地、劳动力、资本、技术并列的生产要素。2022 年发布的“数据二十条”更是从法律层面明确了数据资产的地位。双碳目标的提出,也倒逼企业通过数据实现精细化能源管理。
•竞争的倒逼形成内在压力。行业领先者已经尝到了数据的甜头,它们的成功案例让其他企业看到了差距。在一些高端制造领域,数据能力甚至成为客户选择供应商的重要标准。
•商业模式的创新打开了新的可能性。从“卖产品”到“卖服务”的转变,让数据从成本项变成了收入项。这个变化具有革命性意义。
在这些因素的共同作用下,越来越多的企业开始将数据视为战略级资源。
数据资产化的表现
数据资产化的最直观表现之一,是数据成为生产决策的核心依据。决策逻辑从“经验为主、数据为辅”,转变为“数据驱动决策”,人的角色也从直接决策者转变为监督者和兜底者。以钢铁行业的“一键炼钢”为例,传统炼钢高度依赖工人经验判断。通过对数十万炉历史数据的分析,结合机理模型和机器学习算法,系统可以实时给出最优操作方案。在成熟产线中,大部分操作决策已经由系统自动或半自动完成,人工仅在异常情况下介入。数据不再只是参考,而逐渐成为决策本身。
更深刻的变化体现在商业模式的重构上。从“卖产品”到“卖服务”,数据成为支撑长期价值创造的核心基础。劳斯莱斯的“Power by the Hour”模式,通过对发动机运行数据的实时监控和预测性维护,实现按飞行小时收费;米其林的“Tire as a Service”则基于轮胎和车队数据,为客户提供持续的轮胎管理服务。这些模式的共同特征是:数据让产品转化为持续服务,使一次性收入变成长期价值。
数据资产化的另一标志,是数据开始具备可交易属性。2023 年财政部发布《企业数据资源相关会计处理暂行规定》,为数据资产入表提供了制度基础。一些企业已开始探索将数据资源纳入资产负债表。在供应链层面,数据协同显著提升了整体效率;在市场层面,数据交易所的出现标志着工业数据商品化的初步探索。数据产品的交易,本质上是知识、经验和能力的交易,也为工业领域打开了新的价值空间。
这一阶段的技术特征
技术工具的成熟是数据资产化的基础:
•分布式时序数据库是核心基础设施。以 DolphinDB 为代表的新一代时序数据库,可以支撑 PB 级数据的存储和实时查询。某风电企业使用 DolphinDB 管理全国几千台风机的数据,每天新增数据量达到 TB 级,但复杂查询仍然可以在秒级返回结果。
•实时流计算架构成为标配。传统的批处理模式(T+1)已经无法满足需求,企业需要毫秒级的实时响应。DolphinDB 的流数据处理引擎可以在数据写入的同时完成实时计算,实现真正的流批一体。
•边缘智能是一个重要趋势。AI 模型不再只部署在云端,而是下沉到边缘侧。在现场的边缘计算节点上直接完成数据处理和智能决策,响应延迟从秒级降低到毫秒级。
•数据中台、数据湖架构成熟。企业开始建设统一的数据平台,打破部门墙,实现数据共享。DolphinDB 因其强大的数据整合能力和高性能,常被用作数据中台的核心引擎。
•联邦学习等隐私计算技术开始应用。在数据不出企业的前提下,多家企业可以联合训练机器学习模型,实现“数据可用不可见”。这为产业链协同提供了新的可能性。
这些技术的共同特点是:让数据的流动更快、处理更强、价值更大。
关键转折:数据从“有”到“用”的三大技术突破
回顾这三个阶段,一个核心问题是:是什么让数据从“躺在硬盘里”变成了“创造价值”?答案是三个关键技术突破。
突破1:存储成本下降,使“全量数据”成为现实
价格革命改变了一切。2010 年,存储 1TB 数据往往需要接近百美元的硬件投入;到今天,同样容量的存储成本已经下降到原来的几分之一。更重要的是,云存储的按需付费模式消除了前期硬件投入,让中小企业也能负担得起海量数据存储。
时序数据库的高压缩比进一步降低了成本。DolphinDB 等专业时序数据库通过列式存储和针对性的压缩算法,典型压缩比可达到 10:1,对于高规律性时序数据甚至可能更高。
企业开始从“事前筛选”转向“事后利用”。这一变化的意义在于:数据第一次具备了“选项价值”。即使当下不用,也可以为未来的分析、建模和优化留下可能性。
突破2:实时计算普及,让数据具备“行动价值”
从 T+1 到毫秒级是质的飞跃。传统的批处理模式,数据采集后要等到第二天才能分析。后来发展到准实时(分钟级延迟)。现在,流计算技术让毫秒级的实时处理成为现实。
分布式计算框架的成熟提供了基础能力。Flink 等流计算框架,DolphinDB 的流数据引擎,让企业可以在数据流动过程中就完成计算,而不是“先存储再计算”。
边缘计算的兴起解决了网络延迟问题。对于需要极低延迟的场景(如机器人控制、安全联锁),在边缘侧直接处理数据是唯一选择。5G 的低延迟特性进一步加强了这个趋势。
这意味着,工业数据从“事后分析材料”,转变为“即时决策输入”。
突破3:AI 技术成熟,让数据“自己显现规律”
从规则驱动到数据驱动是范式转变。传统方式是:人工观察数据→总结规律→编写规则→系统执行。这个过程依赖专家经验,而且规则是静态的,无法适应变化。
机器学习改变了游戏规则。算法可以从历史数据中自动发现模式,并随着数据积累持续优化。很多原本难以显式建模的问题,开始具备工程可行性。
预测性维护、异常检测、工艺优化的自动化降低了数据应用门槛。企业不再需要雇佣大量数据科学家,很多场景下使用现成的算法和工具就能实现价值。
这个变化的意义是:数据利用的门槛大幅降低,中小企业也能玩转数据。
新一代数据平台的角色:让能力“工程化”
当存储、实时计算和 AI 同时成熟,新的挑战随之出现:如何将这些能力稳定、可重复地落地到工业系统中?新一代数据平台的价值,正体现在这里。
以 DolphinDB 这类面向时序数据和实时分析的平台为代表,其关注重点并不在单一功能,而在于:
•统一批流处理简化了架构。传统上,批处理和流处理需要两套系统(如 Hadoop+Flink),数据需要在两个系统间同步,架构复杂。DolphinDB 实现了流批一体,同一个系统既可以处理实时流数据,又可以进行历史数据的批量分析,大幅降低了系统复杂度。
•高性能向量化计算支撑实时分析。DolphinDB 采用列式存储和向量化计算引擎,计算性能比传统数据库提升 10-100 倍。
•内置分析与建模能力降低 AI 应用门槛。DolphinDB 集成了常用的机器学习算法(回归、分类、聚类、时序预测等),数据科学家可以用 SQL 语法直接调用,不需要在多个工具间切换。
•分布式扩展能力支持从 GB 到 PB 的无缝扩展。企业可以从单机开始,随着数据量增长逐步扩展到分布式集群,不需要推倒重来。
在这样的体系下,数据不再是“临时分析对象”,而是被纳入长期运行的技术基础设施。
未来展望:工业数据资产下一站
如果说过去十年解决的是“数据能不能留下来、能不能算得动”,那么未来 5–10 年,工业数据的演进重点将转向如何被持续、稳定、规模化地使用。几个趋势正在逐渐显现:
•数据开始具备明确的要素属性
•数据主权和安全成为系统设计的重要约束
•AI 与数据平台深度融合,推动自动化决策
•跨系统、跨企业的数据协同逐步展开
DolphinDB 在未来趋势中的战略位置
在上述趋势中,高性能时序数据库处于基础设施层,是数据资产化的“操作系统”。DolphinDB 的战略价值在于:
•高性能:支撑 PB 级数据的实时分析,满足工业场景的性能要求
•易用性:SQL 接口+内置算法库,降低使用门槛,加速应用开发
•国产化:自主可控,满足关键行业的数据主权要求
•全栈能力:从数据采集、存储、计算到分析的完整闭环
结语:石油会枯竭,数据不会
文章开头提到“数据是新石油”,但深入思考会发现,数据与石油有本质差异。
•消耗性 vs 增值性:石油用一点少一点,是消耗性资源,而数据用得越多越值钱,是增值性资源,同样的数据可以被无限次使用,每次使用都可能产生新的价值。
•固定价值 vs 动态价值:石油开采出来,价值就固定了,而随着算法进步、应用场景拓展,数据的价值持续增长,10 年前的数据,用今天的 AI 技术分析,可能发现当时发现不了的规律。
•独占性 vs 共享性:石油我用了你就不能用,但是数据在隐私保护的前提下,可以共享使用,数据的共享和流动往往能创造更大的价值。
所以,“数据是新石油”是一个有启发性的比喻,在可复用性、可增值性和长期潜力上,数据的价值空间超过传统资源。
给工业企业的三点建议
回顾工业数据从“成本投入”到“战略资产”的演进历程,对正在或即将开始数字化转型的企业,有三点建议:
1.越早开始,越有优势:数据价值依赖长期积累。晚一年开始,往往就意味着少一年的可用历史数据。等待“条件成熟”通常不会带来真正的成熟,真正的能力往往是在实践中逐步建立的。
建议:从最迫切的场景入手,而不是追求完美方案;用可控投入验证价值,在实践中逐步扩展。行动本身,就是最重要的起点。
2.数据能力是一把手工程:工业数据转型并非单纯的 IT 项目,而是涉及组织、流程和决策方式的系统工程。它需要跨部门协同,打破数据孤岛;长期投入,承受短期不确定性;管理机制调整,而非简单技术替换。如果缺乏高层持续推动,数据项目往往很难走出试点阶段。
建议:将数据能力建设提升到战略层面,赋予相关团队足够的资源和决策权,以长期视角推进数据体系建设。
3.选对工具事半功倍:数据资产化离不开可靠的技术底座。选择合适的平台,往往能显著降低数据使用的复杂度和总体成本。不同技术路线各有取舍:开源方案灵活但依赖自身运维能力;商业产品交付成熟但成本较高;国产平台在合规和本地支持方面具备优势。
DolphinDB 是值得考虑的选择:
•技术上已经达到国际先进水平(性能、功能、易用性)
•国产自主,满足关键行业的合规要求
•本地化服务响应快,技术支持到位
•价格相对国外产品有优势
当然,没有完美的工具,关键不在于“选哪一家”,而在于是否选择了真正适合工业数据特性的工具体系。
最后一句话
在数据驱动成为主流的今天,工业企业的竞争力,越来越取决于对数据的理解、积累和使用能力。
数据资产化不是一道可选题,而是一道迟早要回答的必答题。差别只在于:是主动完成转型,还是被动接受结果。
唯一的问题是:你准备好了吗?