2025中国国际数字经济博览会在石家庄国际会展中心开幕。科杰科技董事长于洋受邀出席2025首席数据官峰会论坛,并作主题为《人工智能产业决胜与 Data&AI 数据基础设施建设》演讲。
以下内容根据科杰科技董事长于洋现场演讲整理。
一、数据是人工智能产业发展的关键,数据的关键是高质量数据集
在大国竞争中,人工智能产业是核心竞争领域,其由算力、算法、数据三大要素构成。目前我国在算力领域已有竞争方案与大规模计算方式,算法领域已实现混合专家突破,而数据作为人工智能产业决胜的重要因素,是实现弯道超车的关键。
人工智能的发展,是算力、算法、数据三大核心要素协同驱动的结果,三者缺一不可,唯有形成合力才能真正让人工智能落地应用。
算力领域,中国凭借前瞻性布局,大力推进大规模计算中心建设,从超算中心到智算中心,构建起了具有竞争策略的算力体系。算法层面,国内科研与产业界也实现了诸多突破性进展。混合专家模型(Mixture of Experts, MoE)、多头潜在注意力模型(Multi-Head Latent Attention,MLA)等创新成果不断涌现。
当前,国内外数据应用共同面临挑战:一是海量数据的存储、传输与计算需投入巨额硬件及算力资源,直接推高了技术落地的成本;二是文本、图像、音频等多模态数据的格式差异大,缺乏统一的整合标准,导致跨类型数据融合难度极高;三是现有数据平台效率低下,数据清洗效率低、标注周期长,直接拖慢模型训练进度,影响应用落地时效。在此背景下,部分企业对 AI 的应用预期过高,期望其解决全场景问题,但低质量数据往往导致模型输出效果未达预期,最终项目被迫搁置。
数据的规模和质量直接决定了人工智能技术所能达到的高度和深度。数据决定模型的认知边界,模型的学习范围依赖于数据覆盖的领域,数据越广泛,模型对不同场景、问题的认知能力越强;数据质量影响输出的可靠性,低质量数据会导致模型训练出现偏差,输出结果的准确性和可信度大幅下降;数据多样性提升模型鲁棒性,涵盖多场景、多维度、多来源的数据能帮助模型应对复杂多变的实际应用环境;大规模优质数据支撑模型能力增长,充足的数据量能让模型不断优化参数、完善逻辑,实现能力迭代升级;高质量数据更是商业落地的根基,能确保模型在实际业务场景中有效发挥作用,推动人工智能产业价值落地。
正如国家数据局局长刘烈宏所指出的,数据集的质效提升是人工智能赋能实体经济的“催化剂”。在算法和算力逐渐趋同的背景下,高质量数据集已成为塑造AI模型核心竞争力的关键护城河。
因此,若想在人工智能产业发展竞争中胜出,下一步需聚焦数据竞争力的构建。
二、高质量数据集需要一套数据基础设施承载
人工智能的发展高度与深度,直接取决于数据这一新型生产要素的规模与质量,破解高质量数据供给不足的瓶颈,是人工智能落地见效的首要前提。但高质量数据集并非凭空产生,也不是一劳永逸的成果,而是需经过持续汇聚、加工、治理的动态过程,只有依托数据基础设施平台,才能稳定输出鲜活的数据能力,实现与基础模型在各产业场景的深度融合。
高质量数据集是经过采集、加工等一系列数据处理操作后,可直接用于开发和训练人工智能模型,并能有效提升模型性能的数据集合。它通过系统性筛选、清洗、标注、增强合成、质量评估等环节,形成标准化的数据产品,具备格式统一、质量可控、场景适配性强等特点。从本质上来说,高质量数据集与普通数据的区别在于“可用性”与“效能”方面存在代际差。
需要明确的是,高质量数据并非凭空产生,也不是能够一劳永逸获取的成果。高质量数据集的构建是一个动态的过程,它必须以持续、稳定、鲜活的数据供给作为基础。高质量数据建设像巷战,不同企业、不同产业、不同行业具有各自独特的情况,无法通过单一举措一次性解决所有问题。因此,需要针对每个企业、每个产业、每个行业的具体情况,逐一梳理数据资源,搭建起科学合理的治理体系,最终形成高质量的企业级、产业级、行业级数据集。
与此同时,高质量数据集的建设离不开一套专业化的数据平台的支撑,这个平台要能够贯通数据采集、汇聚、清洗、标注、治理至应用的数据全生命周期,既精准承接高质量数据集建设诉求,更以全链路技术赋能,确保数据供给的稳定输出与高可用属性。
三、Data&AI 一体化平台是数据基础设施的核心引擎
AI 时代对数据平台提出了全新要求:向下需结合 GPU 进行新的算力优化,向上需面向各终端场景进行模型调优、开展规模化 Agent 开发以解决实际问题。因此,AI 工程、AI Infra 需与数据工程深度融合,构建 Data&AI 一体化平台能力 —— 这是数据基础设施的核心。
数据基础设施是以释放数据要素价值为目标的新型基础设施,整合硬件、软件及标准规范,从宏观视角看,数据基础设施是从数据要素价值释放角度出发,面向社会提供数据采集、汇聚、传输、加工、流通、利用、运营、安全服务的新型基础设施,其中Data&AI一体化平台作为技术底座,数据确权与价值分配机制构建权益框架,数据流通连接器实现跨域数据交互,以及支持数据产品与应用交易的数据商城体系,是集成硬件、软件、模型算法、标准规范、机制设计等在内的有机整体,Data&AI 一体化平台作为基础软件平台,是数据基础设施的核心引擎。
从企业角度来看,Data&AI 一体化平台核心是打通数据存储、治理、计算与 AI 模型开发全链路,实现 “Data for AI” 和 “AI for Data” 双向赋能。它是传统大数据平台的升级形态,通过 AI 原生架构重构数据处理范式,成为人工智能时代的 “核心生产工具”。
在人工智能时代,对数据平台有全新要求,向上衔接基础模型,为场景化的模型调优与创新应用落地提供有力支撑;向下承接算力资源,充分释放算力优势,实现计算资源的优化调度与高效利用。
大至国家城市级可信数据空间建设,小至如金融风控、智能制造、医疗健康、零售等应用场景,实现AI应用全方位落地让技术精准适配场景,让数据在采集、清洗、标注环节(Data Infra)即可适配 AI 训练、模型开发(AI Infra)无缝对接,整合AI与数据基础设施能力,推动AI在各业务场景实现 “最后一公里” 的规模化落地,助力产业智能化升级。
四、数据基础建设系统化方法体系:“方法论+技术+产品+实践”
数据基础设施建设并非单纯的技术或软硬件工作,而是需要 “方法论+技术+产品+实践” 的系统化支撑,以实现组织性、规模性协同。在方法论上,科杰科技基于多年实践,形成了 “数据治理与数据工程深度融合”“集中式管理、分散式赋能” 的混合数据智能落地体系;在技术与产品上,以 Data&AI 一体化平台为核心载体;在实践中,已覆盖制造、工业、能源、金融、零售等领域 —— 例如在智能制造领域,将工业知识数字化,让 “数据/软件” 成为智能制造的“大脑”,为制造强国建设筑牢核心基石。
Data&AI 一体化平台作为提供核心技术能力支撑的基础平台,其意义远不止于解决单点技术问题,更在于为大型组织与企业未来 5 – 10 年持续推进的数智化转型提供核心支撑能力——数智能力。人工智能时代,数智能力已成为与供应链能力、财务能力、人力资源能力并列的关键企业能力,是企业发展不可或缺的核心能力。
科杰科技深耕Data&AI 一体化领域逾六载,打造面相AI-Native的 Data&AI 一体化平台 KeenData Lakehouse,平台融合“AI-Native”设计理念,自研Al-in-Lakehouse智能驱动型架构,打通数据工程→模型训练/推理→Agent工厂→智能应用全链路,以“可信+智能+系统”的平台能力推进“Data&AI ”新基建,支撑大型组织从数据驱动迈向智能驱动。平台突破传统数据与AI割裂的架构,将湖仓一体引擎、OLAP数据治理和AI技术统一,形成精简高效的All-in-One技术解决方案。自研多模态计算引擎在单流水线中完成数据清洗至结果分析,数倍提升GPU推理吞吐,结合 KMI 推理加速、模型量化及Unity Catalog实现跨模态智能治理。
强大的技术实力与产品硬实力,科杰科技赢得行业广泛认可:不仅斩获省部级科学进步一等奖,连续三年蝉联中国大数据私有化平台 TOP5、中国湖仓一体平台软件市场占有率NO.1,更获评国家级专精特新重点小巨人企业、人民网 “匠心飞跃奖”、工信部软件产品可信卓越级认证、金融行业金鼎奖等多项重磅荣誉,同时跻身Gartner、IDC 等国际权威机构数据基础平台全球推荐厂商行列,成为 Data&AI 一体化领域的标杆企业。
依托方法论+技术+产品+实践支撑,科杰科技形成功服务生产制造、工业、能源、金融、零售等 20 + 行业近 200 个大型组织,为其量身打造适配业务需求的数据基础设施与数据底座,落地效果显著。同时,科杰积极响应国家数字中国、数据要素等相关政策,深度参与政府侧数据基础设施及可信数据空间规划建设,承接国内多个关键城市可信数据空间及先行先试示范区项目,让核心能力在政企双场景中全面落地,持续拓宽数据价值释放路径。
能源行业:中国石化基于 Data&AI一体化平台KeenData Lakehouse,构建了覆盖9大核心业务、数据总量达1.2PB的数据资源池,制定数据标准3727项,提供数据服务3093个。通过AI赋能,经营分析报表查看效率从1周大幅缩短至4小时,准确率提升,并成功构建勘探垂类大模型所需的高质量数据集,推动业务智能化创新。
金融企业:中信银行基于KeenData Lakehouse的金融级实时数据平台,整合十大核心业务域数据,支撑亿级客户实时交易需求。平台实现信贷审批关键环节响应时间缩短60%,实时反欺诈拦截效率显著提升,并推动风险监控、移动经营等10余个核心应用落地,形成全域实时数据管理能力。
跨国外企:永旺集团基于KeenData Lakehouse的Data&AI一体化平台,整合十大主题域数据,存储量达TB级。通过AI赋能,核心报表响应速度提升10倍,业务决策周期缩短50%,智能定价使KVI商品销量增长9%,CDP会员运营推动复购率提升8.45%,同时构建起实时库存预警体系,缺货率下降12%,全面驱动业务智能化升级。
城市政府:以Data&Al一体化平台为载体,以”建、服、管、运”为总体思路,构建"1+4+N"框架与可信数据空间提高“供数、用数”效率,推促进数据要素的可信流通与合规共享,实现1000+数据主体接入、2000+数据产品发布、30+典型应用场景打造、5+重点行业覆盖、公共数据资源接入,赋能产业经济发展,推动数据要素价值释放,并实现数据可持续运营。
依托领先技术底座与深厚软件积淀,结合多领域、多场景的项目实践深度验证,科杰科技精准洞察企业数智化转型升级核心趋势,为企业提供兼具科学性与落地性的全流程行动指南。
科杰科技提出 “集中式管理,分散式赋能” 的核心建设模式:通过集中式管理实现数据全生命周期的统一管控与质量把控,以分散式赋能激活业务一线创新活力,让数据价值精准渗透业务场景。同时,深度推动 “数据治理与数据工程深度融合”,将治理要求系统性嵌入数据采集、处理、应用等工程化全环节,突破传统事后修正的局限,助力企业构建深度数智驱动型组织。基于科杰科技 Data&AI 一体化平台 KeenData Lakehouse,为上述方法论提供坚实落地支撑。
完成KeenData Lakehouse的Data&AI一体化平台建设后,企业级大数据与 AI 部门的核心架构已全面构建。该部门不仅具备强劲的技术引擎、低代码化的数据与 AI 开发工具,更通过标准化管理办法与数据资产的深度配套,实现了数据与 AI 能力的高可用、高复用。但要进一步向更广泛的业务单元输出精准服务,仍需破解行业 Know-how 沉淀不足、个性化业务需求响应不及时的核心挑战。因此,大数据与 AI 部门的功能升级必然走向 “数据 + AI 的业务化表达”—— 以 Data Fabric 数据编织与虚拟化技术为核心,广泛的中基层人员能快速找到数据、调用 AI 工具、消费数据服务,真正让数智能力融入日常业务。
而 Data Fabric 的落地,离不开底层低代码开发、智能路由计算与 AI 工程管线的协同支撑,最终实现全组织的数据消费与 AI 应用自由,达成数据研发、AI 开发、业务运营的一体化闭环,推动整个组织形成数据与 AI 双驱动的工作模式。
值得强调的是,作为核心支撑的 Data&AI 一体化平台,KeenData Lakehouse并非单纯的软件平台,而是企业必须持续迭代的核心竞争力。其本质是“先进技术+成熟软件+ AI 工程” 深度融合的综合体系,不仅解决技术落地问题,更通过 “集中式管理,分散式赋能” 的核心模式塑造企业全新管理方式,是软件深度融入企业管理的最佳实践载体。它串联起技术工程、数据管理、AI 运营与业务协作,帮助企业建立基于数据与 AI 需求的新型协作机制,最终推动组织从管理模式、业务流程到价值创造的全方位数智化转型,让转型从口号真正落地为可持续的增长实效。
五、数据基础设施社会化价值
数据具有依附性等特点,决定了其价值必须依托具体应用场景实现,且跨产业、基层一线场景能创造更广泛价值。但基层普遍面临 “无数据、无技术” 的困境,数据基础设施的社会化价值,正在于将数据(生产要素)与 AI 技术(生产工具)进行更有效的社会化配置,通过 “数据可用不可见”“集中式管理 + 分散式赋能”,这种普惠性的配置方式才能真正实现AI变革,激发个体创新。
数字经济的鲜明特点,是以数据为核心生产要素。区别于传统生产要素的关键,数据具有可复制、可共享、无限增长的属性,这些属性让数据摆脱了土地、资本等传统要素的稀缺性与消耗性束缚 —— 复制无需额外成本,共享可突破时空限制,无限增长能持续积累规模效应,这也让数据成为数字经济时代最具潜力的生产资源。
但需明确的是,复制行为本身无法直接产生价值,其核心价值的释放,关键不在于 “流通” 这一行为本身,而在于 “流通后的高效利用”。数据流通的核心意义,在于打破数据孤岛的壁垒,让分散在不同部门、不同主体、不同场景中的零散数据流动起来、聚合起来,为后续利用打下基础,但流通只是数据价值实现的前提,而非最终结果。只有将聚合后的数据流与具体业务场景深度绑定、精准适配,让数据嵌入跨行业终端服务与产业基层一线的真实需求中,才能让抽象的数据转化为决策支撑、效率提升、创新突破等实际成果,真正释放其作为生产要素的深层价值。
这些能够催生数据价值的场景,广泛扎根在工厂的生产车间、社区的便民服务点、农户的田间地头,以及中小企业的日常经营中,遍布社会经济毛细血管的一线场景。只有让数据精准对接基层的生产需求、群众的生活需求、企业的经营需求,才能让其规模性与多样性充分发挥作用,通过流动性实现跨场景价值联动。
在实际的一线场景中,数据作为生产要素的价值已得到充分验证。
以药企为例,药企可汇聚多家医院的临床实践案例进行深度分析,以此精准优化药物生产工艺与临床应用方案,单家医院的病例积累过程往往耗时漫长,而通过多院医疗案例的集中整合,能显著加速头部医院的科研进程与成果转化效率。
然而,企业AI场景落地始终受困于 “数据管理能力缺失” 的瓶颈:一方面,中小企业、基层机构虽有强烈的AI场景落地需求,却缺乏数据源渠道与数据获取能力,陷入 “有需求无数据” 的窘境;另一方面,即便通过零散渠道获取到部分数据,也因缺乏专业的数据技术团队与AI工具支撑,难以实现数据的深度加工、有效分析及价值转化,最终导致 “有数据无价值”。
那么,如何面向基层场景、一线工作者与群众,实现数据生产要素社会化的有效配置与普惠性供给?这需要打破技术壁垒与资源垄断,让中小企业无需高昂投入即可获取合规数据资源,让基层工作者借助轻量化 AI 工具提升效率,让普通群众也能享受 AI 时代的红利。
广泛推进数据基础设施与可信数据空间建设,正是解决上述问题的核心关要。通过搭建数据基础设施,推动数据生产要素与 Data&AI 技术生产工具深度融合,以 “可用而不可见” 的数据安全流通机制、“集中式建设 + 场景化赋能” 的创新服务模式,为中小企业及基层场景精准供给优质生产要素(数据)与高效生产力工具(AI技术),实现数据生产力与生产要素的优化配置,释放基层蕴藏的创新活力与价值潜力。
数据基础设施的价值落地离不开关键技术的硬核支撑 ——Data&AI一体化平台正是激活场景价值创造的核心引擎,它能打破数据与场景的壁垒,让数据在具体应用场景中真正 “活起来”,从静态资源转化为驱动基层高质量发展的强劲动能。
六、扛鼎时代使命:AI 技术出海与数据能力协同,共筑全球产业新优势
过去十年,中国稳步走向世界舞台中心,持续输出中国先进生产力。中国科技企业完全可以为全球客户提供基于中国市场验证的创新产品,并且因地制宜地创造全新业务生态。目前科杰已在日本、沙特、阿曼、马来西亚等国,为当地运营商、金融机构及政府科技部门提供数据基础设施落地支撑。
过去十年,中国稳步走向世界舞台中心,持续输出中国先进生产力。
自2019年起,在政策的有力推进下,中国全行业的数字化转型加速。超过10亿的5G移动数据端用户市场为这些企业积累了无可比拟的技术经验。借助这一经验,中国科技企业完全可以为全球客户提供基于中国市场验证的创新产品,并且因地制宜地创造全新业务生态。
同样,凭借在国内积累的成熟Data&AI数据基础设施建设经验与核心技术,科杰科技主动走向海外市场,将国内先进的技术、产品与方法论,输出到海外国家和地区,助力当地构建AI时代发展的核心能力,推动当地人工智能产业与数字经济的发展,与沙特、新加坡、南非、日本、马来西亚、菲律宾等全球多国的客户建立了深厚合作关系,与全球伙伴携手,共筑产业新优势,为全球数字经济发展贡献中国智慧与中国力量。


