新闻资讯

数据短缺阻碍AI一体机落地,专家提出数据元件治理新路径

数据是人工智能的燃料和动力,人工智能竞争在某种意义上进入了“数据决胜”阶段,谁拥有数据谁就占领高地。但当前人工智能发展面临数据挑战,如训练数据枯竭、质量参差不齐、隐私安全难保障、数据确权和计量难等问题。在4月17日举行的第三届数字化发展大会暨数字经济高峰论坛上,CCF(中国计算机学会)数据发展委员会主任陆志鹏对外介绍了其所在团队正在开发的新的数据解决方案,即基于数据元件的数据治理方式。

数据短缺阻碍AI一体机落地,专家提出数据元件治理新路径
(图侵删)

中国计算机学会数据发展委员会主任陆志鹏。

陆志鹏称,今年DeepSeek爆火,让模型平权,人工智能走进企业、走向社会。市场上推出了一批DeepSeek一体机,一些企业以为把DeepSeek模型部署到服务器上就是一体机,就可以开箱即用,结果客户采购后发现并没有达到说明书上的效果,从而引起法律纠纷。

如何部署有价值的大模型?其中数据起着重要作用。高质量数据集是人工智能模型训练的关键支撑,但构建过程复杂。目前很多数据集的构建集中在大模型公司,而大模型公司往往基于自己的大模型构建数据集,导致数据集通用性不足,不同数据集之间的架构和标准也不同,构建高质量数据集缺乏统一衡量标准。领域数据集生成涉及的数据海量且庞杂,需要高效的数据存储解决方案和强大的计算资源来支撑数据的存储、治理和生成。

目前随着数据的重要性被强调,数据共享反而出现了倒退。2024年,用于模型训练的数据中,60%是合成数据,数据质量影响大模型开发效率,因此要确保合成数据的可靠性、安全性、精确性。

如何解决数据难题?陆志鹏谈到了基于数据元件的数据治理方式。“数据元件”是通过对数据脱敏处理后,根据需要由若干相关字段形成的数据集或由数据的关联字段通过建模形成的数据特征。数据元件同隐私计算、区块链、数联网、数据空间等被确立为国家数据基础建设的主要技术路线。陆志鹏表示,数据元件不是原始数据,而是数据的初级产品,具有安全属性、价值属性、品质属性,可解决数据确权、估值、定价、安全、隐私问题,及数据质量和处理效率问题。数据元件在实现数据风险隔离和安全管控的同时,提升数据价值密度,实现数据资产的产品化流通和规模化应用。

陆志鹏表示,其所在的团队通过梳理包括场景需求分析和数据资源调查、数据归集和治理、领域高质量数据集构建、领域知识库构建、模型微调和训练、模型应用等六大高质量数据构建的业务逻辑,最终形成一体机解决方案,落地经过部署和场景化微调,模型答题逻辑和流畅性提升。此外,基于数据元件的数据治理打消了企业部门间不愿共享数据的顾虑,打破了数据孤岛,支持企业数字化转型。

  • 海天味业找到“新大陆”
  • “70后”女干部沈鸿雁任国家邮政局副局长
  • 胡锡进:美对华加征245%关税,只会让世人看到白宫“疯了”而且手中无牌
  • 10日收盘大幅下跌,美股“七巨头”再次承压
  • 当瓷器传入欧洲,看女性视角下的中国风
  • 金融人·事|金融副省长更迭与使命变迁
  • 中国地质调查局原局长钟自然被判13年,其中因故意泄露国家秘密领刑2年
  • 美国上周首次申领失业救济人数减少9000人至21.5万人 低于预估
  • 大湾区楼市“小阳春”亮眼:深圳新房网签环比增长67.5%,广州二手房成交破万套
  • 促消费和稳地产的力度和效果将是决定价格走势的关键力量|宏观晚6点
  • 五一抢票崩了?12306:及时消除短暂延迟现象,系统平稳度过今日售票高峰
  • 1000元/克!黄金 还能买吗?
  • 海运股早盘普遍上涨 东方海外国际涨超4%太平洋航运涨超3%
  • 上海地铁:浦江线供电设备故障已排除,运营恢复正常
  • 吴晓求:东方集团刚爆雷,东方通又爆雷,资本市场必须严刑峻法
  • 关键词: