国内多数AI模型训练使用的中文数据占比已超60%
国家数据局局长刘烈宏表示,我国人工智能的快速发展,与我国高度重视数据工作是密不可分的。作为人工智能发展的核心要素之一,数据在推动“人工智能+”过程中发挥着关键作用,高质量数据集的建设至关重要。
“在人工智能时代,Token,也就是大家通常所说的词元,是处理文本的最小数据单元,如同互联网时代大家所说的‘流量’。”刘烈宏介绍,2024年初,我国日均Token的消耗量为1000亿,到今年6月底,日均Token消耗量已经突破30万亿,一年半时间增长了300多倍,反映了我国人工智能应用规模的快速增长。
据介绍,截至今年6月底,我国已经建设高质量数据集超过3.5万个,总体量超过了400PB(1PB可存储约5亿张2MB大小的高清照片),400PB的总量相当于中国国家图书馆数字资源总量的140倍左右。
人工智能模型的训练也推动了数据交易需求的攀升。截至今年6月底,各地高质量数据集累计交易额近40亿元,数据交易机构挂牌的高质量数据集总规模达到了246PB。
下一步,国家数据局将通过体系化布局持续推进高质量数据集建设,加快打造具身智能、低空经济、生物制造等重点领域数据高地,推动全社会强化数据要素价值认同,加快推进数据要素价值共创,培育“为优质数据买单”的市场共识。
关键词:
相关阅读
-
国内多数AI模型训练使用的中文数据占比...
中文数据在国内AI大模型的训练性能提升方面发挥着重要作用。国家数... -
前7个月我国农产品网络零售额同比增长7.4%
商务部新闻发言人何咏前21日介绍,今年1至7月,我国农产品网络零售... -
深脑“彩色”成像!中国成功研制多色微...
精准捕捉大脑神经元与突触活动的动态变化是脑科学研究的核心难题之... -
黑白调携手新华网发布《一把“超聪明”...
 久坐,正在成为现代都市的生活常态。无论是办公室里的白领,... -
“全球首发”“中国首秀”彰显人工智能...
 7月26日至28日,2025世界人工智能大会在上海举办。展区面积首... -
头部纷纷绑定大模型 智能摄像头加速迭代
 图为位于湖北省咸宁市一家公司的无尘车间内,工人在生产准备...
- 国内多数AI模型训练使用的中文数据占比已超2025-08-23
- 前7个月我国农产品网络零售额同比增长7.4%2025-08-23
- 深脑“彩色”成像!中国成功研制多色微型化2025-08-23
- 黑白调携手新华网发布《一把“超聪明”的好2025-08-23
- 纺织纤维题材名单(8月22日)2025-08-23
- 办SIM卡或看广告才能开宿舍门?高校回应:2025-08-23
- 如何理解基金的投资目标与策略之间的关系?2025-08-23
- 【盘点】2025年燃气轮机叶片概念受益股全梳2025-08-23
- 最资讯丨投资基金时如何应对流动性风险?2025-08-23
- 消息!小吃店为求职女孩退餐费感动网友2025-08-23
- 临近开学孩子出现心理不适应怎么办?医生支2025-08-23
- 合肥优化抢修驻点保障居民用电2025-08-23
- 化学概念龙头:这些公司值得收藏!(8/22)2025-08-23
- 减产控销破“内卷” 多因素支撑光伏硅料价2025-08-23
- 今日要闻!《成人肥胖食养指南》:短期减重2025-08-23
- 上海谊众:连续5日融资净买入累计5365.3万2025-08-23
- 上市公司积极布局智能体 百事通2025-08-23
- 离岸人民币兑美元较周四纽约尾盘涨109点 2025-08-23
- 心泰医疗(02291)发布中期业绩 归母净利润12025-08-22
- 训修实业(01962.HK)中期收入4.66亿港元 同2025-08-22
- 恒烁股份(688416.SH):上半年净亏损7078.242025-08-22
- 泡泡玛特新增日用家电零售业务2025-08-22
- 8月22日顺酐产业链情报 即时2025-08-22
- 乐普医疗:上半年净利润同比下降0.91% 拟12025-08-22
- 骏高控股(08035.HK)盈警:预计中期净亏损102025-08-22
- 1-7月全国网上零售额增长9.2% 以旧换新成2025-08-22
- 新华社权威速览·非凡“十四五”丨保障你我2025-08-22
- 时代电气:上半年归母净利润16.72亿元 同2025-08-22
- 新华指数|8月22日新华·山东港口硫磺现货交2025-08-22
- 大米概念这些龙头股值得关注!(2025/8/222025-08-22