第1083章 当数据货币化的时候(4/5)
“帮我查一件事。西门子大夏区的NX软件服务器部署在哪,数据同步的出境通道走哪条线路。具体到物理层面——光缆、IDC机房、接入点。”
程度没多问。他知道苏哲让他查东西的时候,问为什么是多余的。
四十八小时后,程度的调查结果回来了。比苏哲预想的更详细——公安系统在网络安全执法方面的技术手段,远不是民间能比的。
西门子NX在大夏的用户数据通过三条链路同步到境外服务器。第一条走上海的海底光缆,出口节点在崇明岛的一个登陆站,终点是新加坡的一个IDC机房。第二条走北京的陆缆,终点在法兰克福。第三条是备份链路,走香港。
三条链路的数据流量监控记录——程度的人从运营商那边调来的——显示,过去六个月里,从大夏境内同步出去的数据总量超过了47PB。
47PB。
这个数字是什么概念?国家图书馆的全部数字化藏书大约是10PB。
苏哲盯着这个数字看了半分钟。他拿起笔,在数字旁边批了两个字:“留存。”
他没有立刻动手举报。
原因很简单——时机不对。
现在举报西门子,工信部和网信办会启动调查,西门子会被要求暂停数据跨境传输。但调查过程中,OpenAI和西门子的“Forge”项目不会停。人家的训练数据已经拿到手了,调查改变不了既成事实。
他需要的不是一张罚单。他需要的是一记能改变战局的重拳。
而这记重拳,要等盘古系统的数据量追上去之后再打。
“继续收数据。”苏哲对陈默说的这三个字,不是随便说的。
数据银行上线第十二天。
累计上传量突破了七千万组。增速在放缓——最容易被说服的企业已经上传了,剩下的硬骨头是那些规模大、数据多、但顾虑也最重的头部企业。
陈默在敦煌的超算中心里跟苏哲开了一个视频会议。
“七千万组的质量分布不均匀。”陈默调出一张饼图,“高质量数据——就是维度完整、标注规范、行业稀缺度高的——只占23%。剩下七成多是低质量的通用件图纸和基础零件数据。训练大模型用不上。”
“你需要什么行业的数据?”
“航空结构件、汽车动力总成、精密模具、半导体封装——这四个垂直领域是涌现效应最明显的。但这四个领域的头部企业恰恰是最不愿意上传数据的。”
苏哲在笔记本上记了四



