「京圈公子历练,全汉东疯了」

第1083章 当数据货币化的时候

上一页 简介 下一页

第1083章 当数据货币化的时候(4/5)

“帮我查一件事。西门子大夏区的NX软件服务器部署在哪,数据同步的出境通道走哪条线路。具体到物理层面——光缆、IDC机房、接入点。”

程度没多问。他知道苏哲让他查东西的时候,问为什么是多余的。

四十八小时后,程度的调查结果回来了。比苏哲预想的更详细——公安系统在网络安全执法方面的技术手段,远不是民间能比的。

西门子NX在大夏的用户数据通过三条链路同步到境外服务器。第一条走上海的海底光缆,出口节点在崇明岛的一个登陆站,终点是新加坡的一个IDC机房。第二条走北京的陆缆,终点在法兰克福。第三条是备份链路,走香港。

三条链路的数据流量监控记录——程度的人从运营商那边调来的——显示,过去六个月里,从大夏境内同步出去的数据总量超过了47PB。

47PB。

这个数字是什么概念?国家图书馆的全部数字化藏书大约是10PB。

苏哲盯着这个数字看了半分钟。他拿起笔,在数字旁边批了两个字:“留存。”

他没有立刻动手举报。

原因很简单——时机不对。

现在举报西门子,工信部和网信办会启动调查,西门子会被要求暂停数据跨境传输。但调查过程中,OpenAI和西门子的“Forge”项目不会停。人家的训练数据已经拿到手了,调查改变不了既成事实。

他需要的不是一张罚单。他需要的是一记能改变战局的重拳。

而这记重拳,要等盘古系统的数据量追上去之后再打。

“继续收数据。”苏哲对陈默说的这三个字,不是随便说的。

数据银行上线第十二天。

累计上传量突破了七千万组。增速在放缓——最容易被说服的企业已经上传了,剩下的硬骨头是那些规模大、数据多、但顾虑也最重的头部企业。

陈默在敦煌的超算中心里跟苏哲开了一个视频会议。

“七千万组的质量分布不均匀。”陈默调出一张饼图,“高质量数据——就是维度完整、标注规范、行业稀缺度高的——只占23%。剩下七成多是低质量的通用件图纸和基础零件数据。训练大模型用不上。”

“你需要什么行业的数据?”

“航空结构件、汽车动力总成、精密模具、半导体封装——这四个垂直领域是涌现效应最明显的。但这四个领域的头部企业恰恰是最不愿意上传数据的。”

苏哲在笔记本上记了四


本章还未完,请点击下一页继续阅读
上一页 目录 下一页 存书签

相关推荐

京圈公子历练,全汉东疯了