第1082章 数据银行!(4/5)
一张曲线图,“模型的能力跟训练数据量的关系不是线性的——在达到一个阈值之前,模型的表现很平庸。越过阈值之后会出现能力涌现。根据我的估算,工业大模型的涌现阈值大约在一亿组高质量设计案例。”
“你现在手里有多少?”
“盘古造物系统自身积累的用户数据,大约两百万组。加上陈默研究所这些年攒的公开数据集,凑到三百万组顶天了。”
苏哲看了他一眼。
“差多少你自己心里有数。”
“差九千七百万组。”
这个数字在办公室里挂了几秒,像一个没人想碰的重物。
杨青被叫来的时候,脸上的水泡又起了一颗新的——上一颗刚好,这颗长在了嘴角另一侧。他现在两边嘴角对称地各有一个红点,像被什么东西叮过。
“数据共享倡议?”杨青听完需求,脑子转得快,“直接给十二万家企业发?”
“先发通知,摸底意愿。”苏哲说。
通知发出去的第二天,杨青在高新区管委会的办公室里对着电脑屏幕发呆。
回复邮件一共六百一十三封。同意共享数据的——四十七封。其中三十九封来自京海本地企业,且大部分是已经跟市政府有深度合作关系的。
剩下五百六十六封,措辞五花八门,但核心意思一致:不给。
最有代表性的是宁波锦通精工的回复——就是之前投诉数据溢出那家。措辞很文气,但字里行间扎得人疼:“我方对贵方系统的技术能力表示认可,但设计数据涉及客户商业秘密和企业核心竞争力,无法对外共享。望理解。”
杨青把邮件汇总打了出来,走到苏哲办公室。
苏哲翻了三页就放下了。
“意料之中。”
“那怎么办?”杨青的水泡开始隐隐发疼。
“别急。先看看对面在干什么。”
对面在干什么,威尔逊当天夜里就发来了消息。
OpenAI在旧金山总部召开了一场闭门发布会。受邀参加的只有三十家顶级制造业企业的CTO和西门子数字工业部门的高管。发布会上展示了一个代号“Forge”的工业版GPT原型——功能跟陈默演示的东西高度相似:自然语言输入产品需求,自动输出设计方案和加工路径。
但Forge的演示效果比陈默的原型好得多。它不仅能生成单个零件的设计,还能根据装配关系自动生成整套机构的三维模型。
威尔逊的情报来源说,Forge的训练数据量在四亿组以上。



