重生2010:开局做空棉花期货 第644节
陈平点头。
“去会议室说。”
几分钟后,会议室里的人到齐了。
季铭坐在陈平左手边,他的对面是原DeepMind的创始人,来自伦敦的大卫·哈萨比斯。
大卫旁边是灵境ai的算法总监王星原,王星原旁边是工程总监赵知行和数据团队负责人刘帆。
最后一个人坐在会议桌的角落,穿着一件不起眼的夹克,手里拿着一沓资料,从头到尾没说一句话。
他是梁文峰。
季铭清了清嗓子,开口说道:
“原本计划12月推出女娲1.0版本,但现在看来可能要推迟了。”
陈平的眉头皱了一下。
“原因呢?”
大卫解释道:“训练大语言模型所需要的算力远比我们预估的庞大得多!”
大卫一边说一边打开电脑,把屏幕转向陈平。
“我们在今年9月完成了女娲1.0的基础架构设计,当时预估的训练算力需求大约是每秒1000万亿次浮点运算,也就是1PFLOP,基于这个预估,我们采购了英伟达的2000块Tesla M2050计算卡。”
“但当模型框架搭建完毕、训练数据装载完成、开始正式训练之后,我们发现实际的算力需求远不止这个数字。”
季铭补充道:
“女娲1.0的参数量是1700亿个,训练数据集覆盖了超过5000亿个Token,这个规模比我们之前做AlphaGo时大了至少4个数量级。”
“目前我们手里的计算卡已经不够用了。”
“1700亿参数???”
陈平倒吸一口凉气,“刚开始你们不是说女娲1.0版本的参数是1亿吗?”
“1亿级别的LLM我们在上个月月底就已经训练出来了,但是实测效果非常差,1700亿参数量是我们经过缜密的研究讨论后得出来的结果,它足以让大语言模型产生质变!”
陈平沉默了几秒,然后问道:
“那你们还需要多少算力卡?”
会议室里的人面面相觑。
季铭看了大卫一眼,大卫又转头看向王星原。
王星原低头不语。
最后,梁文峰开口了:
“如果是买英伟达的计算卡,按照采购价至少需要14亿美元。”
14亿美元!
陈平头都大了。
今年在灵境ai身上已经砸了快60亿美元。
年初收购灵境科技的原始技术团队和专利,花了8亿美元;
年中从Google手里抢下DeepMind,斥资2.5亿英镑,折合4亿美元;
之后搭建姑苏数据中心的硬件基础设施,采购服务器、存储阵列、网络设备,又花了超过20亿美元;
AlphaGo项目的研发和运营成本累计超过了8亿美元;
女娲项目前期的框架设计、数据采集、预处理和无成果训练浪费掉的算力,折合成人民币已经超过了50个亿,折合8亿美元。
如果现在又要砸14亿美元买计算卡,意味着灵境ai在2011年的总投入将突破80亿美元!
而截至目前,灵境ai唯一拿得出手的商业化产品,是一款几乎没有商业盈利能力的AlphaGo。
总结一句话就是,60亿美元砸下去,只换来了一堆经验。
陈平深吸了一口气。
“14亿美元,能有多少块卡?”
梁文峰翻了翻手里的资料。
“英伟达的Tesla M2090单卡售价大约1.2万美元,14亿美元可以买大概11.6万块,但M2090的单卡显存只有6GB,双精度浮点性能每秒665GFLOP,按照女娲1.0的训练需求,11万块卡勉强可以跑起来。”
“如果等明年英伟达发布开普勒架构的GK110核心,单卡显存提升到12GB,浮点性能提高到1.5TFLOP,同样价格可以买到更少的卡但算力更强,周期大概要到2013年。”
2013年。
陈平摇了摇头。
等不了那么久。
季铭看到陈平的表情,愈发自责了。
“陈总,怪我,我当初低估了1700亿参数大模型的训练难度。”
大卫也低下了头。
他在DeepMind时做的是强化学习和小规模神经网络,面对1700亿参数的大语言模型,同样处在一路摸索的状态。
会议室里安静了很长时间。
陈平叹了口气。
“虽然女娲1.0没法在短时间内推出,但这14亿美元我会批。”
季铭和大卫同时抬头。
陈平继续说道:
“但我需要一个明确的时间表,不能再像之前那样不断推迟。”
季铭立刻回答,“如果算力到位,12月底完成第一批训练,1月中旬完成微调,2月底之前可以上线1.0正式版!”
“可以。”
陈平说完之后,又看了一眼梁文峰。
梁文峰的表情自始至终没有任何变化。
季铭似乎想起了什么,急忙开口。
“陈总,还有一件事。”
“说。”
“虽然女娲1.0没法在短时间内推出,但灵境ai的第一款量化大模型已经进入灰度测试阶段了。”
陈平的眼睛亮了一下。
“量化大模型?”
季铭转头看向梁文峰。
“梁总,你来介绍吧。”
梁文峰把手里那沓资料放在桌上。
“量化大模型的训练效率比大语言模型高得多,难度也低不少。”
“它的核心任务不是在自然语言理解上达到人类水平,而是在多维金融数据中寻找统计规律,并据此生成交易信号。”
“我们用的基础架构是LSTM加注意力机制的结合,参数量控制在80亿左右,训练数据集涵盖了VR交易所过去一年的全部交易数据、美股过去10年的日频行情、以及全球主要大宗商品和外汇的日内价格。”
“目前模型在模拟盘上的表现是:平均年化收益28%,最大回撤11%,夏普比率2.4。”
陈平听完之后,看了季铭一眼。
季铭立刻说道。
“这都是梁总的功劳,没有梁总,我们没法在算力吃紧的情况下拿出量化大模型。”
梁文峰摇了摇头。
“不是我一个人的功劳,数据团队清洗了超过500TB的原始交易数据,工程团队优化了分布式训练的通信效率,我就是把模型框架搭了一下。”
陈平打断了他们的互相谦让:
“不用推辞了,梁总今年的年终奖翻倍!”
梁文峰愣了一下。
陈平继续说道:
“另外,我个人转赠灵境ai 1%的股份给梁文峰。”
会议室里所有人的目光都集中在了梁文峰身上。
季铭的眼神里闪过一丝羡慕,但他很快带头鼓起了掌。
大卫和旁边的王星原也跟着鼓了掌。
1%的灵境ai股份,按照之前高盛对灵境科技的估值模型倒推,灵境ai的隐含估值已经超过了100亿美元。
1%就是1亿美元!
而梁文峰几个月前还是一个默默无闻的独立开发者。
梁文峰的表情终于有了一点变化。
他的嘴唇动了动,但说不出话来。
陈平站起身。
“继续加油,明年1月,我要看到量化大模型在实盘上跑出成绩!”
季铭立刻站起身。
“陈总放心,我们明年1月一定交出一份满意的答卷!”
大卫也重重地点了点头。
他们在看梁文峰的眼神里,除了羡慕之外,多了一种强烈的胜负心。
这个沉默寡言的人拿了公司最高的个人奖励,下一轮该轮到他们了。
会议结束之后,陈平单独把季铭和梁文峰留了下来。
上一篇:我在九叔世界肝八奇技
下一篇:返回列表
