重生2010：开局做空棉花期货第644节

　　陈平点头。

　　“去会议室说。”

　　几分钟后，会议室里的人到齐了。

　　季铭坐在陈平左手边，他的对面是原DeepMind的创始人，来自伦敦的大卫·哈萨比斯。

　　大卫旁边是灵境ai的算法总监王星原，王星原旁边是工程总监赵知行和数据团队负责人刘帆。

　　最后一个人坐在会议桌的角落，穿着一件不起眼的夹克，手里拿着一沓资料，从头到尾没说一句话。

　　他是梁文峰。

　　季铭清了清嗓子，开口说道：

　　“原本计划12月推出女娲1.0版本，但现在看来可能要推迟了。”

　　陈平的眉头皱了一下。

　　“原因呢？”

　　大卫解释道：“训练大语言模型所需要的算力远比我们预估的庞大得多！”

　　大卫一边说一边打开电脑，把屏幕转向陈平。

　　“我们在今年9月完成了女娲1.0的基础架构设计，当时预估的训练算力需求大约是每秒1000万亿次浮点运算，也就是1PFLOP，基于这个预估，我们采购了英伟达的2000块Tesla M2050计算卡。”

　　“但当模型框架搭建完毕、训练数据装载完成、开始正式训练之后，我们发现实际的算力需求远不止这个数字。”

　　季铭补充道：

　　“女娲1.0的参数量是1700亿个，训练数据集覆盖了超过5000亿个Token，这个规模比我们之前做AlphaGo时大了至少4个数量级。”

　　“目前我们手里的计算卡已经不够用了。”

　　“1700亿参数？？？”

　　陈平倒吸一口凉气，“刚开始你们不是说女娲1.0版本的参数是1亿吗？”

　　“1亿级别的LLM我们在上个月月底就已经训练出来了，但是实测效果非常差，1700亿参数量是我们经过缜密的研究讨论后得出来的结果，它足以让大语言模型产生质变！”

　　陈平沉默了几秒，然后问道：

　　“那你们还需要多少算力卡？”

　　会议室里的人面面相觑。

　　季铭看了大卫一眼，大卫又转头看向王星原。

　　王星原低头不语。

　　最后，梁文峰开口了：

　　“如果是买英伟达的计算卡，按照采购价至少需要14亿美元。”

　　14亿美元！

　　陈平头都大了。

　　今年在灵境ai身上已经砸了快60亿美元。

　　年初收购灵境科技的原始技术团队和专利，花了8亿美元；

　　年中从Google手里抢下DeepMind，斥资2.5亿英镑，折合4亿美元；

　　之后搭建姑苏数据中心的硬件基础设施，采购服务器、存储阵列、网络设备，又花了超过20亿美元；

　　AlphaGo项目的研发和运营成本累计超过了8亿美元；

　　女娲项目前期的框架设计、数据采集、预处理和无成果训练浪费掉的算力，折合成人民币已经超过了50个亿，折合8亿美元。

　　如果现在又要砸14亿美元买计算卡，意味着灵境ai在2011年的总投入将突破80亿美元！

　　而截至目前，灵境ai唯一拿得出手的商业化产品，是一款几乎没有商业盈利能力的AlphaGo。

　　总结一句话就是，60亿美元砸下去，只换来了一堆经验。

　　陈平深吸了一口气。

　　“14亿美元，能有多少块卡？”

　　梁文峰翻了翻手里的资料。

　　“英伟达的Tesla M2090单卡售价大约1.2万美元，14亿美元可以买大概11.6万块，但M2090的单卡显存只有6GB，双精度浮点性能每秒665GFLOP，按照女娲1.0的训练需求，11万块卡勉强可以跑起来。”

　　“如果等明年英伟达发布开普勒架构的GK110核心，单卡显存提升到12GB，浮点性能提高到1.5TFLOP，同样价格可以买到更少的卡但算力更强，周期大概要到2013年。”

　　2013年。

　　陈平摇了摇头。

　　等不了那么久。

　　季铭看到陈平的表情，愈发自责了。

　　“陈总，怪我，我当初低估了1700亿参数大模型的训练难度。”

　　大卫也低下了头。

　　他在DeepMind时做的是强化学习和小规模神经网络，面对1700亿参数的大语言模型，同样处在一路摸索的状态。

　　会议室里安静了很长时间。

　　陈平叹了口气。

　　“虽然女娲1.0没法在短时间内推出，但这14亿美元我会批。”

　　季铭和大卫同时抬头。

　　陈平继续说道：

　　“但我需要一个明确的时间表，不能再像之前那样不断推迟。”

　　季铭立刻回答，“如果算力到位，12月底完成第一批训练，1月中旬完成微调，2月底之前可以上线1.0正式版！”

　　“可以。”

　　陈平说完之后，又看了一眼梁文峰。

　　梁文峰的表情自始至终没有任何变化。

　　季铭似乎想起了什么，急忙开口。

　　“陈总，还有一件事。”

　　“说。”

　　“虽然女娲1.0没法在短时间内推出，但灵境ai的第一款量化大模型已经进入灰度测试阶段了。”

　　陈平的眼睛亮了一下。

　　“量化大模型？”

　　季铭转头看向梁文峰。

　　“梁总，你来介绍吧。”

　　梁文峰把手里那沓资料放在桌上。

　　“量化大模型的训练效率比大语言模型高得多，难度也低不少。”

　　“它的核心任务不是在自然语言理解上达到人类水平，而是在多维金融数据中寻找统计规律，并据此生成交易信号。”

　　“我们用的基础架构是LSTM加注意力机制的结合，参数量控制在80亿左右，训练数据集涵盖了VR交易所过去一年的全部交易数据、美股过去10年的日频行情、以及全球主要大宗商品和外汇的日内价格。”

　　“目前模型在模拟盘上的表现是：平均年化收益28%，最大回撤11%，夏普比率2.4。”

　　陈平听完之后，看了季铭一眼。

　　季铭立刻说道。

　　“这都是梁总的功劳，没有梁总，我们没法在算力吃紧的情况下拿出量化大模型。”

　　梁文峰摇了摇头。

　　“不是我一个人的功劳，数据团队清洗了超过500TB的原始交易数据，工程团队优化了分布式训练的通信效率，我就是把模型框架搭了一下。”

　　陈平打断了他们的互相谦让：

　　“不用推辞了，梁总今年的年终奖翻倍！”

　　梁文峰愣了一下。

　　陈平继续说道：

　　“另外，我个人转赠灵境ai 1%的股份给梁文峰。”

　　会议室里所有人的目光都集中在了梁文峰身上。

　　季铭的眼神里闪过一丝羡慕，但他很快带头鼓起了掌。

　　大卫和旁边的王星原也跟着鼓了掌。

　　1%的灵境ai股份，按照之前高盛对灵境科技的估值模型倒推，灵境ai的隐含估值已经超过了100亿美元。

　　1%就是1亿美元！

　　而梁文峰几个月前还是一个默默无闻的独立开发者。

　　梁文峰的表情终于有了一点变化。

　　他的嘴唇动了动，但说不出话来。

　　陈平站起身。

　　“继续加油，明年1月，我要看到量化大模型在实盘上跑出成绩！”

　　季铭立刻站起身。

　　“陈总放心，我们明年1月一定交出一份满意的答卷！”

　　大卫也重重地点了点头。

　　他们在看梁文峰的眼神里，除了羡慕之外，多了一种强烈的胜负心。

　　这个沉默寡言的人拿了公司最高的个人奖励，下一轮该轮到他们了。

　　会议结束之后，陈平单独把季铭和梁文峰留了下来。

上一篇：我在九叔世界肝八奇技

下一篇：返回列表

重生2010：开局做空棉花期货 第644节

推荐阅读

重生2010：开局做空棉花期货第644节