首页 > 穿越架空 > 重生2010:开局做空棉花期货

重生2010:开局做空棉花期货 第644节

  陈平点头。

  “去会议室说。”

  几分钟后,会议室里的人到齐了。

  季铭坐在陈平左手边,他的对面是原DeepMind的创始人,来自伦敦的大卫·哈萨比斯。

  大卫旁边是灵境ai的算法总监王星原,王星原旁边是工程总监赵知行和数据团队负责人刘帆。

  最后一个人坐在会议桌的角落,穿着一件不起眼的夹克,手里拿着一沓资料,从头到尾没说一句话。

  他是梁文峰。

  季铭清了清嗓子,开口说道:

  “原本计划12月推出女娲1.0版本,但现在看来可能要推迟了。”

  陈平的眉头皱了一下。

  “原因呢?”

  大卫解释道:“训练大语言模型所需要的算力远比我们预估的庞大得多!”

  大卫一边说一边打开电脑,把屏幕转向陈平。

  “我们在今年9月完成了女娲1.0的基础架构设计,当时预估的训练算力需求大约是每秒1000万亿次浮点运算,也就是1PFLOP,基于这个预估,我们采购了英伟达的2000块Tesla M2050计算卡。”

  “但当模型框架搭建完毕、训练数据装载完成、开始正式训练之后,我们发现实际的算力需求远不止这个数字。”

  季铭补充道:

  “女娲1.0的参数量是1700亿个,训练数据集覆盖了超过5000亿个Token,这个规模比我们之前做AlphaGo时大了至少4个数量级。”

  “目前我们手里的计算卡已经不够用了。”

  “1700亿参数???”

  陈平倒吸一口凉气,“刚开始你们不是说女娲1.0版本的参数是1亿吗?”

  “1亿级别的LLM我们在上个月月底就已经训练出来了,但是实测效果非常差,1700亿参数量是我们经过缜密的研究讨论后得出来的结果,它足以让大语言模型产生质变!”

  陈平沉默了几秒,然后问道:

  “那你们还需要多少算力卡?”

  会议室里的人面面相觑。

  季铭看了大卫一眼,大卫又转头看向王星原。

  王星原低头不语。

  最后,梁文峰开口了:

  “如果是买英伟达的计算卡,按照采购价至少需要14亿美元。”

  14亿美元!

  陈平头都大了。

  今年在灵境ai身上已经砸了快60亿美元。

  年初收购灵境科技的原始技术团队和专利,花了8亿美元;

  年中从Google手里抢下DeepMind,斥资2.5亿英镑,折合4亿美元;

  之后搭建姑苏数据中心的硬件基础设施,采购服务器、存储阵列、网络设备,又花了超过20亿美元;

  AlphaGo项目的研发和运营成本累计超过了8亿美元;

  女娲项目前期的框架设计、数据采集、预处理和无成果训练浪费掉的算力,折合成人民币已经超过了50个亿,折合8亿美元。

  如果现在又要砸14亿美元买计算卡,意味着灵境ai在2011年的总投入将突破80亿美元!

  而截至目前,灵境ai唯一拿得出手的商业化产品,是一款几乎没有商业盈利能力的AlphaGo。

  总结一句话就是,60亿美元砸下去,只换来了一堆经验。

  陈平深吸了一口气。

  “14亿美元,能有多少块卡?”

  梁文峰翻了翻手里的资料。

  “英伟达的Tesla M2090单卡售价大约1.2万美元,14亿美元可以买大概11.6万块,但M2090的单卡显存只有6GB,双精度浮点性能每秒665GFLOP,按照女娲1.0的训练需求,11万块卡勉强可以跑起来。”

  “如果等明年英伟达发布开普勒架构的GK110核心,单卡显存提升到12GB,浮点性能提高到1.5TFLOP,同样价格可以买到更少的卡但算力更强,周期大概要到2013年。”

  2013年。

  陈平摇了摇头。

  等不了那么久。

  季铭看到陈平的表情,愈发自责了。

  “陈总,怪我,我当初低估了1700亿参数大模型的训练难度。”

  大卫也低下了头。

  他在DeepMind时做的是强化学习和小规模神经网络,面对1700亿参数的大语言模型,同样处在一路摸索的状态。

  会议室里安静了很长时间。

  陈平叹了口气。

  “虽然女娲1.0没法在短时间内推出,但这14亿美元我会批。”

  季铭和大卫同时抬头。

  陈平继续说道:

  “但我需要一个明确的时间表,不能再像之前那样不断推迟。”

  季铭立刻回答,“如果算力到位,12月底完成第一批训练,1月中旬完成微调,2月底之前可以上线1.0正式版!”

  “可以。”

  陈平说完之后,又看了一眼梁文峰。

  梁文峰的表情自始至终没有任何变化。

  季铭似乎想起了什么,急忙开口。

  “陈总,还有一件事。”

  “说。”

  “虽然女娲1.0没法在短时间内推出,但灵境ai的第一款量化大模型已经进入灰度测试阶段了。”

  陈平的眼睛亮了一下。

  “量化大模型?”

  季铭转头看向梁文峰。

  “梁总,你来介绍吧。”

  梁文峰把手里那沓资料放在桌上。

  “量化大模型的训练效率比大语言模型高得多,难度也低不少。”

  “它的核心任务不是在自然语言理解上达到人类水平,而是在多维金融数据中寻找统计规律,并据此生成交易信号。”

  “我们用的基础架构是LSTM加注意力机制的结合,参数量控制在80亿左右,训练数据集涵盖了VR交易所过去一年的全部交易数据、美股过去10年的日频行情、以及全球主要大宗商品和外汇的日内价格。”

  “目前模型在模拟盘上的表现是:平均年化收益28%,最大回撤11%,夏普比率2.4。”

  陈平听完之后,看了季铭一眼。

  季铭立刻说道。

  “这都是梁总的功劳,没有梁总,我们没法在算力吃紧的情况下拿出量化大模型。”

  梁文峰摇了摇头。

  “不是我一个人的功劳,数据团队清洗了超过500TB的原始交易数据,工程团队优化了分布式训练的通信效率,我就是把模型框架搭了一下。”

  陈平打断了他们的互相谦让:

  “不用推辞了,梁总今年的年终奖翻倍!”

  梁文峰愣了一下。

  陈平继续说道:

  “另外,我个人转赠灵境ai 1%的股份给梁文峰。”

  会议室里所有人的目光都集中在了梁文峰身上。

  季铭的眼神里闪过一丝羡慕,但他很快带头鼓起了掌。

  大卫和旁边的王星原也跟着鼓了掌。

  1%的灵境ai股份,按照之前高盛对灵境科技的估值模型倒推,灵境ai的隐含估值已经超过了100亿美元。

  1%就是1亿美元!

  而梁文峰几个月前还是一个默默无闻的独立开发者。

  梁文峰的表情终于有了一点变化。

  他的嘴唇动了动,但说不出话来。

  陈平站起身。

  “继续加油,明年1月,我要看到量化大模型在实盘上跑出成绩!”

  季铭立刻站起身。

  “陈总放心,我们明年1月一定交出一份满意的答卷!”

  大卫也重重地点了点头。

  他们在看梁文峰的眼神里,除了羡慕之外,多了一种强烈的胜负心。

  这个沉默寡言的人拿了公司最高的个人奖励,下一轮该轮到他们了。

  会议结束之后,陈平单独把季铭和梁文峰留了下来。

首节 上一节 644/657下一节 尾节 目录

上一篇:我在九叔世界肝八奇技

下一篇:返回列表

推荐阅读