发布日期:2025-02-08 22:06 点击次数:67
(原标题:春节增量信息)股市配资平台
这次长假的信息量挺大,分两篇文章单独讨论。
今天先聊聊刷屏程度已经到达疲劳等级的DeepSeek,给我感觉就像是国庆假期全民都在聊大A。
跳过太学术和尬吹环节,重点聊聊这件事情对目前几个主流板块的逻辑影响。
这两周我深度使用了两款大家熟知的DeepSeek-V3和R1模型,在某位大佬的工作室里还接触了不带标注的无监督强化学习版本R1-Zero,海外的那几款之前也都用过,所以还是能给DPSK一个还算客观的评价:
1) 中文文采水平极高,至少目前是TOP1,可能与训练数据有关,毕竟海外的几款模型都更侧重英文;
2) 实际能力相较目前的顶级模型,基本没有太大差异,但我对目前市面上所有顶级模型的AI能力定性是“还行“,毕竟咱就一臭炒股的,代码能力停留在学生时期,工作后基本不写代码,也不搞科研,能用的场景着实不多,真正需要深度解决问题的时候,依然看到不少幻觉,所以从绝对水平上看,离”能用“还有距离,离AGI还看不到影子;
3) 亮点在工程创新对训练效率的提升(dualpipe和自研通信内核),也就是NVDA带领板块那根大阴线的主要来源,这个后面会细说;
另外是COT(逻辑推理链条),这个o1去年已经有了,下一代还会增强,不过在中文模型上还是第一次见,也就是大家点深度思考按钮之后,那个以标志性 “嗯,….“开头的浅色字段落,刚开始看的时候还挺有意思,后来发现吸引人的地方本质还是中文文采强,或者说在语言组织能力上至少不会让人觉得一眼AI:
@今日话题
1.落到实际层面,对训练侧的逻辑影响如下:
1) DeepSeek的工程创新大幅提升了训练效率,就短期而言,训练类似模型的成本的确是降低了,长期来看,单就模型能力本身的终局目标而言,目前依然较早,那么决定中短期内多空的要素,则取决于训练侧逻辑主导的板块股价预期到了哪一步?
这个问题市场已经给了答案,该尊重的时候还是得尊重;
至于scaling law本身,我一直认为它只在特定时间窗口期内有效,实际上有没有DPSK的工程创新也不影响sacling law的窘境:2年之内人类把几千年积累的数据全部训练完之后,再去期待边际上还能加速的新增数据增量用于训练,进而在beta层面推升算力需求(注意这里指的是beta层面,而非某家公司),本就是伪命题,毕竟数据的生成本质上还是时间函数,未来1年的新增数据量,即便考虑科技进步,相较过往几千年的存量而言依然微乎其微,而模型自己生成数据训练自己也只在特定专家领域有效用;
所以从去年Q2开始,我对海外训练侧的预期就越来越淡了,仅个别有alpha的环节能看(我自己是有仓位的,节前最后一天也被恶心了一把),中短期内的爆发点还是要靠推理,无论软件应用还是端侧。
2) 开源追上闭源=大语言模型商品同质化的起点=中国可以开始卷了
春节阿里发布新版通义千问的惊艳程度已经证明了这一点,Deepseek的刷屏程度意味着全世界都已经看到了,接下来对国内的其它互联网大厂而言,当他们看到模型训练效率已经到达奇点,且可无障碍复制粘贴以后,是一定会入局的。
记得最早讲豆包的时候和大家聊过,AI大模型越往后只会越同质化,开源追上闭源意味着全部参与者的水平对齐,未来真正决定模型厂商竞争力的核心要素在于:
-流量分发权(2C)
-推理成本(2B)
那么对一些本就自带顶级流量入口的互联网企业、端侧品牌厂而言,不搞大模型是不可能的,今年上半年大家会看到越来越多的中国企业开始搞自用大模型,对本就落后海外的国内训练侧而言,是实打实的推进。
2. 对于推理侧的短中期逻辑影响:
前一篇文章里聊过,算力的降本会直接推动开发者需求,进而出现越来越多的产品,这几天海外AI应用公司除了当天被NV带了一把情绪之后,基本都是反包的走势。
而且既然DPSK搞出COT并且开源,那么其它中文厂商的产品也会迅速对齐,COT相较传统推理最大的区别在于:
不考虑用户流量的乘数,就单一推理任务而言,传统推理与长度(token)呈线性关系,而COT推理则取决于问题本身的精确度需求,提问设计的prompt越复杂,深度思考环节分配的算力越多,因此COT推理消耗的算力并不再是答案长度的线性关系,而是非线性的需求扩张。
这是最直白的道理,人类思考问题的时间越久,消耗的精力就越多,放到机器上也一样。
如果要让模型达到“好用“或者‘AGI‘,显然这个”思考“的路径是必须的,而且会越来越复杂,所以推理侧硬件的beta没问题,且最陡峭的那一段曲线还没来。
而推理时代大概率是一个百花齐放的节点,各类ASIC都能找到自己的发力点,商业化世界里的基本原理:B端制造业产品,想永久保持80%+毛利率还没有过成功案例,即便强如ASML.
只要CUDA被撬开口子,其它硬件不见得就一定比N卡差,实际上gorq和cerebras已经证明了这一点, AMD也快了,假期也已经看到搭载晟腾、Cerebras、AMD、博通等算力的云服务器开始上线极速版DeepSeek.
简单理解,cerebras延续大力出奇迹的思路,直接搞一片晶圆给你刻算力,至少硬件路径在一定程度上去绕开互联并非不可能,而CUDA生态本质上还是代码工具,随着时间的推移,其它厂商也开始陆续推出自己的软件栈,即便你说你从学生时代起就只会写CUDA也不打紧,可以直接让AI帮你编译为其它芯片适配的语言。
综上,DeepSeek这件事情对目前几个主流板块的边际影响,总结如下:
1)客观看,就短期而言,挂钩纯训练和scaling law,尤其北美NV链含量高的硬件,需要缓缓,长期逻辑没任何问题,但于我们而言,抛开股价当前位置所包含的预期去谈远期宏大叙事没有意义。
我自己是持股过节的,前一个交易日个别相关持仓短期确实有点看不清了,后面该尊重的还是要尊重。除NV链以外,节前一天整个A股算力深绿有些过了,还是有不少错杀的环节。
2)对互联网厂商本体是利好(不分国内国外),毕竟降本增效对利润率的改善最为直接。
尤其对国内而言,不仅是互联网企业本体,包括他们的capex和端侧相关,目前都隐含了可观的预期差。
除了假期发布新模型但之前毫无反馈的阿里以外,中国还有众多潜在选手,这里面其实就不局限于互联网企业了,手机厂、车厂、新型端侧硬件等各个泛科技领域的龙头都看在眼里,如果说之前他们还在观望,那么deepseek出圈之后则是直接吃了颗定心丸,实际上假期已经有不少家开始抢人。
互联网企业前期估值受到压制的关键要素之一就是市场普遍认为“中国搞不出前沿AI“,他们的上下游环节自然也就跟着没表现,这些板块基本都是没有任何抢跑的,该偏见的修正会直接对应估值修复。
所以这一块是目前最值得花功夫的区域,字节的赚钱效应已经打了个样,后面其它的模型厂商以及他们挂钩的capex和端侧链条,都能敞开了挖票,今年赔率管够。
3)更多企业的入局对国内算力而言同样是beta性利好,实际上市场此前计入预期的仅字节一家,虽然训练消耗的算力量减少了(DPSK的降本幅度值得肯定,但真实幅度大概率比宣传的要小一些),但基数的扩大足以对冲,更不用提后续的推理增量,以及悬剑在上的新一轮出口限制。
假期DeepSeek的持续宕机大家应该都有体会了,对国内算力而言,需求溢出的局面并未得到任何改善;
4)推理时代,非NV的其它芯片厂商将百花齐放,博通ASIC、cerebras、国内的一线芯片企业,除了受益COT开源后迅速普及带来的全新斜率以外,这些厂商在英伟达的蛋糕里哪怕只挖一勺,就是巨大的市值弹性。
--------
今天就先到这里股市配资平台,假期宏观及非AI行业的增量信息也挺多,等开盘前一天再详细聊聊:网页链接