
2025 年头,中国国内目下最活跃的 AI 投资机构之一的锦秋基金开云体育,组织了一场硅谷的 Scale With AI 行动。
5 天 4 晚里,OpenAI、xAI 、Anthropic、Google、Meta、Perplexity、Luma、Runway 等要道 AI 公司以及好多硅谷的投资机构聚拢共享了硅谷 AI 的最新进展,以及他们对 2025 趋势的好多预测和判断。
动作这个行动背后的攒局者,锦秋基金不仅投资了北好意思的一些活跃的 AI 基金,与全球 AI 市集建立贯穿,也止境推出了 Soil 种子推敲,以激进的、快速活泼决策的形势支捏 AI 限制的早期创业者。昔时的 2024 年,锦秋每每脱手了 AI 达东说念主营销平台 Aha Lab、AI 内容平台造梦次元等诸多名堂。
以下是本次硅谷行整理出的对于 AI 进展的二十五条迫切领会,共分为大模子、视频模子、AI 诓骗以及具身智能四个部分。
对于大模子:Scaling law 是否达到瓶颈以及硅谷革命的起原
1. 对 LLM 来说,Pre-training 的时间已基本赶走了,但 post-training 还有好多契机。此外,在 Pre-training 进入少的原因,更多在于资源有限,而作念 Post-training 的旯旮效益会更高,是以,Post-training 还有好多契机。
2.先有 Pre-training,才有 Post-training 中的 RL,模子得有基础技艺,RL 才能有的放矢。RL 不窜改模子的才略,更多是念念考格式。比较来说,Pre-training 是 imitation,只可作念到效法,而 RL 是创造,不错作念不同的事。
3、一些可能来岁成为共鸣的预判。比如 Model 架构可能变化;闭源和开源差距会大幅放松;对于合成数据,大模子生成数据然后检修小模子是可行的,反过来比较难。合成数据和真实数据的分别主淌若质地问题。也不错用各类数据拼拼集成,赶走也很好。pretraining 阶段可用,因为对数据质地要求不高。另外,每家拼凑的形势齐不一样,用更大模子生成检修小模子是不错的,用小的模子检修大模子的话,近一年可能好点。而本色齐是数据起原问题。
4.Post training 团队成就,表面上 5 东说念主富有(不一定全职)。比如一东说念主搭建 pipeline(infrastructure),一东说念独揽数据(数据赶走),一东说念主发达模子自己 SFT,一东说念主发达家具对模子编排作念判断,收罗用户数据等。
5. 对于硅谷革命的好意思妙由来,其中一个迫切要素便是他们的公司很容易形成一种扁平的组织文化。像 openAI, 就并莫得所谓特定的 decision maker, 每个东说念主齐很自主目田,团队之间的互助也很目田。而老牌的谷歌也在暗暗除去中间层,让好多也曾的 manager 转一线。
对于视频模子: Scaling Law 的瓶颈还很早
6、视频生成还处于 GPT1 和 2 的时辰点。当今视频水平接近 SD1.4 的版块,改日视频会有和商用性能差未几的开源版块。面前的难点是数据集,视频因为版权等问题莫得那么大的公用数据集,每一家怎样获取、处理、清洗数据会产生好多不同,导致模子技艺不同,开源版块的难度也不同。
7.DiT 有辩论下一个比较难的点在于怎样晋升物理轨则的投降,而不单是统计概率。视频生成的效用是卡点。目下要在高端显卡上跑挺久,是贸易化的阻隔,亦然学术界在探讨的所在。近似 LLM 天然模子迭代速率在放缓,但诓骗莫得放缓。从家具角度,只作念文生视频不是一个好的所在,有关的偏裁剪、创意的家具,会日出不穷,是以短期内不会有瓶颈。
8. 会有 1~2 年才能达到 DiT 本贯通线的饱和。DiT 途径好多不错优化的地方。更高效的模子架构,口舌常迫切的。以 LLM 为例,一驱动巨匠齐在往大了作念,后头发现加 MOE 和优化数据分散后,不错无须那么大的模子去作念。需要进入更多相关,一味 scale up DiT 十分不高效。视频数据如果把 YouTube、TikTok 齐算上,数目十分大,不可能齐用于模子检修。
9. 视频的 scaling law,在一定界限内有,但远够不上 llm 的级别。当今最大级别的模子参数也便是 30b。30b 以内证实是灵验的;但 300b 这个量级,就莫得胜仗案例。当今作念法中,不同主淌若在数据上、包括数据配比,其他莫得大不同。
10.Sora 刚出来巨匠齐以为会握住到 DiT,但实践上还有好多本贯通径在作念,举例 based on GAN 的旅途,以及 AutoRegressive 的及时生成,比如最近很火的名堂 Oasis,还有把 CG 和 CV 辘集去完毕更好的一致性和赶走。每一家齐有不同的选拔,改日面向不同场景选拔不同的本领栈会是一个趋势。
11. 长视频生成提速的本领有辩论,能看到 DiT 技艺极限在哪,模子越大、数据越好,生成的领路度更高、时辰更长、胜仗率更高。DiT 模子能 scale 到多大,目下莫得谜底。如果到一定尺寸出现瓶颈,可能会有新的模子架构出现。从算法角度,DiT 作念出一个新的推理算法,来支捏快速。比较难的是何如在检修的时候把这些加上。
12. 视频模态的检修数据其实还有好多,而况何如样高效地选拔出高质地数据比较迫切。数目取决于对版权的交融。但算力雷同是瓶颈,即便有那么多数据,也不一定有算力去作念,尤其是高清的数据。就怕候需要基于手头有的算力去反推需要的高质地数据集。高质地数据一直齐是缺的,但即便罕见据,很大的问题是巨匠不知说念什么样的图像形容是对的,图像形容要有哪些要道词。
13. 视频生成的真实度主要靠基模技艺,好意思学晋升主要靠 post training 阶段,比如海螺就精深用影视数据。视觉模态可能不是更好的通向 AGI 的最佳的模态,因为笔墨是通往智能的捷径,而视频和笔墨之间的效用差距是几百倍。
14. 多模态模子还在很早期阶段。给前 1 秒视频 predict 后头 5 秒一经很难了,后头加入 text 可能会更难。表面上视频和笔墨一说念训是最佳的,然则举座作念起来是很难的。多模态目下不成晋升才略,改日也许是不错的。
对于 AI 诓骗:硅谷的趋势和国内不太一样
15. 硅谷 VC 倾向于以为 2025 年是有诓骗投资的大契机。他们投资 AI 家具的表率之一:最佳只作念一个所在,让竞品很难复制。也需要有一些集聚效应:要么是难以复制的知勉力;要么是难以复制的本领 Edge;要么是他东说念主无法赢得的把持成本。不然很难称之为创业,更像是一门生意。而况在好意思国,基本莫得 killer apps for everyone。巨匠习尚于在不同场景中使用不同功能的 App,要道是让用户体验尽可能的无阻隔。
16、硅谷 VC 以为 AI 家具公司是新物种,和之前的 SaaS 很不一样,找到了 pmf,它的 revenue booming 口舌常快的,果真 value creation before hype 是在 seed 阶段;大模子很驻扎预检修,诓骗公司更驻扎 reasoning。每个行业有固定的看问题的形势和次第,新出现的 AI Agent 是在 LLM 的基础上加入了 Cognitive Architecture。
17.VC 里的小众不雅点是不错有要求商量投资中国创业者。原因是新一代中国首创东说念主很有活力,很有技艺作念很好的生意格式。但前提是 base 在好意思国。中国及中国创业者在作念好多新的尝试,然则外洋投资东说念主不了解,是以亦然一个价值洼点。
18. 硅谷的 VC 齐在想主义建立我方的投资计谋。Soma Capital 的计谋是建联最优秀的东说念主,让最优秀的东说念主先容他的一又友,创建 Life Long Friendship。在流程中 inspire、support、connect 这些东说念主;建立全景舆图,包括市集细分和名堂 mapping,想作念数据 Driven 的投资。会从 Seed 投资到 C 轮,不雅测胜仗 / 失败样本;Leonis Capital 是相关驱动的风险投资基金,主淌若 First Check。OldFriendship Capital 则是 Work first,invest later,会和 founder 先一说念责任,打客户访谈,笃定一些访谈 guideline,一说念搞明晰家具的问题,近似征询责任。投中国名堂,在责任中不错判断中国 founder 是否有契机大概和 US Customer 一说念责任。
19.Storm Venture 可爱 Unlocking Growth,比较可爱 A 轮有 PMF 的公司,他们普通赢得了 1-2M 的收入,然后去判断是否存在 Unlocking growth 撑捏他们涨到 20M。Inference venture 以为壁垒应建立在东说念主际干系和限制学问。
20.OpenAI 相关员创办的 Leonis Capital 有 几 个对于 2025 年的 AI 预测。比如会有一款 AI 编程的诓骗走红;比如模子提供商驱动赶走成本,创业者需要去选拔 model/agent 创造一个特有供给;数据中心会变成电力冲击,可能存在新架构从头;新的 framework,模子变小;Multi agent 会变得愈加主流。
21 AI Coding 公司模子检修的可能念念路,一驱动会用模子公司更好的 API 来取得更好的赶走,即使成本更高,在积存客户使用数据之后,赓续地在小场景训我方的小模子,从而赓续替换部分 API 场景,以更低成本取得更好的赶走。
22. AI Coding 的一个迫切趋势是使用推理增强本领,近似于 o3 或 o1 次第。次第不错显赫提高代码代理的举座效用。天然它目下波及崇高的成本(多 10~100 倍),但它不错将演叨率缩短一半以至四分之一。跟着话语模子的发展,这些成本预测将赶快下跌,这可能使这种次第成为一种常见的本贯通线。
对于具身智能:扫数具备东说念主类泛化技艺的机器东说念主,在咱们这代可能无法完毕
23:硅谷的一些东说念主以为,具身机器东说念主尚未迎来近似 Chatgpt 的时刻,一个中枢原因在于,机器东说念主需要在物理全国中完成任务,而不单是是通过捏造话语生成文本。机器东说念主智能的冲破需要处罚具身智能的中枢问题,即如安在动态、复杂的物理环境中完成任务。机器东说念主的要道时刻需要称心通用性:大概适当不同任务和环境;可靠性:在真实全国中具有较高的胜仗率;可膨大性:能通过数据和任务赓续迭代和优化等几个要求。
24:机器东说念主数据闭环难以完毕是因为它们穷乏近似 ImageNet 这么的秀雅性数据集,导致相关难以形成协调的评估表率。另外,数据采集的成本崇高,尤其是波及真实全国的交互数据。举例,采集触觉、视觉、能源学等多模态数据需要复杂的硬件和环境支捏。仿真器被以为是处罚数据闭环问题的一种迫切器具,但仿真与真实全国之间的"模拟 - 真实差距(sim-to-real gap)"仍然显赫。
25:具身智能濒临通用模子与特定任务模子的冲突。通用模子需要具备弘大的泛化技艺,大概适当各类化的任务和环境;但这普通需要精深的数据和狡计资源。特定任务模子更容易完毕贸易化,但其技艺受限,难以膨大到其他限制。改日的机器东说念主智能需要在通用性和专用性之间找到均衡。举例,通过模块化想象开云体育,让通用模子成为基础,再通过特定任务的微调完毕快速适配。
