动态 | Yi

6mo ago telegram

Adobe 刚把 Runway Gen-4.5 塞进全家桶。这不仅是简单的模型接入，而是彻底打通了「生成+修改」，以前要磨半天的特效现在几分钟搞定。客户要「把背景换成阴天」，我得开 AE 搞半天。现在 Firefly 里直接用 Prompt to Edit，框选敲字立马生 …

6mo ago telegram

🎵 搞定 AI 音乐可视化的「最后 1 公里」。如果你需要把音乐可视化成MV，Freebeat 这个工具大概率能用上。简单来说，它是一个聚合了主流视频模型的「节奏同步器」： 1️⃣ 卡点神器：它不是瞎配画面，而是能识别 Kick 和 Snare 等瞬态，把视觉转场死死卡在鼓 …

6mo ago telegram

GPT-5.2-Codex ，能自己跑流程的初级工程师。 1️⃣ 上下文压缩：以前重构老项目要切片喂代码，现在把整个仓库扔进去，它能精准理解模块依赖。 2️⃣ 看图即代码：随手在纸上画个 UI 草图拍给它，直接吐出 80% 能用的前端原型。 3️⃣ Windows 党福音： …

6mo ago telegram

日本Rakuten集团推出了 Rakuten AI 3.0 ，这个日本本土化模型 70B 参数，主打一个「懂行」且「便宜」。 1️⃣ 懂“味”：把一封很含蓄的日语邮件扔进去，它解读出的潜台词比 GPT 更有“人味”。 MoE 架构（类似大脑分区处理）配合本土数据，在处理敬语和 …

6mo ago telegram

🎄 谷歌这波「25天 AI Agent 特训」有点东西。每天 5 分钟，从写第一行 YAML 到部署生产级 Agent，这是目前最丝滑的「实战路书」。我跟着跑了一下，几个感触很深的点： 1️⃣ 门槛极低：Day 2 我只写了个配置文件（YAML），一行 Python 没 …

6mo ago telegram

现在Gemini网页版创建Gems支持将NotebookLM设置成知识库了

6mo ago telegram

Meta 刚发的 SAM Audio 这个多模态分离模型。解决了我这种内容创作者最头疼的问题：在吵闹的街边拍Vlog，也能一键精准抠出人声，甚至能靠点选视频画面来分离声音。 1️⃣ 用眼睛「听」声音：它有个 PE-AV 感知编码器（像人的耳目协同）。我在视频里点一下吉他手， …

6mo ago telegram

以前总觉得“Flash”就是“降智版”，但这次真被打脸。Gemini 3 Flash 实测下来，丢给它一坨屎山代码，218 tokens/s 的速度简直是在屏幕上飞。最离谱的是在 SWE-bench 拿了 78%，写代码居然比自家 Pro 还强。不过有一说一， …

6mo ago telegram

OpenAI 的 Realtime API 贵到让我肉疼，xAI在语音AI领域推出了Grok Voice Agent API。价格杀疯了，每分钟 $0.05，相比 OpenAI 的 ~$1，这简直是做慈善，直接便宜了 20 倍。实测下来，延迟低得吓人，而且因为它能实时扒 X …

6mo ago telegram

YouTube 竟然整出了个 Playables Builder （ AI 游戏开发）。底层是 Google 最新的 Gemini 3 Pro，这玩意儿离谱到什么程度？你给它一段话、几张图，甚至直接喂一段视频，它就能给你吐出一个能玩的交互游戏原型。 • 成本低得吓人： …