6mo ago telegram
Adobe 刚把 Runway Gen-4.5 塞进全家桶。 这不仅是简单的模型接入,而是彻底打通了「生成+修改」,以前要磨半天的特效现在几分钟搞定。 客户要「把背景换成阴天」,我得开 AE 搞半天。现在 Firefly 里直接用 Prompt to Edit,框选敲字立马生 …
6mo ago telegram
🎵 搞定 AI 音乐可视化的「最后 1 公里」。 如果你需要把音乐可视化成MV,Freebeat 这个工具大概率能用上。简单来说,它是一个聚合了主流视频模型的「节奏同步器」: 1️⃣ 卡点神器:它不是瞎配画面,而是能识别 Kick 和 Snare 等瞬态,把视觉转场死死卡在鼓 …
6mo ago telegram
GPT-5.2-Codex ,能自己跑流程的初级工程师。 1️⃣ 上下文压缩:以前重构老项目要切片喂代码,现在把整个仓库扔进去,它能精准理解模块依赖。 2️⃣ 看图即代码:随手在纸上画个 UI 草图拍给它,直接吐出 80% 能用的前端原型。 3️⃣ Windows 党福音: …
6mo ago telegram
日本Rakuten集团推出了 Rakuten AI 3.0 ,这个日本本土化模型 70B 参数,主打一个「懂行」且「便宜」。 1️⃣ 懂“味”:把一封很含蓄的日语邮件扔进去,它解读出的潜台词比 GPT 更有“人味”。 MoE 架构(类似大脑分区处理)配合本土数据,在处理敬语和 …
6mo ago telegram
🎄 谷歌这波「25天 AI Agent 特训」有点东西。 每天 5 分钟,从写第一行 YAML 到部署生产级 Agent,这是目前最丝滑的「实战路书」。 我跟着跑了一下,几个感触很深的点: 1️⃣ 门槛极低:Day 2 我只写了个配置文件(YAML),一行 Python 没 …
6mo ago telegram
现在Gemini网页版创建Gems支持将NotebookLM设置成知识库了
6mo ago telegram
Meta 刚发的 SAM Audio 这个多模态分离模型。 解决了我这种内容创作者最头疼的问题:在吵闹的街边拍Vlog,也能一键精准抠出人声,甚至能靠点选视频画面来分离声音。 1️⃣ 用眼睛「听」声音:它有个 PE-AV 感知编码器(像人的耳目协同)。我在视频里点一下吉他手, …
6mo ago telegram
以前总觉得“Flash”就是“降智版”,但这次真被打脸。Gemini 3 Flash 实测下来,丢给它一坨屎山代码,218 tokens/s 的速度简直是在屏幕上飞。 最离谱的是在 SWE-bench 拿了 78%,写代码居然比自家 Pro 还强。 不过有一说一, …
6mo ago telegram
OpenAI 的 Realtime API 贵到让我肉疼,xAI在语音AI领域推出了Grok Voice Agent API。 价格杀疯了,每分钟 $0.05,相比 OpenAI 的 ~$1,这简直是做慈善,直接便宜了 20 倍。实测下来,延迟低得吓人,而且因为它能实时扒 X …
6mo ago telegram
YouTube 竟然整出了个 Playables Builder ( AI 游戏开发)。 底层是 Google 最新的 Gemini 3 Pro,这玩意儿离谱到什么程度?你给它一段话、几张图,甚至直接喂一段视频,它就能给你吐出一个能玩的交互游戏原型。 • 成本低得吓人: …