动态 | Yi

6mo ago telegram

我这周末扒了下 Nvidia 开源的 NitroGen 模型，它会玩包括《巫师3》、《赛博朋克2077》在内的 1000 多款游戏。这是一个通用的「视觉-动作」模型：给它看游戏画面，它直接输出手柄操作。 1️⃣ 原理像极了自动驾驶：没搞复杂的奖励机制，直接喂了 40,000 …

6mo ago telegram

别再调参数了，用 Emoji 控制 AI 语音也许是新解法。这两天挖到了 Product Hunt 上热度很高的 NOIZ AI，实测确实能解决「AI 说话没味儿」的痛点。原理其实特简单：它不让你调复杂的音高/语速参数，而是把 Emoji 直接当作情感指令。加个 😢（流 …

6mo ago telegram

Gemini 是我练习外语口语的新搭子，现在它的语音功能不逊色 Grok ，超强上下文非常适合当 AI 外教，每次对话完还能让它记录生词和句子保存到记忆中，在未来对话帮你循序渐进把外语用起来

6mo ago telegram

剪 Vlog 找不到合适的 BGM，试了下 QQ 音乐的新功能， 5 分钟手搓一首原创。这个本地 AI 写歌流，对我这种不懂乐理的内容创作者来说，算是补齐了最后一块短板： 1️⃣ 纯本地 NPU 运行：这点很惊喜，基于 Intel Core Ultra，完全不用联网。不用担 …

6mo ago telegram

不想露脸又想做视频矩阵？我用这个开源项目，把一周的抖音库存全搞定了。 Pixelle-Video：输入主题直出成片，这次不是 PPT 概念，是真能跑通的短视频流水线。甚至不用写提示词：输入「曼谷之旅」，LLM 自动写脚本 -> 调 API 生成素材 -> 自动配音配乐 -> …

6mo ago telegram

要重拍一整天的废片，这次用 Ray3Modify 救回来了。 Luma AI 发布了 Ray3Modify 模型，它不再是随机抽盲盒，而是真正听懂人话的「可控修改」。 1️⃣ 演技完美保留：我在随手录了个尴尬表情，丢进去用 Character Reference 换成动漫脸， …

6mo ago telegram

Gemini App新增编辑图片功能，可以在线涂鸦图片

6mo ago telegram

把 AI 语音接入 WhatsApp 。 ElevenLabs 刚更新了 WhatsApp 集成，真正实现了「一套配置，全渠道接单」。 1️⃣ 逻辑复用：以前网页和手机端得两头维护，现在后台配好知识库，同一个 Agent 既能在官网接客，也能在 WhatsApp 上用语音回消 …

6mo ago telegram

AI 开始原生支持「图层」编辑逻辑。 Qwen-Image-Layered 开源实测：直接生成分层 RGBA 图像，设计稿修改效率提升至少 3 倍。以前用 AI 生成的是一张「死图」，改背景得靠 PS 慢慢抠；这个模型生成的是「透明叠层」，像拆开的胶片，每一层都能独立挪动。 …

6mo ago telegram

Adobe 刚把 Runway Gen-4.5 塞进全家桶。这不仅是简单的模型接入，而是彻底打通了「生成+修改」，以前要磨半天的特效现在几分钟搞定。客户要「把背景换成阴天」，我得开 AE 搞半天。现在 Firefly 里直接用 Prompt to Edit，框选敲字立马生 …