动态
浩伊的最新动态,聚焦 AI 生产力工具、Claude、ChatGPT、AI Agent、RAG 知识库、AI 自动化与独立开发。
6mo ago
telegram
我这周末扒了下 Nvidia 开源的 NitroGen 模型,它会玩包括《巫师3》、《赛博朋克2077》在内的 1000 多款游戏。
这是一个通用的「视觉-动作」模型:给它看游戏画面,它直接输出手柄操作。
1️⃣ 原理像极了自动驾驶:没搞复杂的奖励机制,直接喂了 40,000 …
6mo ago
telegram
别再调参数了,用 Emoji 控制 AI 语音也许是新解法。
这两天挖到了 Product Hunt 上热度很高的 NOIZ AI,实测确实能解决「AI 说话没味儿」的痛点。
原理其实特简单:它不让你调复杂的音高/语速参数,而是把 Emoji 直接当作情感指令。
加个 😢(流 …
6mo ago
telegram
Gemini 是我练习外语口语的新搭子,现在它的语音功能不逊色 Grok ,超强上下文非常适合当 AI 外教,每次对话完还能让它记录生词和句子保存到记忆中,在未来对话帮你循序渐进把外语用起来
6mo ago
telegram
剪 Vlog 找不到合适的 BGM,试了下 QQ 音乐的新功能, 5 分钟手搓一首原创。
这个本地 AI 写歌流,对我这种不懂乐理的内容创作者来说,算是补齐了最后一块短板:
1️⃣ 纯本地 NPU 运行:这点很惊喜,基于 Intel Core Ultra,完全不用联网。不用担 …
6mo ago
telegram
不想露脸又想做视频矩阵?我用这个开源项目,把一周的抖音库存全搞定了。
Pixelle-Video:输入主题直出成片,这次不是 PPT 概念,是真能跑通的短视频流水线。
甚至不用写提示词:输入「曼谷之旅」,LLM 自动写脚本 -> 调 API 生成素材 -> 自动配音配乐 -> …
6mo ago
telegram
要重拍一整天的废片,这次用 Ray3Modify 救回来了。
Luma AI 发布了 Ray3Modify 模型,它不再是随机抽盲盒,而是真正听懂人话的「可控修改」。
1️⃣ 演技完美保留:我在随手录了个尴尬表情,丢进去用 Character Reference 换成动漫脸, …
6mo ago
telegram
Gemini App新增编辑图片功能,可以在线涂鸦图片
6mo ago
telegram
把 AI 语音接入 WhatsApp 。
ElevenLabs 刚更新了 WhatsApp 集成,真正实现了「一套配置,全渠道接单」。
1️⃣ 逻辑复用:以前网页和手机端得两头维护,现在后台配好知识库,同一个 Agent 既能在官网接客,也能在 WhatsApp 上用语音回消 …
6mo ago
telegram
AI 开始原生支持「图层」编辑逻辑。
Qwen-Image-Layered 开源实测:直接生成分层 RGBA 图像,设计稿修改效率提升至少 3 倍。
以前用 AI 生成的是一张「死图」,改背景得靠 PS 慢慢抠;这个模型生成的是「透明叠层」,像拆开的胶片,每一层都能独立挪动。 …
6mo ago
telegram
Adobe 刚把 Runway Gen-4.5 塞进全家桶。
这不仅是简单的模型接入,而是彻底打通了「生成+修改」,以前要磨半天的特效现在几分钟搞定。
客户要「把背景换成阴天」,我得开 AE 搞半天。现在 Firefly 里直接用 Prompt to Edit,框选敲字立马生 …