动态
浩伊的最新动态,聚焦 AI 生产力工具、Claude、ChatGPT、AI Agent、RAG 知识库、AI 自动化与独立开发。
6mo ago
telegram
昨晚发现了智谱开源的这个 RealVideo。实测下来最吓人的是延迟只有 2-3 秒。什么概念?以前生成个 5 秒视频够我去冲杯咖啡,现在这玩意儿直接能跟我实时视频通话,连嘴型都能完美对上语音(TTS+视频生成一条龙)。感觉就像给 AI 装了个真·声带和脸,而不是在那念 PPT。 …
6mo ago
telegram
本来以为又是个只活在 PPT 里的学术项目,结果看完 LivingSwap 的 Demo,我后背真有点发凉。
以前搞视频换脸,最烦的就是侧脸狂闪和光影崩坏,为了修那些破绽,我在 After Effects 里修帧修到想吐。LivingSwap 这货的路子很野,它不像传统 GAN …
6mo ago
telegram
阿里这次开源的通义百聆(Fun-CosyVoice3)属实有点东西,特别是在“白嫖”和“本地部署”这件事上,给独立开发者留了条活路。
实测下来,几个感觉最明显的点:
* 轻得离谱:0.5B 的参数量,直接跑在我的开发本上居然不卡。官方说首包延迟降了 50%,体感就是刚敲完回 …
6mo ago
telegram
刚写完脚本准备配音,结果随手测了下 Google 刚更的 Gemini 2.5 TTS,手里的咖啡瞬间不香了。🤯
简单说:这玩意儿不是在“读”,是在“演”。
我以前最烦 TTS 那种“毫无波澜的朗诵腔”。但这次 2.5 版本有个离谱的Prompt 导演模式。
我试着输了一 …
6mo ago
telegram
差点为了出国沟通方便去买那个两千块的 AI 硬件,结果发现 Google 翻译偷偷憋了个大招。我本来是 DeepL 的死忠粉,对于 Google 翻译那种“机翻味”向来是嗤之以鼻的,但这波更新真的让我有点手抖。
我昨晚在星巴克测了一下。以前用 Google 翻译最怕遇到习语,比 …
6mo ago
telegram
谷歌翻译App(Gemini驱动)开始支持用中文学习英文,多邻国可以退订了
不是传统的背单词,是根据用户水平生成个性化学习内容,像是定制版多邻国
6mo ago
telegram
开源项目 Banana Slides 主打 "Vibe PPT" 概念,用多模态模型把“找模板”变成了“复刻审美”。
原理类似给理发师看照片,它通过 Nano Banana Pro 解析参考图的“氛围”,直接生成对应的排版逻辑。
1️⃣ 视觉风格迁移:随便扔一张海报或设计 …
6mo ago
telegram
Medeo 引入了 Video Agent,彻底终结了 AI 视频“一键生成却无法微调”的开盲盒时代。
简单说,以前用 AI 做视频像买彩票,不满意只能重开;现在它是你的剪辑助理,哪里不满改哪里。
🔹 交互式微调:这是最大的 Update。输入“把背景换成办公室”或“让解说语 …
6mo ago
telegram
以后「浏览网页」就是「开发应用」。
Google 发布的 Disco 浏览器(搭载 Gemini 3)彻底变了:它不再只是展示信息的窗口,而是能把散乱的标签页直接「熔炼」成交互式 App。
核心逻辑非常野:
🔹 原理像「自动加工厂」:你打开的 Wikipedia、地图、订票网 …
6mo ago
telegram
AI 短剧成本已被砸穿:一杯奶茶钱换 100 集长篇动画,现在入局就是降维打击。
商汤发布 Seko 2.0,专为「多剧集连贯性」设计的 Agent,一站式解决角色崩坏与剧情断层痛点。
简单说,它不是让你像抽卡一样画单图,而是给了一个懂剧本、能控图的虚拟导演组。
🔹 死磕“ …