动态 | Yi

6mo ago telegram

零成本接入旗舰级视觉模型，前端开发与长文档分析效率直接翻倍。智谱 GLM-4.6V 更新，Flash 版 API 限时免费，原生支持多模态工具调用，解决“只看不做”的痛点。 🔹 原生 Function Calling 这是该系列首次引入原生函数调用。简单说，以前的模型只能“ …

6mo ago telegram

搞定 AI 汉字海报，别再死磕复杂的 ComfyUI 插件了。美团 LongCat 团队开源的 6B 图像模型，在消费级显卡上就能跑通“精准中文生图 + 自然语言修图”的全流程。 1️⃣ 架构“一鱼两吃” 它不用分别部署生图和修图模型。基于 DiT（类似 Flux）的统一架 …

6mo ago telegram

⚠️ Antigravity 更新速率限制：付费版改 5 小时刷新，免费版变周配额。 1️⃣ 付费用户（Pro/Ultra）：拿到最高优待。重点是配额机制改为「每 5 小时刷新」，这意味着高强度 Coding 时能快速回血，不用死等第二天，非常适合冲刺型开发。 2️⃣ 免费 …

6mo ago telegram

为啥在Gemini App用Gems会丢聊天记录？

6mo ago telegram

本地跑通“类 GPT-4o”实时语音交互的最后门槛被踏平了微软本周开源 VibeVoice-Realtime-0.5B，用极低算力实现 <300ms 延迟的流式 TTS，且支持 MIT 协议免费商用。 1️⃣ 消费级硬件门槛仅 0.5B 参数，推理显存占用不到 2GB …

6mo ago telegram

语音交互延迟干到 97ms，不做这块优化的产品可能要掉队了阿里 Qwen3-TTS-Flash 新版发布，一举解决“方言本地化”和“对话即时感”两大痛点，实测体验相当能打。 1️⃣ 快得像真人抢话首包延迟（First Packet Latency）压到了 97ms。简单 …

6mo ago telegram

Google 推送的 Gemini 3 Deep Think，可能是目前唯一能在这个维度真正落地“慢思考”的 AI 方案。其核心逻辑不是让你更快得到答案，而是像人类专家一样，先在后台进行“平行推演”和自我反思，再给出最优解。实测下来，对复杂逻辑的提升显而易见： 1️⃣ 突破 …

6mo ago telegram

阿里千问 App 刚上线 Qwen3-Learning 模型，主打 K-12 全科“拍题讲解”与“作业批改”，完全免费且不限次。这不仅仅是传统的 OCR 搜题，而是把 LLM 的推理能力落地到了具体场景： 1️⃣ 从“给答案”到“教逻辑” 利用思维链（CoT）技术，模型不会 …

6mo ago telegram

快手可灵数字人 2.0 全量上线，解决真人出镜成本高、甚至不敢出镜的痛点，三步把一张静态图变成能连续演 5 分钟的专业视频。 🔹 表现力跃升基于 DiT 架构（想象成既懂剧本又懂运镜的 AI 导演），不仅实现毫秒级口型对齐，现在的微表情、手势和体态能跟随语调自动演绎，摆脱了早 …

6mo ago telegram

字节跳动发布了 Seedream 4.5，把「多图一致性」和「文字渲染」直接拉到了商用成品级标准，不做单纯的艺术玩具，而是直接对标生产力。 1️⃣ 真·多图融合（Multi-Image Composition）以前用 SD 做「产品+模特+背景」 …