6mo ago telegram
零成本接入旗舰级视觉模型,前端开发与长文档分析效率直接翻倍。 智谱 GLM-4.6V 更新,Flash 版 API 限时免费,原生支持多模态工具调用,解决“只看不做”的痛点。 🔹 原生 Function Calling 这是该系列首次引入原生函数调用。简单说,以前的模型只能“ …
6mo ago telegram
搞定 AI 汉字海报,别再死磕复杂的 ComfyUI 插件了。 美团 LongCat 团队开源的 6B 图像模型,在消费级显卡上就能跑通“精准中文生图 + 自然语言修图”的全流程。 1️⃣ 架构“一鱼两吃” 它不用分别部署生图和修图模型。基于 DiT(类似 Flux)的统一架 …
6mo ago telegram
⚠️ Antigravity 更新速率限制:付费版改 5 小时刷新,免费版变周配额。 1️⃣ 付费用户(Pro/Ultra): 拿到最高优待。重点是配额机制改为「每 5 小时刷新」,这意味着高强度 Coding 时能快速回血,不用死等第二天,非常适合冲刺型开发。 2️⃣ 免费 …
6mo ago telegram
为啥在Gemini App用Gems会丢聊天记录?
6mo ago telegram
本地跑通“类 GPT-4o”实时语音交互的最后门槛被踏平了 微软本周开源 VibeVoice-Realtime-0.5B,用极低算力实现 <300ms 延迟的流式 TTS,且支持 MIT 协议免费商用。 1️⃣ 消费级硬件门槛 仅 0.5B 参数,推理显存占用不到 2GB …
6mo ago telegram
语音交互延迟干到 97ms,不做这块优化的产品可能要掉队了 阿里 Qwen3-TTS-Flash 新版发布,一举解决“方言本地化”和“对话即时感”两大痛点,实测体验相当能打。 1️⃣ 快得像真人抢话 首包延迟(First Packet Latency)压到了 97ms。简单 …
6mo ago telegram
Google 推送的 Gemini 3 Deep Think,可能是目前唯一能在这个维度真正落地“慢思考”的 AI 方案。 其核心逻辑不是让你更快得到答案,而是像人类专家一样,先在后台进行“平行推演”和自我反思,再给出最优解。实测下来,对复杂逻辑的提升显而易见: 1️⃣ 突破 …
6mo ago telegram
阿里千问 App 刚上线 Qwen3-Learning 模型,主打 K-12 全科“拍题讲解”与“作业批改”,完全免费且不限次。 这不仅仅是传统的 OCR 搜题,而是把 LLM 的推理能力落地到了具体场景: 1️⃣ 从“给答案”到“教逻辑” 利用思维链(CoT)技术,模型不会 …
6mo ago telegram
快手可灵数字人 2.0 全量上线,解决真人出镜成本高、甚至不敢出镜的痛点,三步把一张静态图变成能连续演 5 分钟的专业视频。 🔹 表现力跃升 基于 DiT 架构(想象成既懂剧本又懂运镜的 AI 导演),不仅实现毫秒级口型对齐,现在的微表情、手势和体态能跟随语调自动演绎,摆脱了早 …
6mo ago telegram
字节跳动发布了 Seedream 4.5,把「多图一致性」和「文字渲染」直接拉到了商用成品级标准,不做单纯的艺术玩具,而是直接对标生产力。 1️⃣ 真·多图融合(Multi-Image Composition) 以前用 SD 做「产品+模特+背景」 …