动态
浩伊的最新动态,聚焦 AI 生产力工具、Claude、ChatGPT、AI Agent、RAG 知识库、AI 自动化与独立开发。
6mo ago
telegram
零成本接入旗舰级视觉模型,前端开发与长文档分析效率直接翻倍。
智谱 GLM-4.6V 更新,Flash 版 API 限时免费,原生支持多模态工具调用,解决“只看不做”的痛点。
🔹 原生 Function Calling
这是该系列首次引入原生函数调用。简单说,以前的模型只能“ …
6mo ago
telegram
搞定 AI 汉字海报,别再死磕复杂的 ComfyUI 插件了。
美团 LongCat 团队开源的 6B 图像模型,在消费级显卡上就能跑通“精准中文生图 + 自然语言修图”的全流程。
1️⃣ 架构“一鱼两吃”
它不用分别部署生图和修图模型。基于 DiT(类似 Flux)的统一架 …
6mo ago
telegram
⚠️ Antigravity 更新速率限制:付费版改 5 小时刷新,免费版变周配额。
1️⃣ 付费用户(Pro/Ultra): 拿到最高优待。重点是配额机制改为「每 5 小时刷新」,这意味着高强度 Coding 时能快速回血,不用死等第二天,非常适合冲刺型开发。
2️⃣ 免费 …
6mo ago
telegram
为啥在Gemini App用Gems会丢聊天记录?
6mo ago
telegram
本地跑通“类 GPT-4o”实时语音交互的最后门槛被踏平了
微软本周开源 VibeVoice-Realtime-0.5B,用极低算力实现 <300ms 延迟的流式 TTS,且支持 MIT 协议免费商用。
1️⃣ 消费级硬件门槛
仅 0.5B 参数,推理显存占用不到 2GB …
6mo ago
telegram
语音交互延迟干到 97ms,不做这块优化的产品可能要掉队了
阿里 Qwen3-TTS-Flash 新版发布,一举解决“方言本地化”和“对话即时感”两大痛点,实测体验相当能打。
1️⃣ 快得像真人抢话
首包延迟(First Packet Latency)压到了 97ms。简单 …
6mo ago
telegram
Google 推送的 Gemini 3 Deep Think,可能是目前唯一能在这个维度真正落地“慢思考”的 AI 方案。
其核心逻辑不是让你更快得到答案,而是像人类专家一样,先在后台进行“平行推演”和自我反思,再给出最优解。实测下来,对复杂逻辑的提升显而易见:
1️⃣ 突破 …
6mo ago
telegram
阿里千问 App 刚上线 Qwen3-Learning 模型,主打 K-12 全科“拍题讲解”与“作业批改”,完全免费且不限次。
这不仅仅是传统的 OCR 搜题,而是把 LLM 的推理能力落地到了具体场景:
1️⃣ 从“给答案”到“教逻辑”
利用思维链(CoT)技术,模型不会 …
6mo ago
telegram
快手可灵数字人 2.0 全量上线,解决真人出镜成本高、甚至不敢出镜的痛点,三步把一张静态图变成能连续演 5 分钟的专业视频。
🔹 表现力跃升
基于 DiT 架构(想象成既懂剧本又懂运镜的 AI 导演),不仅实现毫秒级口型对齐,现在的微表情、手势和体态能跟随语调自动演绎,摆脱了早 …
6mo ago
telegram
字节跳动发布了 Seedream 4.5,把「多图一致性」和「文字渲染」直接拉到了商用成品级标准,不做单纯的艺术玩具,而是直接对标生产力。
1️⃣ 真·多图融合(Multi-Image Composition)
以前用 SD 做「产品+模特+背景」 …