动态
浩伊的最新动态,聚焦 AI 生产力工具、Claude、ChatGPT、AI Agent、RAG 知识库、AI 自动化与独立开发。
7mo ago
telegram
免费的 Agentic IDE:美团 CatPaw 公测
这是一款 AI 驱动的编程环境,核心是 Agent 与人协作,目标是提升编码效率。
1️⃣ 完全免费:公测期免费 (macOS/Windows),支持一键导入 VS Code 或 Cursor 配置,迁移成本低。 …
7mo ago
telegram
告别付费 PPT,试试这个开源 AI 方案 Presentation-AI
它能从一句话生成完整演示,是 Gamma.app 的一个有力替代品,核心是免费与数据可控。
🔹 AI 生成:自动生成大纲、内容与 AI 插图(支持 DALL-E 3, Stable Diffusion …
7mo ago
telegram
用编辑文本的方式精修音频
阶跃星辰 (StepFun AI) 刚开源了 Step-Audio-EditX,一个 30 亿参数的 LLM 级音频编辑模型。它让语音修改变得直观,不再是“录制即定型”。
1️⃣ 迭代式编辑:通过自然语言指令,反复修改语音的情感、风格(如“再温柔一 …
7mo ago
telegram
用 AI 快速生成短视频的新选项:Grok Imagine
xAI 的目标是做“AI 版 Vine”,17 秒内生成 6-15 秒带音效的短片。
1️⃣ 核心技术: Aurora 引擎。 它采用自回归混合专家架构(非 Sora 的扩散模型),训练时即统一处理音、视、文。 …
7mo ago
telegram
用 1/5 成本,获得 GPT-5-Codex 96% 以上的编程性能。
OpenAI 新发布的 GPT-5-Codex-Mini,为开发者提供了高性价比的编码选择。
1️⃣ 性能: 在 SWE-bench 上得分 71.3%,与完整版 (74.5%) …
7mo ago
telegram
如何在 10 秒内提取任意网站的完整“品牌 DNA”?
Firecrawl 新增了 Branding Format API,输入一个 URL,它会返回完整的品牌规范 (结构化 JSON),省去你手动审查 CSS 和扒素材的时间。
1️⃣ 色彩系统:完整色板 (主色、背景、强调 …
7mo ago
telegram
让静态图“转”起来:Qwen Image Edit 的虚拟相机控制
用自然语言指令精确调整图像视角,实现360度旋转、俯仰或变焦,像在操作一台虚拟摄影机。
✨ 核心是控“相机”:不止是内容编辑。用 "Camera orbit left 45 degrees" …
7mo ago
telegram
获得超越 GPT-5 的性能,并大幅降低 API 成本
月之暗面 AI (Moonshot) 刚开源了 Kimi K2 Thinking,一个万亿参数 MoE 模型,在多项基准测试中超越了 GPT-5 和 Claude Sonnet 4.5。
几个核心优势:
1️⃣ 成本优 …
7mo ago
telegram
实现 AI 视频自由运镜
Google Flow 新增“相机调整”功能,允许在视频生成后修改机位与运动轨迹。
目前该功能仅向 Ultra 订阅用户开放,提供了 2 周的限时免费试用。
它主要提供两类调整:
1️⃣ 位置 (Position):实现平移、推近 (Dolly …
7mo ago
telegram
托管 RAG 的新方案:Gemini API 推出 File Search 工具
它把复杂的 RAG 流程(检索增强生成)几乎全托管了,开发者可以专注业务。
RAG 就像给 AI 配了个外挂知识库,让它先查资料(如 PDF)再回答,减少“幻觉”。以前自建 RAG 很麻烦,要自 …