我把字幕识别做成了skill 前几天我说去年做过一个字幕识别的saas,但因为openclaw龙虾的出现胎死腹中,很多人表示不理解。说到底就是通用agent的井喷,替代了很多简单工作。 这些简单工作中使用的工具也从面向用户,变成面向agent。就比如制作字幕这个工作,以前需要用户完成,才需要精美的saas产品,现在由agent完成,只需要一个agent能读懂的skill。 于是我把字幕识别做成了skill,给agent提供音频+原文案就能完成识别字幕+修正错字。底层是离线 Whisper 模型将音频转文字,大模型记录时间轴,以及根据原文案,对识别的文字进行纠错,最后将成品输出成srt字幕文件。 🔗 github.com/haoyiyin/easy-subtitle
我把字幕识别做成了skill