我把字幕识别做成了skill

我把字幕识别做成了skill 前几天我说去年做过一个字幕识别的saas，但因为openclaw龙虾的出现胎死腹中，很多人表示不理解。说到底就是通用agent的井喷，替代了很多简单工作。这些简单工作中使用的工具也从面向用户，变成面向agent。就比如制作字幕这个工作，以前需要用户完成，才需要精美的saas产品，现在由agent完成，只需要一个agent能读懂的skill。于是我把字幕识别做成了skill，给agent提供音频+原文案就能完成识别字幕+修正错字。底层是离线 Whisper 模型将音频转文字，大模型记录时间轴，以及根据原文案，对识别的文字进行纠错，最后将成品输出成srt字幕文件。 🔗 github.com/haoyiyin/easy-subtitle