2作者: ragelink3 个月前原帖
我们创建了PlanOpticon,以解决一个我们不断遇到的问题:大量录制的会议、培训课程和演示文稿,没人会重新观看。它从视频中提取结构化知识——转录文本、图表、行动项、要点和知识图谱——并生成可浏览的输出格式(Markdown、HTML、PDF)。 工作原理: - 使用变化检测提取帧(不仅仅是每N帧),并定期捕捉慢变化内容(如屏幕共享) - 通过人脸检测自动过滤掉仅包含网络摄像头/人像的帧 - 转录音频(使用OpenAI Whisper API或本地Whisper,无需API) - 将帧发送到视觉模型,以识别并重建图表为Mermaid代码 - 从转录文本构建知识图谱(实体+关系) - 提取要点、行动项,以及视觉内容与口头内容之间的交叉引用 - 生成一个结构化报告,将所有内容链接在一起 支持OpenAI、Anthropic和Gemini作为提供者——自动发现可用模型,并将每个任务路由到最佳模型。支持检查点/恢复,以确保长时间分析在失败后能够继续。 示例命令: ``` pip install planopticon planopticon analyze -i meeting.mp4 -o ./output ``` 还支持对整个文件夹进行批处理,并从Google Drive或Dropbox提取视频。 示例:我们对一个90分钟的培训课程进行了处理:提取了122帧(从数千个候选帧中),重建了6个图表,生成了完整的转录文本(带有发言者标记),构建了540节点的知识图谱,并生成了一份全面的报告——所有这些在大约25分钟内完成。 支持Python 3.10及以上版本,采用MIT许可证。文档请访问 [https://planopticon.dev](https://planopticon.dev)。