返回首页
最新
厌倦了每次需要使用RAG时都要连接向量存储、嵌入模型和分块逻辑。因此我构建了piragi。
```python
from piragi import Ragi
kb = Ragi(["./docs", "./code/**/*.py", "https://api.example.com/docs"])
answer = kb.ask("我该如何部署这个?")
```
这就是整个设置。无需API密钥 - 在本地使用Ollama + sentence-transformers运行。
它的功能:
- 支持所有格式 - PDF、Word、Excel、Markdown、代码、URL、图片、音频
- 自动更新 - 监控来源,后台刷新,查询延迟为零
- 引用 - 每个答案都包含来源
- 高级检索 - HyDE、混合搜索(BM25 + 向量)、交叉编码器重排序
- 智能分块 - 语义、上下文、层次策略
- 兼容OpenAI - 随时可以替换为GPT/Claude
快速示例:
```python
# 按元数据过滤
answer = kb.filter(file_type="pdf").ask("合同中有什么内容?")
# 启用高级检索
kb = Ragi("./docs", config={
"retrieval": {
"use_hyde": True,
"use_hybrid_search": True,
"use_cross_encoder": True
}
})
# 使用OpenAI替代
kb = Ragi("./docs", config={"llm": {"model": "gpt-4o-mini", "api_key": "sk-..."}})
```
安装:
```bash
pip install piragi
PyPI: https://pypi.org/project/piragi/
```
期待反馈。还有什么缺失的?什么能让这个工具对你的项目真正有用?
我开发了一个小工具,以减少处理 XML Schema 的痛苦。XSD 文件 notoriously dense(非常复杂),冗长、嵌套深且难以一目了然地理解。通过肉眼追踪继承、序列和选择结构是非常繁琐的。我希望能有一个工具,将这些模式转换为易读的数据字典,而不依赖于笨重的企业软件。
<p>谁可能会觉得它有用:</p>
开发者:处理遗留集成(如 SOAP、银行格式或政府 API)的开发者,需要快速掌握结构。
架构师:需要向技术水平较低的利益相关者展示模式细节的架构师。
分析师:在进行字段映射时,不想翻阅原始 XML 的分析师。
<p>它的功能:</p>
所有操作都在内存中进行,文件会立即被丢弃。没有数据会被持久化。
它呈现了一个清晰的视觉层次结构,使序列、选择和属性易于跟随。
无需注册或登录。只需上传文件,即可获取结构。
后端使用 Go 语言编写以提高速度,前端使用 React,整个工具旨在消除通常缓慢和混乱的任务中的摩擦。欢迎反馈和功能建议。