RAG-Anything— 港大开源的多模态RAG系统

时间：2025-06-24 | 作者： | 阅读：0

RAG-Anything简介

rag-anything是由香港大学数据智能实验室研发的开源多模态rag系统。该系统能够处理包含文本、图像、表格和公式的复杂文档，提供从文档摄入到智能查询的完整解决方案。依托多模态知识图谱、灵活的解析架构和混合检索机制，rag-anything在复杂文档处理方面表现出色，支持多种格式，如pdf、office文档、图像及各类文本文件等。其核心优势包括端到端多模态流程、多格式兼容性、内容分析引擎、知识图谱索引、灵活架构以及跨模态检索能力。

RAG-Anything的核心功能

完整的多模态流程：涵盖文档解析至多模态智能查询，实现一体化操作。
广泛支持文档格式：可处理PDF、Office文档（DOC/DOCX、PPT/PPTX、XLS/XLSX）、图像（JPG、PNG）和文本文件（TXT、MD）等多种格式。
多模态分析引擎：为图像、表格、公式和普通文本配置专用处理器，确保解析精度。
构建知识图谱索引：自动识别实体与跨模态关联，形成语义网络结构。
高度灵活的架构：支持MinerU智能解析与直接插入模式，满足多样场景需求。
跨模态检索能力：实现文本与其他模态内容之间的高效检索，提升信息匹配准确度。

技术实现原理

基于图结构的文本索引：利用LLM从文本中提取实体（节点）及其关系（边），用于构建知识图谱。每个节点和边都生成键值对，键为关键词或短语，值为相关文本段落摘要。同时合并重复实体与关系，提高处理效率。
双层检索体系：
- 低级检索：聚焦特定实体及其属性或关系，适用于需要精准定位的详细查询。
- 高级检索：面向广泛主题，聚合多个实体与关系的信息，提供宏观层面的理解与总结。
- 图与向量结合：融合图结构与向量表示，通过局部和全局关键词优化检索性能和结果相关性。
增强型答案生成机制：基于检索结果，由LLM生成整合数据的答案，涵盖实体名称、描述及原始文本片段，实现用户意图对齐。
复杂性优化策略：在图索引阶段，LLM用于提取实体与关系，无需额外资源消耗；在检索阶段，LLM生成关键词并结合向量搜索，显著降低检索开销。