什么是 Chunkr ?

Chunkr 是 Lumina AI 推出的开源文档处理 API，专为 RAG（检索增强生成）和知识库场景设计。Chunkr 能将复杂文档（如 PDF、PPT、Word、图片等）转换为结构化数据，支持多格式智能解析。Chunkr 核心功能包括高精度 OCR、语义分块、多格式输出（HTML、Markdown、JSON、纯文本）及与多种 LLM（如 OpenAI、Claude、Ollama 等）的无缝集成。用户能通过云服务快速上手，或用 Docker 在本地部署。Chunkr 在文档问答、企业知识库、OCR 场景和 RAG 系统中表现出色，是文档处理的强大工具。

主要功能

多格式文档解析：支持 PDF、PPT、Word、图片等多种格式，能将复杂文档转换为结构化数据。
高精度 OCR：提取文本的同时保留文字的空间关系和位置信息，支持带边界框的 OCR。
语义分块：自动将文档切分成适合 RAG 和 LLM 的上下文块，便于后续处理。
多格式输出：支持用 HTML、Markdown、JSON 和纯文本等多种格式输出结果。
Python SDK：提供 Python SDK，方便直接集成到 Python 应用或后端服务。
LLM 支持：支持多种本地或远程的 LLM（如 OpenAI、Claude、Ollama 等），能灵活配置。

使用方法

视觉语言模型（VLM）：Chunkr 用视觉语言模型（VLM）理解文档的布局和内容。VLM 结合计算机视觉和自然语言处理技术，能识别文档中的文本、图像、表格等元素，并理解空间关系。基于 VLM，Chunkr 能实现高精度的 OCR 和语义分块，确保文档内容的准确提取和合理切分。
文档布局分析：Chunkr 对文档的布局进行分析，识别文档中的标题、段落、表格、图表等元素的位置和结构。基于布局分析，将文档内容按照逻辑结构进行分块，生成适合 RAG 和 LLM 处理的上下文块。
OCR 技术：Chunkr 用先进的 OCR 技术提取文档中的文本内容，同时保留文本的位置信息和空间关系。OCR 提取的文本和位置信息被用在后续的语义分块和结构化处理。
语义分块：Chunkr 基于自然语言处理技术对提取的文本进行语义分析，将文档内容切分成逻辑上独立的块。每个块包含相关的上下文信息，适合直接用在 RAG 或 LLM 的输入。