跳到主要内容

读取文件 (Read File)

在 Langflow 1.7.0 版本中,此组件从 文件 (File) 重命名为 读取文件 (Read File)

读取文件 (Read File) 组件加载并解析文件,将内容转换为 DataDataFrameMessage 对象。 它支持多种文件类型,提供用于并行处理和错误处理的参数,并支持使用 Docling 库进行高级解析。

您可以在可视化编辑器中或在运行时向 读取文件 组件添加文件,并且可以一次上传多个文件。 有关上传文件和在流程中处理文件的更多信息,请参阅 文件管理创建一个可以摄取文件的聊天机器人

文件类型和大小限制

默认情况下,最大文件大小为 1024 MB。 要修改此值,请更改 LANGFLOW_MAX_FILE_SIZE_UPLOAD 环境变量

支持的文件类型

读取文件 组件支持以下文件类型。 使用归档和压缩格式将多个文件捆绑在一起,或使用 目录 (Directory) 组件 加载目录中的所有文件。

  • .bz2
  • .csv
  • .docx
  • .gz
  • .htm
  • .html
  • .json
  • .js
  • .md
  • .mdx
  • .pdf
  • .py
  • .sh
  • .sql
  • .tar
  • .tgz
  • .ts
  • .tsx
  • .txt
  • .xml
  • .yaml
  • .yml
  • .zip

如果您需要加载不支持的文件类型,则必须使用支持该文件类型的其他组件,并且可能在 Langflow 之外进行解析,或者必须在上传之前将其转换为支持的类型。

对于图像,请参阅 上传图像

对于视频,请参阅 Twelve LabsYouTube 捆绑包 (Bundles)

文件参数

Some parameters are hidden by default in the visual editor. You can modify all parameters through the Controls in the component's header menu.

名称显示名称信息
path文件 (Files)输入参数。要加载的文件路径。可以是本地路径或 Langflow 文件管理 中的路径。支持单个文件和捆绑的归档文件。
file_path服务器文件路径 (Server File Path)输入参数。一个带有 file_path 属性(指向 Langflow 文件管理 中的文件)的 Data 对象,或一个带有文件路径的 Message 对象。取代 文件 (Files) (path) 但支持相同的文件类型。
separator分隔符 (Separator)输入参数。在 Message 格式的多个输出之间使用的分隔符。
silent_errors静默错误 (Silent Errors)输入参数。如果为 true,组件中的错误不会抛出异常。默认值:禁用 (false)。
delete_server_file_after_processing处理后删除服务器文件 (Delete Server File After Processing)输入参数。如果为 true(默认值),服务器文件路径 (Server File Path) (file_path) 在处理后将被删除。
ignore_unsupported_extensions忽略不支持的扩展名 (Ignore Unsupported Extensions)输入参数。如果启用 (true),则接受但不处理具有不支持扩展名的文件。如果禁用 (false),如果提供了不支持的文件类型,读取文件 组件可能会抛出错误。默认值为 true
ignore_unspecified_files忽略未指定的文件 (Ignore Unspecified Files)输入参数。如果为 true,则忽略没有 file_path 属性的 Data。如果为 false(默认值),则在未指定文件时组件会报错。
concurrency_multithreading并行处理并发数 (Processing Concurrency)输入参数。如果上传了多个文件,则同时处理的文件数。默认值为 1。大于 1 的值将启用 2 个或更多文件的并行处理。对于单文件上传和高级解析,此参数将被忽略。
advanced_parser高级解析器 (Advanced Parser)输入参数。如果为 true,则启用 高级解析。仅适用于兼容文件类型的单文件上传。默认值:禁用 (false)。

高级解析 (Advanced parsing)

从 Langflow 1.6 版本开始,读取文件 组件支持使用 Docling 库对支持的文件类型进行高级文档解析。

要使用高级解析,请执行以下操作:

  1. 完成以下先决条件(如果适用):

    • 安装 Langflow 1.6 或更高版本:早期版本不支持 读取文件 组件的高级解析。有关升级指南,请参阅 发行说明

    • 在 macOS Intel (x86_64) 上安装 Docling 依赖项:默认情况下,macOS Intel (x86_64) 不安装 Docling 依赖项。请使用 Docling 安装指南 安装 Docling 依赖项。

      对于所有其他操作系统,默认安装 Docling 依赖项。

    • Docker/Linux system dependencies: If running Langflow in a Docker container on Linux, you might need to install additional system packages for document processing. For more information, see Document processing errors in Docker containers.
    • 为 Windows 启用开发人员模式

    If you are running Langflow Desktop on Windows, you must enable Developer Mode to use the Docling components. The location of this setting depends on your Windows OS version. Find For developers in your Windows Settings, or search for "Developer" in the Windows search bar, and then enable Developer mode. You might need to restart your computer or Langflow to apply the change.

    Windows 上的 Langflow 开源版不需要开发人员模式。

  2. 读取文件 组件添加一个有效文件。

    高级解析限制
    • 高级解析仅处理一个文件。 如果您选择多个文件,读取文件 组件仅处理第一个文件,忽略任何其他文件。 要使用高级解析处理多个文件,请将每个文件传递给单独的 读取文件 组件,或使用专门的 Docling 组件

    • 高级解析可以处理除 .csv.xlsx.parquet 文件之外的任何 读取文件 组件支持的文件类型,因为它专为文档处理(例如从 PDF 中提取文本)而设计。 对于结构化数据分析,请使用 解析器 (Parser) 组件

  3. 启用 高级解析 (Advanced Parsing)

  4. 点击 组件页眉菜单 中的 控制 (Controls) 以配置默认隐藏的高级解析参数:

    名称显示名称信息
    pipeline流水线 (Pipeline)输入参数,高级解析。要使用的 Docling 流水线,可以是 standard(默认,推荐)或 vlm(可能产生不一致的结果)。
    ocr_engineOCR 引擎 (OCR Engine)输入参数,高级解析。如果 pipelinestandard,则要使用的 OCR 解析器。选项包括 None(默认)或 EasyOCRNone 表示不使用 OCR 引擎,这可能会导致某些文档的结果不一致或损坏。此设置对 vlm 流水线无效。
    md_image_placeholderMarkdown 图像占位符 (Markdown Image Placeholder)输入参数,高级解析。如果输出类型为 Markdown,则定义图像文件的占位符。默认值:<!-- image -->
    md_page_break_placeholderMarkdown 分页占位符 (Markdown Page Break Placeholder)输入参数,高级解析。如果输出类型为 Markdown,则定义分页符的占位符。默认值:""(空字符串)。
    doc_key文档键 (Document Key)输入参数,高级解析。用于 DoclingDocument 列的键,该列保存从源文档提取的结构化信息。有关详细信息,请参阅 Docling Document。默认值:doc
    提示

    有关其他 Docling 功能(包括其他组件和 OCR 解析器),请使用 Docling 捆绑包

文件输出

读取文件 组件的输出取决于加载的文件数量以及是否启用了高级解析。 如果提供多个选项,您可以在组件的输出端口附近设置输出类型。

如果您在未选择文件的情况下运行 读取文件 组件,它会抛出错误,或者如果启用了 静默错误 (Silent Errors),则不产生任何输出。

Search