跳到主要内容

URL

URL 组件从一个或多个 URL 获取内容,处理内容并以各种格式返回。 它以给定的深度递归跟随链接,并支持以纯文本或原始 HTML 格式输出。

URL 参数

Some parameters are hidden by default in the visual editor. You can modify all parameters through the Controls in the component's header menu.

一些可用的参数包括:

名称显示名称信息
urlsURL输入参数。一个或多个要递归爬取的 URL。在可视化编辑器中,单击 添加 URL 以添加多个 URL。
max_depth深度 (Depth)输入参数。控制链接遍历:爬虫将从初始页面离开多少次“点击”。深度为 1 仅限爬取给定 URL 的第一个页面。深度为 2 意味着爬虫爬取第一个页面以及从第一个页面直接链接的每个页面,然后停止。此设置专门控制链接遍历;它不限制 URL 路径段的数量或域名。
prevent_outside防止越域 (Prevent Outside)输入参数。如果启用,则仅爬取与根 URL 相同域名的 URL。这可以防止爬虫访问给定 URL 域名之外的站点,即使它们是从其中一个被爬取的页面链接的。
use_async使用异步 (Use Async)输入参数。如果启用,则使用异步加载,这可以显著提高速度,但可能会使用更多系统资源。
format输出格式 (Output Format)输入参数。设置所需的输出格式为 文本 (Text)HTML。默认值为 文本 (Text)。更多信息请参阅 URL 输出
timeout超时 (Timeout)输入参数。请求的超时时间(以秒为单位)。
headers请求头 (Headers)输入参数。如果身份验证或其他需要,随请求发送的请求头。

额外的输入参数可用于错误处理和编码。

URL 输出

有两个设置可以控制 URL 组件在不同阶段的输出:

  • 输出格式 (Output Format):此可选参数控制从爬取页面提取的内容:

    • 文本 (Text) (默认):组件仅从爬取页面的 HTML 中提取文本。
    • HTML:组件提取爬取页面的整个原始 HTML 内容。
  • 输出数据类型 (Output data type):在组件的输出字段(输出端口附近)中,您可以选择数据传递给其他组件时的结构:

    • 提取的页面 (Extracted Pages):输出一个 DataFrame,将爬取的页面分解为整个页面内容 (text) 和元数据(如 urltitle)的列。
    • 原始内容 (Raw Content):输出一个包含爬取页面整个文本或 HTML 的 Message,包括元数据,作为单个文本块。

当作为流中的标准组件使用时,URL 组件必须连接到接受所选输出数据类型(DataFrameMessage)的组件。 您可以将 URL 组件直接连接到兼容的组件,或者如果数据类型不直接兼容,可以使用 类型转换 (Type Convert) 组件 在将数据传递给其他组件之前将输出转换为另一种类型。

类型转换 (Type Convert) 组件这样的处理组件对于 URL 组件非常有用,因为它可以从爬取的页面中提取大量数据。 例如,如果您只想将特定字段传递给其他组件,可以使用 解析器 (Parser) 组件 在将数据传递给其他组件之前从爬取的页面中仅提取该数据。

在与 代理 (Agent) 组件一起使用 工具模式 (Tool Mode) 时,URL 组件可以直接连接到 代理 (Agent) 组件的 工具 (Tools) 端口,而无需转换数据。 代理根据用户的查询决定是否使用 URL 组件,并且可以直接处理 DataFrameMessage 输出。

Search