跳到主要内容

vLLM

捆绑包 (Bundles) 包含支持特定第三方与 Langflow 集成的自定义组件。

本页面介绍了 vLLM 捆绑包中可用的组件。

有关 vLLM 组件使用的 vLLM 特性和功能的更多信息,请参阅 vLLM 文档

vLLM 文本生成 (vLLM text generation)

vLLM 组件通过兼容 OpenAI 的 API 使用 vLLM 模型 生成文本。

vLLM 是一个快速且易于使用的 LLM 推理和服务库。它通过高效的注意力机制和 PagedAttention 提供高吞吐量的服务,使其成为自托管模型部署的理想选择。

该组件连接到本地或远程运行的 vLLM 服务器,并使用兼容 OpenAI 的 API 端点来生成文本响应。

它可以输出 模型响应 (Model Response) (Message) 或 语言模型 (Language Model) (LanguageModel)。

当您想将 vLLM 模型用作另一个由 LLM 驱动的组件(如 代理 (Agent)智能功能 (Smart Function) 组件)的 LLM 时,请使用 语言模型 输出。

有关更多信息,请参阅 语言模型组件

vLLM 文本生成参数

Some parameters are hidden by default in the visual editor. You can modify all parameters through the Controls in the component's header menu.

名称类型描述
api_keySecretString输入参数。用于 vLLM 模型的 API 密钥(本地服务器可选)。
model_nameString输入参数。要使用的 vLLM 模型名称(例如 'ibm-granite/granite-3.3-8b-instruct')。
api_baseString输入参数。vLLM API 服务器的基准 URL。对于本地 vLLM 服务器,默认为 http://localhost:8000/v1。
temperatureFloat输入参数。控制输出的随机性。范围:[0.0, 1.0]。默认值:0.1。
max_tokensInteger输入参数。要生成的最大 token 数。设置为 0 表示无限制。
seedInteger输入参数。控制作业可复现性的种子。默认值:1。
max_retriesInteger输入参数。生成时尝试的最大重试次数。默认值:5。
timeoutInteger输入参数。vLLM 补全 API 请求的超时时间。默认值:700。
model_kwargsDict输入参数。传递给模型的额外关键字参数。
json_modeBoolean输入参数。如果为 True,无论是否传递 schema,都将输出 JSON。

设置 vLLM

要使用 vLLM 组件,您需要运行一个 vLLM 服务器。以下是基本步骤:

  1. 安装 vLLMpip install vllm
  2. 启动 vLLM 服务器

    _10
    python -m vllm.entrypoints.openai.api_server --model <model_name> --port 8000

  3. 配置组件:将 api_base 设置为您的 vLLM 服务器 URL(例如 http://localhost:8000/v1

有关更详细的设置说明,请参阅 vLLM 文档

另请参阅

Search