跳到主要内容

AssemblyAI

AssemblyAI 组件允许您将强大的语音 AI 模型应用于您的应用程序,以完成以下任务:

  • 转录音频和视频文件
  • 格式化转录文本
  • 生成字幕
  • 将 LLM 应用于音频文件

有关 AssemblyAI 组件使用的 AssemblyAI 特性和功能的更多信息,请参阅 AssemblyAI API 文档

先决条件

  • 一个 AssemblyAI 账户 和一个 AssemblyAI API 密钥。

    在所有需要 AssemblyAI 密钥的 Langflow 组件的 AssemblyAI API Key 字段中输入该密钥。

  • 可选:要使用 LeMUR,您需要一个付费的 AssemblyAI 账户,因为 LeMUR 不包含在免费账户中。

组件

AssemblyAI 组件

AssemblyAI 开始转录 (AssemblyAI Start Transcript)

该组件允许您提交音频或视频文件进行转录。

提示:您可以冻结此组件的路径,以便仅提交一次文件。

  • 输入

    • AssemblyAI API Key:您的 API 密钥。
    • Audio File:要转录的音频或视频文件。
    • Speech Model (可选):选择模型类别。默认为 Best。有关更多信息,请参阅 语音模型
    • Automatic Language Detection (可选):启用自动语言检测。
    • Language (可选):音频文件的语言。如果禁用了自动语言检测,可以手动设置。 有关支持的语言代码列表,请参阅 支持的语言
    • Enable Speaker Labels (可选):检测音频文件中的说话人及其所说内容。
    • Expected Number of Speakers (可选):如果启用了说话人标签,请设置预期的说话人数量。
    • Audio File URL (可选):要转录的音频或视频文件的 URL。可以用来代替 Audio File
    • Punctuate (可选):应用标点符号。默认为 true
    • Format Text (可选):应用大小写和文本格式。默认为 true
  • 输出

    • Transcript ID:转录文本的 ID。

AssemblyAI 轮询转录 (AssemblyAI Poll Transcript)

该组件允许您轮询转录文本。它每隔几秒钟检查一次转录状态,直到转录完成。

  • 输入

    • AssemblyAI API Key:您的 API 密钥。
    • Polling Interval (可选):轮询间隔(以秒为单位)。默认为 3。
  • 输出

    • Transcription Result:已完成转录的 AssemblyAI JSON 响应。包含文本和其他信息。

AssemblyAI 获取字幕 (AssemblyAI Get Subtitles)

该组件允许您生成 SRT 或 VTT 格式的字幕。

  • 输入

    • AssemblyAI API Key:您的 API 密钥。
    • Transcription Result:轮询转录 (Poll Transcript) 组件的输出。
    • Subtitle Format:字幕格式(SRT 或 VTT)。
    • Character per Caption (可选):每条字幕的最大字符数(0 表示无限制)。
  • 输出

    • Subtitles:包含 SRT 或 VTT 格式字幕的 subtitles 字段的 JSON 响应。

AssemblyAI LeMUR

该组件允许您使用 AssemblyAI LeMUR 框架 将大语言模型应用于语音数据。

LeMUR 会自动摄取转录文本作为额外上下文,从而轻松将 LLM 应用于音频数据。您可以将其用于总结音频、提取见解或提出问题等任务。

  • 输入

    • AssemblyAI API Key:您的 API 密钥。
    • Transcription Result:轮询转录 (Poll Transcript) 组件的输出。
    • Input Prompt:提示模型的文本。您可以在此字段中键入提示,或将其连接到 提示模板 (Prompt Template) 组件。
    • Final Model:执行压缩后用于最终提示的模型。默认为 Claude 3.5 Sonnet。
    • Temperature (可选):用于模型的温度。默认为 0.0。
    • Max Output Size (可选):最大输出大小(以 token 为单位),最高 4000。默认为 2000。
    • Endpoint (可选):要使用的 LeMUR 端点。默认为 "task"。对于 "summary" 和 "question-answer",不需要提示输入。有关更多信息,请参阅 LeMUR API 文档
    • Questions (可选):以逗号分隔的问题列表。仅在 Endpoint 为 "question-answer" 时使用。
    • Transcript IDs (可选):以逗号分隔的转录文本 ID 列表。LeMUR 可以对多个转录文本执行操作。如果提供,则忽略 Transcription Result
  • 输出

    • LeMUR Response:生成的 LLM 响应。

AssemblyAI 列出转录文本 (AssemblyAI List Transcripts)

该组件可作为独立组件使用,以列出所有先前生成的转录文本。

  • 输入

    • AssemblyAI API Key:您的 API 密钥。
    • Limit (可选):要检索的转录文本的最大数量。默认为 20,使用 0 表示全部。
    • Filter (可选):按转录状态过滤。
    • Created On (可选):仅获取在此日期 (YYYY-MM-DD) 创建的转录文本。
    • Throttled Only (可选):仅获取受限的转录文本,覆盖状态过滤器。
  • 输出

    • Transcript List:包含转录 ID、状态和数据等信息的转录文本列表。

流程处理

  1. 用户输入音频或视频文件。
  2. 用户也可以输入 LLM 提示词。在本例中,我们要生成转录文本的摘要。
  3. 流程提交音频文件进行转录。
  4. 流程每隔几秒钟检查一次转录状态,直到转录完成。
  5. 流程解析转录结果并输出转录后的文本。
  6. 流程同时生成字幕。
  7. 流程应用 LLM 提示词以生成摘要。
  8. 作为一个独立的组件,可以列出所有转录文本。

运行转录和语音 AI 流程

  1. 手动构建流程或导入预构建的 JSON 文件:

  2. 在所有需要密钥的组件(开始转录轮询转录获取字幕LeMUR列出转录文本)中输入您的 AssemblyAI API 密钥。

  3. 开始转录 (Start Transcript) 组件选择音频或视频文件。

    可选:在向 开始转录 组件添加文件后,运行并 冻结该组件,这样无论您运行多少次流程,都只需提交一次文件。 为此,点击 运行组件 (Run component) 以预加载文件,然后点击 显示更多 (Show More) 并选择 冻结 (Freeze) 以锁定结果。 后续流程运行将使用冻结组件的缓存输出。

  4. 通过点击 解析器 (Parser) 组件上的 运行组件 (Run component) 来测试转录。确保指定的模板是 {text}

    运行一个组件会同时运行所有上游组件以及所选组件,然后停止流程运行。 在这种情况下,开始转录轮询转录 组件位于 解析器 组件的上游。 如果您冻结了 开始转录 组件,流程将发送来自 开始转录 的缓存输出,运行 轮询转录 组件以获取转录结果。 检查流程日志或检查 解析器 组件的输出以查看转录文本结果。

  5. 要生成字幕并运行完整流程,请在 列出转录文本 (List Transcript) 组件上点击 运行组件 (Run component)

自定义

可以通过以下方式自定义流程:

  1. 修改 开始转录 组件中的参数。
  2. 修改 获取字幕 组件中的字幕格式。
  3. 修改 LeMUR 组件输入的 LLM 提示词。
  4. 修改 LeMUR 组件中的 LLM 参数(例如,温度)。

故障排除

如果您遇到问题:

  1. 确保在所有需要密钥的组件中正确设置了 API 密钥。
  2. 要使用 LeMUR,您需要升级您的 AssemblyAI 账户,因为免费账户不包含此功能。
  3. 验证流程中所有组件是否已正确连接。
  4. 查看 Langflow 日志以获取任何错误消息。
  5. 查看 AssemblyAI API 文档
  6. 联系 AssemblyAI 支持
Search