AssemblyAI

AssemblyAI 组件允许您将强大的语音 AI 模型应用于您的应用程序，以完成以下任务：

转录音频和视频文件
格式化转录文本
生成字幕
将 LLM 应用于音频文件

有关 AssemblyAI 组件使用的 AssemblyAI 特性和功能的更多信息，请参阅 AssemblyAI API 文档。

先决条件

一个 AssemblyAI 账户和一个 AssemblyAI API 密钥。

在所有需要 AssemblyAI 密钥的 Langflow 组件的 AssemblyAI API Key 字段中输入该密钥。
可选：要使用 LeMUR，您需要一个付费的 AssemblyAI 账户，因为 LeMUR 不包含在免费账户中。

组件

AssemblyAI 组件

AssemblyAI 开始转录 (AssemblyAI Start Transcript)

该组件允许您提交音频或视频文件进行转录。

提示：您可以冻结此组件的路径，以便仅提交一次文件。

输入：
- AssemblyAI API Key：您的 API 密钥。
- Audio File：要转录的音频或视频文件。
- Speech Model (可选)：选择模型类别。默认为 Best。有关更多信息，请参阅语音模型。
- Automatic Language Detection (可选)：启用自动语言检测。
- Language (可选)：音频文件的语言。如果禁用了自动语言检测，可以手动设置。有关支持的语言代码列表，请参阅支持的语言。
- Enable Speaker Labels (可选)：检测音频文件中的说话人及其所说内容。
- Expected Number of Speakers (可选)：如果启用了说话人标签，请设置预期的说话人数量。
- Audio File URL (可选)：要转录的音频或视频文件的 URL。可以用来代替 Audio File。
- Punctuate (可选)：应用标点符号。默认为 true。
- Format Text (可选)：应用大小写和文本格式。默认为 true。
输出：
- Transcript ID：转录文本的 ID。

AssemblyAI 轮询转录 (AssemblyAI Poll Transcript)

该组件允许您轮询转录文本。它每隔几秒钟检查一次转录状态，直到转录完成。

输入：
- AssemblyAI API Key：您的 API 密钥。
- Polling Interval (可选)：轮询间隔（以秒为单位）。默认为 3。
输出：
- Transcription Result：已完成转录的 AssemblyAI JSON 响应。包含文本和其他信息。

AssemblyAI 获取字幕 (AssemblyAI Get Subtitles)

该组件允许您生成 SRT 或 VTT 格式的字幕。

输入：
- AssemblyAI API Key：您的 API 密钥。
- Transcription Result：轮询转录 (Poll Transcript) 组件的输出。
- Subtitle Format：字幕格式（SRT 或 VTT）。
- Character per Caption (可选)：每条字幕的最大字符数（0 表示无限制）。
输出：
- Subtitles：包含 SRT 或 VTT 格式字幕的 subtitles 字段的 JSON 响应。

AssemblyAI LeMUR

该组件允许您使用 AssemblyAI LeMUR 框架将大语言模型应用于语音数据。

LeMUR 会自动摄取转录文本作为额外上下文，从而轻松将 LLM 应用于音频数据。您可以将其用于总结音频、提取见解或提出问题等任务。

输入：
- AssemblyAI API Key：您的 API 密钥。
- Transcription Result：轮询转录 (Poll Transcript) 组件的输出。
- Input Prompt：提示模型的文本。您可以在此字段中键入提示，或将其连接到 提示模板 (Prompt Template) 组件。
- Final Model：执行压缩后用于最终提示的模型。默认为 Claude 3.5 Sonnet。
- Temperature (可选)：用于模型的温度。默认为 0.0。
- Max Output Size (可选)：最大输出大小（以 token 为单位），最高 4000。默认为 2000。
- Endpoint (可选)：要使用的 LeMUR 端点。默认为 "task"。对于 "summary" 和 "question-answer"，不需要提示输入。有关更多信息，请参阅 LeMUR API 文档。
- Questions (可选)：以逗号分隔的问题列表。仅在 Endpoint 为 "question-answer" 时使用。
- Transcript IDs (可选)：以逗号分隔的转录文本 ID 列表。LeMUR 可以对多个转录文本执行操作。如果提供，则忽略 Transcription Result。
输出：
- LeMUR Response：生成的 LLM 响应。

AssemblyAI 列出转录文本 (AssemblyAI List Transcripts)

该组件可作为独立组件使用，以列出所有先前生成的转录文本。

输入：
- AssemblyAI API Key：您的 API 密钥。
- Limit (可选)：要检索的转录文本的最大数量。默认为 20，使用 0 表示全部。
- Filter (可选)：按转录状态过滤。
- Created On (可选)：仅获取在此日期 (YYYY-MM-DD) 创建的转录文本。
- Throttled Only (可选)：仅获取受限的转录文本，覆盖状态过滤器。
输出：
- Transcript List：包含转录 ID、状态和数据等信息的转录文本列表。

流程处理

用户输入音频或视频文件。
用户也可以输入 LLM 提示词。在本例中，我们要生成转录文本的摘要。
流程提交音频文件进行转录。
流程每隔几秒钟检查一次转录状态，直到转录完成。
流程解析转录结果并输出转录后的文本。
流程同时生成字幕。
流程应用 LLM 提示词以生成摘要。
作为一个独立的组件，可以列出所有转录文本。

运行转录和语音 AI 流程

手动构建流程或导入预构建的 JSON 文件：
- 推荐：下载 AssemblyAI 转录和语音 AI 流程 JSON，然后将流程导入到 Langflow。
- 创建一个空白流程，然后将前面描述的组件添加到您的流程中，按照流程图所示连接它们。
在所有需要密钥的组件（开始转录、轮询转录、获取字幕、LeMUR、列出转录文本）中输入您的 AssemblyAI API 密钥。
为 开始转录 (Start Transcript) 组件选择音频或视频文件。

可选：在向 开始转录 组件添加文件后，运行并冻结该组件，这样无论您运行多少次流程，都只需提交一次文件。为此，点击 运行组件 (Run component) 以预加载文件，然后点击 显示更多 (Show More) 并选择 冻结 (Freeze) 以锁定结果。后续流程运行将使用冻结组件的缓存输出。
通过点击 解析器 (Parser) 组件上的 运行组件 (Run component) 来测试转录。确保指定的模板是 {text}。

运行一个组件会同时运行所有上游组件以及所选组件，然后停止流程运行。在这种情况下，开始转录 和 轮询转录 组件位于 解析器 组件的上游。如果您冻结了 开始转录 组件，流程将发送来自 开始转录 的缓存输出，运行 轮询转录 组件以获取转录结果。检查流程日志或检查 解析器 组件的输出以查看转录文本结果。
要生成字幕并运行完整流程，请在 列出转录文本 (List Transcript) 组件上点击 运行组件 (Run component)。

自定义

可以通过以下方式自定义流程：

修改 开始转录 组件中的参数。
修改 获取字幕 组件中的字幕格式。
修改 LeMUR 组件输入的 LLM 提示词。
修改 LeMUR 组件中的 LLM 参数（例如，温度）。

故障排除

如果您遇到问题：

确保在所有需要密钥的组件中正确设置了 API 密钥。
要使用 LeMUR，您需要升级您的 AssemblyAI 账户，因为免费账户不包含此功能。
验证流程中所有组件是否已正确连接。
查看 Langflow 日志以获取任何错误消息。
查看 AssemblyAI API 文档。
联系 AssemblyAI 支持。

先决条件​

组件​

AssemblyAI 开始转录 (AssemblyAI Start Transcript)​

AssemblyAI 轮询转录 (AssemblyAI Poll Transcript)​

AssemblyAI 获取字幕 (AssemblyAI Get Subtitles)​

AssemblyAI LeMUR​

AssemblyAI 列出转录文本 (AssemblyAI List Transcripts)​

流程处理​

运行转录和语音 AI 流程​

自定义​

故障排除​