Youtube Video Transcript Extraction

工作流概述

这是一个包含4个节点的中等工作流,主要用于自动化处理各种任务。

工作流源代码

下载
{
  "id": "XxkmcgZC4OtIOVoD",
  "meta": {
    "instanceId": "b3c467df4053d13fe31cc98f3c66fa1d16300ba750506bfd019a0913cec71ea3"
  },
  "name": "Youtube Video Transcript Extraction",
  "tags": [],
  "nodes": [
    {
      "id": "686e639a-650d-480d-9887-11bd4140f1fe",
      "name": "YoutubeVideoURL",
      "type": "n8n-nodes-base.formTrigger",
      "position": [
        -20,
        0
      ],
      "webhookId": "156a04c8-917d-4624-a46e-8fbcab89d16b",
      "parameters": {
        "options": {},
        "formTitle": "Youtube Video Transcriber",
        "formFields": {
          "values": [
            {
              "fieldLabel": "Youtube Video Url",
              "requiredField": true
            }
          ]
        }
      },
      "typeVersion": 2.2
    },
    {
      "id": "5384c4ed-a726-4253-8a88-d413124f80be",
      "name": "cleanedTranscript",
      "type": "n8n-nodes-base.set",
      "position": [
        740,
        0
      ],
      "parameters": {
        "options": {},
        "assignments": {
          "assignments": [
            {
              "id": "7653a859-556d-4e00-bafa-6f70f90de0d7",
              "name": "transcript",
              "type": "string",
              "value": "={{ $json.cleanedTranscript }}"
            }
          ]
        }
      },
      "typeVersion": 3.4
    },
    {
      "id": "83b6567f-c931-429c-8d7c-0b2549820ca1",
      "name": "processTranscript",
      "type": "n8n-nodes-base.function",
      "position": [
        500,
        0
      ],
      "parameters": {
        "functionCode": "// Extract and process the transcript
const data = $input.first().json;

if (!data.transcript && !data.text) {
  return {
    json: {
      success: false,
      message: 'No transcript available for this video',
      videoUrl: $input.first().json.body?.videoUrl || 'Unknown'
    }
  };
}

// Process the transcript text
let transcriptText = '';

// Handle different API response formats
if (data.transcript) {
  // Format for array of transcript segments
  if (Array.isArray(data.transcript)) {
    data.transcript.forEach(segment => {
      if (segment.text) {
        transcriptText += segment.text + ' ';
      }
    });
  } else if (typeof data.transcript === 'string') {
    transcriptText = data.transcript;
  }
} else if (data.text) {
  // Format for single transcript object with text property
  transcriptText = data.text;
}

// Clean up the transcript (remove extra spaces, normalize punctuation)
const cleanedTranscript = transcriptText
  .replace(/\s+/g, ' ')
  .replace(/\s([.,!?])/g, '$1')
  .trim();

return {
  json: {
    success: true,
    videoUrl: $input.first().json.body?.videoUrl || 'From transcript',
    rawTranscript: data.text || data.transcript,
    cleanedTranscript,
    duration: data.duration,
    offset: data.offset,
    language: data.lang
  }
};"
      },
      "typeVersion": 1
    },
    {
      "id": "cebf0fd7-6b66-4287-bede-fab53061bed2",
      "name": "extractTranscript",
      "type": "n8n-nodes-base.httpRequest",
      "position": [
        240,
        0
      ],
      "parameters": {
        "url": "https://youtube-transcript3.p.rapidapi.com/api/transcript",
        "options": {},
        "sendBody": true,
        "sendQuery": true,
        "sendHeaders": true,
        "bodyParameters": {
          "parameters": [
            {
              "name": "url",
              "value": "={{ $json['Youtube Video Url'] }}"
            }
          ]
        },
        "queryParameters": {
          "parameters": [
            {
              "name": "videoId",
              "value": "ZacjOVVgoLY"
            }
          ]
        },
        "headerParameters": {
          "parameters": [
            {
              "name": "x-rapidapi-host",
              "value": "youtube-transcript3.p.rapidapi.com"
            },
            {
              "name": "x-rapidapi-key",
              "value": "\"your_api_key\""
            },
            {
              "name": "Content-Type",
              "value": "application/json"
            }
          ]
        }
      },
      "typeVersion": 3
    }
  ],
  "active": false,
  "pinData": {},
  "settings": {
    "executionOrder": "v1"
  },
  "versionId": "084b006b-36f9-46a7-8a0b-7656126b29cd",
  "connections": {
    "YoutubeVideoURL": {
      "main": [
        [
          {
            "node": "extractTranscript",
            "type": "main",
            "index": 0
          }
        ]
      ]
    },
    "extractTranscript": {
      "main": [
        [
          {
            "node": "processTranscript",
            "type": "main",
            "index": 0
          }
        ]
      ]
    },
    "processTranscript": {
      "main": [
        [
          {
            "node": "cleanedTranscript",
            "type": "main",
            "index": 0
          }
        ]
      ]
    }
  }
}

功能特点

  • 自动检测新邮件
  • AI智能内容分析
  • 自定义分类规则
  • 批量处理能力
  • 详细的处理日志

技术分析

节点类型及作用

  • Formtrigger
  • Set
  • Function
  • Httprequest

复杂度评估

配置难度:
★★★☆☆
维护难度:
★★☆☆☆
扩展性:
★★★★☆

实施指南

前置条件

  • 有效的Gmail账户
  • n8n平台访问权限
  • Google API凭证
  • AI分类服务订阅

配置步骤

  1. 在n8n中导入工作流JSON文件
  2. 配置Gmail节点的认证信息
  3. 设置AI分类器的API密钥
  4. 自定义分类规则和标签映射
  5. 测试工作流执行
  6. 配置定时触发器(可选)

关键参数

参数名称 默认值 说明
maxEmails 50 单次处理的最大邮件数量
confidenceThreshold 0.8 分类置信度阈值
autoLabel true 是否自动添加标签

最佳实践

优化建议

  • 定期更新AI分类模型以提高准确性
  • 根据邮件量调整处理批次大小
  • 设置合理的分类置信度阈值
  • 定期清理过期的分类规则

安全注意事项

  • 妥善保管API密钥和认证信息
  • 限制工作流的访问权限
  • 定期审查处理日志
  • 启用双因素认证保护Gmail账户

性能优化

  • 使用增量处理减少重复工作
  • 缓存频繁访问的数据
  • 并行处理多个邮件分类任务
  • 监控系统资源使用情况

故障排除

常见问题

邮件未被正确分类

检查AI分类器的置信度阈值设置,适当降低阈值或更新训练数据。

Gmail认证失败

确认Google API凭证有效且具有正确的权限范围,重新进行OAuth授权。

调试技巧

  • 启用详细日志记录查看每个步骤的执行情况
  • 使用测试邮件验证分类逻辑
  • 检查网络连接和API服务状态
  • 逐步执行工作流定位问题节点

错误处理

工作流包含以下错误处理机制:

  • 网络超时自动重试(最多3次)
  • API错误记录和告警
  • 处理失败邮件的隔离机制
  • 异常情况下的回滚操作