Files
ChouJuGEO/docs/features/MULTIMODAL_FEATURE.md
T
刘国栋 8f7f082c3d feat: 重构项目结构并添加平台同步基础架构
- 重构项目目录结构,将功能模块移至 modules/ 目录
- 创建平台同步基础架构,包括发布器基类和 GitHub 发布器
- 新增 UI 状态管理模块 (modules/ui/state.py) 统一管理会话状态
- 更新依赖配置,添加平台同步所需依赖 (httpx, pyperclip)
- 整理文档结构,将所有文档分类移至 docs/ 目录
- 添加 .cursorrules 文件定义项目开发规范
- 清理根目录重复文件,保持项目结构整洁
2026-01-30 10:21:29 +08:00

8.1 KiB
Raw Blame History

多模态提示生成功能说明

📋 功能概述

多模态提示生成模块是 GEO 工具的高级功能,用于为内容生成详细的配图描述和视频脚本描述,提升内容的视觉吸引力和传播效果。

核心价值

  • 提升内容吸引力:详细的配图描述帮助创作更吸引人的视觉内容
  • 平台适配:针对不同平台(小红书、抖音、微信公众号、B站)生成适配的配图描述
  • 视频脚本支持:为B站等视频平台生成详细的画面描述和镜头语言
  • 品牌融入:配图描述自然融入品牌元素,保持内容一致性

🎯 功能位置

Tab2(自动创作)- 内容生成后

在生成单篇内容后,可以:

  1. 🎨 生成配图/视频描述:一键生成详细的配图描述或视频脚本描述
  2. 📸 配图描述详情:查看每个配图的详细描述(风格、色调、构图、关键元素等)
  3. 🎬 视频脚本描述:查看视频片段的画面描述、镜头语言、音效建议等

🔄 工作流程

配图描述生成流程

  1. 内容生成

    • 在 Tab2 生成内容(小红书、抖音、微信公众号等支持配图的平台)
    • 内容中应包含配图占位符(【配图:xxx】)
  2. 生成配图描述

    • 点击"🎨 生成配图/视频描述"按钮
    • 系统自动识别内容中的配图占位符
    • 为每个配图位置生成详细的配图描述
  3. 查看配图描述

    • 查看每个配图的详细描述
    • 了解配图的风格、色调、构图、关键元素等
    • 根据描述进行图片创作或使用AI生图工具

视频脚本描述生成流程

  1. 内容生成

    • 在 Tab2 生成 B站视频脚本内容
  2. 生成视频脚本描述

    • 点击"🎨 生成配图/视频描述"按钮
    • 系统自动识别为视频平台
    • 为内容片段生成详细的画面描述
  3. 查看视频脚本描述

    • 查看每个片段的画面描述
    • 了解镜头类型、镜头运动、转场、音效建议等
    • 根据描述进行视频拍摄或制作

📊 配图描述内容

描述维度

  1. 详细描述

    • 图片应该包含的主要元素(人物、物品、场景等)
    • 图片的风格(写实、插画、图表、截图等)
    • 图片的色调和氛围(明亮、专业、温馨等)
    • 图片的构图(居中、左右布局、上下布局等)
  2. 平台适配

    • 小红书:生活化、美观、有吸引力
    • 抖音:视觉冲击力强、简洁明了
    • 微信公众号:专业、清晰、符合文章风格
    • B站:适合视频封面、有动感
  3. 品牌融入

    • 如果内容涉及品牌,配图应自然融入品牌元素
    • 但不要过于商业化,保持自然

输出格式

每个配图描述包含:

  • 位置:在内容中的位置描述
  • 原始提示:内容中的原始配图提示
  • 详细描述50-150字的详细配图描述
  • 风格:写实/插画/图表/截图等
  • 色调:明亮/专业/温馨/商务等
  • 构图:居中/左右/上下等
  • 关键元素:图片应包含的主要元素列表
  • 平台特定要求:针对平台的特定要求

🎬 视频脚本描述内容

描述维度

  1. 画面描述

    • 画面应该展示的内容(场景、人物、物品、动作等)
    • 画面类型(实拍、动画、截图、演示等)
    • 画面节奏(快切、慢镜头、定格等)
  2. 镜头语言

    • 镜头类型(特写、中景、全景等)
    • 镜头运动(推拉、摇移、跟随等)
    • 画面转场(切换、淡入淡出、划入等)
  3. 音效和字幕

    • 建议的音效(背景音乐、音效等)
    • 字幕要点(关键信息、强调内容)
  4. 时长建议

    • 该片段的建议时长(秒)

输出格式

每个视频片段描述包含:

  • 时间戳:片段的时间范围(如"00:30-01:00"
  • 画面描述:详细的画面内容描述
  • 镜头类型:特写/中景/全景等
  • 镜头运动:推拉/摇移/跟随/固定等
  • 转场:切换/淡入淡出/划入等
  • 音效建议:背景音乐、音效等建议
  • 字幕要点:关键信息列表
  • 建议时长:片段时长(秒)

🖼️ 生图API集成(可选功能)

支持的生图模型

模块已集成以下生图API支持(可选使用):

  1. OpenAI DALL-E 3

    • 需要:OpenAI API Key
    • 特点:高质量、支持中文提示词
    • 使用:generate_image_with_dalle()
  2. Stable Diffusion

    • 需要:本地部署或API服务
    • 特点:开源、可定制
    • 使用:generate_image_with_stable_diffusion()
  3. 通义万相(阿里云)

    • 需要:阿里云 API Key
    • 特点:国内服务、速度快
    • 使用:generate_image_with_tongyi()

使用生图API

from multimodal_prompt import MultimodalPromptGenerator

generator = MultimodalPromptGenerator()

# 使用 DALL-E 3 生成图片
result = generator.generate_image_with_dalle(
    description="一个专业的外贸ERP软件界面截图",
    api_key="your-openai-api-key",
    size="1024x1024",
    quality="hd"
)

if result["success"]:
    image_url = result["image_url"]
    # 使用图片URL

💡 使用建议

配图描述使用

  1. 内容创作时添加占位符

    • 在生成内容时,系统会自动在某些平台添加配图占位符
    • 也可以手动在内容中添加【配图:xxx】格式的占位符
  2. 生成详细描述

    • 内容生成后,点击"生成配图/视频描述"按钮
    • 系统会为每个占位符生成详细的配图描述
  3. 使用描述创作图片

    • 根据详细描述,使用设计工具或AI生图工具创作图片
    • 或使用集成的生图API直接生成图片

视频脚本使用

  1. 生成B站视频脚本

    • 在 Tab2 选择"B站(视频脚本)"平台生成内容
  2. 生成视频脚本描述

    • 内容生成后,点击"生成配图/视频描述"按钮
    • 系统会自动识别为视频平台并生成画面描述
  3. 使用描述制作视频

    • 根据画面描述进行视频拍摄或制作
    • 参考镜头语言、转场、音效建议等

⚠️ 注意事项

  1. 需要 LLM:多模态提示生成功能需要配置生成 LLM 的 API Key
  2. API 调用:生成过程会调用 LLM API,注意 API 费用
  3. 配图占位符:内容中需要包含【配图:xxx】格式的占位符才能生成配图描述
  4. 平台识别:系统会自动识别平台类型(配图平台或视频平台)
  5. 生图API:生图API功能是可选的,需要额外配置API Key

🔗 相关功能

  • 内容生成:在 Tab2 生成包含配图占位符的内容
  • 内容质量评分:在 Tab2 评估内容质量
  • E-E-A-T 强化:在 Tab2 强化内容的专业性

🎯 最佳实践

  1. 合理使用占位符

    • 在关键位置添加配图占位符(如开头、重点段落、结尾)
    • 占位符提示要简洁明了(如"【配图:产品界面】")
  2. 平台适配

    • 不同平台的配图风格不同,系统会自动适配
    • 小红书:生活化、美观
    • 抖音:视觉冲击力强
    • 微信公众号:专业、清晰
  3. 品牌融入

    • 配图描述会自然融入品牌元素
    • 但不要过于商业化,保持自然
  4. 使用AI生图工具

    • 根据详细描述使用AI生图工具(如DALL-E、Midjourney等)
    • 或使用集成的生图API直接生成图片
  5. 视频制作

    • 根据视频脚本描述进行视频拍摄或制作
    • 参考镜头语言、转场、音效建议等

📈 预期效果

短期效果

  • 提升内容吸引力:详细的配图描述帮助创作更吸引人的视觉内容
  • 提升传播效果:图文并茂的内容更容易被用户分享
  • 提升专业度:详细的视频脚本描述提升视频制作的专业度

长期效果

  • 建立视觉风格:通过统一的配图描述建立品牌视觉风格
  • 提升内容质量:多模态内容提升整体内容质量
  • 增强品牌识别:品牌元素自然融入配图,增强品牌识别度

版本v1.0
更新日期2025-01-26