Files
ChouJuGEO/docs/features/TONGYI_WANXIANG_IMAGE_GENERATION.md
T
刘国栋 8f7f082c3d feat: 重构项目结构并添加平台同步基础架构
- 重构项目目录结构,将功能模块移至 modules/ 目录
- 创建平台同步基础架构,包括发布器基类和 GitHub 发布器
- 新增 UI 状态管理模块 (modules/ui/state.py) 统一管理会话状态
- 更新依赖配置,添加平台同步所需依赖 (httpx, pyperclip)
- 整理文档结构,将所有文档分类移至 docs/ 目录
- 添加 .cursorrules 文件定义项目开发规范
- 清理根目录重复文件,保持项目结构整洁
2026-01-30 10:21:29 +08:00

7.2 KiB
Raw Blame History

通义万相图片生成功能说明

📋 功能概述

通义万相图片生成功能是 GEO 工具的高级功能,用于为文章内容自动生成高质量配图,并智能嵌入到 Markdown 格式的文章中,实现"图文结合"的完整内容输出。

核心价值

  • 2026 年 AI 搜索多模态化趋势:图文结合内容更容易被优先抽取和展示
  • 通义万相中文理解极强:直接用中文 Prompt 效果最佳,人物/文字渲染优秀,合规性高
  • 一键完成全流程:文本 → 配图 Prompt → 生成图片 → 嵌入文章
  • 智能插入位置:自动推荐最佳图片插入位置,避免生硬插入

🎯 功能位置

Tab2(自动创作)- 内容生成后

在生成内容后,可以:

  1. 🎨 生成配图/视频描述:一键生成详细的配图描述
  2. 🖼️ 生成配图(通义万相):基于配图描述生成实际图片
  3. 📄 图文结合版本:查看并下载包含图片的完整 Markdown 文章

⚙️ 配置要求

1. 获取通义万相 API Key

  1. 访问 阿里云 DashScope
  2. 开通通义万相服务
  3. 获取 API Key(免费额度每天 100-300 张)

2. 在工具中配置

  1. 打开侧边栏 ⚙️ 全局配置
  2. 找到 🖼️ 通义万相(图片生成) 部分
  3. 输入你的 API Key
  4. 点击 应用配置

🔄 使用流程

方式一:基于配图占位符生成

  1. 生成内容

    • 在 Tab2 生成内容(小红书、抖音、微信公众号等支持配图的平台)
    • 内容中应包含配图占位符(【配图:xxx】)
  2. 生成配图描述

    • 点击"🎨 生成配图/视频描述"按钮
    • 系统自动识别内容中的配图占位符
    • 为每个配图位置生成详细的配图描述
  3. 生成图片

    • 点击"🎨 生成配图(通义万相)"按钮
    • 系统为每个配图描述生成对应的图片(每张约需 5-15 秒)
    • 自动将图片嵌入到 Markdown 文章中
  4. 查看和下载

    • 查看生成的图片预览
    • 查看完整的图文结合版本(Markdown 格式)
    • 下载 .md 文件或直接复制发布

方式二:直接生成配图(无需占位符)

  1. 生成内容

    • 在 Tab2 生成任意内容
  2. 直接生成配图

    • 即使没有配图占位符,也可以直接生成配图
    • 选择生成数量(1-2 张)
    • 点击"🎨 直接生成配图"按钮
    • 系统会基于文章内容自动生成合适的配图
  3. 查看和下载

    • 查看生成的图片预览
    • 查看完整的图文结合版本
    • 下载或复制发布

📊 功能特性

1. 高质量中文 Prompt 生成

  • 自动分析文章主题、核心观点和品牌元素
  • 生成 60-120 字的详细中文 Prompt
  • 根据文章调性自动判断风格(科技感/写实/插画/未来主义)
  • 自然融入品牌元素,确保合规

2. 智能图片插入位置

  • 自动推荐最佳插入点(标题后、关键段落后、结尾总结图等)
  • 避免生硬插入,提升阅读体验
  • 支持手动调整插入位置

3. 图片嵌入 Markdown

  • 自动将图片 URL 嵌入到 Markdown 格式中
  • 格式:![alt_text](image_url)
  • 支持多张图片智能分布
  • 保持文章原有结构和格式

4. 图片预览和管理

  • 实时预览生成的图片
  • 显示每张图片的 Prompt 和 URL
  • 支持下载图片或上传到图床
  • 一键替换原内容为图文版本

💡 使用建议

配图数量建议

  • 小红书3-5 张配图,生活化、美观
  • 知乎2-3 张配图,专业、清晰
  • 微信公众号2-4 张配图,符合文章风格
  • CSDN1-3 张配图,技术图表、流程图
  • B站1-2 张配图,适合视频封面

Prompt 优化建议

  • 系统会自动生成高质量的 Prompt,但也可以手动修改
  • 建议在生成前先查看配图描述,确认是否符合预期
  • 如需重新生成,可以修改 Prompt 后手动调用

图片保存建议

  • 图片 URL 为阿里云临时链接,建议:
    • 及时下载保存
    • 上传到图床(如七牛云、又拍云等)
    • 避免链接失效导致图片丢失

平台适配建议

系统会根据平台自动选择最合适的图片比例:

  • 文章类平台(16:9 横图)

    • 知乎、微信公众号、CSDN、头条号、百家号、网易号、企鹅号、新浪新闻、搜狐号、一点号、东方财富、原创力文档、邦阅网、新浪博客、简书、GitHub
    • 尺寸:1344*768(16:9比例,适合文章配图)
  • 社交类平台(1:1 方图)

    • 小红书、QQ空间
    • 尺寸:1024*1024(1:1比例,适合社交分享)
  • 短视频平台(9:16 竖图)

    • 抖音图文
    • 尺寸:768*1344(9:16比例,适合竖屏展示)
  • 视频类平台(16:9 横图)

    • B站
    • 尺寸:1344*768(16:9比例,适合视频封面)

注意:系统会自动根据选择的平台设置合适的图片比例,无需手动配置。

⚠️ 注意事项

  1. API Key 安全

    • API Key 存储在本地 config.json 文件中(已在 .gitignore 中)
    • 不要将 API Key 提交到代码仓库
  2. 生成时间

    • 每张图片生成约需 5-15 秒
    • 批量生成时请耐心等待
    • 建议显示加载提示,避免重复点击
  3. 免费额度

    • 通义万相免费额度每天 100-300 张
    • 超出后需要付费使用
    • 建议合理控制生成数量
  4. 图片链接

    • 图片 URL 为临时链接,可能有时效性
    • 建议及时下载或上传到图床
    • 避免依赖临时链接长期使用
  5. 合规性

    • 系统会自动过滤敏感词
    • 如生成失败,可能是内容不合规
    • 建议修改 Prompt 后重新生成

🔧 技术实现

API 调用

使用阿里云 DashScope SDK

from dashscope import ImageSynthesis

dashscope.api_key = api_key
response = ImageSynthesis.call(
    model="wanx-v1",
    prompt=prompt,
    n=1,
    size="1024*1024"
)

Prompt 生成

使用 LLM 生成高质量中文 Prompt:

prompt = multimodal_gen.generate_tongyi_image_prompt(
    content=content,
    brand=brand,
    llm_chain=llm_chain
)

图片嵌入

自动将图片嵌入到 Markdown 中:

final_content = multimodal_gen.embed_images_in_markdown(
    content=original_content,
    image_data=generated_images
)

📚 相关文档

🆘 常见问题

Q: 为什么生成失败?

A: 可能的原因:

  • API Key 未配置或配置错误
  • 免费额度已用完
  • Prompt 内容不合规
  • 网络连接问题

Q: 图片链接失效怎么办?

A: 建议:

  • 及时下载图片保存
  • 上传到图床服务
  • 使用永久链接替换临时链接

Q: 可以生成多少张图片?

A:

  • 免费额度每天 100-300 张
  • 建议单篇文章生成 1-5 张
  • 超出额度需要付费

Q: 如何修改图片 Prompt

A:

  • 在生成配图描述后,可以查看和修改 Prompt
  • 修改后可以重新生成图片
  • 建议保持 Prompt 与文章内容相关