GEO 智能内容优化平台

2026-01-23 15:43:03 +08:00
commit cec0543064
13 changed files with 4087 additions and 0 deletions
@@ -0,0 +1,32 @@
 # SQLite 数据库文件
 *.db
 *.sqlite
 *.sqlite3
 # Python
 __pycache__/
 *.py[cod]
 *$py.class
 *.so
 .Python
 env/
 venv/
 ENV/
 .venv
 # Streamlit
 .streamlit/secrets.toml
 # IDE
 .vscode/
 .idea/
 *.swp
 *.swo
 *~
 # OS
 .DS_Store
 Thumbs.db
 # 数据目录（如果使用JSON方式）
 data/
@@ -0,0 +1,10 @@
 [theme]
 base="light"
 primaryColor="#2563EB"
 backgroundColor="#FFFFFF"
 secondaryBackgroundColor="#F7FAFC"
 textColor="#1A202C"
 borderColor="#E2E8F0"
 baseRadius="10"
 buttonRadius="10"
 showSidebarBorder=true
@@ -0,0 +1,365 @@
 # 🚀 GEO 工具高级功能建议
 ## 📋 功能分类
 ### 🧠 一、智能化增强（AI 驱动）
 #### 1. **智能内容质量评分系统** ⭐⭐⭐⭐⭐
 **价值**：自动评估内容是否符合 GEO 原则，提供改进建议
 **功能点**：
 - 自动分析生成内容的结构化程度（标题、清单、FAQ 等）
 - 品牌提及位置和频率评分
 - 内容权威性评估（数据支撑、案例引用）
 - 给出具体的优化建议（如"建议在开头增加结论摘要"）
 - 内容 GEO 分数（0-100分）
 **实现思路**：
 - 使用 LLM 分析内容，输出结构化评分
 - 建立评分标准（结构化、品牌提及、权威性、可引用性）
 - 在内容生成后自动评分，并提供改进建议
 **预期效果**：用户无需手动判断内容质量，系统自动优化
 ---
 #### 2. **智能关键词挖掘与趋势分析** ⭐⭐⭐⭐⭐
 **价值**：发现新的高价值关键词，预测关键词趋势
 **功能点**：
 - 基于行业热点自动挖掘新关键词
 - 分析关键词竞争度（在 AI 中的提及频率）
 - 预测关键词趋势（上升/下降）
 - 推荐高价值低竞争关键词
 - 关键词组合建议（长尾词挖掘）
 **实现思路**：
 - 使用 LLM 分析行业趋势和用户搜索意图
 - 结合历史验证数据，分析关键词效果
 - 提供关键词价值矩阵（高价值/低价值 × 高竞争/低竞争）
 **预期效果**：帮助用户发现蓝海关键词，提升 ROI
 ---
 #### 3. **A/B 测试与内容对比** ⭐⭐⭐⭐
 **价值**：对比不同版本内容的效果，数据驱动优化
 **功能点**：
 - 为同一关键词生成多个版本内容（不同风格、结构）
 - 同时验证多个版本，对比提及率
 - 自动推荐最优版本
 - 记录 A/B 测试历史，建立最佳实践库
 **实现思路**：
 - 在内容生成时支持"生成多个版本"
 - 批量验证不同版本
 - 对比分析提及率、位置等指标
 - 建立内容模板库（基于效果最好的版本）
 **预期效果**：通过数据找到最佳内容策略
 ---
 ### 📊 二、数据洞察增强
 #### 4. **ROI 分析与成本优化** ⭐⭐⭐⭐⭐
 **价值**：量化 GEO 投入产出比，优化成本结构
 **功能点**：
 - 计算每次验证的 API 成本
 - 统计内容生成成本（按平台、按关键词）
 - 分析提及率提升带来的价值（估算）
 - 成本效益分析（哪些关键词/平台 ROI 最高）
 - 预算管理和成本预警
 **实现思路**：
 - 记录每次 API 调用的成本（基于各平台定价）
 - 计算总投入成本
 - 分析提及率提升幅度，估算品牌曝光价值
 - 提供 ROI 报表和优化建议
 **预期效果**：让用户清楚知道投入产出，优化预算分配
 ---
 #### 5. **竞品监控与预警** ⭐⭐⭐⭐
 **价值**：自动监控竞品在 AI 中的表现，及时调整策略
 **功能点**：
 - 定期自动验证竞品提及率
 - 竞品提及率变化趋势
 - 竞品内容策略分析（哪些关键词/平台效果好）
 - 竞品超越预警（当竞品提及率超过自己时）
 - 竞品对比报告（自动生成）
 **实现思路**：
 - 定时任务自动验证竞品
 - 对比分析竞品和自身的数据
 - 识别竞品的优势策略
 - 提供应对建议
 **预期效果**：保持竞争优势，及时应对市场变化
 ---
 #### 6. **内容效果预测模型** ⭐⭐⭐⭐
 **价值**：预测内容发布后的效果，优化内容策略
 **功能点**：
 - 基于历史数据训练预测模型
 - 预测新内容的提及率
 - 预测不同平台的效果差异
 - 推荐最优发布策略（平台组合、发布时间等）
 **实现思路**：
 - 收集历史数据（内容特征、平台、提及率）
 - 使用机器学习模型预测效果
 - 提供预测置信度
 - 持续优化模型准确性
 **预期效果**：在发布前就知道效果，避免无效投入
 ---
 ### 🔄 三、自动化增强
 #### 7. **智能工作流自动化** ⭐⭐⭐⭐⭐
 **价值**：一键完成从关键词到验证的完整流程
 **功能点**：
 - 自定义工作流（关键词生成 → 内容创作 → 自动验证）
 - 定时任务（每天/每周自动验证）
 - 条件触发（当提及率低于阈值时自动优化）
 - 批量处理（一次性处理多个关键词）
 - 工作流模板（保存常用工作流）
 **实现思路**：
 - 创建工作流配置界面
 - 支持条件判断和循环
 - 集成定时任务（使用 APScheduler）
 - 提供工作流执行日志
 **预期效果**：大幅减少重复工作，提升效率
 ---
 #### 8. **内容模板库与最佳实践** ⭐⭐⭐⭐
 **价值**：积累成功经验，复用最佳内容模板
 **功能点**：
 - 自动保存高效果内容为模板
 - 模板分类（按平台、按行业、按效果）
 - 模板搜索和推荐
 - 基于模板快速生成内容
 - 模板效果统计（使用次数、平均提及率）
 **实现思路**：
 - 识别高效果内容（提及率 > 阈值）
 - 提取内容结构作为模板
 - 模板参数化（品牌、优势等可替换）
 - 提供模板管理界面
 **预期效果**：复用成功经验，提升内容质量
 ---
 #### 9. **智能内容去重与相似度检测** ⭐⭐⭐
 **价值**：避免重复内容，确保内容多样性
 **功能点**：
 - 检测新生成内容与历史内容的相似度
 - 自动去重（相似度 > 阈值时提示）
 - 内容多样性分析（确保覆盖不同角度）
 - 推荐内容角度（基于已有内容分析）
 **实现思路**：
 - 使用文本相似度算法（如余弦相似度）
 - 对比新内容与历史内容
 - 提供相似度评分和建议
 **预期效果**：确保内容多样性，避免重复投入
 ---
 ### 🌐 四、平台与集成增强
 #### 10. **多语言支持** ⭐⭐⭐⭐
 **价值**：扩展国际市场，提升品牌全球影响力
 **功能点**：
 - 支持英文、日文等多语言内容生成
 - 多语言关键词挖掘
 - 多语言平台支持（Medium、Dev.to、Reddit 等）
 - 多语言验证（使用海外 AI 平台）
 **实现思路**：
 - 扩展 Prompt 模板支持多语言
 - 添加多语言平台列表
 - 集成海外 AI 平台（Claude、Gemini 等）
 **预期效果**：拓展国际市场，提升全球品牌影响力
 ---
 #### 11. **API 接口与集成** ⭐⭐⭐⭐
 **价值**：与其他系统集成，支持自动化流程
 **功能点**：
 - RESTful API 接口
 - Webhook 支持（内容生成完成时通知）
 - 与 CMS 系统集成
 - 与营销自动化工具集成
 - API 文档和示例代码
 **实现思路**：
 - 使用 FastAPI 创建 API 服务
 - 提供认证和限流
 - 支持异步任务
 - 提供 SDK（Python/JavaScript）
 **预期效果**：支持企业级集成，提升工具价值
 ---
 #### 12. **团队协作与权限管理** ⭐⭐⭐
 **价值**：支持团队使用，提升协作效率
 **功能点**：
 - 多用户支持（注册/登录）
 - 角色权限管理（管理员、编辑、查看者）
 - 内容审核流程
 - 团队数据共享
 - 操作日志和审计
 **实现思路**：
 - 集成用户认证系统（如 Streamlit-Authenticator）
 - 数据库添加用户和权限表
 - 实现基于角色的访问控制
 **预期效果**：支持团队协作，适合企业使用
 ---
 ### 🎯 五、内容质量提升
 #### 13. **内容个性化与定制** ⭐⭐⭐⭐
 **价值**：根据目标受众定制内容风格和角度
 **功能点**：
 - 目标受众画像（技术专家、业务人员、决策者等）
 - 内容风格选择（专业、通俗、故事化等）
 - 内容角度选择（功能对比、使用教程、案例分析等）
 - 个性化内容生成
 **实现思路**：
 - 在 Prompt 中加入受众和风格参数
 - 提供预设的受众模板
 - 根据受众调整内容深度和语言风格
 **预期效果**：提升内容针对性和效果
 ---
 #### 14. **内容结构化增强** ⭐⭐⭐
 **价值**：确保内容符合 GEO 最佳实践
 **功能点**：
 - 自动检查内容结构完整性（标题、摘要、清单、FAQ 等）
 - 结构化建议（缺失部分自动补充）
 - 内容层次优化（确保逻辑清晰）
 - Markdown/HTML 格式优化
 **实现思路**：
 - 使用 LLM 分析内容结构
 - 识别缺失的结构元素
 - 自动生成补充内容
 **预期效果**：确保所有内容都符合 GEO 原则
 ---
 ### 📈 六、高级分析功能
 #### 15. **预测性分析与趋势预测** ⭐⭐⭐⭐
 **价值**：预测未来趋势，提前布局
 **功能点**：
 - 提及率趋势预测（未来 30 天）
 - 关键词热度预测
 - 竞品趋势预测
 - 最佳行动时机推荐
 **实现思路**：
 - 使用时间序列分析（ARIMA、LSTM 等）
 - 分析历史趋势
 - 预测未来变化
 - 提供置信区间
 **预期效果**：提前布局，抢占先机
 ---
 #### 16. **内容关联分析** ⭐⭐⭐
 **价值**：发现内容之间的关联，优化内容策略
 **功能点**：
 - 关键词关联分析（哪些关键词经常一起被提及）
 - 平台关联分析（哪些平台组合效果好）
 - 内容主题聚类
 - 内容网络图可视化
 **实现思路**：
 - 使用关联规则挖掘（Apriori 算法）
 - 构建内容关联图
 - 可视化展示
 **预期效果**：发现隐藏的内容策略规律
 ---
 ## 🎯 推荐优先级（综合价值与实现难度）
 ### 🔥 第一优先级（高价值 + 中等难度）
 1. **智能内容质量评分系统** - 直接提升内容质量
 2. **ROI 分析与成本优化** - 量化价值，优化投入
 3. **智能工作流自动化** - 大幅提升效率
 4. **智能关键词挖掘** - 发现新机会
 ### 🟡 第二优先级（高价值 + 较高难度）
 5. **A/B 测试与内容对比** - 数据驱动优化
 6. **竞品监控与预警** - 保持竞争优势
 7. **内容效果预测模型** - 提前优化策略
 ### 🟢 第三优先级（中等价值）
 8. **内容模板库** - 复用最佳实践
 9. **多语言支持** - 扩展市场
 10. **API 接口** - 企业级集成
 ---
 ## 💡 实施建议
 1. **分阶段实施**：先实现第一优先级功能，验证价值后再扩展
 2. **数据积累**：先运行一段时间，积累足够数据后再做预测和分析
 3. **用户反馈**：根据实际使用情况调整功能优先级
 4. **技术选型**：考虑使用现有开源库（如 scikit-learn 用于预测模型）
 ---
 ## 🚀 快速开始建议
 **第一步**：实现"智能内容质量评分系统"
 - 价值高，实现相对简单
 - 可以立即提升用户体验
 - 为后续功能打下基础
 **第二步**：实现"ROI 分析与成本优化"
 - 帮助用户量化价值
 - 提升工具的商业价值
 - 为定价策略提供依据
 **第三步**：实现"智能工作流自动化"
 - 大幅提升效率
 - 增强用户粘性
 - 差异化竞争优势
@@ -0,0 +1,78 @@
 # SQLite 持久化集成说明
 ## ✅ 已完成的功能
 ### 1. 数据自动保存
 - ✅ **关键词生成**：自动保存到数据库
 - ✅ **内容生成**：每生成一篇文章自动保存
 - ✅ **文章优化**：优化记录自动保存
 - ✅ **验证结果**：验证结果自动保存
 ### 2. 历史记录查看（新增 Tab5）
 - ✅ 统计数据总览（关键词、文章、优化、验证数量）
 - ✅ 历史文章列表和详情查看
 - ✅ 历史优化记录和详情查看
 - ✅ 历史验证结果和可视化
 ## 📁 数据库文件
 - **位置**：`geo_data.db`（项目根目录）
 - **格式**：SQLite 单文件数据库
 - **已添加到**：`.gitignore`（不会提交到版本控制）
 ## 🚀 使用方法
 ### 正常使用
 所有数据会自动保存，无需额外操作。只需正常使用各个功能模块即可。
 ### 查看历史记录
 1. 点击 **"5 历史记录"** Tab
 2. 查看统计数据
 3. 浏览历史文章、优化记录、验证结果
 4. 点击选择框查看详情
 ## 🔧 技术细节
 ### 错误处理
 - 所有数据库操作都包含 try-except 错误处理
 - 即使数据库保存失败，也不会影响主要功能
 - 会显示警告提示，但不会中断流程
 ### 数据存储结构
 - **keywords 表**：关键词列表
 - **articles 表**：生成的文章内容
 - **optimizations 表**：优化记录
 - **verify_results 表**：验证结果
 ## 📊 性能
 - SQLite 是轻量级数据库，性能优秀
 - 单文件存储，易于备份和迁移
 - 支持复杂查询和统计分析
 ## 🔄 数据迁移
 如果需要迁移数据：
 1. 复制 `geo_data.db` 文件即可
 2. 或使用 SQLite 工具导出/导入
 ## ⚠️ 注意事项
 1. **首次运行**：会自动创建数据库文件
 2. **数据持久化**：关闭应用后数据不会丢失
 3. **多品牌支持**：数据按品牌分类存储
 4. **清空功能**：侧边栏的"重置全部结果"只清空 Session State，**不会删除数据库记录**
 ## 🐛 故障排除
 如果遇到数据库相关错误：
 1. 检查是否有写入权限
 2. 检查 `geo_data.db` 文件是否被其他程序占用
 3. 可以删除 `geo_data.db` 文件重新创建（会丢失所有历史数据）
 ## 📝 后续扩展建议
 1. **数据导出**：可以添加导出功能，将数据导出为 CSV/Excel
 2. **数据搜索**：可以添加搜索功能，按关键词搜索历史记录
 3. **数据统计**：可以添加更详细的统计分析
 4. **数据备份**：可以添加定期备份功能
@@ -0,0 +1,94 @@
 # 平台扩展安装说明
 ## 已支持的平台
 ### 基础平台（已包含依赖）
 - DeepSeek
 - OpenAI (GPT)
 - Tongyi (通义千问)
 - Groq
 - Moonshot (Kimi)
 ### 新增平台（需要额外安装）
 #### 1. 豆包（字节跳动）
 **安装命令：**
 ```bash
 pip install 'volcengine-python-sdk[ark]'
 ```
 **API Key 格式：**
 ```
 access_key:secret_key:endpoint_id
 ```
 用冒号分隔三个值：
 - `access_key`: 火山引擎 Access Key
 - `secret_key`: 火山引擎 Secret Key
 - `endpoint_id`: 接入点名称（Endpoint ID）
 **获取方式：**
 1. 访问 [火山引擎官网](https://www.volcengine.com/)
 2. 注册账号并完成实名认证
 3. 在控制台获取 Access Key 和 Secret Key
 4. 创建模型接入点，获取 Endpoint ID
 **使用示例：**
 在侧边栏"生成&优化 LLM"或"验证用LLM"中选择"豆包（字节跳动）"，输入格式化的 API Key。
 ---
 #### 2. 文心一言（百度）
 **安装命令：**
 ```bash
 pip install qianfan
 ```
 **API Key 格式：**
 ```
 app_key:app_secret
 ```
 用冒号分隔两个值：
 - `app_key`: 百度智能云 App Key
 - `app_secret`: 百度智能云 App Secret
 **获取方式：**
 1. 访问 [百度智能云千帆平台](https://cloud.baidu.com/product/qianfan.html)
 2. 注册账号并完成认证
 3. 创建应用，获取 App Key 和 App Secret
 **使用示例：**
 在侧边栏"生成&优化 LLM"或"验证用LLM"中选择"文心一言（百度）"，输入格式化的 API Key。
 ---
 ## 快速安装所有平台
 如果需要使用所有平台，可以运行：
 ```bash
 pip install 'volcengine-python-sdk[ark]' qianfan
 ```
 ---
 ## 注意事项
 1. **API Key 格式**：豆包和文心一言的 API Key 需要使用冒号分隔多个值
 2. **依赖冲突**：某些包可能有版本冲突，如遇到问题请单独安装
 3. **可选安装**：这些平台是可选的，如果不使用可以不安装，不影响其他功能
 ---
 ## 故障排除
 ### 豆包安装失败
 - 确保 Python 版本 >= 3.7
 - Windows 系统可能需要启用长路径支持
 - 尝试：`pip install 'volcengine-python-sdk[ark]' -U`
 ### 文心一言初始化失败
 - 确保已安装 `qianfan` 包
 - 检查 API Key 格式是否正确（app_key:app_secret）
 - 确认环境变量或参数中的 AK/SK 是否正确
@@ -0,0 +1,285 @@
 # 运行命令
 `streamlit run geo_tool.py`
 ---
 # 功能迭代计划
 ## ✅ 已完成功能
 - [x] **数据持久化（SQLite）** - 已完成
  - 关键词、文章、优化记录、验证结果自动保存
  - 历史记录查看功能（Tab5）
  - 详见 `INTEGRATION_NOTES.md`
 - [x] **AI 蒸馏词 - 托词工具** - 已完成
  - 支持三种生成模式：AI生成、托词工具、混合模式
  - 词库管理（编辑、导入、导出）
  - 组合算法（支持10种组合模式）
  - LLM 润色功能（混合模式）
  - 自动去重和相似度过滤
 - [x] **收录平台扩展** - 已完成
  - 新增豆包（字节跳动）支持
  - 新增文心一言（百度）支持
  - API Key 格式提示和验证
  - 详见 `PLATFORM_SETUP.md`
 - [x] **自媒体账号平台扩展** - 已完成
  - 新增微信公众号（长文）支持
  - 新增抖音图文（短内容）支持
  - 新增百家号、网易号、企鹅号、简书支持
  - 每个平台都有专门的 Prompt 模板
  - 支持 Markdown 格式输出
 - [x] **AI 数据报表** - 已完成
  - 自动验证任务（使用历史关键词）
  - 提及率趋势图（按日期展示）
  - 平台贡献度分析（文章平台分布）
  - 关键词效果排名（Top 20）
  - 竞品对比分析（多维度对比）
  - 数据导出功能（CSV 格式）
 ---
 ## 📋 待实现功能（按优先级排序）
 > **优先级说明**：优先级基于对 GEO 效果的直接影响、实现成本和用户价值综合评估。  
 > **调整原则**：优先实现能直接提升 GEO 效果的功能（平台扩展、内容渠道），延后实现辅助性功能（图库）。
 ### 🔥 高优先级（核心功能增强）
 #### 1. 收录平台扩展
 **当前支持：** DeepSeek, OpenAI, Tongyi, Groq, Moonshot
 **待添加平台：**
 - 豆包（字节跳动）- ⭐ 高优先级（用户量大）
 - 文心一言（百度）- ⭐ 高优先级（用户量大）
 - 腾讯元宝 - 需确认 API 可用性
 - 纳米 - 需确认具体 API
 **重要性分析：**
 - ✅ **直接影响 GEO 效果**：更多平台 = 更全面的验证覆盖
 - ✅ **提升验证准确性**：国内主流平台（豆包、文心一言）用户量大，验证结果更有参考价值
 - ✅ **实现成本低**：主要是 API 接入，技术难度不高
 **评估与优化建议：**
 - ⚠️ **需要优化**：
  1. **API 接入优先级**：优先接入豆包、文心一言（用户量大）
  2. **平台分类管理**：按平台类型分类（国内/国外、通用/专业）
  3. **验证成本控制**：支持批量验证时的并发控制，避免 API 费用过高
 **实现建议：**
 - 在 `build_llm` 函数中扩展新平台支持
 - 在侧边栏配置中增加新平台选项
 - 添加平台可用性检测
 ---
 #### 2. 自媒体账号平台扩展
 **当前支持：** 知乎、小红书、CSDN、B站、头条号、GitHub
 **待添加平台：**
 - 微信公众号 - ⭐ 高优先级（用户量大、影响力强）
 - 抖音图文 - ⭐ 高优先级（流量大）
 - 百家号 - 中优先级（百度生态）
 - 网易号 - 中优先级
 - 企鹅号 - 中优先级
 - 简书 - 低优先级
 **重要性分析：**
 - ✅ **扩大内容投放渠道**：更多平台 = 更多曝光机会
 - ✅ **提升品牌影响力**：微信公众号、抖音等平台用户量大
 - ✅ **实现成本中等**：主要是 Prompt 模板和格式转换
 **评估与优化建议：**
 - ⚠️ **需要优化**：
  1. **平台特性差异**：
     - 微信公众号：需要特殊格式（富文本、排版）
     - 抖音图文：图片为主，文字为辅
     - 百家号/网易号/企鹅号：可能有字数限制、格式要求
  2. **内容适配策略**：
     - 为每个平台创建专门的 Prompt 模板
     - 支持平台特定的格式要求（如微信公众号的 Markdown 转 HTML）
  3. **发布功能（可选）**：
     - 初期只生成内容，后续可考虑接入各平台 API 实现自动发布
 **实现建议：**
 - 扩展 `platforms` 列表
 - 为每个平台创建专门的 Prompt 模板
 - 添加平台格式转换功能（如 Markdown → HTML）
 ---
 #### 3. 稿件记录（数据持久化）
 **功能描述：**
 - 保留所有的稿件记录
 **状态：** ✅ **已完成**
 - 已实现 SQLite 数据持久化
 - 支持关键词、文章、优化记录、验证结果的保存和查看
 - 详见 `INTEGRATION_NOTES.md`
 **后续扩展建议：**
 - 数据导出功能（CSV/Excel）
 - 数据搜索功能（按关键词搜索历史记录）
 - 更详细的统计分析
 - 数据备份功能
 ---
 ### 🟡 中优先级（功能扩展）
 #### 4. AI 数据报表
 **功能描述：**
 - 系统自动模拟用户提问
 - 收录结果实时同步至 AI 数据报表
 - 清晰展示哪些词已被引用、哪些平台贡献了曝光
 **重要性分析：**
 - ✅ **监控 GEO 效果**：自动化监控，数据可视化
 - ✅ **指导优化方向**：通过数据反馈优化内容策略
 - ⚠️ **实现成本较高**：需要定时任务、数据可视化等
 **评估与优化建议：**
 - ⚠️ **需要优化**：
  1. **模拟提问的策略**：
     - 定期自动验证（如每天/每周）
     - 支持自定义验证频率
     - 记录历史趋势（提及率变化）
  2. **数据存储**：
     - 使用数据库（SQLite）存储历史数据
     - 支持数据导出和分析
  3. **报表功能**：
     - 提及率趋势图
     - 平台贡献度分析
     - 关键词效果排名
     - 竞品对比分析
  4. **实时同步**：
     - 后台任务 + 实时更新 UI
 **实现建议：**
 - 新增模块：AI 数据报表（可放在 Tab5 或独立 Tab）
 - 自动验证任务（定时/手动触发）
 - 数据可视化（趋势图、对比图、热力图）
 - 数据导出功能
 ---
 ### 🟢 低优先级（高级功能 / 可选功能）
 #### 5. 企业知识库 - 企业图库
 **功能描述：**
 - 分类上传产品图、场景图、资质证书等
 - 这些素材会在后续内容生成中自动嵌入，确保品牌一致性
 **重要性分析：**
 - ⚠️ **对 GEO 直接贡献有限**：GEO 核心是文本内容，大模型主要从文本中提取信息
 - ⚠️ **适用场景有限**：主要适用于小红书、抖音等图文平台，对知乎、CSDN 等文字平台作用不大
 - ⚠️ **实现成本较高**：需要图片存储、管理、智能匹配等功能
 - ✅ **替代方案**：可手动配图，或让 LLM 生成图片描述/建议
 **评估与优化建议：**
 - ✅ **优点**：提升品牌一致性，素材复用
 - ⚠️ **需要优化**：
  1. **图片存储与管理**：
     - 使用本地文件系统或云存储（OSS/S3）
     - 支持图片分类、标签、搜索
  2. **图片在内容中的嵌入方式**：
     - 文本内容：生成图片描述，提示"可配图：xxx"
     - Markdown：自动插入图片链接
     - 小红书/抖音：生成图片使用建议
  3. **图片与内容的智能匹配**：
     - 使用 LLM 分析内容主题，自动推荐匹配图片
  4. **版权与合规**：
     - 增加图片版权信息记录
 **实现建议：**
 - 新增模块：企业图库管理（可放在侧边栏或独立 Tab）
 - 图片上传（支持批量）
 - 图片分类（产品图、场景图、资质证书等）
 - 图片标签系统
 - 内容生成时自动匹配图片
 **建议：** 可延后实现，或先实现简化版（仅图片上传和描述生成）
 ---
 #### 6. 数据报表高级分析
 - 更详细的统计分析
 - 预测性分析
 - 竞品深度对比
 #### 7. 自动发布功能
 - 接入各平台 API
 - 自动发布生成的内容
 - 发布状态跟踪
 ---
 ## 📊 整体架构建议
 ### 优先级排序
 1. **高优先级**（核心功能增强）
   - 收录平台扩展（豆包、文心一言等）⭐ ✅ 已完成
   - 自媒体平台扩展（微信公众号、抖音等）⭐ ✅ 已完成
   - 稿件记录 ✅ 已完成
 2. **中优先级**（功能扩展）
   - AI 数据报表（基础版）✅ 已完成
 3. **低优先级**（高级功能 / 可选功能）
   - 企业图库（对 GEO 直接贡献有限，可延后）
   - 数据报表高级分析
   - 自动发布功能
 ### 技术架构建议
 1. **数据持久化** ✅ 已完成
   - 使用 SQLite（轻量）
   - 存储：关键词、内容、优化记录、验证结果、图片元数据
 2. **模块化重构**
   - 将功能拆分为独立模块
   - 便于维护和扩展
 3. **配置管理**
   - 使用配置文件管理平台模板、词库等
   - 支持用户自定义
 4. **性能优化**
   - 批量操作使用并发/异步
   - 缓存常用数据
 ---
 ## 📝 实现记录
 ### 已完成
 - [x] SQLite 数据持久化（2024）
 - [x] 历史记录查看功能
 - [x] 托词工具（AI 蒸馏词）- 2024
 - [x] 收录平台扩展（豆包、文心一言）- 2024
 - [x] 自媒体平台扩展（微信公众号、抖音等）- 2024
 - [x] AI 数据报表 - 2024
 ### 待开始（按优先级）
 - [ ] 企业图库 - 低优先级（可延后）
 ---
 ## 🔗 相关文档
 - `INTEGRATION_NOTES.md` - SQLite 持久化集成说明
 - `STORAGE_GUIDE.md` - 数据持久化方案对比
 - `PLATFORM_SETUP.md` - 平台扩展安装说明（豆包、文心一言）
 - `data_storage.py` - 数据存储模块实现
@@ -0,0 +1,194 @@
 # 数据持久化方案对比
 ## 为什么不能用 IndexedDB？
 **IndexedDB 是浏览器 API**，只能在 JavaScript 前端使用。  
 **Streamlit 是 Python 后端应用**，运行在服务器端，无法使用 IndexedDB。
 ---
 ## 方案对比
 ### 方案1：SQLite（⭐ 推荐）
 **优点：**
 - ✅ Python 内置支持（`sqlite3`），无需安装额外依赖
 - ✅ 单文件数据库，易于备份和迁移
 - ✅ 查询性能好，支持复杂查询
 - ✅ 支持事务，数据安全
 - ✅ 支持 SQL 查询，灵活强大
 - ✅ 适合 MVP 到生产环境的平滑升级
 **缺点：**
 - ⚠️ 需要学习基本的 SQL（但很简单）
 - ⚠️ 多进程写入需要处理锁（Streamlit 单进程，无此问题）
 **代码复杂度：** ⭐⭐（非常简单）
 **适用场景：** MVP 和生产环境都适用
 ---
 ### 方案2：JSON 文件
 **优点：**
 - ✅ 最简单，无需学习 SQL
 - ✅ 人类可读，易于调试
 - ✅ 无需数据库知识
 **缺点：**
 - ❌ 查询性能差（需要加载整个文件）
 - ❌ 数据量大时很慢
 - ❌ 并发写入可能丢失数据
 - ❌ 不支持复杂查询
 **代码复杂度：** ⭐（极简单）
 **适用场景：** 仅适合数据量很小（<1000条）的 MVP
 ---
 ## 推荐方案：SQLite
 ### 为什么推荐 SQLite？
 1. **其实很简单**：只需要几行代码
   ```python
   import sqlite3
   conn = sqlite3.connect('data.db')
   cursor = conn.cursor()
   cursor.execute("INSERT INTO table VALUES (?)", (value,))
   conn.commit()
   conn.close()
   ```
 2. **性能好**：即使数据量增长到几万条，依然很快
 3. **功能强大**：支持统计、查询、分析，为后续功能扩展打好基础
 4. **零依赖**：Python 内置，无需安装任何包
 ---
 ## 快速开始
 ### 1. 使用已封装好的 DataStorage 类
 我已经为你创建了 `data_storage.py`，提供了统一的接口：
 ```python
 from data_storage import DataStorage
 # 初始化（SQLite方式）
 storage = DataStorage(storage_type="sqlite", db_path="geo_data.db")
 # 保存关键词
 storage.save_keywords(["关键词1", "关键词2"], "品牌名")
 # 获取关键词
 keywords = storage.get_keywords("品牌名")
 # 保存文章
 storage.save_article("关键词", "平台", "内容", "文件名", "品牌名")
 # 获取统计数据
 stats = storage.get_stats("品牌名")
 ```
 ### 2. 最小改动集成
 在 `geo_tool.py` 中，只需要在关键位置添加几行保存代码：
 ```python
 # 文件顶部
 from data_storage import DataStorage
 storage = DataStorage(storage_type="sqlite", db_path="geo_data.db")
 # 关键词生成后（约第533行）
 if cleaned:
    st.session_state.keywords = cleaned
    storage.save_keywords(cleaned, brand)  # 新增这一行
    st.success(f"生成完成（{len(cleaned)} 条）")
 # 内容生成后（约第714行）
 st.session_state.generated_contents = contents
 storage.save_article(keyword, plat, content, filename, brand)  # 在循环中添加
 # 优化后（约第838行）
 st.session_state.optimized_article = optimized_article
 storage.save_optimization(
    original_article, optimized_article, changes, target_platform, brand
 )  # 新增
 # 验证后（约第932行）
 st.session_state.verify_combined = combined
 storage.save_verify_results(all_results)  # 新增
 ```
 ### 3. 添加历史记录查看功能（可选）
 可以新增一个 Tab 来查看历史数据：
 ```python
 tab5 = st.tabs([..., "5 历史记录"])
 with tab5:
    st.header("历史记录")
    # 统计数据
    stats = storage.get_stats(brand)
    col1, col2, col3, col4 = st.columns(4)
    col1.metric("关键词", stats["keywords_count"])
    col2.metric("文章", stats["articles_count"])
    col3.metric("优化", stats["optimizations_count"])
    col4.metric("验证", stats["verify_results_count"])
    # 历史文章列表
    articles = storage.get_articles(brand=brand)
    if articles:
        df = pd.DataFrame(articles)
        st.dataframe(df[["keyword", "platform", "created_at"]])
 ```
 ---
 ## 数据库文件位置
 - **SQLite 文件**：`geo_data.db`（项目根目录）
 - **JSON 文件**：`data/` 目录（如果使用 JSON 方式）
 **建议：** 将 `geo_data.db` 添加到 `.gitignore`，避免提交到版本控制。
 ---
 ## 性能对比（参考）
 | 数据量 | SQLite | JSON文件 |
 |--------|--------|----------|
 | 100条 | <10ms | <10ms |
 | 1000条 | <50ms | ~100ms |
 | 10000条 | ~200ms | ~5秒 |
 | 100000条 | ~1秒 | 很慢 |
 ---
 ## 总结
 **对于 MVP 版本，强烈推荐使用 SQLite：**
 1. ✅ 简单：使用封装好的 `DataStorage` 类，只需几行代码
 2. ✅ 高效：性能好，支持未来扩展
 3. ✅ 可靠：数据安全，支持事务
 4. ✅ 零依赖：Python 内置，无需安装
 **如果数据量真的非常小（<100条），可以考虑 JSON 文件。**
 ---
 ## 下一步
 1. 查看 `data_storage.py` 了解实现细节
 2. 查看 `storage_example.py` 了解使用方法
 3. 在 `geo_tool.py` 中集成（参考上面的最小改动示例）
 需要我帮你直接集成到 `geo_tool.py` 吗？
@@ -0,0 +1,222 @@
 """
 内容质量评分系统
 自动评估内容是否符合 GEO 原则，提供改进建议
 """
 from typing import Dict, List, Optional
 from langchain_core.prompts import PromptTemplate
 from langchain_core.output_parsers import StrOutputParser
 import json
 import re
 class ContentScorer:
    """内容质量评分器"""
    def __init__(self):
        self.scoring_prompt_template = """
 你是一名 GEO（生成式引擎优化）内容质量评估专家。请对以下内容进行全面评估，并给出详细的评分和改进建议。
 【内容】
 {content}
 【品牌】{brand}
 【优势】{advantages}
 【平台】{platform}
 【评估维度】
 请从以下维度进行评估（每个维度 0-25 分，总分 100 分）：
 1. **结构化程度**（25分）
   - 是否有清晰的标题层级？
   - 是否包含清单、列表、FAQ 等结构化元素？
   - 内容层次是否清晰？
   - 是否有结论摘要？
 2. **品牌提及质量**（25分）
   - 品牌提及次数是否合适（2-4次）？
   - 品牌提及位置是否靠前（前1/3优先）？
   - 品牌提及是否自然（先通用标准，再品牌适用）？
   - 品牌与内容的关联度如何？
 3. **内容权威性**（25分）
   - 是否有数据支撑或案例引用？
   - 是否有评估维度或选择标准？
   - 是否避免编造数据（使用占位建议）？
   - 内容是否专业可信？
 4. **可引用性**（25分）
   - 信息密度是否高？
   - 结论是否先行？
   - 是否容易被 AI 提取和引用？
   - 是否符合目标平台的格式要求？
 【输出格式】
 请严格按照以下 JSON 格式输出，不要添加任何其他内容：
 {{
  "scores": {{
    "structure": <结构化得分 0-25>,
    "brand_mention": <品牌提及得分 0-25>,
    "authority": <权威性得分 0-25>,
    "citations": <可引用性得分 0-25>,
    "total": <总分 0-100>
  }},
  "details": {{
    "structure": "<结构化评估详情>",
    "brand_mention": "<品牌提及评估详情>",
    "authority": "<权威性评估详情>",
    "citations": "<可引用性评估详情>"
  }},
  "improvements": [
    "<改进建议1>",
    "<改进建议2>",
    "<改进建议3>"
  ],
  "strengths": [
    "<优点1>",
    "<优点2>"
  ]
 }}
 【开始评估】
 """
    def score_content(self, content: str, brand: str, advantages: str, 
                     platform: str, llm_chain) -> Dict:
        """
        对内容进行质量评分
        Args:
            content: 要评分的内容
            brand: 品牌名称
            advantages: 品牌优势
            platform: 发布平台
            llm_chain: LangChain 链对象
        Returns:
            包含评分、详情和改进建议的字典
        """
        try:
            prompt = PromptTemplate.from_template(self.scoring_prompt_template)
            chain = prompt | llm_chain | StrOutputParser()
            result = chain.invoke({
                "content": content,
                "brand": brand,
                "advantages": advantages,
                "platform": platform
            })
            # 尝试解析 JSON
            score_data = self._parse_score_result(result)
            return score_data
        except Exception as e:
            # 如果评分失败，返回默认评分
            return {
                "scores": {
                    "structure": 0,
                    "brand_mention": 0,
                    "authority": 0,
                    "citations": 0,
                    "total": 0
                },
                "details": {
                    "structure": f"评分失败：{str(e)}",
                    "brand_mention": "",
                    "authority": "",
                    "citations": ""
                },
                "improvements": ["评分系统暂时无法评估此内容，请手动检查"],
                "strengths": []
            }
    def _parse_score_result(self, result: str) -> Dict:
        """解析评分结果"""
        # 尝试提取 JSON
        json_match = re.search(r'\{.*\}', result, re.DOTALL)
        if json_match:
            try:
                score_data = json.loads(json_match.group())
                # 验证数据结构
                if "scores" in score_data and "total" in score_data["scores"]:
                    return score_data
            except json.JSONDecodeError:
                pass
        # 如果无法解析 JSON，尝试从文本中提取信息
        return self._extract_scores_from_text(result)
    def _extract_scores_from_text(self, text: str) -> Dict:
        """从文本中提取评分信息（备用方案）"""
        # 尝试提取总分
        total_match = re.search(r'总分[：:]\s*(\d+)', text)
        total_score = int(total_match.group(1)) if total_match else 0
        # 简单分配分数（如果无法精确提取）
        avg_score = total_score // 4 if total_score > 0 else 0
        return {
            "scores": {
                "structure": avg_score,
                "brand_mention": avg_score,
                "authority": avg_score,
                "citations": avg_score,
                "total": total_score
            },
            "details": {
                "structure": "无法解析详细评分",
                "brand_mention": "无法解析详细评分",
                "authority": "无法解析详细评分",
                "citations": "无法解析详细评分"
            },
            "improvements": ["请检查内容是否符合 GEO 原则"],
            "strengths": []
        }
    def get_score_level(self, total_score: int) -> tuple:
        """
        根据总分返回等级和颜色
        Returns:
            (等级名称, 颜色代码)
        """
        if total_score >= 90:
            return ("优秀", "#10B981")  # 绿色
        elif total_score >= 75:
            return ("良好", "#3B82F6")  # 蓝色
        elif total_score >= 60:
            return ("中等", "#F59E0B")  # 橙色
        else:
            return ("需改进", "#EF4444")  # 红色
    def get_quick_assessment(self, content: str, brand: str) -> Dict:
        """
        快速评估（不调用 LLM，基于规则）
        用于在 LLM 评分前提供初步评估
        """
        assessment = {
            "has_title": bool(re.search(r'^#+\s+|^标题|^##', content, re.MULTILINE)),
            "has_list": bool(re.search(r'[-*•]\s+|^\d+[\.\)]\s+', content, re.MULTILINE)),
            "has_faq": bool(re.search(r'FAQ|常见问题|Q[：:]|问[：:]', content, re.IGNORECASE)),
            "brand_count": len(re.findall(re.escape(brand), content, re.IGNORECASE)),
            "word_count": len(content)
        }
        # 计算初步分数
        quick_score = 0
        if assessment["has_title"]:
            quick_score += 5
        if assessment["has_list"]:
            quick_score += 5
        if assessment["has_faq"]:
            quick_score += 5
        if 2 <= assessment["brand_count"] <= 4:
            quick_score += 10
        elif assessment["brand_count"] > 4:
            quick_score += 5
        assessment["quick_score"] = min(quick_score, 30)  # 最高30分（快速评估）
        return assessment
@@ -0,0 +1,453 @@
 """
 轻量级数据持久化模块 - MVP版本
 支持 SQLite 和 JSON 两种存储方式
 """
 import sqlite3
 import json
 import os
 from datetime import datetime
 from pathlib import Path
 from typing import List, Dict, Optional, Any
 import pandas as pd
 class DataStorage:
    """统一的数据存储接口，支持SQLite和JSON两种后端"""
    def __init__(self, storage_type: str = "sqlite", db_path: str = "geo_data.db"):
        """
        Args:
            storage_type: "sqlite" 或 "json"
            db_path: SQLite数据库路径，或JSON文件目录
        """
        self.storage_type = storage_type
        self.db_path = db_path
        if storage_type == "sqlite":
            self._init_sqlite()
        else:
            self._init_json()
    def _init_sqlite(self):
        """初始化SQLite数据库"""
        conn = sqlite3.connect(self.db_path)
        cursor = conn.cursor()
        # 关键词表
        cursor.execute("""
            CREATE TABLE IF NOT EXISTS keywords (
                id INTEGER PRIMARY KEY AUTOINCREMENT,
                keyword TEXT NOT NULL,
                brand TEXT,
                created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
            )
        """)
        # 内容表（生成的文章）
        cursor.execute("""
            CREATE TABLE IF NOT EXISTS articles (
                id INTEGER PRIMARY KEY AUTOINCREMENT,
                keyword TEXT,
                platform TEXT,
                content TEXT,
                filename TEXT,
                brand TEXT,
                created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
            )
        """)
        # 优化记录表
        cursor.execute("""
            CREATE TABLE IF NOT EXISTS optimizations (
                id INTEGER PRIMARY KEY AUTOINCREMENT,
                original_content TEXT,
                optimized_content TEXT,
                changes TEXT,
                platform TEXT,
                brand TEXT,
                created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
            )
        """)
        # 验证结果表
        cursor.execute("""
            CREATE TABLE IF NOT EXISTS verify_results (
                id INTEGER PRIMARY KEY AUTOINCREMENT,
                query TEXT,
                brand TEXT,
                verify_model TEXT,
                mention_count INTEGER,
                mention_position TEXT,
                created_at TIMESTAMP DEFAULT CURRENT_TIMESTAMP
            )
        """)
        conn.commit()
        conn.close()
    def _init_json(self):
        """初始化JSON存储目录"""
        Path(self.db_path).mkdir(parents=True, exist_ok=True)
    # ==================== 关键词相关 ====================
    def save_keywords(self, keywords: List[str], brand: str):
        """保存关键词列表"""
        if self.storage_type == "sqlite":
            conn = sqlite3.connect(self.db_path)
            cursor = conn.cursor()
            for keyword in keywords:
                cursor.execute(
                    "INSERT INTO keywords (keyword, brand) VALUES (?, ?)",
                    (keyword, brand)
                )
            conn.commit()
            conn.close()
        else:
            # JSON方式：追加到文件
            json_file = Path(self.db_path) / "keywords.json"
            data = []
            if json_file.exists():
                with open(json_file, 'r', encoding='utf-8') as f:
                    data = json.load(f)
            for keyword in keywords:
                data.append({
                    "keyword": keyword,
                    "brand": brand,
                    "created_at": datetime.now().isoformat()
                })
            with open(json_file, 'w', encoding='utf-8') as f:
                json.dump(data, f, ensure_ascii=False, indent=2)
    def get_keywords(self, brand: Optional[str] = None) -> List[str]:
        """获取关键词列表"""
        if self.storage_type == "sqlite":
            conn = sqlite3.connect(self.db_path)
            cursor = conn.cursor()
            if brand:
                cursor.execute("SELECT keyword FROM keywords WHERE brand = ?", (brand,))
            else:
                cursor.execute("SELECT keyword FROM keywords")
            keywords = [row[0] for row in cursor.fetchall()]
            conn.close()
            return keywords
        else:
            json_file = Path(self.db_path) / "keywords.json"
            if not json_file.exists():
                return []
            with open(json_file, 'r', encoding='utf-8') as f:
                data = json.load(f)
            if brand:
                return [item["keyword"] for item in data if item.get("brand") == brand]
            return [item["keyword"] for item in data]
    # ==================== 文章内容相关 ====================
    def save_article(self, keyword: str, platform: str, content: str, 
                     filename: str, brand: str):
        """保存生成的文章"""
        if self.storage_type == "sqlite":
            conn = sqlite3.connect(self.db_path)
            cursor = conn.cursor()
            cursor.execute("""
                INSERT INTO articles (keyword, platform, content, filename, brand)
                VALUES (?, ?, ?, ?, ?)
            """, (keyword, platform, content, filename, brand))
            conn.commit()
            conn.close()
        else:
            json_file = Path(self.db_path) / "articles.json"
            data = []
            if json_file.exists():
                with open(json_file, 'r', encoding='utf-8') as f:
                    data = json.load(f)
            data.append({
                "keyword": keyword,
                "platform": platform,
                "content": content,
                "filename": filename,
                "brand": brand,
                "created_at": datetime.now().isoformat()
            })
            with open(json_file, 'w', encoding='utf-8') as f:
                json.dump(data, f, ensure_ascii=False, indent=2)
    def get_articles(self, brand: Optional[str] = None, 
                     platform: Optional[str] = None) -> List[Dict]:
        """获取文章列表"""
        if self.storage_type == "sqlite":
            conn = sqlite3.connect(self.db_path)
            if brand and platform:
                df = pd.read_sql_query(
                    "SELECT * FROM articles WHERE brand = ? AND platform = ?",
                    conn, params=(brand, platform)
                )
            elif brand:
                df = pd.read_sql_query(
                    "SELECT * FROM articles WHERE brand = ?",
                    conn, params=(brand,)
                )
            else:
                df = pd.read_sql_query("SELECT * FROM articles", conn)
            conn.close()
            return df.to_dict('records')
        else:
            json_file = Path(self.db_path) / "articles.json"
            if not json_file.exists():
                return []
            with open(json_file, 'r', encoding='utf-8') as f:
                data = json.load(f)
            if brand and platform:
                return [item for item in data 
                       if item.get("brand") == brand and item.get("platform") == platform]
            elif brand:
                return [item for item in data if item.get("brand") == brand]
            return data
    # ==================== 优化记录相关 ====================
    def save_optimization(self, original_content: str, optimized_content: str,
                         changes: str, platform: str, brand: str):
        """保存优化记录"""
        if self.storage_type == "sqlite":
            conn = sqlite3.connect(self.db_path)
            cursor = conn.cursor()
            cursor.execute("""
                INSERT INTO optimizations 
                (original_content, optimized_content, changes, platform, brand)
                VALUES (?, ?, ?, ?, ?)
            """, (original_content, optimized_content, changes, platform, brand))
            conn.commit()
            conn.close()
        else:
            json_file = Path(self.db_path) / "optimizations.json"
            data = []
            if json_file.exists():
                with open(json_file, 'r', encoding='utf-8') as f:
                    data = json.load(f)
            data.append({
                "original_content": original_content,
                "optimized_content": optimized_content,
                "changes": changes,
                "platform": platform,
                "brand": brand,
                "created_at": datetime.now().isoformat()
            })
            with open(json_file, 'w', encoding='utf-8') as f:
                json.dump(data, f, ensure_ascii=False, indent=2)
    def get_optimizations(self, brand: Optional[str] = None) -> List[Dict]:
        """获取优化记录"""
        if self.storage_type == "sqlite":
            conn = sqlite3.connect(self.db_path)
            if brand:
                df = pd.read_sql_query(
                    "SELECT * FROM optimizations WHERE brand = ? ORDER BY created_at DESC",
                    conn, params=(brand,)
                )
            else:
                df = pd.read_sql_query(
                    "SELECT * FROM optimizations ORDER BY created_at DESC",
                    conn
                )
            conn.close()
            return df.to_dict('records')
        else:
            json_file = Path(self.db_path) / "optimizations.json"
            if not json_file.exists():
                return []
            with open(json_file, 'r', encoding='utf-8') as f:
                data = json.load(f)
            if brand:
                return [item for item in data if item.get("brand") == brand]
            return data
    # ==================== 验证结果相关 ====================
    def save_verify_results(self, results: List[Dict]):
        """批量保存验证结果"""
        if self.storage_type == "sqlite":
            conn = sqlite3.connect(self.db_path)
            cursor = conn.cursor()
            for result in results:
                cursor.execute("""
                    INSERT INTO verify_results 
                    (query, brand, verify_model, mention_count, mention_position)
                    VALUES (?, ?, ?, ?, ?)
                """, (
                    result.get("问题"),
                    result.get("品牌"),
                    result.get("验证模型"),
                    result.get("提及次数"),
                    result.get("位置")
                ))
            conn.commit()
            conn.close()
        else:
            json_file = Path(self.db_path) / "verify_results.json"
            data = []
            if json_file.exists():
                with open(json_file, 'r', encoding='utf-8') as f:
                    data = json.load(f)
            for result in results:
                data.append({
                    "query": result.get("问题"),
                    "brand": result.get("品牌"),
                    "verify_model": result.get("验证模型"),
                    "mention_count": result.get("提及次数"),
                    "mention_position": result.get("位置"),
                    "created_at": datetime.now().isoformat()
                })
            with open(json_file, 'w', encoding='utf-8') as f:
                json.dump(data, f, ensure_ascii=False, indent=2)
    def get_verify_results(self, brand: Optional[str] = None, include_timestamp: bool = False) -> pd.DataFrame:
        """获取验证结果（返回DataFrame）
        Args:
            brand: 品牌名称，如果为None则返回所有品牌
            include_timestamp: 是否包含时间戳字段
        """
        if self.storage_type == "sqlite":
            conn = sqlite3.connect(self.db_path)
            if include_timestamp:
                if brand:
                    df = pd.read_sql_query(
                        """SELECT query as "问题", brand as "品牌", verify_model as "验证模型",
                           mention_count as "提及次数", mention_position as "位置",
                           created_at as "验证时间"
                           FROM verify_results WHERE brand = ? ORDER BY created_at DESC""",
                        conn, params=(brand,)
                    )
                else:
                    df = pd.read_sql_query(
                        """SELECT query as "问题", brand as "品牌", verify_model as "验证模型",
                           mention_count as "提及次数", mention_position as "位置",
                           created_at as "验证时间"
                           FROM verify_results ORDER BY created_at DESC""",
                        conn
                    )
            else:
                if brand:
                    df = pd.read_sql_query(
                        """SELECT query as "问题", brand as "品牌", verify_model as "验证模型",
                           mention_count as "提及次数", mention_position as "位置"
                           FROM verify_results WHERE brand = ?""",
                        conn, params=(brand,)
                    )
                else:
                    df = pd.read_sql_query(
                        """SELECT query as "问题", brand as "品牌", verify_model as "验证模型",
                           mention_count as "提及次数", mention_position as "位置"
                           FROM verify_results""",
                        conn
                    )
            conn.close()
            if include_timestamp and not df.empty and "验证时间" in df.columns:
                df["验证时间"] = pd.to_datetime(df["验证时间"])
            return df
        else:
            json_file = Path(self.db_path) / "verify_results.json"
            if not json_file.exists():
                return pd.DataFrame()
            with open(json_file, 'r', encoding='utf-8') as f:
                data = json.load(f)
            if brand:
                data = [item for item in data if item.get("brand") == brand]
            # 转换为DataFrame格式
            records = []
            for item in data:
                record = {
                    "问题": item.get("query"),
                    "品牌": item.get("brand"),
                    "验证模型": item.get("verify_model"),
                    "提及次数": item.get("mention_count"),
                    "位置": item.get("mention_position")
                }
                if include_timestamp and "created_at" in item:
                    record["验证时间"] = pd.to_datetime(item.get("created_at"))
                records.append(record)
            df = pd.DataFrame(records)
            if include_timestamp and not df.empty and "验证时间" in df.columns:
                df = df.sort_values("验证时间", ascending=False)
            return df
    # ==================== 统计功能 ====================
    def get_stats(self, brand: Optional[str] = None) -> Dict[str, Any]:
        """获取统计数据"""
        stats = {}
        if self.storage_type == "sqlite":
            conn = sqlite3.connect(self.db_path)
            cursor = conn.cursor()
            # 关键词数量
            if brand:
                cursor.execute("SELECT COUNT(*) FROM keywords WHERE brand = ?", (brand,))
            else:
                cursor.execute("SELECT COUNT(*) FROM keywords")
            stats["keywords_count"] = cursor.fetchone()[0]
            # 文章数量
            if brand:
                cursor.execute("SELECT COUNT(*) FROM articles WHERE brand = ?", (brand,))
            else:
                cursor.execute("SELECT COUNT(*) FROM articles")
            stats["articles_count"] = cursor.fetchone()[0]
            # 优化记录数量
            if brand:
                cursor.execute("SELECT COUNT(*) FROM optimizations WHERE brand = ?", (brand,))
            else:
                cursor.execute("SELECT COUNT(*) FROM optimizations")
            stats["optimizations_count"] = cursor.fetchone()[0]
            # 验证结果数量
            if brand:
                cursor.execute("SELECT COUNT(*) FROM verify_results WHERE brand = ?", (brand,))
            else:
                cursor.execute("SELECT COUNT(*) FROM verify_results")
            stats["verify_results_count"] = cursor.fetchone()[0]
            conn.close()
        else:
            # JSON方式统计
            keywords_file = Path(self.db_path) / "keywords.json"
            articles_file = Path(self.db_path) / "articles.json"
            optimizations_file = Path(self.db_path) / "optimizations.json"
            verify_file = Path(self.db_path) / "verify_results.json"
            def count_json(file_path, brand_filter=None):
                if not file_path.exists():
                    return 0
                with open(file_path, 'r', encoding='utf-8') as f:
                    data = json.load(f)
                if brand_filter:
                    return len([item for item in data if item.get("brand") == brand_filter])
                return len(data)
            stats["keywords_count"] = count_json(keywords_file, brand)
            stats["articles_count"] = count_json(articles_file, brand)
            stats["optimizations_count"] = count_json(optimizations_file, brand)
            stats["verify_results_count"] = count_json(verify_file, brand)
        return stats
@@ -0,0 +1,234 @@
 """
 托词工具模块 - AI 蒸馏词功能
 支持词库组合生成关键词
 """
 import json
 import itertools
 from typing import List, Dict, Set
 from difflib import SequenceMatcher
 class KeywordTool:
    """托词工具：通过词库组合生成关键词"""
    def __init__(self):
        """初始化默认词库"""
        self.default_wordbanks = {
            "A前缀1": ["行业上", "市场上", "市面上", "目前", "国内", "市场"],
            "B前缀2": ["口碑好的", "比较好的", "靠谱的", "有实力的", "可靠的", "诚信的", "正规的", "专业的", "热门的", "知名的"],
            "C主词": ["外贸软件", "外贸ERP", "CRM管理系统"],
            "D通义词": ["品牌", "公司", "工厂", "厂商", "生产厂家", "供应商"],
            "E推荐词": ["推荐", "排行", "推荐榜", "排行榜", "推荐榜单", "推荐排行", "推荐排行榜", "口碑排行"],
            "F疑问词": ["哪家好", "哪家强", "哪家靠谱", "哪家权威", "哪个好", "有哪些", "找哪家", "选哪家", "为什么"],
        }
        self.combination_patterns = [
            ["C", "D"],
            ["A", "C", "D"],
            ["B", "C", "D"],
            ["A", "B", "C", "D"],
            ["C", "D", "E"],
            ["C", "D", "F"],
            ["A", "C", "D", "E"],
            ["B", "C", "D", "E"],
            ["A", "B", "C", "D", "E"],
            ["A", "B", "C", "D", "F"],
        ]
    def load_wordbanks(self, wordbanks: Dict[str, List[str]] = None) -> Dict[str, List[str]]:
        """加载词库，如果未提供则使用默认词库"""
        if wordbanks is None:
            return self.default_wordbanks.copy()
        return wordbanks
    def generate_combinations(
        self, 
        wordbanks: Dict[str, List[str]], 
        patterns: List[List[str]] = None,
        max_results: int = 100,
        similarity_threshold: float = 0.8
    ) -> List[str]:
        """
        根据组合模式生成关键词组合
        Args:
            wordbanks: 词库字典，格式如 {"A前缀1": ["词1", "词2"], ...}
            patterns: 组合模式列表，如 [["C", "D"], ["A", "C", "D"]]
            max_results: 最大生成数量
            similarity_threshold: 相似度阈值，用于去重（0-1之间）
        Returns:
            生成的关键词列表
        """
        if patterns is None:
            patterns = self.combination_patterns
        # 创建模式字母到词库key的映射
        # 例如: "C" -> "C主词", "D" -> "D通义词"
        pattern_to_bank = {}
        for bank_key in wordbanks.keys():
            # 提取第一个字母作为模式标识
            if bank_key and len(bank_key) > 0:
                pattern_letter = bank_key[0]
                pattern_to_bank[pattern_letter] = bank_key
        all_keywords = []
        seen = set()
        for pattern in patterns:
            # 将模式字母转换为实际的词库key
            required_banks = []
            for pattern_letter in pattern:
                if pattern_letter in pattern_to_bank:
                    bank_key = pattern_to_bank[pattern_letter]
                    if bank_key in wordbanks and wordbanks[bank_key]:
                        required_banks.append(bank_key)
            if not required_banks:
                continue
            # 获取每个词库的词列表
            word_lists = [wordbanks[bank] for bank in required_banks]
            # 生成笛卡尔积组合
            for combo in itertools.product(*word_lists):
                keyword = "".join(combo)  # 直接拼接
                # 去重：检查是否已存在
                keyword_lower = keyword.lower()
                if keyword_lower in seen:
                    continue
                # 相似度去重
                is_similar = False
                for existing in seen:
                    similarity = SequenceMatcher(None, keyword_lower, existing).ratio()
                    if similarity >= similarity_threshold:
                        is_similar = True
                        break
                if not is_similar:
                    seen.add(keyword_lower)
                    all_keywords.append(keyword)
                    if len(all_keywords) >= max_results:
                        return all_keywords
        return all_keywords[:max_results]
    def get_pattern_descriptions(self) -> Dict[str, List[str]]:
        """获取组合模式的描述"""
        return {
            "C+D": ["C主词", "D通义词"],
            "A+C+D": ["A前缀1", "C主词", "D通义词"],
            "B+C+D": ["B前缀2", "C主词", "D通义词"],
            "A+B+C+D": ["A前缀1", "B前缀2", "C主词", "D通义词"],
            "C+D+E": ["C主词", "D通义词", "E推荐词"],
            "C+D+F": ["C主词", "D通义词", "F疑问词"],
            "A+C+D+E": ["A前缀1", "C主词", "D通义词", "E推荐词"],
            "B+C+D+E": ["B前缀2", "C主词", "D通义词", "E推荐词"],
            "A+B+C+D+E": ["A前缀1", "B前缀2", "C主词", "D通义词", "E推荐词"],
            "A+B+C+D+F": ["A前缀1", "B前缀2", "C主词", "D通义词", "F疑问词"],
        }
    def polish_with_llm(
        self, 
        keywords: List[str], 
        llm_chain,
        brand: str = "",
        max_polish: int = 50
    ) -> List[str]:
        """
        使用 LLM 对关键词进行润色，使其更自然
        Args:
            keywords: 原始关键词列表
            llm_chain: LangChain chain 对象（接受 {"input": str} 格式）
            brand: 品牌名称（可选）
            max_polish: 最多润色的关键词数量
        Returns:
            润色后的关键词列表
        """
        if not keywords or not llm_chain:
            return keywords
        # 限制润色数量，避免 API 调用过多
        keywords_to_polish = keywords[:max_polish]
        polish_prompt = f"""你是关键词优化专家。请将以下关键词润色为更自然、更符合用户搜索习惯的表达。
 {"品牌：" + brand if brand else ""}
 原始关键词列表：
 {json.dumps(keywords_to_polish, ensure_ascii=False, indent=2)}
 要求：
 1) 保持原意，但表达更自然、口语化
 2) 长度控制在 12-28 字
 3) 去除生硬拼接感
 4) 输出 JSON 数组格式：["润色后的关键词1", "润色后的关键词2", ...]
 只输出 JSON 数组，不要其他内容。
 """
        try:
            result = llm_chain.invoke({"input": polish_prompt})
            if isinstance(result, str):
                # 尝试解析 JSON
                import re
                m = re.search(r'\[[\s\S]*?\]', result)
                if m:
                    polished = json.loads(m.group(0))
                else:
                    # 如果解析失败，尝试按行分割
                    lines = [line.strip() for line in result.split('\n') if line.strip()]
                    polished = [line.strip('"\'[],') for line in lines if line.strip('"\'[],')]
            elif isinstance(result, list):
                polished = result
            else:
                polished = keywords_to_polish
        except Exception as e:
            polished = keywords_to_polish
        # 确保返回的是列表
        if not isinstance(polished, list):
            polished = keywords_to_polish
        # 合并润色后的和未润色的
        return polished + keywords[len(keywords_to_polish):]
    def export_wordbanks(self, wordbanks: Dict[str, List[str]], filepath: str):
        """导出词库到 JSON 文件"""
        with open(filepath, 'w', encoding='utf-8') as f:
            json.dump(wordbanks, f, ensure_ascii=False, indent=2)
    def import_wordbanks(self, filepath: str) -> Dict[str, List[str]]:
        """从 JSON 文件导入词库"""
        with open(filepath, 'r', encoding='utf-8') as f:
            return json.load(f)
    def export_wordbanks_csv(self, wordbanks: Dict[str, List[str]], filepath: str):
        """导出词库到 CSV 文件"""
        import csv
        with open(filepath, 'w', encoding='utf-8-sig', newline='') as f:
            writer = csv.writer(f)
            writer.writerow(['词库类型', '词汇'])
            for bank_type, words in wordbanks.items():
                for word in words:
                    writer.writerow([bank_type, word])
    def import_wordbanks_csv(self, filepath: str) -> Dict[str, List[str]]:
        """从 CSV 文件导入词库"""
        import csv
        wordbanks = {}
        with open(filepath, 'r', encoding='utf-8-sig') as f:
            reader = csv.DictReader(f)
            for row in reader:
                bank_type = row.get('词库类型', '').strip()
                word = row.get('词汇', '').strip()
                if bank_type and word:
                    if bank_type not in wordbanks:
                        wordbanks[bank_type] = []
                    wordbanks[bank_type].append(word)
        return wordbanks
@@ -0,0 +1,18 @@
 streamlit>=1.30,<2
 pandas>=2.0,<3
 plotly>=5.0,<6
 langchain-core==1.2.7
 langchain-community==0.4.1
 langchain-openai==1.1.7
 langchain-groq==1.1.1
 langchain-deepseek==1.0.1
 dashscope>=1.0,<2
 # 豆包（字节跳动）- 可选，需要时安装
 # pip install 'volcengine-python-sdk[ark]'
 # 文心一言（百度）- 可选，需要时安装
 # pip install qianfan
 # 或使用 langchain-community 的 QianfanChatEndpoint（需要 qianfan 包）
@@ -0,0 +1,86 @@
 """
 数据持久化集成示例
 展示如何在 geo_tool.py 中集成 DataStorage
 """
 # ==================== 方式1：SQLite（推荐，简单高效） ====================
 from data_storage import DataStorage
 # 初始化存储（SQLite方式，单文件数据库）
 storage = DataStorage(storage_type="sqlite", db_path="geo_data.db")
 # 或者使用JSON方式（更简单，但查询性能差）
 # storage = DataStorage(storage_type="json", db_path="data")
 # ==================== 在关键词模块中使用 ====================
 def save_keywords_example(keywords: list, brand: str):
    """保存关键词到数据库"""
    storage.save_keywords(keywords, brand)
 def load_keywords_example(brand: str) -> list:
    """从数据库加载关键词"""
    return storage.get_keywords(brand)
 # ==================== 在内容生成模块中使用 ====================
 def save_article_example(keyword: str, platform: str, content: str, 
                         filename: str, brand: str):
    """保存生成的文章"""
    storage.save_article(keyword, platform, content, filename, brand)
 def get_article_history_example(brand: str, platform: str = None):
    """获取历史文章"""
    return storage.get_articles(brand=brand, platform=platform)
 # ==================== 在优化模块中使用 ====================
 def save_optimization_example(original: str, optimized: str, 
                              changes: str, platform: str, brand: str):
    """保存优化记录"""
    storage.save_optimization(original, optimized, changes, platform, brand)
 # ==================== 在验证模块中使用 ====================
 def save_verify_example(results: list):
    """保存验证结果"""
    storage.save_verify_results(results)
 def get_verify_history_example(brand: str):
    """获取历史验证结果"""
    return storage.get_verify_results(brand=brand)
 # ==================== 统计功能 ====================
 def get_stats_example(brand: str):
    """获取统计数据"""
    return storage.get_stats(brand=brand)
 # ==================== 完整集成示例 ====================
 """
 在 geo_tool.py 中的集成方式：
 1. 在文件顶部添加：
   from data_storage import DataStorage
   storage = DataStorage(storage_type="sqlite", db_path="geo_data.db")
 2. 在关键词生成后保存：
   if cleaned:
       st.session_state.keywords = cleaned
       storage.save_keywords(cleaned, brand)  # 新增：保存到数据库
       st.success(f"生成完成（{len(cleaned)} 条）")
 3. 在内容生成后保存：
   for keyword, plat in keywords_to_generate:
       # ... 生成内容 ...
       storage.save_article(keyword, plat, content, filename, brand)  # 新增
 4. 在优化后保存：
   storage.save_optimization(
       original_article, 
       optimized_article, 
       changes, 
       target_platform, 
       brand
   )  # 新增
 5. 在验证后保存：
   storage.save_verify_results(all_results)  # 新增
 6. 可选：添加"历史记录"Tab，查看已保存的数据
 """