整理文件路径

2026-04-26 21:21:30 +08:00
parent 474ff816c1
commit 1c73e366b4
12 changed files with 82 additions and 2736 deletions
--- a/readme.md
+++ b/readme.md
@@ -1,170 +1,116 @@
-# B站关注清理工具（优化版）
+# B站关注清理工具 - Scripts 版

-> 一键命令运行全流程：`python source/run_pipeline.py`
+> 一键命令运行全流程：`python source/scripts/run_pipeline.py`

-本项目保留并聚焦一条可用功能链：
+python source/scripts/run_pipeline.py --input-json source/resources/export_uids_test5.json
+
+本工具包含7个步骤的完整流水线：

 1. 抓取视频标题
 2. 分批AI分析
-3. 生成取关UID（支持按100拆分）
-4. 生成保留关注报告
+3. 生成保留关注报告
+4. 生成取关UID列表
 5. 按首字母排序
 6. 提取分组信息
+7. 删除最近10条标题

 ## 快速开始

 ```powershell
 # 完整流程（推荐）
-python source/run_pipeline.py
+python source/scripts/run_pipeline.py

 # 速度优先
-python source/run_pipeline.py --workers 8 --batch-size 30 --sleep-seconds 0
+python source/scripts/run_pipeline.py --workers 8 --batch-size 30 --sleep-seconds 0

 # 试跑30个UP
-python source/run_pipeline.py --max-ups 30
+python source/scripts/run_pipeline.py --max-ups 30

 # 跳过抓取，使用已有标题报告
-python source/run_pipeline.py --skip-fetch
+python source/scripts/run_pipeline.py --skip-fetch

 # 跳过分析，仅生成产物
-python source/run_pipeline.py --skip-analyze
+python source/scripts/run_pipeline.py --skip-analyze

-# 跳过排序/分组
-python source/run_pipeline.py --skip-sort --skip-group
+# 跳过排序/分组/删除
+python source/scripts/run_pipeline.py --skip-sort --skip-group --skip-remove
 ```

-## 目录结构
+## 输出文件

-```text
-source/
-  resources/                     # 资源文件
-    export_uids.json
-    export_uids.txt
+| 文件 | 说明 |
+|------|------|
+| `source/output/reports/1_up_titles_report.md` | 标题抓取报告 |
+| `source/output/reports/2_up_analysis_full_auto.md` | AI分析报告（完整） |
+| `source/output/reports/3_up_keep_follow_only.md` | 保留关注报告 |
+| `source/output/uids/4_unfollow_mids_list.txt` | 取关UID列表 |
+| `source/output/reports/5_sorted_up_analysis.md` | 按首字母排序报告 |
+| `source/output/reports/6_group_info.md` | 提取分组信息报告 |
+| `source/output/reports/7_no_titles.md` | 最终报告（删除最近10条） |

-  output/                        # 产物目录
-    reports/                     # 报告文件
-      up_titles_report.md
-      up_analysis_full_auto.md
-      up_keep_follow_only.md
-    uids/                        # 取关UID结果
-      unfollow_mids_list.txt
-      unfollow_mids_list_1.txt
-      unfollow_mids_list_2.txt
-      ...
+## 常用参数

-  analyze_up_content.py          # 步骤1：抓取标题
-  batch_ai_summary_from_report.py# 步骤2：分批分析
-  extract_keep_follow_doc.py     # 步骤3：保留关注报告
-  extract_unfollow_list.py       # 步骤4：取关UID
-  run_pipeline.py                # 一键流水线
-  README_up_analysis.md
+| 参数 | 默认值 | 说明 |
+|------|--------|------|
+| `--workers` | 6 | 并发请求数 |
+| `--batch-size` | 20 | 每批分析条数 |
+| `--max-ups` | 0（全部） | 限制处理UP数量 |
+| `--split-size` | 100 | UID拆分大小 |
+| `--sleep-seconds` | 0 | 任务间隔秒数 |
+
+### 跳过参数
+
+| 参数 | 说明 |
+|------|------|
+| `--skip-fetch` | 跳过抓取阶段 |
+| `--skip-analyze` | 跳过分析阶段 |
+| `--skip-sort` | 跳过排序阶段 |
+| `--skip-group` | 跳过提取分组阶段 |
+| `--skip-remove` | 跳过删除最近10条阶段 |
+
+## 分步执行
+
+### 步骤1：抓取标题
+```powershell
+python source/scripts/analyze_up_content.py --skip-ai
 ```

-## 先配置 API
+### 步骤2：分批AI分析
+```powershell
+python source/scripts/batch_ai_summary_from_report.py --run-all-batches
+```

-编辑 [source/analyze_up_content.py](source/analyze_up_content.py) 顶部配置：
+### 步骤3：生成保留关注报告
+```powershell
+python source/scripts/extract_keep_follow_doc.py
+```
+
+### 步骤4：生成取关UID
+```powershell
+python source/scripts/extract_unfollow_list.py --format mid-only --split-size 100
+```
+
+### 步骤5：按首字母排序
+```powershell
+python source/scripts/sort_up_main.py
+```
+
+### 步骤6：提取分组信息
+```powershell
+python source/scripts/extract_group_info.py
+```
+
+### 步骤7：删除最近10条标题
+```powershell
+python source/scripts/remove_10content.py
+```
+
+## 先配置API
+
+编辑 [source/scripts/analyze_up_content.py](source/scripts/analyze_up_content.py) 顶部配置：

 ```python
 VOLCENGINE_API_KEY = "你的火山引擎API Key"
 VOLCENGINE_MODEL = "deepseek-v3-1-terminus"
 VOLCENGINE_BASE_URL = "https://ark.cn-beijing.volces.com/api/v3"
-```
-
-`batch_ai_summary_from_report.py` 会自动读取该配置。
-
-## 常用参数
-
-```powershell
-# 提升速度
-python source/run_pipeline.py --workers 8 --batch-size 30 --sleep-seconds 0
-
-# 只先抓取前50个做试跑
-python source/run_pipeline.py --max-ups 50
-
-# 仅处理带标签UP
-python source/run_pipeline.py --only-tag "准备取关"
-
-# 跳过抓取（复用已有标题报告）
-python source/run_pipeline.py --skip-fetch
-
-# 跳过分析（复用已有分析报告，仅生成产物）
-python source/run_pipeline.py --skip-analyze
-
-# 修改UID拆分粒度
-python source/run_pipeline.py --split-size 200
-```
-
-## 分步执行（可选）
-
-### 步骤1：抓取标题
-
-```powershell
-python source/analyze_up_content.py --skip-ai
-```
-
-默认输出：
- [source/output/reports/up_titles_report.md](source/output/reports/up_titles_report.md)
-
-### 步骤2：分批AI分析
-
-```powershell
-python source/batch_ai_summary_from_report.py --run-all-batches
-# 小批量测试
-python source/batch_ai_summary_from_report.py 
-
-
-python source/batch_ai_summary_from_report.py --input source\output\reports\up_titles_report.md --output source\18_12.md --force
-
-python source/batch_ai_summary_from_report.py --input source\output\reports\up_titles_report.md --output source\19_06_all.md --force --run-all-batches
-```
-
-默认输入/输出：
- 输入 [source/output/reports/up_titles_report.md](source/output/reports/up_titles_report.md)
- 输出 [source/output/reports/up_analysis_full_auto.md](source/output/reports/up_analysis_full_auto.md)
-
-### 步骤3：生成保留关注报告
-
-```powershell
-python source/extract_keep_follow_doc.py
-
-python source/extract_keep_follow_doc.py --input source/19_06_all.md --output source/19_30_keep_follow.md      
-```
-
-输出：
- [source/output/reports/up_keep_follow_only.md](source/output/reports/up_keep_follow_only.md)
-
-### 步骤4：生成取关UID
-
-```powershell
-python source/extract_unfollow_list.py --format mid-only --split-size 100
-```
-
-输出：
- 主文件 [source/output/uids/unfollow_mids_list.txt](source/output/uids/unfollow_mids_list.txt)
- 拆分文件 [source/output/uids/unfollow_mids_list_1.txt](source/output/uids/unfollow_mids_list_1.txt) 等
-
-## 结果解释
-
- `up_analysis_full_auto.md`：完整分析报告（含取关/保留）
- `up_keep_follow_only.md`：仅保留关注UP的AI分析与分组建议
- `unfollow_mids_list.txt`：可取关UID逗号分隔列表（可直接粘贴使用）
-
-## 建议参数
-
- 稳定优先：`--workers 4 --max-retries 2 --request-timeout 60`
- 速度优先：`--workers 8 --batch-size 30 --sleep-seconds 0`
- 低风险试跑：`--max-ups 30` 先验证再全量
-
-
-
-### 结果按首字母排序
-
-```
-python sort_up_main.py
-```
-
-
-### 提取分组
-```
-python source/extract_group_info.py --input source/19_53_no_titles.md --output source/group_only.md
 ```