整理文件路径

This commit is contained in:
2026-04-26 21:21:30 +08:00
parent 474ff816c1
commit 1c73e366b4
12 changed files with 82 additions and 2736 deletions

216
readme.md
View File

@@ -1,170 +1,116 @@
# B站关注清理工具(优化版)
# B站关注清理工具 - Scripts 版
> 一键命令运行全流程:`python source/run_pipeline.py`
> 一键命令运行全流程:`python source/scripts/run_pipeline.py`
本项目保留并聚焦一条可用功能链:
python source/scripts/run_pipeline.py --input-json source/resources/export_uids_test5.json
本工具包含7个步骤的完整流水线
1. 抓取视频标题
2. 分批AI分析
3. 生成取关UID支持按100拆分
4. 生成保留关注报告
3. 生成保留关注报告
4. 生成取关UID列表
5. 按首字母排序
6. 提取分组信息
7. 删除最近10条标题
## 快速开始
```powershell
# 完整流程(推荐)
python source/run_pipeline.py
python source/scripts/run_pipeline.py
# 速度优先
python source/run_pipeline.py --workers 8 --batch-size 30 --sleep-seconds 0
python source/scripts/run_pipeline.py --workers 8 --batch-size 30 --sleep-seconds 0
# 试跑30个UP
python source/run_pipeline.py --max-ups 30
python source/scripts/run_pipeline.py --max-ups 30
# 跳过抓取,使用已有标题报告
python source/run_pipeline.py --skip-fetch
python source/scripts/run_pipeline.py --skip-fetch
# 跳过分析,仅生成产物
python source/run_pipeline.py --skip-analyze
python source/scripts/run_pipeline.py --skip-analyze
# 跳过排序/分组
python source/run_pipeline.py --skip-sort --skip-group
# 跳过排序/分组/删除
python source/scripts/run_pipeline.py --skip-sort --skip-group --skip-remove
```
## 目录结构
## 输出文件
```text
source/
resources/ # 资源文件
export_uids.json
export_uids.txt
| 文件 | 说明 |
|------|------|
| `source/output/reports/1_up_titles_report.md` | 标题抓取报告 |
| `source/output/reports/2_up_analysis_full_auto.md` | AI分析报告完整 |
| `source/output/reports/3_up_keep_follow_only.md` | 保留关注报告 |
| `source/output/uids/4_unfollow_mids_list.txt` | 取关UID列表 |
| `source/output/reports/5_sorted_up_analysis.md` | 按首字母排序报告 |
| `source/output/reports/6_group_info.md` | 提取分组信息报告 |
| `source/output/reports/7_no_titles.md` | 最终报告删除最近10条 |
output/ # 产物目录
reports/ # 报告文件
up_titles_report.md
up_analysis_full_auto.md
up_keep_follow_only.md
uids/ # 取关UID结果
unfollow_mids_list.txt
unfollow_mids_list_1.txt
unfollow_mids_list_2.txt
...
## 常用参数
analyze_up_content.py # 步骤1抓取标题
batch_ai_summary_from_report.py# 步骤2分批分析
extract_keep_follow_doc.py # 步骤3保留关注报告
extract_unfollow_list.py # 步骤4取关UID
run_pipeline.py # 一键流水线
README_up_analysis.md
| 参数 | 默认值 | 说明 |
|------|--------|------|
| `--workers` | 6 | 并发请求数 |
| `--batch-size` | 20 | 每批分析条数 |
| `--max-ups` | 0全部 | 限制处理UP数量 |
| `--split-size` | 100 | UID拆分大小 |
| `--sleep-seconds` | 0 | 任务间隔秒数 |
### 跳过参数
| 参数 | 说明 |
|------|------|
| `--skip-fetch` | 跳过抓取阶段 |
| `--skip-analyze` | 跳过分析阶段 |
| `--skip-sort` | 跳过排序阶段 |
| `--skip-group` | 跳过提取分组阶段 |
| `--skip-remove` | 跳过删除最近10条阶段 |
## 分步执行
### 步骤1抓取标题
```powershell
python source/scripts/analyze_up_content.py --skip-ai
```
## 先配置 API
### 步骤2分批AI分析
```powershell
python source/scripts/batch_ai_summary_from_report.py --run-all-batches
```
编辑 [source/analyze_up_content.py](source/analyze_up_content.py) 顶部配置:
### 步骤3生成保留关注报告
```powershell
python source/scripts/extract_keep_follow_doc.py
```
### 步骤4生成取关UID
```powershell
python source/scripts/extract_unfollow_list.py --format mid-only --split-size 100
```
### 步骤5按首字母排序
```powershell
python source/scripts/sort_up_main.py
```
### 步骤6提取分组信息
```powershell
python source/scripts/extract_group_info.py
```
### 步骤7删除最近10条标题
```powershell
python source/scripts/remove_10content.py
```
## 先配置API
编辑 [source/scripts/analyze_up_content.py](source/scripts/analyze_up_content.py) 顶部配置:
```python
VOLCENGINE_API_KEY = "你的火山引擎API Key"
VOLCENGINE_MODEL = "deepseek-v3-1-terminus"
VOLCENGINE_BASE_URL = "https://ark.cn-beijing.volces.com/api/v3"
```
`batch_ai_summary_from_report.py` 会自动读取该配置。
## 常用参数
```powershell
# 提升速度
python source/run_pipeline.py --workers 8 --batch-size 30 --sleep-seconds 0
# 只先抓取前50个做试跑
python source/run_pipeline.py --max-ups 50
# 仅处理带标签UP
python source/run_pipeline.py --only-tag "准备取关"
# 跳过抓取(复用已有标题报告)
python source/run_pipeline.py --skip-fetch
# 跳过分析(复用已有分析报告,仅生成产物)
python source/run_pipeline.py --skip-analyze
# 修改UID拆分粒度
python source/run_pipeline.py --split-size 200
```
## 分步执行(可选)
### 步骤1抓取标题
```powershell
python source/analyze_up_content.py --skip-ai
```
默认输出:
- [source/output/reports/up_titles_report.md](source/output/reports/up_titles_report.md)
### 步骤2分批AI分析
```powershell
python source/batch_ai_summary_from_report.py --run-all-batches
# 小批量测试
python source/batch_ai_summary_from_report.py
python source/batch_ai_summary_from_report.py --input source\output\reports\up_titles_report.md --output source\18_12.md --force
python source/batch_ai_summary_from_report.py --input source\output\reports\up_titles_report.md --output source\19_06_all.md --force --run-all-batches
```
默认输入/输出:
- 输入 [source/output/reports/up_titles_report.md](source/output/reports/up_titles_report.md)
- 输出 [source/output/reports/up_analysis_full_auto.md](source/output/reports/up_analysis_full_auto.md)
### 步骤3生成保留关注报告
```powershell
python source/extract_keep_follow_doc.py
python source/extract_keep_follow_doc.py --input source/19_06_all.md --output source/19_30_keep_follow.md
```
输出:
- [source/output/reports/up_keep_follow_only.md](source/output/reports/up_keep_follow_only.md)
### 步骤4生成取关UID
```powershell
python source/extract_unfollow_list.py --format mid-only --split-size 100
```
输出:
- 主文件 [source/output/uids/unfollow_mids_list.txt](source/output/uids/unfollow_mids_list.txt)
- 拆分文件 [source/output/uids/unfollow_mids_list_1.txt](source/output/uids/unfollow_mids_list_1.txt) 等
## 结果解释
- `up_analysis_full_auto.md`:完整分析报告(含取关/保留)
- `up_keep_follow_only.md`仅保留关注UP的AI分析与分组建议
- `unfollow_mids_list.txt`可取关UID逗号分隔列表可直接粘贴使用
## 建议参数
- 稳定优先:`--workers 4 --max-retries 2 --request-timeout 60`
- 速度优先:`--workers 8 --batch-size 30 --sleep-seconds 0`
- 低风险试跑:`--max-ups 30` 先验证再全量
### 结果按首字母排序
```
python sort_up_main.py
```
### 提取分组
```
python source/extract_group_info.py --input source/19_53_no_titles.md --output source/group_only.md
```