4.6 KiB
4.6 KiB
B站关注清理工具(优化版)
一键命令运行全流程:
python source/run_pipeline.py
本项目保留并聚焦一条可用功能链:
- 抓取视频标题
- 分批AI分析
- 生成取关UID(支持按100拆分)
- 生成保留关注报告
- 按首字母排序
- 提取分组信息
快速开始
# 完整流程(推荐)
python source/run_pipeline.py
# 速度优先
python source/run_pipeline.py --workers 8 --batch-size 30 --sleep-seconds 0
# 试跑30个UP
python source/run_pipeline.py --max-ups 30
# 跳过抓取,使用已有标题报告
python source/run_pipeline.py --skip-fetch
# 跳过分析,仅生成产物
python source/run_pipeline.py --skip-analyze
# 跳过排序/分组
python source/run_pipeline.py --skip-sort --skip-group
目录结构
source/
resources/ # 资源文件
export_uids.json
export_uids.txt
output/ # 产物目录
reports/ # 报告文件
up_titles_report.md
up_analysis_full_auto.md
up_keep_follow_only.md
uids/ # 取关UID结果
unfollow_mids_list.txt
unfollow_mids_list_1.txt
unfollow_mids_list_2.txt
...
analyze_up_content.py # 步骤1:抓取标题
batch_ai_summary_from_report.py# 步骤2:分批分析
extract_keep_follow_doc.py # 步骤3:保留关注报告
extract_unfollow_list.py # 步骤4:取关UID
run_pipeline.py # 一键流水线
README_up_analysis.md
先配置 API
编辑 source/analyze_up_content.py 顶部配置:
VOLCENGINE_API_KEY = "你的火山引擎API Key"
VOLCENGINE_MODEL = "deepseek-v3-1-terminus"
VOLCENGINE_BASE_URL = "https://ark.cn-beijing.volces.com/api/v3"
batch_ai_summary_from_report.py 会自动读取该配置。
常用参数
# 提升速度
python source/run_pipeline.py --workers 8 --batch-size 30 --sleep-seconds 0
# 只先抓取前50个做试跑
python source/run_pipeline.py --max-ups 50
# 仅处理带标签UP
python source/run_pipeline.py --only-tag "准备取关"
# 跳过抓取(复用已有标题报告)
python source/run_pipeline.py --skip-fetch
# 跳过分析(复用已有分析报告,仅生成产物)
python source/run_pipeline.py --skip-analyze
# 修改UID拆分粒度
python source/run_pipeline.py --split-size 200
分步执行(可选)
步骤1:抓取标题
python source/analyze_up_content.py --skip-ai
默认输出:
步骤2:分批AI分析
python source/batch_ai_summary_from_report.py --run-all-batches
# 小批量测试
python source/batch_ai_summary_from_report.py
python source/batch_ai_summary_from_report.py --input source\output\reports\up_titles_report.md --output source\18_12.md --force
python source/batch_ai_summary_from_report.py --input source\output\reports\up_titles_report.md --output source\19_06_all.md --force --run-all-batches
默认输入/输出:
步骤3:生成保留关注报告
python source/extract_keep_follow_doc.py
python source/extract_keep_follow_doc.py --input source/19_06_all.md --output source/19_30_keep_follow.md
输出:
步骤4:生成取关UID
python source/extract_unfollow_list.py --format mid-only --split-size 100
输出:
结果解释
up_analysis_full_auto.md:完整分析报告(含取关/保留)up_keep_follow_only.md:仅保留关注UP的AI分析与分组建议unfollow_mids_list.txt:可取关UID逗号分隔列表(可直接粘贴使用)
建议参数
- 稳定优先:
--workers 4 --max-retries 2 --request-timeout 60 - 速度优先:
--workers 8 --batch-size 30 --sleep-seconds 0 - 低风险试跑:
--max-ups 30先验证再全量
结果按首字母排序
python sort_up_main.py
提取分组
python source/extract_group_info.py --input source/19_53_no_titles.md --output source/group_only.md