桌面版半自动图片矫正、压缩、OCR 叠层与 PDF 导出工具。
本仓库已经按“程序 / 模型 / 研究资产 / 文档”拆分,目标是让运行时、训练试验和文档沉淀分层清晰,便于持续迭代和代理协作。
program/desktop: Tauri + Vite 桌面程序源码。program/engine: Python 检测、OCR、导出、训练与评估代码。runtime: 运行时主链路training: 训练与调参eval: 评估与回归
data: 原始数据、清洗数据、拆分数据、派生任务数据与 benchmark。training: 训练配置、runs、checkpoint、报告与模型注册。models/runtime: 当前运行时使用的模型。research/experiments: 历史训练、评估、实验产物和大体量资料。docs: 架构说明、执行计划、当前状态、代理协作入口。
兼容入口:
docs/plans是到research/experiments的兼容链接,旧脚本仍可继续访问原有实验目录。
cd /Users/gcssloop/WorkSpace/AIGC/screen-pdf/program/desktop
pnpm install
pnpm tauri devcd /Users/gcssloop/WorkSpace/AIGC/screen-pdf
PYTHONPATH=program/engine python program/engine/detect_frame.py --help默认从下面目录读取:
/Users/gcssloop/WorkSpace/AIGC/screen-pdf/models/runtime
也可以通过环境变量覆盖:
export SCREEN_PDF_MODEL_DIR=/absolute/path/to/models/runtimeglobal coarse先给出全局四边形。roi refine在粗框基础上收紧 ROI。local corner refine在 ROI 结果上做四角精修。- OCR、压缩、PDF 导出在导出链路中执行。
当前建议的运行时组合:
- coarse/global:
r3 - local corner refine:当前保留候选
v28
说明:
r3负责把轮廓先找对。v28只适合作为局部角点精修候选,不应单独主导全局结果。
当前必须持续盯住的目标:
- 平均点位偏差
< 0.5% - 四点全部
< 1%命中率> 80% - 单张识别耗时
< 500 ms
详见:
- AGENTS.md
- docs/current-status.md
- docs/status/model-naming-rules.md
- docs/status/model-release-convention.md
- docs/status/distillation-run-convention.md
- docs/repository-layout.md
- docs/repository-migration-and-bootstrap.md
- 这次迁移默认保留源码、运行时模型、训练与实验资料。
- 构建缓存未迁入新仓库,例如
node_modules、dist、src-tauri/target、__pycache__。 - 旧仓库仍保留,便于校验和回滚;后续确认无误后再清理。