还是要记录下,昨天 2024-12-18弄的, 有时候不回忆下就忘记了。之前一直想弄 pdf 英语文档的本地翻译,搁浅了,不太好弄,昨天弄了。先回忆下网络上的,在说本地的。

借助网络 pdf 翻译

  1. 阿里-通义千问-pdf 翻译。千问效率 :在阿里的通义千问-效率里面,开放了一个阅读助手,上传文档了就可以翻译,现在是免费的,但是有些地方解析有小问题。
  2. textin。textin,一个专门做 pdf 解析的网站,效果还可以,可以试用,但是超过多少页收费,效果可以。
  3. 沉浸式翻译,cjs翻译,是一个插件,但是做的很好,平时也可翻译网页,用的人很多,我之前也听说过。可以免费翻译 pdf,但是复杂解析可以用他的 pro 付费版本,可以试看,效果👍

本地版本翻译

  1. 最早的时候用过-umi-ocr,怎么说,工具很好,但主要是针对屏幕 ocr
  2. 昨天弄的是 MinerU,比之前好布置了些,这个工具先把 pdf 转为 markdown,markdown 自己弄了个简单的翻译。还有个一个本地的GT4T 软件也很厉害!gt4t 很厉害的翻译工具。

MinerU 的一些记录

还是有点坑的

  1. 跟着 github 上的文档走的,文档
  2. 创建一个 python 环境然后下载了弄,链接
  3. 我弄的 cpu 版本,跑起来我只能说,太慢了!但好歹确实解析出来了,之后可以提前解析~~
  4. 他量的,那个模型文件是下载到 c 盘了!可以手动改。
    这是个叫 magic-pdf. json 的天才文件 look,自动下在这
    0-img
    1-img
    里面是这样的,摊手。
  5. 转 markdwon 是用 python 脚本:链接

就这些了 🆗