202412191745-PDF翻译
还是要记录下,昨天 2024-12-18弄的, 有时候不回忆下就忘记了。之前一直想弄 pdf 英语文档的本地翻译,搁浅了,不太好弄,昨天弄了。先回忆下网络上的,在说本地的。
借助网络 pdf 翻译
- 阿里-通义千问-pdf 翻译。千问效率 :在阿里的通义千问-效率里面,开放了一个阅读助手,上传文档了就可以翻译,现在是免费的,但是有些地方解析有小问题。
- textin。textin,一个专门做 pdf 解析的网站,效果还可以,可以试用,但是超过多少页收费,效果可以。
- 沉浸式翻译,cjs翻译,是一个插件,但是做的很好,平时也可翻译网页,用的人很多,我之前也听说过。可以免费翻译 pdf,但是复杂解析可以用他的 pro 付费版本,可以试看,效果👍
本地版本翻译
- 最早的时候用过-umi-ocr,怎么说,工具很好,但主要是针对屏幕 ocr
- 昨天弄的是 MinerU,比之前好布置了些,这个工具先把 pdf 转为 markdown,markdown 自己弄了个简单的翻译。还有个一个本地的GT4T 软件也很厉害!gt4t 很厉害的翻译工具。
MinerU 的一些记录
还是有点坑的
- 跟着 github 上的文档走的,文档
- 创建一个 python 环境然后下载了弄,链接
- 我弄的 cpu 版本,跑起来我只能说,太慢了!但好歹确实解析出来了,之后可以提前解析~~
- 他量的,那个模型文件是下载到 c 盘了!可以手动改。
这是个叫 magic-pdf. json 的天才文件 look,自动下在这
里面是这样的,摊手。 - 转 markdwon 是用 python 脚本:链接
就这些了 🆗
大佬,多少你也整个域名吧。哈~~
等得空了 就去弄一下