V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
xiiing
V2EX  ›  字体排印

复制文字版的 pdf 文件的内容出来变成了乱码

  •  
  •   xiiing · 219 天前 · 1092 次点击
    这是一个创建于 219 天前的主题,其中的信息可能已经有所发展或是发生改变。

    有一个文字版的 pdf 文件,没有密码,但是复制一段文本粘贴到其他地方却变成了乱码。

    请问这是一种加密处理吗? 文件链接: https://files.catbox.moe/iccws1.pdf 谢谢!

    13 条回复    2024-03-24 07:31:56 +08:00
    BeyondBouds
        1
    BeyondBouds  
       219 天前   ❤️ 1
    △このような事故が起きるとは想像だにしなかった。
    xiiing
        2
    xiiing  
    OP
       219 天前
    @BeyondBouds 请问是用什么阅读器打开的,我用的 fox 复制出来是这样的:“˚͜ͷΑ͏ͳ͖ى͕ނࣄΔͱ͸૝૾ͩʹ͠ͳ͔ͬͨɻ ”
    codeself
        3
    codeself  
       219 天前   ❤️ 1
    直接浏览器就能打开啊
    xiiing
        4
    xiiing  
    OP
       219 天前
    @codeself 有点奇怪,我用谷歌和火狐打开都不能复制文字出来。谷歌打开,复制出来的也是这样:“͜ͷΑ͏ͳނࣄ͕ى͖Δͱ͸૝૾ͩʹ͠ͳ͔ͬͨɻ”
    BeyondBouds
        5
    BeyondBouds  
       219 天前
    @xiiing 截图 OCR .....哈哈😄,我也复制不出来
    Eacls
        6
    Eacls  
       219 天前   ❤️ 1
    字体问题吧,可能系统没有适配这个日文所用的原版字体。
    cnoder
        7
    cnoder  
       219 天前   ❤️ 1
    用 wps 转文字
    xiiing
        8
    xiiing  
    OP
       219 天前
    @BeyondBouds ok ,我以为你能复制出来。这个加密方式还是值得研究的。
    c2const
        9
    c2const  
       219 天前   ❤️ 1
    △たしかにここおいたはずなのに、いくら探しても見当たらない。
    tool2d
        10
    tool2d  
       219 天前   ❤️ 1
    是不行,用 pdf 工具打开看了一下。是和游戏一样的嵌入式字体,原始 utf8 编码都被打乱了。
    xiiing
        11
    xiiing  
    OP
       219 天前
    @c2const 有解吗?
    c2const
        12
    c2const  
       218 天前   ❤️ 1
    @xiiing
    1.用代码去读 pdf 文件,先处理内嵌字体,找到内嵌字体中编号和字符新的对应关系,再复制出来就行了。
    2.用你顺手的编程语言就行,至于三方 pdf 库的选择,随便选吧,如果不熟悉,就多问问 chatGPT ,让它帮你写个大概 :)
    xiaomageit
        13
    xiaomageit  
       34 天前
    @c2const 正解
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   876 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 21:05 · PVG 05:05 · LAX 14:05 · JFK 17:05
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.