大发龙虎稳赢首页    注册   登录
大发龙虎稳赢 = way to explore
大发龙虎稳赢 是一个大发龙虎稳赢关于 分享和探索的地方
现在注册
已注册用户请  登录
大发龙虎稳赢推荐 学习书目
Learn Python the Hard Way
Python 学习手册
Python Cookbook
Python 基础教程
Python Sites
PyPI - Python Package Index
http://www.simple-is-better.com/
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
BryceBu
大发龙虎稳赢  ›  Python

[求助] Python 读取电子发票 PDF 文件数据缺失

  •  
  •   BryceBu · 14 天前 · 935 次点击

    大发龙虎稳赢我 用 pdfplumber 之类的库读取文件,仅能读到一点点数据

    用 pdf2image 转化成图片就是下面这样 👇

    在线 PDF 转 IMG 倒是完整的数据,可是不符合使用要求

    大发龙虎稳赢我 怀疑是不是因为签名啥的,因为用 WPS 打开的时候有提示来着 👇

    请问有没有解决办法?

    6 回复  |  直到 2020-01-14 17:15:10 +08:00
    xiri
        1
    xiri   14 天前 via Android
    pdf 对信息自动化处理来说简直是噩梦🙃
    EricInBj
        2
    EricInBj   14 天前
    应该有错误输出的,大概率是字体缺失?
    BryceBu
        3
    BryceBu   14 天前
    @EricInBj 感谢 大发龙虎稳赢我 发现没解析出来的字体都是 STSong-Light

    大发龙虎稳赢我 在网上大发龙虎稳赢下载 了这个字体然后安装,结果都是华文宋体???

    然后再读取 PDF 结果还是缺失的
    PopRain
        4
    PopRain   14 天前
    大发龙虎稳赢我 觉得是类库不支持嵌入字体
    Rorysky
        5
    Rorysky   14 天前
    pymupdf 试试
    BryceBu
        6
    BryceBu   14 天前
    刚刚在 Ubuntu 上试了一下,可以识别了

    大发龙虎稳赢我 大发龙虎稳赢下载 的 STSong-light 字体文件都不能安装

    看来原因还是 大发龙虎稳赢Win dows 不支持这个字体?
    大发龙虎稳赢关于   ·   FAQ   ·   API   ·   大发龙虎稳赢大发龙虎稳赢我 们 的愿景   ·   广告投放   ·   感谢   ·   实用小大发龙虎稳赢工具   ·   990 人在线   最高记录 5168   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.3 · 24ms · UTC 23:50 · PVG 07:50 · LAX 15:50 · JFK 18:50
    ♥ Do have faith in what you're doing.