如何自动提取excel表格

又来到实用但是低阅读量环节了,没关系,刚好做一个懒人办公系列的文章,专门分析高效实用办公类软件网站分享。

今天分享的是如何在pdf中提取excel表格

Tabula

这个名叫Tabula的开源软件,在github上有数千的star。
preview
功能是自动提取pdf中的表格,同时支持PDF导出为CSV、Excel格式。

还同时支持window,Linux,苹果三大系统。这里举window端使用为例。

后台下载后,运行tabula.exe,会跳出网页。如果没有跳出则手动输入http://localhost:808即可。
preview
然后导入需要处理的pdf文件,即可识别。

可以鼠标勾选区域识别也可以自动识别。然后右上角输出数据即可。
preview
处理效果不错的。
preview
对于结果可以选择输出另存为excel或者csv,还可以复制到粘贴板。
表格识别比一般的OCR准备不少。对于平时需要处理表格数据的行政人员来说是个不错的选择。

其实Tabula还有Python吧库,对于有python编程基础的可以去找tabula-py相关的信息。

运行环境

软件运行需要java环境,小懒后台一并给大家准备好了,如果没有java环境需要先安装才能运行tablua软件哈~

软件下载

懒人找资源此处内容已经被作者隐藏,请输入验证码查看内容
验证码:
请关注本站微信公众号,回复“验证码”,获取验证码。在微信里搜索“懒人找资源”或者“for_lazy”或者微信扫描右侧二维码都可以关注本站微信公众号。

关注公众号懒人找资源
懒人找资源 » 如何自动提取excel表格

提供最优质的资源集合

立即查看 了解详情