文章关键字 ‘Python’

Python pdfplumber内存泄露问题解决方案

2022年09月25日,星期日

最近用Python的pdfplumber库处理PDF文件,在处理一个1000多页的PDF文件时,内存使用不断飙升,直至把16G内存全部耗尽。

代码除了使用pdfplumber之外,还使用了pandas做数据分析,一开始还以为是pandas部分的代码存在内存泄露,调试了很久才发现是pdfplumber造成的内存泄露。

解决方案在官方的issue中有提到, Memory issues on very large PDFs, 添加如下的代码即可:


with pdfplumber.open("data/my.pdf") as pdf:
    for page in pdf.pages:
        run_my_code()
        page.flush_cache()

Scrapy ImportError: DLL load failed: 操作系统无法运行 %1

2016年11月13日,星期日

最近打算用Scrapy写爬虫,Windows下用Anaconda比较省心,成功安装了Scrapy,但是新建Scrapy项目时,直接报错。

(更多…)

ActivePython PyPM error: (OperationalError) unable to open database file None None

2015年09月19日,星期六

在家里的电脑打算用PyPM安装PIL来处理图片,运行命令pypm install pil,居然出现错误:

(更多…)

Python调用COM组件

2011年12月20日,星期二

初学 Python 的时候就研究过怎样调用 COM 组件,这样就能像写 VBScript 一样写 Python,那时就想写一篇关于 Python 调用 COM 组件的文章,但是一直都没有写。

(更多…)

用Python脚本写ASP页面

2011年12月18日,星期日

很多不明真相的同学认为 ASP 是一种编程语言,事实上并非如此。ASP 是 Active Server Page 的缩写,意为“动态服务器页面”,是微软公司开发的代替 CGI 脚本程序的一种应用。

(更多…)