An open API service indexing awesome lists of open source software.

https://github.com/aidayang/mineru-oneclick

MinerU免安装部署一键启动整合包
https://github.com/aidayang/mineru-oneclick

ai4science document-analysis extract-data layout-analysis markdown mineru ocr parser pdf pdf-converter pdf-extractor-llm pdf-extractor-pretrain pdf-extractor-rag pdf-parser pdftojson pdftomarkdown python

Last synced: 12 months ago
JSON representation

MinerU免安装部署一键启动整合包

Awesome Lists containing this project

README

          

# MinerU-OneClick

![](https://github.com/aidayang/MinerU-OneClick/blob/main/11.jpg?raw=true)

MinerU是一款非常热门的高质量的PDF转Markdown和JSON格式软件,当前更新到了1.0.1版本,为了方便大家快速上手体验,省去安装部署耗时,我制作了最新版免安装一键启动整合包,下载解压即用。

*2025年2月21日制作了v1.1.0版整合包

*2025年2月27日制作了V1.2.0版整合包

## MinerU整合包使用说明

首先将软件压缩包从网盘下载到本地电脑上并解压。由于模型文件比较大,我没有打包进压缩包里,而是做了个下载程序,可以高速下载。首先双击运行【下载模型文件.exe】,稍等几分钟就可以下载完成,下载完成时终端窗口中会提示模型下载完成信息。

然后双击运行【启动软件.exe】即可打开软件操作界面。

首先选择待处理PDF文件,你可以点击选择文件按钮选择文件,也可以把想要处理的文件鼠标左键按住拖动到软件窗口中,软件会自动填充路径。软件也支持批量处理,你可以选择处理某个文件夹。当前版本新增处理其它多种格式文件: .png .jpg .ppt .pptx .doc .docx

处理方法:默认auto模式,你也可以手动选择ocr或txt,如果是纯文本文档,建议选择txt,速度更快

PDF语言:用于辅助优化ocr的准确性,填写语言代码如英语:en

起始页:想从PDF哪页开始处理。页数从0开始计数的,比如想从第二页开始处理,这里就填1

结束页:想要软件处理到哪页结束,和上面一样,填数字

默认只需要设置待处理文件和保存位置即可,其它不需要设置。

其它选项说明:

表格识别模型默认为RapidTable,你也可以选择其它模型

表格识别和公式识别功能默认都是开启的,如果你用不到这些功能或是电脑带不动,你可以选择关闭这些功能。

软件支持使用通义千问大语言模型对相关功能辅助优化,使用的是在线通义千问功能,所以如果你想要使用这个功能的话,需要申请API KEY。

PDF文档处理完成后结果会保存在你设置的输出目录里。

视频教程:[youtube](https://www.youtube.com/watch?v=HsMKIibwbRA)

## 注意事项

整合包只支持Windows 10或11系统

软件运行路径中不要有非英文字符和空格

本整合包需要有英伟达独显

## MinerU 1.2.0版一键启动整合包下载链接

https://pan.quark.cn/s/8c854a17f594

[https://pan.baidu.com/s/1jUcyr1Mgm9mKskUC-69pYA?pwd=rpbj](https://pan.baidu.com/s/1jUcyr1Mgm9mKskUC-69pYA?pwd=rpbj)

## MinerU项目链接

https://github.com/opendatalab/MinerU