EXTractor2.5是一款高效文本提取工具,支持多格式文档(PDF、Word、Excel等)的批量处理。其核心配置包括:1. **处理器**:搭载多线程引擎,可自定义并发数(默认4线程);2. **OCR模块**:集成Tesseract 5.0,支持20+语言识别,精度阈值可调(70%-95%);3. **输出选项**:提供TXT/JSON/CSV格式,支持UTF-8/GBK编码;4. **过滤规则**:支持正则表达式匹配、关键词黑名单及长度过滤;5. **缓存机制**:内置512MB内存缓存,可扩展至本地临时目录。配置通过JSON文件管理,允许动态加载。系统需求:Windows/Linux,Java 11+或.NET Core 3.1+环境。
搜索
