8.6M超轻量中英文OCR模型开源,训练部署一条龙

Spoony 54.7m2020-07-17902 次点击
### 1. 支持自定义训练
OCR业务其实有特殊性,用户的需求很难通过一个通用模型来满足,之前开源的Chineseocr_Lite也是不支持用户训练的。
为了方便开发者使用自己的数据自定义超轻量模型,除了8.6M超轻量模型外,PaddleOCR同时提供了2种文本检测算法(EAST、DB)、4种文本识别算法(CRNN、Rosseta、STAR-Net、RARE),基本可以覆盖常见OCR任务的需求,并且算法还在持续丰富中。
特别是「模型训练/评估」中的「中文OCR训练预测技巧」,更是让人眼前一亮,点进去可以看到「中文长文本识别的特殊处理、如何更换不同的backbone等业务实战技巧」,相当符合开发者项目实战中的炼丹需求。

### 2. 打通预测部署全流程
对开发者更友好的是,PaddleOCR提供了手机端(含iOS、Android Demo)、嵌入式端、大规模数据离线预测、在线服务化预测等多种预测工具组件的支持,能够满足多样化的工业级应用场景。

### 3. 数据集汇总
项目帮开发者整理了常用的中文数据集、标注和合成工具,并在持续更新中。
目前包含的数据集包括:
5个大规模通用数据集(ICDAR2019-LSVT,ICDAR2017-RCTW-17,中文街景文字识别,中文文档文字识别,ICDAR2019-ArT)
大规模手写中文数据集(中科院自动化研究所-手写中文数据集)
垂类多语言OCR数据集(中国城市车牌数据集、银行信用卡数据集、验证码数据集-Captcha、多语言数据集)
还整理了常用数据标注工具(labelImg、roLabelImg、labelme)、常用数据合成工具(text_renderer、SynthText、SynthText_Chinese_version、TextRecognitionDataGenerator、SynthText3D、UnrealText)
并且开源以来,受到开发者的广泛关注,已经有大量开发者投入到项目的建设中并且贡献内容。

### 项目地址
https://github.com/PaddlePaddle/PaddleOCR

网页版Demo:
https://www.paddlepaddle.org.cn/hub/scene/ocr

官网地址:
https://www.paddlepaddle.org.cn
收藏 ♥ 感谢
暂无回复

登录注册 后可回复。