欢迎学习《基于OpenCV+Pytesseract+Spacy文档名片扫描器Python应用App开发视频教程》课程,你将学习使用 OpenCV、Pytesseract、Spacy 开发文档名片扫描仪 App 项目,实现从扫描文档中提取数据信息实体。
MP4 | 视频:h264,1280×720 | 音频:AAC,44.1 KHz,2 Ch
类型:电子学习 | 语言:英语+srt | 持续时间:65 个讲座(5 小时)| 大小:1.61 GB
您将学到什么:
开发和训练命名实体识别模型
不仅从图像中提取文本,还从名片中提取实体 从头开始
开发像 ABBY 这样的名片扫描仪
自然语言问题
实时 NER 应用程序的高级数据预处理技术
要求
至少应该是 Python 初学者
了解 Pandas DataFrames 的聚合技术
使用 OpenCV 读取、写入图像和在图像上绘制矩形
说明
欢迎学习“使用 OCR NER 从文档中智能提取文本和数据”课程!!!
在本课程中,您将学习如何开发自定义命名实体识别器。本课程的主要思想是从扫描的文件中提取实体,如发票、名片、装运单、提单文件等。然而,为了数据隐私,我们将我们的观点限制在名片上。但是你可以使用框架解释到各种财务文件。下面给出的是我们为开发该项目而遵循的课程。
为了开发这个项目,我们将使用数据科学中的两种主要技术,
计算机视觉
自然语言处理
在计算机视觉模块中,我们将扫描文档,识别文本位置并最终从图像中提取文本。然后在自然语言处理中,我们将从文本中提取标题并进行必要的文本清理并解析文本中的实体。
计算机视觉模块中使用的 Python 库。
OpenCV
Numpy
Pytesseract
用于自然语言处理的 Python 库
Spacy
Pandas
Regular Expression
String
由于是结合两大技术来开发项目,为了便于理解,我们将课程分为几个开发阶段。
阶段 -1:我们将通过执行必要的安装和要求来设置项目。
安装 Python
安装依赖
阶段-2:我们将进行数据准备。也就是说,我们将使用 Pytesseract 从图像中提取文本并进行必要的清理。
收集图像
Pytesseract 概述
从所有图像中提取文本
清理和准备文本
阶段 -3:我们将看到如何使用 BIO 标记来标记 NER 数据。
使用 BIO 技术手动标记
B – Beginning
I – Inside
O – Outside
阶段-4:我们将进一步清理文本并预处理数据以训练机器学习。
为 Spacy 准备训练数据
将数据转换为spacy格式
阶段 -5:使用预处理数据,我们将训练命名实体模型。
配置NER模型
训练模型
阶段 -6:我们将使用 NER 和模型预测权利,并创建用于解析文本的数据管道。
负载模型
使用置换渲染和服务
在图像上绘制边界框
从文本解析权利
最后,我们将把所有内容放在一起并创建文档扫描仪应用程序。
你准备好了吗 !!!
让我们开始开发人工智能项目。
本课程适用于
任何想要开发名片阅读器应用程序的人
数据科学家、分析师、Python 开发人员想要提高 NLP 技能