使用NLTK从OCR中识别未分裂的单词
发布时间:2020-08-04 18:13:27 所属栏目:Python 来源:互联网
导读:我正在使用NLTK处理从PDF文件中提取的一些文本.我可以完整地恢复文本,但是有很多实例没有捕获单词之间的空格,所以我得到像ifI而不是if,或者那个位置而不是那个位置的单词,或者他而不是和他的单词.我的问题是:如何使用NLTK查找它无法识别/未学习的单词,并查看
我正在使用NLTK处理从PDF文件中提取的一些文本.我可以完整地恢复文本,但是有很多实例没有捕获单词之间的空格,所以我得到像ifI而不是if,或者那个位置而不是那个位置的单词,或者他而不是和他的单词. 我的问题是:如何使用NLTK查找它无法识别/未学习的单词,并查看是否存在更可能发生的“附近”单词组合?有没有更优雅的方式来实现这种检查,而不是简单地通过无法识别的单词,一次一个字符,拆分它,并查看它是否产生两个可识别的单词? 最佳答案 我建议您考虑使用pyenchant,因为它是针对此类问题的更强大的解决方案.您可以下载pyenchant here.以下是安装后如何获得结果的示例: (编辑:岳阳站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
相关内容
- Python3如何通过唯一键连接两个dicts列表
- 使用远程存储配置django-compressor(django-storage – ama
- 使用IDLE运行Python PyUnit单元测试
- python并发原理(阻塞、非阻塞、epoll)
- python将二进制数据插入并检索到mysql中
- python – super的用法是什么(ClassName,self)._ init_()[复
- 在cygwin下,如何配置Mercurial以使用WinMerge进行合并?
- python – 根据另一列pandas数据框提取列值
- 【Python】使用numpy时警告:RuntimeWarning溢出报错的屏蔽
- 使用Python模拟来监视对现有对象的调用