2 Star 2 Fork 0

bensonrachel / SpellingCorrect_GUI

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
该仓库未声明开源许可证文件(LICENSE),使用请关注具体项目描述及其代码上游依赖。
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

SpellingCorrect_GUI

介绍

自然语言处理(NLP)- 一个英文拼写纠错系统; 功能:给出拼写错误的单词,返回一个正确的单词,或者返回一个与输入单词最接近的单词; IDE:pycharm;python3.5;PYQT做界面; 数据: 使用big.txt作为语料库。

博客链接 编辑距离博客

输入图片说明

输入图片说明

效果如图

avatar

软件架构

软件架构说明

主要算法原理:

编辑距离(这里使用的是替换操作算一次开销的版本,跟插入和删除等价):

这里的东西请看我的博客算法里的编辑距离问题,这里不在详细说明。

具体处理方法:

把big.txt的全部单词变成小写,并且计算他们出现的次数,再除以单词总数(字典长度)作为该词的频率,对输入的单词在词典里进行匹配,至少0次编辑,最多2次编辑。找出编辑距离最小的,当编辑距离为最小的不只一个时,找出所有单词里的概率最大的作为输出。

总结:

一般来说,对于错误单词,大多错误字母数在1-2范围内,所以只需找到编辑距离为1-2的,就会有相应的正确单词出现。 编辑距离算法时间复杂度比较高且需要对字典进行搜索匹配,所以总体开销比较大。 概率方面使用的朴素贝叶斯的方法,本系统是小型的英文单词纠错系统,若是百度谷歌微软的纠错系统则更为复杂。

空文件

简介

自然语言处理(NLP)- 一个英文拼写纠错系统; 功能:给出拼写错误的单词,返回一个正确的单词,或者返回一个与输入单词最接近的单词; IDE:pycharm;python3.5;PYQT做界面; 数据: 使用big.txt作为语料库。 展开 收起
取消

贡献者

全部

近期动态

加载更多
不能加载更多了
Python
1
https://gitee.com/bensonrachel/spelling-correct_-gui.git
git@gitee.com:bensonrachel/spelling-correct_-gui.git
bensonrachel
spelling-correct_-gui
SpellingCorrect_GUI
master

搜索帮助