当前位置: 首页 > news >正文

dedecms更改网站logo/网络广告的优势有哪些

dedecms更改网站logo,网络广告的优势有哪些,wordpress timthumb,外包公司能不能去文章来源:http://blog.csdn.net/haydenwang8287/article/details/5777112 引言 很多人在使用搜索引擎的时候,会出于各种原因,拼错想要搜索的关键字,比如键盘有问题(某个按键坏了)、不熟悉国际名称&#xff…

文章来源:http://blog.csdn.net/haydenwang8287/article/details/5777112


引言

很多人在使用搜索引擎的时候,会出于各种原因,拼错想要搜索的关键字,比如键盘有问题(某个按键坏了)、不熟悉国际名称(弗洛伊德的全名Sigmund Freud)、不小心写错字母(Sinpsons)或多写了一个字母(Frusciaante)。许多用户都很熟悉Google搜索引擎携带的“您是不是要找”功能。这个功能在检测到搜索关键字有可能拼写错了的时候会提供一些备选建议。

文本搜索在电子商务网站等各类应用中都很常见。电子商务网站通常提供文本搜索功能,用户因此可以自行查找符合关键字的产品目录。一旦用户拼错关键字,很可能就直接导致销售损失。举例来说,假如你运营一个销售DVD的在线商店。阿诺德·施瓦辛格(Arnold Schwarzenegger)的影迷想在你的网店购买施瓦辛格主演的所有DVD。他首先做的就是在搜索栏键入施瓦辛格的名字,可是如果他把名字拼错了,拼成了“Arnold Swuazeneger”,假如你的网店没有返回任何相关的结果,那他就会去另一家网店购买。

解决这个问题的其中一个方案就是利用内置的领域知识来实现“您是不是要找”的功能,向用户提供“您是不是要找Arnold Schwarzenegger”的建议。本文将要探讨的就是如何用Java来实现这个功能。

编辑距离算法

在信息论和计算机科学领域,两个字符串之间的编辑距离是指将其中一个字符串用另一个字符来替换所需要的操作次数。定义编辑距离的方式有好几种,使用这些定 义计算编辑距离值的算法也有很多。主要的算法有Levenshtein、Jaro-Winkler和n-gram。Jaro-WinklerJaro距离度量的一个延伸,主要应用于记录连接领域(重复检测)。Levenshtein算法中,两个字符串之间的距离定 义为将一个字符串转换为另一字符串所需的最少编辑次数,允许的编辑操作有插入、删除、单个字符的替换。该算法由Vladimir Levenshtein在1965年提出,并以作者名来命名。n-gram是一个概率模型,按顺序预测下一个编辑项,这一模型广泛用于统计自然 语言处理和基因序列分析的各个领域。

本文并非要研究如何从头实现这些算法,我们要关注的是如何借助Apache Lucene中已有的实现——SpellChecker项目来应用这些算法。

简单来说,Lucene SpellChecker实现包括主类SpellChecker,主类SpellChecker用到了Directory、Dictionary、以及三个StringDistance算法之一。SpellChecker类使用策略模式(GoF)选择StringDistance算法,内置的StringDistance算法实现有JaroWinklerDistance、 LevenshteinDistance、NGramDistance,缺省为LevenshteinDistance。你还可以调整精度,精度的取值范围在0到1之间,缺省为0.5。精度的设置对结果有很大影响,也许你会觉得精度应当设置得比缺省值要高一些,但也许你会发现设置得过高时算法却不会返回任何结果。拿我的词典来说,精度取0.749时得到的结果最好。Dictionary接口有两个直接实现,你也可以编写自己的实现。

对我们的“您是不是要找”实现来说,我们在词典中搜索关键字的子集,根据选定的字符串距离算法查找“相近”的关键字,而且距离要与预先设置的精度相匹配。图1是Lucene SpellChecker的类图概览。

示例

下面是一个简单的代码示例。运行这个例子需要Java 5或更新版本、lucene-core-3.0.0.jar、lucene-spellchecker-3.0.0.jar,以及一个名为 dictionary.txt的平面文件(一行一个关键字的简单文本文件,后面有一个例子)。

[java] view plaincopy
  1. //创建词典  
  2.    
  3.   
  4. //实例化拼写检查器   
  5. final SpellChecker sp = new SpellChecker(directory);  
  6.    
  7.   
  8. //对词典进行索引  
  9. sp.indexDictionary(new PlainTextDictionary(new File("dictionary.txt")));  
  10.    
  11.   
  12. //“错误”的搜索  
  13. String search = "Arnold Swuazeneger";  
  14.    
  15.   
  16. //建议个数  
  17. final int suggestionNumber = 5;  
  18.    
  19.   
  20. //获取建议的关键字  
  21. String[] suggestions = sp.suggestSimilar(search, suggestionNumber);  
  22.    
  23.   
  24. //显示结果  
  25. System.out.println("Your Term:" + search);  
  26.    
  27.   
  28. for (String word : suggestions) {  
  29.     System.out.println("Did you mean:" + word);  
  30. }  
  31.    
  32.   
  33. //再创建一个拼写错误的搜索  
  34. search = "bava";  
  35.   
  36. suggestions = sp.suggestSimilar(search, suggestionNumber);  
  37.    
  38.   
  39. System.out.println("Your Term:" + search);  
  40. for (String word : suggestions) {  
  41.     System.out.println("Did you mean:" + word);  
  42. }   

给定的dictionary.txt文件如下所示:

[java] view plaincopy
  1. Seth MacFarlane  
  2. Arnold Schwarzenegger  
  3. Scarlett Johansson  
  4. Rodrigo Santoro  
  5. java  
  6. lava  
  7. bullet  

程序的输出为:
Your Term: arnold swuazeneger
Did you mean: Arnold Schwarzenegger
Your Term: bava
Did you mean: java
Did you mean: lava
Did you mean: bullet

Benchmarking测试

为了对性能有所了解,我们在具备以下配置的机器上将示例运行了十五次,取其平均值:

操作系统:Windows XP Professional SP3
处理器:Intel Core 2 Duo E6550 @2.33GHz
内存:1.96GB

测试

 测试编号关键字长度词典大小精度算法索引时间获得建议的时间
 T11750,5Levenshtein73,013621425,036049
 T217810000,5Levenshtein3402,29369327,7293112
 T31750,5JaroWinkler69,5326924,232477
 T417810000,5JaroWinkler3356,01605926,287849
 T517810000,5NGram3353,63358326,580123
 T617810000,9Levenshtein3325,31002726,96378
 T717810000,3Levenshtein3408,07278624,723142
 T84810000,67Levenshtein3328,58478425,363586
 T928810000,67Levenshtein3354,594331,284672

图表

其中:
关键字长度是关键字包含的字母个数。
词典大小是文件行数。
精度由setAccuracy方法设置。

根据测试结果,我们可以得出这样的结论:精度对时间的影响不大,关键字长度对时间却有很大影响——包含四个字符的关键字大约2ms就能获得结果。测试的三种算法中,NGramDistance略快于另外两个。在测试中我还发现,JaroWinkler距离算法所得到的准确结果最少。

结论

正如你看到的,利用已有的算法使得“您是不是要找”的实现细节出奇的简单。但在现实场景中,要创建支持应用、适用于领域特定关键字的词典则需要花费更多的力气。

参考文献

  • http://lucene.apache.org/java/docs/
  • http://today.java.net/pub/a/today/2005/08/09/didyoumean.html
  • http://archsofty.blogspot.com/2009/12/adicione-o-recurso-voce-quis-dizer-nas.html
  • http://lucene.apache.org/java/3_0_0/api/contrib-spellchecker/index.html
  • http://en.wikipedia.org/wiki/Edit_distance
  • http://en.wikipedia.org/wiki/Levenshtein_distance
  • http://en.wikipedia.org/wiki/Jaro-Winkler_distance

关于作者

Leandro R. Moreira从2002年开始参与软件开发,目前是巴西政府机构的一名软件开发人员。他参与很多开源项目的开发,包括Jpcsp。在Mudno Java第30期上,他发表了文章《面向对象的世界:实现内部DSL》,此外,他还有一个用母语葡萄牙语维护的博客

查看英文原文:Implementing Google's "Did you mean" Feature In Java


http://www.jmfq.cn/news/4845331.html

相关文章:

  • 网站里的活动专题栏怎么做/百度山西授权代理
  • 长春怎样建网站?/适合seo的网站
  • 建设专业网站/什么是网络推广营销
  • 做网站凡科如何/百度搜索引擎的网址
  • 如何将自己做的网站/软文平台发布
  • 做医疗网站要几个人/网络营销案例ppt课件
  • wordpress连接谷歌地图/游戏优化大师官方下载
  • 手机网站建设代理商/做网站哪个平台好
  • 东营建设信息网官网查询/优化推广关键词
  • 网站开发做什么的/中国人民银行网站
  • 自学做动态网站/推广优化网站排名教程
  • 网站开发和设计如何合作/微信营销推广软件
  • 阜阳网站建设价格低/如何建立独立网站
  • 免费网站使用/免费观看b站的广告网站平台
  • 自己电脑做网站要下载/西点培训前十名学校
  • 合肥做网站的公司有哪些/如何建立网上销售平台
  • 跨境电商平台培训哪家最正规/企业网站排名优化公司
  • 营销技巧的重要性/seo公司后付费
  • 公司网站建设技术方案/seo营销论文
  • 怎样做旅游城市住宿网站/中国营销网站
  • 长沙做营销型网站公司/一个新产品怎么推广
  • 公司做了网站怎么做推广/企业seo案例
  • 怎么做苹果手机网站/百度公司的发展历程
  • 衡水提供网站设计公司哪家专业/百度网站建设
  • 如何建设大型电子商务网站/建站公司哪家好
  • 学校网站建设主要成绩/seo综合查询怎么用
  • 网站如何做团购/网络营销培训
  • 98证书兼职网/汕头自动seo
  • 公司怎么做网站页面/搜索引擎seo外包
  • wordpress申请网站/舆情危机公关公司