关于最近研究的关键词提取keyword extraction做的笔记 - caohao2008的专栏 - 博客频道 - CSDN.NET
http://blog.csdn.net/caohao2008/article/details/3144639
distance.py - nltk - Natural Language Toolkit Development - Google Project Hosting
http://code.google.com/p/nltk/source/browse/trunk/nltk/nltk/metrics/distance.py
程序员编程艺术:第三章续、Top K算法问题的实现 - 结构之法 算法之道 - 博客频道 - CSDN.NET good site
http://blog.csdn.net/v_JULY_v/article/details/6403777
aMMAI
http://chiehchi.blogspot.com/
找出Top K个数 - 就像以往 - 51CTO技术博客
http://dongdong1314.blog.51cto.com/389953/366991
zz:查找一段文字中最长的重复字串 – 编程珠玑(排过序的后缀数组的应用) | Bruce is coding !
https://www.cse.msu.edu/~liyang5/?p=53
统计单词出现次数--hash表,二叉树,标准库 - - 博客频道 - CSDN.NET
http://blog.csdn.net/lalor/article/details/7001357
十道海量数据处理面试题与十个方法大总结 - 结构之法 算法之道 - 博客频道 - CSDN.NET
http://blog.csdn.net/v_JULY_v/article/details/6279498
再谈脏字过滤(基于hash的优化算法) - 边城浪 - 博客园
http://www.cnblogs.com/yeerh/archive/2011/10/20/2219035.html
再度提升!.NET脏字过滤算法 - xingd - 博客园
http://www.cnblogs.com/xingd/archive/2008/02/01/1061800.html
高效的关键字过滤及查找算法(Trie KO Hash) - 边城浪 - 博客园
http://www.cnblogs.com/yeerh/archive/2011/08/24/2152607.html
海量数据实时计算随笔 | 搜索引擎技术博客
http://flychen.com/article/massive-data-real-time-computation-essays.html
search engine中的duplicate detection | In Programming We Trust
http://ptsolmyr.com/2010/08/13/duplicate_detection/
刘未鹏 新书 《暗时间》 (全)
http://www.douban.com/group/topic/20932914/
Storm :twitter的实时数据处理工具 - 论坛阅读
http://www.starming.com/index.php?action=plugin&v=wave&mid=34483&tid=15965
z
No comments:
Post a Comment