Wednesday, November 30, 2011

Daily Bookmarks 20111130

用uniq命令求多个文本文件的交集,并集和差集_骚人默客_新浪博客
http://blog.sina.com.cn/s/blog_5133d4dd0100lemw.html

python有没有什么包能判断文本相似度啊?
http://www.douban.com/group/topic/5712159/

索引和查找
ir.hit.edu.cn/phpwebsite/index.php?module... - 轉為繁體網頁

Larbin[1]hashtable checker 源代码分析  quweiprotoss的日志  网易博客 vert Good site
http://quweiprotoss.blog.163.com/blog/static/4088288320103190243558/
由Larbin到关于海量数据处理_sunshinesandy_百度空间
http://hi.baidu.com/sunshinesandy/blog/item/4aab0e0e0dc43e2ce82488c7.html
海量数据 » 码农 | 关注互联网,算法,开发
http://blog.redfox66.com/post/category/search-tech/massdata
网络爬虫--larbin - to myself 的分类学习日志 - C++博客
http://www.cppblog.com/toMyself/archive/2010/08/28/125073.aspx


7H2O | 汽水森林
http://www.7h2o.com/category/python/

smallseg - DFA Based Chinese Word Segmentation Library of Python and Java - Google Project Hosting
http://code.google.com/p/smallseg/

用python简单实现中文分词 - FreeDoDo.com
http://www.freedodo.com/2011/03/28/%E7%94%A8python%E7%AE%80%E5%8D%95%E5%AE%9E%E7%8E%B0%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D.html

TF-IDF实现自动提取标签 - 快乐学习 - 不烦恼的博客
http://bufannao.com/archives/TF-IDF.html

网络内容推荐系统 | 信研所::管理信息系统相关专业分享社区
http://www.misins.org/wcrs

TF-IDF算法实验 - MrYang's Blog - 博客大巴
http://mryang.blogbus.com/logs/45675845.html
文本分析漫谈-分类器中的关键词提取 « UGC广播站

http://ugc.renren.com/2010/02/01/keywords-extraction-overview/

Automatic Keyword Extraction - Homepage of Cheng-Zhi Zhang
https://sites.google.com/site/zhangczhomepage/keyword-extraction



z

No comments: