梦想破碎是没有声音的,它只是缓慢又沉默地离开了。 by 苏更生

 分类:机器学习

扒一扒”极客头条”的排名算法

  在这个信息爆炸的时代,我们从未缺乏信息,我们缺乏的是如何在最短是时间内从海量的噪音数据中找到对自己真正有用信息的能力。当然,我们希望有这么一个推荐引擎,能将我们自己喜欢的内容推送到我们的眼前,免除我们自己挖掘信息的烦恼。 极客头条通过用户自荐和编辑推荐两种方式,干...

Jay13 3年前 (2014-06-19) 5319℃ 4评论 3喜欢

基于用户投票的排名算法(六):贝叶斯平均

上一篇介绍了“威尔逊区间”,它解决了投票人数过少、导致结果不可信的问题。   举例来说,如果只有 2 个人投票,”威尔逊区间”的下限值会将赞成票的比例大幅拉低。这样做固然保证了排名的可信性,但也带来了另一个问题:排行榜前列总是那些票...

Jay13 3年前 (2014-06-19) 2805℃ 0评论 3喜欢

基于用户投票的排名算法(四):牛顿冷却定律

这个系列的前三篇,介绍了 Hacker News,Reddit 和 Stack Overflow 的排名算法。   今天,讨论一个更一般的数学模型。   这个系列的每篇文章,都是可以分开读的。但是,为了保证所有人都在同一页上,我再说一下,到目前为止,我们用不同方法,企图解决的都是...

Jay13 3年前 (2014-06-19) 3380℃ 0评论 3喜欢

基于用户投票的排名算法(三):Stack Overflow

Reddit 排名算法的特点是,用户可以投赞成票,也可以投反对票。也就是说,除了时间因素以外,只要考虑两个变量就够了。   但是,还有一些特定用途的网站,必须考虑更多的因素。世界排名第一的程序员问答社区 Stack Overflow,就是这样一个网站。   你在上面提出各种关于...

Jay13 3年前 (2014-06-19) 2998℃ 1评论 5喜欢

基于用户投票的排名算法(二):Reddit

Hacker News 排名算法的特点是用户只能投赞成票,但是很多网站还允许用户投反对票。就是说,除了好评以外,你还可以给某篇文章差评。   Reddit 是美国最大的网上社区,它的每个帖子前面都有向上和向下的箭头,分别表示”赞成”和”反对&...

Jay13 3年前 (2014-06-19) 2746℃ 0评论 7喜欢

基于用户投票的排名算法(一):Delicious和Hacker News

互联网的出现,意味着”信息大爆炸”。   用户担心的,不再是信息太少,而是信息太多。如何从大量信息之中,快速有效地找出最重要的内容,成了互联网的一大核心问题。   各种各样的排名算法,是目前过滤信息的主要手段之一。对信息进行排名,意味着将信息按照重要性依...

Jay13 3年前 (2014-06-19) 2976℃ 0评论 8喜欢

朴素贝叶斯分类器的应用

作者: 阮一峰 日期: 2013年12月16日 生活中很多场合需要用到分类,比如新闻分类、病人分类等等。 本文介绍朴素贝叶斯分类器(Naive Bayes classifier),它是一种简单有效的常用分类算法。 一、病人分类的例子 让我从一个例子开始讲起,你会看到贝叶斯...

googler 3年前 (2014-05-08) 1953℃ 0评论 3喜欢

贝叶斯推断及其互联网应用(三):拼写检查

作者: 阮一峰 日期: 2012年10月16日 (这个系列的第一部分介绍了贝叶斯定理,第二部分介绍了如何过滤垃圾邮件,今天是第三部分。) 使用Google的时候,如果你拼错一个单词,它会提醒你正确的拼法。 比如,你不小心输入了seperate。 Google告诉你,这个词...

googler 3年前 (2014-05-08) 2306℃ 0评论 4喜欢

贝叶斯推断及其互联网应用(一):定理简介

作者: 阮一峰 日期: 2011年8月25日 一年前的这个时候,我正在翻译Paul Graham的《黑客与画家》。 那本书的第八章,写了一个非常具体的技术问题—-如何使用贝叶斯推断过滤垃圾邮件(英文版)。 我没完全看懂那一章。当时是硬着头皮,按照字面意思把它译出...

googler 3年前 (2014-05-08) 3047℃ 0评论 2喜欢

数学之美番外篇:平凡而又神奇的贝叶斯方法

概率论只不过是把常识用数学公式表达了出来。 ——拉普拉斯 记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时;有一次,在书店看到一本书,名叫贝叶斯方法。当时数学系的课程还没有学到概率统计。我心想,一个方法能够专门写出一本书来,肯定很牛逼。后来,我发现当初的那...

googler 3年前 (2014-05-08) 7855℃ 2评论 10喜欢

TF-IDF与余弦相似性的应用(三):自动摘要

作者: 阮一峰 日期: 2013年3月26日 有时候,很简单的数学方法,就可以完成很复杂的任务。 这个系列的前两部分就是很好的例子。仅仅依靠统计词频,就能找出关键词和相似文章。虽然它们算不上效果最好的方法,但肯定是最简便易行的方法。 今天,依然继续这个主题。讨论如何通过词频...

googler 3年前 (2014-05-08) 1605℃ 0评论 1喜欢

TF-IDF与余弦相似性的应用(二):找出相似文章

作者: 阮一峰 日期: 2013年3月21日 上一次,我用TF-IDF算法自动提取关键词。 今天,我们再来研究另一个相关的问题。有些时候,除了找到关键词,我们还希望找到与原文章相似的其他文章。比如,”Google新闻”在主新闻下方,还提供多条相似的新...

googler 3年前 (2014-05-08) 1904℃ 0评论 2喜欢

TF-IDF与余弦相似性的应用(一):自动提取关键词

作者: 阮一峰 日期: 2013年3月15日 这个标题看上去好像很复杂,其实我要谈的是一个很简单的问题。 有一篇很长的文章,我要用计算机提取它的关键词(Automatic Keyphrase extraction),完全不加以人工干预,请问怎样才能正确做到? 这个问题涉及...

googler 3年前 (2014-05-08) 2054℃ 0评论 4喜欢

谈 Page Rank – Google 的民主表决式网页排名技术

大家可能听说过,Google 革命性的发明是它名为 “Page Rank” 的网页排名算法,这项技术彻底解决了搜索结果排序的问题。其实最先试图给互联网上的众多网站排序的并不是 Google。Yahoo! 公司最初第一个用目录分类的方式让用户通过互联网检索信息,但由于当时计算机容量...

googler 3年前 (2014-05-06) 2152℃ 0评论 1喜欢