梦想破碎是没有声音的,它只是缓慢又沉默地离开了。 by 苏更生

标签:谷歌黑板报

数学之美

数学之美 二十四 从全球导航到输入法——谈谈动态规划

动态规划和我们的拼音输入法又有什么关系呢?其实我们可以将汉语输入看成一个通信问题,而输入法则是一个将拼音串到汉字串的转换器。每一个拼音可以对应多个汉字,一个拼音串就可以对应图论中的一张图。 今年九月二十三日,Google、T-Mobile 和 HTC 宣布了第一款基于开源操作系统...

googler 3年前 (2014-05-08) 5582℃ 1评论 13喜欢

数学之美

数学之美系列 二十三 输入一个汉字需要敲多少个键 — 谈谈香农第一定律

如果我们把汉字组成词,再以词为单位统计信息熵,那么,每个汉字的平均信息熵将会减少。这样,平均输入一个字可以少敲零点几次键盘。不考虑词的上下文相关 性,以词为单位统计,汉字的信息熵大约是8 比特作用,也就是说,以词为单位输入一个汉字平均只需要敲 8/4.7=1.7 次 今天各种汉字...

googler 3年前 (2014-05-08) 2731℃ 0评论 3喜欢

数学之美

数学之美系列二十二:由电视剧《暗算》所想到的 — 谈谈密码学的数学原理

不管怎么样,我们今天用的所谓最可靠的加密方法的数学原理其实就这么简单,一点也不神秘,无非是找几个大素数做一些乘除和乘方运算就可以了。 前一阵子看了电视剧《暗算》,蛮喜欢它的构思和里面的表演。其中有一个故事提到了密码学,故事本身不错,但是有点故弄玄虚。不过有一点是对的,就是当今的密...

googler 3年前 (2014-05-08) 3166℃ 0评论 6喜欢

数学之美

数学之美系列二十一:布隆过滤器(Bloom Filter)

布隆过滤器决不会漏掉任何一个在黑名单中的可疑地址。但是,它有一条不足之处。也就是它有极小的可能将一个不在黑名单中的电子邮件地址判定为在黑名单中,因为有可能某个好的邮件地址正巧对应个八个都被设置成一的二进制位。好在这种可能性很小,我们把它称为误识概率。 在日常生活中,包括在设计计算...

googler 3年前 (2014-05-08) 3483℃ 0评论 5喜欢

数学之美

数学之美系列十九:马尔可夫链的扩展 贝叶斯网络 (Bayesian Networks)

贝叶斯网络在图像处理、文字处理、支持决策等方面有很多应用。在文字处理方面,语义相近的词之间的关系可以用一个贝叶斯网络来描述。我们利用贝叶斯网络,可以找出近义词和相关的词,在 Google 搜索和 Google 广告中都有直接的应用。 我们在前面的系列中多次提到马尔可夫链 (Mar...

googler 3年前 (2014-05-08) 8265℃ 3评论 1喜欢

数学之美

数学之美系列十七:闪光的不一定是金子 谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)

搜索引擎的作弊者所作的事,就如同在手机信号中加入了噪音,使得搜索结果的排名完全乱了。但是,这种人为加入的噪音并不难消除,因为作弊者的方法不可能是随机的(否则就无法提高排名了)。而且,作弊者也不可能是一天换一种方法,即作弊方法是时间相关的。 自从有了搜索引擎,就有了针对搜索引擎网页...

googler 3年前 (2014-05-08) 2420℃ 1评论 6喜欢

数学之美

数学之美系列十六:不要把所有的鸡蛋放在一个篮子里 — 谈谈最大熵模型

最大熵原理指出,当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。在这种情况下,概率分布最均匀,预测的风险最小,因为这时概率分布的信息熵最大,所以人们称这种模型叫“最大熵模型” 。 [我们在投资时常常讲不要把所有的鸡...

googler 3年前 (2014-05-08) 2459℃ 0评论 4喜欢

数学之美

数学之美系列十五:繁与简 自然语言处理的几位精英

柯林斯从师于自然语言处理大师马库斯,现任麻省理工学院副教授(别看他是副教授,他的水平在当今自然语言处理领域是数一数二的),博士期间,柯林斯写了一 个后来以他名字命名的自然语言文法分析器 (sentence parser),可以将书面语的每一句话准确地进行文法分析。 我在数学之美系...

googler 3年前 (2014-05-08) 2427℃ 1评论 5喜欢

数学之美

数学之美系列十四:谈谈数学模型的重要性

1. 一个正确的数学模型应当在形式上是简单的。 2. 一个正确的模型在它开始的时候可能还不如一个精雕细琢过的错误的模型来的准确,但是,如果我们认定大方向是对的,就应该坚持下去。 3. 大量准确的数据对研发很重要。 4. 正确的模型也可能受噪音干扰,而显得不准确 [注:一直关注数学...

googler 3年前 (2014-05-08) 2234℃ 1评论 7喜欢

数学之美

数学之美系列十三:信息指纹及其应用

信息指纹的用途远不止网址的消重,信息指纹的的孪生兄弟是密码。信息指纹的一个特征是其不可逆性, 也就是说, 无法根据信息指纹推出原有信息,这种性质, 正是网络加密传输所需要的。比如说,一个网站可以根据用户的Cookie 识别不同用户,这个 cookie 就是信息指纹。 任何一段信息...

googler 3年前 (2014-05-08) 1947℃ 0评论 7喜欢

数学之美

数学之美系列九:如何确定网页和查询的相关性

现在任何一个搜索引擎都包含几十万甚至是上百万个多少有点关系的网页。那么哪个应该排在前面呢?显然我们应该根据网页和查询“原子能的应用” 的相关性对这些网页进行排序。因此,这里的关键问题是如何度量网页和查询的相关性。 [我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量...

googler 3年前 (2014-05-06) 4959℃ 1评论 1喜欢

数学之美

数学之美系列八:贾里尼克的故事和现代语言处理

贾里尼克在康乃尔十年磨一剑,潜心研究信息论,终于悟出了自然语言处理的真谛。贾里尼克和波尔,库克以及拉维夫对人类的另一大贡献是 BCJR 算法,这是今天数字通信中应用的最广的两个算法之一(另一个是维特比算法)。有趣的是,这个算法发明了二十年后,才得以广泛应用 读者也许注意到了,我们...

googler 3年前 (2014-05-06) 1836℃ 0评论 4喜欢

数学之美

数学之美系列七:信息论在信息处理中的应用

信息熵正是对不确定性的衡量,因此信息熵可以直接用于衡量统计语言模型的好坏。贾里尼克从信息熵出发,定义了一个称为语言模型复杂度(Perplexity) 的概念,直接衡量语言模型的好坏。一个模型的复杂度越小,模型越好。 我们已经介绍了信息熵,它是信息论的基础,我们这次谈谈信息论在自然...

googler 3年前 (2014-05-06) 5693℃ 0评论 4喜欢

数学之美

数学之美系列六:图论和网络爬虫 (Web Crawlers)

图论中所讨论的的图由一些节点和连接这些节点的弧组成。隐含在文字背后的网址称为“ 超链接” ,有了超链接,我们可以从任何一个网页出发,用图的遍历算法,自动地访问到每一个网页并把它们存起来。完成这个功能的程序叫做网络爬虫。 [离散数学是当代数学的一个重要分支,也是计算机科学的数学基础...

googler 3年前 (2014-05-06) 4275℃ 0评论 6喜欢

机器学习

谈 Page Rank – Google 的民主表决式网页排名技术

大家可能听说过,Google 革命性的发明是它名为 “Page Rank” 的网页排名算法,这项技术彻底解决了搜索结果排序的问题。其实最先试图给互联网上的众多网站排序的并不是 Google。Yahoo! 公司最初第一个用目录分类的方式让用户通过互联网检索信息,但由于当时计算机容量...

googler 3年前 (2014-05-06) 2152℃ 0评论 1喜欢