梦想破碎是没有声音的,它只是缓慢又沉默地离开了。 by 苏更生

 分类:数学之美

MIT牛人解说数学体系

为什么要深入数学的世界 作为计算机的学生,我没有任何企图要成为一个数学家。我学习数学的目的,是要 想爬上巨人的肩膀,希望站在更高的高度,能把我自己研究的东西看得更深广一些。说起来,我在刚来这个学校的时候,并没有预料到我将会有一个深入数学的旅 程。我的导师最初希望我去做的题目,是对...

cricode 1年前 (2016-03-29) 2481℃ 0评论 116喜欢

我们需要怎样的数学教育?

我们需要怎样的数学教育?
注:这篇文章里有很多个人观点,带有极强的主观色彩。其中一些思想不见得是正确的,有一些话也是我没有资格说的。我只是想和大家分享一下自己的一些想法。大家记得保留自己的见解。也请大家转载时保留这段话。 我不是一个数学家。我甚至连数学专业的人都不是。我是一个纯粹打酱油的数学爱好者,只是比...

Jay13 2年前 (2015-09-23) 2721℃ 0评论 20喜欢

澳门必读│赌场胜率揭秘

澳门必读│赌场胜率揭秘
一来到澳门,就会发现这是一座名副其实的赌城,在这30多平方公里的弹丸之地上,遍布着十几家大型赌场,在码头、海关、机场外面的停车场上,一辆辆由各家赌场经营的等待着乘客的免费巴士排起了长龙,很多来澳门的游客除了会花些时间光顾一下澳门的几个标志性景点“大三巴牌坊” “妈阁庙”以外,剩余...

Jay13 3年前 (2014-09-14) 5252℃ 1评论 9喜欢

《数学之美》——机器学习最佳入门教程

《数学之美》——机器学习最佳入门教程
数学之美系列 目录 作者:吴军, Google研究员;   来源:Google黑板报   快课网整理 数学之美 一 统计语言模型 数学之美 二 谈谈中文分词  数学之美 三 隐含马尔可夫模型在语言处理中的应用  数学之美 四 怎样度量信息?  数学之美 五 简单之美:布尔代数和搜...

Jay13 3年前 (2014-08-11) 10402℃ 3评论 21喜欢

数学之美番外篇:平凡而又神奇的贝叶斯方法

概率论只不过是把常识用数学公式表达了出来。 ——拉普拉斯 记得读本科的时候,最喜欢到城里的计算机书店里面去闲逛,一逛就是好几个小时;有一次,在书店看到一本书,名叫贝叶斯方法。当时数学系的课程还没有学到概率统计。我心想,一个方法能够专门写出一本书来,肯定很牛逼。后来,我发现当初的那...

googler 3年前 (2014-05-08) 7855℃ 2评论 10喜欢

数学之美 二十四 从全球导航到输入法——谈谈动态规划

动态规划和我们的拼音输入法又有什么关系呢?其实我们可以将汉语输入看成一个通信问题,而输入法则是一个将拼音串到汉字串的转换器。每一个拼音可以对应多个汉字,一个拼音串就可以对应图论中的一张图。 今年九月二十三日,Google、T-Mobile 和 HTC 宣布了第一款基于开源操作系统...

googler 3年前 (2014-05-08) 5582℃ 1评论 13喜欢

数学之美系列 二十三 输入一个汉字需要敲多少个键 — 谈谈香农第一定律

如果我们把汉字组成词,再以词为单位统计信息熵,那么,每个汉字的平均信息熵将会减少。这样,平均输入一个字可以少敲零点几次键盘。不考虑词的上下文相关 性,以词为单位统计,汉字的信息熵大约是8 比特作用,也就是说,以词为单位输入一个汉字平均只需要敲 8/4.7=1.7 次 今天各种汉字...

googler 3年前 (2014-05-08) 2731℃ 0评论 3喜欢

数学之美系列二十二:由电视剧《暗算》所想到的 — 谈谈密码学的数学原理

不管怎么样,我们今天用的所谓最可靠的加密方法的数学原理其实就这么简单,一点也不神秘,无非是找几个大素数做一些乘除和乘方运算就可以了。 前一阵子看了电视剧《暗算》,蛮喜欢它的构思和里面的表演。其中有一个故事提到了密码学,故事本身不错,但是有点故弄玄虚。不过有一点是对的,就是当今的密...

googler 3年前 (2014-05-08) 3166℃ 0评论 6喜欢

“不给力啊,老湿!”:RSA加密与破解

作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明。谢谢! 加密和解密是自古就有技术了。经常看到侦探电影的桥段,勇敢又机智的主角,拿着一长串毫无意义的数字苦恼,忽然灵光一闪,翻出一本厚书,将第一个数字对应页码数,第二个数字...

googler 3年前 (2014-05-08) 4444℃ 4评论 1喜欢

数学之美系列二十一:布隆过滤器(Bloom Filter)

布隆过滤器决不会漏掉任何一个在黑名单中的可疑地址。但是,它有一条不足之处。也就是它有极小的可能将一个不在黑名单中的电子邮件地址判定为在黑名单中,因为有可能某个好的邮件地址正巧对应个八个都被设置成一的二进制位。好在这种可能性很小,我们把它称为误识概率。 在日常生活中,包括在设计计算...

googler 3年前 (2014-05-08) 3483℃ 0评论 5喜欢

数学之美系列二十:自然语言处理的教父 马库斯

马库斯利用自己的影响力让美国自然科学基金会和 DARPA 出钱立项,建立的数百个标准的语料库。其中最著名的是 PennTree Bank 的语料库。PennTree Bank 覆盖多种语言。每一种语言,它有几十万到几百万字的有代表性的句子,每个句子都有的词性标注,语法分析树等等。...

googler 3年前 (2014-05-08) 2435℃ 0评论 4喜欢

数学之美系列十九:马尔可夫链的扩展 贝叶斯网络 (Bayesian Networks)

贝叶斯网络在图像处理、文字处理、支持决策等方面有很多应用。在文字处理方面,语义相近的词之间的关系可以用一个贝叶斯网络来描述。我们利用贝叶斯网络,可以找出近义词和相关的词,在 Google 搜索和 Google 广告中都有直接的应用。 我们在前面的系列中多次提到马尔可夫链 (Mar...

googler 3年前 (2014-05-08) 8265℃ 3评论 1喜欢

数学之美系列十八:矩阵运算和文本处理中的分类问题

在文本分类中,另一种办法是利用矩阵运算中的奇异值分解(Singular Value Decomposition,简称 SVD) 。现在让我们来看看奇异值分解是怎么回事。首先,我们可以用一个大矩阵A来描述这一百万篇文章和五十万词的关联性。这个矩阵中,每一行对应一篇文 章,每一列对应...

googler 3年前 (2014-05-08) 2405℃ 0评论 5喜欢

数学之美系列十七:闪光的不一定是金子 谈谈搜索引擎作弊问题(Search Engine Anti-SPAM)

搜索引擎的作弊者所作的事,就如同在手机信号中加入了噪音,使得搜索结果的排名完全乱了。但是,这种人为加入的噪音并不难消除,因为作弊者的方法不可能是随机的(否则就无法提高排名了)。而且,作弊者也不可能是一天换一种方法,即作弊方法是时间相关的。 自从有了搜索引擎,就有了针对搜索引擎网页...

googler 3年前 (2014-05-08) 2420℃ 1评论 6喜欢

数学之美系列十六:不要把所有的鸡蛋放在一个篮子里 — 谈谈最大熵模型

最大熵原理指出,当我们需要对一个随机事件的概率分布进行预测时,我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假设。在这种情况下,概率分布最均匀,预测的风险最小,因为这时概率分布的信息熵最大,所以人们称这种模型叫“最大熵模型” 。 [我们在投资时常常讲不要把所有的鸡...

googler 3年前 (2014-05-08) 2459℃ 0评论 4喜欢

数学之美系列十五:繁与简 自然语言处理的几位精英

柯林斯从师于自然语言处理大师马库斯,现任麻省理工学院副教授(别看他是副教授,他的水平在当今自然语言处理领域是数一数二的),博士期间,柯林斯写了一 个后来以他名字命名的自然语言文法分析器 (sentence parser),可以将书面语的每一句话准确地进行文法分析。 我在数学之美系...

googler 3年前 (2014-05-08) 2427℃ 1评论 5喜欢

数学之美系列十四:谈谈数学模型的重要性

1. 一个正确的数学模型应当在形式上是简单的。 2. 一个正确的模型在它开始的时候可能还不如一个精雕细琢过的错误的模型来的准确,但是,如果我们认定大方向是对的,就应该坚持下去。 3. 大量准确的数据对研发很重要。 4. 正确的模型也可能受噪音干扰,而显得不准确 [注:一直关注数学...

googler 3年前 (2014-05-08) 2234℃ 1评论 7喜欢

数学之美系列十三:信息指纹及其应用

信息指纹的用途远不止网址的消重,信息指纹的的孪生兄弟是密码。信息指纹的一个特征是其不可逆性, 也就是说, 无法根据信息指纹推出原有信息,这种性质, 正是网络加密传输所需要的。比如说,一个网站可以根据用户的Cookie 识别不同用户,这个 cookie 就是信息指纹。 任何一段信息...

googler 3年前 (2014-05-08) 1947℃ 0评论 7喜欢

数学之美系列十二:余弦定理和新闻的分类

当两条新闻向量夹角的余弦等于一时,这两条新闻完全重复(用这个办法可以删除重复的网页);当夹角的余弦接近于一时,两条新闻相似,从而可以归成一类;夹角的余弦越小,两条新闻越不相关。 余弦定理和新闻的分类似乎是两件八杆子打不着的事,但是它们确有紧密的联系。具体说,新闻的分类很大程度上依...

googler 3年前 (2014-05-08) 2303℃ 0评论 4喜欢

数学之美系列十:有限状态机和地址识别

使用有限状态机识别地址,关键要解决两个问题,即通过一些有效的地址建立状态机,以及给定一个有限状态机后,地址字串的匹配算法。好在这两个问题都有现成的算法。有了关于地址的有限状态机后,我们就可又用它分析网页,找出网页中的地址部分,建立本地搜索的数据库。 地址的识别和分析是本地搜索必不...

googler 3年前 (2014-05-08) 3234℃ 0评论 2喜欢

数学之美系列九:如何确定网页和查询的相关性

现在任何一个搜索引擎都包含几十万甚至是上百万个多少有点关系的网页。那么哪个应该排在前面呢?显然我们应该根据网页和查询“原子能的应用” 的相关性对这些网页进行排序。因此,这里的关键问题是如何度量网页和查询的相关性。 [我们已经谈过了如何自动下载网页、如何建立索引、如何衡量网页的质量...

googler 3年前 (2014-05-06) 4959℃ 1评论 1喜欢

数学之美系列八:贾里尼克的故事和现代语言处理

贾里尼克在康乃尔十年磨一剑,潜心研究信息论,终于悟出了自然语言处理的真谛。贾里尼克和波尔,库克以及拉维夫对人类的另一大贡献是 BCJR 算法,这是今天数字通信中应用的最广的两个算法之一(另一个是维特比算法)。有趣的是,这个算法发明了二十年后,才得以广泛应用 读者也许注意到了,我们...

googler 3年前 (2014-05-06) 1836℃ 0评论 4喜欢

数学之美系列七:信息论在信息处理中的应用

信息熵正是对不确定性的衡量,因此信息熵可以直接用于衡量统计语言模型的好坏。贾里尼克从信息熵出发,定义了一个称为语言模型复杂度(Perplexity) 的概念,直接衡量语言模型的好坏。一个模型的复杂度越小,模型越好。 我们已经介绍了信息熵,它是信息论的基础,我们这次谈谈信息论在自然...

googler 3年前 (2014-05-06) 5693℃ 0评论 4喜欢

数学之美系列六:图论和网络爬虫 (Web Crawlers)

图论中所讨论的的图由一些节点和连接这些节点的弧组成。隐含在文字背后的网址称为“ 超链接” ,有了超链接,我们可以从任何一个网页出发,用图的遍历算法,自动地访问到每一个网页并把它们存起来。完成这个功能的程序叫做网络爬虫。 [离散数学是当代数学的一个重要分支,也是计算机科学的数学基础...

googler 3年前 (2014-05-06) 4275℃ 0评论 6喜欢

数学之美系列五:布尔代数和搜索引擎的索引

早期的文献检索查询系统大多基于数据库,严格要求查询语句符合布尔运算。今天的搜索引擎相比之下要聪明的多,它自动把用户的查询语句转换成布尔运算的算式。当然在查询时,不能将每篇文献扫描一遍,来看看它是否满足上面三个条件,因此需要建立一个索引。 数学之美系列五 — 简单之美:...

googler 3年前 (2014-05-06) 2209℃ 0评论 3喜欢

数学之美系列四:怎样度量信息?

信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如一本五十万字的中文书到底有多少信息量。直到 1948  年,香农提出了“ 信息熵”(sh ā ng)  的概念,才解决了对信息的量化度量问题。 前言: Google 一直以 “整合全球信息,...

googler 3年前 (2014-05-06) 3124℃ 0评论 6喜欢

数学之美系列三:隐含马尔可夫模型在语言处理中的应用

在利用隐含马尔可夫模型解决语言处理问题前,先要进行模型的训练。隐含马尔可夫模型在处理语言问题早期的成功应用是语音识别。  八十年代李开复博士坚持采用隐含马尔可夫模型的框架,成功地开发了世界上第一个大词汇量连续语音识别系统 Sphinx。 前言:隐含马尔可夫模型是一个数学模型,到目...

googler 3年前 (2014-05-06) 3233℃ 1评论 3喜欢

数学之美系列二:谈谈中文分词

一般来讲,根据不同应用,汉语分词的颗粒度大小应该不同。比如,在机器翻译中,颗粒度应该大一些,“北京大学” 就不能被分成两个词。而在语音识别中,“北京大学” 一般是被分成两个词。因此,不同的应用,应该有不同的分词系统。 谈谈中文分词—–  统计语言模型在中文...

googler 3年前 (2014-05-06) 3367℃ 0评论 2喜欢

数学之美系列一:统计语言模型

前言 也许大家不相信,数学是解决信息检索和自然语言处理的最好工具。它能非常清晰地描述这些领域的实际问题并且给出漂亮的解决办法。每当人们应用数学工具解决一个语言问题时,总会感叹数学之美。我们希望利用 Google 中文黑板报这块园地,介绍一些数学工具,以及我们是如何利用这些工具来开...

googler 3年前 (2014-05-06) 5541℃ 1评论 21喜欢