注意:这个问题是流氓,我本人不是流氓(The proof is beyond the scope of this blog and the interested young female readers may contanct the author for details)。
背景:google的科学家吴军写了一系列关于NLP和IR中的数学的文章,题为《数学之美》。(你想要啊?你要是想要的话你就google嘛,你不google别人怎么知道你想要呢,虽然你很有诚意地看着屏幕,可是你还是要google的。你真的想要吗?那你就google去吧)
文章写得很好,对我很有用,但是有几处错别字,所以我的问题是:既然作者讨论了如此威力强大的NLP数学工具,为什么不用这些工具对自己的文章进行分析,找出和自动改正错别字?(对不起,各位观众,写到这里我发觉这个web app有一个bug:编辑框的状态和上面格式按钮的状态不同步啊,比如有时上面不是黑体,下面打字出黑体,哪个老大出来debug一下嘛,我不懂HTML) 比如说,《系列一 -- 统计语言模型》里讲到可以用一个模型评估一串文字是人话的可能性。既然你都有这个程序了,你把每个句子放进去评估一下,有错别字的句子成为人话的可能性不是特别小啊?还有,你还可以进一步用那个Markov chain把错别字dia出来嘛。
流氓耍完了(是这个问题耍流氓哈),我qie洗澡qie了。
附录:数学之美们的地址们
1. 统计语言模型
2. 谈谈中文分词
3. 隐含马尔可夫模型在语言处理中的应用
4. 怎样度量信息
5. 简单之美:布尔代数和搜索引擎的索引
6. 图论和网络爬虫 (Web Crawlers)
7. 信息论在信息处理中的应用
8. 贾里尼克的故事和现代语言处理
9. 如何确定网页和查询的相关性
10. 有限状态机和地址识别
11. Google 阿卡 47 的制造者阿米特 . 辛格博士
12. 余弦定理和新闻的分类
13. 信息指纹及其应用
14. 谈谈数学模型的重要性
15. 繁与简 自然语言处理的几位精英
16. 不要把所有的鸡蛋放在一个篮子里 -- 谈谈最大熵模型
后记:
我无语了(因此以下的文字各位就当我在放屁好了(放屁都用文字,好有文化!)),这个编辑器bug实在太多了。我真不知道SalesForce的用户们是咋在混哦?不会是喜欢自虐吧?
Subscribe to:
Post Comments (Atom)
2 comments:
If you were likely to show your opinion tolerance, you would get more
respect from the others potentially.
If you were likely to show your opinion tolerance, you would get more
respect from the others potentially.
Post a Comment