2008年春季学期
时间 | 星期五下午3-4节 |
地点 | 数学馆西113 |
教师 | 罗迒哉 |
邮件 | hzluo (at) sei (dot) ecnu.edu.cn |
电话 | 62235089 |
办公室 | 数学馆东110 |
答疑(Office Hour) | 星期三9:00-11:00,星期五17:00-18:00 |
课件 |
阅读材料 | 相关链接 |
|
教材:http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html(请自行下载电子版)
英语分词(tokenize)的flex源程序:下载 可执行文件 有关中文分词的论文:下载 编辑距离:http://www.merriampark.com/ld.htm Soundex:http://www.creativyst.com/Doc/Articles/SoundEx1/SoundEx1.htm Using Common Hypertext Links to Identify the Best Phrasal Description of Target Web Documents 项目申请书样例(注意:并不意味着这个申请书可以拿满分!) |
计算机科学引论:主页
lyx: http://www.lyx.org |
1、海量URL库
搜索引擎必须要下载和处理大量的文件,每个文件由一个URL表示。于是,搜索引擎就需要操作大量的URL。对互联网上的搜索引擎来说,URL的数量可能在200-1000亿,是一个非常巨大的数字。但是,搜索引擎必须要高效地管理这些URL才能实现成预期的功能。不过,要管理这么多的URL并不是一个简单的问题。主要需要解决以下问题:(1)快速查询某个URL是否已经在数据库中。由于URL数量巨大,查询操作可能比较耗时。但是,搜索引擎往往使用大量的并行进程来处理网页,导致对数据库的访问频率非常高,可能达数万次/秒的级别。如何组织索引实现这么高的性能是一个大问题。(2)快速插入一个URL。由于网页经常有更新,插入URL也是常用操作。一般来说,可以快速插入的索引结构往往难以快速查询,可以快速查询的索引结构则往往难以快速插入。如何组织索引同时实现快速插入和快速查询就是一个难题。(3)分布式存储和运算。由于URL数据库规模太大,单机一般难以满足性能需求。包括存储和计算能力都是如此。此时,实现分布式存储和运算就是一个解决方案。但是,在访问和更新都如此频繁的数据库上,分布式系统如何保证数据一致性、可扩展性、容错和容灾能力就是一个大问题。
2、新闻网页配图和标题提取
很多网页,特别是新闻网页,经常配有图片、视频等多媒体内容。但是,网页配图并不一定与其内容相关。大多数配图是网页的结构元素而非语义元素,如列表前的圆点、转角、分割线等。还有另一些是广告或以广告目的放置的。真正与网页内容相关的图片等多媒体内容只占很小一部分。如何通过分析网页把这些与内容相关的配图及其标题提取出来是一个大问题。
3、网站检测
一个网站可能有很多个相互链接的页面。很多网站有一个独立域名。但是,现在大量个人主页、blog等服务的推出,很多网站并不一定拥有独立域名,而只是拥有某个域名下的一个目录。要对互联网数据进行深入的处理,这些相对独立的网站结构就必须要被提取出来。这并不是一个简单的工作,因为网页之间的链接规律并不稳定,各网站使用的目录结构也千奇百怪。要准确检测这些网站,必须使用一些智能技术。
4、对象标识
同一个名字,特别是中国人名,可能对应着多个不同的对象。同时,一些略有差异的名字却可能对应着同一个对象。要准确地理解文档内容,系统必须掌握这些信息。如何通过对数据的分析找出这些信息并不是一个简单的工作。
本课程使用Christopher D. Manning, Prabhakar Raghavan和Hinrich Schütze所著教材“Introduction to Information Retrieval”,部分幻灯片使用教材所附课件材料。