多媒体搜索引擎

华东师范大学软件学院

2010年春季学期

关于教师开放日：我一般9:00-12:00、15:00-18:00都会在办公室，包括星期六和星期日。如有问题都可以到办公室来。在去办公室前，可以先打个电话确认是否有人。
4月30号五一节放假，不上课。
5月7号课改在数学馆201，由IBM的曾学智老师做《用TSAM构建和管理云》的报告。
接学院通知，从即日起，上课教室改为B226。
6月25号复习，7月2号期末考试。考试地点理科楼B226。

课件

阅读材料

1、URL归一化

通过网络爬虫可能会发现很多URL。理论上每个不同的URL应当指向不同的页面。但是，有相当一部分页面，它们可能有多个不同的URL。例如下面这两个URL就明显是同一个页面：

下面的两个URL也是指向同一个页面：

下面的两个URL又是另一种情况：

以上这些URL和页面不一一对应的问题可能在搜索引擎、网络数据挖掘等应用中产生不良影响，所以需要把这些指向同一页面但却不同的URL归一化成同一个。

2、适合存储海量小文件的文件系统

当系统中存储了太大数量的文件（例如：100万个以上的文件）后，系统的文件操作性能可能极大下降。设计一个文件系统，可以在存储了海量文件之后仍然保持较高的文件操作性能。

3、网页标题/发表时间提取

网页中一般都会标明发表时间和标题，如下图中红线所标出的。但是，这些信息往往和普通文字混淆，并没有特殊的HTML标记标出来。设计一个程序，可以通过解析HTML的各种标记，把其中表示发表时间和标题的文字提取出来

newstitle.jpg (95593 字节)

本课程使用Christopher D. Manning, Prabhakar Raghavan和Hinrich Schütze所著教材《Introduction to Information Retrieval》，部分幻灯片使用教材所附课件材料。

Powered by FirstCloudIT.com, a division of DriveHQ, the leading Cloud IT and Cloud Surveillance Service provider since 2003.