多媒体搜索引擎


华东师范大学软件学院

2010年春季学期

时间 星期五下午7-8节
地点 B218
教师 罗迒哉
邮件 hzluo (at) sei (dot) ecnu.edu.cn
电话 62235089
办公室 数学馆东110
答疑(Office Hour) 星期一10:00-12:00

课件

阅读材料 相关链接
  • 课程介绍

00-intro.ppt

01-se.ppt

  • 布尔检索、索引

02-bool.ppt

  • 语言问题

03-lang.ppt

  • 查询结果处理

04-result.ppt

05-result2.ppt

教材:http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html(请自行下载电子版)

2008年课程主页

英语分词(tokenize)的flex源程序:下载 可执行文件

有关中文分词的论文:下载

编辑距离:http://www.merriampark.com/ld.htm

Soundex:http://www.creativyst.com/Doc/Articles/SoundEx1/SoundEx1.htm

Using Common Hypertext Links to Identify the Best Phrasal Description of Target Web Documents

课程项目信息

计算机科学引论:主页

lyx: http://www.lyx.org  

复旦大学计算机科学与工程系赵进教授

海量计算研究所学生培训项目

参考课程项目

1、URL归一化

通过网络爬虫可能会发现很多URL。理论上每个不同的URL应当指向不同的页面。但是,有相当一部分页面,它们可能有多个不同的URL。例如下面这两个URL就明显是同一个页面:

http://beta.thehindu.com/news/international/article110799.ece
http://beta.thehindu.com/news/international/article110799.ece?homepage=true

下面的两个URL也是指向同一个页面:

http://memcache.drivehq.com/
http://memcache.drivehq.com/home.htm

下面的两个URL又是另一种情况:

http://memcache.drivehq.com/
http://www.drivehq.com/web/memcache/

以上这些URL和页面不一一对应的问题可能在搜索引擎、网络数据挖掘等应用中产生不良影响,所以需要把这些指向同一页面但却不同的URL归一化成同一个。

2、适合存储海量小文件的文件系统

当系统中存储了太大数量的文件(例如:100万个以上的文件)后,系统的文件操作性能可能极大下降。设计一个文件系统,可以在存储了海量文件之后仍然保持较高的文件操作性能。

3、网页标题/发表时间提取

网页中一般都会标明发表时间和标题,如下图中红线所标出的。但是,这些信息往往和普通文字混淆,并没有特殊的HTML标记标出来。设计一个程序,可以通过解析HTML的各种标记,把其中表示发表时间和标题的文字提取出来

newstitle.jpg (95593 字节)

 

致谢

本课程使用Christopher D. Manning, Prabhakar Raghavan和Hinrich Schütze所著教材《Introduction to Information Retrieval》,部分幻灯片使用教材所附课件材料。