多媒体搜索引擎


华东师范大学软件学院

2010年春季学期

时间 星期五下午7-8节
地点 B226
教师 罗迒哉
邮件 hzluo (at) sei (dot) ecnu.edu.cn
电话 62235089
办公室 数学馆东110
答疑(Office Hour) 星期一10:00-12:00

课件

阅读材料 相关链接
  • 课程介绍

00-intro.ppt

01-se.ppt

  • 布尔检索、索引

02-bool.ppt

  • 语言问题

03-lang.ppt

  • 查询结果处理

04-result.ppt

05-result2.ppt

  • 传统搜索引擎总结,多媒体搜索引擎基础

06-seSum.ppt  06-mmse.ppt

  • 多媒体信息的表示与存储

07-mmRep.ppt

  • 多媒体信息的压缩

08-compress1.ppt

09-compress2.ppt

10-compress3.ppt

  • 5月7号:《用TSAM构建和管理云》

IBM曾学智老师报告。地点数学馆201。

  • 对象分割

11-seg.ppt

  • 特征提取

12-feature.ppt

  • 分类

13-class.ppt

  • 多媒体文档检索

14-mmse.ppt

  • 可视化

15-vis.ppt

  • 复习

review.ppt

教材:http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html(请自行下载电子版)

2008年课程主页

英语分词(tokenize)的flex源程序:下载 可执行文件

编辑距离:http://www.merriampark.com/ld.htm

Soundex:http://www.creativyst.com/Doc/Articles/SoundEx1/SoundEx1.htm

Using Common Hypertext Links to Identify the Best Phrasal Description of Target Web Documents

课程项目信息

Introduction to Data Compression

MPEG信息演示程序:下载

直方图

Mean-Shift算法

线性分类器

线性分类器训练

SVM课件1  SVM课件2

Earth Mover's Distance

QBIC的多媒体查询输入

通过元数据特征提取照片语义的参考文献:

Classification and annotation of digital photos using optical context data

Segmenting Photo Streams in Events Based on Optical Metadata

计算机科学引论:主页

lyx: http://www.lyx.org  

复旦大学计算机科学与工程系赵进教授

海量计算研究所学生培训项目

参考课程项目

1、URL归一化

通过网络爬虫可能会发现很多URL。理论上每个不同的URL应当指向不同的页面。但是,有相当一部分页面,它们可能有多个不同的URL。例如下面这两个URL就明显是同一个页面:

http://beta.thehindu.com/news/international/article110799.ece
http://beta.thehindu.com/news/international/article110799.ece?homepage=true

下面的两个URL也是指向同一个页面:

http://memcache.drivehq.com/
http://memcache.drivehq.com/home.htm

下面的两个URL又是另一种情况:

http://memcache.drivehq.com/
http://www.drivehq.com/web/memcache/

以上这些URL和页面不一一对应的问题可能在搜索引擎、网络数据挖掘等应用中产生不良影响,所以需要把这些指向同一页面但却不同的URL归一化成同一个。

2、适合存储海量小文件的文件系统

当系统中存储了太大数量的文件(例如:100万个以上的文件)后,系统的文件操作性能可能极大下降。设计一个文件系统,可以在存储了海量文件之后仍然保持较高的文件操作性能。

3、网页标题/发表时间提取

网页中一般都会标明发表时间和标题,如下图中红线所标出的。但是,这些信息往往和普通文字混淆,并没有特殊的HTML标记标出来。设计一个程序,可以通过解析HTML的各种标记,把其中表示发表时间和标题的文字提取出来

newstitle.jpg (95593 字节)

 

致谢

本课程使用Christopher D. Manning, Prabhakar Raghavan和Hinrich Schütze所著教材《Introduction to Information Retrieval》,部分幻灯片使用教材所附课件材料。

 


Leading Cloud Surveillance service

Leading Enterprise Cloud IT Service Since 2003

Powered by FirstCloudIT.com, a division of DriveHQ, the leading Cloud IT and Cloud Surveillance Service provider since 2003.