2010年春季学期
时间 | 星期二上午1-3节 |
地点 | 理科楼B228 |
教师 | 罗迒哉 |
邮件 | hzluo (at) sei (dot) ecnu.edu.cn |
电话 | 62235089 |
办公室 | 数学馆东110 |
答疑(Office Hour) | 星期三上午8:00-10:00 |
课件 |
阅读材料 | 相关链接 |
|
参考资料:http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html(请自行下载电子版)
数据挖掘课程 参考书:Introduction to Data Mining 英语分词(tokenize)的flex源程序:下载源程序 可执行文件 分词的参考资料:英语lexicon的资料 有关中文分词的论文 通过元数据特征提取照片语义的参考文献:
失衡样本的处理:
特征选择: 分类训练算法: EM及其变种: 投影追踪:
回归 聚类分析 信息可视化
|
多媒体搜索引擎:主页 计算机科学引论:主页 lyx: http://www.lyx.org |
以下项目任选一个完成。
一、研究项目
对机器学习领域的某个问题进行理论和实验的探讨,撰写相应实验报告。要求对现有方法有创新,实验比较合理、详细、具体。实验报告以ACM SIG会议论文格式撰写,长度4-8页。
二、训练项目
从UCI机器学习数据库中选择2-3个分类数据库,用2-3个分类算法对其进行分类测试,比较所选择的分类算法在实验数据库上的性能差异。要求:
(1)设计实验,收集实验数据,并详细撰写实验报告。
(2)实验报告以ACM SIG会议论文格式撰写,所报告的数据应尽可能详细,长度4-8页。
(3)准备25-35分钟的口头报告,在课堂上指定时间报告。
(4)单独完成。
在实验中,应选用较为合理的性能测试方法。如所选用数据库已经分成训练/测试两部分,则可使用简单的开集测试。如没有分,可自行分出两个集合用于开集测试,或采用交叉验证(Leave-one-out或k-fold)方式。不可采用闭集测试的方式比较性能。性能比较时,也应比较多个性能指标。除分类准确性方面的指标外,还可比较训练速度、分类速度等指标。另外,在训练分类器时,应考虑分类器参数选择问题,不可以任意指定的一组参数来训练。
UCI Machine Learning Repository
推荐的数据库:
1、Iris
4、Pen-Based Recognition of Handwritten Digits
5、Spambase
本课程使用Christopher D. Manning, Prabhakar Raghavan和Hinrich Schütze所著教材《Introduction to Information Retrieval》作为参考资料,部分幻灯片使用教材所附课件材料。