机器学习与数据挖掘(研究生课程)


华东师范大学软件学院

2010年春季学期

时间 星期二上午1-3节
地点 理科楼B228
教师 罗迒哉
邮件 hzluo (at) sei (dot) ecnu.edu.cn
电话 62235089
办公室 数学馆东110
答疑(Office Hour) 星期三上午8:00-10:00

通知

课件

阅读材料 相关链接
  • 课程介绍

00.ppt

mineSemantics.ppt

  • 机器学习研究内容及样本准备(1)

01-intro.ppt

01-seg.ppt

  • 样本准备(2)特征提取

02-feature.ppt

  • 样本准备(3)样本选择

03-sampleSel.ppt

  • 特征选择/降维

04-FeatureSel.ppt

  • 分类算法(1)

05-classification.ppt

  • 分类算法(2)

请下载右面的SVM和VC Dimension

  • 分类算法(3)

06-ProbClassify.ppt

  • 分类算法(4)

07-GMM.ppt

  • 回归

08-Regression.ppt

  • 可视化及人机交互

09-vis.ppt

  • 可视化技术

10-visTech.ppt

  • 复习

review.ppt

参考资料:http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html(请自行下载电子版)

2009年课程主页 2010年课程主页

数据挖掘课程  参考书:Introduction to Data Mining

Mean-Shift 算法

英语分词(tokenize)的flex源程序:下载源程序       可执行文件

分词的参考资料:英语lexicon的资料       有关中文分词的论文

通过元数据特征提取照片语义的参考文献:

Classification and annotation of digital photos using optical context data

Segmenting Photo Streams in Events Based on Optical Metadata

失衡样本的处理:

The class imbalance problem: A systematic study

The class imbalance problem in learning classifier systems: a preliminary study

特征选择:

Information gain tutorial

JMLR Special Issue on Variable and Feature Selection

An Introduction to Variable and Feature Selection

分类训练算法:

方程组求解

神经网络  神经网络参考代码

SVM   LibSVM   SVMLight   SVM介绍(直接下载PDF:链接)

VC Dimension

决策树

EM及其变种:

中文的EM算法介绍 直接下载  直接阅读

SMEM Algorithm for Mixture Models 链接2

投影追踪:

A Projection Pursuit Algorithm for Exploratory Data Analysis

New approximations of differential entropy for independent component analysis and projection pursuit

回归

几种参数式回归算法介绍   kNN回归 土石方距离(Earth Mover's Distance)

聚类分析

Cluster Analysis: Basic Concepts and Algorithms   PPT

信息可视化

Information Visualization Introduction  Large Scale Information Visualization  

弗吉尼亚理工的信息可视化课程

案例1:Mobius变换

案例2:分子生物学演示 直接下载

多媒体搜索引擎:主页

计算机科学引论:主页

lyx: http://www.lyx.org

海量计算研究所学生培训项目

re2c主页

flex相关信息

课程项目

以下项目任选一个完成。

一、研究项目

对机器学习领域的某个问题进行理论和实验的探讨,撰写相应实验报告。要求对现有方法有创新,实验比较合理、详细、具体。实验报告以ACM SIG会议论文格式撰写,长度4-8页。

二、训练项目

从UCI机器学习数据库中选择2-3个分类数据库,用2-3个分类算法对其进行分类测试,比较所选择的分类算法在实验数据库上的性能差异。要求:

(1)设计实验,收集实验数据,并详细撰写实验报告。

(2)实验报告以ACM SIG会议论文格式撰写,所报告的数据应尽可能详细,长度4-8页。

(3)准备25-35分钟的口头报告,在课堂上指定时间报告。

(4)单独完成。

在实验中,应选用较为合理的性能测试方法。如所选用数据库已经分成训练/测试两部分,则可使用简单的开集测试。如没有分,可自行分出两个集合用于开集测试,或采用交叉验证(Leave-one-out或k-fold)方式。不可采用闭集测试的方式比较性能。性能比较时,也应比较多个性能指标。除分类准确性方面的指标外,还可比较训练速度、分类速度等指标。另外,在训练分类器时,应考虑分类器参数选择问题,不可以任意指定的一组参数来训练。

UCI Machine Learning Repository

推荐的数据库:

1、Iris

2、Landsat Satellite

3、Letter Recognition

4、Pen-Based Recognition of Handwritten Digits

5、Spambase

致谢

本课程使用Christopher D. Manning, Prabhakar Raghavan和Hinrich Schütze所著教材《Introduction to Information Retrieval》作为参考资料,部分幻灯片使用教材所附课件材料。


Leading Cloud Surveillance service

Leading Enterprise Cloud IT Service Since 2003

Powered by FirstCloudIT.com, a division of DriveHQ, the leading Cloud IT and Cloud Surveillance Service provider since 2003.