机器学习与数据挖掘(研究生课程)


华东师范大学软件学院

2009年春季学期

时间 星期五上午2-4节
地点 理科楼228
教师 罗迒哉
邮件 hzluo (at) sei (dot) ecnu.edu.cn
电话 62235089
办公室 数学馆东110
答疑(Office Hour) 星期五15:00-18:00

课件

阅读材料 相关链接
  • 课程介绍

00.ppt

vis-service.ppt

  • 机器学习研究内容及样本准备(1)

01-intro.ppt

01-seg.ppt

  • 样本准备(2)

02-feature.ppt

  • 样本准备(3)

03-sampleSel.ppt

  • 失衡学习(龚薇)

ClassImbalance.ppt

  • 特征选择/降维

04-FeatureSel.ppt

  • 分类算法(1)

05-classification.ppt

  • 分类算法(2)

请下载右面的SVM和VC Dimension

  • 分类算法(3)

06-ProbClassify.ppt

  • 分类算法(4)

07-GMM.ppt

  • 回归

08-Regression.ppt

  • 聚类

请下载右面的聚类分析PPT

  • 可视化及人机交互

09-vis.ppt

  • 可视化技术

10-visTech.ppt

  • 实体识别(蔡鹏)

entity.ppt

  • 复习

review.ppt

参考资料:http://www-csli.stanford.edu/~hinrich/information-retrieval-book.html(请自行下载电子版)

数据挖掘课程  参考书:Introduction to Data Mining

Mean-Shift 算法

英语分词(tokenize)的flex源程序:下载源程序       可执行文件

分词的参考资料:英语lexicon的资料       有关中文分词的论文

通过元数据特征提取照片语义的参考文献:

Classification and annotation of digital photos using optical context data

Segmenting Photo Streams in Events Based on Optical Metadata

失衡样本的处理:

The class imbalance problem: A systematic study

The class imbalance problem in learning classifier systems: a preliminary study

特征选择:

Information gain tutorial

JMLR Special Issue on Variable and Feature Selection

An Introduction to Variable and Feature Selection

分类训练算法:

方程组求解

神经网络  神经网络参考代码

SVM   LibSVM   SVMLight

VC Dimension

决策树

EM及其变种:

中文的EM算法介绍

SMEM Algorithm for Mixture Models 链接2

投影追踪:

A Projection Pursuit Algorithm for Exploratory Data Analysis

New approximations of differential entropy for independent component analysis and projection pursuit

回归

几种参数式回归算法介绍   kNN回归

聚类分析

Cluster Analysis: Basic Concepts and Algorithms   PPT

信息可视化

Large Scale Information Visualization

弗吉尼亚理工的信息可视化课程

案例1:Mobius变换

案例2:分子生物学演示 直接下载

多媒体搜索引擎:主页

计算机科学引论:主页

lyx: http://www.lyx.org

海量计算研究所学生培训项目

re2c主页

flex相关信息

通知

由于课程项目口头报告需要2次课时间,现决定把5月31日课时并到6月19日。即:5月31日不上课,6月19日从早上8:00开始,由各位同学报告课程项目。每人15-20分钟。

由于主页空间的下载带宽用尽,可能无法下载ppt和文件。不过应该到14或15号就会恢复的。如果到时候还没有恢复,我将设法找一个镜像下载点。

请各位同学注意:6月19日从早上8:00开始,由各位同学报告课程项目。每人15-20分钟。

考试安排:期末考试安排在6月26日(星期五)上午9:00,地点为原上课教室。另请各位同学尽快提交实验报告。请以电子邮件提交电子版。

课程项目

以下项目任选一个完成。课程项目介绍幻灯片

一、研究项目

对机器学习领域的某个问题进行理论和实验的探讨,撰写相应实验报告。要求对现有方法有创新,实验比较合理、详细、具体。实验报告以ACM SIG会议论文格式撰写,长度4-8页。

二、训练项目

从UCI机器学习数据库中选择2-3个分类数据库,用2-3个分类算法对其进行分类测试,比较所选择的分类算法在实验数据库上的性能差异。要求:

(1)设计实验,收集实验数据,并详细撰写实验报告。

(2)实验报告以ACM SIG会议论文格式撰写,所报告的数据应尽可能详细,长度4-8页。

(3)准备25-35分钟的口头报告,在课堂上指定时间报告。

(4)单独完成。

在实验中,应选用较为合理的性能测试方法。如所选用数据库已经分成训练/测试两部分,则可使用简单的开集测试。如没有分,可自行分出两个集合用于开集测试,或采用交叉验证(Leave-one-out或k-fold)方式。不可采用闭集测试的方式比较性能。性能比较时,也应比较多个性能指标。除分类准确性方面的指标外,还可比较训练速度、分类速度等指标。另外,在训练分类器时,应考虑分类器参数选择问题,不可以任意指定的一组参数来训练。

UCI Machine Learning Repository

推荐的数据库:

1、Iris

2、Landsat Satellite

3、Letter Recognition

4、Pen-Based Recognition of Handwritten Digits

5、Spambase

致谢

本课程使用Christopher D. Manning, Prabhakar Raghavan和Hinrich Schütze所著教材《Introduction to Information Retrieval》作为参考资料,部分幻灯片使用教材所附课件材料。


Leading Cloud Surveillance service

Leading Enterprise Cloud IT Service Since 2003

Powered by FirstCloudIT.com, a division of DriveHQ, the leading Cloud IT and Cloud Surveillance Service provider since 2003.