Estimation and Detection
哈哈哈哈哈哈没想到吧我又来挖坑了,之前的坑会赶紧补上的。
这部分是开坑新课,也就是检测与估计,说白了会包含模式识别的内容。然后是自己和老师的笔记稍微整理和回顾一下。我们老师的课都偏数学,所以一切推导过程如果清晰,那么整个内容就清晰明了了。希望之前你学过概率论。
课程目录
- Bayes decision theory
- Classifier
- Probability of error and SNR
- Feature selection
- Parametric Estimation and Supervised Learning
- Optimal Estimatiors
- Sufficient Statistics
- Maximum Likelihood Estimation
- Cramer Rao Bounds
- Bayesian Learning
- Hypothesis testing
- NP Lemma
- GLRT
- Unbiased Classifier and Asymptotic Bayesian Methods
- KL Information
- The concept of Parsimony
- Decision fusion
- Parametric Estimation and Unsupervised Learning
- Mixture density estimation
- EM algorithm
- Nonparametric Supervised Learning
- Nonparametric testing
课程说明
这部分想串联一下整个课程的逻辑引入顺序:
在日常生活中我们常常需要做很多决策,最常见的状况就是去医院看病,医生如何诊断你有A疾病呢?通常情况下,你到了医院之后需要对你自己的病情进行申诉:医生,我是不是得了A?【虽然实际情况是你去了医生问你各症状你回答是或不是。但这里我们先根据提供的场景进行。】
医生可能会问你一些问题:他会根据自己以往看到得A病的经验来询问你,这里疼吗,你说不疼,这里痒吗,你说痒,在一系列的询问过后,医生得出结论:你没有得A病。【这就相当于一个决策树的过程】【但是不是别的病就另当别论】
或者,医生会根据之前看过的A病的经验告诉你:你去做一下x,y,z检查。等你绕了一上午做完了xyz检查并且终于拿到了检查报告之后,你去见医生,医生根据之前得A病的病人xyz的数据和没得A病的病人的xyz数据,会告诉你你没有得A病。然后你就开开心心回家了。过了一周之后,你觉得自己的身体还是不好,于是你又返回医院,增加做了n检查,医生发现之前误诊了,现在才发现你得了A病。【这就相当于一个概率推算过程,我们这个课程主要来介绍这种情况下,医生是如何判断你是否得A病的。】
那么,在我们举出的第二种场景中,有几个重要的关键词:
- 医生是知道得A病和没得A病的人,他们的xyz数据分别是怎样的。这里就属于Supervised Learning。
- 医生让你去做 x y z检查。这里相当于对A病做了三个方面的特征提取。
- 医生得出结论。这里相当于用概率来推算你的病的可能性。
- 医生做出了错误结论,你其实得病了,但是他告诉你没得病。这里相当于一个misdetection,医生误判了。
那这些关键词代表的概念究竟是什么意思呢,我们来看看:
在去医院之后,你最关心的其实就是到底有没有得病。那其实他的诊断会用四类,为什么会是四类呢?难道不是只有两类吗?得病和没得病。确实是这样,但别忘了还有你的身体,究竟有没有生病,不是医生说的算。所以这里就有了四种分类:1.医生说你得病了,你也确实得病了【true positive】; 2. 医生说你得病了,其实你没得病【false positive】;3. 医生说你没得病,你也确实没得病【ture negative】;4. 医生说你没得病,其实你得病了【false negative】。
我们把1和3 叫做正确的判断,2和4叫做错误的判断。实际情况中,因为4带来的代价(cost)是最大的,因为医生宁愿诊断你得病,给你少量的药治疗,也好过告诉你什么事都没有。所以我们也会把false positive叫false alarm【错误的警报,给了你警报,但其实是虚惊一场】,false negative 称作misdetection【你其实有病,但你是个漏网之鱼】。正确的判断当然是我们所追求的,所以决策的终极目的就是要 minimize error。
在这整个过程中,医生充当一个决策角色,来判断你是否得病,所以这里的医生可以看做是分类器 classifier. 作为一个classifier来说,他一般有两个假设hypothesis:一个是没生病:$H_0$, 一个是生病:$H_1$. 我们在构建分类器的时候,目标是要最小化分类器的error,这样的话,我们有几种分类器可选:Bayesian Classifier, NP classifier, Generalized likelibood ratio test . 对于这些分类器来说,重要的是医生输入的xyz三项检查结果features 的值。如果我们选择Bayesian分类器,就需要知道xyz的概率模型。对于三种不同的检查来说,每一种检查数据都有一个自己的分布或者三者合起来服从某个分布(PDF),也就是说,如果病人得了A病,那这三项xyz的检查结果看起来可能是什么样子的。如果这些分布能用标准的分布,如 Gaussion, Possion 或者其他可以参数化的模型表示,我们就把这个分布叫做 Parametric Modeling, 否则就称作 Nonparametric Modeling. 对于Parametric模型来说,重要的就是要论证我们为什么选取某个特定的参数模型以及对参数模型中参数的估计Parametric Estimation。如果我们选择NP 分类器Hypothesis testing,我们就是固定了misdetection的值,然后来判定我们的决策阈值。虽然选择的分类器不同,但我们希望我们选择的分类器是无偏差的Unbiased Classifier, 并且希望针对于这个A病来说,让病人做xyz检查是正确且最具有判断性的Decision Fusion。不过以上我们说的都是在医生知道xyz这些数据和A病有什么关系时做出的判断,说明在之前,有很多有A病和无A病的人做了xyz的检查,并且医生知道之间的关联Supervised Learning, 但如果医生之前只知道一些人的xyz数据,但并不知道他们是否得了A病,那该如何将两个人群进行分类呢Unsupervised Learning. 最后,对于Nonparametric的模型,我们就需要进行大量的数据收集,来得到分类的标准Nonparametric testing.
上文中粗体字的部分是这个课程会涉及到的内容,我用了之前的医生看病的例子举出了这个课程中的一些简单的概念,课程的目的,以及会涉及的内容的引出顺序。希望可以把这些内容更好得串起来。