一起读《动手学深度学习(PyTorch版)》- 词汇、概念理解
数据科学依据数据,数据中一个个样本由一组特征(feature)或协变量(covariate)的属性组成
-> 类似某一个特征或变量越能表征就是这件东西或这个数值,学习过程中就是不停刷新特征和变量来更能表征
Garbage in,Garbage out.
-> 数据的输入对于学习的影响很严重,学坏很容易,某些极端的情况最好滤除
目标函数(objection function)或损失函数(cost function)
-> 评价学习过程是否有进步,需要客观的评价(毕竟机器比较喜欢数字),通过设计一个函数来评价每一次学习的效果是不是好的来决定要不要刷新认知(参数)
训练集(traning dataset)、测试集(test dataset)
-> 平时课堂学习训练(拟合参数)来模拟考,期末或大考来测试下到底学咋样,平时学挺好,一考就差,这叫过拟合(overfitting,绿线就是过拟合Overfitting - Wikipedia,黑线才更有用)
梯度下降(gradient descent)
-> 优化的一种思路,从微分的角度来观察变化的趋势(毕竟一般不太可能突变),趋势好,我就改参数
回归(regression)、分类(classisfication)
-> 回归问题一般都是数值问题,给一堆数字,让你推导出一个函数,使得这一堆数字,尽可能的和对应的函数值距离最小(误差最小);
-> 分类问题都和类别有关,数字识别MINIST 虽然跟数字有关,但实际也是分类问题(0-9的数字也是10中分类),有一些类别相互有交叉的部分,数字的分类比较独立,0就是0,1就是1,但比如猫和大象,从大分类上来说都是动物,从4条腿来说都有,但大象有长长的鼻子,发帖子或者文章的时候你可以加好多标签(方便从不同角度搜索的人更容易检索到这篇文章)就是一种多标签分类
序列学习
-> 从一段数据序列预测出另一端数据序列,所以病历卡很有用。。。,好的机器翻译要结合上下文
Large language models encode clinical knowledge | Nature
离线学习(offline learning)
-> 学习的过程都是基于现有的数据,不和环境动态交互。
视频讲解