最近在学数据挖掘,有没有关于数据挖掘的那些专业名词解释,比如啥特征值,变异系数,皮尔曼系数啥的,有些完全看不懂,也不教,问 chatGPT 回答不清晰
1
snylonue 194 天前
看上去像线性代数和统计的术语
|
2
lrigi 194 天前 via iPhone
买本数据挖掘的书看看,要不就问 gpt ,gpt 要是回答不清楚这么基础的问题 openai 可以关门了
|
3
LXchienne 194 天前
可以补补基础,统计学习,数理统计这些
|
4
Pteromyini 194 天前 1
我感觉你应该补的是数理基础,比如线性代数、概率论
|
5
UIHIHUHIU OP 正在学概率论,线性代数好久没看了,不过确实好像是这里面的词
|
6
ufo5260987423 194 天前
特征值一般是矩阵的特征值,和特征向量这个概念是有关的。在数据分析的一些场景下,特征值能够表示一些因素的强度、相关性等等。
皮尔曼系数,如果没记错是描述显著性、相关性的东西。 变异系数不知道是哪个傻逼翻译的,一查是 coefficient ,是标准差和均值的比,用来描述数据的 variance 。 你后面这两个都是频率派统计的东西,我个人更多用贝叶斯派的东西。 前面有位仁兄说买本数据挖掘的书看,well ,绝大多数数据挖掘的书都不咋样。 然后,如果你是要在具体场景应用数据挖掘,那么知道一些名词背下来,把它和业务强行关联起来就行了。数据挖掘需要科学的管理和成熟、稳定的业务模式,我国绝大多数企业比草台班子都不如的管理水平,谈不上业务模式,更谈不上有充分的数据进行挖掘。 业务三天两头拍脑门的,别妄图机械降神。 |
7
vivisidea 194 天前
这个问题 gpt 回答不清晰?不科学,名词解释算是 AI 最擅长的领域了好吧
- 大概率是你问法不对 - 你不理解 gpt 回答的内容,可以追问,可以让它给你举例说明等等 - 用 gpt4 |
8
UIHIHUHIU OP @ufo5260987423 主要还在上学,对这个方向比较感兴趣,想自己学习,但是还没有什么系统的学习规划,不知道有什么前项课程,从哪里开始学
|
9
RichardCheung 194 天前
特征值:看前后文吧,一般有个矩阵的,比如协方差矩阵?
变异系数:好像是标准差与均值的比值 皮尔曼系数(Pearson 相关系数):-1 到 1 ,绝对值越趋于 1 越相关,符号代表正负相关。 |
10
ufo5260987423 194 天前
@UIHIHUHIU #8 囧
数学你得补课啊,线性代数和概率论必须得学会 然后结合具体场景,往往还有各种假设,和你就业方向相关。 我 15 年本科毕业,单纯数据挖掘还有点意思,18 年研究生毕业的时候就感觉不行了。 |
11
Philippa 194 天前 via iPhone
特征值是指某个维度的数值,可以是连续和不连续的(统计学第一课),数据分析本质上就是不同维度的组合对事情的解释。
pearson 和 spearman 都是相关系数,pearson 是用数值计算相关系数,但是会对数值很敏感,尤其是数据量少的时候。spearman 是先排序再用名次计算相关性,这个就能避免数值敏感,但当然也默认了数据是均匀的。spearman 类似于非连续数据的 one hot encoding 。 所以你看这东西很简单,两三下就能解释清楚了。这个基本上不用去看什么书,我更建议从实际例子出发,捉住重点,再回头看书了解细节。 |