地理系列(gs
1.数据收集:根据获得的数据,提取数据的特征信息,并将收集到的信息存储在数据库中。为数据存储和管理选择合适的数据仓库类型。
2.数据集成:对不同来源和格式的数据进行分类。
3.数据规范:当数据的量和值比较大时,我们可以利用规范技术得到数据集的规范表示,比如(数据值-数据平均值)/数据方差,这意味着数据小很多但接近原始数据的完整性,规范后的数据挖掘结果与规范前基本相同。
4.数据清洗:有些数据是不完整的,如:有些有缺失值(值不存在),有些包含噪音(错误,孤立点),有些不一致(如不同公司等。).我们可以用工具清理数据,得到完整、正确、一致的数据。
5.数据转换:通过平滑聚合、数据泛化和标准化,将数据转换成适合数据挖掘的数据集。
6.特征提取或特征选择:特征提取多用于计算机视觉和图像处理。特征选择是提出不相关和冗余的特征,防止过拟合,提高模型精度。常用的方法有pca等。
7.数据挖掘过程:分析数据仓库中的数据信息,选择合适的数据挖掘工具,应用统计方法,使用相应的数据挖掘算法。。
8.从业务上验证数据分析和数据挖掘结果的正确性。
9.知识表示,将数据挖掘的结果以可视化的呈现给用户。
1.结构分析法:看整体的构成和分布,逐层拆解。
2.分组分析法:按照某个具体维度细分拆卸。
3.对比分析,同比,环比,同行业,同品类等。
4.时间序列趋势法:查看时间趋势。
5.相关性分析方法:相关性和因果性。
分析模型
对于一些简单的模型,确实可以通过常见的分析方法得出一些一般性的结论,但是在实际工作中,并不是单一的问题,往往是一些符合性的问题,所以要考虑的方面也会增加:
要解决的问题涉及到那些维度的数据;
从数据分析师的角度来看,这个问题有一个通用的解决方案或者需要重新研究。
从原始数据集到分析数据是否需要处理。
而所有的模型都是为了更好的解决问题。
rfm分类模型
r(recency),最后一次消费时间,指示用户。上次你花的时间比现在多,时间越近,客户的价值越大。
f(频率)消费频率是指用户在统计周期内的购买次数。频率越高,值越大。
m(货币)消费金额:指统计期内消费的总额,金额越大,数值越高。
通过数据的标准化发送权重设置,对分类模型进行评分,比如餐厅的单价,20元以下的普通用户。
20-30个好用户,40个以上优秀用户,所有指标都可以用这个方法标准化。
中位数法常用于定义分支。
最晚消费时间,一般是一周或一个月,结合经营情况。
这种模式的本质是筛选头部用户,专注运营。
aarrr成长模型,了解模型就好,实际需要结合自己的业务。
a:得到a:当天活跃,r:明天继续活跃,r:增加收入,r:提高自我沟通。
模型的主要功能是可以从那些点快速理清增长,找到突破点。
5w2h通用型号
生活中的聊天都是围绕这几点展开的,这个模型可以帮助我们快速确定一个问题。
用户生命周期模型
互联网行业往往可以跟踪每个阶段的用户,每个阶段应该有不同的运营策略和发展方向。对于分析师来说,要及时识别。
对模型有所了解,从而知道什么时候用,怎么用。