本课程与百度PaddlePaddle平台合作开发。
作业记录
1. 三种分析方法
- 描述性分析:回答"发生了什么?",使用均值、中位数、方差、相关系数等统计方法分析历史数据。
- 预测性分析:使用基于概率的技术,包括数据挖掘、统计建模和机器学习(分类、回归、聚类)来预测未来结果及其可能性。
- 规范性分析:结合描述性和预测性分析的洞察,为企业推荐最优行动方案。
应用示例:短视频平台可以使用描述性分析检查观看模式,使用机器学习的预测性分析基于人口统计和历史记录预测用户偏好,使用规范性分析优化内容推荐和定向广告。
2. 数据挖掘步骤
八个顺序阶段:
信息收集 → 数据集成 → 数据规约 → 数据清洗 → 数据变换 → 数据挖掘 → 模式评估 → 知识表示
3-4. 算法实现
- Apriori算法:频繁项集挖掘
- FP-Growth算法:模式提取
- 决策树算法:信息增益计算
5. K-means vs K-medoids
关键区别:K-means使用均值计算聚类中心(可能不存在于实际数据中),而K-medoids选择实际数据点作为中心。两种算法的距离计算也不同。
6. 层次聚类
使用树状图(dendrogram)展示聚类过程。
7. 深度学习基础
- 前向传播(Forward Propagation)
- 反向传播(Backpropagation)
- 梯度下降优化(Gradient Descent)