Appearance
电商平台用户行为分析系统的数据采集与处理流程设计
准考证号:
试题代码: 1.1.4
试题名称: 电商平台用户行为分析系统的数据采集与处理流程设计
考核时间: 30min
1.场地设备要求
人工智能训练师主机:CPU(intel i5 及以上)、内存(不少于 16GB)、操作系统(windows10)、支持深度学习训练;
2.工作任务
某电商平台希望通过用户行为数据分析,了解用户购物习惯、购买倾向等,从而优化产品推荐系统,提高用户满意度和销售额。作为数据分析师,您需要设计一套全面的业务数据采集与处理流程,确保数据在进入用户行为分析系统之前经过严格的采集、清洗和预处理。 我们提供一个用户行为数据集(user_behavior_data.csv),包含以下字段:
- UserID: 用户ID
- UserName: 用户名
- Age: 年龄
- Gender: 性别(Male/Female)
- Location: 位置
- LastLogin: 上次登录时间
- PurchaseAmount: 购买金额
- PurchaseCategory: 购买类别(例如,电子产品、服装、食品等)
- ReviewScore: 用户评价评分(1-5)
- LoginFrequency: 登录频率(每日、每周、每月) 你作为人工智能训练师,根据提供的user_behavior_data.csv数据集和Python代码框架(1.1.4.ipynb),完成以下数据的采集与处理任务,确保数据的准确性和可靠性。请按照以下要求完成任务,确保结果准确并保存相应的截图。
(1)数据采集:
通过运行Python代码(1.1.4.ipynb),从本地文件user_behavior_data.csv中读取数据,并将数据加载到DataFrame中。打印前5条数据。
(2)数据清洗与预处理:
通过运行Python代码(1.1.4.ipynb)对数据进行清洗和预处理,具体要求如下:
- 处理缺失值:对缺失值进行填充或删除。
- 数据类型转换:确保每个字段的数据类型正确。
- 处理异常值:删除不合理的年龄、购买金额和评价评分。
- 数据标准化:对购买金额和评价评分进行标准化处理。 清洗后的数据保存为新文件cleaned_user_behavior_data.csv。
(3)数据统计:
通过运行Python代码(1.1.4.ipynb),完成以下数据统计任务:
- 统计每个购买类别的用户数。
- 统计不同性别的平均购买金额。
- 统计不同年龄段的用户数(18-25岁、26-35岁、36-45岁、46-55岁、56-65岁、65岁以上)。 将统计结果分别截图以JPG的格式保存,分别命名为"1.1.4-1"、"1.1.4-2"、"1.1.4-3"。 所有结果文件储存在桌面新建的考生文件夹中,文件夹命名为"准考证号+身份证号后六位"。