【项目】几个机器学习项目 - 资源下载

0 有用

13 下载

【项目】几个机器学习项目

文件列表（压缩包大小 10.95M)

免费

概述

几个机器学习项目

trip

本项目是数据的EDA探索，针对自行车共享数据集2015_trip_data进行探索性数据分析。这个数据集的特征如下表所示：

特征名称              说明
trip_id                 为每个行程分配的唯一ID
starttime             在PST中，行程开始的日期和时间
stoptime             在PST中，行程结束的日期和时间
bikeid                 每辆自行车的ID
tripduration         以秒为单位的行程时间
from_station_name     行程起始站名
to_station_name         行程终止站名
from_station_id         行程起始站ID
to_station_id         行程终止站ID
usertype             数据可以是以下任意一种：短期通行证持有者或会员
gender                 骑手性别
birthyear             骑手出生年份

分别观察了数据集的数据分布、时间序列成分、度量测度中心、离群样本、相关性、t-分布、中心极限定理等。

Concrete

本项目是数据的回归预测，针对混凝土抗压强度数据集Concrete_Data进行样本的混凝土抗压强度预测。这个数据集的特征如下表所示：

特征名称             说明
cement_component    水泥(组分1)(千克/立方米混合物)
furnace_slag        高炉矿渣(组分2)(千克/立方米混合物)
flay_ash            粉煤灰(组分3)(千克/立方米混合物)
water_component        水(组分4)(千克/立方米混合物)
superplasticizer    减水剂(组分5)(千克/立方米混合物)
coarse_aggregate    粗骨料(组分6)(千克/立方米混合物)
fine_aggregate        细骨料(组分7)(千克/立方米混合物)
age                    龄期(天)
concrete_strength    混凝土抗压强度(MPa,兆帕)

先对特征之间，特征与label之间的一致性进行观察，然后选取一致性较高的特征进行分析，基于R^2指标，分别用线性回归/岭回归/Lasso回归/ElasticNet/梯度boosting回归/支持向量机对数据集做单变量与多变量的回归预测分析。

Yahoo

本项目是针对股票作时间序列分析与预测，针对数据集为雪人2017年全年的数据集。这个数据集的特征如下表所示：

特征名称    说明
date    日期
open    开盘价
high    最高价
close    收盘价
low        最低价
volume    成交量
price_change    价格变动
p_change        涨跌幅
ma5        5日均价
ma10    5日均价
ma5      10日均价
ma20    20日均价
v_ma5    5日均量
v_ma10    10日均量
v_ma20    20日均量

首先进行特征探索，利用Dickey-Fuller检验评估时间序列的平稳性，然后通过对数以及差分运算使时间序列平稳。通过Durbin Watson统计计算时间序列的自相关性。最后利用ARIMA进行时间序列建模分析，最终的MSE: 0.2393

AAAI

本项目是数据的聚类分析，针对2014年AAAI收到的所有论文数据集[UCI] AAAI-14 Accepted Papers - Papers进行样本的聚类分析。这个数据集的特征如下表所示：

特征名称    说明
title       论文标题
authors       论文作者
groups       作者选定的高级关键词
keywords    作者生成的关键词
topics       作者选择的低级关键词
abstracts    论文摘要

首先进行特征转换，将数据集按照作者选定的高级关键词进行展开，然后分别用k-means、高斯混合模型、贝叶斯高斯混合模型对数据集进行聚类分析。并对聚类结果采用词云的方式进行可视化分析。最终得到贝叶斯高斯混合模型的聚类效果最好，将数据集聚为3簇时，轮廓系数最大。

noshowappointments

本项目是数据的二分类分析，针对俄亥俄州诊所患者出现与否数据集No-show-Issue-Comma-300k进行样本的分类预测。这个数据集的特征如下表所示：

特征名称                             说明
年龄(Age)                             患者的年龄
性别(Gender)                         患者的性别
预约登记(AppointmentRegistration)    向患者发出预约的日期
预约数据(ApointmentData)            向患者发出的预约就诊日期
一周中具体的某日(DayOfTheWeek)         向患者发出的预约就诊日
状态(Status)                          患者就诊与否
糖尿病(Diabetes)                     是否患有糖尿病
酗酒(Alcoolism)                      患者是否受到酒精的影响
高血压(HiperTension)                 患者是否有高血压
残疾(Handcap)                          患者是否残疾
吸烟(Smokes)                          患者是否吸烟
资助(Scholarship)                      患者是否受到福利机构的资助
结核(Tuberculosis)                  患者是否患有结核
短信提醒(Sms_Reminder)                是否向患者发送预约短信提醒
等待时间(AwaitingTime)                等待时间=预约登记-预约数据

首先进行特征探究，观察里面的连续变量，布尔值变量以及字符串变量，并绘制不同变量的分布图。然后对变量中的离群值以及明显错误数据进行清洗，探究各变量与状态变量之间的关系。最后分别用决策树，SGD，随机森林以及梯度Boosting对数据集做二分类预测，得到梯度Boosting在ROC_AUC指标下效果最好。