0 有用
13 下载

【项目】几个机器学习项目

文件列表(压缩包大小 10.95M)

免费

概述

几个机器学习项目

trip

本项目是数据的EDA探索,针对自行车共享数据集2015_trip_data进行探索性数据分析。这个数据集的特征如下表所示:

特征名称              说明
trip_id                 为每个行程分配的唯一ID
starttime             在PST中,行程开始的日期和时间
stoptime             在PST中,行程结束的日期和时间
bikeid                 每辆自行车的ID
tripduration         以秒为单位的行程时间
from_station_name     行程起始站名
to_station_name         行程终止站名
from_station_id         行程起始站ID
to_station_id         行程终止站ID
usertype             数据可以是以下任意一种:短期通行证持有者或会员
gender                 骑手性别
birthyear             骑手出生年份

分别观察了数据集的数据分布、时间序列成分、度量测度中心、离群样本、相关性、t-分布、中心极限定理等。

Concrete

本项目是数据的回归预测,针对混凝土抗压强度数据集Concrete_Data进行样本的混凝土抗压强度预测。这个数据集的特征如下表所示:

特征名称             说明
cement_component    水泥(组分1)(千克/立方米混合物)
furnace_slag        高炉矿渣(组分2)(千克/立方米混合物)
flay_ash            粉煤灰(组分3)(千克/立方米混合物)
water_component        水(组分4)(千克/立方米混合物)
superplasticizer    减水剂(组分5)(千克/立方米混合物)
coarse_aggregate    粗骨料(组分6)(千克/立方米混合物)
fine_aggregate        细骨料(组分7)(千克/立方米混合物)
age                    龄期(天)
concrete_strength    混凝土抗压强度(MPa,兆帕)

先对特征之间,特征与label之间的一致性进行观察,然后选取一致性较高的特征进行分析,基于R^2指标,分别用线性回归/岭回归/Lasso回归/ElasticNet/梯度boosting回归/支持向量机对数据集做单变量与多变量的回归预测分析。

Yahoo

本项目是针对股票作时间序列分析与预测,针对数据集为雪人2017年全年的数据集。这个数据集的特征如下表所示:

特征名称    说明
date    日期
open    开盘价
high    最高价
close    收盘价
low        最低价
volume    成交量
price_change    价格变动
p_change        涨跌幅
ma5        5日均价
ma10    5日均价
ma5      10日均价
ma20    20日均价
v_ma5    5日均量
v_ma10    10日均量
v_ma20    20日均量

首先进行特征探索,利用Dickey-Fuller检验评估时间序列的平稳性,然后通过对数以及差分运算使时间序列平稳。通过Durbin Watson统计计算时间序列的自相关性。最后利用ARIMA进行时间序列建模分析,最终的MSE: 0.2393

AAAI

本项目是数据的聚类分析,针对2014年AAAI收到的所有论文数据集[UCI] AAAI-14 Accepted Papers - Papers进行样本的聚类分析。这个数据集的特征如下表所示:

特征名称    说明
title       论文标题
authors       论文作者
groups       作者选定的高级关键词
keywords    作者生成的关键词
topics       作者选择的低级关键词
abstracts    论文摘要

首先进行特征转换,将数据集按照作者选定的高级关键词进行展开,然后分别用k-means、高斯混合模型、贝叶斯高斯混合模型对数据集进行聚类分析。并对聚类结果采用词云的方式进行可视化分析。最终得到贝叶斯高斯混合模型的聚类效果最好,将数据集聚为3簇时,轮廓系数最大。

noshowappointments

本项目是数据的二分类分析,针对俄亥俄州诊所患者出现与否数据集No-show-Issue-Comma-300k进行样本的分类预测。这个数据集的特征如下表所示:

特征名称                             说明
年龄(Age)                             患者的年龄
性别(Gender)                         患者的性别
预约登记(AppointmentRegistration)    向患者发出预约的日期
预约数据(ApointmentData)            向患者发出的预约就诊日期
一周中具体的某日(DayOfTheWeek)         向患者发出的预约就诊日
状态(Status)                          患者就诊与否
糖尿病(Diabetes)                     是否患有糖尿病
酗酒(Alcoolism)                      患者是否受到酒精的影响
高血压(HiperTension)                 患者是否有高血压
残疾(Handcap)                          患者是否残疾
吸烟(Smokes)                          患者是否吸烟
资助(Scholarship)                      患者是否受到福利机构的资助
结核(Tuberculosis)                  患者是否患有结核
短信提醒(Sms_Reminder)                是否向患者发送预约短信提醒
等待时间(AwaitingTime)                等待时间=预约登记-预约数据

首先进行特征探究,观察里面的连续变量,布尔值变量以及字符串变量,并绘制不同变量的分布图。然后对变量中的离群值以及明显错误数据进行清洗,探究各变量与状态变量之间的关系。最后分别用决策树,SGD,随机森林以及梯度Boosting对数据集做二分类预测,得到梯度Boosting在ROC_AUC指标下效果最好。

via:https://github.com/wzy6642/Machine-Learning-Case-Studies

理工酷提示:

如果遇到文件不能下载或其他产品问题,请添加管理员微信:ligongku001,并备注:产品反馈

评论(0)

0/250