人工智能

人工智能 · 圈子

648 位酷友已加入

本圈子收集关于人工智能的各种技术资料,加入圈子可以上传、下载资料,也可以使用提问来寻求资料或分享你认为有价值的站外链接~

关注推荐最新

热门标签

资源

基于MATLAB实现的蓝白车牌识别系统

实现方法 本方法基于颜色特征实现车牌定位。 在HSI空间实现蓝色查找,思路来自博客园 silenceer 的博客《车牌识别LPR(五)-- 一种车牌定位法》[1]。 通过对疑似区域求外接矩形判断车牌区域,思路来自博客园 计算机的潜意识 的博客 《EasyPR--开发详解(4)》[2]。 通过垂直投影和连通域分析实现字符分割。 通过3层神经网络实现字符识别。 参考 Andrew Ng 在 coursera 上的机器学习课程[3] [1].http://www.cnblogs.com/silence-hust/p/4191821.html [2].http://www.cnblogs.com/subconscious/p/4047960.html [3].https://www.coursera.org/learn/machine-learning/home/week/5 (注册登录可见) 程序功能以及文件说明 文件夹 Training : 神经网络训练程序 matlab 程序: main.m 主程序 LicPlateLoc.m 车牌定位子函数 LicPlateRec.m 字符识别子函数 LicPlateSeg.m 字符分割子函数 adjust.m 逆透视变换函数 (参考 Dsp Tian matlab练习程序(倾斜校正,透视变换) 博客园 http://www.cnblogs.com/tiandsp/archive/2012/12/16/2820916.html) BoxFeature.m 求矩形特征的函数 clean.m 清除多余连通区的函数 findblue.m 查找蓝色区域的函数 minBoundingBox.m 求最小外接矩形的函数 (参考 http://www.mathworks.com/matlabcentral/fileexchange/31126-2d-minimal-bounding-box/content/minBoundingBox.m) recognise.m 字符识别函数 rgb2hsi.m RGB图像转换为HSI图像的函数 (参考 xiaojidan2011.matlab RGB到HSI的彩色转换及实现 CSDN博客 http://blog.csdn.net/xiaojidan2011/article/details/7968883) sigmoid.m S函数 matlab文件 hanzi_theta1.mat 汉字识别的神经网络参数1 hanzi_theta2.mat 汉字识别的神经网络参数2 theta1.mat 字母数字识别的神经网络参数1 theta2.mat 字母数字识别的神经网络参数2 测试图片 TestImage1.jpg TestImage2.jpg 转载自:https://github.com/CaptYoung/License-Plate-Recognition#readme

资源

【研究报告】工业智能前沿报告_中国通信学会_2020

研究内容 工业智能融合了以人工智能技术为核心的先进技术,形成了面向工业场景的综合智能技术解决方案。工业智能的应用促使工业产业形态跃迁,智能化、网络化、信息化将成为工业产业下一阶段的新标签,通过重塑工业形态、提高生产效率、优化资源配置、创新生产模式,工业智能将通过综合智能技术从而释放工业产业应用的巨大潜力。 工业智能前沿报告首先分析了工业智能在全球范围的发展态势,分析工业智能在各个领域的智能技术发展现状与趋势;其次对我国工业智能发展现状进行解读,以从政策、产业角度分别展示我国工业智能发展状况;然后给出了国际和国内在工业智能发展中相应的可预见技术以及现存在的工程难题,通过研究现有问题,指出工业智能的发展瓶颈和突破方向。最后,本报告给出了工业智能发展的相关政策建议,展望工业智能在发展过程中的重要方向。 目录 一、 研究概述 二、 全球发展态势 三、 我国发展现状 四、 技术预见 (一)国际技术预见 模型迁移推动工业智能多场景复用 数据挖掘驱动工业智能认知与决策 多协同计算促进工业智能泛在支持 (二)国内技术预见 能耗控制拓宽工业智能布局 数据安全保障工业智能应用 高速通信助力工业智能创新 五、 工程难题 (一)国际工程难题 可适应、可进化的智能算法 多特征、广覆盖的数据处理 快响应、高稳定的云边交互 (二)国内工程难题 绿色制造有待优化 安全技术仍待开发 5G 技术尚需融合 六、 政策建议 报告来源:中国通信学会 发布时间:2020年

资源

基于DCGAN生成动漫人物头像

目录介绍 TFR_process.py:TFRecode数据生成以及处理脚本 ops.py:层封装脚本 DCGAN_class.py:使用类的方式实现DC_GAN,因为是重点所以代码中转换了详细的注释 DCGAN_function.py:使用函数的方式实现DC_GAN,因为上面的版本受到了开源项目的影响,代码繁杂,这里进行了改写,采用了更为清晰的写法 utils.py:格式化绘图,保存图片函数,开源项目直接找来的 DCGAN_reload.py:利用已经训练好的模型生成一个头像 Data_Set/ cartoon_faces:此处目录下放置头像图片 数据在预先时采用了原始数据除以127.5的1的操作,从而使输出值保持在-1 〜1之间,这样配合sigmoid激活函数可以很好的模拟学习 实验步骤 先运行产生TFR_process.pyTFRecord数据: python TFR_process.py 本部分涉及参量如下(位于TFR_process.py的起始位置): 然后再运行DC_GAN.py使用前面的数据训练 或者 这些参量的设置也放在了TFR_process.py中, 数据读取函数batch_from_tfr位于此文件中,该函数可以设置重定向网络的图片大小。 已经训练好模型了的话如下操作, 即可直接生成一个图像。 生成器 相关参量, 噪声向量z维度:100 标签向量y维度:10(如果有的话) 生成器features控制参量gf标量值:64 生成器features控制参量gfc标量值:1024 无标签训练, 100 -线性层-> 44864 -转置卷积-> 4,4,864 -转置卷积-> 8,8,464 -转置卷积-> 16,16,264 -转置卷积-> 32,32,64 -转置卷积-> 64,64,3 含标签训练,所谓的concat实际就是features和y进行拼接, 新参量: z=110,yb = 1,1,10 110 -线性层-> 1024 -concat-> 1034 -线性层-> 16162*64 -reshape-> 16,16,128 -concat-> 16,16,138 -转置卷积-> 32,32,128 -concat-> 32,32,138 -转置卷积-> 64,64,3 判别器 相关参量, 图片维度:64,64,3 标签向量y维度:10(如果有的话) 生成器features控制参量df标量值:64 生成器features控制参量dfc标量值:1024 无标签训练, 64,64,3 -conv-> 32,32,64 -conv-> 16,16,642 -conv-> 8,8,644 -conv-> 4,4,648 -reshape-> 44648 -线性层-> 1 含标签训练 新参量: x = 64,64,13,yb = 1,1,10 64,64,13 -conv-> 32,32,13 -concat-> 32,32,23 -conv-> 16,16,74 -reshape-> 161674 -concat-> 161674+10 -线性层-> 1024 -concat-> 1034 -线性层-> 1 结果 生成器损失 判别器real损失 判别器fake损失 判别器总损失 从训练过程中来看,经历了初期的下降之后,几个loss值均会在波动中维持一个动态平衡,而GAN的loss值并不能直接反应训练结果,所以需要直接看输出图。 转载自:https://github.com/Hellcatzm/DCGAN_TensorFlow https://www.cnblogs.com/hellcat/p/8340491.html

资源

【研究报告】全球人工智能基础设施战略与政策观察_中国通信学会_2020

研究内容 当前,新一轮科技革命和产业变革深入发展,人工智能作为新一代信息技术的重要发展方向,正在与5G、云计算、大数据等数字技术交织并进、融合创新,共同构筑起赋能千行百业的新型基础设施。党中央、国务院高度重视人工智能等新型基础设施发展,习近平总书记多次作出指示批示,强调要“加快传统基础设施和5G、人工智能等新型基础设施建设”。党的十九届五中全会指出“推动互联网、大数据、人工智能等同各产业深度融合,推动先进制造业集群发展,构建一批各具特色、优势互补、结构合理的战略性新兴产业增长引擎”。加快打造具备先进水平的人工智能基础设施,是推动科技跨越发展、产业优化升级、生产力整体跃升的重要抓手,对提升我国公共服务智能化水平,助力培育数字经济、构建智能社会意义重大。 为更好地认识人工智能基础设施,推动其健康可持续发展,专委会组织中国信息通信研究院政策与经济研究所、产业与规划研究所研究团队,开展深入调查研究并形成本报告。主要包含以下内容:第一部分探究了人工智能基础设施的内涵及范围;第二部分梳理并总结全球主要国家及地区人工智能基础设施发展战略及特点;第三部分围绕数据资源、算法框架、算力资源、开放平台等人工智能基础设施核心内容进行了系统分析;第四部分对加快我国人工智能基础设施发展提出了一些思考。 图表展示 目录 一、人工智能基础设施的内涵及范围 二、人工智能基础设施全球战略布局 三、人工智能基础设施发展态势剖析 四、为人工智能基础设施发展营造良好环境 报告来源:中国通信学会 发布时间:2020年

资源

全球产业数字化转型趋势及方向研判_中国电子学会_2020

研究内容 全球已迎来前所未有的新一轮科技与产业革命,依托于互联网、大数据、人工智能等新一代信息技术的创新聚变,快速、高效、低成本的数据计算、处理及存储的新体系逐步建立,人类对客观世界的认知与探索从物理空间向信息空间急速迈进,在现实与虚拟之间、原子与比特之间搭建着可以彼此联接、精准映射、交互反馈、有效控制的通道、枢纽与平台。全球产业数字化转型的脉络和趋势日益清晰坚定,成为面向网络化、智能化方向提质增效及重塑核心竞争力的必备基础和必经途径,正在推动生产主体、对象、工具、模式、场所的全体系重构,正在引致以数据为核心生产要素的增长动力变革,正在形成发展观、方法论、价值判断、运行机理等认知框架的范式迁移。基于此,中国数字经济百人会依托中国电子学会的专业研究团队,组织业内知名专家学者,结合国内外领军企业的具体实践经验,对全球产业数字化转型的基本趋势、面临问题、布局特征、典型模式、主要方向等做出研判。 图表展示 目录 一、全球产业数字化转型的基本趋势 (一)产业数字化转型从被动到主动、从片段到连续、从垂直到协同 (二)产业数字化转型呈现平台化、共享化新特征 (三)产业数字化转型重塑开放协同的创新体系 (四)产业数字化转型引导消费者技能和素养升级 二、全球产业数字化转型需要解决的关键问题 (一)不确定性下降和复杂性上升的经济均衡问题 (二)供给碎片化和需求协同化的全局统筹问题 (三)前瞻技术大量涌现和现实需求尚待挖掘的市场培育问题 三、全球产业数字化转型的布局特征 (一)美国 :聚焦前沿技术和高端制造业,引领全球数字化转型浪潮 (二)英国 :强化战略引领作用,打造数字化强国 (三)德国 :积极践行“工业 4.0”,明确五大行动领域 (四)欧盟 :打造统一数字市场,构筑产业转型共同体 (五)法国 :明确工业转型和人才培养方案,打造欧洲经济中心 (六)日本 :以技术创新和“互联工业”为突破口,建设超智能社会 (七)韩国 :以建设智能工厂为先导,为制造业转型积极布局 (八)俄罗斯 :注重技术自主研发,着力夯实数字化转型基础 (九)新加坡 :描绘数字化蓝图,助力服务业转型升级 (十)泰国 :以“泰国 4.0”为战略引领,积极开展国际合作 四、全球产业数字化转型的典型模式 五、全球产业数字化转型的主要方向 (一)制造业 :工业互联网成为转型升级重要突破口 (二)建筑业 :虚拟建造助力工程全方位数字化转变 (三)能源业 :大数据可视化平台提升能源供给效率 (四)矿产开采业 :智能装备实现精准安全的无人开采 (五)畜牧业 :动物可穿戴设备开启智慧养殖数据入口 (六)零售业 :线上线下一体化精准挖掘用户消费需求 (七)物流业 :仓储数字化智能化改造加快货物流通 (八)金融业 :多源数据分析有效降低金融风险 (一)推动大数据和人工智能技术创新发展成为各国共性战略选择 (二)培养数字技能人才是支撑数字化转型发展的重要举措 (三)围绕底层技术、标准、知识产权的争夺愈加激烈 (四)组织架构优化及商业模式变革成为企业转型焦点 (五)激发培育契合新一代信息技术特性的应用场景 报告来源:中国电子学会 发布时间:2020年12月

计算机

计算机·圈子   首发

anna 更新了
资源

【项目】几个机器学习项目

几个机器学习项目 trip 本项目是数据的EDA探索,针对自行车共享数据集2015_trip_data进行探索性数据分析。这个数据集的特征如下表所示: 分别观察了数据集的数据分布、时间序列成分、度量测度中心、离群样本、相关性、t-分布、中心极限定理等。 Concrete 本项目是数据的回归预测,针对混凝土抗压强度数据集Concrete_Data进行样本的混凝土抗压强度预测。这个数据集的特征如下表所示: 先对特征之间,特征与label之间的一致性进行观察,然后选取一致性较高的特征进行分析,基于R^2指标,分别用线性回归/岭回归/Lasso回归/ElasticNet/梯度boosting回归/支持向量机对数据集做单变量与多变量的回归预测分析。 Yahoo 本项目是针对股票作时间序列分析与预测,针对数据集为雪人2017年全年的数据集。这个数据集的特征如下表所示: 首先进行特征探索,利用Dickey-Fuller检验评估时间序列的平稳性,然后通过对数以及差分运算使时间序列平稳。通过Durbin Watson统计计算时间序列的自相关性。最后利用ARIMA进行时间序列建模分析,最终的MSE: 0.2393 AAAI 本项目是数据的聚类分析,针对2014年AAAI收到的所有论文数据集[UCI] AAAI-14 Accepted Papers - Papers进行样本的聚类分析。这个数据集的特征如下表所示: 首先进行特征转换,将数据集按照作者选定的高级关键词进行展开,然后分别用k-means、高斯混合模型、贝叶斯高斯混合模型对数据集进行聚类分析。并对聚类结果采用词云的方式进行可视化分析。最终得到贝叶斯高斯混合模型的聚类效果最好,将数据集聚为3簇时,轮廓系数最大。 noshowappointments 本项目是数据的二分类分析,针对俄亥俄州诊所患者出现与否数据集No-show-Issue-Comma-300k进行样本的分类预测。这个数据集的特征如下表所示: 首先进行特征探究,观察里面的连续变量,布尔值变量以及字符串变量,并绘制不同变量的分布图。然后对变量中的离群值以及明显错误数据进行清洗,探究各变量与状态变量之间的关系。最后分别用决策树,SGD,随机森林以及梯度Boosting对数据集做二分类预测,得到梯度Boosting在ROC_AUC指标下效果最好。 via:https://github.com/wzy6642/Machine-Learning-Case-Studies

资源

【毕业设计】基于SSM的动态旅游网站

基于SSM的动态旅游网站 项目介绍 对比国内外的旅游网站,国内基本都是一些专业的大公司运作的消费者旅游网站,而非商业性质的旅游信息网站却很少。而本课题选择的这个动态网站建设是基于非商业用途的旅游信息交互式网站,网站的信息来源可以来源于管理者,也可以来源于用户。在用户的基数够大的情况下,会出现很多优质的旅游信息,为其他用户提供服务。 本系统采用三层结构,确定系统的Java作为编程语言,View层采用JSP,Spring 作为整个项目的整合核心管理所有 Bean 的生命周期行为,Dao层采用MyBatis,MySQL作为数据库,SpringMVC 的 Controller作为整个应用的控制器。整个系统要操作方便、易于维护、灵活使用。 本系统采用以上方法,基本实现了用户模块、景点模块、酒店模块、论坛模块、定制模块、留言回复功能,及相应模块的后台管理功能等。 线上地址 http://116.62.110.99:8083/ 技术 使用Java作为开发语言 后端 Spring SpringMVC MyBatis 前端 bootstrap jQuery 数据库 MySQL 5.5 本项目数据库 src/resources/trip_web_db.sql 工具 IDEA Maven Git dropzone 开发参考 Java单体视频合集 https://www.funtl.com/zh/guide/%E8%B5%B0%E5%90%91%E5%8D%95%E4%BD%93%E5%9C%B0%E7%8B%B1.html#%E8%A7%86%E9%A2%91%E5%90%88%E9%9B%86 Dropzone https://www.dropzonejs.com/ BootStrap https://layoutit.com/build 来源https://github.com/niziming/tripweb

资源

【Demo】Python中基于Tensorflow实现人脸识别

【Demo】Python中基于Tensorflow实现人脸识别 安装 要求 Python3 (3.5 ++ is recommended) 依赖 opencv3 numpy tensorflow ( 1.1.0-rc or 1.2.0 is recommended ) 实现 为了获得最佳准确性,请在输入新主题时尝试模仿下图中所做的操作: Flags: --mode“ input” 将新用户添加到数据集中 使用的模型的信阿息: 面部识别架构:Facenet Inception Resnet V1 Davidsandberg repo中提供了预训练的模型 有关该模型的更多信息:https://arxiv.org/abs/1602.07261 人脸检测方法:MTCNN 有关MTCNN人脸检测的更多信息:https://kpzhang93.github.io/MTCNN_face_detection_alignment/ 这两个模型同时运行 框架和库: Tensorflow:Google深度学习框架 OpenCV:图像处理(VideoCapture,调整大小,..) 改进建议 为了使此repo尽可能简单,我可能会在单独的repo中使用“插件”: 鉴于Facenet模型准确性的限制,你可以通过多种方法来提高实际应用中的准确性。 我的建议之一是为屏幕上检测到的每个面部创建一个跟踪器,然后实时对每个面部进行识别。 然后,在经过一定数量的帧(3到10帧,取决于你的机器速度)之后,确定每个跟踪器中的人。 继续做同样的事情,直到跟踪器消失或失去跟踪。 结果可能如下: 这肯定会提高你的程序能力,因为经过一定数量的帧后,结果很可能会倾向于图片中的正确对象,而不是像通常那样立即决定在1帧后立即做出选择。 这种方法的一个好处是,随着时间的推移,随着置信点的增加,人在摄像机前停留的时间越长,结果就越准确和可信。 另外,你可以通过多线程或处理技巧来提高性能。 演示: 点击图片获得完整现场演示视频: 来源https://github.com/vudung45/FaceRec

计算机

计算机·圈子   首发

阿托 更新了
资源

【Demo】基于深度学习的中文语音识别系统ASRT

ASRT:一个基于深度学习的中文语音识别系统 Introduction 简介 本项目使用Keras、TensorFlow基于深度卷积神经网络和长短时记忆神经网络、注意力机制以及CTC实现。 Model 模型 Speech Model 语音模型 CNN + LSTM/GRU + CTC 其中,输入的音频的最大时间长度为16秒,输出为对应的汉语拼音序列 关于下载已经训练好的模型的问题 可以在Github本仓库下releases里面的查看发布的各个版本软件的压缩包里获得包含已经训练好模型参数的完整源程序。 发布的成品软件可以在此下载:ASRT下载页面 Language Model 语言模型 基于概率图的最大熵隐马尔可夫模型 输入为汉语拼音序列,输出为对应的汉字文本 About Accuracy 关于准确率 当前,最好的模型在测试集上基本能达到80%的汉语拼音正确率 不过由于目前国际和国内的部分团队能做到98%,所以正确率仍有待于进一步提高 Python Import Python的依赖库 python_speech_features TensorFlow (1.13+) Keras (2.3+) Numpy wave matplotlib math Scipy h5py http urllib 程序运行依赖环境详细说明 Data Sets 数据集 几个最新免费开源的中文语音数据集 清华大学THCHS30中文语音数据集 data_thchs30.tgz OpenSLR国内镜像 OpenSLR国外镜像 test-noise.tgz OpenSLR国内镜像 OpenSLR国外镜像 resource.tgz OpenSLR国内镜像 OpenSLR国外镜像 Free ST Chinese Mandarin Corpus ST-CMDS-20170001_1-OS.tar.gz OpenSLR国内镜像 OpenSLR国外镜像 AIShell-1 开源版数据集 data_aishell.tgz OpenSLR国内镜像 OpenSLR国外镜像 注:数据集解压方法 Primewords Chinese Corpus Set 1 primewords_md_2018_set1.tar.gz OpenSLR国内镜像 OpenSLR国外镜像 aidatatang_200zh aidatatang_200zh.tgz OpenSLR国内镜像 OpenSLR国外镜像 MagicData train_set.tar.gz OpenSLR国内镜像 OpenSLR国外镜像 dev_set.tar.gz OpenSLR国内镜像 OpenSLR国外镜像 test_set.tar.gz OpenSLR国内镜像 OpenSLR国外镜像 metadata.tar.gz OpenSLR国内镜像 OpenSLR国外镜像 特别鸣谢!感谢前辈们的公开语音数据集 如果提供的数据集链接无法打开和下载,请点击该链接 OpenSLR License 开源许可协议 GPL v3.0 © nl8590687 作者:AI柠檬 来源https://github.com/nl8590687/ASRT_SpeechRecognition

资源

基于Python的车牌检测和识别系统

车牌检测和识别的Python应用软件实现 车牌的检测和识别的应用非常广泛,比如交通违章车牌追踪,小区或地下车库门禁。在对车牌识别和检测的过程中,因为车牌往往是规整的矩形,长宽比相对固定,色调纹理相对固定,常用的方法有:基于形状、基于色调、基于纹理、基于文字特征等方法,近年来随着深度学习的发展也会使用目标检测的一些深度学习方法。该项目主要的流程如下图所示: 1.输入原始图片,通过二值化,边缘检测,和基于色调的颜色微调等办法检测出原图中的车牌号的位置; 2.把检测到的车牌(ROI)裁剪,为车牌号的识别做准备; 3.基于裁剪的车牌号,使用直方图的波峰波谷分割裁剪的车牌号(如上图中的第3步) 4.训练机器学习模型做车牌识别,这里训练了2个SVM,一个SVM用来识别省份简称(如 鲁),另一个SVM用来识别字母和数字。 5.通过PyQt5把整个算法封装成GUI程序,并打包发布安装软件。 项目代码解析 下图描述了整个项目的代码结构, 项目演示 可以访问安装程序下载地址(https://pan.baidu.com/s/1IazbGFLlQkb8BQmK_EAeRA 提取码:v103 )安装安装程序进行测试,这里展示一些识别结果和测试视频: 提升 目前识别的效果针对于某些场景下仍然很不理想,技术层面上的主要原因有两个,一个是车牌检测算法并没有检测到车牌(这主要是检测算法的问题),可以尝试一些目标检测的算法,比如Faster R-CNN(速度可能慢一些),YOLO系列, SSD系列等的经典的目标检测算法,然后做矫正或进一步的区域筛选;另一个原因是是在识别算法上,本次我们仅是基于少量的训练数据训练了SVM,可以尝试增加训练集并把模型替换成一些更复杂的机器学习模型如XGBoost,LightGBM,CatBoost等模型或使用CNN训练一个多分类的深度学习模型, 亦或者是直接考虑一些基于Attention的CNN-RNN架构的OCR识别模型。 转载自:https://github.com/DataXujing/vehicle-license-plate-recognition

计算机

计算机·圈子   首发

anna 更新了
资源

【项目】受监督的回归机器学习项目

受监督的回归机器学习项目 目标: 使用提供的建筑能源数据开发一个模型,该模型可以预测建筑物的能源之星得分, 然后解释结果以找到最能预测得分的变量。 介绍: 这是一个受监督的回归机器学习任务:给定一组包含目标(在本例中为分数)的数据,我们希望训练一个可以学习将特征(也称为解释变量)映射到目标的模型。 受监督问题: 我们可以知道数据的特征和目标,我们的目标是训练可以学习两者之间映射关系的模型。 回归问题: Energy Star Score是一个连续变量。 在训练中,我们希望模型能够学习特征和分数之间的关系,因此我们给出了特征和答案。然后,为了测试模型的学习效果,我们在一个从未见过答案的测试集上进行评估 收获 数据清理,探索性数据分析,特征工程和选择等常见问题的解决办法 随机搜索,网格搜索,交叉验证等方法寻找最优超参数 可视化决策树 对完整的机器学习项目流程建立一个宏观的了解 目录 1. 数据清理和格式化 1.1 加载并检查数据 1.2 数据类型和缺失值 1.2.1 将数据转换为正确的类型 1.3 处理缺失值 2. 探索性数据分析 2.1 单变量图 2.2 去除异常值 2.3 寻找关系 2.4 特征与目标之间的相关性 2.5 双变量图(Two-Variable Plots) 2.5.1 Pairs Plot 3. 特征工程和选择 3.1 特征工程 3.2 特征选择(去除共线特征) 3.3 划分训练集和测试集 3.4 建立Baseline 4. 基于性能指标比较几种机器学习模型 4.1 输入缺失值 4.2 特征缩放 4.3 - 需要评估的模型 5. 对最佳模型执行超参数调整,即优化模型 5.1 超参数 5.2 使用随机搜索和交叉验证进行超参数调整 6. 在测试集上评估最佳模型 7. 解释模型结果 7.1 特征重要性 - Feature Importances 7.2 使用特征重要性进行特征选择 7.3 本地可解释的与模型无关的解释- Locally Interpretable Model-agnostic Explanations (LIME) 7.4 检查单个决策树 8.得出结论&&记录发现 8.1 得出结论 8.2 记录发现 via:https://github.com/DeqianBai/Your-first-machine-learning-Project---End-to-End-in-Python

计算机

计算机·圈子   首发

anna 更新了
资源

【项目】基于spark的机器学习项目

基于spark的机器学习项目 项目简介 本项目主要是对一些常用的算法的实现,以及基于spark的机器学习算法实现。 目前以实现的功能有: 数据预处理 基于spark的LR逻辑回归分类 基于spark的DT决策树分类 数据预处理 数据预处理主要对算法需要用到的数据进行前期的清洗等操作,其中分词等使用到了HanLP相关的代码。 由于分词使用到的词典和模型较大,因此未上传到github上,大家可以从HanLP主页下载对应版本的模型数据(具体版本见ml模块的pom.xml配置) 下载完后将data目录解压到ckooc-ml/dictionaries/hanlp目录下即可 目前已实现的功能: 分词 去除停用词 去除英文 去除数字 词性标注 向量化 输入数据格式 数据预处理的输入数据为中国新闻网上抓取的数据,分为6个类别体育,军事,文化和经济. 分为训练文本和测试文本. 输入文件位置: 训练文本: data/classnews/train/ 测试文本: data/classnews/test/ 输出数据格式 输出经过分词等预处理之后的数据、特征词索引模型、向量模型 模型保存位置: 特征词索引模型: models/preprocession/indexModel 向量模型: models/preprocession/vecModel 分类 目前主要使用分类算法进行新闻分类,已实现的算法有: LR逻辑回归 DT决策树 上述所有功能的Demo均在src/main/scala目录下,包含模型训练和测试两部分(注意,分类需要先进行预处理,因此确保事先运行预处理代码,产生了两个预处理模型) 各种测试记录 LR分类测试记录 SVM分类(二分类)测试记录 说明 2分类:国内新闻、国外新闻(683M)/文化、娱乐(587M) 6分类:经济、军事、社会、体育、文化、娱乐 13分类:公益、健康、交通、教育、经济、军事、历史、农业、时尚、数码、体育、通讯、娱乐 via:https://github.com/yhao2014/ckoocML

  • 1
  • 26
  • 27
  • 28
  • 46
前往