人工智能

人工智能 · 圈子

648 位酷友已加入

本圈子收集关于人工智能的各种技术资料,加入圈子可以上传、下载资料,也可以使用提问来寻求资料或分享你认为有价值的站外链接~

关注推荐最新

热门标签

资源

智慧人才发展报告_清华大学

摘要 人才是国家科技创新经济发展的首要驱动力,是在当今日趋严峻的国际竞争 中取得优势的核心要素。信息时代,面向海量的人才数据和复杂多样的人才需求, 如何实现人才大数据的高效管理和人才情况的深度洞察,是困扰政府、企业、高校等人才业务关联部门的重大难题。 本文首先通过对比分析美国、英国、日本、 中国等全球主要经济体国家在人才竞争战略、人才培养制度、人才引进政策等方 面的举措,总结了我国人才发展过程中的问题与原因;然后从数据的角度,描述 了我国的人力资源总量和科研人员队伍建设情况。并以人工智能领域为例,从人才培养模式、科研和产业人才现状等角度进行深入分析,概括了该领域人才发展 问题; 最后,分别针对政府、企业、高校等场景的人才需求,分析了传统做法的不足,介绍了智慧解决方案和代表性案例,并从智慧人才的角度,给出了解决对 策。将大数据、云计算、人工智能等智能化技术融入到人才大数据挖掘和管理任 务中,打造一套智慧人才管理体系和人才生态平台,为提升人才治理能力和智能化水平提供了一种解决思路。 目录 引言 国内外人才发展实践历程 2.1 人才竞争战略 2.2 人才培养制度 2.3 人才引进政策 中国人才发展总体状况 3.1 中国人力资源总量 3.2 R&D 人员队伍 3.3 我国人才发展中存在的问题与原因 AI 领域人才现状分析 4.1 AI 人才培养模式 4.1.1 AI 学科建设概述 4.1.2 产学研人才协同培养 4.2 AI 科研人才现状 4.2.1 AI 科研人才总体分析 4.2.2 AI 高层次科研人才分析 4.3 AI 产业人才现状 4.3.1 全球 AI 专利申请量分析 4.3.2 中国省市 AI 专利申请量分析 4.3.3 中国 AI 专利申请量 TOP 机构分析 4.3.4 中国 AI 产业人才分析 4.4 AI 人才发展问题 5. 智慧人才案例 5.1 政府 5.1.1 任务背景 5.1.2 传统做法与不足 5.1.3 智慧解决方案 5.1.4 代表性案例 5.2学校 5.2.1 任务背景 5.2.2 传统做法与不足 5.2.3 智慧解决方案 5.2.4 代表性案例 5.3企业 5.3.1 任务背景 5.3.2 传统做法与不足 5.3.3 智慧解决方案 5.3.4 代表性案例 6 智慧人才发展对策 参考文献 附录 1 人工智能领域高水平期刊和会议列表 附录 2 AMiner 智慧人才系统功能与服务 撰写单位:清华大学——中国工程院知识智能联合研究中心

资源

人工智能发展报告2011-2020_清华大学

核心发现 1.科技情报大数据挖掘与服务系统平台 AMiner 评选出过去十年十大 AI 研究热点,分别为:深度神经网络、特征抽取、图像分类、目标检测、语义分割、表示学习、生成对抗网络、语义网络、 协同过滤和机器翻译。 2. 过去十年有 5 位人工智能领域学者获得图灵奖殊荣,分别是在计算理论做出重要贡献的 Leslie Valiant ,通过概率和因果推理促进人工智能发展的 Judea Pearl,以及在深度神经网络概念和工程 上做出重大突破的 Yoshua Bengio、Geoffrey Hinton 和 Yann LeCun。 3. 过去十年人工智能国际顶刊顶会的最佳论文奖项较多授予的领域是计算理论、安全与隐私和机器学习。 4. 人工智能不同子领域论文的最高引用量量级跨度很大。最高引用量前十的论文研究主题以机器学习为首,其次是计算机视觉领域研究,二者的论文引用率均达到 25 万次以上。 5. 中国在自然语言处理、芯片技术、机器学习、信息检索与挖掘等 10 多个 AI 子领域的科研产出水平都紧随美国之后,居于世界前列;在多媒体与物联网领域的论文产出量超过美国,居于全球第一;而在人机交互、知识工程、机器人、计算机图形、计算理论领域,中国还需努力追赶。 6. 全球范围内,美国 AI 高层次学者的数量最多,占比62.2%,是第二位国家(中国)AI 高层次学者数量的 6 倍以上。 7. 清华大学是唯一入选全球人工智能领域高层次学者数量TOP10 的中国机构。 8. 国内人工智能领域高层次人才主要分布在京津冀、长三角和珠三角地区。四成以上的 AI 高层次人才集聚在北京。 9. 过去十年全球人工智能专利申请量 521264。中国专利申请量为 389571,位居世界第一,占全球总量的 74.7%,是排名第二的美国专利申请量的 8.2 倍。 10. 人工智能未来重点发展的技术方向包括:强化学习、神经形态硬件、知识图谱、智能机器人、可解释性 AI、数字伦理、知识指导的自然语言处理等。 发布单位:清华-中国工程院知识智能联合研究中心,清华大学人工智能研究院只是智能研究中心,中国人工智能学会

资源

人工智能指数2021年度报告

主要观点 药物设计与发现领域人工智能投资大幅增加:“药物、癌症、分子、药物发现 ”在2020年获得 的私人人工智能投资金额最大,超过了138亿美元。这个金额是2019年投资金额的4.5倍。 行业转变还在继续:2019年,北美人工智能专业毕业的博士中有65%进入了产业界,这一数据 比2010年的44.4%有所上升,凸显出产业界开始在人工智能发展中发挥更大作用。 生成一切:人工智能系统可以生成标准足够高、质量足够好的文字、音频和图像合成结果。对于 一些受限的技术应用,人类已经很难分辨出合成和非合成结果的区别。 人工智能面临多元化挑战:2019年,美国居民人工智能博士新毕业生中有45%是白人。相比之 下,仅有2.4%非洲裔美国人,3.2%是西班牙裔。 中国在人工智能期刊引用量上超过美国:几年前,中国在期刊发表的论文总数上超过了美国,现 在,在期刊引用方面中国也处于了领先地位。而在AI领域会议方面,美国发表的会议论文数量近 十年内依然持续(明显)领先于中国(被引用的次数也更多)。 美国人工智能博士毕业生大部分来自国外--他们毕业后还选择留在美国:2019年,北美新毕业的 人工智能博士中,国际学生的比例继续上升,达到了64.3%,这一数据比2018年增加了4.3%。 在外国毕业生中,有81.8%的人选择留在美国工作,而8.6%的人选择在美国以外的地方工作。 监控技术快速、廉价、日益普及:大规模监控所需的技术正在迅速成熟,图像分类、人脸识别、 视频分析、语音识别等技术在2020年都取得了重大进展。 人工智能伦理缺乏基准和共识:虽然一些团体在人工智能伦理领域制定了一系列定性或规范性报 告,但是该领域仍普遍缺乏可用于衡量或评估关于技术发展的广泛社会讨论与技术本身发展之间 关系的基准。此外,研究人员和民间社会认为人工智能伦理学比产业组织更重要。 人工智能已经得到了美国国会的关注:第116届国会是美国历史上最关注人工智能的国会会议。 在这一届国会记录中提及人工智能的次数是第115届国会的三倍以上。 目录 目录 2021年人工智能指数报告引言 九大要点 人工智能指数指导委员会和工作人员 如何引用该报告 致谢 报告要点 研发(R&D) 第1章 第2章 技术性能 第3章 经济 第4章 人工智能教育 第5章 人工智能应用的伦理挑战 第6章 人工智能的多样性 第7章 人工智能政策和国家战略 附录 发布单位:斯坦福HAI

资源

百度无人驾驶技术公开专利集锦_109份

百度无人驾驶技术公开专利集锦,共包含109份中文专利。 部分专利名称列表: CN104742881A-自动泊车系统和方法-公开 CN105711585B-用于无人驾驶车辆的车辆控制方法和装置-授权 CN105711591A-无人驾驶车辆、无人驾驶车辆的控制方法和装置-公开 CN105717920B-无人驾驶车辆的救援方法和装置-授权 CN105818810B-应用于无人驾驶汽车的控制方法及智能设备-授权 CN105973245A-利用无人驾驶车辆更新在线地图的方法和装置-公开 CN105872088A-无人驾驶车辆的操作系统切换方法和装置-公开 CN106155055A-用于无人驾驶车辆的预警方法和装置-公开 CN106218632A-用于控制无人驾驶车辆的方法和装置-公开 CN106227204A-车载装置及用于控制无人驾驶车辆的系统、方法和装置-公开 CN106515578A-无人车驾驶状态的识别装置、识别方法及无人车-公开 CN107167323A-无人驾驶汽车的场地测试方法及系统、设备与可读介质-公开 CN107194248A-无人驾驶车辆的反黑客劫持方法、装置、设备及存储介质-公开 ……

计算机

计算机·圈子   首发

DARPC 更新了
资源

基于opencv的工业现场液体饮料包装上的喷码检测与识别系统

目前利用opencv识别字符的项目和代码很多,但主要针对车牌识别。对于工业现场如易拉罐字符识别等,opencv的代码较少,halcon居多,而且能找到的代码都是处理背景非常简单的图片。 halcon在企业用的多,但opencv更适合学术之用。本着学习opencv和C++的目的,创建了这个项目。本项目从易到难,先从最简单的图片开始,一步一步往复杂背景方向靠拢。项目中参考了许多网上的代码和博客,相应代码处都给出了原博文链接,在此表示感谢。 准备数据 下图是经过打光处理的易拉罐罐底图片,项目首先处理这一类的图片。(为了排版,缩小了图片,原图在代码文件夹内,路径为:“IndustrialCharRecognition/CharRecognition/CharRecognition/images/”。图片为8位灰度图片) 三张图片依次为:滤波结果,分割结果,形态学处理结果: 三张图片依次为:文字区域定位结果,旋转结果,重新定位结果: 三张图片依次为:缩小区域,单字符分割,单字符识别: 来源:本项目转载自https://github.com/weiSupreme/IndustrialCharRecognition 作者的联系方式为:email: zxdzhuwei@foxmail.com(@hnu.edu.cn) 已获作者授权

问答

中国有哪些知名的无人驾驶公司?

请问中国的无人驾驶公司都有哪些?它们分别在哪个城市?现在发展的如何?

资源

人工智能核心技术产业白皮书 —— 深度学习技术驱动下的人工智能时代_中国信通院_202104

报告背景 在过去一年中,人工智能的新算法不断涌现,深度学习仍是这一时期发展主线,尝试解决更为复杂的应用任务。 人工智能的产业格局与生态体系更为明晰,开源开发框架格局逐步确立,以科技巨头引领的生态系统垂直整合速度不断加快;同时,产业发展重心开始转变,企业比拼重点从单项技术的“理论”准确率转向应用场景白热化的“跑马圈地”;人工智能的技术应用开始全面覆盖日常生活、科学研究、社会治理、商业创新和国家安全等经济社会的关键领域,以空前的广度和深度推动社会发展。 然而,由于人工智能技术成熟周期相对较长,产业发展速度不及资本市场预期,资本热度开始减退。人工智能产业似乎显现出“陷入困境”与“高速发展”的矛盾现象。 目录 一、人工智能核心技术产业发展总体态势 (一)深度学习技术进入升级优化阶段,产业开始步入高速发展阶段 (二)寒冬并非低谷,产业生态已现加速构建态势 (三)人工智能以空前广度与深度推动社会发展,加速产业结构升级进程 二、人工智能技术创新重点 (一)深度学习试图从多角度融合创新,开启认知时代仍在探索 (二)任务场景愈加复杂,倒逼学习方式多元化发展 (三)深度神经网络理论体系尝试颠覆性创新,多分支融合趋势渐显 (四)预训练模型加速演进,试图实现语言处理领域的通用智能 (五)模型小型化成为提升模型运行效率的关键 (六)深度学习应用加速推动智能计算革命 三、人工智能产业发展趋势 (一)从谋求单点技术的“极致”,向场景化综合生态发展 (二)以科技巨头引领的产业垂直整合速度不断加快 (三)开发框架格局逐步清晰,已从百花齐放向几家分争转变 (四)以研发和技术服务为核心,产业开始打造平台化发展模式 (五)智能计算产业形态初显,呈现蓬勃发展态势 (六)全球数据鸿沟仍在加大,开放共享机制与数据服务能力加速构建 (七)以开源开发框架为核心的生态体系雏形渐显,多种小生态同步形成 四、我国人工智能发展重点与机遇 (一)十三五期间我国总体发展情况 (二)十四五期间我国发展方向与机遇 撰写单位:中国信通院

计算机

计算机·圈子   首发

阿托 更新了
资源

【Demo】图像分类

本教程源自book/image_classification,初次使用请您参考Book文档使用说明。 背景介绍 图像相比文字能够提供更加生动、容易理解及更具艺术感的信息,是人们转递与交换信息的重要来源。在本教程中,我们专注于图像识别领域的一个重要问题,即图像分类。 图像分类是根据图像的语义信息将不同类别图像区分开来,是计算机视觉中重要的基本问题,也是图像检测、图像分割、物体跟踪、行为分析等其他高层视觉任务的基础。图像分类在很多领域有广泛应用,包括安防领域的人脸识别和智能视频分析等,交通领域的交通场景识别,互联网领域基于内容的图像检索和相册自动归类,医学领域的图像识别等。 一般来说,图像分类通过手工特征或特征学习方法对整个图像进行全部描述,然后使用分类器判别物体类别,因此如何提取图像的特征至关重要。在深度学习算法之前使用较多的是基于词袋(Bag of Words)模型的物体分类方法。词袋方法从自然语言处理中引入,即一句话可以用一个装了词的袋子表示其特征,袋子中的词为句子中的单词、短语或字。对于图像而言,词袋方法需要构建字典。最简单的词袋模型框架可以设计为底层特征抽取、特征编码、分类器设计三个过程。 而基于深度学习的图像分类方法,可以通过有监督或无监督的方式学习层次化的特征描述,从而取代了手工设计或选择图像特征的工作。深度学习模型中的卷积神经网络(Convolution Neural Network, CNN)近年来在图像领域取得了惊人的成绩,CNN直接利用图像像素信息作为输入,最大程度上保留了输入图像的所有信息,通过卷积操作进行特征的提取和高层抽象,模型输出直接是图像识别的结果。这种基于"输入-输出"直接端到端的学习方法取得了非常好的效果,得到了广泛的应用。 本教程主要介绍图像分类的深度学习模型,以及如何使用PaddlePaddle训练CNN模型。 效果展示 图像分类包括通用图像分类、细粒度图像分类等。图1展示了通用图像分类效果,即模型可以正确识别图像上的主要物体。 图1. 通用图像分类展示 图2展示了细粒度图像分类-花卉识别的效果,要求模型可以正确识别花的类别。 图2. 细粒度图像分类展示 一个好的模型既要对不同类别识别正确,同时也应该能够对不同视角、光照、背景、变形或部分遮挡的图像正确识别(这里我们统一称作图像扰动)。图3展示了一些图像的扰动,较好的模型会像聪明的人类一样能够正确识别。 图3. 扰动图片展示[22] 模型概览 图像识别领域大量的研究成果都是建立在PASCAL VOC、ImageNet等公开的数据集上,很多图像识别算法通常在这些数据集上进行测试和比较。PASCAL VOC是2005年发起的一个视觉挑战赛,ImageNet是2010年发起的大规模视觉识别竞赛(ILSVRC)的数据集,在本章中我们基于这些竞赛的一些论文介绍图像分类模型。 在2012年之前的传统图像分类方法可以用背景描述中提到的三步完成,但通常完整建立图像识别模型一般包括底层特征学习、特征编码、空间约束、分类器设计、模型融合等几个阶段。 底层特征提取: 通常从图像中按照固定步长、尺度提取大量局部特征描述。常用的局部特征包括SIFT(Scale-Invariant Feature Transform, 尺度不变特征转换) [1]、HOG(Histogram of Oriented Gradient, 方向梯度直方图) [2]、LBP(Local Bianray Pattern, 局部二值模式) [3] 等,一般也采用多种特征描述子,防止丢失过多的有用信息。 特征编码: 底层特征中包含了大量冗余与噪声,为了提高特征表达的鲁棒性,需要使用一种特征变换算法对底层特征进行编码,称作特征编码。常用的特征编码包括向量量化编码 [4]、稀疏编码 [5]、局部线性约束编码 [6]、Fisher向量编码 [7] 等。 空间特征约束: 特征编码之后一般会经过空间特征约束,也称作特征汇聚。特征汇聚是指在一个空间范围内,对每一维特征取最大值或者平均值,可以获得一定特征不变形的特征表达。金字塔特征匹配是一种常用的特征聚会方法,这种方法提出将图像均匀分块,在分块内做特征汇聚。 通过分类器分类: 经过前面步骤之后一张图像可以用一个固定维度的向量进行描述,接下来就是经过分类器对图像进行分类。通常使用的分类器包括SVM(Support Vector Machine, 支持向量机)、随机森林等。而使用核方法的SVM是最为广泛的分类器,在传统图像分类任务上性能很好。 这种方法在PASCAL VOC竞赛中的图像分类算法中被广泛使用 [18]。NEC实验室在ILSVRC2010中采用SIFT和LBP特征,两个非线性编码器以及SVM分类器获得图像分类的冠军 [8]。 Alex Krizhevsky在2012年ILSVRC提出的CNN模型 [9] 取得了历史性的突破,效果大幅度超越传统方法,获得了ILSVRC2012冠军,该模型被称作AlexNet。这也是首次将深度学习用于大规模图像分类中。从AlexNet之后,涌现了一系列CNN模型,不断地在ImageNet上刷新成绩,如图4展示。随着模型变得越来越深以及精妙的结构设计,Top-5的错误率也越来越低,降到了3.5%附近。而在同样的ImageNet数据集上,人眼的辨识错误率大概在5.1%,也就是目前的深度学习模型的识别能力已经超过了人眼。 图4. ILSVRC图像分类Top-5错误率 CNN 传统CNN包含卷积层、全连接层等组件,并采用softmax多类别分类器和多类交叉熵损失函数,一个典型的卷积神经网络如图5所示,我们先介绍用来构造CNN的常见组件。 图5. CNN网络示例[20] 卷积层(convolution layer): 执行卷积操作提取底层到高层的特征,发掘出图片局部关联性质和空间不变性质。 池化层(pooling layer): 执行降采样操作。通过取卷积输出特征图中局部区块的最大值(max-pooling)或者均值(avg-pooling)。降采样也是图像处理中常见的一种操作,可以过滤掉一些不重要的高频信息。 全连接层(fully-connected layer,或者fc layer): 输入层到隐藏层的神经元是全部连接的。 非线性变化: 卷积层、全连接层后面一般都会接非线性变化层,例如Sigmoid、Tanh、ReLu等来增强网络的表达能力,在CNN里最常使用的为ReLu激活函数。 Dropout [10] : 在模型训练阶段随机让一些隐层节点权重不工作,提高网络的泛化能力,一定程度上防止过拟合。 另外,在训练过程中由于每层参数不断更新,会导致下一次输入分布发生变化,这样导致训练过程需要精心设计超参数。如2015年Sergey Ioffe和Christian Szegedy提出了Batch Normalization (BN)算法 [14] 中,每个batch对网络中的每一层特征都做归一化,使得每层分布相对稳定。BN算法不仅起到一定的正则作用,而且弱化了一些超参数的设计。经过实验证明,BN算法加速了模型收敛过程,在后来较深的模型中被广泛使用。 接下来我们主要介绍VGG,GoogleNet和ResNet网络结构。 VGG 牛津大学VGG(Visual Geometry Group)组在2014年ILSVRC提出的模型被称作VGG模型 [11] 。该模型相比以往模型进一步加宽和加深了网络结构,它的核心是五组卷积操作,每两组之间做Max-Pooling空间降维。同一组内采用多次连续的3X3卷积,卷积核的数目由较浅组的64增多到最深组的512,同一组内的卷积核数目是一样的。卷积之后接两层全连接层,之后是分类层。由于每组内卷积层的不同,有11、13、16、19层这几种模型,下图展示一个16层的网络结构。VGG模型结构相对简洁,提出之后也有很多文章基于此模型进行研究,如在ImageNet上首次公开超过人眼识别的模型[19]就是借鉴VGG模型的结构。 图6. 基于ImageNet的VGG16模型 GoogleNet GoogleNet [12] 在2014年ILSVRC的获得了冠军,在介绍该模型之前我们先来了解NIN(Network in Network)模型 [13] 和Inception模块,因为GoogleNet模型由多组Inception模块组成,模型设计借鉴了NIN的一些思想。 NIN模型主要有两个特点: 引入了多层感知卷积网络(Multi-Layer Perceptron Convolution, MLPconv)代替一层线性卷积网络。MLPconv是一个微小的多层卷积网络,即在线性卷积后面增加若干层1x1的卷积,这样可以提取出高度非线性特征。 传统的CNN最后几层一般都是全连接层,参数较多。而NIN模型设计最后一层卷积层包含类别维度大小的特征图,然后采用全局均值池化(Avg-Pooling)替代全连接层,得到类别维度大小的向量,再进行分类。这种替代全连接层的方式有利于减少参数。 Inception模块如下图7所示,图(a)是最简单的设计,输出是3个卷积层和一个池化层的特征拼接。这种设计的缺点是池化层不会改变特征通道数,拼接后会导致特征的通道数较大,经过几层这样的模块堆积后,通道数会越来越大,导致参数和计算量也随之增大。为了改善这个缺点,图(b)引入3个1x1卷积层进行降维,所谓的降维就是减少通道数,同时如NIN模型中提到的1x1卷积也可以修正线性特征。 图7. Inception模块 GoogleNet由多组Inception模块堆积而成。另外,在网络最后也没有采用传统的多层全连接层,而是像NIN网络一样采用了均值池化层;但与NIN不同的是,池化层后面接了一层到类别数映射的全连接层。除了这两个特点之外,由于网络中间层特征也很有判别性,GoogleNet在中间层添加了两个辅助分类器,在后向传播中增强梯度并且增强正则化,而整个网络的损失函数是这个三个分类器的损失加权求和。 GoogleNet整体网络结构如图8所示,总共22层网络:开始由3层普通的卷积组成;接下来由三组子网络组成,第一组子网络包含2个Inception模块,第二组包含5个Inception模块,第三组包含2个Inception模块;然后接均值池化层、全连接层。 图8. GoogleNet[12] 上面介绍的是GoogleNet第一版模型(称作GoogleNet-v1)。GoogleNet-v2 [14] 引入BN层;GoogleNet-v3 [16] 对一些卷积层做了分解,进一步提高网络非线性能力和加深网络;GoogleNet-v4 [17] 引入下面要讲的ResNet设计思路。从v1到v4每一版的改进都会带来准确度的提升,介于篇幅,这里不再详细介绍v2到v4的结构。 ResNet ResNet(Residual Network) [15] 是2015年ImageNet图像分类、图像物体定位和图像物体检测比赛的冠军。针对训练卷积神经网络时加深网络导致准确度下降的问题,ResNet提出了采用残差学习。在已有设计思路(BN, 小卷积核,全卷积网络)的基础上,引入了残差模块。每个残差模块包含两条路径,其中一条路径是输入特征的直连通路,另一条路径对该特征做两到三次卷积操作得到该特征的残差,最后再将两条路径上的特征相加。 残差模块如图9所示,左边是基本模块连接方式,由两个输出通道数相同的3x3卷积组成。右边是瓶颈模块(Bottleneck)连接方式,之所以称为瓶颈,是因为上面的1x1卷积用来降维(图示例即256->64),下面的1x1卷积用来升维(图示例即64->256),这样中间3x3卷积的输入和输出通道数都较小(图示例即64->64)。 图9. 残差模块 图10展示了50、101、152层网络连接示意图,使用的是瓶颈模块。这三个模型的区别在于每组中残差模块的重复次数不同(见图右上角)。ResNet训练收敛较快,成功的训练了上百乃至近千层的卷积神经网络。 图10. 基于ImageNet的ResNet模型 数据准备 通用图像分类公开的标准数据集常用的有CIFAR、ImageNet、COCO等,常用的细粒度图像分类数据集包括CUB-200-2011、Stanford Dog、Oxford-flowers等。其中ImageNet数据集规模相对较大,如模型概览一章所讲,大量研究成果基于ImageNet。ImageNet数据从2010年来稍有变化,常用的是ImageNet-2012数据集,该数据集包含1000个类别:训练集包含1,281,167张图片,每个类别数据732至1300张不等,验证集包含50,000张图片,平均每个类别50张图片。 由于ImageNet数据集较大,下载和训练较慢,为了方便大家学习,我们使用CIFAR10数据集。CIFAR10数据集包含60,000张32x32的彩色图片,10个类别,每个类包含6,000张。其中50,000张图片作为训练集,10000张作为测试集。图11从每个类别中随机抽取了10张图片,展示了所有的类别。 图11. CIFAR10数据集[21] Paddle API提供了自动加载cifar数据集模块 paddle.dataset.cifar。 通过输入 python train.py,就可以开始训练模型了,以下小节将详细介绍 train.py 的相关内容。 模型结构 Paddle 初始化 让我们从导入 Paddle Fluid API 和辅助模块开始。 本教程中我们提供了VGG和ResNet两个模型的配置。 VGG 首先介绍VGG模型结构,由于CIFAR10图片大小和数量相比ImageNet数据小很多,因此这里的模型针对CIFAR10数据做了一定的适配。卷积部分引入了BN和Dropout操作。 VGG核心模块的输入是数据层,vgg_bn_drop 定义了16层VGG结构,每层卷积后面引入BN层和Dropout层,详细的定义如下: 首先定义了一组卷积网络,即conv_block。卷积核大小为3x3,池化窗口大小为2x2,窗口滑动大小为2,groups决定每组VGG模块是几次连续的卷积操作,dropouts指定Dropout操作的概率。所使用的 img_conv_group 是在 paddle.networks 中预定义的模块,由若干组 Conv->BN->ReLu->Dropout 和 一组 Pooling 组成。 五组卷积操作,即 5个conv_block。 第一、二组采用两次连续的卷积操作。第三、四、五组采用三次连续的卷积操作。每组最后一个卷积后面Dropout概率为0,即不使用Dropout操作。 最后接两层512维的全连接。 通过上面VGG网络提取高层特征,然后经过全连接层映射到类别维度大小的向量,再通过Softmax归一化得到每个类别的概率,也可称作分类器。 ResNet ResNet模型的第1、3、4步和VGG模型相同,这里不再介绍。主要介绍第2步即CIFAR10数据集上ResNet核心模块。 先介绍 resnet_cifar10 中的一些基本函数,再介绍网络连接过程。 conv_bn_layer : 带BN的卷积层。 shortcut : 残差模块的"直连"路径,"直连"实际分两种形式:残差模块输入和输出特征通道数不等时,采用1x1卷积的升维操作;残差模块输入和输出通道相等时,采用直连操作。 basicblock : 一个基础残差模块,即图9左边所示,由两组3x3卷积组成的路径和一条"直连"路径组成。 bottleneck : 一个瓶颈残差模块,即图9右边所示,由上下1x1卷积和中间3x3卷积组成的路径和一条"直连"路径组成。 layer_warp : 一组残差模块,由若干个残差模块堆积而成。每组中第一个残差模块滑动窗口大小与其他可以不同,以用来减少特征图在垂直和水平方向的大小。 resnet_cifar10 的连接结构主要有以下几个过程。 底层输入连接一层 conv_bn_layer,即带BN的卷积层。 然后连接3组残差模块即下面配置3组 layer_warp ,每组采用图 10 左边残差模块组成。 最后对网络做均值池化并返回该层。 注意:除过第一层卷积层和最后一层全连接层之外,要求三组 layer_warp 总的含参层数能够被6整除,即 resnet_cifar10 的 depth 要满足 $(depth - 2) % 6 == 0$ 。 Infererence Program 配置 网络输入定义为 data_layer (数据层),在图像分类中即为图像像素信息。CIFRAR10是RGB 3通道32x32大小的彩色图,因此输入数据大小为3072(3x32x32)。 Train Program 配置 然后我们需要设置训练程序 train_program。它首先从推理程序中进行预测。 在训练期间,它将从预测中计算 avg_cost。 在有监督训练中需要输入图像对应的类别信息,同样通过 fluid.layers.data 来定义。训练中采用多类交叉熵作为损失函数,并作为网络的输出,预测阶段定义网络的输出为分类器得到的概率信息。 注意: 训练程序应该返回一个数组,第一个返回参数必须是 avg_cost。训练器使用它来计算梯度。 Optimizer Function 配置 在下面的 Adam optimizer,learning_rate 是训练的速度,与网络的训练收敛速度有关系。 训练模型 Trainer 配置 现在,我们需要配置 Trainer。Trainer 需要接受训练程序 train_program, place 和优化器 optimizer_func。 Data Feeders 配置 cifar.train10() 每次产生一条样本,在完成shuffle和batch之后,作为训练的输入。 Event Handler 可以使用 event_handler 回调函数来观察训练过程,或进行测试等, 该回调函数是 trainer.train 函数里设定。 event_handler 用来在训练过程中输出文本日志 训练 通过 trainer.train 函数训练: 注意: CPU,每个 Epoch 将花费大约15~20分钟。这部分可能需要一段时间。请随意修改代码,在GPU上运行测试,以提高训练速度。 一轮训练log示例如下所示,经过1个pass, 训练集上平均 Accuracy 为0.59 ,测试集上平均 Accuracy 为0.6 。 图13是训练的分类错误率曲线图,运行到第200个pass后基本收敛,最终得到测试集上分类错误率为8.54%。 图13. CIFAR10数据集上VGG模型的分类错误率 应用模型 可以使用训练好的模型对图片进行分类,下面程序展示了如何使用 fluid.contrib.inferencer.Inferencer 接口进行推断,可以打开注释,更改加载的模型。 生成预测输入数据 dog.png is an example image of a dog. Turn it into an numpy array to match the data feeder format. Inferencer 配置和预测 Inferencer 需要一个 infer_func 和 param_path 来设置网络和经过训练的参数。 我们可以简单地插入前面定义的推理程序。 现在我们准备做预测。 总结 传统图像分类方法由多个阶段构成,框架较为复杂,而端到端的CNN模型结构可一步到位,而且大幅度提升了分类准确率。本文我们首先介绍VGG、GoogleNet、ResNet三个经典的模型;然后基于CIFAR10数据集,介绍如何使用PaddlePaddle配置和训练CNN模型,尤其是VGG和ResNet模型;最后介绍如何使用PaddlePaddle的API接口对图片进行预测和特征提取。对于其他数据集比如ImageNet,配置和训练流程是同样的,大家可以自行进行实验。 参考文献 [1] D. G. Lowe, Distinctive image features from scale-invariant keypoints. IJCV, 60(2):91-110, 2004. [2] N. Dalal, B. Triggs, Histograms of Oriented Gradients for Human Detection, Proc. IEEE Conf. Computer Vision and Pattern Recognition, 2005. [3] Ahonen, T., Hadid, A., and Pietikinen, M. (2006). Face description with local binary patterns: Application to face recognition. PAMI, 28. [4] J. Sivic, A. Zisserman, Video Google: A Text Retrieval Approach to Object Matching in Videos, Proc. Ninth Int'l Conf. Computer Vision, pp. 1470-1478, 2003. [5] B. Olshausen, D. Field, Sparse Coding with an Overcomplete Basis Set: A Strategy Employed by V1?, Vision Research, vol. 37, pp. 3311-3325, 1997. [6] Wang, J., Yang, J., Yu, K., Lv, F., Huang, T., and Gong, Y. (2010). Locality-constrained Linear Coding for image classification. In CVPR. [7] Perronnin, F., Sánchez, J., & Mensink, T. (2010). Improving the fisher kernel for large-scale image classification. In ECCV (4). [8] Lin, Y., Lv, F., Cao, L., Zhu, S., Yang, M., Cour, T., Yu, K., and Huang, T. (2011). Large-scale image clas- sification: Fast feature extraction and SVM training. In CVPR. [9] Krizhevsky, A., Sutskever, I., and Hinton, G. (2012). ImageNet classification with deep convolutional neu- ral networks. In NIPS. [10] G.E. Hinton, N. Srivastava, A. Krizhevsky, I. Sutskever, and R.R. Salakhutdinov. Improving neural networks by preventing co-adaptation of feature detectors. arXiv preprint arXiv:1207.0580, 2012. [11] K. Chatfield, K. Simonyan, A. Vedaldi, A. Zisserman. Return of the Devil in the Details: Delving Deep into Convolutional Nets. BMVC, 2014。 [12] Szegedy, C., Liu, W., Jia, Y., Sermanet, P., Reed, S., Anguelov, D., Erhan, D., Vanhoucke, V., Rabinovich, A., Going deeper with convolutions. In: CVPR. (2015) [13] Lin, M., Chen, Q., and Yan, S. Network in network. In Proc. ICLR, 2014. [14] S. Ioffe and C. Szegedy. Batch normalization: Accelerating deep network training by reducing internal covariate shift. In ICML, 2015. [15] K. He, X. Zhang, S. Ren, J. Sun. Deep Residual Learning for Image Recognition. CVPR 2016. [16] Szegedy, C., Vanhoucke, V., Ioffe, S., Shlens, J., Wojna, Z. Rethinking the incep-tion architecture for computer vision. In: CVPR. (2016). [17] Szegedy, C., Ioffe, S., Vanhoucke, V. Inception-v4, inception-resnet and the impact of residual connections on learning. arXiv:1602.07261 (2016). [18] Everingham, M., Eslami, S. M. A., Van Gool, L., Williams, C. K. I., Winn, J. and Zisserman, A. The Pascal Visual Object Classes Challenge: A Retrospective. International Journal of Computer Vision, 111(1), 98-136, 2015. [19] He, K., Zhang, X., Ren, S., and Sun, J. Delving Deep into Rectifiers: Surpassing Human-Level Performance on ImageNet Classification. ArXiv e-prints, February 2015. [20] http://deeplearning.net/tutorial/lenet.html [21] https://www.cs.toronto.edu/~kriz/cifar.html [22] http://cs231n.github.io/classification/ 来源https://github.com/yanjingang/pigimgclassification

资源

【毕业设计】使用pytorch进行深度学习网络模型训练,实现车型识别

简介 通过深度学习技术搭建残差网络,使用CompsCars数据集进行车型识别模型的训练,并将训练好的模型移植到了Android端,实现了通过手机扫一扫的方式进行汽车车型识别的功能。 项目涉及到的技术点较多,需要开发者有一定的技术功底。如:python语言的使用、深度学习框架pytorch的使用、爬虫脚本的理解、Java语言的使用、Android平台架构的理解等等。 虽然属于跨语言开发,但是要求并不高,只要达到入门级别即可看懂本项目,并可以尝试一些定制化的改造。毕竟框架已经搭建好了,只需要修改数据源、重新训练出模型,就可以实现一款新的应用啦。 最终效果 以下视频将展示所有功能完成后的APP的使用情况。 https://www.bilibili.com/video/BV1Pk4y1B7qK 模型训练精度 以下是使用Resnet-34进行400次车型识别训练的 train-validation图表。 以下是使用Resnet-34进行400次车型识别训练 Top-1的错误率。 以下是使用Resnet-34进行400次车型识别训练 Top-5的错误率。 扫一扫识别功能 以下是移植到android平台后进行识别的结果展示图。 使用的技术&框架 开发语言:Python、Java 技术框架:pytorch、resnet-34、Android平台 可选借助平台:百度AI平台 项目构成:模型训练项目、爬虫项目、APP开发项目 软/硬件需求 机器要求 因为涉及到机器学习模型训练,所以你应该拥有一台用来训练模型的机器,且需要搭载支持CUDA的GPU(如:GeForce、GTX、Tesla等),显存大小,自然是越大越好。 本人项目环境: windows10 专业版;GeForce MAX150;独显 2G;1T硬盘 也就是说这是最低配了,你至少要和我同一配置。 开发工具 Pycharm:用来训练模型、pyhton爬虫、模型移植脚本 Android Studio:用来开发安卓APP 数据集 数据集是项目最重要的一部分,有了数据集才能开始训练 本项目使用的是 香港中文大学的CompCars细粒度汽车数据集。 需要的同学可以私聊找我要网盘链接。 各模块介绍 模型训练 Github 地址:pytorch_train 欢迎 star/issue 训练模型主要分为五个模块:启动器、自定义数据加载器、网络模型、学习率/损失率调整以及训练可视化。 启动器是项目的入口,通过对启动器参数的设置,可以进行很多灵活的启动方式,下图为部分启动器参数设置。 任何一个深度学习的模型训练都是离不开数据集的,根据多种多样的数据集,我们应该使用一个方式将数据集用一种通用的结构返回,方便网络模型的加载处理。 这里使用了残差网络Resnet-34,代码中还提供了Resnet-18、Resnet-50、Resnet-101以及Resnet-152。残差结构是通过一个快捷连接,极大的减少了参数数量,降低了内存使用。 以下为残差网络的基本结构和Resnet-34 部分网络结构图。 除了最开始看到的train-val图表、Top-、Top-5的error记录表以外,在训练过程中,使用进度条打印当前训练的进度、训练精度等信息。打印时机可以通过上边提到的 启动器 优雅地配置。 以下为最终的项目包架构。 数据抓取 Github 地址:crawer/dongchedi 欢迎 star/issue 最终获取的数据如下图: 模型移植 Github 地址:pytorch_train/transfor 安卓界面&数据走向 Github 地址:carIdentify 欢迎 star/issue 实现了以下功能: 调用摄像头权限自动申请 摄像头预览 读取pytorch训练模型 调用第三方接口,精准预测 最终界面展示: 安卓项目结构如图: 使用方式 启动模型训练 启动前需要确保你已经有了本项目使用的数据集 CompCars 重新开始新的训练 python start.py --data_root "./data" --gpus 0,1,2 -w 2 -b 120 --num_class 13 --data_root 数据集路径位置 --gups 使用gpu训练的块数 -w 为gpu加载自定义数据集的工作线程 -b 用来gpu训练的 batch size是多少 --num_class 分类类别数量 使用上次训练结果继续训练 python start.py --data_root "./data" --gpus 0,1,2 -w 2 -b 120 --num_class 13 --resume "results/2020-04-14_12-36-16" --data_root 数据集路径位置 --gups 使用gpu训练的块数 -w 为gpu加载自定义数据集的工作线程 -b 用来gpu训练的 batch size是多少 --num_class 分类类别数量 --resume 上次训练结果文件夹,可继续上次的训练 模型移植 将训练好的模型转换为Android可以执行的模型 python transfor.py 项目定制化 找寻自己的数据集 需要修改启动脚本中 --num_class,模型类别 目前项目中具备很多备注记录,稍加review代码就可以理解,如有不清楚,可以私信询问。 启动APP APP下载链接:https://pan.baidu.com/s/1X7tobj4R302WmGu116-2mg 提取码: 1606 安装完成后 同意调用系统相机权限 使用扫一扫对准汽车 稍后将会展示识别后的结果和识别的图片 具体使用方式,可参见:https://www.bilibili.com/video/BV1Pk4y1B7qK 注:本资源系转载,原作者哔哩哔哩主页:https://space.bilibili.com/47354052?spm_id_from=333.788.b_765f7570696e666f.1 github主页:https://github.com/jelly54

资源

2021年技术趋势(中文版):加速数字化转型-德勤

概述 《报告》表明,全球企业均在加速数字化转型,不仅是为了运营更加灵活、高效,更主要地是为了应对市场需求和客户期望的剧烈波动。德勤管理咨询观察到的技术趋势包括未来的工作环境、人工智能产业化、关键核心业务的升级以及支持多样性、公平性和包容性的技术等九个趋势,分为三大类: 一、 企业的核心:战略工程化、激活核心系统、解放供应链,从而确保组织战略和技术战略协同、一致,方可成功。 二、 内外兼顾的最佳体验:为数十亿人量身定制、整合数字与现实、重启数字化工作环境,为客户、员工和利益相关者提供了正反两个方面视角:如何更好地融合线上与线下体验,从而创造更多价值?公平性与包容性(DEI)技术介绍了日益复杂的公平工具如何在人才生命周期中确保组织的公平与包容,并持续推动创新。 三、 数据:无所不能的艺术:当企业进一步迈向自动化和机器主导决策,人的能力将显著倍增。MLOps:产业化人工智能 ;机器数据革命:专供机器的数据,以及零信任:从不相信,永远验证,介绍了企业通过工业化和自动化实现更多价值的三个机会。 撰写单位:德勤

资源

人工智能算法金融应用评价规范_中国人民银行_2021

为全面提升人工智能技术在金融领域应用和管理水平,推动金融与科技深度融合协调发展,中国人民银行制定了《人工智能算法金融应用评价规范》(以下简称《规范》),于近日正式印发。 《规范》针对当前人工智能技术应用存在的算法黑箱、算法同质化、模型缺陷等潜在风险问题,建立了人工智能金融应用算法评价框架,从安全性、可解释性、精准性和性能等方面系统化地提出基本要求、评价方法和判定准则,为金融机构加强智能算法应用风险管理提供指引。 《规范》的发布有助于引导金融机构充分发挥人工智能“头雁效应”,加快金融数字化转型步伐,持续推动金融服务更为贴心、更加智慧、更有温度,打造数字经济时代金融创新发展新引擎,助力健全具有高度适应性、竞争力、普惠性的现代金融体系。

资源

开源生态白皮书_中国信通院_2020

概述 近几年开源技术快速发展,在云计算、大数据、人工智能等领域 逐渐形成技术主流,开源技术已经成为企业构建信息系统的重要选择,国内企业参与开源生态的热情度持续提升。 本白皮书是中国信息通信研究院在开源领域发布的白皮书,分析国内外开源生态发展现状,梳理当前发展热点,展望未来发展趋势。白皮书首先介绍了开源生态发展概况,重点围绕开源布局、开源运营、 开源治理、开源风险、行业开源等开源领域热点话题进行探讨,最后对开源生态未来发展进行了展望。 目录 一、 开源生态概述 (一)开源概念逐渐明晰 (二)开源生态以开源项目为中心构建 二、 开源生态发展现状 (一)开源数量持续攀升,我国开源覆盖全栈技术领域 (二)开源占据各领域主要市场份额,我国开源应用逐年攀升 (三)开源企业数量保持稳定增长,我国企业呈现主动开源趋势 (四)开源基金会成为开源运营重要角色 (五)各行业开源生态已经形成,我国行业积极拥抱开源 (六)开源风险问题凸显,成为开源应用屏障 (七)全球开源治理理念兴起,我国初步形成开源治理模式 (八)开源配套政策正在完善,我国政策引导开源社区构建 三、开源成为企业商业布局的重要手段 (一)全球开源商业模式多样化发展 (二)全球开源企业已启动收购模式,进一步扩大用户群体 (三)我国开源企业已初步构建形成有影响力的开源项目 四、全球开源基金会运营模式成熟,我国率先探索联盟运营机制 (一)良好的开源社区是形成开源代码的前提条件 (二)开源基金会运营通过知识产权托管培育开源社区 (三)我国逐步形成稳定的开源运营机制 五、传统行业逐步拥抱开源生态,我国行业用户关注开源使用 (一)工业互联网布局开源看重产业数字化新机遇 (二)电信行业由用户侧及运营商推动开源,探索产品创新 (三)政府采购行业发展开源看重公开透明 (四)金融机构开源看重产业创新力和市场布局 六、开源风险问题复杂,开源治理体系正在构建 (一)知识产权合规及安全漏洞风险相对普遍 (二)开源法律和知识产权环境推动开源良性发展 (三)开源治理工具加速企业开源治理体系构建 (四)开源治理模式逐步落地 七、开源生态未来发展趋势与建议 (一)开源生态未来发展趋势 (二)我国开源生态发展建议 附录一:开源软件风险扫描 (一)许可证及合规风险 (二)安全漏洞风险 附录二:企业开源治理案例 (一)浦发银行开源治理案例 (二)中信银行开源治理案例 (三)中国银行开源治理案例 (四)中兴开源治理案例 (五)红帽开源治理案例

  • 1
  • 19
  • 20
  • 21
  • 46
前往