深度学习的理解
- 本质原理:实现非线性映射;(神经网络的节点和参数非常多,通过梯度下降可以使模型适用于绝大多数问题)
- 不同任务之间的本质区别:通过设置不同的目标函数(LossFunction)、或输出的模式结构(比如GAN\TRANSFORMER)
- 网络结构:不同的网络的内部结构起到的就是提升模型性能的作用(提高准确度、提高训练速度、提高模型速度等)
实用新型专利
- 解决问题:
- 基于交通大数据背景,通过交通视频系统获取需要交通疏导地点,提高出警速度;
- 交警动作映射到交通指挥等中,实现交警动作和指挥灯信号的同步;
- 工作流程:
- 首先对HRnet网络 2d姿态估计模型和videopose3d姿态估计模型进行训练,得到得到基本的交通指挥手势信息库
- 对交警动作进行识别并将交通信息响应到交通灯中;
- 对为识别动作可进行模型的增量学习;
- 算法:
- YOLO:目标检测
- HRNet:用于2d人体姿态估计
- 传统网络结构:高分辨率->低分辨率->恢复为高分辨率,是一种串联结构;
- HRNET:整个网络过程都保持高分辨率表征,从网络第一阶段开始,逐步增加网络的低分辨率子网,形成更多阶段,然后将多分辨率子网进行连接,是一种并联结构;
- VIDEOPOSE3D:3d人体姿态估计
国创
- 结构:
- 数字孪生部分:6自由度机械臂+web端的3d模型实现二者姿态的实时映射
- 控制部分:直接控制+视觉控制,视觉控制部分使用yolo算法+videopose3d获取人体姿态,将手臂数据作用在机械臂上
- 服务:深度学习服务器 + 边缘设备(机械臂)微型服务器 + Threejs的WEB前端模型
- 难点:
- 姿态控制时高,网络性能有限,需要网络结构优化(使用YOLOX)
- 精度低:视觉识别控制难以满足高精度作业,难以解决(需要使用高精度传感器)
- yolo:寻求速度与准确度的平衡!
- 网络输出:x,y,h,w,classes(confidence )
- 锚点:在锚点上选择较优的锚框再进行回归,直接回归h和w难度较大
- https://blog.csdn.net/leviopku/article/details/82660381
- yoloV1:
- 结构: 7个卷积层 + flatten + 全连接层
- 损失函数:误差平方和计算(bounding box损失+confidence损失+class损失)
- 缺点:
- 群体性目标检测差:一群鸟
- 目标出现新尺寸时预测效果差
- yolov2:CVPR2017
- 每个卷积层添加BatchNormalization层,同时一处dropout层,减小过拟合,加快收敛
- 更高分辨率分类器:448*448
- 使用基于anchor的边界框预测,使用网络更加易于收敛
- 使用k-means获得priors(anchor)
- yolov3:做大做强,再创辉煌
- HRNet:用于人体姿态识别
- 将不同分辨率的feature map进行并联
- 在并联的基础上,添加不同feature map的交互(fusion),交互方法为:
- 相同分辨率feature map直接复制
- 升分辨率使用bilnear upsample +1*1卷积讲channel数统一
- 降分辨率使用strid为3*3的卷积(3x3卷积是为了通过学习的方式,降低信息的损耗)
- 3个featuremap的融合是相加
数据挖掘基本算法:
- 贝叶斯:根据先验概率计算属于某个类别的后验概率,最后取概率最大的分类
- 决策树:id3,4.5,CART
- K-MEANS:无监督、聚类迭代
- svm:核函数,通过升维达到使用线性方法解决非线性问题的能力
- 基于mindspore框架实现,
- Transfomer:encoder和decoder,编码器+解码器,input->编码器编码->解码器解码输出->output;
- encoder: 输入部分(embedding编码)、注意力机制和前馈神经网络
- decoder:相对于encoder多了Masked Mutil-head-Attention,用于覆盖decoder还未见过的单词
- Bert结构:Transfomer中多个encoder结构堆叠在一起构成网络结构;
- 模型训练:
- 预训练:无监督训练过程,包括掩码语言模型和句子关系模型(时间很长)
- fine-tune:微调训练,根据下游任务进行模型微调训练(速度较快)
- Bert优缺点:准确率高,在各类nlp任务中都达到了极高的准确率,但是速度较慢,难以应用于线上任务
推荐系统
- UserBaseCF:找到用户的相似性矩阵,推荐相似用户所购买的物品
- ItemBaseCF:找到物品的相似性矩阵,推荐相似物品