预推免面试准备

深度学习的理解

  1. 本质原理:实现非线性映射;(神经网络的节点和参数非常多,通过梯度下降可以使模型适用于绝大多数问题)
  2. 不同任务之间的本质区别:通过设置不同的目标函数(LossFunction)、或输出的模式结构(比如GAN\TRANSFORMER)
  3. 网络结构:不同的网络的内部结构起到的就是提升模型性能的作用(提高准确度、提高训练速度、提高模型速度等)

实用新型专利

  1. 解决问题:
    1. 基于交通大数据背景,通过交通视频系统获取需要交通疏导地点,提高出警速度;
    2. 交警动作映射到交通指挥等中,实现交警动作和指挥灯信号的同步;
  2. 工作流程:
    1. 首先对HRnet网络 2d姿态估计模型和videopose3d姿态估计模型进行训练,得到得到基本的交通指挥手势信息库
    2. 对交警动作进行识别并将交通信息响应到交通灯中;
    3. 对为识别动作可进行模型的增量学习;
  3. 算法:
    1. YOLO:目标检测
    2. HRNet:用于2d人体姿态估计
      • 传统网络结构:高分辨率->低分辨率->恢复为高分辨率,是一种串联结构;
      • HRNET:整个网络过程都保持高分辨率表征,从网络第一阶段开始,逐步增加网络的低分辨率子网,形成更多阶段,然后将多分辨率子网进行连接,是一种并联结构;
    3. VIDEOPOSE3D:3d人体姿态估计

国创

  1. 结构:
    • 数字孪生部分:6自由度机械臂+web端的3d模型实现二者姿态的实时映射
    • 控制部分:直接控制+视觉控制,视觉控制部分使用yolo算法+videopose3d获取人体姿态,将手臂数据作用在机械臂上
    • 服务:深度学习服务器 + 边缘设备(机械臂)微型服务器 + Threejs的WEB前端模型
  2. 难点:
    • 姿态控制时高,网络性能有限,需要网络结构优化(使用YOLOX)
    • 精度低:视觉识别控制难以满足高精度作业,难以解决(需要使用高精度传感器)
  3. yolo:寻求速度与准确度的平衡!
    • 网络输出:x,y,h,w,classes(confidence )
    • 锚点:在锚点上选择较优的锚框再进行回归,直接回归h和w难度较大
    • https://blog.csdn.net/leviopku/article/details/82660381
    • yoloV1:
      • 结构: 7个卷积层 + flatten + 全连接层
      • 损失函数:误差平方和计算(bounding box损失+confidence损失+class损失)
      • 缺点:
        1. 群体性目标检测差:一群鸟
        2. 目标出现新尺寸时预测效果差
    • yolov2:CVPR2017
      • 每个卷积层添加BatchNormalization层,同时一处dropout层,减小过拟合,加快收敛
      • 更高分辨率分类器:448*448
      • 使用基于anchor的边界框预测,使用网络更加易于收敛
      • 使用k-means获得priors(anchor)
    • yolov3:做大做强,再创辉煌
  4. HRNet:用于人体姿态识别
    • 将不同分辨率的feature map进行并联
    • 在并联的基础上,添加不同feature map的交互(fusion),交互方法为:
      • 相同分辨率feature map直接复制
      • 升分辨率使用bilnear upsample +1*1卷积讲channel数统一
      • 降分辨率使用strid为3*3的卷积(3x3卷积是为了通过学习的方式,降低信息的损耗)
      • 3个featuremap的融合是相加

数据挖掘基本算法:

  1. 贝叶斯:根据先验概率计算属于某个类别的后验概率,最后取概率最大的分类
  2. 决策树:id3,4.5,CART
  3. K-MEANS:无监督、聚类迭代
  4. svm:核函数,通过升维达到使用线性方法解决非线性问题的能力

transformer和bert模型-nlp任务

  1. 基于mindspore框架实现,
  2. Transfomer:encoder和decoder,编码器+解码器,input->编码器编码->解码器解码输出->output;
    • encoder: 输入部分(embedding编码)、注意力机制和前馈神经网络
    • decoder:相对于encoder多了Masked Mutil-head-Attention,用于覆盖decoder还未见过的单词
  3. Bert结构:Transfomer中多个encoder结构堆叠在一起构成网络结构;
  4. 模型训练:
    1. 预训练:无监督训练过程,包括掩码语言模型和句子关系模型(时间很长)
    2. fine-tune:微调训练,根据下游任务进行模型微调训练(速度较快)
  5. Bert优缺点:准确率高,在各类nlp任务中都达到了极高的准确率,但是速度较慢,难以应用于线上任务

推荐系统

  1. UserBaseCF:找到用户的相似性矩阵,推荐相似用户所购买的物品
  2. ItemBaseCF:找到物品的相似性矩阵,推荐相似物品