名校博士带你解构大厂面试

开课吧开课吧锤锤2021-04-15 17:56

点赞
有用
分享分享

    一晃四月已经过半,金三银四的招聘旺季已经只剩下了一个小尾巴,之前有学员向小开反应,希望可以多有一些大厂面试方面的公开课,想抓住仅有的一点时间拿到满意的offer。

    这不,4月14日的《HelloWorld公开课》,宠粉狂魔小开给大家安排上了,悉尼科技大学博士司晨老师将用一节公开课的时间带你全面解构大厂面试,让你掌握大公司面试的所有精髓。

    大厂都是怎么面试的

    目前所有公司在招聘的AI方面的岗位基本可以分为四个大类,分别是工程,数据、算法、商务分析。而与之对应的有五个类型岗位。

    从下图可以看到,之所以将DataScientist(数据科学家)单独列出来,因为这是一个学科交叉、伸缩性都非常强的岗位,不同的公司对其有不同的定位。同学们可以根据自己的技术栈来选择适合自己的职位。

Java

    目前,所有公司的面试问题,大致可分为直接提问、应用题、项目问答三种。同学们可以根据这三种情况准备不同的应答方式,下面我们一个个来看。

    直接提问就是根据岗位所需的技术栈直接提问,比如会问你,在模型评估过程中,过拟合和欠拟合具体指什么现象?这样有助于面试官以最快速的方式筛选出合适的候选人。

    所谓的应用题就是给定你一个问题场景,让你在此场景下提供问题的解决方案,比如给定以下的场景,如何用机器学习解决呢?

    假设用户是否购买IBM笔记本跟它的职业,性别,每月可支配收入以及每周用上网时间有

    关系。其中职业有程序员,学生,文员,医生等类别;每月可支配收入在1000~50000范

    围内;每周上网时间在5~50个小时范围内。请用机器学习方法解决这个分类问题。

    最后一种就是根据你的过往项目经验来问,比如在哪个项目中具体遇到哪个问题,是如何解决的。举个例子,在某个项目中遇到了过拟合的问题,你是怎么发现模型过拟合的?用什么方法解决了过拟合?

    AI面试都在问什么

    在这个模块,司晨老师为我们列举了目前候选人在面试中经常会遇到的机器学习五大类经典问题,让我们一起去看看如何应对吧!

    特征工程

    Q:为什么要对特征做归一化?

    A:特征归一化是将所有特征都统一到一个大致相同的数值区间内,通常为[0,1]。一般有Min-MaxScaling和Z-ScoreNormalization两种方法,同时将特征做了归一化后,有一下三点好处

    平衡在模型训练过程中,各个属性对模型更新的贡献

    适用于基于梯度更新的学习方法

    减小抖动,稳定同步下降,加快收敛

    同学们这里要注意,在回答的过程中,要体现你思考的层次感,首先回答什么是归一化,其次回答怎么归一化,最后回答特征归一化后有什么好处。

    Q:简述kmeans流程

    A:随机初始化k个中心点,计算所有样本到中心点的距离;比较每个样本到k个中心点的距离,将样本分类到距离最近的类别中;k个类别组成的样本点重新计算中心点(如在每一个方

    向上计算均值);重复上述步骤,直到中心点不再变化。

    在此基础上,还有Kmeans++算法,核心思想是初始化的聚类中心点之间的距离尽可能地远(对初始化进行优化),整个流程分为以下三步

    1、随机初始化一个中心

    2、对于每个样本x,计算距离它最近的中心点的欧式距离D(x),

    每个样本被选为中心点的概率为图片:https://uploader.shimo.im/f/kX7iIKuO1sVQytV0.png,按照轮盘法选择出下一个中心点;

    3、重复步骤2,直到选出所有的中心点。

    这里同学们要注意,我们不仅要回答出问题的标准答案,也可以在此基础上升级迭代你的答案,这样面试官会感到惊喜。

    模型评估

    Q:回归问题常用的性能度量指标有哪些?

    A:有点对点误差、归一化的误差、点对面误差三种

Java

    Q:常见分类问题的度量指标有哪些?

    准确率

Java

    精确率-针对预测结果而言的

ai

    召回率–针对原来样本而言的

ai

    F1值-精确率和召回率的调和值

ai

    线性回归与逻辑回归

    Q:逻辑回归相比线性回归,有何异同?

    A:线性回归是回归问题,逻辑回归是分类问题。逻辑回归是广义线性回归,Label二元分布。逻辑回归前向计算=线性回归+Sigmoid函数

    Q:逻辑回归处理多标签分类问题时,一般怎么做?

    A:当K个类别不互斥,则生成K个模型,分别建立特征与每个类别的关系,当K个类别互斥是,则采用Softmax函数进行处理。

  ai

    集成算法

    Q:简述一下随机森林算法的原理

    A:随机森林是Bagging框架下的一种算法,它随机采样方法,对样本和属性都进行采样。对样本进行有放回的抽样,对样本的属性进行随机抽样,根据抽样得到的样本训练多颗决策树,然后对决策树的输出进行融合

    Q:随机森林的随机性体现在哪里?

    A:体现在随机采用和特征选取的随机性。随机采样:随机森林在计算每棵树时,从全部训练样本(样本数为n)中选取一个可能有重复的、大小同样为n的数据集进行训练(即booststrap采样)。

    特征选取的随机性:在每个节点随机选取所有特征的一个子集,用来计算最佳分割方式。

    深度学习

    Q:为什么必须在神经网络中引入非线性?

    A:没有引入非线性层,神经网络就变成了线性层的堆叠。线性函数的表现力有限,带有非线性层的神经网络被证明可以表示任何函数,使得网络设计发挥作用,并且提高网络的表现力。

    Q:AlexNet,VGG,GoogleNet,ResNet等网络之间的区别是什么?

    A:

    AlexNet

    DataAugmentation

    Dropout

    ReLU

    LocalResponseNormalization(邻近像素归一化)

    OverlappingPooling

    多GPU并行

    VGG

    网络更深

    用小卷积核堆叠代替大卷积核

    GoogleNet

    NetworkinNetwork结构–Inception

    网络的深度和宽度加大

    ResNet-残差网络

    网络直通

    一个网络块只需要学习残差

    以上知识司晨老师公开课所讲面试题的冰山一角,诸如GBDT原理、降低过拟合和欠拟合的方法等内容因篇幅所限没有逐一列举,同学们如果想了解完整的面试题,可以点击海外博士带你稳过AI技术面观看公开课的回放视频!

    如果有同学想要司晨老师授课PPT文件以及后续HelloWorld公开课信息,可以点击下方图片

ai

    讲师介绍

    司晨,AI创业公司研发总监,悉尼科技大学博士,ImpactInnovationLab专家组成员,AAAI会员,澳大利亚计算机协会会员,参与并领导实施了多个人工智能项目:包括基于大规模点云的三维物体重建,基于视频的VolumetricVideo自动重建,以及混合现实足球比赛项目等。

    《Hello,World公开课》是由开课吧推出的面向广大开发工程师的免费加餐课,集结业内名师大咖,聚焦热门技术和实战解决方案,以专业知识分享交流为桥梁,链接正在创造世界的一群科技主力们,向初心致敬,为技术发烧。无论你是初入职场的应届生,还是准备升职加薪的职场精英,相信这里都有你需要的养料。

小编推荐:

    《Hello,World公开课》所有人都要懂的人工智能简史课

    《Hello,World公开课》Android模拟器架构演进

    《Hello,World公开课》海外博士带你稳过AI技术面

有用
分享