当前位置: 格格档> 玄幻魔法> 我真的有一座法师塔> 第114章 进组(第一更)(1/4)

第114章 进组(第一更)(1/4)

    “你的这组数据里,重复值是怎么处理的?”程风推了推眼镜,偷偷抬头看了看方豫,讷讷的问道。这是体育生吧?这是体育生吧?这是体育生吧?体育生都开始建模了吗?方豫一进门,接近一米九的身高和壮硕的身材就带给程风很大的视觉压力。等方豫坐下后,程风更是感觉到方豫身上有种若有若无的威圧感,让他有一种在面对导师时的感觉。方豫只当程风是个书呆子学长,没太在意他的异常。方豫不知道的是,生命本质的连续提升,让普通人面对方豫时,会产生一些低位生物面对高位生物的畏惧。现在方豫还只是一个二级法师,等到了更高等级时,这种状况会更加明显。很多不想放弃人类正常社交生活的奥术法师,就会选择使用类似“温和之力”手环的道具或奥术封印压制住自己的上位者气息。听到程风的问题,方豫露出思考的表情:“用pandas的duplicated方法返回一个布尔型Series,可以识别重复值,然后用drop函数或keep函数删除就好了。”“如果是特征重复的,就要用corr方法计算特征相似度,用method参数指定肯德尔或斯皮尔曼相关系数。”听到方豫的回答,程风不由得一愣,这完全出乎他的意料。虽然程风问的只是一些基础的内容,但能获得如此清晰的回答,也是完全出乎程风自己的意料。程风仍旧不太敢看方豫,盯着屏幕:“那离群值你又是怎么识别的?我看到你用Winsorizing方法调整了离群值,为什么用winsorizing而不是用众数替代或删除?”方豫又思考了一下:“对于数值型数据,用箱线图和直方图进行识别,当然也可以用describe函数生成的描述信息识别,分类数据,用条形图识别,还有一部分正态分布数据用3σ准则进行识别。”“至于说处理,因为删除离群值会让样本数显著减少,我又不了解后续算法对离群值是否敏感,用众数替代如果掩盖了数据的变异性可能会对结果产生影响,所以采用Winsorizing方法调整了离群值。”程风看了看方豫,半天没说话。至少在大二的时候,他肯定是没这个水平的。别说方豫只是金融学专业,就算是数学专业的,大二时也不过刚刚开始接触一些初级的数据结构和基础编程。最多也就是刚刚开始接触数据清洗和数据操纵的相关内容。很多人直

上一章 章节目录 下一页