手机浏览器扫描二维码访问
巧妇难为无米之炊,数据就是机器学习的“米”。
- 数据收集:比如要做推荐系统,得收集用户的浏览记录、点击行为;要做疾病预测,得收集病人的病历、检查报告。
- 数据预处理:这步特别关键,就像淘米要去沙。包括:
- 处理缺失值:比如某个人的年龄没填,得想办法补上或删掉。
- 处理异常值:比如收入里突然出现一个“1亿”,明显不合理,得处理掉。
- 特征缩放:比如身高是“170cm”,体重是“60kg”,单位和数值范围不一样,得统一缩放(比如都缩到0-1之间),不然模型会“偏心”。
2. 特征工程:给数据“化妆”,让模型看得更清楚
“特征”就是数据里的关键信息。比如判断西瓜好坏,“色泽、根蒂、敲声”就是特征。特征工程是从原始数据里提炼出有用特征的过程,直接影响模型效果。
- 有时候要人工设计特征:比如把“日期”拆成“星期几”“是否节假日”。
- 有时候用算法自动提取特征:比如深度学习里的CNN,能自动从图像里提取“边缘、形状”这些特征,不用人类操心。
3. 模型训练:让机器“刷题涨本事”
选好算法(比如决策树、神经网络),把处理好的数据喂给它,机器就开始“学习”了。它会不断调整内部参数,让预测结果和真实情况越来越接近。
- 训练过程中,得注意过拟合和欠拟合:
- 欠拟合:模型太“笨”,连训练数据都没学好,比如把所有邮件都当成正常邮件。
- 过拟合:模型太“教条”,把训练数据里的噪声也学进去了,比如只认识训练过的那几张人脸,换张角度就不认识了。
解决方法也不少,比如“正则化”(给模型加约束,不让它学太细)、“增加数据量”“模型简化”等。
4. 模型评估:给机器“考试”打分
训练好的模型得测试一下准不准。常用的指标有:
- 准确率(Accuracy):预测对的比例,比如100个邮件,90个判对了,准确率就是90%。但它在“数据不平衡”时不准,比如垃圾邮件只有5%,模型全判正常,准确率也有95%,但没用。
李家老爷子娶了九姨娘,九姨娘是个男人。...
诸天万界我是老六情节跌宕起伏、扣人心弦,是一本情节与文笔俱佳的科幻小说小说,诸天万界我是老六-暗影_暗夜之王-小说旗免费提供诸天万界我是老六最新清爽干净的文字章节在线阅读和TXT下载。...
新手写作,不喜勿喷,主要是把这个系列的小说看的差不多了。穿越有兽世界,尽量带糖不带刀,cp就是四不相。......
清末民初,三千万冀鲁豫人背井离乡,掀起闯关东大潮。意外穿越的曲绍扬,也被卷入到这一场潮流之中。山场子、水场子、参场子,穿山过水,历尽艰难。木帮、排帮、猎帮、金帮、匪帮、参帮,五行八作各展本领。老毛子,小鬼子,各方势力错综复杂。医术精妙的萌妹子,武艺高强的猎户女,心狠手辣的女土匪,风情万种的老板娘,繁花迷人眼。从一无所有,到富甲一方,这是一个普通闯关东人,成就一代参王的传奇故事。...
一贫如洗的段佳泽毕业后继承了一家私人动物园,并(被)签下一纸契约,迎来了陆压、妲己、白素贞、黑熊精等“动物”。 从此,他做梦都在担忧客流量。 从此,第一家实施分级制的动物园出现了,21岁以下不能参观陆压。 从此,末法时代的妖魔鬼怪、和尚道士都沸腾了。 …… 多年以后,段佳泽和陆压在年会上模仿了一段相声。 段佳泽:陆压小学都没上过,做了几万年无业游民,后来找了份工作,在灵囿动物园当动物。 陆压:………… 指路排雷:逻辑服务于剧情,有苏有爽有金手指,还有粗长的剧情中作者顽强挣扎的感情戏。去留由君,砖花随意。...
《嫡长女她不好欺》作者:清酒甜虾简介:凌清被迫重生了。凌清还是凌清,只是成了百姓口中那位嚣张跋扈、忤逆长辈,还杀过人的凌清二姑娘。更让她崩溃的是:父亲中毒,性命堪忧;兄长被害,生死不明;继母作妖,笑里藏刀;继妹更是厉害,直接抢了她身份,招摇过市。这一切,只因重生者重生失败,这才落到她身上,直接把她原本完美无瑕的养老剧本,砸的支离破碎...