https://www.cnblogs.com/ZOMI/p/15785746.html

https://prod-files-secure.s3.us-west-2.amazonaws.com/5a40f118-c47f-4709-9b64-a87a127dd626/b2df4250-9e35-43cf-ac34-3937e45fad33/v2-42c301bb56ab37b016931f24a7e951a5_b.png

现在搞传统机器学习相关的研究论文确实占比不太高,有的人吐槽深度学习就是个系统工程而已,没有数学含金量。

但是无可否认的是深度学习是在太好用啦,极大地简化了传统机器学习的整体算法分析和学习流程,更重要的是在一些通用的领域任务刷新了传统机器学习算法达不到的精度和准确率。

深度学习这几年特别火,就像5年前的大数据一样,不过深度学习其主要还是属于机器学习的范畴领域内,所以这篇文章里面我们来唠一唠机器学习和深度学习的算法流程区别。

https://prod-files-secure.s3.us-west-2.amazonaws.com/5a40f118-c47f-4709-9b64-a87a127dd626/0f2a3b64-c2cb-4677-a81e-0cd899571037/v2-5041a3686b817db04affff45eadee0e4_b.png

1、机器学习的算法流程

实际上机器学习研究的就是数据科学(听上去有点无聊),下面是机器学习算法的主要流程:主要从1)数据集准备、2)探索性的对数据进行分析、3)数据预处理、4)数据分割、5)机器学习算法建模、6)选择机器学习任务,当然到最后就是评价机器学习算法对实际数据的应用情况如何。

https://prod-files-secure.s3.us-west-2.amazonaws.com/5a40f118-c47f-4709-9b64-a87a127dd626/f6161f17-0da5-49d8-aba0-28aecc79e70e/v2-976d9f7e31a379a7393d8199a79a2581_b.png

1.1 数据集

首先我们要研究的是数据的问题,数据集是构建机器学习模型流程的起点。简单来说,数据集本质上是一个M×N矩阵,其中M代表列(特征),N代表行(样本)。

列可以分解为X和Y,X是可以指特征、独立变量或者是输入变量。Y也是可以指类别标签、因变量和输出变量。

https://prod-files-secure.s3.us-west-2.amazonaws.com/5a40f118-c47f-4709-9b64-a87a127dd626/0dd616dc-0c97-4889-9e7b-5ee781ae82e8/v2-6951a82196144636b6bc48990cc6ad92_b.jpeg

1.2 数据分析

进行探索性数据分析(Exploratory data analysis, EDA)是为了获得对数据的初步了解。EDA主要的工作是:对数据进行清洗,对数据进行描述(描述统计量,图表),查看数据的分布,比较数据之间的关系,培养对数据的直觉,对数据进行总结等。

探索性数据分析方法简单来说就是去了解数据,分析数据,搞清楚数据的分布。主要注重数据的真实分布,强调数据的可视化,使分析者能一目了然看出数据中隐含的规律,从而得到启发,以此帮助分析者找到适合数据的模型。

在一个典型的机器学习算法流程和数据科学项目里面,我做的第一件事就是通过 "盯住数据",以便更好地了解数据。个人通常使用的三大EDA方法包括: