加入收藏 | 设为首页 | 会员中心 | 我要投稿 桂林站长网 (https://www.0773zz.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 站长资讯 > 外闻 > 正文

云计算产业看国家“新基建”

发布时间:2021-02-18 10:17:35 所属栏目:外闻 来源:互联网
导读:3. 数据的初步探索 在这一步骤中会发现所有对研究结果、预测以及目标有影响的数据特征。如果你有一个巨大的数据块,在该步骤中对其进行抽样,使分析更易于管理。应遵循以下步骤: 使用jupyter notebook,因为它们为研究数据提供了一个简单直观的界面。 确定

3. 数据的初步探索

在这一步骤中会发现所有对研究结果、预测以及目标有影响的数据特征。如果你有一个巨大的数据块,在该步骤中对其进行抽样,使分析更易于管理。应遵循以下步骤:

  • 使用jupyter notebook,因为它们为研究数据提供了一个简单直观的界面。
  • 确定目标变量。
  • 识别特征类型(分类、数字、文本等)。
  • 分析特征之间的相关性。
  • 添加一些数据可视化,以便于解释每个特征对目标变量的影响。
  • 记录发现。

4. 探索性数据分析,以准备数据

是时候通过定义用于数据转换、清理、特征选择/设计和缩放的函数来执行前一步的发现了。

  • 编写函数,以转换数据,自动化处理即将出现的大批量数据。
  • 编写函数,以清理数据(输入缺失值和处理异常值)。
  • 编写函数,以选择并设计特征——删除冗余的特征、特征的格式转换以及和其他数学转换。
  • 特征缩放——标准化特征。


最好的做法是让项目的每一部分都经过检查。正如阿图·葛文德在其《清单革命》(The Checklist Manifesto)中所说:“我们所知事物的数量和其复杂性已经超过了我们能正确、安全、可靠地传达其优点的能力范畴。”

所以,看看这个简洁明了的项目任务表,它将帮你减少工作量,提高产出!

机器学习项目清单

在几乎每个机器学习项目中都必须执行8-10个步骤,其中一些步骤可以按顺序交替执行。

1. 从高层次的角度定义问题

为了理解和阐明问题的业务逻辑,任务表应该告知:

  • 问题的性质(有监督/无监督、分类/回归)。
  • 可开发的解决方案类型。
  • 应该使用哪些指标来衡量性能?
  • 机器学习是解决这个问题的正确方法吗?
  • 人工解决问题的方法。
  • 问题的固有假设。

2. 识别数据源并获取数据

在大多数情况下,如果拥有数据,并且希望定义相关问题以更好地利用传入的数据,可以在第一步之前执行此步骤。

基于问题的定义,我们需要确定数据的来源,可以是数据库、数据存储库、传感器等。对于要在生产中部署的应用程序,需通过开发数据管道来自动执行此步骤,以保持传入数据流入系统。

  • 列出所需数据的来源和数量。
  • 检查空间是否会成为一个问题。
  • 检查你在使用数据上是否被授权。
  • 获取数据并将其转换为可行的格式。
  • 检查数据类型(文本、分类、数字、时间序列、图像)。
  • 取一个样本用于最终测试。


(编辑:桂林站长网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    热点阅读