您在数据科学中获得数据的方式
|
有人使用Google的垂直搜索引擎(如Google Images或Google Scholar),它们将不会持续很长时间,因此它们的种类告诉您人们倾向于在互联网上寻找什么的一些信息。 图片,视频和新闻不足为奇。 但是数据集? 您的提示是,不仅要为遥远的冰屋中的三位孤立的教授使用数据集。 好大 …而且越来越大。 有什么收获? 没有一个。 这实际上与使用Google图片或Google学术搜索进行搜索相同,只是针对数据集。 当前已建立索引并可以使用超过2000万(!)数据集……并且该索引正在快速增长。 今天,您可以轻松触及2000万个数据集……明天还会有更多。
现在您已经知道它的存在,您可以在这里试用它,也可以继续讨论"数据集搜索"的工作原理以及它对数据科学专业和整个人类的意义。 的数据集搜索会话的屏幕截图。 早在我读研究生时,我就会毫无顾虑地寻找有关在何处乞求访问此类数据的线索。 (从字面上看,这是我们要做的事情:写一封长长的电子邮件,恳求其他实验室回应,通常无济于事。请耐心等待新方法的简易性。) 加速分析的一场革命 Analytics(分析)是数据科学的一部分,旨在迅速激发灵感。 与统计或机器学习不同,分析的最高优点是速度。 (为安全起见,优秀的分析人员可避免在得出新数据之前就得出结论。) 更快地访问数据可为您提供更强大的分析功能。 您知道容易找到数据集时会得到什么吗? 更快的分析! 数据集搜索代表了您所有专业分析师和数据科学家的不可思议的速度提升。 (但是,如果您有认真对待灵感的危险,请务必谨慎地采用统计方法进行跟进。) 是的,但是真正的收获是什么? 如果您是在一个数据集非常稀有,珍贵并且经常由教授或数据提供者策划的世界中长大的,就像我们大多数人一样! —您可能会出现一些无意识的偏见:您假设提供数据的人应对数据质量负责(并且可能在某处藏了一两个博士学位)。 如果您主要是在学习或科学的背景下使用数据集,则可能会给人一种印象,即数据集在到达您之前就受到了精心的按摩。 现实生活中的数据科学是一个丛林,而不是您的教授策划的神圣空间。 暂时搁置这一偏见,然后考虑另一种偏见:外行人之间数据崇拜的毒性作用。 任何倾向于用大写" D"表示数据的人都可能会认为,以结构化形式打包的所有信息都是有用且真实的。 嘿,这不是魔术。 不要相信您阅读的所有内容,也不要相信每个数据集。 在此处了解有关数据性质和数据崇拜的更多信息。 如果您过着大多数为您提供数据的人享有声誉的生活,并且/或者被教导您崇拜数据和科学,那么您将感到震惊。 你猜怎么了! 数据集可能是一堆结构化的垃圾。 可能会坏掉。 它可以弥补, 可能是60亿个零。 可能什么都没有。 就像文字 (编辑:桂林站长网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |


