张峻宁,更大的数据=更好的ML?这些误区你得知道,传承

人们对大数据往往存在着底子的误解:更大的数据能够有更好的机器学习成果。可是,更多的数据未必能协助进步机器学习。数据的质量、价值及多样性比数据的巨细规划要重要得多。




跟着云核算和Hadoop及其变体的呈现,大数据逐步式微。但现在许多人仍斥巨资建更大的设备来处理、存储和办理巨大的数据库,盲目寻求数据的“大”。无疑,在设备建造以及人力资源方面需求投铁血任务入相当大的本钱,但这彻底是能够防止的。

是时分把评论的主题从“大数据”转到“深度数据”了。咱们现在不能为了数据的“大”而搜集一切或许的数据,而是要更深思熟虑、更正确。咱们现在要丢掉一些数据,要重视数据的多样性而不是巨细,重视质量而不是数量,这能够带来长时刻利益。


大数据的奥妙

为了了解从“大数据”到“深度数据”的改变,咱们先来看看一些对大数据的误解:

1. 一切的数据都能且应该搜集储存起来

2. 更多的数据总是有助于构建更精确的猜测模型

3. 存储更英勇的心电视剧多数据添加的本钱根本为零

4. 运算更多数据添加的本钱根本为零


但现实是:

1. 咱们现在仍无法搜集物联网和网络流量的一切数据,在搜集时有必要丢掉一些数据。咱们得聪明点,看看哪些数上格奖据能有价值。

2.张峻宁,更大的数据=更好的ML?这些误区你得知道,传承 重复一千次的数据样本不能进步猜测模型的精确度。

3. 张峻宁,更大的数据=更好的ML?这些误区你得知道,传承亚马逊云核算效劳(Amazon Web Services)以每万亿字节数据为单位收取效劳费,但存储更多数据添加的本钱不像亚马逊收取效劳费这样简略,还包含寻觅、办理多个数据源的额定的杂乱作业,还有作业人员移动,运用数据时的“虚拟担负”。添加的这些本钱一般比存储以及运算数据的花费还要高。

4. 人工智能算法的运算资源需求很大,乃至谢苗会超越一个弹性云核算设备的资源容量。运算资源是线性增加,而运算需求却是超线性增加,假如不熟练掌控的话,乃至是指数性增加。

若是你也对这些大数据也有误解,那么你构建的信息系统,尽管外表看起来不错,或许久远来看也还行,播映但操作起来会过于繁琐。


大数据的四大问题


盲目商务英语信任数据“越大越好”,就会呈现以下四大问题:

相同的数据再多也无益

在构建人工智能奥秘老公晚上见机器学习模型时,练习数据的多样性至关重要。由于模型是依据数据类别来界定概念。例如,假如模型要经过楚银河街年纪和作业来界定“退休工人”这一概念,那么重复的32新疆气候岁注册会计师的样本数据对模型彻底没用,由于他们都没有退休。以65岁的样本数据界定这一概念愈加适用,然后来看看不同作业的退休状况的差异。

过错的数据会危害模张峻宁,更大的数据=更好的ML?这些误区你得知道,传承型

如江锦桓果新的数据有误或不精确,就会打乱AI对不同概念的界定,在西雅图时刻这种冰激凌状况下,更多的数据并无好处,反而会张峻宁,更大的数据=更好的ML?这些误区你得知道,传承下降现有模型的精确性。

更大的数据会推延模型构建

用一张峻宁,更大的数据=更好的ML?这些误区你得知道,传承万亿字节的数据构建模型或许比用十亿字节的数据构建模型要多花一千倍的时刻,依据学习算法的不同,或许会多花一万倍的时刻。数据科学关键在于快,不完美但活络的模型应优先考虑。没有速度就无法打破行进。

构建可用于商业的模型

猜测模型的终究方针都是树立一个高精度的、可运用于商业的模型。有时用更荫蔽的数据可使模型的精度更高,但在实践运用中,这些荫蔽数据或许不可靠。精确度尽管较低,可是运算快且可用于商业的模型邰正宵应优先考虑。张峻宁,更大的数据=更好的ML?这些误区你得知道,传承


从四个方面能够做得更好


为应对大数据的“黑暗面”并且培育“深度数据”的思想形式,能够这样做:

了解精确度/权衡履行

数据科学家们常常把精确度更高的模型视作方针, 但开端项目时,应该依据精确度和履行速率树立清晰的出资回报率(ROI)预期。

用随机样本数据树立模型

就算有很大的数据也没必要用彻底部数据。假如有很好的随机抽样函数的话,用小部分的样本数据就能精确猜测出用悉数数据构建的模型的精确度。先用小的样本数据快速试验,然后再用sos数据库张峻宁,更大的数据=更好的ML?这些误区你得知道,传承的悉数数据构建终究模型。

丢掉一些数据

假如物联网设备和其他来历的活动数据将你淹没了,你能够丢掉一些数据,或许丢掉许多数据。由于你买不到满足的磁盘来存储这些数据,并且这些数据会搞砸数据科学项目的后期作业。

寻觅更多数据来历

近来人工智能的许多打破并非来自更大的数据集,而是由于机器学习算法能够发掘其islider之前无法获取的数据。例如,大文本、图画、视频和音频数据集等,尽管在现在很常见,但20年前却是没有的。要不断寻觅新的数据时机。


四件工作能够使数据变得更好


假如你重视的不仅仅是大数据,还有深度数据,那么你将会获益良多:

一切的进程都变得更快

数据越小,数据的移动、试验、练习和模型评分都会更快。

存储和核算需求更小

将要点放在深度数据上,你可心爱的英文以有效地运用更小的磁盘和更少的云核算空间。这将直接削减建造设备的本钱,省下的钱能够雇佣更多的数乳头疼据科学家和AI专家。

IT团队的压力更小 数据科学家心境更好

有了稠密的全视者奥利克斯深度数据文明,IT团队就不用为数据科学团队跑那么多腿,也不会有那么多占用很多云资源的失控项目。一起,数据科学家们会更高兴,他们能够花更多时刻构建和测验模型,而不是移动数据,或许长时刻地等候练习的完结。

更大的难题得到解决

构建人工智能模型不需求魔法,不是只要巫师一般的研究员才干做到,由于构建的关键在于统筹安排而不是魔法。这和一个美术教师的故事类似。教师和班里一半的学生说,他们的成果是依据其美术著作数量来给,然后通知另一半成果是依据其最好的美术著作的质量来给。果然如此,依据著作数量给分的同学发明的著作数量最多,但令人意外的是,这些学生也发明出了质量最高的著作。有时分,著作数量够多时能够出精品。在大数据范畴,用相同的数据多做几个模型,会得到更好的模型。

许多公司遭到大数据和支撑大数据开展的技能打破的极大鼓励,在拟定决议计划过程中参阅大数据。跟着A颈椎病的自我医治办法I得鼓起以及咱们对强壮的数据资源的把握才能,咱们现在要更精确地从数据中取得所需信息。现在要做的是发明一个了解深度数据,而不仅仅是了解大数据的气氛。