Ruchi目前是9个Kaggle Datasets Grandmasters之一,她的12个数据集中以9枚金牌和3枚银牌排名第5。她还是Notebooks and Discussion Master.
Ruchi于2020年毕业于KJ Somaiya工程学院,获得计算机工程技术学士学位她目前在高露洁棕榄公司担任执行助理。她还是HP和NVIDIA的数据科学全球大使。
您最近完成了计算机工程专业的毕业。是什么激发了您对数据科学和机器学习领域的兴趣?
Ruchi Bhatia:
在我的本科课程中,在教授的众多课程中,由于我对从手头的数据中获得洞察力的兴趣,我被数据仓库和挖掘以及人工智能等学科所吸引。可以用机器学习的力量解决的现实问题将我吸引到这个领域。
社交媒体仍然时不时地成为错误信息的中心,减轻这种情况是一个小时的需要。我最后一年的论文项目的重点是打击假新闻并根据其真实性对其进行分类。
哪些资源/书籍帮助您学习机器学习 ML?
Ruchi Bhatia:
数学是我的强项,我精通统计学和线性代数。
**了解分布、随机性、矩阵乘法或概率等概念背后的数学原理很重要,以探索和理解数据并做出有意义的预测。**有时微积分有助于在训练模型时了解损失和度量动态。
开始我的数据科学之旅时,我有7年的Java编程经验和1年的Python编程经验。我在与该领域相关的本科课程中选择的科目是用于数据科学、机器学习和人工智能的Python。
我还完成了 Coursera 上提供的 Andrew Ng 的课程:机器学习和深度学习专业化。我强烈建议初学者开始使用这些。
作为一名学生,您是如何平衡学业和这么多实习的?
Ruchi Bhatia:
我的心态是探索所有领域,因为我对计算机科学充满热情,并选择对我挑战最大的领域。我想了解一下每个领域在现实世界中的运作方式,以及使用新技术解决现有问题的可能性。
**我首先参加课程并确保我自己进行广泛的研究和项目。**这样做之后,与那些在实习中学习的人相比,我在实习期间的大部分时间都花在与该领域直接相关的项目上。
我认为花时间利用我们从理论中获得的知识并确保我们从中产生价值是至关重要的。当我们学习新事物并被它吸引时,这是利用这段时间尽我们所能做的最佳时机。
您还是HP和NVIDIA的数据科学全球大使。请告诉我们这次经历以及它如何帮助您的数据科学工作流程?
Ruchi Bhatia:
HP 和 NVIDIA 在 2020年选出了16位数据科学全球大使,我非常荣幸能成为其中的一员。我们获得了最先进的技术,可以在本地无缝地运行我们的数据科学工作流程。
拥有GPU使我们可以灵活地运行实验,而不受时间限制或同时运行的实验数量的限制。
您开始使用 Kaggle 的动机是什么?
Ruchi Bhatia:
我对 Kaggle的第一个贡献是我从头开始策划的一个数据集。
补充:
Dataset:Movies on Netflix, Prime Video, Hulu and Disney+
Dataset:TV shows on Netflix, Prime Video, Hulu and Disney+
由于Netflix和Amazon Prime等流媒体应用程序在锁定期间被广泛使用,因此我想对这些流媒体应用程序在不同年龄段的流行程度进行分析。
但是我没有遇到相关的数据集。那时我决定自己制作并将其上传到 Kaggle上,因为它引起了轰动。这是一个全新的世界,人们可以与志同道合的人分享他们的工作和意识形态。
竞赛对我很有吸引力,但我想在全力以赴之前加强我的技能,因此我决定在这样做的同时继续为数据集和笔记本级别做出贡献。
您是Kaggle数据集大师,目前排名第5。您也是笔记本和讨论大师。你在这段旅程中遇到了哪些挑战,你是如何克服它们的?
Ruchi Bhatia:
加入Kaggle后,最初的资源数量和信息量是压倒性的。为了让它深入人心,我开始过滤并专注于我正在处理的内容和问题陈述。
对于一个新人来说,如果他们也感到有点气馁是可以理解的,**但一个人必须坚持和开放的态度来内化新的想法和方法。**我们可能只能定制一组特定的可能实验,但看看其他人如何处理相同的实验,这有助于我们更好地思考。
Kaggle上的迷你课程也帮助我获得了各种主题的方向感。这些是简短的课程,主要侧重于实用的关键学习。
您在12个数据集中获得了 9 枚金牌,您能否概述一下您从头开始创建数据集的整个过程?
Ruchi Bhatia:
我相信通过用新颖的想法策划数据集,可以密切关注热门话题并为每个人创造价值。
一旦我选择了一个要解决的问题,我就会概述用例和所需的数据类型。如果我从多个来源聚合数据,我会记下必须转换以保持一致性的列。应注意不同来源数据的格式并进行相应修改。
我通过处理丢失的数据和应该消除的值来执行数据清理操作。在此之后,我开始生成与用例相关的新功能。
在Kaggle上传数据集时,我确保满足为便于其他人访问而指定的可用性要求:
- 数据集的简要描述
- 促使我创作它的灵感和动力
- 具体的描述
- 出处(来源和收集方法)
- 数据集的更新频率
一个好的数据集的特点是什么,在您看来一个好的数据集需要多少数据?
Ruchi Bhatia:
就我自己而言,一个好的数据集是一个由属性表示的数据是完整的。丢失的数据应该是最小的,所以数据质量至关重要。
我们正在处理的数据对于类别应该是均衡的,并且对于任何特定类别都不会被低估。
数据是否足够完全取决于问题陈述及其用例,如果我们在训练工作流程中使用预训练模型,那么数据较少可能不是最坏的情况。拥有更多数据总是更好,但有些时候我们必须从头开始整理数据集。
在选择数据集后,您创建一个好的笔记本的过程究竟是什么?是否有一份您总是执行的必须完成的任务的清单?
Ruchi Bhatia:
综合探索性数据分析与相关可视化相结合,帮助我们发现数据趋势和背景,这对改进我们的方法论很有成效。
一旦我选择了一个数据集,我唯一的目标就是通过EDA (Exploratory data analysis)的力量尽可能多地了解数据。当我们处理大型数据集时,可视化有助于我们发现异常和隐藏的趋势,否则可能会被忽视。
我们应该努力理解这些,并对异常值和特殊情况形成假设。通常,如果没有视觉表示,就很难理解数据。
在发布笔记本之前,我确实有一个任务清单。
- 深入理解问题陈述是我的首要任务。
- 每次创建笔记本时,我都会尝试实现更新的库。
- 解释一个特征,分析它的分布,研究特征的相互作用。
- 特征生成、展望未来。我在进行基线建模之前执行数据清理和特征编码。
- 为了获得更好的结果,我致力于随着时间的推移改进建模方法、调整参数并尝试新的实验。
您如何让自己了解机器学习领域的所有快速进步?
Ruchi Bhatia:
最初我想开始定期阅读论文和博客,现在它已成为我日常生活的一部分。我平均每天浏览5个博客。我的月度目标包括参考和彻底理解在至少2篇arxiv 研究论文/文章中采用和实施的新方法。
我还维护一个个人文档,其中包含我特别喜欢阅读的文章,将来可能想再次参考(按类别排序),我鼓励其他人尝试这种方法。
对于大学/学校学习的本科生,您有什么建议?
Ruchi Bhatia:
我相信Kaggle平台适合所有年龄段的人,每个人都有自己的东西。新手获得高质量的专家建议,专家获得更多他们感兴趣的材料以提高他们的洞察力。
我们应该磨练我们的竞争力,但同时要专注于取得出色的成绩,最终目标应该始终是学习和应用我们获得的知识。
Reference
微信公众号:Coggle数据科学