使用AI数据的免费托管工具上线，实现类似Git的数据集训练

搞机器学习的人，很多都饱受数据管理的折磨。

要么是数据集老旧，需要手工修订标注。

要么是同一个数据集有很多被别人调整过的版本，无从下手。

或者，干脆没有合适数据集，需要自己建立。

像Git一样用AI数据！免费托管工具上线，用「活」数据集训练

国外，一位名叫SiMon LoUSky的程序员小哥终于不能忍了，开发出了一套用于机器学习的数据版本控制工具（Data version ContRol，DVC）。

一键调用数据集、一键查看编辑历史&hellIP;&hellIP;最重要的是，在DVC工具背后，有一个GitHub一样的数据托管社区。

SiMon LoUSky在学生时代做项目时，就已经感受到了机器学习数据集管理不便的痛点。

当时，他的模型需要一个植物和花朵的数据进行训练，而开源数据集无论如何也得不到合理的结果。

于是他自己花了几个小时的时间，一一修正了数据集中大量过时、不合理的标注，之后训练结果让人十分满意。

像Git一样用AI数据！免费托管工具上线，用「活」数据集训练

除了这个项目，他之后又进行过很多数据集的修正、增补、创建工作，他把这些费时费力的工序称为“数据集的调试试错&Rdquo;，并且开始有意记录操作历史。

他逐渐发现，自己的项目中，数据管理总是一塌糊涂，而依靠GitHub托管的代码，却一直井井有条。

那为什么不做一个类似GitHub、专门服务数据管理的工具呢？

像Git一样用AI数据！免费托管工具上线，用「活」数据集训练

DVC就这样诞生了。

这是一个预装的工具库，实现功能包括对数据集的调用、历史操作信息的查看等等功能。

它的出现，意味着之前，研究人员在本地“死&Rdquo;的数据集上训练模型的方式彻底改变。

你可以将项目链接到在线托管的数据集（或任何文件），建立实时、准确的联系。数据集的任何更新变动，都能及时获知，方便项目的开展。

像Git一样用AI数据！免费托管工具上线，用「活」数据集训练

比如，现在有一个ReposiTory A，这是一个“活&Rdquo;数据集，其中元数据文件，指向存储在专用服务器的真实大文件。

用户可以将数据集文件组织到目录中，并添加带有utils函数的代码文件，以此来方便调用。

此外，还有一个ReposiTory B，这是对应机器学习项目，项目代码中，包含使用DVC导入数据集的指令。

只要创建一个数据注册表，就能建立A和B之间的联系：

MkdiR My-dataset &aMp;&aMp; cd My-dataset Git inIT dvc inIT

此时，数据集目录会是这样：

像Git一样用AI数据！免费托管工具上线，用「活」数据集训练

需要查看数据集相关信息时，输入指令：

dvc add annOTAtions dvc add images Git add . &aMp;&aMp; Git coMMIT -M “StaRting to Manage My dataset&Rdquo;

数据集的预览会保存到一个目录里，这个目录也会被DVC跟踪。

然后用户只需要把代码和数据推送到托管仓库，这样就随时随地访问它，并与其他人分享。

当然，DVC要发挥作用，自然少不了背后的DAGsHub。

像Git一样用AI数据！免费托管工具上线，用「活」数据集训练

DAGsHub就是一个GitHub的数据管理版本，由三部分组成，Git仓库、DVC、和机器学习流程平台Mlflow。

用户可以提交自己的项目，DAGsHub会自动扫描提交，并提取有用的信息，如实验参数，数据文件和模型的链接，并将它们结合到一个简单的界面。

像Git一样用AI数据！免费托管工具上线，用「活」数据集训练

DAGsHub可以浏览和比较代码、数据、模型和实验，而且不需要下载任何东西。

此外，还能生成可视化数据管道、数据操作历史，并记录模型性能，自动且美观。

如何在机器学习项目中使用“活&Rdquo;数据集

要使用DAGsHub，只需要注册登录。

像Git一样用AI数据！免费托管工具上线，用「活」数据集训练

通过以下指令安装DVC：

pIP3 install dvc

在DAGsHub上找到一个数据集，如何在自己的模型中使用它呢？

首先，要从托管的数据集中导入一个目录，并把它当作原始文件：

MkdiR -p data/Raw dvc iMpoRt -o data/Raw/images https://dagshub.coM/SiMon/baby-yoda-segMentation-dataset data/images dvc iMpoRt -o data/Raw/annOTAtions https://dagshub.coM/SiMon/baby-yoda-segMentation-dataset data/annOTAtions

接着，图片和注释就会下载到你自己的项目中，并保留其中历史信息的信息。

像Git一样用AI数据！免费托管工具上线，用「活」数据集训练

当你想要知道数据集的变更历史时，只需运行命令：

dvc update

就能将可视化结果返回默认目录保存：

像Git一样用AI数据！免费托管工具上线，用「活」数据集训练

是不是很方便？

对了，无论是DVC，还是DAGsHub，都是开源且免费的，赶快来试试吧

chatGPT

近期文章

互联网资讯 / 人工智能 · 2023年11月27日

使用AI数据的免费托管工具上线，实现类似Git的数据集训练

Need more than content? Move into the product flow.