当前机器学习的最新技术已应用于各种领域,包括语音和语言识别、语言翻译和文本分析。自然语言处理数据集通常很大,需要大量计算能力来训练机器学习模型。
12. 大型 NLP 数据库
这 841 个数据集是 NLP 相关任务的绝佳资源,包括文档分类和自动图像字幕。该集合包含许多不同类型的数据,可用于训练机器翻译或语言建模算法。
NLP 索引
#13 Yelp评论
Yelp 是查找您所在地区商家的绝佳方式。该应用可让 商店 您阅读已尝试过该应用的其他人的评论,因此您无需进行任何研究。Yelp 的评论数据集拥有 860 万条评论和数十万张精选图片,对于任何希望进行市场研究的企业来说都是一座金矿。
Yelp 数据集
#14 亚马逊评论数据(2018 年)
该数据集包含亚马逊上所有产品的评论。它包含超过 20 亿条记录,包括产品描述和价格!这项研究旨在分析人们在购买或分享对特定产品的看法之前如何与这些在线社区互动。
亚马逊评论数据
15. BBC 数据集
BBC 的两个预处理机器学习数据集收 人工智能在消费金融领域的应用 集了超过 2000 篇文章,用于自然语言处理。但它仅可用于非商业和研究目的。
BBC 数据集
clickworker 为机器学习提供高质量定制数据集
在 clickworker,我们了解高质量数据的重要性。我们拥有 600 万名 Clickworkers 的国际团队,他们构建了定制的机器学习数据集。我们提供各种不同格式的数据集,包括
- 文本,
- 图片
- 和视频。
人工智能训练数据
音频语音和音乐数据集
如果您想分析音频数据,这些数据集非常适合您。
#16 共同的声音
这个用于训练语音技术的开源声音数据集是由志愿者创建的,他们录制了例句并审查了其他用户的录音。
共同声音
#17 免费音乐档案(FMA)
免费音乐档案 (FMA) 是一个开放的音乐分析数据集,其中包括完整和 HQ 音频、预先计算的功能(例如频谱图可视化)或使用机器学习算法的隐藏文本挖掘。它包括曲目元数据(例如艺术家姓名和专辑),所有这些都按此层次结构中的各个级别按流派组织。
免费音乐档案
自动驾驶汽车数据集
自动驾驶汽车对数据的需求非常巨大。为了解读周围环境并做出相应反应,这些汽车需要高质量的数据集,而这些数据集很难获得。幸运的是,有许多组织收集有关交通模式、驾驶行为和其他对自动驾驶汽车很重要的数据集的信息。
#18 Waymo 开放数据集
该项目提供了一套工具来帮助收集和共享自动驾驶汽车的数据。数据集包括有关交通标志、车道标记和环境中物体的信息。激光雷达和高分辨率摄像头用于捕捉美国城市环境中的 1000 个驾驶场景。该集合包括 1200 万个 3D 标签和 120 万个 2D 标签,用于车辆、行人、骑自行车者和标志。
Waymo 开放数据集
#19 Comma AI 数据集
该数据集包含 Comma AI 在旧金山和湾区收集的 100 多个小时的驾驶数据。数据是使用 comma.ai 设备收集的,该设备使用单个摄像头和 GPS 提供驾驶行为的实时反馈。数据包括有关交通、道路状况和驾驶员行为的信息。
Comma AI 数据集
#20 百度ApolloScape数据集
BaiduApolloScape 数据集是一个大规模自动驾驶数据集,其中包含在各种天气条件下收集的超过 100 小时的驾驶数据。数据包括有关交通、道路状况和驾驶员行为的信息。
这些只是当今可用的 20 个最佳免费机器学习数据集。有这么多可供选择,您一定能找到一个最适合您需求的数据集。所以开始您的下一个项目并利用那里的所有免费数据吧!
百度ApolloScape数据集
定制机器学习数据集
只有当数据具体且与主题相关时,数据集才会对您的机器学习模型有益。通用开源数据集可能不包含您训练模型所需的信息。因此,您可以考虑的一个选择是构建自己的机器学习数据集。
您可以期待:
- 自定义机器学习数据集的一个重要 邮寄线索 优势是,您可以将数据划分为特定组,从而可以定制算法。创建自定义数据集时,重要的是确保您的算法不会过度拟合数据,这意味着它可以适应新数据并做出预测。
- 机器学习是一种强大的工具,可用于提高业务流程的性能。但是,如果没有正确的数据,入门可能会很困难。这就是定制机器学习数据集发挥作用的地方。