流式数据集:效率提升 100 倍!快速了解(TLDR) 现在只需一行代码,就能通过 load_dataset('dataset', streaming=True) 以流式方式加载数据集,无需下载! 无需复杂配置、不...AI 技术文章# Datasets# 数据集1个月前030
揭秘 FineVideo 数据集构建的背后的秘密开放视频数据集稀缺,因此减缓了开源视频 AI 的发展。为此,我们构建了 FineVideo,这是一个包含 43,000 个视频的数据集,总时长为 3,400 小时,并带有丰富的描述、叙事细节、场景分割...AI 技术文章# Datasets# FineVideo# 数据集1年前02110
Kakao Brain 的开源 ViT、ALIGN 和 COYO 文字最近 Kakao Brain 在 Hugging Face 发布了一个全新的开源图像文本数据集 COYO,包含 7 亿对图像和文本,并训练了两个新的视觉语言模型 ViT 和 ALIGN ViT 和 A...AI 技术文章# ALIGN# COYO# Datasets2年前04060
基于 Hugging Face Datasets 和 Transformers 的图像相似性搜索通过本文,你将学习使用 🤗 Transformers 构建图像相似性搜索系统。找出查询图像和潜在候选图像之间的相似性是信息检索系统的一个重要用例,例如反向图像搜索 (即找出查询图像的原图)。此类系统试...AI 技术文章# Datasets# Transformers2年前04210