Polyvore时尚兼容性数据集完整教程:从数据获取到模型训练终极指南
【免费下载链接】polyvore-datasetDataset used in paper "Learning Fashion Compatibility with Bidirectional LSTMs"项目地址: https://gitcode.com/gh_mirrors/po/polyvore-dataset
Polyvore时尚兼容性数据集是研究服装搭配和时尚推荐的重要资源,广泛应用于ACM MM 2017论文"Learning Fashion Compatibility with Bidirectional LSTMs"。本指南将带您深入了解该数据集的结构、处理方法和应用场景,助您快速上手时尚AI研究。
数据集概述与核心价值
Polyvore数据集包含21,889个精心整理的服装搭配,其中17,316个用于训练,1,497个用于验证,3,076个用于测试。每个搭配都经过真实用户的验证,具有高度的实用价值。
数据集核心特点:
- 真实用户创建的时尚搭配
- 多维度商品信息(价格、喜欢数、类别等)
- 覆盖广泛的服装品类和风格
- 支持多种时尚AI任务
数据获取与解压处理
获取数据集
数据集以压缩包形式提供,您可以通过以下命令获取:
git clone https://gitcode.com/gh_mirrors/po/polyvore-dataset解压数据集
数据集文件polyvore.tar.gz需要解压才能使用:
tar -xzf polyvore.tar.gz解压后您将获得完整的Polyvore服装搭配数据集,包括图像链接和详细的商品信息。
数据结构深度解析
主要数据文件说明
训练数据文件:train_no_dup.json验证数据文件:valid_no_dup.json
测试数据文件:test_no_dup.json类别映射文件:category_id.txt填空测试文件:fill_in_blank_test.json兼容性预测文件:fashion_compatibility_prediction.txt
JSON数据结构示例
每个搭配包含完整的时尚单品信息:
{ "name": "Casual", "views": 8743, "items": [ { "index": 1, "name": "mock neck embroidery suede sweatshirt", "price": 24.0, "likes": 10, "image": "http://img2.polyvoreimg.com/cgi/img-thing?...", "categoryid": 4495 } ], "image": "搭配图片URL", "likes": 搭配喜欢数, "date": "上传日期", "set_url": "搭配页面URL", "set_id": "搭配ID", "desc": "搭配描述" }类别映射系统
category_id.txt文件提供了完整的类别ID到类别名称的映射,涵盖:
- 服装类:连衣裙、上衣、外套、裤子等
- 配饰类:包包、鞋子、珠宝等
- 美妆类:化妆品、护肤品等
- 家居类:家具、装饰品等
数据处理实用技巧
数据加载与预处理
使用Python进行数据处理的推荐方法:
import json import pandas as pd # 加载训练数据 with open('train_no_dup.json', 'r') as f: train_data = json.load(f) # 加载类别映射 categories = {} with open('category_id.txt', 'r') as f: for line in f: cid, name = line.strip().split(' ', 1) categories[int(cid)] = name图像数据处理注意事项
重要提醒:原始数据集中的图像URL已失效,您需要通过以下方式获取图像数据:
- 访问Kaggle上的非官方图像数据集
- 下载包含33,375个搭配的图像文件
- 使用图像ID与数据集中的商品进行匹配
数据清洗最佳实践
- 过滤非时尚类别的商品(背景、文字、装饰等)
- 处理缺失的价格和描述信息
- 标准化商品类别标签
应用场景深度解析
时尚兼容性预测
使用fashion_compatibility_prediction.txt文件进行模型训练,该文件包含:
- 4,000个不兼容搭配
- 3,000个兼容搭配
- 每条记录以兼容性标签开头(1表示兼容,0表示不兼容)
填空式时尚推荐
fill_in_blank_test.json支持填空测试任务格式:
{ "question": "时尚单品序列", "answers": "多项选择集合", "blank_position": "需要填充的位置" }多任务学习框架
数据集支持构建端到端的时尚AI系统:
- 单品特征提取
- 搭配兼容性分析
- 空缺位置推荐
- 风格分类与识别
模型训练与评估
推荐模型架构
基于双向LSTM的兼容性学习模型:
- 输入层:单品特征向量
- LSTM层:序列建模
- 输出层:兼容性评分
评估指标
- 准确率(Accuracy)
- 平均精度(Mean Average Precision)
- 填空任务成功率
实用注意事项
数据时效性
数据集爬取于2017年2月19日,部分时尚趋势可能已过时,建议:
- 结合最新时尚数据进行模型微调
- 建立动态更新的时尚知识库
- 考虑季节性和地域性因素
性能优化建议
- 使用预训练的视觉模型提取图像特征
- 实现高效的数据流水线
- 优化内存使用和计算效率
进阶研究方向
多模态学习
结合文本描述、图像特征和用户行为数据进行综合分析。
个性化推荐
基于用户历史偏好和风格倾向构建个性化时尚助手。
实时搭配系统
开发能够实时推荐服装搭配的智能系统。
通过本指南,您已经掌握了Polyvore数据集的核心使用流程。该数据集为时尚AI研究提供了宝贵的基础资源,助力您在该领域取得突破性进展。
引用说明:如使用本数据集进行研究,请引用原始论文:
@inproceedings{han2017learning, author = {Han, Xintong and Wu, Zuxuan and Jiang, Yu-Gang and Davis, Larry S}, title = {Learning Fashion Compatibility with Bidirectional LSTMs}, booktitle = {ACM Multimedia}, year = {2017}, }【免费下载链接】polyvore-datasetDataset used in paper "Learning Fashion Compatibility with Bidirectional LSTMs"项目地址: https://gitcode.com/gh_mirrors/po/polyvore-dataset
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考