Productai

数据相关

Q:上传图片有什么要求吗?

  • 图片格式:支持jpg、jpeg、png、bmp,不支持psd/webp/jpeg2000等。
  • 图片分辨率:图片像素建议大于256x256。图片需要满足如下要求(以下W和H分别代表图片的宽度和长度像素值)
    • 50 < W < 4000
    • 50 < H < 4000
    • 1/32 < W/H < 32
  • 图片文件大小:最大2M。

Q:什么是csv文件?

Comma-Separated Values,简称csv,逗号分隔值文件格式,其文件以纯文本形式存储表格数据(数字和文本)。参见百度百科: 逗号分隔值文件格式

Q:上传的csv文件大小是否有限制?

上传的csv文件大小在50M以内。建议使用多次传输小csv文件的方式向服务提交图片集。因为文件过大,传输过程容易由于各种不确定因素导致失败。

Q:怎么创建符合ProductAI要求的数据csv文件?

方法一:使用Excel创建CSV文件:

  1. 先准备好图片的URL、图片附属数据metadata(可选)、tags(可选)。
  2. 建立excel表格,第一列输入图片URL,第二列输入图片附属数据,第三列输入标签。
  3. 存方式选另存为,保存类型选择 csv UTF-8(逗号分隔)(*.csv)。

方法二:使用记事本创建CSV文件:

  1. 先准备好图片的URL、图片附属数据metadata(可选)、tags(可选)。
  2. 先把中文输入法切换成英文输入状态,建立记事本,第一行输入图片URL加上逗号,输入图片附属数据加上逗号,再输入图片文字标签。
  3. 保存文件并把后缀改为“.csv”。

注:CSV文件每行最多包含2个逗号,文件内容请参考下图。具体也可以参考百度经验:如何创建csv文件

CSV内容

  • url字段前后不可以使用引号。Excel保存文件时,默认会在文本字段前后加引号。建议Windows下使用“记事本”,Mac下使用“文本编辑”查看确认格式正确
  • metadata和tags字段中包含逗号时,请在该字段内容前后使用双引号,参考上图
  • metadata如果使用json数据,请参考上图中第2行metadata格式:”{‘ID’:’123’,’ID2’:’456’}”

Q:csv文件中,图片URL指向的服务器应满足什么要求?

如要上传大量图片URL(大于10万),需要存放URL的服务器使用CDN。如没有CDN,建议在上传大量图片之前,通知我司技术支持团队启用慢速下载器.防止下载器短时间内向客户的图片服务器产生大量访问请求,造成服务器稳定性问题。但使用慢速下载器之后,搜索服务索引建立时间将会延长。

Q: 如何获取某个数据集中图片下载进度?

请使用获取数据集信息所介绍的方法,读取数据集的信息。其中包含n_downloaded字段表示下载的图片数量,n_failed表示下载失败的图片数量。

Q:数据集的图片数据下载异常的原因。

图片的地址失效。
图片的格式不对。
图片的地址服务器连接超时。

Q:如何处理数据下载异常?

  1. 登录console平台
  2. 在Console平台页面左侧菜单栏,选择“我的数据集”与有关异常的“数据集”。
    alt text
  3. 点击“查看下载数据异常“,选择”全部重新下载“。
    alt text