最新消息:泡吧永久域名 pao8.org,最新域名:https://pao8.gq

【老司机福利】一个22万张NSFW图片的鉴黄数据集,老司机要不要鉴别一下?

福利 paobar 1158浏览 0评论

github.com 是一个面向开源及私有软件项目的托管平台,是程序员们日常用得最多的网站之一。因此Github也被称之为最大的程序员社交网站,也被戏称为Gayhub(不要和gayhub.com搞混喔)。

Alexander Kim主要从事机器学习算法研究工作,在构建套识别NSFW内容(关于NSFW,请参考《老司机行话之NSFW ,内附Reddit福利》),必须用大量的真实图片对鉴别黄色图片的算法训练,从而才能区分开正常图片和黄色图片。Alexander Kim在Github开源了其抓取互联网主流网站NSFW图片的脚本,并附上了脚本爬取的图片完整列表,包含了共计22万张NSFW图片地址,图片来源包含了reddit、imgur、tumblr等老司机们常逛的社交网站。

图片分为几类:色情图(porn )、变态(hentai)、性感(sexy )、中性(neutral)、绘画(drawings )。

对于老司机们感兴趣的porn、sexy,已经有人精心帮助筛选出完整列表,是不是很爽啊。老司机们,要不要和机器比拼一下鉴黄能力?

资源访问方法:
1、访问 https://github.com/alexkimxyz/nsfw_data_scrapper/tree/master/raw_data

共有5个文件夹:“drawings”、“hentai”、“neutral”、“porn”、“sexy”

2、根据喜好点击任意一个文件夹

3、点开文件夹之后,再点击“urls_porn.txt”

统计一下每类文件夹的行数,可以看到porn共有116521条,sexy共有19554条,

4、然后点击“View Raw”,会打开一个txt文件,里面全是网址,复制图片地址在浏览器,即可鉴别图片。

转载请注明:泡吧!宅男宅女的性爱天堂 » 【老司机福利】一个22万张NSFW图片的鉴黄数据集,老司机要不要鉴别一下?

发表我的评论
取消评论
表情

Hi,您需要填写昵称和邮箱!

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址