中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

一個(gè) 22 萬(wàn)張 NSFW 圖片的鑒黃數(shù)據(jù)集?我有個(gè)大膽的想法……

2019-01-17    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

如果你想訓(xùn)練一個(gè)內(nèi)容審核系統(tǒng)過(guò)濾不合適的信息,或用 GAN 做一些大膽的新想法,那么數(shù)據(jù)集是必不可少的。例如圖像鑒黃,我們需要使用卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練一個(gè)分類器,以區(qū)分正常圖像與限制級(jí)圖像。但限制級(jí)的圖像很難收集,也很少會(huì)開(kāi)源。因此最近有開(kāi)發(fā)者在 GitHub 上開(kāi)源了一份 NSFW 圖像數(shù)據(jù)集,這是不是你們想要的?

內(nèi)容審核在很多領(lǐng)域都有非常重要的作用,它不僅需要通過(guò)分類器識(shí)別圖像或其它數(shù)據(jù)不適合展示,同時(shí)還能結(jié)合語(yǔ)義分割模型對(duì)這些限制級(jí)圖像進(jìn)行處理(Mask 掉敏感部分)。這樣在不過(guò)多影響內(nèi)容的情況下去除掉不合適的信息。開(kāi)發(fā)者 alexkimxyz 構(gòu)建的這個(gè)項(xiàng)目大概收集了 20 多萬(wàn)張敏感圖像,且通過(guò) URL 的形式展示了 GitHub 中。

項(xiàng)目地址:https://github.com/alexkimxyz/nsfw_data_scrapper

這 20 萬(wàn)多張圖像大概分為以下 5 個(gè)類別,它們可以用 CNN 訓(xùn)練不同的分類器。這里我們就保留 GitHub 中的原描述了:

 

 

其中每一個(gè)類別都是一個(gè) Text 文本,文本中的每一行都對(duì)應(yīng)一個(gè) URL,所以讀取并下載都非常方便,自己寫也就幾行代碼。如下簡(jiǎn)單展示了 sexy 類別下文本與圖像:

 

 

此外值得注意的是,有少量圖像 URL 是失效的,因此在處理的過(guò)程中需要把這些情況考慮進(jìn)去。一般如果 URL 是失效的,它會(huì)返回一張 161×81 的聲明圖像。

當(dāng)然,作者同樣提供了獲取 URL 和下載圖像的腳本,我們只需要運(yùn)行就行了。目前,這些腳本僅在 Ubuntu 16.04 Linux 發(fā)行版本中進(jìn)行了測(cè)試。

以下是重要腳本(位于 scripts 目錄下)及它們的作用:

1_get_urls.sh:遍歷 scripts / source_urls 下的文本文件,下載上述 5 個(gè)類別中每個(gè)類別的圖像 URL。Ripme 應(yīng)用程序執(zhí)行所有關(guān)鍵部分。源 URL 主要是鏈接到各種 subreddits,但可以是 Ripme 支持的任何網(wǎng)站。注意:作者已經(jīng)運(yùn)行了此腳本,其輸出位于 raw_data 目錄中。除非在 scripts / source_urls 下編輯文件,否則無(wú)需重新運(yùn)行。

2_download_from_urls.sh:下載 raw_data 目錄中的文本文件中找到的 URL 的實(shí)際圖像。

5_create_train.sh:創(chuàng)建 data/train 目錄并從 raw_data 將所有 * .jpg 和 * .jpeg 文件復(fù)制到其中。并刪除損壞的圖像。

6_create_test.sh:創(chuàng)建 data/test 目錄,并從 data / trainto 為每個(gè)類隨機(jī)移動(dòng) N = 2000 個(gè)文件(如果需要不同的訓(xùn)練 / 測(cè)試分割,則在腳本內(nèi)更改此數(shù)字)到 data / test;蛘,可以多次運(yùn)行它,每次它將從 data/train 到 data/test 將每個(gè)類別移動(dòng) N 個(gè)圖像。

注意運(yùn)行 get_urls.sh 后,生成的 URL 文本文件會(huì)覆蓋 raw_data 下已有的文本文件。所以在復(fù)制 GitHub 項(xiàng)目后,我們也可以直接運(yùn)行 2_download_from_urls.sh 從已有 raw_data 文件下載圖像。

環(huán)境配置

Python3 環(huán)境:conda env create -f environment.yml

Java 運(yùn)行時(shí)環(huán)境(Ubuntu linux):sudo apt-get install default-jre

Linux 命令行工具:wget, convert (imagemagick 工具套件), rsync, shuf

怎么運(yùn)行

將工作目錄轉(zhuǎn)到 scripts,并按文件名中的數(shù)字指示的順序執(zhí)行每個(gè)腳本,例如:

 

 

如上所示為腳本的執(zhí)行方法,五類一共 227995 張敏感圖像。這個(gè)腳本同樣會(huì)把它們分割為訓(xùn)練集與測(cè)試集,因此直接利用它們實(shí)現(xiàn) 5 類別的分類任務(wù)會(huì)很簡(jiǎn)單。當(dāng)然如果我們需要用于其它的任務(wù),就沒(méi)有必要直接分割了。

使用簡(jiǎn)單的卷積神經(jīng)網(wǎng)絡(luò)直接實(shí)現(xiàn)分類任務(wù)可以達(dá)到 91% 的準(zhǔn)確率,這已經(jīng)非常高了,因?yàn)槊舾袛?shù)據(jù)手動(dòng)分為 5 類本來(lái)就有一些模糊性存在。以下展示了在測(cè)試集上,5 分類任務(wù)的混淆矩陣:

 

 

其中對(duì)角線表示正確預(yù)測(cè)的樣本數(shù),其它為誤分類樣本數(shù)。這個(gè)分類任務(wù)至少說(shuō)明了 5 類別是有區(qū)分度的,不論我們用于正常內(nèi)容與敏感內(nèi)容的二分類,還是使用 GAN 做一些新奇的模型,類別都是很有區(qū)分度的特征。

最后,各位請(qǐng)懷著敬畏之心嚴(yán)肅使用,且僅供研究使用(不要舉報(bào))……

標(biāo)簽: linux 代碼 腳本 開(kāi)發(fā)者 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:人工智能和大數(shù)據(jù)是如何聯(lián)系在一起的?

下一篇:GitHub 年度盤點(diǎn):Deno 趕超 Node,躍升第四!