中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

囊括歐亞非大陸多種語(yǔ)言的25個(gè)平行語(yǔ)料庫(kù)數(shù)據(jù)集(拿走不謝。

2018-11-07    來(lái)源:raincent

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬(wàn)Linux鏡像隨意使用

與大部分機(jī)器學(xué)習(xí)模型一樣,有效的機(jī)器翻譯系統(tǒng)需要大量的訓(xùn)練數(shù)據(jù)才能產(chǎn)生可讀性強(qiáng)的結(jié)果。平行文本翻譯語(yǔ)料庫(kù)是兩種語(yǔ)言之間的結(jié)構(gòu)化翻譯文本集。此類平行語(yǔ)料庫(kù)對(duì)訓(xùn)練機(jī)器翻譯算法至關(guān)重要。但從哪里可以獲得這些外語(yǔ)數(shù)據(jù)集呢?請(qǐng)看下列清單↓↓↓

平行文本數(shù)據(jù)集

Aligned Hansards of the 36th Parliament of Canada:包含英語(yǔ)-法語(yǔ)句對(duì)。

地址:https://www.isi.edu/natural-language/download/hansard/

European Parliament Proceedings Parallel Corpus 1996-2011:包含 21 種歐洲語(yǔ)言句對(duì)。

地址:http://www.statmt.org/europarl/

Global Voices Parallel Corpus:新聞門戶網(wǎng)站 Global Voices 的內(nèi)容精選,包括 57 種語(yǔ)言的新聞文本。

地址:http://casmacat.eu/corpus/global-voices.html

RATS language identification:包含將近 5400 個(gè)小時(shí)的阿拉伯語(yǔ)、波斯語(yǔ)、達(dá)里語(yǔ)、普什圖語(yǔ)和烏爾都語(yǔ)電話會(huì)話語(yǔ)音,并附有語(yǔ)音分割標(biāo)注。

地址:https://catalog.ldc.upenn.edu/LDC2018S10

Chinese-French Text:包含來(lái)自 Chinese Broadcast News 語(yǔ)料庫(kù)的大約 3 萬(wàn)漢字子集的法語(yǔ)譯文。

地址:https://catalog.ldc.upenn.edu/LDC2018T17

Arabizi Text:自動(dòng)檢測(cè)英語(yǔ)和阿拉伯語(yǔ)混合文本中語(yǔ)碼轉(zhuǎn)換的訓(xùn)練數(shù)據(jù),包含 522 條推特。

地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0126/

English-Vietnamese Text:包含 50 萬(wàn)個(gè)英語(yǔ)-越南語(yǔ)句對(duì)的語(yǔ)料庫(kù)。

地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0124/

English-Persian Text:包含超過 20 萬(wàn)個(gè)英語(yǔ)-波斯語(yǔ)對(duì)齊句對(duì)。

地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0118/

Chinese-English Emails:包含來(lái)自電子郵件的 15000 個(gè)漢字(相當(dāng)于 10000 個(gè)英文單詞)及其英文參考譯文。

地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0113/

French-Arabic Newspapers:包含 10000 個(gè)阿拉伯語(yǔ)單詞和 2 個(gè)法語(yǔ)參考譯文的語(yǔ)料庫(kù)。源文本是 2013 年 5 月從阿拉伯版《Le Monde Diplomatique》中收集的文章。

地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0100/

Pashto-French Text:106 個(gè)小時(shí)的普什圖語(yǔ)錄音的文字記錄及其法語(yǔ)譯文。

地址:http://catalog.elra.info/en-us/repository/browse/ELRA-W0093/

German-English Text:手動(dòng)詞對(duì)齊的德語(yǔ)-英語(yǔ)平行語(yǔ)料庫(kù)。

地址:https://github.com/bicici/SMTData/blob/master/German-English_WordAlignment.zip

Turkish-English Text:為 WMT 2018 準(zhǔn)備的土耳其語(yǔ)-英語(yǔ)平行語(yǔ)料庫(kù)。

地址:https://github.com/bicici/SMTData/commit/1cca572244c6c9b8e810735ca898f5f3a19b2ecc#diff-7a11a746e07c7411854b77f3f521f534

UN translation text:6 種不同語(yǔ)言的聯(lián)合國(guó)翻譯文檔合集。

地址:http://opus.nlpl.eu/UN.php

XhosaNavy:南非海軍英語(yǔ)和科薩語(yǔ)平行語(yǔ)料庫(kù)。

地址:http://opus.nlpl.eu/XhosaNavy.php

Wikipedia:20 種語(yǔ)言的平行句子語(yǔ)料庫(kù),句子來(lái)源于維基百科。

地址:http://opus.nlpl.eu/Wikipedia.php

English-Croatian:英語(yǔ)和克羅地亞語(yǔ)平行文本。

地址:http://opus.nlpl.eu/hrenWaC.php

Catalan-Spanish:從加泰羅尼亞政府官方刊物中收集的加泰羅尼亞語(yǔ)和西班牙語(yǔ)文檔合集。

地址:http://opus.nlpl.eu/DOGC.php

English-Japanese:Wikipedia』s Kyoto Articles 日英雙語(yǔ)語(yǔ)料庫(kù),包含大約 50 萬(wàn)個(gè)人工翻譯的句對(duì)。

地址:https://www.kaggle.com/team-ai/japaneseenglish-bilingual-corpus

OntoNotes:包含英語(yǔ)、中文和阿拉伯語(yǔ)各類文本(新聞、電話會(huì)話、網(wǎng)絡(luò)日志、新聞組、廣播、脫口秀)的標(biāo)注語(yǔ)料庫(kù)。

地址:https://catalog.ldc.upenn.edu/ldc2013t19

Central Europe Telephone Speech:包含約 44 小時(shí)的標(biāo)注電話語(yǔ)音,捷克和斯洛伐克語(yǔ)。

地址:https://catalog.ldc.upenn.edu/LDC2018S08

South Asia Telephone Speech:包含約 118 小時(shí)的標(biāo)注電話語(yǔ)音,孟加拉語(yǔ)、印地語(yǔ)、旁遮普語(yǔ)、泰米爾語(yǔ)和烏爾都語(yǔ)。

地址:https://catalog.ldc.upenn.edu/LDC2017S14

Turkish Telephone Speech:包含約 18 小時(shí)的土耳其語(yǔ)電話語(yǔ)音。

地址:https://catalog.ldc.upenn.edu/LDC2017S09

Chinese Treebank:來(lái)自 Chinese newswire、政府文件、雜志文章和各種廣播新聞的約 150 萬(wàn)字標(biāo)注和解析文本。

地址:https://catalog.ldc.upenn.edu/LDC2013T21

Arabic Broadcast News Transcripts:包含 2008 年和 2009 年收集的大約 37 小時(shí)阿拉伯廣播新聞文字記錄。

地址:https://catalog.ldc.upenn.edu/LDC2018T14

原文鏈接:https://gengo.ai/datasets/25-best-parallel-text-datasets-for-machine-translation-training/

標(biāo)簽: 電子郵件 網(wǎng)絡(luò)

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:十年雙11:阿里數(shù)據(jù)庫(kù)變遷“三部曲”

下一篇:中國(guó)移動(dòng)9.6億4G皮基站集采出爐:結(jié)果有點(diǎn)意外