机器学习
CRF++ (条件随机场)
CRFsuite (条件随机场)
自然语言处理
SIGHAN Bakeoff 2005(分词,中文分词)
人民日报分词语料库(分词,中文分词)
20 Newsgroups(新闻分类,文本分类,文本聚类)
IMDB Review Dataset (文本分类,情感分析)
Stanford Sentiment Treebank (情感分析)
维基百科语料库 (词向量训练)
Amazon Reviews (词向量训练)
Glove (预训练词向量)
fastText (预训练词向量)
Pre-trained ELMo Representations(预训练词向量)
HanLP 中文词向量 (预训练词向量)
Chinese Word Vectors(预训练词向量)
Tencent AI Lab Embedding Corpus for Chinese Words and Phrases(预训练词向量)
HanLP (中文分词,命名实体识别)
jieba (中文分词)
spacy (英文分词,命名实体识别)
Stanford CoreNLP (英文分词,命名实体识别)
CNN/Daily Mail (完形填空式阅读理解)
SQuAD(阅读理解)
DuReader (阅读理解)
HotpotQA (阅读理解)
计算机视觉
MNIST(手写数字识别)
CIFAR-10 & CIFAR-100(图像处理,图像识别)
ImageNet(图像分类)
推荐系统
财新网新闻数据集(新闻推荐,个性化推荐)
Outbrain Click Prediction(个性化推荐)
MovieLens(个性化推荐)