Datasets and Tools

机器学习

CRF++ (条件随机场)

CRFsuite (条件随机场)

自然语言处理

SIGHAN Bakeoff 2005(分词,中文分词)

人民日报分词语料库(分词,中文分词)

20 Newsgroups(新闻分类,文本分类,文本聚类)

IMDB Review Dataset (文本分类,情感分析)

Stanford Sentiment Treebank (情感分析)

维基百科语料库 (词向量训练)

Amazon Reviews (词向量训练)

Glove (预训练词向量)

fastText (预训练词向量)

Pre-trained ELMo Representations(预训练词向量)

HanLP 中文词向量 (预训练词向量)

Chinese Word Vectors(预训练词向量)

Tencent AI Lab Embedding Corpus for Chinese Words and Phrases(预训练词向量)

HanLP (中文分词,命名实体识别)

jieba (中文分词)

spacy (英文分词,命名实体识别)

Stanford CoreNLP (英文分词,命名实体识别)

CNN/Daily Mail (完形填空式阅读理解)

SQuAD(阅读理解)

DuReader (阅读理解)

HotpotQA (阅读理解)

计算机视觉

MNIST(手写数字识别)

CIFAR-10 & CIFAR-100(图像处理,图像识别)

ImageNet(图像分类)

推荐系统

财新网新闻数据集(新闻推荐,个性化推荐)

Outbrain Click Prediction(个性化推荐)

MovieLens(个性化推荐)

Search

    Table of Contents