常见26种NLP任务的练手项目


首先声明下,今天发的这些Project都是类似论文实现那样的demo级的,也不是传统的工程实现,用的方法一般比工业界的高端,非常适合练手用。

1.分词 Word Segmentation

https://github.com/chqiwang/convseg,基于CNN做中文分词,提供数据和代码。

对应的论文Convolutional Neural Network with Word Embeddings for Chinese Word Segmentation IJCNLP2017.

2.词预测 Word Prediction

https://github.com/Kyubyong/word_prediction ,基于CNN做词预测,提供数据和代码。

3. 文本蕴涵 Textual Entailment

https://github.com/Steven-Hewitt/Entailment-with-Tensorflow,基于Tensorflow做文本蕴涵,提供数据和代码。

4. 语音识别 Automatic Speech Recognition

https://github.com/buriburisuri/speech-to-text-wavenet,基于DeepMind WaveNet和Tensorflow做句子级语音识别。

5. 自动摘要 Automatic Summarisation

https://github.com/PKULCWM/PKUSUMSUM,北大万小军老师团队的自动摘要方法汇总,包含了他们大量paper的实现,支持单文档摘要、多文档摘要、topic-focused多文档摘要。

6. 文本纠错 Text Correct

https://github.com/atpaino/deep-text-corrector,基于深度学习做文本纠错,提供数据和代码。

7.字音转换 Grapheme to Phoneme

https://github.com/cmusphinx/g2p-seq2seq,基于网红transformer做, 提供数据和代码。

8. 复述检测 Paraphrase Detection 和 问答 Question Answering

http://knowitall.cs.washington.edu/paralex/, 基于复述驱动学习的开放域问答。

9. 音汉互译 Pinyin-To-Chinese

https://github.com/Kyubyong/neural_chinese_transliterator,基于CNN做音汉互译。

10. 情感分析 Sentiment Analysis

情感分析包括的内容太多了,目前没发现比较全的。推荐两个适合练手的吧:https://nlp.stanford.edu/sentiment/https://sentic.net/about/

11. 手语识别 Sign Language Recognition

https://signall.us/, 该项目在手语识别做的非常成熟。

12. 词性标注(POS)、 命名实体识别(NER)、 句法分析(parser)、 语义角色标注(SRL) 等。

https://github.com/HIT-SCIR/ltp, 包括代码、模型、数据,还有详细的文档,而且效果还很好。

13. 词干 Word Stemming

https://github.com/snowballstem/snowball, 实现的词干效果还不错。

14. 语言识别 Language Identification

https://github.com/saffsd/langid.py,语言识别比较好的开源工具。

15. 机器翻译 Machine Translation

https://github.com/OpenNMT/OpenNMT-py, 基于PyTorch的神经机器翻译,很适合练手。

16. 复述生成 Paraphrase Generation

https://github.com/vsuthichai/paraphraser,基于Tensorflow的句子级复述生成,适合练手。

17. 关系抽取 Relationship Extraction

https://github.com/ankitp94/relationship-extraction,基于核方法的关系抽取。

18. 句子边界消歧 Sentence Boundary Disambiguation

https://github.com/Orekhov/SentenceBreaking,很有意思。

19.事件抽取 Event Extraction

https://github.com/liuhuanyong/ComplexEventExtraction, 中文复合事件抽取,包括条件事件、因果事件、顺承事件、反转事件等事件抽取,并形成事理图谱。

20. 词义消歧 Word Sense Disambiguation

https://github.com/alvations/pywsd,代码不多,方法简单,适合练手。

21. 命名实体消歧 Named Entity Disambiguation

https://github.com/dice-group/AGDISTIS,实体消歧是很重要的,尤其对于实体融合(比如知识图谱中多源数据融合)、实体链接。

22. 幽默检测 Humor Detection

https://github.com/pln-fing-udelar/pghumor

23. 讽刺检测 Sarcasm Detection

https://github.com/AniSkywalker/SarcasmDetection,基于神经网络的讽刺检测。

24. 实体链接 Entity Linking

https://github.com/hasibi/EntityLinkingRetrieval-ELR, 实体链接用途非常广,非常适合练手。

25. 指代消歧 Coreference Resolution

https://github.com/huggingface/neuralcoref,基于神经网络的指代消歧。

26. 关键词/短语抽取和社会标签推荐 Keyphrase Extraction and Social Tag Suggestion

https://github.com/thunlp/THUTag, 用多种方法 实现了多种关键词/短语抽取和社会标签推荐。

【课程介绍】       Pytorch项目实战 垃圾分类 课程从实战的角度出发,基于真实数据集与实际业务需求,结合当下最新话题-垃圾分类问题为实际业务出发点,介绍最前沿的深度学习解决方案。     从0到1讲解如何场景业务分析、进行数据处理,模型训练与调优,最后进行测试与结果展示分析。全程实战操作,以最接地气的方式详解每一步流程与解决方案。     课程结合当下深度学习热门领域,尤其是基于facebook 开源分类神器ResNext101网络架构,对网络架构进行调整,以计算机视觉为核心讲解各大网络的应用于实战方法,适合快速入门与进阶提升。 【课程要求】 (1)开发环境:python版本:Python3.7+; torch 版本:1.2.0+; torchvision版本:0.4.0+ (2)开发工具:Pycharm; (3)学员基础:需要一定的Python基础,及深度学习基础; (4)学员收货:掌握最新科技图像分类关键技术; (5)学员资料:内含完整程序源码和数据集; (6)课程亮点:专题技术,完整案例,全程实战操作,徒手撸代码 【课程特色】 阵容强大 讲师一直从事与一线项目开发,高级算法专家,一直从事于图像、NLP、个性化推荐系统热门技术领域。 仅跟前沿 基于当前热门讨论话题:垃圾分类,课程采用学术届和工业届最新前沿技术知识要点。 实战为先 根据实际深度学习工业场景-垃圾分类,从产品需求、产品设计和方案设计、产品技术功能实现、模型上线部署。精心设计工业实战项目 保障效果 项目实战方向包含了学术届和工业届最前沿技术要点 项目包装简历优化 课程内垃圾分类图像实战项目完成后可以直接优化到简历中 【课程思维导图】 【课程实战案例】
©️2020 CSDN 皮肤主题: 代码科技 设计师:Amelia_0503 返回首页