
An open API service indexing awesome lists of open source software.

Awesome Lists | Featured Topics | Projects

:book: A curated list of resources dedicated to Natural Language Processing (NLP)

List: awesome-nlp

awesome awesome-list deep-learning language machine-learning natural-language-processing nlp text-mining

Last synced: 4 months ago
JSON representation

:book: A curated list of resources dedicated to Natural Language Processing (NLP)

Awesome Lists containing this project



# 令人讚嘆的自然語言處理 [![Awesome](](

> 專門用於自然語言處理的精選資源列表

![Awesome NLP Logo](/images/logo.jpg)

> * 原文地址:[令人讚嘆的自然語言處理](
> * 原文作者:[Keon](, [Martin](, [Nirant](, [Dhruv](
> * 翻譯:[NeroCube](

_請在提交之前閱讀 [貢獻指南]( 。請隨時創建 [拉取請求](

## 內容

* [研究摘要和趨勢](#研究摘要和趨勢)
* [教學](#教學)
* [閱讀內容](#閱讀內容)
* [影片和課程](#影片和課程)
* [書籍](#書籍)
* [函式庫](#函式庫)
* [Node.js](#user-content-node-js)
* [Python](#user-content-python)
* [C++](#user-content-c++)
* [Java](#user-content-java)
* [Kotlin](#user-content-kotlin)
* [Scala](#user-content-scala)
* [R](#user-content-r)
* [Clojure](#user-content-clojure)
* [Ruby](#user-content-ruby)
* [Rust](#user-content-rust)
* [服務](#服務)
* [註釋工具](#註釋工具)
* [資料集](#資料集)
* [自然語言處理-韓文](#自然語言處理-韓文)
* [自然語言處理-阿拉伯語](#自然語言處理-阿拉伯語)
* [自然語言處理-中文](#自然語言處理-中文)
* [自然語言處理-德文](#自然語言處理-德文)
* [自然語言處理-西班牙語](#自然語言處理-西班牙語)
* [自然語言處理-印度語](#自然語言處理-印度語)
* [自然語言處理-泰語](#自然語言處理-泰語)
* [自然語言處理-丹麥語](#自然語言處理-丹麥語)
* [自然語言處理-越南語](#自然語言處理-越南語)
* [自然語言處理-印度尼西亞](#自然語言處理-印度尼西亞)
* [其他語言](#其他語言)
* [貢獻](#貢獻)

## 研究摘要和趨勢

* [自然語言處理-概述]( 是應用於自然語言深度學習技術的最新概述,包括理論,實現,應用和最先進的結果。對於研究人員來說,這是一個偉大的Deep NLP簡介。
* [自然語言處理-進展]( 追隨自然語言處理的進展,包括資料集和常見自然語言處理任務的當前最新技術。
* [自然語言處理的 ImageNet 時刻已經到來](
* [ACL 2018 亮點: 在更具挑戰性的設置中理解表示和評估](
* [ACL 2017 的四個深度學習趨勢。第一部分:語言結構和詞語嵌入](
* [ACL 2017 的四個深度學習趨勢。第二部分:可解釋性和注意力](
* [2017 年 EMNLP 的亮點:激動人心的資料集,集群的回歸與其他更多!](
* [深度學習自然語言處理 (NLP): 進展與趨勢](
* [自然語言生成的現狀調查](

## 教學

### 閱讀內容


* 來自 Google 高級創意工程師 Jason 的[機器學習 101]( ,為工程師和管理階層解釋機器學習。
* a16z [AI 劇本]( 是一個很好的鏈接,可以轉發給您的經理或演示內容。
* [繼器學習部落格]( by Brian McFee
* [Ruder's 部落格]( 由 [Sebastian Ruder]( 進行評論得最好的自然語言處理研究。


* [理解和實施自然語言處理]( 的終極指南。
* [Hackernoon 的自然語言處理簡介]( 適用於那些賞味數學的人-用他們自己的話來說。
* [Vik Paruchari 的自然語言處理教學](
* [自然語言處理: 一份簡介]( 來自牛津大學。
* [使用 Pytorch 進行自然語言處理的深度學習](
* [動手做 NLTK 教學]( - 以
Jupyter 筆記本形式的實踐 NLTK 教學。


* 部落格: [深度學習, 自然語言處理, 與呈現法](
* 部落格: [圖解 BERT, ELMo, 與 co. (自然語言處理是如何破解遷移學習的)]( 與 [圖解轉換器](
* 部落格: Hal Daumé III 的[自然語言處理](
* [Radim Řehůřek 的教學]( 使用 Python 與 [gensim]( 處理語言語料庫。
* [arXiv: 自然語言處理 (大部分) 來自 Scratch](
* [Karpathy 的遞歸神經網絡的不合理有效性](

### 影片和課程

#### 深度學習與自然語言處理

用於自然語言處理的詞嵌入, 遞歸神經網絡, 長短期記憶神經網絡與卷積神經網路 | [返回頂部](#內容)

* Udacity 的[人工智慧入門]( 課程涉及到自然語言處理。
* Udacity 的[深度學習]( 使用Tensorflow 使用深度學習的 NLP 任務的部分(包括 Word2Vec,RNN的 和 LSTMs)。
* 牛津大學的[深度自然語言處理](有影片,演講投影片和閱讀素材。
* 斯坦福大學的[自然語言處理深度學習 (cs224-n)]( 由 Richard Socher 和 Christopher Manning 完成。
* Coursera 的[自然語言處理]( 由國立研究大學高等經濟學院完成。
* 卡內基梅隆大學的語言技術研究所[自然語言處理的神經網路](。

#### 經典自然語言處理

自然語言處理的貝葉斯,統計和語言學方法| | [返回頂部](#內容)

* [統計機器翻譯]( - 機器翻譯課程,具有很棒的作業和投影片。
* [使用 Python 3 進行 NLTK 自然語言處理]( 由 Harrison Kinsley(sentdex) 使用 NLTK 程式碼實現的好教學。
* 由 Jordan Boyd-Graber 在馬里蘭大學的[計算語言學 I](講座。
* 由 Yandex 數據學院的[深度自然語言處理課程](涵蓋從文本嵌入到機器翻譯的重要思想,包括序列建模,語言模型等。

### 書籍

* Dan Jurafsy 教授的[語音和語言處理](
* [R 中的文字探勘](
* [Python 的自然語言處理](

## 函式庫


* **Node.js and Javascript** - 用於自然語言的 Node.js 函式庫 | [返回頂部](#內容)
* [Twitter-text]( - 使用 JavaScript 實現的 Twitter 文本處理庫。
* [Knwl.js]( - JS中的自然語言處理器。
* [Retext]( - 用於分析和操縱自然語言的可​​擴展系統。
* [NLP Compromise]( - 瀏覽器中的自然語言處理。
* [Natural]( - 節點的一般自然語言設施。
- [Poplar]( - 一種基於 Web 的自然語言處理註釋工具(NLP)。

* **Python** - 用於自然語言的 Python 函式庫 | [返回頂部](#內容)

* [TextBlob]( - 為專研常見的自然語言處理(NLP)任務提供一致的 API。 站在[自然語言工具包 (NLTK)]( 和 [模式](膀上,並與兩者很好地配合 :+1:
* [spaCy]( - 使用 Python 與 Cython 產業強度的自然語言處理 :+1:
* [textacy]( - 在spaCy上構建的更高級別的自然與儼處理。
* [gensim]( - 用於從純文本進行無監督語義建模的 函式庫 :+1:
* [scattertext]( - 用於生成語料庫之間語言差異的 d3 可視化的 Python 函式庫。
* [AllenNLP]( - 一個架構在 PyTorch 上的自然語言處理函式庫,用於開發各種語言任務最先進的深度學習模型。
* [PyTorch-NLP]( - 自然語言處理研究工具包設計來支援快速建立更好的數據加載器,詞向量加載器,神經網路層表示,常見的自然語言處理指標(如BLEU)原型。
* [Rosetta]( - 文本處理工具和包裝 (例如: Vowpal Wabbit)
* [PyNLPl]( - Python 自然語言處理函式庫. 適用於 Python 的通用自然語言處理函式庫。 還包含一些用於解析常見自然語言處理格式的特定模塊, 最常見的是用於 [FoLiA](,還包括 ARPA 語言模型,Moses 短語表,GIZA ++對齊。

* [jPTDP]( - 用於聯合詞性(POS)標記和依賴性解析的工具包。jPTDP 提供40多種語言的預訓練模型。
* [BigARTM]( - 一個用於主題建模的快速函式庫。
* [Snips NLU]( - 用於意圖解析的產品就緒函式庫。
* [Chazutsu]( - 用於下載和解析標準自然語言處理研究數據集的函式庫。
* [Word Forms]( - Word forms 可以準確生成所有可能的英語單詞形式。
* [Multilingual Latent Dirichlet Allocation (LDA)]( - 一種多語言和可擴展的文檔聚類管道。
* [NLP Architect]( - 用於探索 NLP 和 NLU 最先進的深度學習拓撲和技術的函式庫。
* [Flair]( - 一個非常簡單的框架,用於在 PyTorch 上構建最先進的多語言 NLP。包括 BERT,ELMo 和 Flair 嵌入。
* [Kashgari]( - 簡單的,基於 Keras 的多語言自然語言處理框架,允許您在5分鐘內構建模型,用於命名實體識別(NER),詞性標註(PoS)和文本分類任務。 包括 BERT 和 word2vec 嵌入。

* **C++** - C++ 函式庫 | [返回頂部](#內容)
* [MIT 資訊提取工具包 ]( - 用於命名實體識別和關係提取的 C,C++ 和Python 工具。
* [CRF++]( - 條件隨機場(CRF)的開源專案,用於實現分割/標記順序數據和其他自然語言處理任務。
* [CRFsuite]( - CRFsuite 實現用於標記順序數據的條件隨機字段(CRF)。
* [BLLIP Parser]( - BLLIP 自然語言解析器(也稱為 Charniak-Johnson 解析器)
* [colibri-core]( - C++ 函式庫,命令行工具和 Python 綁定用於快速且內存有效的方式提取和使用基本語言結構,如 n-gram 和 skipgrams。
* [ucto]( - 適用於各種語言的基於 Unicode 的常規表達式標記生成器。工具和 C++函式庫。支持 FoLiA 格式。
* [libfolia]( - 用於 [FoLiA 格式](的 C++ 函式庫。
* [frog]( - 為荷蘭語開發的基於內存的自然語言處理套件:PoS 標記器,lemmatiser,依賴解析器,NER,淺層解析器,形態分析器。
* [MeTA]( - [MeTA : ModErn Text Analysis]( 是一個 C++ 數據科學工具包,可以幫助挖掘大文本數據。
* [Mecab (日文)](
* [Moses](
* [StarSpace]( - 一個來自 Facebook 的函式庫用於創建單詞級,段級,文檔級和文本分類的嵌入

* **Java** - Java 自然語言處理函式庫 | [返回頂部](#內容)
* [斯坦福大學 NLP](
* [OpenNLP](
* [NLP4J](
* [Java 中的 Word2vec](
* [ReVerb]( Web-Scale 開放信息提取。
* [OpenRegex]( 一種高效靈活的基於 token 的正則表達式語言和引擎。
* [CogcompNLP]( - 在伊利諾伊大學的認知計算組開發的核心函式庫。
* [MALLET]( - 用於 LanguagE Toolkit 的機器學習 - 用於統計自然語言處理,文檔分類,聚類,主題建模,資訊提取和其他機器學習應用程序的文本包。
* [RDRPOSTagger]( - 一個穩健的 POS 標記工具包(包括 Java 和 Python)以及40多種語言的預訓練模型。

* **Kotlin** - Kotlin 自然語言處理函式庫 | [返回頂部](#內容)
* [Lingua]( 適用於 Kotlin 和 Java 的語言檢測函式庫,適用於長文本和短文本。
* [Kotidgy]( — 一種用 Kotlin 編寫基於索引的文本數據生成器。

* **Scala** - Scala 自然語言處理函式庫 | [返回頂部](#內容)
* [Saul]( - 用於開發自然語言處理系統的函式庫,包括內置模塊,如 SRL,POS 等。
* [ATR4S]( - 具有最先進的[自動術語識別](方法的工具包。
* [tm]( - 基於正則化多語言 [PLSA]( 的主題建模實現。
* [word2vec-scala]( - word2vec 模型的 Scala 接口; 包括對詞距離和詞類比等向量的操作。
* [Epic]( - Epic 是一個用 Scala 編寫的高性能統計解析器,以及用於構建複雜結構化預測模型的框架。

* **R** - R 自然語言處理函式庫 | [返回頂部](#內容)
* [text2vec]( - R 中的快速矢量化,主題建模,距離和 GloVe 字嵌入。
* [wordVectors]( - 用於創建和探索 word2vec 和其他單詞嵌入模型的 R 包。
* [RMallet]( - 與 Java 機器學習工具 MALLET 接口的 R 包。
* [dfr-browser]( - 創建用於在 Web 瀏覽器中瀏覽文本主題模型的 d3 可視化。
* [dfrtopics]( - 用於探索文本主題模型的 R 包。
* [sentiment_classifier]( - 使用Word Sense Disambiguation 和 WordNet Reader 的情感分類。
* [jProcessing]( - 日本自然語言處理庫,具有日語情感分類。

* **Clojure** | [返回頂部](#內容)
* [Clojure-openNLP]( - Clojure 中的自然語言處理(opennlp)。
* [Infections-clj]( - 用於 Clojure 和 ClojureScript 的類似 Rails 的變形函式庫。
* [postagga]( - 用於解析 Clojure 和 ClojureScript 中的自然語言的函式庫。

* **Ruby** | [返回頂部](#內容)
* Kevin Dias 的 [自然語言處理(NLP)Ruby 函式庫,工具和軟件的集合](
* [Ruby 中實用的自然語言處理](

* **Rust** | [返回頂部](#內容)
* [whatlang]( — 基於三元組的自然語言識別函式庫。
- [snips-nlu-rs]( - 用於意圖解析的生產就緒等級函示庫。

### 服務

自然語言處理作為具有更高級功能的 API,例如 NER,主題標記等 | [返回頂部](#內容)

- [Wit-ai]( - 應用程序和設備的自然語言界面。
- [IBM Watson 的自然語意理解]( - API 和 Github 演示。
- [Amazon 理解]( - NLP 和 ML 套件涵蓋了最常見的任務,如 NER,標記和情感分析。
- [Google 雲端自然語言 API]( - 至少9種語言的語法分析,NER,情感分析和內容標記包括英語和中文(簡體和繁體)。
- [ParallelDots]( - 高層次文本分析 API 服務,從情感分析到意圖分析。
- [Microsoft 認知服務](
- [TextRazor](
- [Rosette](
- [Textalytic]( - 瀏覽器中的自然語言處理,包括情感分析,命名實體提取,POS標記,詞頻,主題建模,文字雲等。

### 註釋工具

- [GATE]( - 通用架構和文本工程已有15年歷史,免費開源。
- [Anafora]( 是免費的開源,基於 Web 的原始文本註釋工具。
- [brat]( - brat 快速註解工具是一個用於協作文本註釋的在線環境。
- [tagtog](, 需花 $。
- [prodigy]( 是一個由主動學習驅動的註釋工具,需花 $。
- [LightTag]( - 為團隊提供託管和管理的文本註釋工具,需花 $。

## 技術

### 文本嵌入



單詞嵌入中最流行的名字是 Google(Mikolov)的 word2vec 和史丹佛的 PenVe(Pennington,Socher 和Manning)。fastText 似乎是一種非常流行的多語言子詞嵌入。

#### 詞嵌入


|嵌入 |論文| 組織| gensim - 培訓支援 |部落格|
|word2vec|[官方實作](, T.Mikolove et al. 2013. 分散式詞語表達及其組合性。[pdf]( |Google|是 :heavy_check_mark:| colah 在[深度學習,自然語言處理和陳述](中的視覺會解釋; gensim 的[理解 word2vec]( |
|GloVe|Jeffrey Pennington, Richard Socher 與 Christopher D. Manning. 2014. GloVe: 全局向量的字詞表示 [pdf](|史丹佛|否 :negative_squared_cross_mark:|acoyler 的 [GloVe 早報]( |
|fastText|[官方實作](, T. Mikolov et al. 2017. 使用子詞資訊豐富單詞向量。 [pdf](|Facebook|是 :heavy_check_mark:|[Fasttext: 深入解析](|


- 經驗法則: **fastText >> GloVe > word2vec**
- 你可以找到許多語言[預訓練 fasttext 向量](。
- 如果你對 word2vec 和 GloVe 背後的邏輯和直覺感興趣: [詞向量的驚人力量](並很好地介紹這些主題。
- [arXiv: 高效文本分類的錦囊妙方](, 與 [arXiv: 壓縮文本分類模型]( 作為 fasttext 的一部分發布。

#### 基於句子和語言模型的詞嵌入


- _ElMo_ 從[深度情境詞表示]( - [PyTorch 實作]( - [TF 實作](
- _ULimFit_ Jeremy Howard 與 Sebastian Ruder 的[通用語言模型進行文本分類微調](
- _InferSent_ facebook 的 [自然語言推論資料的通用語句表示監督是學習](
- _CoVe_ from [在翻譯中學習: 情境詞相量](
- _來自[文件與句子的分散式表達]( 參閱 [gensim 的 doc2vec 教學](
- [sense2vec]( - 關於詞義消歧。
- [跳過思考象量]( - 單詞表示方法。
- [自適應 skip-gram]( - 類似的方法,具有自適應屬性。
- [序列到序列學習]( - 機器翻譯的詞向量。

### 回答問題與知識提取


- Facebook 透過維基百科 [DrQA: 打開領域為題解答](
- DocQA: AllenAI 的[簡單而有效的多段閱讀理解](
- [用於自然語言問答的馬爾可夫邏輯網絡](
- [基於模板的資訊提取沒有用到模板](
- [矩陣分解與通用模式的關係提取](
- [Privee:自動分析Web隱私策略的體系結構](
- [教學機器閱讀和理解]( - DeepMind paper
- [走向形式分佈語義:用張量模擬邏輯演算](
- [MLN 教學的演示投影片](
- [MLNs 的 QA 應用演示投影片](
- [演示投影片](

## 資料集


- [nlp-datasets]( 很好的自然語言資料集集合

## 多語言自然語言處理框架


- [UDPipe]( 是一個可訓練的管道,用於標記,標記,解釋和解析通用樹庫和其他 CoNLL-U 文件。主要用 C++ 編寫,為多語言NLP處理提供快速可靠的解決方案。
- [NLP-Cube]( : 自然語言處理流水線 - 句子分裂,標記化,詞形還原,詞性標註和依賴性分析。用 Dynet 2.0 用 Python 編寫的新平台。提供獨立(CLI / Python 綁定)和服務器功能(REST API)。

## 自然語言處理-韓文


### 函式庫

- [KoNLPy]( - 用於韓語自然語言處理的Python包。
- [Mecab (Korean)]( - 韓文的自然語言處理 C++ 函式庫
- [KoalaNLP]( - 韓國自然語言處理的 Scala 函式庫。
- [KoNLP]( - 韓文的自然語言處理 R 包。

### 部落格與教學

- [dsindex 的部落格](
- [韓國江原大學的自然語言處理課程](

### 資料集

- [KAIST 語料庫]( - 韓國高等科學技術研究所的語料庫。
- [韓國 Naver 情感電影語料庫](
- [朝鮮日報檔案館]( - 來自韓國主要報紙之一的朝鮮日報的韓文數據集。

## 自然語言處理-阿拉伯語


### 函式庫

- [goarabic]( - Go包用於阿拉伯語文本處理。
- [jsastem]( - 用於阿拉伯詞幹的Javascript。
- [PyArabic]( - 阿拉伯語的 Python 函式庫。

### 資料集

- [多域數據集]( - 阿拉伯語情感分析的最大可用多域資源。
- [LABR]( - LArge阿拉伯書籍評論數據集。
- [Arabic 停用詞]( - 來自各種資源的阿拉伯語停用詞列表。

## 自然語言處理-中文


### 函式庫

- [jieba]( - 中文詞彙分割實用程序的 Python 包。
- [SnowNLP]( - 中文自然語言處理 Python 包。
- [FudanNLP]( - 用於中文文本處理的 Java 函式庫。

## 自然語言處理-德文


- [德文-自然語言處理]( - 開發的開放式訪問/開源/現成資源和工具列表,特別關注德語。

## 自然語言處理-西班牙語


### 資料

- [哥倫比亞政治演說](
- [哥本哈根樹庫](
- [西班牙語十億字語料庫與 Word2Vec 嵌入](

## 自然語言處理-印度語


### 印地語

### 資料, 文集與樹庫

- [印地語依賴樹庫]( - 印地語和烏爾都語的多代表性多層樹庫。
- [在印地語的普遍依賴性樹庫](
- [並行通用依賴樹庫印地語]( - 上述樹庫的一小部分。

## 自然語言處理-泰語


### 函式庫

- [PyThaiNLP]( - Python 包中的泰語自然語言處理。
- [JTCC]( - Java 中的字符集群庫。
- [CutKum]( - 在 TensorFlow 中使用深度學習進行分詞。
- [泰語工具包]( - 基於 Wirote Aroonmanakun 於2002年撰寫的一篇論文,其中包括數據集。
- [SynThai]( - 在 Python 中使用深度學習進行分詞和 POS 標記。

### 資料

- [Inter-BEST]( - 具有500萬個單詞分詞的文本語料庫。
- [Prime Minister 29]( - 數據集包含現任泰國總理的演講。

## 自然語言處理-丹麥語


- [丹麥的命名實體識別](

## 自然語言處理-越南語


### 函式庫

- [underthesea]( - 越南自然語言處理工具包。
- [vn.vitk]( - 越南文本處理工具包。
- [VnCoreNLP]( - 越南自然語言處理工具包。

### 資料

- [越南樹庫]( - 選區解析任務的10,000個句子。
- [BKTreeBank]( - 越南依賴樹庫。
- [UD_Vietnamese]( - 越南通用依賴樹庫。
- [VIVOS]( - 一個免費的越南語言語料庫,由 AILab 的15小時錄音講話組成。
- [VNTQcorpus(big).txt]( - 新聞中的175萬句話。

## 自然語言處理-印度尼西亞


### 資料集
- [ILPS]( 的Kompas 和 Tempo 系列。
- [用於PoS標記的PANL10N]( 39K句子和900K字標記。
- [用於PoS標記的IDN]( 該語料庫包含10K個句子和250K個單詞標記。
- [印度尼西亞樹庫](和 [普遍依賴 - 印度尼西亞語](
- [IndoSum]( 用於文本摘要和分類。
- [Wordnet-Bahasa]( - 大型,免費的語義詞典。

### 函式庫與嵌入
- 自然語言工具包 [bahasa](
- [印尼語嵌入](
- 預訓練的訓練 [印尼 fastText 文本嵌入]( 的維基百科。

## 其他語言


- 俄語: [pymorphy2]( - - 俄語好的詞性標記。
- 亞洲語言: ElasticSearch 中的泰語,老撾語,中文,日語和韓語 [ICU Tokenizer]( 實現。
- 古代語言: [CLTK]( 古典語言工具包是一個 Python 函式庫和用於在古代語言中進行自然語言處理的文本集合。
- Dutch: [python-frog]( - Python 綁定到 Frog,一個荷蘭語的自然語言處理套件。(pos 標記,詞形還原,依賴解析,NER
- 希伯來語: [NLPH_Resources]( - 希伯來語自然語言處理的論文,語料庫和語言資源的集合。

## 貢獻
