Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
awesome-nlp
📖 A curated list of resources dedicated to Natural Language Processing (NLP)
https://github.com/eric-erki/awesome-nlp
Last synced: 3 days ago
JSON representation
-
教學
-
閱讀內容
-
影片和課程
- 統計機器翻譯 - 機器翻譯課程,具有很棒的作業和投影片。
- 深度自然語言處理課程
- 深度自然語言處理
- 人工智慧入門
- 深度學習
- 自然語言處理深度學習 (cs224-n)
- 自然語言處理
- 自然語言處理的神經網路
-
書籍
-
-
函式庫
-
書籍
- Retext - 用於分析和操縱自然語言的可擴展系統。
- NLP Compromise - 瀏覽器中的自然語言處理。
- Natural - 節點的一般自然語言設施。
- Poplar - 一種基於 Web 的自然語言處理註釋工具(NLP)。
- spaCy - 使用 Python 與 Cython 產業強度的自然語言處理 :+1:
- textacy - 在spaCy上構建的更高級別的自然與儼處理。
- scattertext - 用於生成語料庫之間語言差異的 d3 可視化的 Python 函式庫。
- AllenNLP - 一個架構在 PyTorch 上的自然語言處理函式庫,用於開發各種語言任務最先進的深度學習模型。
- PyTorch-NLP - 自然語言處理研究工具包設計來支援快速建立更好的數據加載器,詞向量加載器,神經網路層表示,常見的自然語言處理指標(如BLEU)原型。
- Rosetta - 文本處理工具和包裝 (例如: Vowpal Wabbit)
- PyNLPl - Python 自然語言處理函式庫. 適用於 Python 的通用自然語言處理函式庫。 還包含一些用於解析常見自然語言處理格式的特定模塊, 最常見的是用於 [FoLiA](https://proycon.github.io/folia/),還包括 ARPA 語言模型,Moses 短語表,GIZA ++對齊。
- jPTDP - 用於聯合詞性(POS)標記和依賴性解析的工具包。jPTDP 提供40多種語言的預訓練模型。
- BigARTM - 一個用於主題建模的快速函式庫。
- Snips NLU - 用於意圖解析的產品就緒函式庫。
- Chazutsu - 用於下載和解析標準自然語言處理研究數據集的函式庫。
- Word Forms - Word forms 可以準確生成所有可能的英語單詞形式。
- Multilingual Latent Dirichlet Allocation (LDA) - 一種多語言和可擴展的文檔聚類管道。
- NLP Architect - 用於探索 NLP 和 NLU 最先進的深度學習拓撲和技術的函式庫。
- Kashgari - 簡單的,基於 Keras 的多語言自然語言處理框架,允許您在5分鐘內構建模型,用於命名實體識別(NER),詞性標註(PoS)和文本分類任務。 包括 BERT 和 word2vec 嵌入。
- MIT 資訊提取工具包 - 用於命名實體識別和關係提取的 C,C++ 和Python 工具。
- CRF++ - 條件隨機場(CRF)的開源專案,用於實現分割/標記順序數據和其他自然語言處理任務。
- BLLIP Parser - BLLIP 自然語言解析器(也稱為 Charniak-Johnson 解析器)
- colibri-core - C++ 函式庫,命令行工具和 Python 綁定用於快速且內存有效的方式提取和使用基本語言結構,如 n-gram 和 skipgrams。
- ucto - 適用於各種語言的基於 Unicode 的常規表達式標記生成器。工具和 C++函式庫。支持 FoLiA 格式。
- libfolia - 用於 [FoLiA 格式](https://proycon.github.io/folia/)的 C++ 函式庫。
- frog - 為荷蘭語開發的基於內存的自然語言處理套件:PoS 標記器,lemmatiser,依賴解析器,NER,淺層解析器,形態分析器。
- MeTA - [MeTA : ModErn Text Analysis](https://meta-toolkit.org/) 是一個 C++ 數據科學工具包,可以幫助挖掘大文本數據。
- Mecab (日文)
- StarSpace - 一個來自 Facebook 的函式庫用於創建單詞級,段級,文檔級和文本分類的嵌入
- NLP4J
- ReVerb - Scale 開放信息提取。
- OpenRegex
- CogcompNLP - 在伊利諾伊大學的認知計算組開發的核心函式庫。
- RDRPOSTagger - 一個穩健的 POS 標記工具包(包括 Java 和 Python)以及40多種語言的預訓練模型。
- Lingua
- Kotidgy
- Saul - 用於開發自然語言處理系統的函式庫,包括內置模塊,如 SRL,POS 等。
- ATR4S - 具有最先進的[自動術語識別](https://en.wikipedia.org/wiki/Terminology_extraction)方法的工具包。
- tm - 基於正則化多語言 [PLSA](https://en.wikipedia.org/wiki/Probabilistic_latent_semantic_analysis) 的主題建模實現。
- word2vec-scala - word2vec 模型的 Scala 接口; 包括對詞距離和詞類比等向量的操作。
- Epic - Epic 是一個用 Scala 編寫的高性能統計解析器,以及用於構建複雜結構化預測模型的框架。
- text2vec - R 中的快速矢量化,主題建模,距離和 GloVe 字嵌入。
- wordVectors - 用於創建和探索 word2vec 和其他單詞嵌入模型的 R 包。
- RMallet - 與 Java 機器學習工具 MALLET 接口的 R 包。
- dfr-browser - 創建用於在 Web 瀏覽器中瀏覽文本主題模型的 d3 可視化。
- dfrtopics - 用於探索文本主題模型的 R 包。
- sentiment_classifier - 使用Word Sense Disambiguation 和 WordNet Reader 的情感分類。
- jProcessing - 日本自然語言處理庫,具有日語情感分類。
- Clojure-openNLP - Clojure 中的自然語言處理(opennlp)。
- Infections-clj - 用於 Clojure 和 ClojureScript 的類似 Rails 的變形函式庫。
- postagga - 用於解析 Clojure 和 ClojureScript 中的自然語言的函式庫。
- 自然語言處理(NLP)Ruby 函式庫,工具和軟件的集合
- whatlang
- snips-nlu-rs - 用於意圖解析的生產就緒等級函示庫。
- Twitter-text - 使用 JavaScript 實現的 Twitter 文本處理庫。
- CRFsuite - CRFsuite 實現用於標記順序數據的條件隨機字段(CRF)。
- Ruby 中實用的自然語言處理
- gensim - 用於從純文本進行無監督語義建模的 函式庫 :+1:
- 斯坦福大學 NLP
- OpenNLP
-
服務
- Wit-ai - 應用程序和設備的自然語言界面。
- IBM Watson 的自然語意理解 - API 和 Github 演示。
- Amazon 理解 - NLP 和 ML 套件涵蓋了最常見的任務,如 NER,標記和情感分析。
- ParallelDots - 高層次文本分析 API 服務,從情感分析到意圖分析。
- TextRazor
- Textalytic - 瀏覽器中的自然語言處理,包括情感分析,命名實體提取,POS標記,詞頻,主題建模,文字雲等。
-
註釋工具
-
-
技術
-
文本嵌入
- 官方實作 - under-the-hood-11efc57b2b3)|
- pdf - global-vectors-for-word-representation/) |
- 預訓練 fasttext 向量
- 詞向量的驚人力量
- arXiv: 高效文本分類的錦囊妙方
- 深度情境詞表示 - [PyTorch 實作](https://github.com/allenai/allennlp/blob/master/tutorials/how_to/elmo.md) - [TF 實作](https://github.com/allenai/bilm-tf)
- 通用語言模型進行文本分類微調
- 自然語言推論資料的通用語句表示監督是學習
- 在翻譯中學習: 情境詞相量
- 文件與句子的分散式表達 - technologies.com/doc2vec-tutorial/)
- sense2vec - 關於詞義消歧。
- 跳過思考象量 - 單詞表示方法。
- 自適應 skip-gram - 類似的方法,具有自適應屬性。
-
回答問題與知識提取
-
-
多語言自然語言處理框架
-
資料集
-
回答問題與知識提取
-
-
自然語言處理-韓文
-
函式庫
- KoalaNLP - 韓國自然語言處理的 Scala 函式庫。
- Mecab (Korean) - 韓文的自然語言處理 C++ 函式庫
-
資料集
- 韓國 Naver 情感電影語料庫
- KAIST 語料庫 - 韓國高等科學技術研究所的語料庫。
- 朝鮮日報檔案館 - 來自韓國主要報紙之一的朝鮮日報的韓文數據集。
-
部落格與教學
-
-
自然語言處理-阿拉伯語
-
自然語言處理-中文
-
自然語言處理-德文
-
函式庫
- 德文-自然語言處理 - 開發的開放式訪問/開源/現成資源和工具列表,特別關注德語。
-
-
自然語言處理-西班牙語
-
研究摘要和趨勢
-
自然語言處理-泰語
-
資料
- Inter-BEST - 具有500萬個單詞分詞的文本語料庫。
- Prime Minister 29 - 數據集包含現任泰國總理的演講。
-
-
自然語言處理-越南語
-
資料
- BKTreeBank - 越南依賴樹庫。
- VIVOS - 一個免費的越南語言語料庫,由 AILab 的15小時錄音講話組成。
-
-
其他語言
-
函式庫與嵌入
-
-
自然語言處理-印度語
-
資料, 文集與樹庫
- 印地語依賴樹庫 - 印地語和烏爾都語的多代表性多層樹庫。
- 在印地語的普遍依賴性樹庫
-
-
自然語言處理-印度尼西亞
-
資料集
-
函式庫與嵌入
-
Programming Languages
Categories
Sub Categories
Keywords
nlp
27
natural-language-processing
21
machine-learning
14
python
9
computational-linguistics
7
named-entity-recognition
6
nlp-library
6
deep-learning
5
java
5
text-classification
5
text-mining
4
pos-tagger
4
text-processing
4
c-plus-plus
4
library
4
folia
4
ai
3
part-of-speech-tagger
3
dependency-parsing
3
information-extraction
3
pos-tagging
3
dependency-parser
3
ner
3
nlu
3
topic-modeling
3
neural-network
3
word-embeddings
3
pytorch
3
sentiment-analysis
2
word-sense-disambiguation
2
wsd
2
parser
2
language
2
scala
2
inference
2
kotlin
2
pos-tag
2
language-recognition
2
word2vec
2
dataset
2
embeddings
2
text-analysis
2
linguistics
2
lemmatization
2
latent-dirichlet-allocation
2
nlp-machine-learning
2
bert
2
ruby
2
lemmatizer
2
natural-language
2