Ecosyste.ms: Awesome

An open API service indexing awesome lists of open source software.

awesome-nlp

https://github.com/harddownloader/awesome-nlp

自然語言處理-概述
自然語言處理-進展
自然語言處理的 ImageNet 時刻已經到來
ACL 2018 亮點: 在更具挑戰性的設置中理解表示和評估
ACL 2017 的四個深度學習趨勢。第一部分：語言結構和詞語嵌入
ACL 2017 的四個深度學習趨勢。第二部分：可解釋性和注意力
2017 年 EMNLP 的亮點：激動人心的資料集，集群的回歸與其他更多！
深度學習自然語言處理 (NLP): 進展與趨勢
自然語言生成的現狀調查
機器學習 101
AI 劇本
繼器學習部落格
Ruder's 部落格
理解和實施自然語言處理
Hackernoon 的自然語言處理簡介 - 用他們自己的話來說。
Vik Paruchari 的自然語言處理教學
自然語言處理: 一份簡介
使用 Pytorch 進行自然語言處理的深度學習
動手做 NLTK 教學 - 以
深度學習, 自然語言處理, 與呈現法
圖解 BERT, ELMo, 與 co. (自然語言處理是如何破解遷移學習的) - transformer/)
自然語言處理
Radim Řehůřek 的教學
arXiv: 自然語言處理 (大部分) 來自 Scratch
Karpathy 的遞歸神經網絡的不合理有效性
人工智慧入門
深度學習
深度自然語言處理
自然語言處理深度學習 (cs224-n)
自然語言處理
自然語言處理的神經網路
統計機器翻譯 - 機器翻譯課程，具有很棒的作業和投影片。
使用 Python 3 進行 NLTK 自然語言處理
計算語言學 I
深度自然語言處理課程
語音和語言處理
R 中的文字探勘
Python 的自然語言處理
Twitter-text - 使用 JavaScript 實現的 Twitter 文本處理庫。
Knwl.js - JS中的自然語言處理器。
Retext - 用於分析和操縱自然語言的可擴展系統。
NLP Compromise - 瀏覽器中的自然語言處理。
Natural - 節點的一般自然語言設施。
Poplar - 一種基於 Web 的自然語言處理註釋工具（NLP）。
TextBlob - 為專研常見的自然語言處理（NLP）任務提供一致的 API。站在[自然語言工具包 (NLTK)](https://www.nltk.org/) 和 [模式](https://github.com/clips/pattern)膀上，並與兩者很好地配合 :+1:
spaCy - 使用 Python 與 Cython 產業強度的自然語言處理 :+1:
textacy - 在spaCy上構建的更高級別的自然與儼處理。
gensim - 用於從純文本進行無監督語義建模的函式庫 :+1:
scattertext - 用於生成語料庫之間語言差異的 d3 可視化的 Python 函式庫。
AllenNLP - 一個架構在 PyTorch 上的自然語言處理函式庫，用於開發各種語言任務最先進的深度學習模型。
PyTorch-NLP - 自然語言處理研究工具包設計來支援快速建立更好的數據加載器，詞向量加載器，神經網路層表示，常見的自然語言處理指標（如BLEU）原型。
Rosetta - 文本處理工具和包裝 (例如： Vowpal Wabbit)
PyNLPl - Python 自然語言處理函式庫. 適用於 Python 的通用自然語言處理函式庫。還包含一些用於解析常見自然語言處理格式的特定模塊, 最常見的是用於 [FoLiA](https://proycon.github.io/folia/)，還包括 ARPA 語言模型，Moses 短語表，GIZA ++對齊。
jPTDP - 用於聯合詞性（POS）標記和依賴性解析的工具包。jPTDP 提供40多種語言的預訓練模型。
BigARTM - 一個用於主題建模的快速函式庫。
Snips NLU - 用於意圖解析的產品就緒函式庫。
Chazutsu - 用於下載和解析標準自然語言處理研究數據集的函式庫。
Word Forms - Word forms 可以準確生成所有可能的英語單詞形式。
Multilingual Latent Dirichlet Allocation (LDA) - 一種多語言和可擴展的文檔聚類管道。
NLP Architect - 用於探索 NLP 和 NLU 最先進的深度學習拓撲和技術的函式庫。
Flair - 一個非常簡單的框架，用於在 PyTorch 上構建最先進的多語言 NLP。包括 BERT，ELMo 和 Flair 嵌入。
Kashgari - 簡單的，基於 Keras 的多語言自然語言處理框架，允許您在5分鐘內構建模型，用於命名實體識別（NER），詞性標註（PoS）和文本分類任務。包括 BERT 和 word2vec 嵌入。
MIT 資訊提取工具包 - 用於命名實體識別和關係提取的 C，C++ 和Python 工具。
CRF++ - 條件隨機場（CRF）的開源專案，用於實現分割/標記順序數據和其他自然語言處理任務。
CRFsuite - CRFsuite 實現用於標記順序數據的條件隨機字段（CRF）。
BLLIP Parser - BLLIP 自然語言解析器（也稱為 Charniak-Johnson 解析器）
colibri-core - C++ 函式庫，命令行工具和 Python 綁定用於快速且內存有效的方式提取和使用基本語言結構，如 n-gram 和 skipgrams。
ucto - 適用於各種語言的基於 Unicode 的常規表達式標記生成器。工具和 C++函式庫。支持 FoLiA 格式。
libfolia - 用於 [FoLiA 格式](https://proycon.github.io/folia/)的 C++ 函式庫。
frog - 為荷蘭語開發的基於內存的自然語言處理套件：PoS 標記器，lemmatiser，依賴解析器，NER，淺層解析器，形態分析器。
MeTA - [MeTA : ModErn Text Analysis](https://meta-toolkit.org/) 是一個 C++ 數據科學工具包，可以幫助挖掘大文本數據。
Mecab (日文)
Moses
StarSpace - 一個來自 Facebook 的函式庫用於創建單詞級，段級，文檔級和文本分類的嵌入
斯坦福大學 NLP
OpenNLP
NLP4J
Java 中的 Word2vec
ReVerb - Scale 開放信息提取。
OpenRegex
CogcompNLP - 在伊利諾伊大學的認知計算組開發的核心函式庫。
MALLET - 用於 LanguagE Toolkit 的機器學習 - 用於統計自然語言處理，文檔分類，聚類，主題建模，資訊提取和其他機器學習應用程序的文本包。
RDRPOSTagger - 一個穩健的 POS 標記工具包（包括 Java 和 Python）以及40多種語言的預訓練模型。
Lingua
Kotidgy
Saul - 用於開發自然語言處理系統的函式庫，包括內置模塊，如 SRL，POS 等。
ATR4S - 具有最先進的[自動術語識別](https://en.wikipedia.org/wiki/Terminology_extraction)方法的工具包。
tm - 基於正則化多語言 [PLSA](https://en.wikipedia.org/wiki/Probabilistic_latent_semantic_analysis) 的主題建模實現。
word2vec-scala - word2vec 模型的 Scala 接口; 包括對詞距離和詞類比等向量的操作。
Epic - Epic 是一個用 Scala 編寫的高性能統計解析器，以及用於構建複雜結構化預測模型的框架。
text2vec - R 中的快速矢量化，主題建模，距離和 GloVe 字嵌入。
wordVectors - 用於創建和探索 word2vec 和其他單詞嵌入模型的 R 包。
RMallet - 與 Java 機器學習工具 MALLET 接口的 R 包。
dfr-browser - 創建用於在 Web 瀏覽器中瀏覽文本主題模型的 d3 可視化。
dfrtopics - 用於探索文本主題模型的 R 包。
sentiment_classifier - 使用Word Sense Disambiguation 和 WordNet Reader 的情感分類。
jProcessing - 日本自然語言處理庫，具有日語情感分類。
Clojure-openNLP - Clojure 中的自然語言處理（opennlp）。
Infections-clj - 用於 Clojure 和 ClojureScript 的類似 Rails 的變形函式庫。
postagga - 用於解析 Clojure 和 ClojureScript 中的自然語言的函式庫。
自然語言處理（NLP）Ruby 函式庫，工具和軟件的集合
Ruby 中實用的自然語言處理
whatlang
snips-nlu-rs - 用於意圖解析的生產就緒等級函示庫。
Wit-ai - 應用程序和設備的自然語言界面。
IBM Watson 的自然語意理解 - API 和 Github 演示。
Amazon 理解 - NLP 和 ML 套件涵蓋了最常見的任務，如 NER，標記和情感分析。
Google 雲端自然語言 API - 至少9種語言的語法分析，NER，情感分析和內容標記包括英語和中文（簡體和繁體）。
ParallelDots - 高層次文本分析 API 服務，從情感分析到意圖分析。
Microsoft 認知服務
TextRazor
Rosette
Textalytic - 瀏覽器中的自然語言處理，包括情感分析，命名實體提取，POS標記，詞頻，主題建模，文字雲等。
GATE - 通用架構和文本工程已有15年歷史，免費開源。
Anafora
brat - brat 快速註解工具是一個用於協作文本註釋的在線環境。
tagtog
prodigy
LightTag - 為團隊提供託管和管理的文本註釋工具，需花 $。
官方實作 - under-the-hood-11efc57b2b3)|
pdf - global-vectors-for-word-representation/) |
官方實作 - under-the-hood-11efc57b2b3)|
預訓練 fasttext 向量
詞向量的驚人力量
arXiv: 高效文本分類的錦囊妙方
深度情境詞表示 - [PyTorch 實作](https://github.com/allenai/allennlp/blob/master/tutorials/how_to/elmo.md) - [TF 實作](https://github.com/allenai/bilm-tf)
通用語言模型進行文本分類微調
自然語言推論資料的通用語句表示監督是學習
在翻譯中學習: 情境詞相量
文件與句子的分散式表達 - technologies.com/doc2vec-tutorial/)
sense2vec - 關於詞義消歧。
跳過思考象量 - 單詞表示方法。
自適應 skip-gram - 類似的方法，具有自適應屬性。
序列到序列學習 - 機器翻譯的詞向量。
DrQA: 打開領域為題解答
簡單而有效的多段閱讀理解
用於自然語言問答的馬爾可夫邏輯網絡
基於模板的資訊提取沒有用到模板
矩陣分解與通用模式的關係提取
Privee：自動分析Web隱私策略的體系結構
教學機器閱讀和理解 - DeepMind paper
走向形式分佈語義：用張量模擬邏輯演算
MLN 教學的演示投影片
MLNs 的 QA 應用演示投影片
演示投影片
nlp-datasets
UDPipe - U 文件。主要用 C++ 編寫，為多語言NLP處理提供快速可靠的解決方案。
NLP-Cube - 句子分裂，標記化，詞形還原，詞性標註和依賴性分析。用 Dynet 2.0 用 Python 編寫的新平台。提供獨立（CLI / Python 綁定）和服務器功能（REST API）。
KoNLPy - 用於韓語自然語言處理的Python包。
Mecab (Korean) - 韓文的自然語言處理 C++ 函式庫
KoalaNLP - 韓國自然語言處理的 Scala 函式庫。
KoNLP - 韓文的自然語言處理 R 包。
dsindex 的部落格
韓國江原大學的自然語言處理課程
KAIST 語料庫 - 韓國高等科學技術研究所的語料庫。
韓國 Naver 情感電影語料庫
朝鮮日報檔案館 - 來自韓國主要報紙之一的朝鮮日報的韓文數據集。
多域數據集 - 阿拉伯語情感分析的最大可用多域資源。
LABR - LArge阿拉伯書籍評論數據集。
Arabic 停用詞 - 來自各種資源的阿拉伯語停用詞列表。
goarabic - Go包用於阿拉伯語文本處理。
jsastem - 用於阿拉伯詞幹的Javascript。
PyArabic - 阿拉伯語的 Python 函式庫。
jieba - 中文詞彙分割實用程序的 Python 包。
SnowNLP - 中文自然語言處理 Python 包。
FudanNLP - 用於中文文本處理的 Java 函式庫。
德文-自然語言處理 - 開發的開放式訪問/開源/現成資源和工具列表，特別關注德語。
哥倫比亞政治演說
哥本哈根樹庫
西班牙語十億字語料庫與 Word2Vec 嵌入
印地語依賴樹庫 - 印地語和烏爾都語的多代表性多層樹庫。
在印地語的普遍依賴性樹庫
並行通用依賴樹庫印地語 - 上述樹庫的一小部分。
PyThaiNLP - Python 包中的泰語自然語言處理。
JTCC - Java 中的字符集群庫。
CutKum - 在 TensorFlow 中使用深度學習進行分詞。
泰語工具包 - 基於 Wirote Aroonmanakun 於2002年撰寫的一篇論文，其中包括數據集。
SynThai - 在 Python 中使用深度學習進行分詞和 POS 標記。
Inter-BEST - 具有500萬個單詞分詞的文本語料庫。
Prime Minister 29 - 數據集包含現任泰國總理的演講。
丹麥的命名實體識別
越南樹庫 - 選區解析任務的10,000個句子。
BKTreeBank - 越南依賴樹庫。
UD_Vietnamese - 越南通用依賴樹庫。
VIVOS - 一個免費的越南語言語料庫，由 AILab 的15小時錄音講話組成。
VNTQcorpus(big).txt - 新聞中的175萬句話。
underthesea - 越南自然語言處理工具包。
vn.vitk - 越南文本處理工具包。
VnCoreNLP - 越南自然語言處理工具包。
ILPS
用於PoS標記的PANL10N
用於PoS標記的IDN
印度尼西亞樹庫 - 印度尼西亞語](https://github.com/UniversalDependencies/UD_Indonesian-GSD)
IndoSum
Wordnet-Bahasa - 大型，免費的語義詞典。
bahasa
印尼語嵌入
印尼 fastText 文本嵌入
pymorphy2 - - 俄語好的詞性標記。
ICU Tokenizer
CLTK
python-frog - Python 綁定到 Frog，一個荷蘭語的自然語言處理套件。（pos 標記，詞形還原，依賴解析，NER
NLPH_Resources - 希伯來語自然語言處理的論文，語料庫和語言資源的集合。

Programming Languages

Python 35 JavaScript 10 C++ 10 Java 7 HTML 5 Jupyter Notebook 4 Scala 4 R 4 OpenEdge ABL 2 Clojure 2

Keywords

nlp 40 natural-language-processing 32 machine-learning 16 python 13 nlp-library 9 named-entity-recognition 9 java 7 deep-learning 7 computational-linguistics 7 word-embeddings 6 ner 6 pos-tagging 5 dependency-parsing 5 text-classification 5 library 4 ai 4 spanish 4 text-processing 4 folia 4 nlu 4 c-plus-plus 4 pytorch 4 dependency-parser 4 pos-tagger 4 text-mining 4 embeddings 4 information-extraction 3 sentiment-analysis 3 topic-modeling 3 language 3 word2vec 3 spacy 3 part-of-speech-tagger 3 spanish-language 3 neural-network 3 natural-language-understanding 3 linguistics 3 thai-nlp 2 word-segmentation 2 kotlin 2 sentence-segmentation 2 vietnamese 2 vietnamese-nlp 2 vietnamese-tokenizer 2 word-segmenter 2 scala 2 machine-learning-library 2 stemmer 2 transfer-learning 2 inference 2