Ecosyste.ms: Awesome
An open API service indexing awesome lists of open source software.
awesome-nlp
https://github.com/harddownloader/awesome-nlp
- 自然語言處理-概述
- 自然語言處理-進展
- 自然語言處理的 ImageNet 時刻已經到來
- ACL 2018 亮點: 在更具挑戰性的設置中理解表示和評估
- ACL 2017 的四個深度學習趨勢。第一部分:語言結構和詞語嵌入
- ACL 2017 的四個深度學習趨勢。第二部分:可解釋性和注意力
- 2017 年 EMNLP 的亮點:激動人心的資料集,集群的回歸與其他更多!
- 深度學習自然語言處理 (NLP): 進展與趨勢
- 自然語言生成的現狀調查
- 機器學習 101
- AI 劇本
- 繼器學習部落格
- Ruder's 部落格
- 理解和實施自然語言處理
- Hackernoon 的自然語言處理簡介 - 用他們自己的話來說。
- Vik Paruchari 的自然語言處理教學
- 自然語言處理: 一份簡介
- 使用 Pytorch 進行自然語言處理的深度學習
- 動手做 NLTK 教學 - 以
- 深度學習, 自然語言處理, 與呈現法
- 圖解 BERT, ELMo, 與 co. (自然語言處理是如何破解遷移學習的) - transformer/)
- 自然語言處理
- Radim Řehůřek 的教學
- arXiv: 自然語言處理 (大部分) 來自 Scratch
- Karpathy 的遞歸神經網絡的不合理有效性
- 人工智慧入門
- 深度學習
- 深度自然語言處理
- 自然語言處理深度學習 (cs224-n)
- 自然語言處理
- 自然語言處理的神經網路
- 統計機器翻譯 - 機器翻譯課程,具有很棒的作業和投影片。
- 使用 Python 3 進行 NLTK 自然語言處理
- 計算語言學 I
- 深度自然語言處理課程
- 語音和語言處理
- R 中的文字探勘
- Python 的自然語言處理
- Twitter-text - 使用 JavaScript 實現的 Twitter 文本處理庫。
- Knwl.js - JS中的自然語言處理器。
- Retext - 用於分析和操縱自然語言的可擴展系統。
- NLP Compromise - 瀏覽器中的自然語言處理。
- Natural - 節點的一般自然語言設施。
- Poplar - 一種基於 Web 的自然語言處理註釋工具(NLP)。
- TextBlob - 為專研常見的自然語言處理(NLP)任務提供一致的 API。 站在[自然語言工具包 (NLTK)](https://www.nltk.org/) 和 [模式](https://github.com/clips/pattern)膀上,並與兩者很好地配合 :+1:
- spaCy - 使用 Python 與 Cython 產業強度的自然語言處理 :+1:
- textacy - 在spaCy上構建的更高級別的自然與儼處理。
- gensim - 用於從純文本進行無監督語義建模的 函式庫 :+1:
- scattertext - 用於生成語料庫之間語言差異的 d3 可視化的 Python 函式庫。
- AllenNLP - 一個架構在 PyTorch 上的自然語言處理函式庫,用於開發各種語言任務最先進的深度學習模型。
- PyTorch-NLP - 自然語言處理研究工具包設計來支援快速建立更好的數據加載器,詞向量加載器,神經網路層表示,常見的自然語言處理指標(如BLEU)原型。
- Rosetta - 文本處理工具和包裝 (例如: Vowpal Wabbit)
- PyNLPl - Python 自然語言處理函式庫. 適用於 Python 的通用自然語言處理函式庫。 還包含一些用於解析常見自然語言處理格式的特定模塊, 最常見的是用於 [FoLiA](https://proycon.github.io/folia/),還包括 ARPA 語言模型,Moses 短語表,GIZA ++對齊。
- jPTDP - 用於聯合詞性(POS)標記和依賴性解析的工具包。jPTDP 提供40多種語言的預訓練模型。
- BigARTM - 一個用於主題建模的快速函式庫。
- Snips NLU - 用於意圖解析的產品就緒函式庫。
- Chazutsu - 用於下載和解析標準自然語言處理研究數據集的函式庫。
- Word Forms - Word forms 可以準確生成所有可能的英語單詞形式。
- Multilingual Latent Dirichlet Allocation (LDA) - 一種多語言和可擴展的文檔聚類管道。
- NLP Architect - 用於探索 NLP 和 NLU 最先進的深度學習拓撲和技術的函式庫。
- Flair - 一個非常簡單的框架,用於在 PyTorch 上構建最先進的多語言 NLP。包括 BERT,ELMo 和 Flair 嵌入。
- Kashgari - 簡單的,基於 Keras 的多語言自然語言處理框架,允許您在5分鐘內構建模型,用於命名實體識別(NER),詞性標註(PoS)和文本分類任務。 包括 BERT 和 word2vec 嵌入。
- MIT 資訊提取工具包 - 用於命名實體識別和關係提取的 C,C++ 和Python 工具。
- CRF++ - 條件隨機場(CRF)的開源專案,用於實現分割/標記順序數據和其他自然語言處理任務。
- CRFsuite - CRFsuite 實現用於標記順序數據的條件隨機字段(CRF)。
- BLLIP Parser - BLLIP 自然語言解析器(也稱為 Charniak-Johnson 解析器)
- colibri-core - C++ 函式庫,命令行工具和 Python 綁定用於快速且內存有效的方式提取和使用基本語言結構,如 n-gram 和 skipgrams。
- ucto - 適用於各種語言的基於 Unicode 的常規表達式標記生成器。工具和 C++函式庫。支持 FoLiA 格式。
- libfolia - 用於 [FoLiA 格式](https://proycon.github.io/folia/)的 C++ 函式庫。
- frog - 為荷蘭語開發的基於內存的自然語言處理套件:PoS 標記器,lemmatiser,依賴解析器,NER,淺層解析器,形態分析器。
- MeTA - [MeTA : ModErn Text Analysis](https://meta-toolkit.org/) 是一個 C++ 數據科學工具包,可以幫助挖掘大文本數據。
- Mecab (日文)
- Moses
- StarSpace - 一個來自 Facebook 的函式庫用於創建單詞級,段級,文檔級和文本分類的嵌入
- 斯坦福大學 NLP
- OpenNLP
- NLP4J
- Java 中的 Word2vec
- ReVerb - Scale 開放信息提取。
- OpenRegex
- CogcompNLP - 在伊利諾伊大學的認知計算組開發的核心函式庫。
- MALLET - 用於 LanguagE Toolkit 的機器學習 - 用於統計自然語言處理,文檔分類,聚類,主題建模,資訊提取和其他機器學習應用程序的文本包。
- RDRPOSTagger - 一個穩健的 POS 標記工具包(包括 Java 和 Python)以及40多種語言的預訓練模型。
- Lingua
- Kotidgy
- Saul - 用於開發自然語言處理系統的函式庫,包括內置模塊,如 SRL,POS 等。
- ATR4S - 具有最先進的[自動術語識別](https://en.wikipedia.org/wiki/Terminology_extraction)方法的工具包。
- tm - 基於正則化多語言 [PLSA](https://en.wikipedia.org/wiki/Probabilistic_latent_semantic_analysis) 的主題建模實現。
- word2vec-scala - word2vec 模型的 Scala 接口; 包括對詞距離和詞類比等向量的操作。
- Epic - Epic 是一個用 Scala 編寫的高性能統計解析器,以及用於構建複雜結構化預測模型的框架。
- text2vec - R 中的快速矢量化,主題建模,距離和 GloVe 字嵌入。
- wordVectors - 用於創建和探索 word2vec 和其他單詞嵌入模型的 R 包。
- RMallet - 與 Java 機器學習工具 MALLET 接口的 R 包。
- dfr-browser - 創建用於在 Web 瀏覽器中瀏覽文本主題模型的 d3 可視化。
- dfrtopics - 用於探索文本主題模型的 R 包。
- sentiment_classifier - 使用Word Sense Disambiguation 和 WordNet Reader 的情感分類。
- jProcessing - 日本自然語言處理庫,具有日語情感分類。
- Clojure-openNLP - Clojure 中的自然語言處理(opennlp)。
- Infections-clj - 用於 Clojure 和 ClojureScript 的類似 Rails 的變形函式庫。
- postagga - 用於解析 Clojure 和 ClojureScript 中的自然語言的函式庫。
- 自然語言處理(NLP)Ruby 函式庫,工具和軟件的集合
- Ruby 中實用的自然語言處理
- whatlang
- snips-nlu-rs - 用於意圖解析的生產就緒等級函示庫。
- Wit-ai - 應用程序和設備的自然語言界面。
- IBM Watson 的自然語意理解 - API 和 Github 演示。
- Amazon 理解 - NLP 和 ML 套件涵蓋了最常見的任務,如 NER,標記和情感分析。
- Google 雲端自然語言 API - 至少9種語言的語法分析,NER,情感分析和內容標記包括英語和中文(簡體和繁體)。
- ParallelDots - 高層次文本分析 API 服務,從情感分析到意圖分析。
- Microsoft 認知服務
- TextRazor
- Rosette
- Textalytic - 瀏覽器中的自然語言處理,包括情感分析,命名實體提取,POS標記,詞頻,主題建模,文字雲等。
- GATE - 通用架構和文本工程已有15年歷史,免費開源。
- Anafora
- brat - brat 快速註解工具是一個用於協作文本註釋的在線環境。
- tagtog
- prodigy
- LightTag - 為團隊提供託管和管理的文本註釋工具,需花 $。
- 官方實作 - under-the-hood-11efc57b2b3)|
- pdf - global-vectors-for-word-representation/) |
- 官方實作 - under-the-hood-11efc57b2b3)|
- 預訓練 fasttext 向量
- 詞向量的驚人力量
- arXiv: 高效文本分類的錦囊妙方
- 深度情境詞表示 - [PyTorch 實作](https://github.com/allenai/allennlp/blob/master/tutorials/how_to/elmo.md) - [TF 實作](https://github.com/allenai/bilm-tf)
- 通用語言模型進行文本分類微調
- 自然語言推論資料的通用語句表示監督是學習
- 在翻譯中學習: 情境詞相量
- 文件與句子的分散式表達 - technologies.com/doc2vec-tutorial/)
- sense2vec - 關於詞義消歧。
- 跳過思考象量 - 單詞表示方法。
- 自適應 skip-gram - 類似的方法,具有自適應屬性。
- 序列到序列學習 - 機器翻譯的詞向量。
- DrQA: 打開領域為題解答
- 簡單而有效的多段閱讀理解
- 用於自然語言問答的馬爾可夫邏輯網絡
- 基於模板的資訊提取沒有用到模板
- 矩陣分解與通用模式的關係提取
- Privee:自動分析Web隱私策略的體系結構
- 教學機器閱讀和理解 - DeepMind paper
- 走向形式分佈語義:用張量模擬邏輯演算
- MLN 教學的演示投影片
- MLNs 的 QA 應用演示投影片
- 演示投影片
- nlp-datasets
- UDPipe - U 文件。主要用 C++ 編寫,為多語言NLP處理提供快速可靠的解決方案。
- NLP-Cube - 句子分裂,標記化,詞形還原,詞性標註和依賴性分析。用 Dynet 2.0 用 Python 編寫的新平台。提供獨立(CLI / Python 綁定)和服務器功能(REST API)。
- KoNLPy - 用於韓語自然語言處理的Python包。
- Mecab (Korean) - 韓文的自然語言處理 C++ 函式庫
- KoalaNLP - 韓國自然語言處理的 Scala 函式庫。
- KoNLP - 韓文的自然語言處理 R 包。
- dsindex 的部落格
- 韓國江原大學的自然語言處理課程
- KAIST 語料庫 - 韓國高等科學技術研究所的語料庫。
- 韓國 Naver 情感電影語料庫
- 朝鮮日報檔案館 - 來自韓國主要報紙之一的朝鮮日報的韓文數據集。
- 多域數據集 - 阿拉伯語情感分析的最大可用多域資源。
- LABR - LArge阿拉伯書籍評論數據集。
- Arabic 停用詞 - 來自各種資源的阿拉伯語停用詞列表。
- goarabic - Go包用於阿拉伯語文本處理。
- jsastem - 用於阿拉伯詞幹的Javascript。
- PyArabic - 阿拉伯語的 Python 函式庫。
- jieba - 中文詞彙分割實用程序的 Python 包。
- SnowNLP - 中文自然語言處理 Python 包。
- FudanNLP - 用於中文文本處理的 Java 函式庫。
- 德文-自然語言處理 - 開發的開放式訪問/開源/現成資源和工具列表,特別關注德語。
- 哥倫比亞政治演說
- 哥本哈根樹庫
- 西班牙語十億字語料庫與 Word2Vec 嵌入
- 印地語依賴樹庫 - 印地語和烏爾都語的多代表性多層樹庫。
- 在印地語的普遍依賴性樹庫
- 並行通用依賴樹庫印地語 - 上述樹庫的一小部分。
- PyThaiNLP - Python 包中的泰語自然語言處理。
- JTCC - Java 中的字符集群庫。
- CutKum - 在 TensorFlow 中使用深度學習進行分詞。
- 泰語工具包 - 基於 Wirote Aroonmanakun 於2002年撰寫的一篇論文,其中包括數據集。
- SynThai - 在 Python 中使用深度學習進行分詞和 POS 標記。
- Inter-BEST - 具有500萬個單詞分詞的文本語料庫。
- Prime Minister 29 - 數據集包含現任泰國總理的演講。
- 丹麥的命名實體識別
- 越南樹庫 - 選區解析任務的10,000個句子。
- BKTreeBank - 越南依賴樹庫。
- UD_Vietnamese - 越南通用依賴樹庫。
- VIVOS - 一個免費的越南語言語料庫,由 AILab 的15小時錄音講話組成。
- VNTQcorpus(big).txt - 新聞中的175萬句話。
- underthesea - 越南自然語言處理工具包。
- vn.vitk - 越南文本處理工具包。
- VnCoreNLP - 越南自然語言處理工具包。
- ILPS
- 用於PoS標記的PANL10N
- 用於PoS標記的IDN
- 印度尼西亞樹庫 - 印度尼西亞語](https://github.com/UniversalDependencies/UD_Indonesian-GSD)
- IndoSum
- Wordnet-Bahasa - 大型,免費的語義詞典。
- bahasa
- 印尼語嵌入
- 印尼 fastText 文本嵌入
- pymorphy2 - - 俄語好的詞性標記。
- ICU Tokenizer
- CLTK
- python-frog - Python 綁定到 Frog,一個荷蘭語的自然語言處理套件。(pos 標記,詞形還原,依賴解析,NER
- NLPH_Resources - 希伯來語自然語言處理的論文,語料庫和語言資源的集合。
Programming Languages
Keywords
nlp
40
natural-language-processing
32
machine-learning
16
python
13
nlp-library
9
named-entity-recognition
9
java
7
deep-learning
7
computational-linguistics
7
word-embeddings
6
ner
6
pos-tagging
5
dependency-parsing
5
text-classification
5
library
4
ai
4
spanish
4
text-processing
4
folia
4
nlu
4
c-plus-plus
4
pytorch
4
dependency-parser
4
pos-tagger
4
text-mining
4
embeddings
4
information-extraction
3
sentiment-analysis
3
topic-modeling
3
language
3
word2vec
3
spacy
3
part-of-speech-tagger
3
spanish-language
3
neural-network
3
natural-language-understanding
3
linguistics
3
thai-nlp
2
word-segmentation
2
kotlin
2
sentence-segmentation
2
vietnamese
2
vietnamese-nlp
2
vietnamese-tokenizer
2
word-segmenter
2
scala
2
machine-learning-library
2
stemmer
2
transfer-learning
2
inference
2