{"id":21994519,"url":"https://github.com/codelibs/elasticsearch-analysis-extension","last_synced_at":"2025-04-30T17:02:26.967Z","repository":{"id":41259760,"uuid":"140343142","full_name":"codelibs/elasticsearch-analysis-extension","owner":"codelibs","description":"Elasticsearch Plugin for Analysis Library","archived":false,"fork":false,"pushed_at":"2024-04-15T12:33:15.000Z","size":216,"stargazers_count":5,"open_issues_count":0,"forks_count":2,"subscribers_count":11,"default_branch":"master","last_synced_at":"2024-04-16T18:17:26.911Z","etag":null,"topics":[],"latest_commit_sha":null,"homepage":"","language":"Java","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":"apache-2.0","status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/codelibs.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":"LICENSE","code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null,"dei":null,"publiccode":null,"codemeta":null}},"created_at":"2018-07-09T21:17:38.000Z","updated_at":"2024-06-06T12:28:49.654Z","dependencies_parsed_at":"2024-04-15T13:35:40.745Z","dependency_job_id":"6f06343d-49ff-4486-b91b-1d0b9e1e3e20","html_url":"https://github.com/codelibs/elasticsearch-analysis-extension","commit_stats":null,"previous_names":[],"tags_count":74,"template":false,"template_full_name":null,"repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/codelibs%2Felasticsearch-analysis-extension","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/codelibs%2Felasticsearch-analysis-extension/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/codelibs%2Felasticsearch-analysis-extension/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/codelibs%2Felasticsearch-analysis-extension/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/codelibs","download_url":"https://codeload.github.com/codelibs/elasticsearch-analysis-extension/tar.gz/refs/heads/master","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":251748929,"owners_count":21637413,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":[],"created_at":"2024-11-29T21:09:33.295Z","updated_at":"2025-04-30T17:02:26.196Z","avatar_url":"https://github.com/codelibs.png","language":"Java","funding_links":[],"categories":[],"sub_categories":[],"readme":"Elasticsearch Analysis Extension\n[![Java CI with Maven](https://github.com/codelibs/elasticsearch-analysis-extension/actions/workflows/maven.yml/badge.svg)](https://github.com/codelibs/elasticsearch-analysis-extension/actions/workflows/maven.yml)\n=======================\n\n## Overview\n\nElasticsearch Analysis Extension Plugin provides Tokenizer/CharFilter/TokenFilter.\n\n## Version\n\n[Versions in Maven Repository](https://repo1.maven.org/maven2/org/codelibs/elasticsearch-analysis-extension/)\n\n### Issues/Questions\n\nPlease file an [issue](https://github.com/codelibs/elasticsearch-analysis-extension/issues \"issue\").\n\n## Installation\n\n    $ $ES_HOME/bin/elasticsearch-plugin install org.codelibs:elasticsearch-analysis-extension:6.3.1\n\n## References\n\n### IterationMarkCharFilter (Char Filter)\n\nIterationMarkCharFilter normalizes an iteration mark charcter. \nFor example, this char filter replaces \"学問のすゝめ\" with \"学問のすすめ\".\nThe property name is \"iteration_mark\".\n\n    curl -XPUT 'http://localhost:9200/sample/' -d'\n    {\n        \"settings\": {\n            \"index\":{\n                \"analysis\":{\n                    \"tokenizer\" : {\n                        \"kuromoji_user_dict\" : {\n                            \"type\" : \"kuromoji_tokenizer\",\n                            \"mode\" : \"extended\"\n                        }\n                    },\n                    \"analyzer\" : {\n                        \"my_analyzer\" : {\n                            \"type\" : \"custom\",\n                            \"tokenizer\" : \"kuromoji_user_dict\",\n                            \"char_filter\":[\"iteration_mark\"]\n                        }\n                    }\n                }\n            }\n        }\n    }'\n\n### ProlongedSoundMarkCharFilter (Char Filter)\n\nProlongedSoundMarkCharFilter replaces the following prolonged sound mark charcters with '\\u30fc' (KATAKANA-HIRAGANA SOUND MARK).\n\n| Unicode | Name |\n|:-----:|:-----|\n| U002D | HYPHEN-MINUS |\n| UFF0D | FULLWIDTH HYPHEN-MINUS |\n| U2010 | HYPHEN |\n| U2011 | NON-BREAKING HYPHEN |\n| U2012 | FIGURE DASH |\n| U2013 | EN DASH |\n| U2014 | EM DASH |\n| U2015 | HORIZONTAL BAR |\n| U207B | SUPERSCRIPT MINUS |\n| U208B | SUBSCRIPT MINUS |\n| U30FC | KATAKANA-HIRAGANA SOUND MARK |\n\nThis char filter name is \"prolonged_sound_mark\" as below.\n\n    curl -XPUT 'http://localhost:9200/sample/' -d'\n    {\n        \"settings\": {\n            \"index\":{\n                \"analysis\":{\n                    \"tokenizer\" : {\n                        \"kuromoji_user_dict\" : {\n                            \"type\" : \"kuromoji_tokenizer\",\n                            \"mode\" : \"extended\"\n                        }\n                    },\n                    \"analyzer\" : {\n                        \"my_analyzer\" : {\n                            \"type\" : \"custom\",\n                            \"tokenizer\" : \"kuromoji_user_dict\",\n                            \"char_filter\":[\"prolonged_sound_mark\"]\n                        }\n                    }\n                }\n            }\n        }\n    }'\n\n### KanjiNumberFilter (TokenFilter)\n\nKanjiNumberFilter relaces Kanji number character(ex. \"一\") with a number character(ex. \"1\").\nThis token filter name is \"kanji_number\".\n\n    curl -XPUT 'http://localhost:9200/sample/' -d'\n    {\n        \"settings\": {\n            \"index\":{\n                \"analysis\":{\n                    \"tokenizer\" : {\n                        \"kuromoji_user_dict\" : {\n                            \"type\" : \"kuromoji_tokenizer\",\n                            \"mode\" : \"extended\"\n                        }\n                    },\n                    \"analyzer\" : {\n                        \"my_analyzer\" : {\n                            \"type\" : \"custom\",\n                            \"tokenizer\" : \"kuromoji_user_dict\",\n                            \"filter\":[\"kanji_number\"]\n                        }\n                    }\n                }\n            }\n        }\n    }'\n\n### CharTypeFilter (TokenFilter)\n\nCharTypeFilter keeps tokens which contains \"alphabetic\", \"digit\" or \"letter\" character.\nThe following setting is that tokens which contain \"letter\" character are kept(only \"digit\" token is removed).\n\n    curl -XPUT 'http://localhost:9200/sample/' -d'\n    {\n        \"settings\": {\n            \"index\":{\n                \"analysis\":{\n                    ...,\n                    \"filter\" : {\n                        \"letter_filter\" : {\n                            \"type\" : \"char_type\",\n                            \"digit\" : false\n                        }\n                    },\n                    \"analyzer\" : {\n                        \"my_analyzer\" : {\n                            \"type\" : \"custom\",\n                            \"tokenizer\" : \"kuromoji_user_dict\",\n                            \"filter\":[\"letter_filter\"]\n                        }\n                    }\n                }\n            }\n        }\n    }'\n\n\"alphabetic\", \"digit\" and \"letter\" property are true as default.\n\n| Token  | None   | digit:false | letter:false | \n|:-------|:------:|:-----------:|:------------:|\n| abc    | keep   | keep        | keep         |\n| ab1    | keep   | keep        | keep         |\n| abあ   | keep   | keep        | keep         |\n| 123    | keep   | remove      | keep         |\n| 12あ   | keep   | keep        | keep         |\n| あいう | keep   | keep        | remove       |\n| #-=    | remove | remove      | remove       |\n\n### NumberConcatenationFilter\n\nNumberConcatenationFilter concatenates a token followed by a number.\nFor example, \"10\" and \"years\" are converted to \"10years\".\n\n    curl -XPUT 'http://localhost:9200/sample/' -d'\n    {\n        \"settings\": {\n            \"index\":{\n                \"analysis\":{\n                    ...,\n                    \"filter\" : {\n                        \"numconcat_filter\" : {\n                            \"type\" : \"number_concat\",\n                            \"suffix_words_path\" : \"suffix.txt\"\n                        }\n                    },\n                    \"analyzer\" : {\n                        \"my_analyzer\" : {\n                            \"type\" : \"custom\",\n                            \"tokenizer\" : \"kuromoji_user_dict\",\n                            \"filter\":[\"numconcat_filter\"]\n                        }\n                    }\n                }\n            }\n        }\n    }'\n\n### PatternConcatenationFilter\n\nPatternConcatenationFilter concatenates 2 token matched with pattern1 and pattern2.\nFor example, \"10\" and \"years\" are converted to \"10years\".\n\n    curl -XPUT 'http://localhost:9200/sample/' -d'\n    {\n        \"settings\": {\n            \"index\":{\n                \"analysis\":{\n                    ...,\n                    \"filter\" : {\n                        \"patternconcat_filter\" : {\n                            \"type\" : \"pattern_concat\",\n                            \"pattern1\" : \"[0-9]+\",\n                            \"pattern2\" : \"year(s)?\"\n                        }\n                    },\n                    \"analyzer\" : {\n                        \"my_analyzer\" : {\n                            \"type\" : \"custom\",\n                            \"tokenizer\" : \"kuromoji_user_dict\",\n                            \"filter\":[\"patternconcat_filter\"]\n                        }\n                    }\n                }\n            }\n        }\n    }'\n\n\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fcodelibs%2Felasticsearch-analysis-extension","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Fcodelibs%2Felasticsearch-analysis-extension","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fcodelibs%2Felasticsearch-analysis-extension/lists"}