{"id":21075301,"url":"https://github.com/burcgokden/bert-subword-tokenizer-wrapper","last_synced_at":"2026-04-29T16:05:55.542Z","repository":{"id":260621941,"uuid":"380468739","full_name":"burcgokden/BERT-Subword-Tokenizer-Wrapper","owner":"burcgokden","description":"A framework for generating subword vocabulary from a tensorflow dataset and building custom BERT tokenizer models.","archived":false,"fork":false,"pushed_at":"2021-07-06T08:43:42.000Z","size":13,"stargazers_count":1,"open_issues_count":0,"forks_count":0,"subscribers_count":1,"default_branch":"main","last_synced_at":"2025-01-20T22:51:07.857Z","etag":null,"topics":["bert","berttokenizer","deep-learning","machine-learning","machine-translation","subword","tensorflow","tensorflow-text","vocabulary-builder","wordpiece"],"latest_commit_sha":null,"homepage":"","language":"Python","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":"apache-2.0","status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/burcgokden.png","metadata":{"files":{"readme":"README.md","changelog":null,"contributing":null,"funding":null,"license":"LICENSE","code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null,"dei":null,"publiccode":null,"codemeta":null}},"created_at":"2021-06-26T09:56:40.000Z","updated_at":"2022-03-08T08:38:04.000Z","dependencies_parsed_at":"2024-11-01T12:32:17.181Z","dependency_job_id":"dea2b415-4241-46f5-a148-903be04462b2","html_url":"https://github.com/burcgokden/BERT-Subword-Tokenizer-Wrapper","commit_stats":null,"previous_names":["burcgokden/bert-subword-tokenizer-wrapper"],"tags_count":0,"template":false,"template_full_name":null,"repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/burcgokden%2FBERT-Subword-Tokenizer-Wrapper","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/burcgokden%2FBERT-Subword-Tokenizer-Wrapper/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/burcgokden%2FBERT-Subword-Tokenizer-Wrapper/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/burcgokden%2FBERT-Subword-Tokenizer-Wrapper/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/burcgokden","download_url":"https://codeload.github.com/burcgokden/BERT-Subword-Tokenizer-Wrapper/tar.gz/refs/heads/main","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":243521166,"owners_count":20304183,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":["bert","berttokenizer","deep-learning","machine-learning","machine-translation","subword","tensorflow","tensorflow-text","vocabulary-builder","wordpiece"],"created_at":"2024-11-19T19:21:19.729Z","updated_at":"2026-04-29T16:05:50.499Z","avatar_url":"https://github.com/burcgokden.png","language":"Python","funding_links":[],"categories":[],"sub_categories":[],"readme":"## BERT Subword Tokenizer for Machine Translation\n\nThis repository implements a wrapper code for generating a Wordpiece Vocabulary and BERT Tokenizer model from a dataset using tensorflow-text package. The tokenizers generated with this wrapper script are used in the research article: [Power Law Graph Transformer for Machine Translation and Representation Learning](https://arxiv.org/abs/2107.02039)\n\nDetailed explanation of subword tokenizer and wordpiece vocabulary generation can be found at [Subword Tokenizers @ tensorflow.org](https://www.tensorflow.org/tutorials/tensorflow_text/subwords_tokenizer) \n\n#### Key features\n\n- Generates a Wordpiece Vocabulary and BERT Tokenizer from a tensorflow dataset for machine translation.\n- Simple interface that takes in all the arguments and generates Vocabulary and Tokenizer model.\n\n#### Sample Run:\n\nSample run generates Vocabulary and Tokenizer model from tensorflow dataset for PT-EN machine translation task from tensorflow dataset: [ted_hrlr_translate/pt_to_en](https://www.tensorflow.org/datasets/catalog/ted_hrlr_translate#ted_hrlr_translatept_to_en) \n\nInitialize model parameters for bert vocabulary generator and tokenizer:\n\n```python\nimport make_vocab_tokenizer as mvt\n\nreserved_tokens= [\"[PAD]\", \"[UNK]\", \"[START]\", \"[END]\"]\nbert_tokenizer_params={\"lower_case\":True}\nbert_vocab_args={\n                \"vocab_size\":15000,\n                \"reserved_tokens\":reserved_tokens,\n                \"bert_tokenizer_params\":bert_tokenizer_params,\n                \"learn_params\":{}\n            }\n```\n\n Generate vocabulary and tokenizer model:\n \n```python\n make_vocab_tok = mvt.bert_src_tgt_tokenizer(\n                 src_lang='pt', \n                 tgt_lang='en',\n                 BATCH_SIZE = 1024,\n                 dataset_file='ted_hrlr_translate/pt_to_en',\n                 train_percent=None,\n                 src_vocab_path=\"./ted_hrlr_translate_pt_vocab.txt\",\n                 tgt_vocab_path=\"./ted_hrlr_translate_en_vocab.txt\",\n                 model_name = \"./ted_hrlr_translate_pt_en_tokenizer\",\n                 load_tokenizer_model=False,\n                 make_tokenizer=True,\n                 bert_tokenizer_params=bert_tokenizer_params,\n                 reserved_tokens=reserved_tokens, \n                 bert_vocab_args=bert_vocab_args\n                 ) \n```\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fburcgokden%2Fbert-subword-tokenizer-wrapper","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Fburcgokden%2Fbert-subword-tokenizer-wrapper","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fburcgokden%2Fbert-subword-tokenizer-wrapper/lists"}