{"id":16571711,"url":"https://github.com/hrbrmstr/orangetext","last_synced_at":"2025-03-21T12:31:00.604Z","repository":{"id":141238626,"uuid":"79684650","full_name":"hrbrmstr/orangetext","owner":"hrbrmstr","description":"🍊📄 : An #rstats project to keep track of The 🍊 One's speeches ","archived":false,"fork":false,"pushed_at":"2017-10-18T15:17:04.000Z","size":363,"stargazers_count":52,"open_issues_count":1,"forks_count":4,"subscribers_count":9,"default_branch":"master","last_synced_at":"2025-03-18T01:11:13.709Z","etag":null,"topics":["rstats","speeches","transcripts"],"latest_commit_sha":null,"homepage":null,"language":"R","has_issues":true,"has_wiki":null,"has_pages":null,"mirror_url":null,"source_name":null,"license":null,"status":null,"scm":"git","pull_requests_enabled":true,"icon_url":"https://github.com/hrbrmstr.png","metadata":{"files":{"readme":"README.Rmd","changelog":"NEWS.md","contributing":null,"funding":null,"license":null,"code_of_conduct":null,"threat_model":null,"audit":null,"citation":null,"codeowners":null,"security":null,"support":null,"governance":null,"roadmap":null,"authors":null,"dei":null,"publiccode":null,"codemeta":null}},"created_at":"2017-01-22T01:26:59.000Z","updated_at":"2023-12-02T23:07:30.000Z","dependencies_parsed_at":null,"dependency_job_id":"f2b18026-3640-4f30-88ea-969551fb7ace","html_url":"https://github.com/hrbrmstr/orangetext","commit_stats":null,"previous_names":[],"tags_count":0,"template":false,"template_full_name":null,"repository_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/hrbrmstr%2Forangetext","tags_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/hrbrmstr%2Forangetext/tags","releases_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/hrbrmstr%2Forangetext/releases","manifests_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories/hrbrmstr%2Forangetext/manifests","owner_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners/hrbrmstr","download_url":"https://codeload.github.com/hrbrmstr/orangetext/tar.gz/refs/heads/master","host":{"name":"GitHub","url":"https://github.com","kind":"github","repositories_count":244799250,"owners_count":20512216,"icon_url":"https://github.com/github.png","version":null,"created_at":"2022-05-30T11:31:42.601Z","updated_at":"2022-07-04T15:15:14.044Z","host_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub","repositories_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repositories","repository_names_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/repository_names","owners_url":"https://repos.ecosyste.ms/api/v1/hosts/GitHub/owners"}},"keywords":["rstats","speeches","transcripts"],"created_at":"2024-10-11T21:24:56.411Z","updated_at":"2025-03-21T12:31:00.597Z","avatar_url":"https://github.com/hrbrmstr.png","language":"R","funding_links":[],"categories":[],"sub_categories":[],"readme":"---\noutput: rmarkdown::github_document\n---\n`orangetext` is an #rstats project to keep track of The 🍊 One's speeches and include some code snippets for text analysis on them.\n\nGladly accepting PRs for legit new transcripts and more analysis scripts. \n\n### Transcripts\n\n```{r echo=FALSE, results='asis'}\ncat(sprintf(\"- `%s`\\n\", list.files(\"data/speeches\")))\n```\n\n### Sample code\n\n```{r message=FALSE}\nlibrary(ngram)\nlibrary(tidyverse)\nlibrary(magrittr)\nlibrary(ggalt)\nlibrary(hrbrmisc)\nlibrary(stringi)\nlibrary(rprojroot)\n```\n\nRead all the speeches in:\n\n```{r message=FALSE, warning=FALSE}\nrprojroot::find_rstudio_root_file() %\u003e%\n  file.path(\"data\", \"speeches\") %\u003e%\n  list.files(\"*.txt\", full.names=TRUE) %\u003e%\n  map(read_lines) %\u003e%\n  flatten_chr() %\u003e%\n  stri_enc_toascii() %\u003e%  \n  stri_trim_both() %\u003e%\n  discard(equals, \"\") %\u003e%\n  paste0(collapse=\" \") %\u003e%\n  stri_replace_all_regex(\"[[:space:]]+\", \" \") %\u003e%\n  preprocess(case=\"lower\", remove.punct=TRUE,\n             remove.numbers=TRUE, fix.spacing=TRUE) -\u003e texts\n```\n\nWhat have we got:\n\n```{r}\nstring.summary(texts)\n```\n\nThe 1-grams are kinda useless but this makes a big tibble for 1:8-grams.\n\n```{r}\nmap_df(1:8, ~ngram(texts, n=.x) %\u003e%\n         get.phrasetable() %\u003e%\n         tbl_df() %\u003e%\n         rename(words=ngrams) %\u003e%\n         mutate(words=stri_trim_both(words)) %\u003e%\n         mutate(ngram=sprintf(\"ngrams: %s\", .x))) %\u003e%\n  mutate(ngram=factor(ngram, levels=unique(ngram))) %\u003e% \n  select(ngram, freq, prop, words) -\u003e grams\n\n```\n\n```{r}\nglimpse(grams)\n```\n\n```{r}\nfilter(grams, ngram==\"ngrams: 3\")\n```\n\n```{r}\nfilter(grams, ngram==\"ngrams: 4\")\n```\n\n```{r}\nfilter(grams, ngram==\"ngrams: 5\")\n```\n\n```{r}\nfilter(grams, ngram==\"ngrams: 6\")\n```\n","project_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fhrbrmstr%2Forangetext","html_url":"https://awesome.ecosyste.ms/projects/github.com%2Fhrbrmstr%2Forangetext","lists_url":"https://awesome.ecosyste.ms/api/v1/projects/github.com%2Fhrbrmstr%2Forangetext/lists"}