Case-Sensitive Letter and Bigram Frequency Counts from Large-Scale English Corpora

Case-Sensitive Letter and Bigram Frequency Counts from Large-Scale English Corpora. Jones, M. N. & Mewhort, D. J. K. 36(3):388–396.

Paper doi abstract bibtex

We tabulated upper- and lowercase letter frequency using several large-scale English corpora (∼183 million words in total). The results indicate that the relative frequencies for upper- and lowercase letters are not equivalent. We report a letter-naming experiment in which uppercase frequency predicted response time to uppercase letters better than did lowercase frequency. Tables of case-sensitive letter and bigram frequency are provided, including common nonalphabetic characters. Because subjects are sensitive to frequency relationships among letters, we recommend that experimenters use case-sensitive counts when constructing stimuli from letters.

@article{jonesCasesensitiveLetterBigram2004,
  title = {Case-Sensitive Letter and Bigram Frequency Counts from Large-Scale {{English}} Corpora},
  author = {Jones, Michael N. and Mewhort, D. J. K.},
  date = {2004},
  journaltitle = {Behavior Research Methods, Instruments, \& Computers},
  shortjournal = {Behavior Research Methods, Instruments, \& Computers},
  volume = {36},
  pages = {388--396},
  issn = {1532-5970},
  doi = {10.3758/BF03195586},
  url = {https://doi.org/10.3758/BF03195586},
  urldate = {2020-05-10},
  abstract = {We tabulated upper- and lowercase letter frequency using several large-scale English corpora (∼183 million words in total). The results indicate that the relative frequencies for upper- and lowercase letters are not equivalent. We report a letter-naming experiment in which uppercase frequency predicted response time to uppercase letters better than did lowercase frequency. Tables of case-sensitive letter and bigram frequency are provided, including common nonalphabetic characters. Because subjects are sensitive to frequency relationships among letters, we recommend that experimenters use case-sensitive counts when constructing stimuli from letters.},
  keywords = {~INRMM-MiD:z-XJL39NVM,frequency,languages,statistics},
  langid = {english},
  number = {3}
}

Downloads: 0

{"_id":"gEK8BE72XgLKdCaLP","bibbaseid":"jones-mewhort-casesensitiveletterandbigramfrequencycountsfromlargescaleenglishcorpora","authorIDs":[],"author_short":["Jones, M. N.","Mewhort, D. J. K."],"bibdata":{"bibtype":"article","type":"article","title":"Case-Sensitive Letter and Bigram Frequency Counts from Large-Scale English Corpora","author":[{"propositions":[],"lastnames":["Jones"],"firstnames":["Michael","N."],"suffixes":[]},{"propositions":[],"lastnames":["Mewhort"],"firstnames":["D.","J.","K."],"suffixes":[]}],"date":"2004","journaltitle":"Behavior Research Methods, Instruments, & Computers","shortjournal":"Behavior Research Methods, Instruments, & Computers","volume":"36","pages":"388–396","issn":"1532-5970","doi":"10.3758/BF03195586","url":"https://doi.org/10.3758/BF03195586","urldate":"2020-05-10","abstract":"We tabulated upper- and lowercase letter frequency using several large-scale English corpora (∼183 million words in total). The results indicate that the relative frequencies for upper- and lowercase letters are not equivalent. We report a letter-naming experiment in which uppercase frequency predicted response time to uppercase letters better than did lowercase frequency. Tables of case-sensitive letter and bigram frequency are provided, including common nonalphabetic characters. Because subjects are sensitive to frequency relationships among letters, we recommend that experimenters use case-sensitive counts when constructing stimuli from letters.","keywords":"~INRMM-MiD:z-XJL39NVM,frequency,languages,statistics","langid":"english","number":"3","bibtex":"@article{jonesCasesensitiveLetterBigram2004,\n title = {Case-Sensitive Letter and Bigram Frequency Counts from Large-Scale {{English}} Corpora},\n author = {Jones, Michael N. and Mewhort, D. J. K.},\n date = {2004},\n journaltitle = {Behavior Research Methods, Instruments, \\& Computers},\n shortjournal = {Behavior Research Methods, Instruments, \\& Computers},\n volume = {36},\n pages = {388--396},\n issn = {1532-5970},\n doi = {10.3758/BF03195586},\n url = {https://doi.org/10.3758/BF03195586},\n urldate = {2020-05-10},\n abstract = {We tabulated upper- and lowercase letter frequency using several large-scale English corpora (∼183 million words in total). The results indicate that the relative frequencies for upper- and lowercase letters are not equivalent. We report a letter-naming experiment in which uppercase frequency predicted response time to uppercase letters better than did lowercase frequency. Tables of case-sensitive letter and bigram frequency are provided, including common nonalphabetic characters. Because subjects are sensitive to frequency relationships among letters, we recommend that experimenters use case-sensitive counts when constructing stimuli from letters.},\n keywords = {~INRMM-MiD:z-XJL39NVM,frequency,languages,statistics},\n langid = {english},\n number = {3}\n}\n\n","author_short":["Jones, M. N.","Mewhort, D. J. K."],"key":"jonesCasesensitiveLetterBigram2004","id":"jonesCasesensitiveLetterBigram2004","bibbaseid":"jones-mewhort-casesensitiveletterandbigramfrequencycountsfromlargescaleenglishcorpora","role":"author","urls":{"Paper":"https://doi.org/10.3758/BF03195586"},"keyword":["~INRMM-MiD:z-XJL39NVM","frequency","languages","statistics"],"downloads":0},"bibtype":"article","biburl":"https://tmpfiles.org/dl/58794/INRMM.bib","creationDate":"2020-07-02T22:41:10.512Z","downloads":0,"keywords":["~inrmm-mid:z-xjl39nvm","frequency","languages","statistics"],"search_terms":["case","sensitive","letter","bigram","frequency","counts","large","scale","english","corpora","jones","mewhort"],"title":"Case-Sensitive Letter and Bigram Frequency Counts from Large-Scale English Corpora","year":null,"dataSources":["DXuKbcZTirdigFKPF"]}