R: Word Tokenization

get_tokens {syuzhet}

R Documentation

Word Tokenization

Parses a string into a vector of word tokens.

get_tokens(text_of_file, pattern = "\\W", lowercase = TRUE)

`text_of_file`	A Text String
`pattern`	A regular expression for token breaking
`lowercase`	should tokens be converted to lowercase. Default equals TRUE

A Character Vector of Words

[Package syuzhet version 1.0.7 Index]