Towards speech rate independence in large vocabulary continuous speech recognition

Towards speech rate independence in large vocabulary continuous speech recognition. Martínez, F., Tapias, D., & Álvarez Cercadillo, J. In Proceedings of the 1998 IEEE International Conference on Acoustics, Speech and Signal Processing, volume 2, pages 725–728, 1998.
doi abstract bibtex

We present a new speech rate classifier (SRC) which is directly based on the dynamic coefficients of the feature vectors and it is suitable to be used in real time. We also report the study that has been carried out to determine what parameters of speech are the best regarding the speech rate classification problem. In this study we analyse the correlation between several speech parameters and the average speech rate of the utterance. Finally, we report a compensation technique, which is used together with the SRC. This technique provides with a word error rate (WER) reduction of a 64.1% for slow speech rate and a 32% reduction of the average WER

@inproceedings{martinez_towards_1998,
	Author = {Martínez, Fernando and Tapias, Daniel and Álvarez Cercadillo, Jorge},
	Booktitle = {Proceedings of the 1998 IEEE International Conference on Acoustics, Speech and Signal Processing},
	Date = {1998},
	Date-Modified = {2018-05-14 08:27:27 +0000},
	Doi = {10.1109/ICASSP.1998.675367},
	Eventdate = {1998-05-12/1998-05-15},
	Keywords = {phonetics, prosody, Spanish, speech rate, speech recognition, speech technology, temporal factors},
	Location = {Seattle, WA, USA},
	Pages = {725--728},
	Title = {Towards speech rate independence in large vocabulary continuous speech recognition},
	Volume = {2},
	Year = {1998},
	Abstract = {We present a new speech rate classifier (SRC) which is directly based on the dynamic coefficients of the feature vectors and it is suitable to be used in real time. We also report the study that has been carried out to determine what parameters of speech are the best regarding the speech rate classification problem. In this study we analyse the correlation between several speech parameters and the average speech rate of the utterance. Finally, we report a compensation technique, which is used together with the SRC. This technique provides with a word error rate (WER) reduction of a 64.1\% for slow speech rate and a 32\% reduction of the average WER},
	Bdsk-File-1 = {YnBsaXN0MDDUAQIDBAUGJCVYJHZlcnNpb25YJG9iamVjdHNZJGFyY2hpdmVyVCR0b3ASAAGGoKgHCBMUFRYaIVUkbnVsbNMJCgsMDxJXTlMua2V5c1pOUy5vYmplY3RzViRjbGFzc6INDoACgAOiEBGABIAFgAdccmVsYXRpdmVQYXRoWWFsaWFzRGF0YW8QVAAuAC4ALwAuAC4ALwAuAC4ALwBCAGkAYgBsAGkAbwBnAHIAYQBmAGkAYQAvAFAAYQBwAGUAcgBzAC8ATQBhAHIAdABpAwEAbgBlAHoALwBUAG8AdwBhAHIAZABzACAAcwBwAGUAZQBjAGgAIAByAGEAdABlACAAaQBuAGQAZQBwAGUAbgBkAGUAbgBjAGUAIABpAG4AIABsAGEAcgBnAGUALgBwAGQAZtIXCxgZV05TLmRhdGFPEQIyAAAAAAIyAAIAAAxNYWNpbnRvc2ggSEQAAAAAAAAAAAAAAAAAAADL9h/OSCsAABCGcTcfVG93YXJkcyBzcGVlY2ggcmF0IzEwODY3MTNCLnBkZgAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAEIZxO9PqR/EAAAAAAAAAAAADAAQAAAkgAAAAAAAAAAAAAAAAAAAACE1hcnSSbmV6ABAACAAAy/YDrgAAABEACAAA0+or0QAAAAEAFBCGcTcQhmWOAAX8RwAF+5gAAMBGAAIAZk1hY2ludG9zaCBIRDpVc2VyczoAam9hcXVpbV9sbGlzdGVycmk6AEJpYmxpb2dyYWZpYToAUGFwZXJzOgBNYXJ0km5lejoAVG93YXJkcyBzcGVlY2ggcmF0IzEwODY3MTNCLnBkZgAOAFwALQBUAG8AdwBhAHIAZABzACAAcwBwAGUAZQBjAGgAIAByAGEAdABlACAAaQBuAGQAZQBwAGUAbgBkAGUAbgBjAGUAIABpAG4AIABsAGEAcgBnAGUALgBwAGQAZgAPABoADABNAGEAYwBpAG4AdABvAHMAaAAgAEgARAASAGRVc2Vycy9qb2FxdWltX2xsaXN0ZXJyaS9CaWJsaW9ncmFmaWEvUGFwZXJzL01hcnRpzIFuZXovVG93YXJkcyBzcGVlY2ggcmF0ZSBpbmRlcGVuZGVuY2UgaW4gbGFyZ2UucGRmABMAAS8AABUAAgAY//8AAIAG0hscHR5aJGNsYXNzbmFtZVgkY2xhc3Nlc11OU011dGFibGVEYXRhox0fIFZOU0RhdGFYTlNPYmplY3TSGxwiI1xOU0RpY3Rpb25hcnmiIiBfEA9OU0tleWVkQXJjaGl2ZXLRJidUcm9vdIABAAgAEQAaACMALQAyADcAQABGAE0AVQBgAGcAagBsAG4AcQBzAHUAdwCEAI4BOQE+AUYDfAN+A4MDjgOXA6UDqQOwA7kDvgPLA84D4APjA+gAAAAAAAACAQAAAAAAAAAoAAAAAAAAAAAAAAAAAAAD6g==},
	Bdsk-Url-1 = {http://dx.doi.org/10.1109/ICASSP.1998.675367}}

Downloads: 0

{"_id":"99ugrD3kugRbh2vpm","bibbaseid":"martnez-tapias-lvarezcercadillo-towardsspeechrateindependenceinlargevocabularycontinuousspeechrecognition-1998","downloads":0,"creationDate":"2016-09-21T09:08:38.122Z","title":"Towards speech rate independence in large vocabulary continuous speech recognition","author_short":["Martínez, F.","Tapias, D.","Álvarez Cercadillo, J."],"year":1998,"bibtype":"inproceedings","biburl":"https://joaquimllisterri.cat/phonetics/ESTIVOZ/ESTIVOZ.bib","bibdata":{"bibtype":"inproceedings","type":"inproceedings","author":[{"propositions":[],"lastnames":["Martínez"],"firstnames":["Fernando"],"suffixes":[]},{"propositions":[],"lastnames":["Tapias"],"firstnames":["Daniel"],"suffixes":[]},{"propositions":[],"lastnames":["Álvarez","Cercadillo"],"firstnames":["Jorge"],"suffixes":[]}],"booktitle":"Proceedings of the 1998 IEEE International Conference on Acoustics, Speech and Signal Processing","date":"1998","date-modified":"2018-05-14 08:27:27 +0000","doi":"10.1109/ICASSP.1998.675367","eventdate":"1998-05-12/1998-05-15","keywords":"phonetics, prosody, Spanish, speech rate, speech recognition, speech technology, temporal factors","location":"Seattle, WA, USA","pages":"725–728","title":"Towards speech rate independence in large vocabulary continuous speech recognition","volume":"2","year":"1998","abstract":"We present a new speech rate classifier (SRC) which is directly based on the dynamic coefficients of the feature vectors and it is suitable to be used in real time. We also report the study that has been carried out to determine what parameters of speech are the best regarding the speech rate classification problem. In this study we analyse the correlation between several speech parameters and the average speech rate of the utterance. Finally, we report a compensation technique, which is used together with the SRC. This technique provides with a word error rate (WER) reduction of a 64.1% for slow speech rate and a 32% reduction of the average WER","bdsk-file-1":"YnBsaXN0MDDUAQIDBAUGJCVYJHZlcnNpb25YJG9iamVjdHNZJGFyY2hpdmVyVCR0b3ASAAGGoKgHCBMUFRYaIVUkbnVsbNMJCgsMDxJXTlMua2V5c1pOUy5vYmplY3RzViRjbGFzc6INDoACgAOiEBGABIAFgAdccmVsYXRpdmVQYXRoWWFsaWFzRGF0YW8QVAAuAC4ALwAuAC4ALwAuAC4ALwBCAGkAYgBsAGkAbwBnAHIAYQBmAGkAYQAvAFAAYQBwAGUAcgBzAC8ATQBhAHIAdABpAwEAbgBlAHoALwBUAG8AdwBhAHIAZABzACAAcwBwAGUAZQBjAGgAIAByAGEAdABlACAAaQBuAGQAZQBwAGUAbgBkAGUAbgBjAGUAIABpAG4AIABsAGEAcgBnAGUALgBwAGQAZtIXCxgZV05TLmRhdGFPEQIyAAAAAAIyAAIAAAxNYWNpbnRvc2ggSEQAAAAAAAAAAAAAAAAAAADL9h/OSCsAABCGcTcfVG93YXJkcyBzcGVlY2ggcmF0IzEwODY3MTNCLnBkZgAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAEIZxO9PqR/EAAAAAAAAAAAADAAQAAAkgAAAAAAAAAAAAAAAAAAAACE1hcnSSbmV6ABAACAAAy/YDrgAAABEACAAA0+or0QAAAAEAFBCGcTcQhmWOAAX8RwAF+5gAAMBGAAIAZk1hY2ludG9zaCBIRDpVc2VyczoAam9hcXVpbV9sbGlzdGVycmk6AEJpYmxpb2dyYWZpYToAUGFwZXJzOgBNYXJ0km5lejoAVG93YXJkcyBzcGVlY2ggcmF0IzEwODY3MTNCLnBkZgAOAFwALQBUAG8AdwBhAHIAZABzACAAcwBwAGUAZQBjAGgAIAByAGEAdABlACAAaQBuAGQAZQBwAGUAbgBkAGUAbgBjAGUAIABpAG4AIABsAGEAcgBnAGUALgBwAGQAZgAPABoADABNAGEAYwBpAG4AdABvAHMAaAAgAEgARAASAGRVc2Vycy9qb2FxdWltX2xsaXN0ZXJyaS9CaWJsaW9ncmFmaWEvUGFwZXJzL01hcnRpzIFuZXovVG93YXJkcyBzcGVlY2ggcmF0ZSBpbmRlcGVuZGVuY2UgaW4gbGFyZ2UucGRmABMAAS8AABUAAgAY//8AAIAG0hscHR5aJGNsYXNzbmFtZVgkY2xhc3Nlc11OU011dGFibGVEYXRhox0fIFZOU0RhdGFYTlNPYmplY3TSGxwiI1xOU0RpY3Rpb25hcnmiIiBfEA9OU0tleWVkQXJjaGl2ZXLRJidUcm9vdIABAAgAEQAaACMALQAyADcAQABGAE0AVQBgAGcAagBsAG4AcQBzAHUAdwCEAI4BOQE+AUYDfAN+A4MDjgOXA6UDqQOwA7kDvgPLA84D4APjA+gAAAAAAAACAQAAAAAAAAAoAAAAAAAAAAAAAAAAAAAD6g==","bdsk-url-1":"http://dx.doi.org/10.1109/ICASSP.1998.675367","bibtex":"@inproceedings{martinez_towards_1998,\n\tAuthor = {Martínez, Fernando and Tapias, Daniel and Álvarez Cercadillo, Jorge},\n\tBooktitle = {Proceedings of the 1998 IEEE International Conference on Acoustics, Speech and Signal Processing},\n\tDate = {1998},\n\tDate-Modified = {2018-05-14 08:27:27 +0000},\n\tDoi = {10.1109/ICASSP.1998.675367},\n\tEventdate = {1998-05-12/1998-05-15},\n\tKeywords = {phonetics, prosody, Spanish, speech rate, speech recognition, speech technology, temporal factors},\n\tLocation = {Seattle, WA, USA},\n\tPages = {725--728},\n\tTitle = {Towards speech rate independence in large vocabulary continuous speech recognition},\n\tVolume = {2},\n\tYear = {1998},\n\tAbstract = {We present a new speech rate classifier (SRC) which is directly based on the dynamic coefficients of the feature vectors and it is suitable to be used in real time. We also report the study that has been carried out to determine what parameters of speech are the best regarding the speech rate classification problem. In this study we analyse the correlation between several speech parameters and the average speech rate of the utterance. Finally, we report a compensation technique, which is used together with the SRC. This technique provides with a word error rate (WER) reduction of a 64.1\\% for slow speech rate and a 32\\% reduction of the average WER},\n\tBdsk-File-1 = {YnBsaXN0MDDUAQIDBAUGJCVYJHZlcnNpb25YJG9iamVjdHNZJGFyY2hpdmVyVCR0b3ASAAGGoKgHCBMUFRYaIVUkbnVsbNMJCgsMDxJXTlMua2V5c1pOUy5vYmplY3RzViRjbGFzc6INDoACgAOiEBGABIAFgAdccmVsYXRpdmVQYXRoWWFsaWFzRGF0YW8QVAAuAC4ALwAuAC4ALwAuAC4ALwBCAGkAYgBsAGkAbwBnAHIAYQBmAGkAYQAvAFAAYQBwAGUAcgBzAC8ATQBhAHIAdABpAwEAbgBlAHoALwBUAG8AdwBhAHIAZABzACAAcwBwAGUAZQBjAGgAIAByAGEAdABlACAAaQBuAGQAZQBwAGUAbgBkAGUAbgBjAGUAIABpAG4AIABsAGEAcgBnAGUALgBwAGQAZtIXCxgZV05TLmRhdGFPEQIyAAAAAAIyAAIAAAxNYWNpbnRvc2ggSEQAAAAAAAAAAAAAAAAAAADL9h/OSCsAABCGcTcfVG93YXJkcyBzcGVlY2ggcmF0IzEwODY3MTNCLnBkZgAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAEIZxO9PqR/EAAAAAAAAAAAADAAQAAAkgAAAAAAAAAAAAAAAAAAAACE1hcnSSbmV6ABAACAAAy/YDrgAAABEACAAA0+or0QAAAAEAFBCGcTcQhmWOAAX8RwAF+5gAAMBGAAIAZk1hY2ludG9zaCBIRDpVc2VyczoAam9hcXVpbV9sbGlzdGVycmk6AEJpYmxpb2dyYWZpYToAUGFwZXJzOgBNYXJ0km5lejoAVG93YXJkcyBzcGVlY2ggcmF0IzEwODY3MTNCLnBkZgAOAFwALQBUAG8AdwBhAHIAZABzACAAcwBwAGUAZQBjAGgAIAByAGEAdABlACAAaQBuAGQAZQBwAGUAbgBkAGUAbgBjAGUAIABpAG4AIABsAGEAcgBnAGUALgBwAGQAZgAPABoADABNAGEAYwBpAG4AdABvAHMAaAAgAEgARAASAGRVc2Vycy9qb2FxdWltX2xsaXN0ZXJyaS9CaWJsaW9ncmFmaWEvUGFwZXJzL01hcnRpzIFuZXovVG93YXJkcyBzcGVlY2ggcmF0ZSBpbmRlcGVuZGVuY2UgaW4gbGFyZ2UucGRmABMAAS8AABUAAgAY//8AAIAG0hscHR5aJGNsYXNzbmFtZVgkY2xhc3Nlc11OU011dGFibGVEYXRhox0fIFZOU0RhdGFYTlNPYmplY3TSGxwiI1xOU0RpY3Rpb25hcnmiIiBfEA9OU0tleWVkQXJjaGl2ZXLRJidUcm9vdIABAAgAEQAaACMALQAyADcAQABGAE0AVQBgAGcAagBsAG4AcQBzAHUAdwCEAI4BOQE+AUYDfAN+A4MDjgOXA6UDqQOwA7kDvgPLA84D4APjA+gAAAAAAAACAQAAAAAAAAAoAAAAAAAAAAAAAAAAAAAD6g==},\n\tBdsk-Url-1 = {http://dx.doi.org/10.1109/ICASSP.1998.675367}}\n\n","author_short":["Martínez, F.","Tapias, D.","Álvarez Cercadillo, J."],"key":"martinez_towards_1998","id":"martinez_towards_1998","bibbaseid":"martnez-tapias-lvarezcercadillo-towardsspeechrateindependenceinlargevocabularycontinuousspeechrecognition-1998","role":"author","urls":{},"keyword":["phonetics","prosody","Spanish","speech rate","speech recognition","speech technology","temporal factors"],"metadata":{"authorlinks":{}},"downloads":0,"html":""},"search_terms":["towards","speech","rate","independence","large","vocabulary","continuous","speech","recognition","martínez","tapias","álvarez cercadillo"],"keywords":["phonetics","prosody","spanish","speech rate","speech recognition","speech technology","temporal factors"],"authorIDs":[],"dataSources":["qBn3jEfYwFvzHJsYh","BrMmNtBqG9aDvpsZn"]}