A formal framework for linguistic annotation. Bird, S. & Liberman, M. Speech Communication, 33(1):23–60, 2001.
Paper doi abstract bibtex `Linguistic annotation' covers any descriptive or analytic notations applied to raw language data. The basic data may be in the form of time functions – audio, video and/or physiological recordings – or it may be textual. The added notations may include transcriptions of all sorts (from phonetic features to discourse structures), part-of-speech and sense tagging, syntactic analysis, `named entity' identification, coreference annotation, and so on. While there are several ongoing efforts to provide formats and tools for such annotations and to publish annotated linguistic databases, the lack of widely accepted standards is becoming a critical problem. Proposed standards, to the extent they exist, have focused on file formats. This paper focuses instead on the logical structure of linguistic annotations. We survey a wide variety of existing annotation formats and demonstrate a common conceptual core, the annotation graph. This provides a formal framework for constructing, maintaining and searching linguistic annotations, while remaining consistent with many alternative data structures and file formats. Zusammenfassung Der Begriff `Linguistische Annotation' bezeichnet alle Arten deskriptiver oder analytischer Beschreibung von Sprachdaten. Die Ausgangsdaten können dabei entweder die Form von Zeitfunktionen haben – also z.B. Audio, Video und/oder physiologische Signale – oder als Text vorliegen. Die Annotation dagegen kann folgende Inhalte haben: alle Arten von Transkriptionen (von phonetischen Merkmalen bis zu Dialog-Strukturen), Phrasen – oder Inhalts-Segmentierung, syntaktische Analysen, Identifikation von `named entities', Querverweise innerhalb der Annotation, usw. Zwar stehen zur Zeit mehrere verschiedene Formate und Werkzeuge zur linguistischen Annotation zur Verfügung, andererseits entwickelt sich das Fehlen eines allgemein akzeptierten Standards zu einem ernsten Problem. Bisher vorgeschlagene Standards konzentrieren sich auf die Datenformate. Dieser Beitrag dagegen konzentriert sich auf die logische Struktur linguistischer Annotationen. Wir untersuchen eine breite Auswahl existierender Formate und können zeigen, daßdiesen ein gemeinsames Konzept zugrundeliegt. Dieses bildet die Grundlage für einen algebraischen Formalismus zur linguistischen Annotation, während gleichzeitig die Konsistenz zu vielen alternativen Datenstrukturen und Datenformaten erhalten bleibt. Résumé Par `annotation linguistique' nous désignons toute notation descriptive ou analytique appliquée à des données langagières brutes. Ces données brutes peuvent être des signaux temporels – enregistrements audio, vidéo et/ou physiologiques – ou du texte. Les notations ajoutées peuvent être des transcriptions de toute nature (des traits phonétiques aux structures du discours), des catégories grammaticales ou sémantiques, une analyse syntaxique, l'identification d' `entités nommées', l'annotation de coréférences, etc. Malgré les efforts entrepris pour créer des formats et des outils adaptés à de telles annotations et pour diffuser des bases de données linguistiques annotées, le manque de standards largement acceptés devient un problème critique. Les standards proposés, lorsqu'ils existent, se concentrent sur les formats de fichiers. Cet article se concentre au contraire sur la structure logique des annotations linguistiques. Nous passons en revue une grande variété de formats d'annotations existants et en dégageons une structure conceptuelle commune, le graphe d'annotation. Ceci fournit un cadre formel pour construire des annotations linguistiques, les tenir à jour et y effectuer des requètes, tout en restant cohérent avec de nombreux autres structures de données et formats de fichiers.
@article{bird_formal_2001,
title = {A formal framework for linguistic annotation},
volume = {33},
issn = {0167-6393},
url = {https://www.sciencedirect.com/science/article/pii/S0167639300000686},
doi = {https://doi.org/10.1016/S0167-6393(00)00068-6},
abstract = {`Linguistic annotation' covers any descriptive or analytic notations applied to raw language data. The basic data may be in the form of time functions – audio, video and/or physiological recordings – or it may be textual. The added notations may include transcriptions of all sorts (from phonetic features to discourse structures), part-of-speech and sense tagging, syntactic analysis, `named entity' identification, coreference annotation, and so on. While there are several ongoing efforts to provide formats and tools for such annotations and to publish annotated linguistic databases, the lack of widely accepted standards is becoming a critical problem. Proposed standards, to the extent they exist, have focused on file formats. This paper focuses instead on the logical structure of linguistic annotations. We survey a wide variety of existing annotation formats and demonstrate a common conceptual core, the annotation graph. This provides a formal framework for constructing, maintaining and searching linguistic annotations, while remaining consistent with many alternative data structures and file formats. Zusammenfassung Der Begriff `Linguistische Annotation' bezeichnet alle Arten deskriptiver oder analytischer Beschreibung von Sprachdaten. Die Ausgangsdaten können dabei entweder die Form von Zeitfunktionen haben – also z.B. Audio, Video und/oder physiologische Signale – oder als Text vorliegen. Die Annotation dagegen kann folgende Inhalte haben: alle Arten von Transkriptionen (von phonetischen Merkmalen bis zu Dialog-Strukturen), Phrasen – oder Inhalts-Segmentierung, syntaktische Analysen, Identifikation von `named entities', Querverweise innerhalb der Annotation, usw. Zwar stehen zur Zeit mehrere verschiedene Formate und Werkzeuge zur linguistischen Annotation zur Verfügung, andererseits entwickelt sich das Fehlen eines allgemein akzeptierten Standards zu einem ernsten Problem. Bisher vorgeschlagene Standards konzentrieren sich auf die Datenformate. Dieser Beitrag dagegen konzentriert sich auf die logische Struktur linguistischer Annotationen. Wir untersuchen eine breite Auswahl existierender Formate und können zeigen, daßdiesen ein gemeinsames Konzept zugrundeliegt. Dieses bildet die Grundlage für einen algebraischen Formalismus zur linguistischen Annotation, während gleichzeitig die Konsistenz zu vielen alternativen Datenstrukturen und Datenformaten erhalten bleibt. Résumé Par `annotation linguistique' nous désignons toute notation descriptive ou analytique appliquée à des données langagières brutes. Ces données brutes peuvent être des signaux temporels – enregistrements audio, vidéo et/ou physiologiques – ou du texte. Les notations ajoutées peuvent être des transcriptions de toute nature (des traits phonétiques aux structures du discours), des catégories grammaticales ou sémantiques, une analyse syntaxique, l'identification d' `entités nommées', l'annotation de coréférences, etc. Malgré les efforts entrepris pour créer des formats et des outils adaptés à de telles annotations et pour diffuser des bases de données linguistiques annotées, le manque de standards largement acceptés devient un problème critique. Les standards proposés, lorsqu'ils existent, se concentrent sur les formats de fichiers. Cet article se concentre au contraire sur la structure logique des annotations linguistiques. Nous passons en revue une grande variété de formats d'annotations existants et en dégageons une structure conceptuelle commune, le graphe d'annotation. Ceci fournit un cadre formel pour construire des annotations linguistiques, les tenir à jour et y effectuer des requètes, tout en restant cohérent avec de nombreux autres structures de données et formats de fichiers.},
number = {1},
journal = {Speech Communication},
author = {Bird, Steven and Liberman, Mark},
year = {2001},
keywords = {Directed graph, General-purpose architecture, Phonological representation, Speech corpus, Speech markup},
pages = {23--60},
}
Downloads: 0
{"_id":"9Ex9cKK3g8b7PpEJ2","bibbaseid":"bird-liberman-aformalframeworkforlinguisticannotation-2001","author_short":["Bird, S.","Liberman, M."],"bibdata":{"bibtype":"article","type":"article","title":"A formal framework for linguistic annotation","volume":"33","issn":"0167-6393","url":"https://www.sciencedirect.com/science/article/pii/S0167639300000686","doi":"https://doi.org/10.1016/S0167-6393(00)00068-6","abstract":"`Linguistic annotation' covers any descriptive or analytic notations applied to raw language data. The basic data may be in the form of time functions – audio, video and/or physiological recordings – or it may be textual. The added notations may include transcriptions of all sorts (from phonetic features to discourse structures), part-of-speech and sense tagging, syntactic analysis, `named entity' identification, coreference annotation, and so on. While there are several ongoing efforts to provide formats and tools for such annotations and to publish annotated linguistic databases, the lack of widely accepted standards is becoming a critical problem. Proposed standards, to the extent they exist, have focused on file formats. This paper focuses instead on the logical structure of linguistic annotations. We survey a wide variety of existing annotation formats and demonstrate a common conceptual core, the annotation graph. This provides a formal framework for constructing, maintaining and searching linguistic annotations, while remaining consistent with many alternative data structures and file formats. Zusammenfassung Der Begriff `Linguistische Annotation' bezeichnet alle Arten deskriptiver oder analytischer Beschreibung von Sprachdaten. Die Ausgangsdaten können dabei entweder die Form von Zeitfunktionen haben – also z.B. Audio, Video und/oder physiologische Signale – oder als Text vorliegen. Die Annotation dagegen kann folgende Inhalte haben: alle Arten von Transkriptionen (von phonetischen Merkmalen bis zu Dialog-Strukturen), Phrasen – oder Inhalts-Segmentierung, syntaktische Analysen, Identifikation von `named entities', Querverweise innerhalb der Annotation, usw. Zwar stehen zur Zeit mehrere verschiedene Formate und Werkzeuge zur linguistischen Annotation zur Verfügung, andererseits entwickelt sich das Fehlen eines allgemein akzeptierten Standards zu einem ernsten Problem. Bisher vorgeschlagene Standards konzentrieren sich auf die Datenformate. Dieser Beitrag dagegen konzentriert sich auf die logische Struktur linguistischer Annotationen. Wir untersuchen eine breite Auswahl existierender Formate und können zeigen, daßdiesen ein gemeinsames Konzept zugrundeliegt. Dieses bildet die Grundlage für einen algebraischen Formalismus zur linguistischen Annotation, während gleichzeitig die Konsistenz zu vielen alternativen Datenstrukturen und Datenformaten erhalten bleibt. Résumé Par `annotation linguistique' nous désignons toute notation descriptive ou analytique appliquée à des données langagières brutes. Ces données brutes peuvent être des signaux temporels – enregistrements audio, vidéo et/ou physiologiques – ou du texte. Les notations ajoutées peuvent être des transcriptions de toute nature (des traits phonétiques aux structures du discours), des catégories grammaticales ou sémantiques, une analyse syntaxique, l'identification d' `entités nommées', l'annotation de coréférences, etc. Malgré les efforts entrepris pour créer des formats et des outils adaptés à de telles annotations et pour diffuser des bases de données linguistiques annotées, le manque de standards largement acceptés devient un problème critique. Les standards proposés, lorsqu'ils existent, se concentrent sur les formats de fichiers. Cet article se concentre au contraire sur la structure logique des annotations linguistiques. Nous passons en revue une grande variété de formats d'annotations existants et en dégageons une structure conceptuelle commune, le graphe d'annotation. Ceci fournit un cadre formel pour construire des annotations linguistiques, les tenir à jour et y effectuer des requètes, tout en restant cohérent avec de nombreux autres structures de données et formats de fichiers.","number":"1","journal":"Speech Communication","author":[{"propositions":[],"lastnames":["Bird"],"firstnames":["Steven"],"suffixes":[]},{"propositions":[],"lastnames":["Liberman"],"firstnames":["Mark"],"suffixes":[]}],"year":"2001","keywords":"Directed graph, General-purpose architecture, Phonological representation, Speech corpus, Speech markup","pages":"23–60","bibtex":"@article{bird_formal_2001,\n\ttitle = {A formal framework for linguistic annotation},\n\tvolume = {33},\n\tissn = {0167-6393},\n\turl = {https://www.sciencedirect.com/science/article/pii/S0167639300000686},\n\tdoi = {https://doi.org/10.1016/S0167-6393(00)00068-6},\n\tabstract = {`Linguistic annotation' covers any descriptive or analytic notations applied to raw language data. The basic data may be in the form of time functions – audio, video and/or physiological recordings – or it may be textual. The added notations may include transcriptions of all sorts (from phonetic features to discourse structures), part-of-speech and sense tagging, syntactic analysis, `named entity' identification, coreference annotation, and so on. While there are several ongoing efforts to provide formats and tools for such annotations and to publish annotated linguistic databases, the lack of widely accepted standards is becoming a critical problem. Proposed standards, to the extent they exist, have focused on file formats. This paper focuses instead on the logical structure of linguistic annotations. We survey a wide variety of existing annotation formats and demonstrate a common conceptual core, the annotation graph. This provides a formal framework for constructing, maintaining and searching linguistic annotations, while remaining consistent with many alternative data structures and file formats. Zusammenfassung Der Begriff `Linguistische Annotation' bezeichnet alle Arten deskriptiver oder analytischer Beschreibung von Sprachdaten. Die Ausgangsdaten können dabei entweder die Form von Zeitfunktionen haben – also z.B. Audio, Video und/oder physiologische Signale – oder als Text vorliegen. Die Annotation dagegen kann folgende Inhalte haben: alle Arten von Transkriptionen (von phonetischen Merkmalen bis zu Dialog-Strukturen), Phrasen – oder Inhalts-Segmentierung, syntaktische Analysen, Identifikation von `named entities', Querverweise innerhalb der Annotation, usw. Zwar stehen zur Zeit mehrere verschiedene Formate und Werkzeuge zur linguistischen Annotation zur Verfügung, andererseits entwickelt sich das Fehlen eines allgemein akzeptierten Standards zu einem ernsten Problem. Bisher vorgeschlagene Standards konzentrieren sich auf die Datenformate. Dieser Beitrag dagegen konzentriert sich auf die logische Struktur linguistischer Annotationen. Wir untersuchen eine breite Auswahl existierender Formate und können zeigen, daßdiesen ein gemeinsames Konzept zugrundeliegt. Dieses bildet die Grundlage für einen algebraischen Formalismus zur linguistischen Annotation, während gleichzeitig die Konsistenz zu vielen alternativen Datenstrukturen und Datenformaten erhalten bleibt. Résumé Par `annotation linguistique' nous désignons toute notation descriptive ou analytique appliquée à des données langagières brutes. Ces données brutes peuvent être des signaux temporels – enregistrements audio, vidéo et/ou physiologiques – ou du texte. Les notations ajoutées peuvent être des transcriptions de toute nature (des traits phonétiques aux structures du discours), des catégories grammaticales ou sémantiques, une analyse syntaxique, l'identification d' `entités nommées', l'annotation de coréférences, etc. Malgré les efforts entrepris pour créer des formats et des outils adaptés à de telles annotations et pour diffuser des bases de données linguistiques annotées, le manque de standards largement acceptés devient un problème critique. Les standards proposés, lorsqu'ils existent, se concentrent sur les formats de fichiers. Cet article se concentre au contraire sur la structure logique des annotations linguistiques. Nous passons en revue une grande variété de formats d'annotations existants et en dégageons une structure conceptuelle commune, le graphe d'annotation. Ceci fournit un cadre formel pour construire des annotations linguistiques, les tenir à jour et y effectuer des requètes, tout en restant cohérent avec de nombreux autres structures de données et formats de fichiers.},\n\tnumber = {1},\n\tjournal = {Speech Communication},\n\tauthor = {Bird, Steven and Liberman, Mark},\n\tyear = {2001},\n\tkeywords = {Directed graph, General-purpose architecture, Phonological representation, Speech corpus, Speech markup},\n\tpages = {23--60},\n}\n\n\n\n","author_short":["Bird, S.","Liberman, M."],"key":"bird_formal_2001","id":"bird_formal_2001","bibbaseid":"bird-liberman-aformalframeworkforlinguisticannotation-2001","role":"author","urls":{"Paper":"https://www.sciencedirect.com/science/article/pii/S0167639300000686"},"keyword":["Directed graph","General-purpose architecture","Phonological representation","Speech corpus","Speech markup"],"metadata":{"authorlinks":{}}},"bibtype":"article","biburl":"https://bibbase.org/zotero-group/schulzkx/5158478","dataSources":["AtpmbBy7pywMXxoua","JFDnASMkoQCjjGL8E"],"keywords":["directed graph","general-purpose architecture","phonological representation","speech corpus","speech markup"],"search_terms":["formal","framework","linguistic","annotation","bird","liberman"],"title":"A formal framework for linguistic annotation","year":2001}