Ein PoS-Tagger für "das" Mittelhochdeutsche. Echelmeyer, N., Reiter, N., & Schulz, S. 2017. 🏷️ /unread、004、830
Paper doi abstract bibtex Mit diesem Beitrag möchten wir einen PoS-Tagger für das Mittelhochdeutsche vorstellen, der auf einem thematisch breiten und diachronen Korpus trainiert wurde. Als Tagset verwenden wir ein Inventar aus 17 universellen Wortart-Kategorien (Universal Dependency-Tagset, Nivre et al. 2016). Mit den annotierten Daten entwickeln wir ein Modell für den TreeTagger (Schmid 1995), das frei zugänglich gemacht wird. Dabei vergleichen wir drei verschiedene Möglichkeiten, den PoS-Tagger zu trainieren. Zunächst verwenden wir ein kleines, manuell annotiertes Trainingsset, vergleichen dessen Ergebnisse dann mit einem kleinen, automatisch disambiguierten Trainingsset und schließlich mit den maximal verfügbaren Daten. Mit dem Tagger möchten wir nicht nur eine „Marktlücke“ schließen (denn bisher gibt es keinen frei verwendbaren PoS-Tagger für das Mittelhochdeutsche), sondern auch eine größtmögliche Anwendbarkeit auf mittelhochdeutsche Texte verschiedener Gattungen, Jahrhunderte und regionaler Varietäten erreichen und weiteren Arbeiten mit mittelhochdeutschen Texten den Weg ebnen. 【摘要翻译】本报告将为中德两国提供一个 PoS-Tagger,该 PoS-Tagger 是在一个主题简明的异时空词库中训练而成的。作为标签集,我们使用了来自 17 个通用词条类别(通用依赖性标签集,Nivre 等人,2016 年)的 Inventar。我们利用已注释的数据建立了一个 TreeTagger 模型(Schmid,1995 年),该模型是免费的。在此基础上,我们比较了训练 PoS-Tagger 的三种不同方法。首先,我们使用一个小的人工注释培训集,然后用一个小的自动消除歧义的培训集来比较其结果,最后再用最大验证数据来比较其结果。通过 Tagger,我们不仅可以建立一个 "Marktlücke"(目前还没有一个适用于中古德文的免费 PoS-Tagger ),还可以提高对中古德文不同语系、不同年代和不同地区文本的适用性,并使我们的中古德文工作更上一层楼。
@article{echelmeyer2017,
title = {Ein {PoS}-{Tagger} für "das" {Mittelhochdeutsche}},
issn = {2397-334X},
shorttitle = {适用于 "das "{Mittelhochdeutsche} 的 {PoS}-{Tagger}},
url = {https://tidsskrift.dk/nts/article/view/124345},
doi = {10.18419/OPUS-9023},
abstract = {Mit diesem Beitrag möchten wir einen PoS-Tagger für das Mittelhochdeutsche vorstellen, der auf einem thematisch breiten und diachronen Korpus trainiert wurde. Als Tagset verwenden wir ein Inventar aus 17 universellen Wortart-Kategorien (Universal Dependency-Tagset, Nivre et al. 2016). Mit den annotierten Daten entwickeln wir ein Modell für den TreeTagger (Schmid 1995), das frei zugänglich gemacht wird. Dabei vergleichen wir drei verschiedene Möglichkeiten, den PoS-Tagger zu trainieren. Zunächst verwenden wir ein kleines, manuell annotiertes Trainingsset, vergleichen dessen Ergebnisse dann mit einem kleinen, automatisch disambiguierten Trainingsset und schließlich mit den maximal verfügbaren Daten. Mit dem Tagger möchten wir nicht nur eine „Marktlücke“ schließen (denn bisher gibt es keinen frei verwendbaren PoS-Tagger für das Mittelhochdeutsche), sondern auch eine größtmögliche Anwendbarkeit auf mittelhochdeutsche Texte verschiedener Gattungen, Jahrhunderte und regionaler Varietäten erreichen und weiteren Arbeiten mit mittelhochdeutschen Texten den Weg ebnen.
【摘要翻译】本报告将为中德两国提供一个 PoS-Tagger,该 PoS-Tagger 是在一个主题简明的异时空词库中训练而成的。作为标签集,我们使用了来自 17 个通用词条类别(通用依赖性标签集,Nivre 等人,2016 年)的 Inventar。我们利用已注释的数据建立了一个 TreeTagger 模型(Schmid,1995 年),该模型是免费的。在此基础上,我们比较了训练 PoS-Tagger 的三种不同方法。首先,我们使用一个小的人工注释培训集,然后用一个小的自动消除歧义的培训集来比较其结果,最后再用最大验证数据来比较其结果。通过 Tagger,我们不仅可以建立一个 "Marktlücke"(目前还没有一个适用于中古德文的免费 PoS-Tagger ),还可以提高对中古德文不同语系、不同年代和不同地区文本的适用性,并使我们的中古德文工作更上一层楼。},
language = {en},
urldate = {2021-06-08},
author = {Echelmeyer, Nora and Reiter, Nils and Schulz, Sarah},
collaborator = {Universität Stuttgart and Universität Stuttgart},
year = {2017},
note = {🏷️ /unread、004、830},
keywords = {/unread, 004, 830},
}
Downloads: 0
{"_id":"xsThBHXdt6dQ37xh6","bibbaseid":"echelmeyer-reiter-schulz-einpostaggerfrdasmittelhochdeutsche-2017","author_short":["Echelmeyer, N.","Reiter, N.","Schulz, S."],"bibdata":{"bibtype":"article","type":"article","title":"Ein PoS-Tagger für \"das\" Mittelhochdeutsche","issn":"2397-334X","shorttitle":"适用于 \"das \"Mittelhochdeutsche 的 PoS-Tagger","url":"https://tidsskrift.dk/nts/article/view/124345","doi":"10.18419/OPUS-9023","abstract":"Mit diesem Beitrag möchten wir einen PoS-Tagger für das Mittelhochdeutsche vorstellen, der auf einem thematisch breiten und diachronen Korpus trainiert wurde. Als Tagset verwenden wir ein Inventar aus 17 universellen Wortart-Kategorien (Universal Dependency-Tagset, Nivre et al. 2016). Mit den annotierten Daten entwickeln wir ein Modell für den TreeTagger (Schmid 1995), das frei zugänglich gemacht wird. Dabei vergleichen wir drei verschiedene Möglichkeiten, den PoS-Tagger zu trainieren. Zunächst verwenden wir ein kleines, manuell annotiertes Trainingsset, vergleichen dessen Ergebnisse dann mit einem kleinen, automatisch disambiguierten Trainingsset und schließlich mit den maximal verfügbaren Daten. Mit dem Tagger möchten wir nicht nur eine „Marktlücke“ schließen (denn bisher gibt es keinen frei verwendbaren PoS-Tagger für das Mittelhochdeutsche), sondern auch eine größtmögliche Anwendbarkeit auf mittelhochdeutsche Texte verschiedener Gattungen, Jahrhunderte und regionaler Varietäten erreichen und weiteren Arbeiten mit mittelhochdeutschen Texten den Weg ebnen. 【摘要翻译】本报告将为中德两国提供一个 PoS-Tagger,该 PoS-Tagger 是在一个主题简明的异时空词库中训练而成的。作为标签集,我们使用了来自 17 个通用词条类别(通用依赖性标签集,Nivre 等人,2016 年)的 Inventar。我们利用已注释的数据建立了一个 TreeTagger 模型(Schmid,1995 年),该模型是免费的。在此基础上,我们比较了训练 PoS-Tagger 的三种不同方法。首先,我们使用一个小的人工注释培训集,然后用一个小的自动消除歧义的培训集来比较其结果,最后再用最大验证数据来比较其结果。通过 Tagger,我们不仅可以建立一个 \"Marktlücke\"(目前还没有一个适用于中古德文的免费 PoS-Tagger ),还可以提高对中古德文不同语系、不同年代和不同地区文本的适用性,并使我们的中古德文工作更上一层楼。","language":"en","urldate":"2021-06-08","author":[{"propositions":[],"lastnames":["Echelmeyer"],"firstnames":["Nora"],"suffixes":[]},{"propositions":[],"lastnames":["Reiter"],"firstnames":["Nils"],"suffixes":[]},{"propositions":[],"lastnames":["Schulz"],"firstnames":["Sarah"],"suffixes":[]}],"collaborator":"Universität Stuttgart and Universität Stuttgart","year":"2017","note":"🏷️ /unread、004、830","keywords":"/unread, 004, 830","bibtex":"@article{echelmeyer2017,\n\ttitle = {Ein {PoS}-{Tagger} für \"das\" {Mittelhochdeutsche}},\n\tissn = {2397-334X},\n\tshorttitle = {适用于 \"das \"{Mittelhochdeutsche} 的 {PoS}-{Tagger}},\n\turl = {https://tidsskrift.dk/nts/article/view/124345},\n\tdoi = {10.18419/OPUS-9023},\n\tabstract = {Mit diesem Beitrag möchten wir einen PoS-Tagger für das Mittelhochdeutsche vorstellen, der auf einem thematisch breiten und diachronen Korpus trainiert wurde. Als Tagset verwenden wir ein Inventar aus 17 universellen Wortart-Kategorien (Universal Dependency-Tagset, Nivre et al. 2016). Mit den annotierten Daten entwickeln wir ein Modell für den TreeTagger (Schmid 1995), das frei zugänglich gemacht wird. Dabei vergleichen wir drei verschiedene Möglichkeiten, den PoS-Tagger zu trainieren. Zunächst verwenden wir ein kleines, manuell annotiertes Trainingsset, vergleichen dessen Ergebnisse dann mit einem kleinen, automatisch disambiguierten Trainingsset und schließlich mit den maximal verfügbaren Daten. Mit dem Tagger möchten wir nicht nur eine „Marktlücke“ schließen (denn bisher gibt es keinen frei verwendbaren PoS-Tagger für das Mittelhochdeutsche), sondern auch eine größtmögliche Anwendbarkeit auf mittelhochdeutsche Texte verschiedener Gattungen, Jahrhunderte und regionaler Varietäten erreichen und weiteren Arbeiten mit mittelhochdeutschen Texten den Weg ebnen.\n\n【摘要翻译】本报告将为中德两国提供一个 PoS-Tagger,该 PoS-Tagger 是在一个主题简明的异时空词库中训练而成的。作为标签集,我们使用了来自 17 个通用词条类别(通用依赖性标签集,Nivre 等人,2016 年)的 Inventar。我们利用已注释的数据建立了一个 TreeTagger 模型(Schmid,1995 年),该模型是免费的。在此基础上,我们比较了训练 PoS-Tagger 的三种不同方法。首先,我们使用一个小的人工注释培训集,然后用一个小的自动消除歧义的培训集来比较其结果,最后再用最大验证数据来比较其结果。通过 Tagger,我们不仅可以建立一个 \"Marktlücke\"(目前还没有一个适用于中古德文的免费 PoS-Tagger ),还可以提高对中古德文不同语系、不同年代和不同地区文本的适用性,并使我们的中古德文工作更上一层楼。},\n\tlanguage = {en},\n\turldate = {2021-06-08},\n\tauthor = {Echelmeyer, Nora and Reiter, Nils and Schulz, Sarah},\n\tcollaborator = {Universität Stuttgart and Universität Stuttgart},\n\tyear = {2017},\n\tnote = {🏷️ /unread、004、830},\n\tkeywords = {/unread, 004, 830},\n}\n\n","author_short":["Echelmeyer, N.","Reiter, N.","Schulz, S."],"key":"echelmeyer2017","id":"echelmeyer2017","bibbaseid":"echelmeyer-reiter-schulz-einpostaggerfrdasmittelhochdeutsche-2017","role":"author","urls":{"Paper":"https://tidsskrift.dk/nts/article/view/124345"},"keyword":["/unread","004","830"],"metadata":{"authorlinks":{}}},"bibtype":"article","biburl":"https://api.zotero.org/groups/2386895/collections/XHYP2IV7/items?format=bibtex&limit=100","dataSources":["L79iy7WyzCDgb996i"],"keywords":["/unread","004","830"],"search_terms":["ein","pos","tagger","das","mittelhochdeutsche","echelmeyer","reiter","schulz"],"title":"Ein PoS-Tagger für \"das\" Mittelhochdeutsche","year":2017}