Adriane Boyd commited on Dec 11, 2021

Commit

7af7c51

•

1 Parent(s): 3960083

Add de_udv25_germanhdt_trf-0.0.1

Browse files

Files changed (28) hide show

.gitattributes +8 -0
LICENSE.txt +5 -0
README.md +3 -0
config.cfg +254 -0
de_udv25_germanhdt_trf-any-py3-none-any.whl +3 -0
experimental_char_ner_tokenizer/cfg +13 -0
experimental_char_ner_tokenizer/model +3 -0
experimental_char_ner_tokenizer/moves +1 -0
experimental_edit_tree_lemmatizer/cfg +0 -0
experimental_edit_tree_lemmatizer/model +3 -0
experimental_edit_tree_lemmatizer/trees +3 -0
meta.json +3 -0
morphologizer/cfg +0 -0
morphologizer/model +3 -0
parser/cfg +13 -0
parser/model +3 -0
parser/moves +1 -0
senter/cfg +3 -0
senter/model +3 -0
tagger/cfg +60 -0
tagger/model +3 -0
transformer/cfg +3 -0
transformer/model +3 -0
vocab/key2row +1 -0
vocab/lookups.bin +3 -0
vocab/strings.json +3 -0
vocab/vectors +3 -0
vocab/vectors.cfg +3 -0

.gitattributes CHANGED Viewed

@@ -25,3 +25,11 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zstandard filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zstandard filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+*.whl filter=lfs diff=lfs merge=lfs -text
+*.npz filter=lfs diff=lfs merge=lfs -text
+*strings.json filter=lfs diff=lfs merge=lfs -text
+vectors filter=lfs diff=lfs merge=lfs -text
+model filter=lfs diff=lfs merge=lfs -text
+trees filter=lfs diff=lfs merge=lfs -text
+meta.json filter=lfs diff=lfs merge=lfs -text
+README.md filter=lfs diff=lfs merge=lfs -text

LICENSE.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+The annotation of the treebank is licensed under the Creative Commons License Attribution-ShareAlike 4.0 International.
+The text can be distributed for academic use.
+The complete license text is available at:
+http://creativecommons.org/licenses/by-sa/4.0/legalcode

README.md ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:fded53a302f9efe6ea053ab6878e126f95ad4cc2b3b59031f01e3c95e4e3e0ed
+size 599615

config.cfg ADDED Viewed

	@@ -0,0 +1,254 @@

+[paths]
+train = "corpus/UD_German-HDT/train.spacy"
+dev = "corpus/UD_German-HDT/dev.spacy"
+vectors = null
+init_tok2vec = null
+tokenizer_source = "training/UD_German-HDT/tokenizer/model-best"
+transformer_source = "training/UD_German-HDT/transformer/model-best"
+[system]
+gpu_allocator = "pytorch"
+seed = 0
+[nlp]
+lang = "de"
+pipeline = ["experimental_char_ner_tokenizer","transformer","senter","tagger","morphologizer","parser","experimental_edit_tree_lemmatizer"]
+batch_size = 64
+disabled = ["senter"]
+before_creation = null
+after_creation = null
+after_pipeline_creation = null
+tokenizer = {"@tokenizers":"spacy-experimental.char_pretokenizer.v1"}
+[components]
+[components.experimental_char_ner_tokenizer]
+factory = "experimental_char_ner_tokenizer"
+scorer = {"@scorers":"spacy-experimental.tokenizer_scorer.v1"}
+[components.experimental_char_ner_tokenizer.model]
+@architectures = "spacy.TransitionBasedParser.v2"
+state_type = "ner"
+extra_state_tokens = false
+hidden_width = 64
+maxout_pieces = 2
+use_upper = true
+nO = null
+[components.experimental_char_ner_tokenizer.model.tok2vec]
+@architectures = "spacy.Tok2Vec.v2"
+[components.experimental_char_ner_tokenizer.model.tok2vec.embed]
+@architectures = "spacy.MultiHashEmbed.v2"
+width = 128
+attrs = ["ORTH","LOWER","IS_DIGIT","IS_ALPHA","IS_SPACE","IS_PUNCT"]
+rows = [1000,500,50,50,50,50]
+include_static_vectors = false
+[components.experimental_char_ner_tokenizer.model.tok2vec.encode]
+@architectures = "spacy.MaxoutWindowEncoder.v2"
+width = 128
+depth = 4
+window_size = 4
+maxout_pieces = 2
+[components.experimental_edit_tree_lemmatizer]
+factory = "experimental_edit_tree_lemmatizer"
+backoff = "orth"
+min_tree_freq = 1
+overwrite = false
+scorer = {"@scorers":"spacy.lemmatizer_scorer.v1"}
+top_k = 1
+[components.experimental_edit_tree_lemmatizer.model]
+@architectures = "spacy.Tagger.v1"
+nO = null
+[components.experimental_edit_tree_lemmatizer.model.tok2vec]
+@architectures = "spacy-transformers.TransformerListener.v1"
+grad_factor = 1.0
+upstream = "transformer"
+pooling = {"@layers":"reduce_mean.v1"}
+[components.morphologizer]
+factory = "morphologizer"
+extend = false
+overwrite = false
+scorer = {"@scorers":"spacy.morphologizer_scorer.v1"}
+[components.morphologizer.model]
+@architectures = "spacy.Tagger.v1"
+nO = null
+[components.morphologizer.model.tok2vec]
+@architectures = "spacy-transformers.TransformerListener.v1"
+grad_factor = 1.0
+upstream = "transformer"
+pooling = {"@layers":"reduce_mean.v1"}
+[components.parser]
+factory = "parser"
+learn_tokens = false
+min_action_freq = 5
+moves = null
+scorer = {"@scorers":"spacy.parser_scorer.v1"}
+update_with_oracle_cut_size = 100
+[components.parser.model]
+@architectures = "spacy.TransitionBasedParser.v2"
+state_type = "parser"
+extra_state_tokens = false
+hidden_width = 64
+maxout_pieces = 3
+use_upper = false
+nO = null
+[components.parser.model.tok2vec]
+@architectures = "spacy-transformers.TransformerListener.v1"
+grad_factor = 1.0
+upstream = "transformer"
+pooling = {"@layers":"reduce_mean.v1"}
+[components.senter]
+factory = "senter"
+overwrite = false
+scorer = {"@scorers":"spacy.senter_scorer.v1"}
+[components.senter.model]
+@architectures = "spacy.Tagger.v1"
+nO = null
+[components.senter.model.tok2vec]
+@architectures = "spacy-transformers.TransformerListener.v1"
+grad_factor = 1.0
+upstream = "transformer"
+pooling = {"@layers":"reduce_mean.v1"}
+[components.tagger]
+factory = "tagger"
+neg_prefix = "!"
+overwrite = false
+scorer = {"@scorers":"spacy.tagger_scorer.v1"}
+[components.tagger.model]
+@architectures = "spacy.Tagger.v1"
+nO = null
+[components.tagger.model.tok2vec]
+@architectures = "spacy-transformers.TransformerListener.v1"
+grad_factor = 1.0
+upstream = "transformer"
+pooling = {"@layers":"reduce_mean.v1"}
+[components.transformer]
+factory = "transformer"
+max_batch_items = 4096
+set_extra_annotations = {"@annotation_setters":"spacy-transformers.null_annotation_setter.v1"}
+[components.transformer.model]
+@architectures = "spacy-transformers.TransformerModel.v3"
+name = "xlm-roberta-base"
+mixed_precision = true
+[components.transformer.model.get_spans]
+@span_getters = "spacy-transformers.strided_spans.v1"
+window = 128
+stride = 96
+[components.transformer.model.grad_scaler_config]
+[components.transformer.model.tokenizer_config]
+use_fast = true
+[components.transformer.model.transformer_config]
+[corpora]
+[corpora.dev]
+@readers = "spacy.Corpus.v1"
+path = ${paths.dev}
+max_length = 0
+gold_preproc = false
+limit = 0
+augmenter = null
+[corpora.train]
+@readers = "spacy.Corpus.v1"
+path = ${paths.train}
+max_length = 0
+gold_preproc = false
+limit = 0
+augmenter = null
+[training]
+train_corpus = "corpora.train"
+dev_corpus = "corpora.dev"
+seed = ${system:seed}
+gpu_allocator = ${system:gpu_allocator}
+dropout = 0.1
+accumulate_gradient = 3
+patience = 5000
+max_epochs = 0
+max_steps = 20000
+eval_frequency = 200
+frozen_components = []
+before_to_disk = null
+annotating_components = []
+[training.batcher]
+@batchers = "spacy.batch_by_padded.v1"
+discard_oversize = true
+get_length = null
+size = 2000
+buffer = 256
+[training.logger]
+@loggers = "spacy.ConsoleLogger.v1"
+progress_bar = false
+[training.optimizer]
+@optimizers = "Adam.v1"
+beta1 = 0.9
+beta2 = 0.999
+L2_is_weight_decay = true
+L2 = 0.01
+grad_clip = 1.0
+use_averages = true
+eps = 0.00000001
+[training.optimizer.learn_rate]
+@schedules = "warmup_linear.v1"
+warmup_steps = 250
+total_steps = 20000
+initial_rate = 0.00005
+[training.score_weights]
+token_f = 0.0
+token_p = null
+token_r = null
+token_acc = null
+sents_f = 0.05
+sents_p = 0.0
+sents_r = 0.0
+tag_acc = 0.11
+pos_acc = 0.05
+morph_acc = 0.05
+morph_per_feat = null
+dep_uas = 0.11
+dep_las = 0.11
+dep_las_per_type = null
+lemma_acc = 0.52
+[pretraining]
+[initialize]
+vectors = ${paths.vectors}
+init_tok2vec = ${paths.init_tok2vec}
+vocab_data = null
+lookups = null
+before_init = null
+after_init = null
+[initialize.components]
+[initialize.tokenizer]

de_udv25_germanhdt_trf-any-py3-none-any.whl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9b3959ba572529d23c2f53627303faef494ec42101d41c0748c64732df810c0c
+size 1051413368

experimental_char_ner_tokenizer/cfg ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "moves":null,
+  "update_with_oracle_cut_size":100,
+  "multitasks":[
+  ],
+  "min_action_freq":1,
+  "learn_tokens":false,
+  "beam_width":1,
+  "beam_density":0.0,
+  "beam_update_prob":0.0,
+  "incorrect_spans_key":null
+}

experimental_char_ner_tokenizer/model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0bb148537f8b3cfc4e73087fa23648f26bd2bc6a8dc13a3724b581823b119180
+size 6922248

experimental_char_ner_tokenizer/moves ADDED Viewed

	@@ -0,0 +1 @@


1	+ ��moves�t{"0":{},"1":{"TOKEN":15600401},"2":{"TOKEN":15600401},"3":{"TOKEN":15600401},"4":{"TOKEN":15600401,"":1},"5":{"":1}}�cfg��neg_key�

experimental_edit_tree_lemmatizer/cfg ADDED Viewed

The diff for this file is too large to render. See raw diff

experimental_edit_tree_lemmatizer/model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c130c62e2e3f19ba992eb6a4004999a5e8dcfef8e963529e8cec8264890cb1c3
+size 191017127

experimental_edit_tree_lemmatizer/trees ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a372c84df492f47982a7d0ac09a10a64548ac5692591ca2dd9dce71985d99970
+size 8762542

meta.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8a7a6caac345424083bc713fe995e4a8d69c4fe419a91073aaefb88fcd5f1037
+size 854809

morphologizer/cfg ADDED Viewed

The diff for this file is too large to render. See raw diff

morphologizer/model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:669274a861bd35e0732da88b0119307c82d1f09db306c251d809054526825faa
+size 1969241

parser/cfg ADDED Viewed

	@@ -0,0 +1,13 @@

+{
+  "moves":null,
+  "update_with_oracle_cut_size":100,
+  "multitasks":[
+  ],
+  "min_action_freq":5,
+  "learn_tokens":false,
+  "beam_width":1,
+  "beam_density":0.0,
+  "beam_update_prob":0.0,
+  "incorrect_spans_key":null
+}

parser/model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:47170eb715e0a8ba9e7f8967cd19e77ed4617a71e4c45ba226dd2506e0779ab6
+size 1066773

parser/moves ADDED Viewed

	@@ -0,0 +1 @@

+ ��moves��{"0":{"":1716977},"1":{"":883617},"2":{"det":343370,"case":305958,"advmod":164962,"amod":153507,"nsubj":134547,"punct":128313,"obl":123673,"obj":77748,"cc":61331,"aux":49621,"nummod":48875,"mark":38584,"nsubj:pass":23516,"cop":12476,"aux:pass":12035,"nmod":11416,"xcomp":5169,"expl:pv":5020,"advcl":4779,"iobj":3450,"expl":1888,"ccomp":1709,"csubj":1645,"compound:prt":971,"acl":963,"parataxis":398,"obj||xcomp":259,"csubj:pass":161,"obl||xcomp":115,"advmod||xcomp":71,"nsubj||parataxis":69,"obl||parataxis":61,"ccomp||xcomp":39,"reparandum":31,"expl:pv||xcomp":26,"iobj||xcomp":22,"advcl||parataxis":22,"cc||parataxis":21,"obj||parataxis":13,"discourse":12,"ccomp||parataxis":11,"xcomp||parataxis":6,"vocative":6,"obj||advmod":6,"nsubj:pass||parataxis":6,"aux||parataxis":5,"advmod||parataxis":5,"dep":0},"3":{"punct":191477,"nmod":172013,"conj":75577,"obl":55413,"obj":46331,"nsubj":45204,"flat:name":45182,"advmod":44170,"appos":34868,"flat":28607,"aux":18800,"acl":15855,"compound:prt":15636,"aux:pass":14644,"parataxis":13085,"ccomp":12016,"xcomp":11653,"advcl":9592,"cop":8272,"expl:pv":3358,"case":3248,"csubj":2651,"acl||obj":2646,"mark":1606,"iobj":1519,"acl||obl":1308,"acl||nmod":1014,"nsubj:pass":823,"acl||nsubj":740,"expl":613,"csubj:pass":567,"xcomp||obj":504,"conj||nsubj":434,"appos||obj":410,"acl||nsubj:pass":382,"conj||obl":327,"conj||obj":322,"appos||nsubj":244,"ccomp||obj":191,"acl||conj":188,"appos||obl":182,"acl||appos":173,"xcomp||obl":159,"appos||nmod":109,"ccomp||nsubj":93,"advmod||xcomp":93,"conj||nsubj:pass":89,"appos||nsubj:pass":87,"obj||xcomp":78,"xcomp||nsubj":77,"conj||nmod":70,"ccomp||obl":67,"appos||appos":67,"det":64,"xcomp||nsubj:pass":56,"conj||conj":55,"obl||xcomp":52,"appos||conj":48,"conj||appos":37,"conj||advmod":31,"acl||iobj":30,"amod":28,"ccomp||xcomp":27,"ccomp||nsubj:pass":27,"expl:pv||xcomp":22,"xcomp||nmod":21,"ccomp||nmod":21,"mark||xcomp":16,"acl||xcomp":16,"cop||xcomp":14,"xcomp||xcomp":13,"ccomp||conj":13,"conj||advcl":12,"cc||conj":11,"punct||advmod":10,"xcomp||conj":9,"vocative":8,"iobj||xcomp":8,"conj||acl":8,"punct||nsubj":6,"appos||xcomp":6,"punct||nmod":5,"nummod":5,"conj||xcomp":5,"conj||iobj":5,"ccomp||iobj":5,"ccomp||advcl":5,"dep":0},"4":{"ROOT":153035}}�cfg��neg_key�

senter/cfg ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "overwrite":false
+}

senter/model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9ef8728f1cadb9e210e67422d9602f1d59c6753a4f8631068fe071cd51b21141
+size 6740

tagger/cfg ADDED Viewed

	@@ -0,0 +1,60 @@

+{
+  "labels":[
+    "$(",
+    "$,",
+    "$.",
+    "ADJA",
+    "ADJD",
+    "ADV",
+    "APPO",
+    "APPR",
+    "APPRART",
+    "APZR",
+    "ART",
+    "CARD",
+    "FM",
+    "ITJ",
+    "KOKOM",
+    "KON",
+    "KOUI",
+    "KOUS",
+    "NE",
+    "NN",
+    "PDAT",
+    "PDS",
+    "PIAT",
+    "PIDAT",
+    "PIS",
+    "PPER",
+    "PPOSAT",
+    "PPOSS",
+    "PRELAT",
+    "PRELS",
+    "PRF",
+    "PROAV",
+    "PTKA",
+    "PTKANT",
+    "PTKNEG",
+    "PTKVZ",
+    "PTKZU",
+    "PWAT",
+    "PWAV",
+    "PWS",
+    "TRUNC",
+    "VAFIN",
+    "VAIMP",
+    "VAINF",
+    "VAPP",
+    "VMFIN",
+    "VMINF",
+    "VMPP",
+    "VVFIN",
+    "VVIMP",
+    "VVINF",
+    "VVIZU",
+    "VVPP",
+    "XY"
+  ],
+  "neg_prefix":"!",
+  "overwrite":false
+}

tagger/model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3763ef49e18df089b81535ecafaf94f9bad55a38ff0e5de3cc098bcb4b6e3da8
+size 166694

transformer/cfg ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "max_batch_items":4096
+}

transformer/model ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f477d5caf61e61e6222796b231cd92c4bd823aa6734df4fff06ceb2f9cf9c287
+size 1126406104

vocab/key2row ADDED Viewed

	@@ -0,0 +1 @@


1	+ �

vocab/lookups.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:76be8b528d0075f7aae98d6fa57a6d3c83ae480a8469e668d7b0af968995ac71
+size 1

vocab/strings.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4b008b4f1bc1f5cf91b9f974cc29dc6d32aea5315d24f6e47896e2f1aa494423
+size 15307456

vocab/vectors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:14772b683e726436d5948ad3fff2b43d036ef2ebbe3458aafed6004e05a40706
+size 128

vocab/vectors.cfg ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "mode":"default"
+}