In [2]:
import copy
import json
import os

from collections import Counter, defaultdict
from itertools import chain

from IPython.display import display, IFrame

In [3]:
TIGER = 'tiger_2.2_JSON/'
OUT_DIR = 'tiger_2.2_UD_headed_JSON'

tree_jsons = []

for jsonfile in sorted(os.listdir(TIGER)):
    with open(os.path.join(TIGER, jsonfile)) as f:
        tree_jsons.append(json.load(f))
        if len(tree_jsons) % 1000 == 0:
            print(len(tree_jsons))

len(tree_jsons)

1000
2000
3000
4000
5000
6000
7000
8000
9000
10000
11000
12000
13000
14000
15000
16000
17000
18000
19000
20000
21000
22000
23000
24000
25000
26000
27000
28000
29000
30000
31000
32000
33000
34000
35000
36000
37000
38000
39000
40000
41000
42000
43000
44000
45000
46000
47000
48000
49000
50000


50472

In [4]:
tree_jsons[0]

{'metadata': {'sent_id': 's1',
  'corp_id': 'Tiger2.2',
  'text_id': '0001_0001',
  'split': 'train',
  'tiger_src': 'Frankfurter Rundschau 199207?? ??? ?????????',
  'tiger_elem': 'Header',
  'text': "`` Ross Perot wäre vielleicht ein prächtiger Diktator ''"},
 'tree': {'category': 'VROOT',
  'is_head': True,
  'span': {'from': 0, 'to': 9},
  'attributes': {'id': 's1_VROOT'},
  'children': [{'is_head': False,
    'span': {'from': 0, 'to': 1},
    'orth': '``',
    'base': '--',
    'tag': '$(:--',
    'features': {'id': 's1_1', 'pos': '$(', 'morph': '--', 'disamb': 'true'},
    'deprel': '--'},
   {'category': 'S',
    'is_head': False,
    'span': {'from': 1, 'to': 8},
    'attributes': {'id': 's1_502'},
    'children': [{'category': 'PN',
      'is_head': False,
      'span': {'from': 1, 'to': 3},
      'attributes': {'id': 's1_500'},
      'children': [{'is_head': False,
        'span': {'from': 1, 'to': 2},
        'orth': 'Ross',
        'base': 'Ross',
        'tag': 'NE:Nom:Sg:

In [5]:
TIGER_UD = 'tiger_release_aug07.corrected.16012013.conll09'

In [6]:
import conllu

with open(TIGER_UD) as f:
    tiger_ud = conllu.parse_incr(
        f,
        fields=['id', 'form', 'lemma', 'f1','xpos', 'f2', 'feats', 'f3', 'head', 'f4', 'deprel'],
        field_parsers={'id' : lambda line, i: line[i].split('_')[1]}
    )
    tiger_ud = list(tiger_ud)

In [7]:
tiger_ud[0]

TokenList<``, Ross, Perot, wäre, vielleicht, ein, prächtiger, Diktator, ''>

In [8]:
len(tree_jsons), len(tiger_ud)

(50472, 50472)

In [9]:
tiger_ud[0][0]

{'id': '1',
 'form': '``',
 'lemma': '--',
 'f1': '_',
 'xpos': '$(',
 'f2': '_',
 'feats': None,
 'f3': '_',
 'head': 4,
 'f4': '_',
 'deprel': '--'}

In [10]:
import urllib.parse

def show_tree(tree_json):
    tree_json = json.dumps(tree_json)
    src = f'http://127.0.0.1:8010/?tree={urllib.parse.quote(tree_json)}'
    display(IFrame(src, 950, 550))

def show_json(tree_json):
    show_tree(tree_json['tree'])

In [11]:
from spacy import displacy

def to_deps(conllu):
    deps = {'words' : [], 'arcs' : []}
    for token in conllu:
        idx = int(token['id'])
        deps['words'].append({'text' : token['form'], 'tag' : token['xpos']})
        if token['head'] > 0:
            d = 'left' if token['head'] > idx else 'right'
            start, end = sorted((idx, token['head']))
            deps['arcs'].append({'start' : start - 1, 'end' : end - 1, 'label' : token['deprel'], 'dir' : d})
    return deps

def display_deps(conllu):    displacy.render(to_deps(conllu), manual=True, options={'distance' : 80})

In [12]:
def get_yield(tree):
    if 'children' not in tree:
        return [tree]
    else:
        yld = []
        for child in tree['children']:
            yld += get_yield(child)
        return yld

def tree_from_ud_tokens(ud_tokens):
    tokens = [{'id' : 0, 'deprel': '<ROOT>', 'form': '<ROOT>', 'children' : []}]
    tokens += [
        {
            'id' : int(token['id']),
            'deprel': token['deprel'],
            'form': token['form'],
            'xpos': token['xpos'],
            'children' : []
        }
        for token in ud_tokens
    ]
    for token in ud_tokens:
        tokens[token['head']]['children'].append(tokens[int(token['id'])])
    return tokens[0]

def _collect_headed_spans(ud_tree, spans):
    my_span = [(ud_tree['id'] - 1, ud_tree['form'])]
    for child in ud_tree['children']:
        child_span = _collect_headed_spans(child, spans)
        my_span += child_span
        spans.append([ud_tree['id'], tuple(child_span)])
    my_span = sorted(my_span)
    return my_span

def collect_headed_spans(ud_tree):
    spans = []
    _collect_headed_spans(ud_tree, spans)
    span2head = {}
    for idx, span in spans:
        span2head[span] = idx - 1
    return span2head

def get_head2span(ud_tree):
    head2span = defaultdict(set)
    for span, head in collect_headed_spans(ud_tree).items():
        head2span[head].add(head)
        head2span[head].update([idx for idx, token in span])
    return {head : tuple(sorted(span)) for head, span in head2span.items()}

'''
def is_dependency_head(span1, span2, span2head):
    #print('---------------------------')
    #print('is', span1, 'the head of', span2, '?')
    idx1 = [idx for idx, form in span1]
    for span, head in span2head.items():
        #print('   ', span, '<===', head)
        if set(span2).issubset(span) and head in idx1:
            return True 
    return False
''';

In [13]:
def is_punctuation(tiger_tree):
    if 'children' in tiger_tree:
        return False
    elif tiger_tree['tag'] in ['$(:--', '$,:--', '$.:--']:
        return True
    return False

def collect_node_spans(tiger_tree, spans, ignore_punct=False, include_terminals=False):
    if 'children' not in tiger_tree:
        if ignore_punct and is_punctuation(tiger_tree):
            return []
        else:
            my_span = [tiger_tree['span']['from']]
            if include_terminals:
                spans.append([tiger_tree, my_span])
            return my_span
    else:
        my_span = []
        for child in tiger_tree['children']:
            my_span += collect_node_spans(child, spans, ignore_punct=ignore_punct, include_terminals=include_terminals)
        my_span = sorted(my_span)
        spans.append([tiger_tree, my_span])
        return my_span

def _remove_punct(tiger_json):
    removed = []
    if 'children' in tiger_json:
        new_children = []
        for child in tiger_json['children']:
            removed += _remove_punct(child)
            if not is_punctuation(child):
                new_children.append(child)
            else:
                removed.append((child, tiger_json['attributes']['id']))
        tiger_json['children'] = new_children
    return removed

def remove_punct(tiger_tree):
    new_tree = copy.deepcopy(tiger_tree)
    removed = _remove_punct(new_tree)
    return new_tree, removed

def is_punctuation_ud(ud_tree):
    if ud_tree['children']:
        return False
    if ud_tree['xpos'] in ['$(', '$,', '$.']:
        return True
    return False

def _remove_punct_ud(ud_tree):
    if 'children' in ud_tree:
        new_children = []
        for child in ud_tree['children']:
            _remove_punct_ud(child)
            if not is_punctuation_ud(child):
                new_children.append(child)
        ud_tree['children'] = new_children

def remove_punct_ud(ud_tree):
    new_tree = copy.deepcopy(ud_tree)
    _remove_punct_ud(new_tree)
    return new_tree

def choose_lowest(nodes):
    lowest = []
    for n1 in nodes:
        is_parent = False
        for n2 in nodes:
            if n2 in n1['children']:
                is_parent = True
        if not is_parent:
            lowest.append(n1)
    return lowest

def reattach_punctuation(tiger_tree, ud_tokens):
    no_punct_tiger_tree, punct = remove_punct(tiger_tree)
    if punct:
        ud_tree = tree_from_ud_tokens(ud_tokens)
        no_punct_ud_tree = remove_punct_ud(ud_tree)
        head2span = get_head2span(no_punct_ud_tree)
        
        tiger_spans = []
        collect_node_spans(no_punct_tiger_tree, tiger_spans, include_terminals=True)
        
        tiger_span2node = defaultdict(list)
        id2span, id2node = dict(), dict()
        for node, span in tiger_spans:
            tiger_span2node[tuple(sorted(span))].append(node)
            node_idx = node['attributes' if 'attributes' in node else 'features']['id']
            id2span[node_idx] = tuple(sorted(span))
            id2node[node_idx] = node
        
        reattach = False
        for p, parent_id in punct:
            tiger_parent_span = id2span[parent_id]
            idx = p['span']['from']
            head_idx = ud_tokens[idx]['head'] - 1
            try:
                ud_head_span = head2span.get(head_idx, (head_idx,))
            except:
                print(idx, ud_tokens[idx])
                print(head_idx, ud_tokens[head_idx])
                display(head2span)
                raise
            if tiger_parent_span == ud_head_span:
                id2node[parent_id]['children'].append(p)
            else:
                reattach = True
                #print(p)
                #print('    TIGER PARENT SPAN:', tiger_parent_span)
                #print('    UD HEAD SPAN     :', ud_head_span)
                new_parent_candidates = tiger_span2node[ud_head_span]
                if len(new_parent_candidates) > 1:
                    new_parent_candidates = choose_lowest(new_parent_candidates)
                try:
                    assert(len(new_parent_candidates) == 1)
                except:
                    print('*********************************')
                    show_tree(tiger_tree)
                    show_tree(no_punct_tiger_tree)
                    print('*********************************')
                    print('CANDIDATE PARENTS FOR:', p)
                    print('UD HEAD SPAN:', ud_head_span)
                    for node in new_parent_candidates:
                        print('NODE:', node['category'])
                    print('TIGER SPANS:')
                    for node, span in tiger_spans:
                        print('   ***', node['category'] if 'category' in node else 'TERMINAL')
                        print('   ******', span)
                    
                    for span, nodes in tiger_span2node.items():
                        print(span)
                        for node in nodes:
                            print('   ===', node['category'] if 'category' in node else 'TERMINAL')
                    raise
                new_parent = new_parent_candidates[0]
                #print('        reattach to:')
                #print('         ->', new_parent['category'])
                if 'children' not in new_parent:
                    # terminal -> node
                    terminal = copy.deepcopy(new_parent)
                    new_parent.pop('orth')
                    new_parent.pop('base')
                    new_parent.pop('tag')
                    new_parent['category'] = 'DUMMY'
                    new_parent['attributes'] = {'id': f'pre_{terminal["features"]["id"]}'}
                    new_parent['children'] = [terminal]
                    terminal['is_head'] = True
                    terminal['deprel'] = 'HD'
                    #print(new_parent)
                new_parent['children'].append(p)
        #if reattach:
        #    show_tree(tiger_tree)
        #    show_tree(no_punct_tiger_tree)
        #    display_deps(ud_tokens)
    
        return no_punct_tiger_tree, reattach
    
    else:
        return tiger_tree, False

In [14]:
COORDINATION = ('CS', 'CVP', 'CVZ', 'CCP', 'CNP', 'CPP', 'CAP', 'CAVP', 'CAC', 'CO',)

In [15]:
def find_smallest_superset(span, spans):
    candidates = [s for s in spans if set(s).issuperset(span) and s != span]
    candidates = sorted(candidates, key=lambda x: len(x))
    #print('CANDIDATES:', candidates)
    return candidates[0]

def introduce_phrase(parent, new_category, new_span):
    #show_tree(parent)
    new_children, new_node_children = [], []
    new_from, new_to = new_span[0], new_span[-1]
    #print(new_from, new_to)
    for child in parent['children']:
        child_span = set(leaf['span']['from'] for leaf in get_yield(child))
        if child_span.issubset(new_span):
            #print('-> APPEND TO NEW NODE')
            new_node_children.append(child)
        else:
            #print('-> KEEP OLD PARENT')
            new_children.append(child)
    new_node = {
        'category' : new_category,
        'is_head' : False,
        'span': {'from': new_from, 'to': new_to},
        'attributes': {'id': f'new_{new_category}'},
        'children' : new_node_children,
    }
    new_children.append(new_node)
    parent['children'] = new_children
    #show_tree(parent)

def introduce_missing_phrases(tiger_tree, ud_tokens):
    ud_tree = tree_from_ud_tokens(ud_tokens)
    no_punct_ud_tree = remove_punct_ud(ud_tree)
    tiger_spans = []
    collect_node_spans(tiger_tree, tiger_spans, ignore_punct=True)
    head2span = get_head2span(no_punct_ud_tree)
    
    _tiger_spans = set(tuple(span) for node, span in tiger_spans)
    _ud_spans = set(tuple(filter(lambda x: x != -1, span)) for span in head2span.values())
    
    tiger_span2node = defaultdict(list)
    #id2span, id2node = dict(), dict()
    for node, span in tiger_spans:
        tiger_span2node[tuple(sorted(span))].append(node)
        #id2span[node['attributes']['id']] = tuple(sorted(span))
        #id2node[node['attributes']['id']] = node
    
    for _ud_span in _ud_spans:
        if _ud_span not in _tiger_spans:
            #print('========>', _ud_span)
            parent_span = find_smallest_superset(_ud_span, _tiger_spans)
            #print('PARENT:', parent_span)
            parent_nodes = [node for node in tiger_span2node[parent_span] if node['category'] != 'VROOT']
            if len(parent_nodes) > 1:
                parent_nodes = choose_lowest(parent_nodes)
            try:
                assert(len(parent_nodes) == 1)
            except:
                print('SPAN', [ud_tokens[i]['form'] for i in _ud_span])
                print('PARENT CANDIDATES:')
                display(parent_nodes)
                raise
            parent_node = parent_nodes[0]
            # coordination is handled differently
            if parent_node['category'] in COORDINATION:
                continue
            try:
                assert(parent_node['category'] == 'PP')
            except:
                show_tree(tiger_tree)
                print('PARENT:', parent_node['category'])
                print('SPAN', [ud_tokens[i]['form'] for i in _ud_span])
                raise
            introduce_phrase(parent_node, 'NP', _ud_span)

In [16]:
PERIOD = []

def _preprocess(node):
    if 'children' not in node:
        return
    # clear any head markings
    for child in node['children']:
        child['is_head'] = False
        _preprocess(child)

def preprocess(tree_json):
    copied = copy.deepcopy(tree_json)
    _preprocess(copied['tree'])
    # change final punctuation to special tags
    if 'children' in copied['tree']:
        for child in sorted(copied['tree']['children'], key=lambda x: -x['span']['to']):
            if 'children' not in child and child['features']['pos'] in PERIOD:
                child['tag'] = 'PERIOD:--'
            else:
                break
    return copied

def preprocess_ud(ud_tokens):
    # change final punctuation to special tags
    root_idx = [i + 1 for i, token in enumerate(ud_tokens) if token['head'] == 0]
    assert(len(root_idx) == 1)
    root_idx = root_idx[0]
    for token in reversed(ud_tokens):
        if token['xpos'] in PERIOD and token['head'] == root_idx:
            token['xpos'] = 'PERIOD'
        else:
            break

In [17]:
def get_id(node):
    if 'attributes' in node:
        return node['attributes']['id']
    else:
        return node['features']['id']

def id2parent(tiger_tree):
    ret = dict()
    for child in tiger_tree.get('children', []):
        ret.update(id2parent(child))
        ret[get_id(child)] = tiger_tree
    return ret

def _node_covers_span(node, left, right):
    node_span = [leaf['span']['from'] for leaf in get_yield(node)]
    return left in node_span and right in node_span

def _lowest_covering_node(tiger_tree, left, right, tab=''):
    #print(tab, tiger_tree.get('category', 'TERMINAL'), tiger_tree['span'], left, right)
    if _node_covers_span(tiger_tree, left, right):
        for child in tiger_tree.get('children', []):
            lcn = _lowest_covering_node(child, left, right, tab=tab + '  ')
            if lcn:
                return lcn
        return tiger_tree
    else:
        return None

def lowest_common_ancestor(tiger_tree, left, right):
    _left = left['span']['from']
    _right = right['span']['from']
    return _lowest_covering_node(tiger_tree, _left, _right)

CLOSING = {
    '``' : "''",
    '(' : ')',
    '`' : "'",
}

DUMMY_CAT = 'NODE'

def reattach_node(node, parents, new_parent):
    old_parent = parents[get_id(node)]
    #print('\nREATTACHING:', node)
    #print('OLD PARENT:', old_parent['category'], old_parent['span'])
    #print('NEW PARENT:', new_parent.get('category', 'TERMINAL'), new_parent['span'])
    old_parent['children'].remove(node)
    
    if 'children' not in new_parent:
        # terminal -> node
        terminal = copy.deepcopy(new_parent)
        new_parent.pop('orth')
        new_parent.pop('base')
        new_parent.pop('tag')
        new_parent['category'] = DUMMY_CAT
        new_parent['attributes'] = {'id': f'pre_{terminal["features"]["id"]}'}
        new_parent['children'] = [terminal]
        terminal['is_head'] = True
        terminal['deprel'] = 'HD'
    
    new_parent['children'].append(node)
    new_parent['children'] = sorted(new_parent['children'], key=lambda x: x['span']['from'])
    parents[get_id(node)] = new_parent

def reattach_punctuation2(tiger_tree):
    #show_tree(tiger_tree)
    reattached = False
    leaves = sorted(get_yield(tiger_tree), key=lambda x: x['span']['from'])
    punct = [leaf for leaf in leaves if leaf['features']['pos'][0] == '$']
    parents = id2parent(tiger_tree)
    for leaf in punct:
        leaf_idx = leaf['span']['from']
        leaf_id = get_id(leaf)
        # recalculate leaves (may have changed if NODE was introduced)
        leaves = sorted(get_yield(tiger_tree), key=lambda x: x['span']['from'])
        # for enclosing punctuation try to find the corresponding symbol and attach them to the node
        # that covers the span within
        if leaf['features']['pos'] == '$(' and leaf['orth'] in ('``', '(', '`'):
            #print(leaf)
            #print(leaf_idx)
            closing = [l for l in leaves[(leaf_idx + 1):] if l['orth'] == CLOSING[leaf['orth']]]
            if closing:
                #display(closing)
                closing = closing[0]
                closing_idx = closing['span']['from']
                #display(leaves[(leaf_idx + 1):closing_idx])
                words_between = [l for l in leaves[(leaf_idx + 1):closing_idx] if l['features']['pos'][0] != '$']
                if words_between:
                    left, right = words_between[0], words_between[-1]
                    new_parent = lowest_common_ancestor(tiger_tree, left, right)
                    reattach_node(leaf, parents, new_parent)
                    reattach_node(closing, parents, new_parent)
                    reattached = True
        # try to reattach from root to the deepest common ancestor of the left and the right neighbor
        elif parents[leaf_id] == tiger_tree:
            words_before = [l for l in leaves[:leaf_idx] if l['features']['pos'][0] != '$']
            words_after = [l for l in leaves[(leaf_idx + 1):] if l['features']['pos'][0] != '$']
            before = words_before[-1] if words_before else None
            after = words_after[0] if words_after else None
            # don't do anything to one word sentences (this should never happen)
            if not before and not after:
                1/0
            # leave punct at the root if it is the first/last token
            elif not before or not after:
                pass
            else:
                new_parent = lowest_common_ancestor(tiger_tree, before, after)
                reattach_node(leaf, parents, new_parent)
                reattached = True
    #if reattached:
    #    show_tree(tiger_tree)
    return reattached

In [29]:
def _mark_heads(tiger_tree, span2head):
    if 'children' not in tiger_tree:
        #print('======', tiger_tree['span']['from'], tiger_tree['orth'])
        if is_punctuation(tiger_tree):
            return ()
        if True:
            idx = tiger_tree['span']['from']
            return ((idx, tiger_tree['orth']),)
    my_span, child_spans = [], []
    for child in tiger_tree['children']:
        child_span = _mark_heads(child, span2head)
        my_span += child_span
        child_spans.append(child_span)
    my_span = tuple(sorted(my_span))
    if len(tiger_tree['children']) == 1:
        tiger_tree['children'][0]['is_head'] = True
        return my_span
    # head already marked when the dummy node was created
    if tiger_tree['category'] == DUMMY_CAT:
        return my_span
    
    #print('CAT:', tiger_tree['category'], 'SPAN:', my_span)
    head_candidates = []
    for child, child_span in zip(tiger_tree['children'], child_spans):
        if is_punctuation(child):
            continue
        #print('    CHILD:', child_span)
        child_dependency_head = span2head.get(child_span, None)
        #print('    CHILD DEP HEAD:', child_dependency_head)
        if child_dependency_head is None or child_dependency_head == -1:
            head_candidates.append([child, child_span])
    '''if len(head_candidates) == 2 and tiger_tree['category'] == 'PP':
        hd1, hd2 = head_candidates
        #print('HD1:', hd1[0])
        #print('HD2:', hd2[0])
        head12 = is_dependency_head(hd1[1], hd2[1], span2head)
        head21 = is_dependency_head(hd2[1], hd1[1], span2head)
        if head12:
            assert(not head21)
            PP_head, NP_head = hd1[0], hd2[0]
        elif head21:
            PP_head, NP_head = hd2[0], hd1[0]
        else:
            print('**********', head12, head21)
            1/0
        PP_children, NP_children = [], []
        for child in tiger_tree['children']:
            if child != PP_head and child != NP_head:
                # from https://www.ims.uni-stuttgart.de/forschung/ressourcen/werkzeuge/tiger2dep/
                if child['deprel'] not in ['AC', 'PH', 'MO', 'CM']:
                    NP_children.append(child)
                else:
                    PP_children.append(child)
        PP_head['is_head'] = True
        NP_head['is_head'] = True
        new_NP_children = [NP_head] + NP_children
        new_NP_from = min(ch['span']['from'] for ch in new_NP_children)
        new_NP_to = min(ch['span']['to'] for ch in new_NP_children)
        new_NP = {
            'category' : 'NP',
            'is_head' : False,
            'span': {'from': new_NP_from, 'to': new_NP_to},
            'attributes': {'id': 'new_NP'},
            'children' : new_NP_children,
        }
        tiger_tree['children'] = [PP_head] + PP_children + [new_NP]
    ''';
    #if len(head_candidates) > 1 and tiger_tree['category'] in COORDINATION:
    if tiger_tree['category'] in COORDINATION:
        head_candidates = []
        conjunctions = [c for c in tiger_tree['children'] if c['deprel'] == 'CD']
        commas = [c for c in tiger_tree['children'] if is_punctuation(c) and c['tag'] == '$,:--']
        conjuncts = [c for c in tiger_tree['children'] if c['deprel'] == 'CJ']
        if conjunctions:
            conjunctions[0]['is_head'] = True
        elif commas:
            commas[0]['is_head'] = True
        elif conjuncts:
            conjuncts[0]['is_head'] = True
        else:
            print('###################', tiger_tree['category'], my_span)
            1/0
    else:
        try:
            assert(len(head_candidates) == 1)
        except:
            print('!!!!!!!!!!!!', tiger_tree['category'], my_span)
            for node, span in head_candidates:
                print('=======', node.get('category', 'TERMINAL'), span)
            raise
        head_candidates[0][0]['is_head'] = True
    
    # for introduced NPs
    if 'deprel' not in tiger_tree:
        assert(tiger_tree['category'] == 'NP')
        tiger_tree['deprel'] = head_candidates[0][0]['deprel']
    
    return my_span

#        nphead = self.__find_head(sentence,rootid,daughters,'NP')
#        if nphead:
#            for d in [ d for d in daughters if d.label not in ['AC','PH','MO','CM'] and d.nid != nphead.nid ]:
#                sentence[d.nid-1].head = nphead.nid

def mark_heads(tiger_json, ud_tokens):
    ud_tokens = copy.deepcopy(ud_tokens)
    ud_tree = tree_from_ud_tokens(ud_tokens)
    ud_tree_no_punct = remove_punct_ud(ud_tree)
    #span2head = collect_headed_spans(ud_tree)
    span2head = collect_headed_spans(ud_tree_no_punct)
    new_json = copy.deepcopy(tiger_json)
    #spans = []
    
    #collect_node_spans(tiger_tree, spans)
    
    tiger_tree = new_json['tree']
    
    introduce_missing_phrases(tiger_tree, ud_tokens)
    
    #print('=======================')
    #show_tree(tiger_tree)
    #punct_tree, changed = reattach_punctuation(tiger_tree, ud_tokens)
    changed = reattach_punctuation2(tiger_tree)
    #show_tree(tiger_tree)
    try:
        _mark_heads(tiger_tree, span2head)
    except:
        #show_tree(tiger_tree)
        #display(span2head)
        raise
    return {'metadata' : tiger_json['metadata'], 'tree' : tiger_tree}, changed

PROCESSED_JSONS = []

SKIP = (
    #'s879', # `` an den Verhandlungstisch '' -> cudzysłowy w UD do <den Verhandlungstisch>;
            # prawdopodobnie błąd przy przepinaniu podrzędników przy tworzeniu PP
    's365', # analogicznie: `` In Maschhad ''
    's46234', # Faune Faune, Nymphen Nymphen
    's50224', # podobnie
)

SKIP_XPOS = [
    ['APPRART', 'NN', '$.'],
    ['APPR', 'NN', '$.'],
    ['APPR', 'NN', '$('],
    ['APPRART', 'ADJA', '$.'],
    ['APPR', 'ADV', '$.'],
    ['APPR', '$.', 'NN'],
]

M, N = 0, 1000000
i = M

SKIPPED = Counter()

for tiger_json, ud_tokens in zip(tree_jsons[M:N], tiger_ud[M:N]):
    i += 1
    
    ud_tokens = copy.deepcopy(ud_tokens)
    
    if tiger_json['metadata']['tiger_elem'] == 'Meta':
        SKIPPED['Meta'] += 1
        continue
    
    if tiger_json['metadata']['sent_id'] in SKIP:
        SKIPPED['list 1'] += 1
        continue
    
    if len(ud_tokens) == 1:
        SKIPPED['len 1'] += 1
        continue
    
    if [token['xpos'] for token in ud_tokens] in SKIP_XPOS:
        SKIPPED['list 2'] += 1
        continue
    
    # some trees have multiple roots!
    roots = [token for token in ud_tokens if token['head'] == 0]
    if len(roots) != 1:
        # if there is only one ‘proper word’ root, choose it
        r1, r2 = [], []
        for root in roots:
            if root['xpos'][0] == '$' or root['xpos'] == 'XY':
                r2.append(root)
            else:
                r1.append(root)
        # if there is only one ‘proper word’ root, choose it
        if len(r1) == 1:
            root_idx = int(r1[0]['id'])
            for root in r2:
                root['head'] = root_idx
        # if there is only one ‘punctuation’ root, choose it
        #elif len(r2) == 1 and r2[0]['xpos'][0] == '$':
        #    root_idx = int(r2[0]['id'])
        #    for root in r1:
        #        root['head'] = root_idx
        else:
            #if tiger_json['metadata']['tiger_elem'] != 'Meta':
            #    show_json(tiger_json)
            #    print(tiger_json['metadata'])
            #    display_deps(ud_tokens)
            #    for root in roots:
            #        print(root['id'], root['form'], root['xpos'], root['head'])
            SKIPPED[f'multiple roots ({tiger_json["metadata"]["tiger_elem"]})'] += 1
            continue
    
    #if len(ud_tokens) > 16:
    #    continue
    
    #show_json(tiger_json)
    #display_deps(ud_tokens)
    preprocess_ud(ud_tokens)
    
    tiger_json = preprocess(tiger_json)
    tiger_tree = tiger_json['tree']
    tokens1 = [leaf['orth'] for leaf in sorted(get_yield(tiger_tree), key=lambda x: x['span']['from'])]
    tokens2 = [token['form'] for token in ud_tokens]
    try:
        assert(tokens1 == tokens2)
    except:
        print(tokens1)
        print(tokens2)
        print(tiger_json['metadata'])
        raise
    try:
        headed_tiger_json, changed = mark_heads(tiger_json, ud_tokens)
        #show_json(headed_tiger_json)
        #if changed:
        #    show_json(tiger_json)
        #    display_deps(ud_tokens)
        #    show_json(headed_tiger_json)
        PROCESSED_JSONS.append(headed_tiger_json)
    except:
        print('=================', i - 1)
        display_deps(ud_tokens)
        show_json(tiger_json)
        #show_tree(headed_tiger_json)
        print(tiger_json['metadata'])
        SKIPPED['error'] += 1
        #raise

!!!!!!!!!!!! S ((0, 'Dazu'), (1, 'Krause'))


{'sent_id': 's1008', 'corp_id': 'Tiger2.2', 'text_id': '0001_0033', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 199207?? ??? ?????????', 'tiger_elem': 'Body', 'text': 'Dazu Krause : `` Ich vertrete meine Region mit ihren Problemen im Bundestag genauso , wie es auch West-Kollegen tun .'}
!!!!!!!!!!!! S ((22, 'vor'), (23, 'sich'), (24, 'das'), (25, 'Mikrofon'), (26, 'und'), (27, 'eine'), (28, 'Belegschaft'), (30, 'die'), (31, 'Angst'), (32, 'vor'), (33, 'morgen'), (34, 'hat'))


{'sent_id': 's1809', 'corp_id': 'Tiger2.2', 'text_id': '0001_0094', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 199207?? ??? ?????????', 'tiger_authors': 'Peter Ziller|masc', 'tiger_elem': 'Body', 'text': "Hinter sich die Transparente `` Stopp der Arbeitsplatzvernichtung '' und `` Wir haben nichts mehr zu verlieren außer unseren Arbeitsplätzen '' , vor sich das Mikrofon und eine Belegschaft , die Angst vor morgen hat ."}
!!!!!!!!!!!! S ((10, 'Fachpersonal'), (11, 'bereitgestellt'))


{'sent_id': 's3262', 'corp_id': 'Tiger2.2', 'text_id': '0001_0184', 'split': 'dev', 'tiger_src': 'Frankfurter Rundschau 199207?? ??? ?????????', 'tiger_elem': 'Body', 'text': 'Das sei möglich , wenn - kurzfristig Ausrüstungslieferungen erhöht , Fachpersonal bereitgestellt und Know-how transferiert sowie - mittel- und langfristig die Exploration und Entwicklung von Öl- und Gasfeldern beschleunigt würden .'}
!!!!!!!!!!!! S ((28, 'Schwarzenberger'), (29, 'mit'), (30, 'Fesseln'))


{'sent_id': 's7267', 'corp_id': 'Tiger2.2', 'text_id': '0150_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951107 FEU D10300734', 'tiger_authors': 'Robert Fischer|masc', 'tiger_elem': 'Body', 'text': 'Alle drei Regisseure waren auch in diesem Jahr mit neuen Filmen in Hof vertreten : Rödl mit Ein Richter in Angst , Graf mit Frau Bu lacht , Schwarzenberger mit Fesseln .'}
!!!!!!!!!!!! S ((9, 'Nach'), (10, 'fünf'), (11, 'im'), (12, 'Urwald'))


{'sent_id': 's7290', 'corp_id': 'Tiger2.2', 'text_id': '0150_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951107 FEU D10300734', 'tiger_authors': 'Robert Fischer|masc', 'tiger_elem': 'Body', 'text': 'Optimale Wirkung aus seinem Off-Kommentar erzielt Hans-Christian Schmid in Nach fünf im Urwald , der witzigsten und populärsten Entdeckung dieses Hofer Jahrgangs .'}
!!!!!!!!!!!! S ((25, 'zur'), (26, 'Rechten'), (27, 'knüppelnde'), (28, 'Uniformträger'), (30, 'nicht'), (31, 'unähnlich'), (32, 'den'), (33, 'früheren'), (34, 'generali'), (36, 'als'), (37, 'wütende'), (38, 'Masken'), (39, 'der'), (40, 'Macht'))


{'sent_id': 's9196', 'corp_id': 'Tiger2.2', 'text_id': '0242_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951108 FEU D10300764', 'tiger_authors': 'Manfred E. Schuchmann|masc', 'tiger_elem': 'Body', 'text': 'Unter dieser zentralen Szene zur Linken Pinellis trauernde und zornige Gefährten ( Camilla Cederna unter ihnen und der Maler selbst mit seinem Sohn ) , zur Rechten knüppelnde Uniformträger , nicht unähnlich den früheren generali , als wütende Masken der Macht .'}
!!!!!!!!!!!! S ((0, 'Je'), (1, 'gewichtiger'), (2, 'nämlich'), (3, 'die'), (4, 'Anteile'), (5, 'von'), (6, 'Luftwaffe'), (7, 'und'), (8, 'Marine'), (9, 'sind'), (11, 'desto'), (13, 'höher'), (14, 'der'), (15, 'durchschnittliche'), (16, 'Technisierungsgrad'), (18, 'also'), (19, 'der'), (20, 'erforderliche'), (21, 'Investitions-'), (22, 'und'), (23, 'Betriebsaufwand'), (24, 'pro'), (25, 'Soldat'))


{'sent_id': 's9281', 'corp_id': 'Tiger2.2', 'text_id': '0244_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951108 DOK D11050317', 'tiger_authors': 'Volker Kröning|masc', 'tiger_elem': 'Body', 'text': "Je gewichtiger nämlich die Anteile von Luftwaffe und Marine sind , desto - höher der durchschnittliche Technisierungsgrad : also der erforderliche Investitions- und Betriebsaufwand pro Soldat , - `` unfreundlicher '' die Verwendungsstrukturen für die Integration kostengünstiger Grundwehrdienstleistender ( insbesondere solcher mit kürzerer Verweildauer in der Truppe ) , - ungünstiger die Kräfte-Raum-Relation der Verteidigung zu Lande , was eine hinreichende Raumdeckung ohne teuren Technologieschub schwieriger macht , und wahrscheinlicher , daß Deutschland unter Druck gerät , auch an Peace Enforcement teilzunehmen :"}
!!!!!!!!!!!! S ((23, 'ob'), (24, 'anwesend'), (25, 'oder'), (26, 'abwesend'))


{'sent_id': 's9537', 'corp_id': 'Tiger2.2', 'text_id': '0247_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951108 FEU D11060169', 'tiger_authors': 'Gilles Deleuze|masc', 'tiger_elem': 'Body', 'text': 'Sie werden sich mit großem Eifer der Feindseligkeit in allen Schattierungen hingeben , der nachhaltigen Aggressivität und Bloßstellung von allem und jedem , ob anwesend oder abwesend , ob Freund oder Feind .'}
!!!!!!!!!!!! S ((15, 'seit'), (16, 'zwölf'), (17, 'Jahren'), (18, 'dessen'), (19, 'Vorsitzender'))


{'sent_id': 's9656', 'corp_id': 'Tiger2.2', 'text_id': '0251_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951108 POL D11070090', 'tiger_authors': 'Stephan Börnecke|masc', 'tiger_elem': 'Body', 'text': 'Vor 20 Jahren Gründungsmitglied des Bundes für Umwelt und Naturschutz Deutschland ( BUND ) , seit zwölf Jahren dessen Vorsitzender - der 59jährige gilt als Leitfigur im Kampf um Natur- , Umwelt- und Lebensschutz .'}
!!!!!!!!!!!! S ((7, 'einige'), (8, 'Milliarden'), (10, 'wegen'), (11, 'Fristverkürzung'), (12, 'Mineralölsteuer'), (14, 'dort'))


{'sent_id': 's10044', 'corp_id': 'Tiger2.2', 'text_id': '0265_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951108 POL D11070408', 'tiger_authors': 'Rolf Dietrich Schwartz|masc', 'tiger_elem': 'Body', 'text': "Ein paar Milliarden aus Ausverkäufen hier , einige Milliarden `` wegen Fristverkürzung Mineralölsteuer '' dort , drei Milliarden aus `` Sonstiges '' - fertig ist das Gleichgewicht im `` Schicksalsbuch der Nation '' ."}
!!!!!!!!!!!! ISU ()


{'sent_id': 's10077', 'corp_id': 'Tiger2.2', 'text_id': '0266_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951108 WIR D11070416', 'tiger_elem': 'Body', 'text': 'Das wird auch im nächsten Jahr so bleiben und im übernächsten und im überübernächsten und . . .'}
!!!!!!!!!!!! S ((36, 'nicht'), (37, 'die'), (38, 'gezeichneten'), (39, 'Gesichter'), (40, 'der'), (41, 'Überlebenden'))


{'sent_id': 's11319', 'corp_id': 'Tiger2.2', 'text_id': '0342_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951109 FEU D10170016', 'tiger_authors': 'Roland H. Wiegenstein|masc', 'tiger_elem': 'Body', 'text': 'Die Bilder von den Vernichtungslagern , Auschwitz vor allem , die er zwischen 1968 und 1973 photographierte , wollte damals niemand haben , nicht das weite Feld mit den Barackenschornsteinen , über dem Krähen kreisen , nicht die gezeichneten Gesichter der Überlebenden .'}
!!!!!!!!!!!! S ((11, 'für'), (12, "McDonald's"), (13, 'die'), (14, 'eines'), (15, 'Hamburgers'))


{'sent_id': 's11344', 'corp_id': 'Tiger2.2', 'text_id': '0343_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951109 FEU D10230298', 'tiger_authors': 'Dirk de Pol|masc', 'tiger_elem': 'Body', 'text': "Ob für eine CD von Coca-Cola die Form einer Dose , für McDonald's die eines Hamburgers oder für die Greatest Hits von Queen ein Q : über 1000 Formen sind dabei im Angebot ."}
!!!!!!!!!!!! S ((0, 'Marx'), (1, 'out'))


{'sent_id': 's11748', 'corp_id': 'Tiger2.2', 'text_id': '0351_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951109 SUH D11070445', 'tiger_authors': 'Steve Körner|masc', 'tiger_elem': 'Header', 'text': 'Marx out , Mensur in ?'}
!!!!!!!!!!!! S ((16, 'Marx'), (17, 'out'))


{'sent_id': 's11780', 'corp_id': 'Tiger2.2', 'text_id': '0351_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951109 SUH D11070445', 'tiger_authors': 'Steve Körner|masc', 'tiger_elem': 'Body', 'text': "Eine Renaissance , die der Alte Herr Egbert Weiß bündig auf den Punkt bringt : `` Marx out - Mensur in '' ."}
!!!!!!!!!!!! S ((0, 'Allerdings'), (1, 'mit'), (2, 'zwei'), (3, 'unter'), (4, 'anderem'), (5, 'von'), (6, 'Grünen'), (7, 'und'), (8, 'Greenpeace'), (9, 'heftig'), (10, 'attackierten'), (11, 'Einschränkungen'))


{'sent_id': 's11863', 'corp_id': 'Tiger2.2', 'text_id': '0353_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951109 AAW D11070546', 'tiger_authors': 'Karl-Heinz Karisch|masc', 'tiger_elem': 'Body', 'text': "Allerdings mit zwei unter anderem von Grünen und Greenpeace heftig attackierten Einschränkungen : Dieses Protokoll , so die EU-Umweltminister , solle sich `` auf Aspekte der Sicherheit des grenzüberschreitenden Transfers '' von aus der Gentechnik hervorgegangenen `` lebenden veränderten Organismen '' beschränken ."}
!!!!!!!!!!!! S ((0, 'Zuerst'), (1, 'mit'), (2, 'italienischen'), (3, 'Worten'))


{'sent_id': 's13846', 'corp_id': 'Tiger2.2', 'text_id': '0451_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951110 FEU D11010540', 'tiger_authors': 'Ulrich Schreiber|masc', 'tiger_elem': 'Body', 'text': 'Zuerst mit italienischen Worten , dann mit modern europäischen Kleidern : eine Domestizierung .'}
!!!!!!!!!!!! S ((19, 'viele'), (20, 'an'), (21, 'Krebs'))


{'sent_id': 's14837', 'corp_id': 'Tiger2.2', 'text_id': '0478_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951110 NAC D11090159', 'tiger_authors': 'Hannes Gamillscheg|masc', 'tiger_elem': 'Body', 'text': 'Jedes vierte Mitglied im Thule-Verein starb , die meisten von ihnen im Alter von 50 bis 65 Jahren , viele an Krebs .'}
!!!!!!!!!!!! S ((18, 'nach'), (19, 'Moskauer'), (20, 'Zählung'), (21, 'also'), (22, 'etwa'), (23, '2000'), (24, 'Mann'))


{'sent_id': 's15094', 'corp_id': 'Tiger2.2', 'text_id': '0490_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951110 NAC D11090334', 'tiger_authors': 'Knut Pries|masc', 'tiger_elem': 'Body', 'text': "Was das russische Kontingent anlangt - laut Gratschow `` eine Brigade mit zwei bis drei Bataillonen '' , nach Moskauer Zählung also etwa 2000 Mann - steht Joulwan der General Leontij Schewzow zur Seite ."}
!!!!!!!!!!!! S ((21, 'hier'), (22, 'der'), (23, 'umtriebige'), (24, 'Niedersachse'), (25, 'auf'), (26, 'der'), (27, 'Höhe'), (28, 'der'), (29, 'Zeit'), (31, 'ausgestattet'), (32, 'mit'), (33, 'modernen'), (34, 'Antworten'))


{'sent_id': 's16586', 'corp_id': 'Tiger2.2', 'text_id': '0578_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951111 PUM D10130758', 'tiger_authors': 'Heinz Schleußer|masc', 'tiger_elem': 'Body', 'text': 'Vielleicht spricht daraus die Sehnsucht nach klaren und einfachen Verhältnissen : Dort der angeblich rückwärtsgewandte , im Verteilungsparadigma gefangene Parteivorsitzende , hier der umtriebige Niedersachse auf der Höhe der Zeit , ausgestattet mit modernen Antworten .'}
!!!!!!!!!!!! S ((0, 'Aber'), (1, 'ja'))


{'sent_id': 's17205', 'corp_id': 'Tiger2.2', 'text_id': '0589_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951111 PUM D11010625', 'tiger_authors': 'Dietrich Sperling|masc', 'tiger_elem': 'Body', 'text': 'Aber ja : Wer wirtschaftspolitische Kompetenz bescheinigt bekommen möchte , muß sie nur der SPD absprechen .'}
!!!!!!!!!!!! S ((0, 'Kritisch'), (1, 'hierzu'), (2, 'der'), (3, 'Industrieforscher'), (4, 'Martin'), (5, 'Baethge'))


{'sent_id': 's17827', 'corp_id': 'Tiger2.2', 'text_id': '0606_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951111 DOK D11080122', 'tiger_authors': 'Ursula Birsl|fem|Peter Lösche|masc|Rolf Wernstedt|masc', 'tiger_elem': 'Body', 'text': 'Kritisch hierzu der Industrieforscher Martin Baethge : `` Bezogen auf Investitionen in Produkt- und Arbeitsfelder wird vor allem auf High-Tech-Industrien , insbesondere auf die neue Schlüsselindustrie der Mikroelektronik , und auf die Schaffung hochqualifizierter Arbeitsplätze in Industrie und Dienstleistung verwiesen .'}
!!!!!!!!!!!! S ((0, 'Und'), (1, 'gleich'), (2, 'nochmal'))


{'sent_id': 's18002', 'corp_id': 'Tiger2.2', 'text_id': '0610_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951111 AAW D11090253', 'tiger_elem': 'Body', 'text': 'Und gleich nochmal : Kölle , ...'}
!!!!!!!!!!!! S ((0, 'Und'), (1, 'noch'), (2, 'konkreter'), (3, 'auf'), (4, 'Seite'), (5, '10'))


{'sent_id': 's18248', 'corp_id': 'Tiger2.2', 'text_id': '0616_0001', 'split': 'dev', 'tiger_src': 'Frankfurter Rundschau 19951111 PUM D11090667', 'tiger_authors': 'Rolf Dietrich Schwartz|masc', 'tiger_elem': 'Body', 'text': "Und noch konkreter auf Seite 10 : `` Wir wollen , daß die deutsche Automobilindustrie mit Benzinsparautos auf den Weltmärkten von morgen an der Spitze liegt . ''"}
!!!!!!!!!!!! S ((0, 'Didier'), (1, 'über'), (2, 'sich'), (3, 'selbst'))


{'sent_id': 's18382', 'corp_id': 'Tiger2.2', 'text_id': '0619_0001', 'split': 'test', 'tiger_src': 'Frankfurter Rundschau 19951111 FEU D11090725', 'tiger_authors': 'Rudolf Walther|masc', 'tiger_elem': 'Body', 'text': "Didier über sich selbst : `` Ich bin ein Labiler . ''"}
!!!!!!!!!!!! S ((8, 'heute'), (9, 'Pfleger'))


{'sent_id': 's18556', 'corp_id': 'Tiger2.2', 'text_id': '0622_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951111 POL D11100705', 'tiger_authors': 'Axel Vornbäumen|masc', 'tiger_elem': 'Body', 'text': 'August , ehemals Personalchef eines mittelständischen Unternehmens und heute Pfleger , trägt auch zum 100. Mal die Behinderten aus dem Bus und setzt sie behutsam in ihre Rollstühle .'}
!!!!!!!!!!!! S ((27, 'so'), (28, 'der'), (29, 'Sprecher'))


{'sent_id': 's23559', 'corp_id': 'Tiger2.2', 'text_id': '0868_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951115 NAC DD1140306', 'tiger_elem': 'Body', 'text': 'Das Flüchtlingshilfswerk habe beide Seiten bisher vergeblich aufgefordert , die von UNHCR angebotene Hilfe in Anspruch zu nehmen und Minderheiten den Zugang zur Heimat zu erlauben , so der Sprecher .'}
!!!!!!!!!!!! S ((0, 'Später'), (1, 'in'), (2, 'der'), (3, 'Kunsthalle'), (4, 'von'), (5, 'Malmö'), (6, 'vom'), (7, '27.'), (8, 'Januar'), (9, 'bis'), (10, '17.'), (11, 'März'))


{'sent_id': 's24189', 'corp_id': 'Tiger2.2', 'text_id': '0896_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951115 FEU D11060846', 'tiger_authors': 'Julian Exner|masc', 'tiger_elem': 'Body', 'text': 'Später in der Kunsthalle von Malmö vom 27. Januar bis 17. März , im New Yorker Guggenheim Museum ( SoHo ) Juni bis September 1996 .'}
!!!!!!!!!!!! S ((16, 'die'), (17, 'Staatsdefizite'), (18, 'ebenfalls'))


{'sent_id': 's24630', 'corp_id': 'Tiger2.2', 'text_id': '0916_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951115 WIR D11140253', 'tiger_elem': 'Body', 'text': 'Alles wie gehabt : Die Löhne sind zu hoch , die Steuer- und Abgabenlasten auch , die Staatsdefizite ebenfalls und die Arbeitslosenzahlen sowieso .'}
!!!!!!!!!!!! S ((31, 'später'), (32, 'zweimal'), (33, 'zwischen'), (34, 'Gervaise'), (35, 'und'), (36, 'dem'), (37, 'sie'), (38, 'aufrichtig'), (39, 'und'), (40, 'beständig'), (41, 'liebenden'), (42, 'Schmied'), (43, 'Goujet'))


{'sent_id': 's26753', 'corp_id': 'Tiger2.2', 'text_id': '1004_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951116 FEU D11130661', 'tiger_authors': 'Ulrich Schreiber|masc', 'tiger_elem': 'Body', 'text': 'Manchmal ergeben sich aus der Deklamation kleine Ariosi und sogar Duettinos : zwischen Gervaise ( einer nicht zu hoch notierten lyrischen Sopranpartie ) und Coupeau nach dessen Werbung zu Beginn , später zweimal zwischen Gervaise und dem sie aufrichtig und beständig liebenden Schmied Goujet .'}
!!!!!!!!!!!! S ((21, 'im'), (22, 'Nahverkehr'), (23, 'in'), (24, 'den'), (25, 'alten'), (26, 'Bundesländern'), (27, '5,60'), (29, '5,40'))


{'sent_id': 's27474', 'corp_id': 'Tiger2.2', 'text_id': '1031_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951116 WIR D11150423', 'tiger_elem': 'Body', 'text': 'Ärgerlich allerdings für Fahrrad-Freunde : Die Mitnahme des Drahtesels in Fernverkehrszügen kostet im nächsten Jahr 9,40 ( neun ) Mark , im Nahverkehr in den alten Bundesländern 5,60 ( 5,40 ) und in den neuen fünf ( 4,40 ) Mark .'}
!!!!!!!!!!!! S ((21, 'Hunderte'), (22, 'von'), (23, 'Männern'), (24, 'lebendig'), (25, 'begraben'))


{'sent_id': 's28376', 'corp_id': 'Tiger2.2', 'text_id': '1079_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951117 NAC DD1160419', 'tiger_elem': 'Body', 'text': '`` Die vom Ankläger vorgelegten Beweise beschreiben Szenen von unvorstellbarer Barbarei : Tausende von Menschen exekutiert und in Massengräbern begraben , Hunderte von Männern lebendig begraben , Männer und Frauen abgeschlachtet , Kinder vor den Augen ihrer Mütter getötet , ein Großvater gezwungen , die Leber seines eigenen Enkelsohnes zu essen .'}
!!!!!!!!!!!! S ((11, 'ihre'), (12, 'Minna'), (13, 'alles'), (14, 'andere'), (15, 'als'), (16, 'ein'), (17, 'schwebend-zartes'), (18, 'Fräulein'), (19, 'jenseits'), (20, 'von'), (21, 'Gut'), (22, 'und'), (23, 'Böse'))


{'sent_id': 's28657', 'corp_id': 'Tiger2.2', 'text_id': '1099_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951117 FEU D11030021', 'tiger_authors': 'Volker Trauth|masc', 'tiger_elem': 'Body', 'text': "Den Besuch der Aufführung schon allein wert ist Cristin König , ihre Minna alles andere als ein schwebend-zartes Fräulein jenseits von Gut und Böse , viel eher noch ein unreifes Ding , entwaffnend direkt und gegenwärtig ; eine Spielerin , die auch übers Ziel hinausschießt und die mit Witz , Ironie und Selbstironie den Panzer Tellheims `` knackt '' ."}
!!!!!!!!!!!! S ((12, 'planierte'), (13, 'Feldwege'), (14, 'wiederhergestellt'))


{'sent_id': 's28769', 'corp_id': 'Tiger2.2', 'text_id': '1100_0001', 'split': 'test', 'tiger_src': 'Frankfurter Rundschau 19951117 WIR D11060788', 'tiger_authors': 'Conrad Lay|masc', 'tiger_elem': 'Body', 'text': 'Gräben werden gegen die Erosion gezogen , Hecken zum Windschutz gepflanzt , planierte Feldwege wiederhergestellt , Alleen angelegt .'}
!!!!!!!!!!!! S ((20, 'mal'), (21, 'einzeln'))


{'sent_id': 's29079', 'corp_id': 'Tiger2.2', 'text_id': '1108_0001', 'split': 'test', 'tiger_src': 'Frankfurter Rundschau 19951117 FEU D11130311', 'tiger_authors': 'Ralf Koch|masc', 'tiger_elem': 'Body', 'text': 'Diese erste Gartenstadt Deutschlands entwarf Richard Riemerschmid , sein Plan ( 1908 ) sah geschwungene Straßen vor , Häuser , mal einzeln , mal in Gruppen .'}
!!!!!!!!!!!! S ((14, 'Marcos'), (15, 'auf'), (16, 'den'), (17, 'Philippinen'))


{'sent_id': 's29150', 'corp_id': 'Tiger2.2', 'text_id': '1109_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951117 WIR D11130767', 'tiger_authors': 'Jürgen Dauth|masc', 'tiger_elem': 'Body', 'text': "`` Wer nicht gerade eine dumme Politik machte , wie Sukarno von Indonesien , Marcos auf den Philippinen oder Mao in China , bekam Wachstum schmerzlos vor die Füße gelegt . ''"}
!!!!!!!!!!!! S ((58, 'am'), (59, 'Boden'), (60, 'eine'), (61, 'Schale'), (62, 'mit'), (63, 'roten'), (64, 'Rosen'))


{'sent_id': 's29183', 'corp_id': 'Tiger2.2', 'text_id': '1110_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951117 FEU D11140283', 'tiger_elem': 'Body', 'text': "Die Szene : ein grauer , nasser Sonntagnachmittag im November , der Direktor des Burgtheaters , bald länger im Amt als außer Heinrich Laube irgendeiner seiner Vorgänger in der 250jährigen Geschichte dieses Theaters , am Schreibtisch in seinem sonst kaum möblierten Büro , eines der beiden Fenster geht auf den Volksgarten und dahinter den `` Heldenplatz '' , am Boden eine Schale mit roten Rosen ."}
!!!!!!!!!!!! S ((0, 'Und'), (1, 'doch'))


{'sent_id': 's29208', 'corp_id': 'Tiger2.2', 'text_id': '1110_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951117 FEU D11140283', 'tiger_elem': 'Body', 'text': 'Und doch : Könnte die Veranstaltung nicht , und zwar gerade unter den gegebenen politischen Verhältnissen , auch mißverstanden werden als ein Ausweichen des Theaters ins Lyrische ?'}
!!!!!!!!!!!! S ((3, 'Hans-Klaus'), (4, 'Jungheinrich'), (5, 'zum'), (6, '100.'), (7, 'Geburtstag'), (8, 'des'), (9, 'Komponisten'), (10, 'Paul'), (11, 'Hindemith'), (13, 'Die'), (14, 'unwiderstehliche'), (15, 'Uninteressantheit'), (16, 'eines'), (17, 'Großmeisters'), (18, 'der'), (19, 'modernen'), (20, 'Musik'))


{'sent_id': 's29356', 'corp_id': 'Tiger2.2', 'text_id': '1114_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951117 FEU D11150082', 'tiger_elem': 'Body', 'text': 'Im Feuilleton : Hans-Klaus Jungheinrich zum 100. Geburtstag des Komponisten Paul Hindemith : Die unwiderstehliche Uninteressantheit eines Großmeisters der modernen Musik ; ferner ein Interview mit dem Philosophen Heinz Paetzold über die Aktualität Ernst Cassirers : Die Zweideutigkeit der symbolischen Formen ; außerdem eine Zeitschriften-Rundschau von Michael Buselmeier Vergangene Provokationen .'}
!!!!!!!!!!!! S ((3, 'Geld'), (4, 'zurück'))


{'sent_id': 's31182', 'corp_id': 'Tiger2.2', 'text_id': '1194_0001', 'split': 'dev', 'tiger_src': 'Frankfurter Rundschau 19951118 WIS DD1170171', 'tiger_elem': 'Header', 'text': 'Mehr Speicherplatz oder Geld zurück'}
!!!!!!!!!!!! S ((20, 'sechs'), (21, 'dagegen'))


{'sent_id': 's31267', 'corp_id': 'Tiger2.2', 'text_id': '1202_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951118 NAC DD1170442', 'tiger_elem': 'Body', 'text': 'Überwältigend war die Mehrheit , mit der die große Kammer dem Einfluß von Lobbyisten entgegentrat : 422 Abgeordnete dafür , sechs dagegen .'}
!!!!!!!!!!!! S ((30, 'Schnitzer'), (31, 'kunstvolle'), (32, 'Statuen'))


{'sent_id': 's31593', 'corp_id': 'Tiger2.2', 'text_id': '1221_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951118 MRE D10030686', 'tiger_authors': 'Peter Gwiasda|masc', 'tiger_elem': 'Body', 'text': 'Hier empfehlen die Holzhandwerker ihre traditionellen Möbel , Weber ihre Stoffe aus Leinen ( Flachs soll im Tal auch wieder angebaut werden ) und Wolle , Schmiede verkaufen Türschlösser , Schnitzer kunstvolle Statuen , Bauern ihr Gemüse und Obst aus dem Garten .'}
!!!!!!!!!!!! S ((39, '300'), (40, '000'), (41, 'Tonnen'), (42, 'als'), (43, 'Import'), (44, 'aus'), (45, 'den'), (46, 'USA'))


{'sent_id': 's32469', 'corp_id': 'Tiger2.2', 'text_id': '1237_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951118 NAC D11090444', 'tiger_elem': 'Body', 'text': 'Generalleutnant Lucius D. Clay kündigte unterdessen in Washington an , für die US-Zone würden im Laufe des Winters 500 000 Tonnen Lebensmittel aus US-Beständen zur Verfügung gestellt , davon 200 000 Tonnen aus Heeresbeständen der US-Armee in Deutschland und 300 000 Tonnen als Import aus den USA .'}
!!!!!!!!!!!! S ((0, 'Und'), (1, 'noch'), (2, 'was'))


{'sent_id': 's33156', 'corp_id': 'Tiger2.2', 'text_id': '1254_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951118 POL D11160701', 'tiger_authors': 'Martin Scholz|masc', 'tiger_elem': 'Body', 'text': "Und noch was : Mit der TV-Serie und den unbekannten Versionen von Songs wie `` The Long And Windung Road '' wollten sie die `` ganze Geschichte der Beatles erzählen , zeigen , wie wir uns entwickelt haben - und nebenbei mit ein paar Gerüchte aus der Welt räumen . ''"}
!!!!!!!!!!!! S ((68, 'auch'), (69, 'mal'), (70, 'Zugfahren'))


{'sent_id': 's33796', 'corp_id': 'Tiger2.2', 'text_id': '1281_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951118 POL D11170524', 'tiger_authors': 'Katharina Sperber|fem', 'tiger_elem': 'Body', 'text': 'Die Evangelische Kirche in Deutschland ( EKD ) und die katholische Deutsche Bischofkonferenz als Gastgeber und der orthodoxe Protokollchef und Erzbischof Longin , der die Reise vorbereitet hat , fanden Kompromisse : keine Rede vor dem Parlament - bittschön , in der Bundesrepublik sind Staat und Kirche getrennt - und auch kein Auftritt vor dem Brandenburger Tor , dafür aber ein ökumenisches Gebet im Dom der Hauptstadt , auch mal Zugfahren und zum Abschluß der Reise am Ende der kommenden Woche ein Gespräch mit dem Bundeskanzler .'}
!!!!!!!!!!!! S ((0, 'Scheidacker'), (1, 'weiter'))


{'sent_id': 's33897', 'corp_id': 'Tiger2.2', 'text_id': '1284_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951118 NAC D11170543', 'tiger_authors': 'Karl-Heinz Baum|masc', 'tiger_elem': 'Body', 'text': 'Scheidacker weiter : Die Lehrer in Brandenburg , fast alle übernommene DDR-Pädagogen , diskriminierten bereits die wenigen Lehrer , die Religionsunterricht erteilten .'}
!!!!!!!!!!!! S ((35, 'wie'), (36, 'notwendig'), (37, 'der'), (38, 'Naturschutz'))


{'sent_id': 's34694', 'corp_id': 'Tiger2.2', 'text_id': '1336_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951120 FEU D11070096', 'tiger_elem': 'Body', 'text': 'Mit diesem etwas verjährten Wissen angefüllt , belehrte Bill Clinton in Philadelphia unlängst seine Anhänger darüber , wie gefährlich die fortschreitende Entwurzelung der Familie sei , wie dringlich die Debatte zum Aufbrechen der Monopole und wie notwendig der Naturschutz .'}
!!!!!!!!!!!! S ((13, 'dann'), (14, 'wieder'), (15, 'völlig'), (16, 'opak'))


{'sent_id': 's34752', 'corp_id': 'Tiger2.2', 'text_id': '1337_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951120 FEU D11080009', 'tiger_authors': 'Peter Körte|masc', 'tiger_elem': 'Body', 'text': 'Ein verlorenes Subjekt , ein schlingerndes Ich , bisweilen durchsichtig wie Kristall , dann wieder völlig opak .'}
!!!!!!!!!!!! S ((14, 'Menschen'), (15, 'flexibilisiert'))


{'sent_id': 's34779', 'corp_id': 'Tiger2.2', 'text_id': '1338_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951120 DOK D11080593', 'tiger_authors': 'Ingomar Hauchler|masc', 'tiger_elem': 'Body', 'text': 'Zur Not müssen eben immer mehr Straßen gebaut , immer mehr Waffen produziert , Menschen flexibilisiert , Sozial- und Umweltstandards auf Weltniveau heruntergebracht und staatliche Subventionen in die Höhe geschraubt werden , um die Konkurrenzfähigkeit der deutschen Wirtschaft zu sichern .'}
!!!!!!!!!!!! S ((38, 'ob'), (39, 'bei'), (40, 'der'), (41, 'IG'), (42, 'Chemie'), (43, 'in'), (44, 'Hannover'))


{'sent_id': 's35052', 'corp_id': 'Tiger2.2', 'text_id': '1344_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951120 NAC D11160135', 'tiger_authors': 'Ulrike Füssel|fem', 'tiger_elem': 'Body', 'text': 'Ob beim Treffen der Gewerkschaft Handel-Banken-Versicherungen ( HBV ) in Bremen , das den Reigen der letztjährigen Kongresse im Januar in Bremen eröffnete , oder beim gewerkschaftlichen Großereignis der IG Metall gegen Ende des Jahres in Berlin , ob bei der IG Chemie in Hannover oder später bei der IG Medien in Bielefeld : Den Delegierten fehlten die Visionen , und sie taten sich schwer damit , jene nachzuvollziehen , die ihnen von ihren jeweiligen Gewerkschaftsspitzen - oder dem Apparat darunter - gewiesen wurden .'}
!!!!!!!!!!!! S ((37, 'später'), (38, 'die'), (39, 'zwölf'), (40, 'Nürnberger'), (41, 'Nachfolgeprozesse'), (43, 'unter'), (44, 'anderem'), (45, 'gegen'), (46, 'Ärzte'), (48, 'Industrielle'), (50, 'Juristen'), (53, 'die'), (54, 'die'), (55, 'Amerikaner'), (56,

{'sent_id': 's35300', 'corp_id': 'Tiger2.2', 'text_id': '1349_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951120 POL D11170155', 'tiger_authors': 'Astrid Hölscher|fem', 'tiger_elem': 'Body', 'text': 'Er mag Genugtuung empfunden haben , daß diese Prozesse stattfanden : erst das Internationale Militärtribunal , das am 20. November 1945 eröffnet wurde und in dem die vier Alliierten noch relativ einträchtig Anklage und Richterbank teilten , später die zwölf Nürnberger Nachfolgeprozesse ( unter anderem gegen Ärzte , Industrielle , Juristen ) , die die Amerikaner von 1946 an allein anstrengten .'}
!!!!!!!!!!!! VP ((21, 'allerdings'), (22, 'aus'), (23, 'Sorge'), (24, 'um'), (25, 'ihr'), (26, 'teures'), (27, 'Flugzeug'))


{'sent_id': 's35903', 'corp_id': 'Tiger2.2', 'text_id': '1376_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19951120 NAC D11190246', 'tiger_authors': 'Charima Reinhardt|fem', 'tiger_elem': 'Body', 'text': 'Das russische Ansinnen , mit den Superkameras der deutschen Tupolew Tschetschenien zu observieren , haben die Führungsoffiziere in Geilenkirchen abgelehnt , allerdings aus Sorge um ihr teures Flugzeug und nicht , weil sie annahmen , die russische Seite könnte die Aufnahmen für eigene innenpolitische Zwecke mißbrauchen .'}
!!!!!!!!!!!! VP ((21, 'dann'), (22, 'zum'), (23, 'Jugend-'), (24, 'und'), (25, 'Sportminister'))


{'sent_id': 's36383', 'corp_id': 'Tiger2.2', 'text_id': '1395_0001', 'split': 'test', 'tiger_src': 'Frankfurter Rundschau 19951120 NAC D11190399', 'tiger_authors': 'Edith Heller|fem', 'tiger_elem': 'Body', 'text': 'Schon bald wurde der intelligente und gefällige junge Mann von der Regierungsspitze bemerkt und zunächst zum Vorsitzenden des Olympischen Komitees , dann zum Jugend- und Sportminister und schließlich sogar zum Vorsitzenden des sozialökonomischen Komitees berufen .'}
!!!!!!!!!!!! S ((18, 'Volkshochschulkurse'), (19, 'mit'), (20, 'Anmeldungen'), (21, 'stapelweise'), (22, 'in'), (23, 'der'), (24, 'Münchner'), (25, 'Kreittmayrstraße'), (26, '5'))


{'sent_id': 's38890', 'corp_id': 'Tiger2.2', 'text_id': '1814_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19970628 WIR D06250072', 'tiger_authors': 'Michael Flämig|masc', 'tiger_elem': 'Body', 'text': 'Anhänger des nachhaltigen Wirtschaftens quittieren dies heute mit Beifall , Juroren mit Auszeichnungen wie den Europäischen Umweltpreis und Volkshochschulkurse mit Anmeldungen stapelweise in der Münchner Kreittmayrstraße 5 .'}
!!!!!!!!!!!! S ((6, 'ob'), (7, 'Schlösser'), (8, 'oder'), (9, 'Ostseebäder'))


{'sent_id': 's40187', 'corp_id': 'Tiger2.2', 'text_id': '1510_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19970102 WIR D12271240', 'tiger_authors': 'Thomas Wüpper|masc', 'tiger_elem': 'Body', 'text': 'Ob Industriebrachen oder hauptstädische Filetstücke , ob Schlösser oder Ostseebäder , kaum einmal gab es richtig Ärger , wenn eine begehrte Liegenschaft versilbert werden sollte .'}
!!!!!!!!!!!! S ((16, '43'), (17, 'mit'), (19, 'befriedigend'))


{'sent_id': 's41348', 'corp_id': 'Tiger2.2', 'text_id': '1574_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19970806 WIR D08050249', 'tiger_elem': 'Body', 'text': "Zwar hätten im Mai noch 48 Prozent der Unternehmer ihre Erträge mit `` schlecht '' , 43 mit `` befriedigend '' und nur neun Prozent mit `` gut '' benotet ."}
!!!!!!!!!!!! S ((15, 'der'), (16, 'Rest'), (17, 'sonstige'), (18, 'Gruppen'))


{'sent_id': 's43449', 'corp_id': 'Tiger2.2', 'text_id': '1677_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19971106 WIR D11050467', 'tiger_elem': 'Body', 'text': 'Ein Viertel sind Schüler und Studenten , jeweils etwa zehn Prozent Rentner und Arbeitslose , der Rest sonstige Gruppen .'}
!!!!!!!!!!!! S ((19, 'die'), (20, 'DB'), (21, 'Cargo'), (22, 'den'), (23, 'Güterverkehr'), (24, 'organisieren'))


{'sent_id': 's43843', 'corp_id': 'Tiger2.2', 'text_id': '1691_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19971206 WIR D12050339', 'tiger_elem': 'Body', 'text': 'Die DB Reise & Touristik wird den Fernverkehr betreiben , die DB Regio für den Nahverkehr zuständig sein , die DB Cargo den Güterverkehr organisieren , die DB Netz für Fahrweg sowie Trassen verantwortlich sein , und die DB Station & Service wird Eigentümerin der Personenbahnhöfe .'}
!!!!!!!!!!!! S ((45, 'in'), (46, 'diesem'), (47, 'Falle'), (48, 'aber'), (49, 'auf'), (50, 'ausdrücklichen'), (51, 'syrischen'), (52, 'Wunsch'), (53, 'hin'))


{'sent_id': 's45316', 'corp_id': 'Tiger2.2', 'text_id': '2057_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19970104 NAC D01030205', 'tiger_authors': 'Peter Gerner|masc', 'tiger_elem': 'Body', 'text': "In einer `` Charta gegen den Terrorismus '' , die an diesem Wochenende von der 14. Sitzung der arabischen Innenministerkonferenz in Tunis verabschiedet werden soll , wird der Kampf gegen eine Besatzungsmacht vom Begriff `` Terrorismus '' ausgenommen - in Übereinstimmung mit UN-Prinzipien zwar , in diesem Falle aber auf ausdrücklichen syrischen Wunsch hin ."}
!!!!!!!!!!!! S ((8, 'dann'), (9, 'rechts'), (10, 'zwei'), (11, 'Kilometer'), (12, 'auf'), (13, 'dem'), (14, 'Cityring'), (15, 'im'), (16, 'Bogen'), (17, 'um'), (18, 'die'), (19, 'Innenstadt'))


{'sent_id': 's45715', 'corp_id': 'Tiger2.2', 'text_id': '2074_0001', 'split': 'test', 'tiger_src': 'Frankfurter Rundschau 19970104 WIS D11190472', 'tiger_authors': 'Thomas Saum-Aldehoff|masc', 'tiger_elem': 'Body', 'text': "`` Die Mainzer Landstraße fünf Kilometer stadteinwärts , dann rechts zwei Kilometer auf dem Cityring im Bogen um die Innenstadt '' - so würde ein Mann typischerweise den Weg zur FR-Redaktion in der Frankfurter City beschreiben ."}
!!!!!!!!!!!! S ((27, 'in'), (28, 'London'), (30, 'Großbritannien'), (31, '33'), (32, 'Prozent'))


{'sent_id': 's45900', 'corp_id': 'Tiger2.2', 'text_id': '2077_0001', 'split': 'test', 'tiger_src': 'Frankfurter Rundschau 19970104 DOK D11270133', 'tiger_authors': 'Werner Rügemer|masc', 'tiger_elem': 'Body', 'text': 'Banken zahlen , alle einschlägigen Steuern zusammengerechnet , in Deutschland 48 Prozent , in Belgien , Holland , Frankreich und wie bisher in Luxemburg 40 Prozent , in London / Großbritannien 33 Prozent , schließlich in Dublin / Irland 10 Prozent .'}
!!!!!!!!!!!! S ((39, 'dann'), (40, 'die'), (42, 'Petro-Dollars'), (44, 'der'), (45, 'OPEC-Staaten'))


{'sent_id': 's45915', 'corp_id': 'Tiger2.2', 'text_id': '2077_0001', 'split': 'test', 'tiger_src': 'Frankfurter Rundschau 19970104 DOK D11270133', 'tiger_authors': 'Werner Rügemer|masc', 'tiger_elem': 'Body', 'text': "Aufgrund seiner liberalisierten Finanzgesetze sog der Finanzplatz Luxemburg seit den 50er Jahren die verschiedensten , international vagabundierenden Gelder an , z. B. zunächst die nicht sofort investierten Kredite des Marshall-Plans und andere Dollarmengen ( `` Eurodollar '' ) , dann die `` Petro-Dollars '' der OPEC-Staaten , dann auch Schwarzgelder aus Billigflaggen- , Drogen- , Rüstungs- und Schwarzmarktgeschäften , schließlich die Vermögensanlagen der zahlungskräftigen , internationalen `` Privatkunden '' ."}
!!!!!!!!!!!! S ((8, 'ein'), (9, 'Teil'), (10, 'außerhalb'))


{'sent_id': 's46063', 'corp_id': 'Tiger2.2', 'text_id': '2077_0001', 'split': 'test', 'tiger_src': 'Frankfurter Rundschau 19970104 DOK D11270133', 'tiger_authors': 'Werner Rügemer|masc', 'tiger_elem': 'Body', 'text': 'Ein Teil der EU-Mitglieder innerhalb der Währungsunion , ein Teil außerhalb - da kommt Freude auf .'}
!!!!!!!!!!!! S ((9, 'dieser'), (10, 'zu'), (11, 'ihm'))


{'sent_id': 's46708', 'corp_id': 'Tiger2.2', 'text_id': '2094_0001', 'split': 'dev', 'tiger_src': 'Frankfurter Rundschau 19970104 POL D12300301', 'tiger_authors': 'Roderich Reifenrath|masc', 'tiger_elem': 'Body', 'text': 'Später stand er in merkwürdiger Affinität zu Augstein und dieser zu ihm - zwei ehemalige Offiziere der Wehrmacht , in Haßliebe verbunden .'}
!!!!!!!!!!!! S ((5, 'mal'), (6, 'konservativ'))


{'sent_id': 's46737', 'corp_id': 'Tiger2.2', 'text_id': '2094_0001', 'split': 'dev', 'tiger_src': 'Frankfurter Rundschau 19970104 POL D12300301', 'tiger_authors': 'Roderich Reifenrath|masc', 'tiger_elem': 'Body', 'text': 'Mal klingt es progressiv , mal konservativ , mal bestechend in der Argumentation , mal einfach nur herausgeschleudert , mal sogar irritierend national , mal wie aus der Feder eines anarchisch programmierten Liberalen , mal wie im Staatsverständnis eines Etatisten - und manchmal wünscht man sich vor der Satzherstellung die ordnende Hand eines furchtlosen Redakteurs .'}
!!!!!!!!!!!! S ((11, 'vorn'), (12, 'Baugruben'))


{'sent_id': 's47708', 'corp_id': 'Tiger2.2', 'text_id': '2152_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19970215 MRE D01290361', 'tiger_elem': '--', 'text': 'Rechts eine Baustelle , links ein mit Plastikbahnen verhängtes Haus , vorn Baugruben , darüber ein Wald von Kränen .'}
!!!!!!!!!!!! S ((111, 'schließlich'), (112, 'nach'), (113, 'Kössen'))


{'sent_id': 's47764', 'corp_id': 'Tiger2.2', 'text_id': '2153_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19970215 MRE D01290702', 'tiger_authors': 'Karl Stankiewitz|masc', 'tiger_elem': 'Body', 'text': "Der grenzenlose Weitwanderweg zieht sich von der Seenplatte bei Bad Endorf am Westufer des Chiemsees entlang über das Bernauer Moor , durch das von einem Schloß gekrönte Aschau ( wo das Projekt geboren wurde ) und das zwölf Kilometer lange Priental bis hinauf nach Sachrang , dann weiter über den Grenzweiler Wildbichl ( wo jetzt der `` Antigrenzstein '' mit bayerischem Löwen und Tiroler Adler steht ) , durch das versteckte Dörfchen Rettenschöss ( das im Wappen mit weißblauen Rauten auf alte Beziehungen zu Bayern verweist ) , zum Dorf Walchsee ( als `` Walchen '' bezeichnen alte Chroniken die bei der Völkerwanderung auf eine keltisch-römische Urbevölkerung gestoßenen Bajuwaren ) und schließlich nach Kössen ."}
!!!!!!!!!!!! S ((36, 'jetzt'), (37, 'wieder'), (38, 'Koblenz'

{'sent_id': 's47835', 'corp_id': 'Tiger2.2', 'text_id': '2155_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19970215 POL D02030478', 'tiger_authors': 'Stephan Hebel|masc', 'tiger_elem': 'Body', 'text': "Diesmal reist er die Lahn herauf und herunter , drei Tage lang : Erst Koblenz , dann Bad Ems ( `` ich habe mich auf der Hinfahrt erkundigt , wo das überhaupt liegt '' ) , jetzt wieder Koblenz ."}
!!!!!!!!!!!! S ((19, 'zwischen'), (20, 'den'), (21, 'Augenbrauen'), (22, 'eine'), (23, 'feine'), (25, 'sensible'), (26, 'Falte'))


{'sent_id': 's48413', 'corp_id': 'Tiger2.2', 'text_id': '2163_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19970215 MRE D02091075', 'tiger_authors': 'Nora Sobich|fem', 'tiger_elem': 'Body', 'text': 'Der Gesichtsausdruck ist streng , die Nase gerade und groß , die Haare von hinten nach vorn gekämmt , zwischen den Augenbrauen eine feine , sensible Falte .'}
!!!!!!!!!!!! S ((27, 'darüber'), (28, 'die'), (29, 'lineare'), (30, 'Großform'), (31, 'der'), (32, 'zeichenhaft'), (33, 'vereinfachten'), (34, 'Staffelei'), (36, 'die'), (37, 'in'), (38, 'den'), (39, 'nachfolgenden'), (40, 'Bildern'), (41, 'als'), (42, 'Leitmotiv'), (43, 'immer'), (44, 'wieder'), (45, 'auftaucht'))


{'sent_id': 's48859', 'corp_id': 'Tiger2.2', 'text_id': '2172_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19970215 FEU D02140013', 'tiger_authors': 'Gabriele Hoffmann|fem', 'tiger_elem': 'Body', 'text': 'Auf einem Tisch ein Arrangement flächig miteinander verspannter Gegenstände - Palette und Pinsel , eine Orange auf einem Teller , ein Glas , eine Blattpflanze - und darüber die lineare Großform der zeichenhaft vereinfachten Staffelei , die in den nachfolgenden Bildern als Leitmotiv immer wieder auftaucht .'}
!!!!!!!!!!!! S ((19, 'Temperatur'), (21, 'zehn'), (22, 'Grad'), (23, 'minus'))


{'sent_id': 's50243', 'corp_id': 'Tiger2.2', 'text_id': '2249_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19970311 DOK D02180654', 'tiger_authors': 'Hannelore Jaresch|fem', 'tiger_elem': 'Body', 'text': 'Die Wagen sind älterer Bauart , die Seitenöffnungen nur notdürftig auf einer Seite mit einer schmalen Plane verschlossen ( Temperatur : zehn Grad minus ) .'}
!!!!!!!!!!!! S ((24, 'einige'), (25, 'auf'), (26, 'einem'), (27, 'Auge'), (28, 'oder'), (29, 'sogar'), (30, 'beidseitig'), (31, 'blind'))


{'sent_id': 's50249', 'corp_id': 'Tiger2.2', 'text_id': '2249_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 19970311 DOK D02180654', 'tiger_authors': 'Hannelore Jaresch|fem', 'tiger_elem': 'Body', 'text': 'Es sind zum großen Teil ausgediente Pferde aus der polnischen Landwirtschaft , zum Teil stark lahmend , mit erschreckenden Hufdeformationen , eingefallenen Rücken , einige auf einem Auge oder sogar beidseitig blind , viele mit Nasenausfluß , manche mit blutenden Verletzungen am Kopf und an den Beinen , einige kolikverdächtig .'}


In [21]:
show_json(PROCESSED_JSONS[1])

In [22]:
len(tree_jsons), len(PROCESSED_JSONS), len(tree_jsons) - len(PROCESSED_JSONS)

(50472, 46265, 4207)

In [1321]:
SKIPPED

Counter({'Meta': 2883,
         'list 2': 26,
         'len 1': 876,
         'list 1': 3,
         'multiple roots (Body)': 171,
         'multiple roots (Header)': 60,
         'error': 72,
         'multiple roots (--)': 116})

In [1322]:
Counter(tiger_json['metadata']['tiger_elem'] for tiger_json in tree_jsons)

Counter({'Header': 4529, 'Body': 40733, 'Meta': 2883, '--': 2327})

In [1329]:
for tiger_json in PROCESSED_JSONS:
    if tiger_json['metadata']['sent_id'] == 's1':
    #if tiger_json['metadata']['text'].startswith('Der Mensch , der '):
        show_json(tiger_json)
        print(tiger_json['metadata'])

{'sent_id': 's1', 'corp_id': 'Tiger2.2', 'text_id': '0001_0001', 'split': 'train', 'tiger_src': 'Frankfurter Rundschau 199207?? ??? ?????????', 'tiger_elem': 'Header', 'text': "`` Ross Perot wäre vielleicht ein prächtiger Diktator ''"}


In [1324]:
! rm -r {OUT_DIR}
! mkdir {OUT_DIR}

In [1325]:
for tree_json in PROCESSED_JSONS:
    tree_id = tree_json['metadata']['sent_id']
    tree_no = int(tree_id[1:])
    if tree_no % 1000 == 0:
        print(tree_no)
    with open(os.path.join(OUT_DIR, f's{tree_no:06}.json'), 'w') as f:
        json.dump(tree_json, f)

1000
2000
3000
4000
5000
6000
7000
8000
9000
10000
11000
12000
13000
14000
15000
16000
17000
18000
19000
20000
21000
22000
23000
24000
25000
26000
28000
29000
30000
31000
32000
33000
34000
35000
36000
37000
38000
39000
40000
41000
42000
43000
44000
45000
46000
47000
48000
49000


In [1326]:
! ls {OUT_DIR} | wc

  46265   46265  601445


In [1327]:
! tar -cJf {OUT_DIR}.tar.xz {OUT_DIR}

In [1328]:
OUT_DIR

'tiger_2.2_UD_headed_JSON'