save any defined stemmata in GraphML
[scpubgit/stemmatology.git] / lib / Text / Tradition / Parser / Self.pm
index f574d37..8483891 100644 (file)
@@ -3,6 +3,7 @@ package Text::Tradition::Parser::Self;
 use strict;
 use warnings;
 use Text::Tradition::Parser::GraphML qw/ graphml_parse /;
+use TryCatch;
 
 =head1 NAME
 
@@ -106,160 +107,170 @@ my $t = Text::Tradition->new(
     'file'  => $tradition,
     );
 
-is( ref( $t ), 'Text::Tradition', "Parsed our own GraphML" );
+is( ref( $t ), 'Text::Tradition', "Parsed GraphML version 2" );
 if( $t ) {
     is( scalar $t->collation->readings, 319, "Collation has all readings" );
     is( scalar $t->collation->paths, 376, "Collation has all paths" );
     is( scalar $t->witnesses, 13, "Collation has all witnesses" );
 }
 
+# TODO add a relationship, add a stemma, write graphml, reparse it, check that 
+# the new data is there
+$t->language('Greek');
+$t->add_stemma( 'dotfile' => 't/data/florilegium.dot' );
+$t->collation->add_relationship( 'w12', 'w13', 
+       { 'type' => 'grammatical', 'scope' => 'global', 
+         'annotation' => 'This is some note' } );
+ok( $t->collation->get_relationship( 'w12', 'w13' ), "Relationship set" );
+my $graphml_str = $t->collation->as_graphml;
+
+my $newt = Text::Tradition->new( 'input' => 'Self', 'string' => $graphml_str );
+is( ref( $newt ), 'Text::Tradition', "Parsed current GraphML version" );
+if( $newt ) {
+    is( scalar $newt->collation->readings, 319, "Collation has all readings" );
+    is( scalar $newt->collation->paths, 376, "Collation has all paths" );
+    is( scalar $newt->witnesses, 13, "Collation has all witnesses" );
+    is( scalar $newt->collation->relationships, 1, "Collation has added relationship" );
+    is( $newt->language, 'Greek', "Tradition has correct language setting" );
+    my $rel = $newt->collation->get_relationship( 'w12', 'w13' );
+    ok( $rel, "Found set relationship" );
+    is( $rel->annotation, 'This is some note', "Relationship has its properties" );
+    is( scalar $newt->stemmata, 1, "Tradition has its stemma" );
+    is( $newt->stemma(0)->witnesses, $t->stemma(0)->witnesses, "Stemma has correct length witness list" );
+}
+
+
 =end testing
 
 =cut
 
-my( $IDKEY, $TOKENKEY, $TRANSPOS_KEY, $RANK_KEY, $CLASS_KEY,
-       $START_KEY, $END_KEY, $LACUNA_KEY,
-       $SOURCE_KEY, $TARGET_KEY, $WITNESS_KEY, $EXTRA_KEY, $RELATIONSHIP_KEY,
-       $COLO_KEY, $CORRECT_KEY, $INDEP_KEY )
-    = qw/ name reading identical rank class
-         is_start is_end is_lacuna 
-         source target witness extra relationship
-         equal_rank non_correctable non_independent /;
-
 sub parse {
     my( $tradition, $opts ) = @_;
-    my $graph_data = graphml_parse( $opts );
+    
+    # Collation data is in the first graph; relationship-specific stuff 
+    # is in the second.
+    my( $graph_data, $rel_data ) = graphml_parse( $opts );
     
     my $collation = $tradition->collation;
     my %witnesses;
     
-    # Set up the graph-global attributes.  They will appear in the
-    # hash under their accessor names.
-    my $use_version;
     # print STDERR "Setting graph globals\n";
     $tradition->name( $graph_data->{'name'} );
+    my $use_version;
+    my $tmeta = $tradition->meta;
+    my $cmeta = $collation->meta;
     foreach my $gkey ( keys %{$graph_data->{'global'}} ) {
                my $val = $graph_data->{'global'}->{$gkey};
                if( $gkey eq 'version' ) {
                        $use_version = $val;
+               } elsif( $gkey eq 'stemmata' ) { # Special case, yuck
+                       foreach my $dotstr ( split( /\n/, $val ) ) {
+                               $tradition->add_stemma( 'dot' => $dotstr );
+                       }
+               } elsif( $tmeta->has_attribute( $gkey ) ) {
+                       $tradition->$gkey( $val );
                } else {
                        $collation->$gkey( $val );
                }
        }
-       if( $use_version ) {
-               # Many of our tags changed.
-               $IDKEY = 'id';
-               $TOKENKEY = 'text';
-               $COLO_KEY = 'colocated';
-       }
                
-    # Add the nodes to the graph. 
-
-    my $extra_data = {}; # Keep track of data that needs to be processed
-                         # after the nodes & edges are created.
-    # print STDERR "Adding graph nodes\n";
-    foreach my $n ( @{$graph_data->{'nodes'}} ) {
-       unless( $use_version ) {
-               # Backwards compat!
-               $n->{$START_KEY} = 1 if $n->{$IDKEY} eq '#START#';
-               $n->{$END_KEY} = 1 if $n->{$IDKEY} eq '#END#';
-       }
-       
+    # Add the nodes to the graph.
+    # Note any reading IDs that were changed in order to comply with XML 
+    # name restrictions; we have to hardcode start & end.
+    my %namechange = ( '#START#' => '__START__', '#END#' => '__END__' );
+
+    # print STDERR "Adding collation readings\n";
+    foreach my $n ( @{$graph_data->{'nodes'}} ) {      
        # If it is the start or end node, we already have one, so
        # grab the rank and go.
-       next if( defined $n->{$START_KEY} );
-       if( defined $n->{$END_KEY} ) {
-               $collation->end->rank( $n->{$RANK_KEY} );
+       next if( defined $n->{'is_start'} );
+       if( defined $n->{'is_end'} ) {
+               $collation->end->rank( $n->{'rank'} );
                next;
        }
-       
-       # First extract the data that we can use without reference to
-       # anything else.
-       my %node_data = %$n; # Need $n itself untouched for edge processing
-        
-        # Create the node.  
-        my $reading_options = { 
-               'id' => delete $node_data{$IDKEY},
-               'is_lacuna' => delete $node_data{$LACUNA_KEY},
-               };
-        my $rank = delete $node_data{$RANK_KEY};
-               $reading_options->{'rank'} = $rank if $rank;
-               my $text = delete $node_data{$TOKENKEY};
-               $reading_options->{'text'} = $text if $text;
-
-        # This is a horrible hack for backwards compatibility.
-        unless( $use_version ) {
-                       $reading_options->{'is_lacuna'} = 1 
-                               if $reading_options->{'text'} =~ /^\#LACUNA/;
+               my $gnode = $collation->add_reading( $n );
+               if( $gnode->id ne $n->{'id'} ) {
+                       $namechange{$n->{'id'}} = $gnode->id;
                }
-               
-               delete $node_data{$CLASS_KEY}; # Not actually used
-               my $gnode = $collation->add_reading( $reading_options );
-
-        # Now save the data that we need for post-processing,
-        # if it exists. TODO this is unneeded after conversion
-        if ( keys %node_data ) {
-            $extra_data->{$gnode->id} = \%node_data
-        }
     }
         
     # Now add the edges.
-    # print STDERR "Adding graph edges\n";
+    # print STDERR "Adding collation path edges\n";
     foreach my $e ( @{$graph_data->{'edges'}} ) {
-        my $from = $e->{$SOURCE_KEY};
-        my $to = $e->{$TARGET_KEY};
-        my $class = $e->{$CLASS_KEY} || 'path';
-
-        # We may have more information depending on the class.
-        if( $class eq 'path' ) {
-               # We need the witness, and whether it is an 'extra' reading path.
-               my $wit = $e->{$WITNESS_KEY};
-               warn "No witness label on path edge!" unless $wit;
-               my $extra = $e->{$EXTRA_KEY};
-               my $label = $wit . ( $extra ? $collation->ac_label : '' );
-               $collation->add_path( $from->{$IDKEY}, $to->{$IDKEY}, $label );
-               # Add the witness if we don't have it already.
-                       unless( $witnesses{$wit} ) {
-                               $tradition->add_witness( sigil => $wit );
-                               $witnesses{$wit} = 1;
-                       }
-                       $tradition->witness( $wit )->is_layered( 1 ) if $extra;
-        } elsif( $class eq 'relationship' ) {
-               # We need the metadata about the relationship.
-               my $opts = { 'type' => $e->{$RELATIONSHIP_KEY} };
-               $opts->{$COLO_KEY} = $e->{$COLO_KEY} 
-                       if exists $e->{$COLO_KEY};
-               $opts->{$CORRECT_KEY} = $e->{$CORRECT_KEY} 
-                       if exists $e->{$CORRECT_KEY};
-               $opts->{$INDEP_KEY} = $e->{$INDEP_KEY} 
-                       if exists $e->{$INDEP_KEY};
-               warn "No relationship type for relationship edge!" unless $opts->{'type'};
-               my( $ok, @result ) = $collation->add_relationship( $from->{$IDKEY}, $to->{$IDKEY}, $opts );
-               unless( $ok ) {
-                       my $relinfo = $opts->{'type'} . ' ' 
-                               . join( ' -> ', $from->{$IDKEY}, $to->{$IDKEY} );
-                       warn "Did not add relationship $relinfo: @result";
-               }
-        } 
+       my $sourceid = exists $namechange{$e->{'source'}->{'id'}}
+               ? $namechange{$e->{'source'}->{'id'}} : $e->{'source'}->{'id'};
+       my $targetid = exists $namechange{$e->{'target'}->{'id'}}
+               ? $namechange{$e->{'target'}->{'id'}} : $e->{'target'}->{'id'};
+        my $from = $collation->reading( $sourceid );
+        my $to = $collation->reading( $targetid );
+
+               warn "No witness label on path edge!" unless $e->{'witness'};
+               my $label = $e->{'witness'} . ( $e->{'extra'} ? $collation->ac_label : '' );
+               $collation->add_path( $from, $to, $label );
+               
+               # Add the witness if we don't have it already.
+               unless( $witnesses{$e->{'witness'}} ) {
+                       $tradition->add_witness( 
+                               sigil => $e->{'witness'}, 'sourcetype' => 'collation' );
+                       $witnesses{$e->{'witness'}} = 1;
+               }
+               $tradition->witness( $e->{'witness'} )->is_layered( 1 ) if $e->{'extra'};
     }
-
-    ## Deal with node information (transposition, relationships, etc.) that
-    ## needs to be processed after all the nodes are created.
-    ## TODO unneeded after conversion
-    unless( $use_version ) {
-               # print STDERR "Adding second-pass node data\n";
-               foreach my $nkey ( keys %$extra_data ) {
-                       foreach my $edkey ( keys %{$extra_data->{$nkey}} ) {
-                               my $this_reading = $collation->reading( $nkey );
-                               if( $edkey eq $TRANSPOS_KEY ) {
-                                       my $other_reading = $collation->reading( $extra_data->{$nkey}->{$edkey} );
-                                       $this_reading->set_identical( $other_reading );
-                               } else {
-                                       warn "Unfamiliar reading node data $edkey for $nkey";
-                               }
+    
+    ## Done with the main graph, now look at the relationships.
+       # Nodes are added via the call to add_reading above.  We only need
+       # add the relationships themselves.
+       # TODO check that scoping does trt
+       $rel_data->{'edges'} ||= []; # so that the next line doesn't break on no rels
+       foreach my $e ( sort { _layersort_rel( $a, $b ) } @{$rel_data->{'edges'}} ) {
+       my $sourceid = exists $namechange{$e->{'source'}->{'id'}}
+               ? $namechange{$e->{'source'}->{'id'}} : $e->{'source'}->{'id'};
+       my $targetid = exists $namechange{$e->{'target'}->{'id'}}
+               ? $namechange{$e->{'target'}->{'id'}} : $e->{'target'}->{'id'};
+        my $from = $collation->reading( $sourceid );
+        my $to = $collation->reading( $targetid );
+               delete $e->{'source'};
+               delete $e->{'target'};
+               # The remaining keys are relationship attributes.
+               # Backward compatibility...
+               if( $use_version eq '2.0' || $use_version eq '3.0' ) {
+                       delete $e->{'class'};
+                       $e->{'type'} = delete $e->{'relationship'} if exists $e->{'relationship'};
+               }
+               # Add the specified relationship unless we already have done.
+               my $rel_exists;
+               if( $e->{'scope'} ne 'local' ) {
+                       my $relobj = $collation->get_relationship( $from, $to );
+                       if( $relobj && $relobj->scope eq $e->{'scope'}
+                               && $relobj->type eq $e->{'type'} ) {
+                               $rel_exists = 1;
                        }
                }
-    }
+               try {
+                       $collation->add_relationship( $from, $to, $e ) unless $rel_exists;
+               } catch( Text::Tradition::Error $e ) {
+                       warn "DROPPING $from -> $to: " . $e->message;
+               }
+       }
+       
+    # Save the text for each witness so that we can ensure consistency
+    # later on
+       $collation->text_from_paths();  
+}
+
+## Return the relationship that comes first in priority.
+my %LAYERS = (
+       'collated' => 1,
+       'orthographic' => 2,
+       'spelling' => 3,
+       );
+
+sub _layersort_rel {
+       my( $a, $b ) = @_;
+       my $key = exists $a->{'type'} ? 'type' : 'relationship';
+       my $at = $LAYERS{$a->{$key}} || 99;
+       my $bt = $LAYERS{$b->{$key}} || 99;
+       return $at <=> $bt;
 }
 
 1;