ee854a4564af7b3087e1dd7052549884980d6935
[scpubgit/stemmatology.git] / script / make_tradition.pl
1 #!/usr/bin/env perl
2
3 use lib 'lib';
4 use strict;
5 use warnings;
6 use Getopt::Long;
7 use TryCatch;
8 use Text::Tradition;
9 use Text::Tradition::Directory;
10 use Text::Tradition::StemmaUtil qw/ character_input phylip_pars /;
11
12 binmode STDERR, ":utf8";
13 binmode STDOUT, ":utf8";
14 eval { no warnings; binmode $DB::OUT, ":utf8"; };
15
16 # Variables with defaults
17 my( $informat, $outformat, $language, $name, $sep, $dsn )  = ( '', '', 'Default', 
18         'Tradition', "\t", "dbi:SQLite:dbname=stemmaweb/db/traditions.db" );
19 # Variables with no default
20 my( $inbase, $help, $stemmafile,  $dbuser, $dbpass, $from, $to, $dbid, $debug );
21
22 GetOptions( 'i|in=s'    => \$informat,
23             'b|base=s'  => \$inbase,
24             'o|out=s'   => \$outformat,
25             'l|language=s' => \$language,
26             'n|name=s'  => \$name,
27             'h|help'    => \$help,
28             's|stemma=s' => \$stemmafile,
29             'u|user=s'  => \$dbuser,
30             'p|pass=s'  => \$dbpass,
31             'f|from=s'  => \$from,
32             't|to=s'    => \$to,
33             'sep=s'             => \$sep,
34             'dsn=s'             => \$dsn,
35             'dbid=s'    => \$dbid,
36                 'debug'     => \$debug
37     );
38
39 if( $help ) {
40     help();
41 }
42
43 unless( $informat =~ /^(CSV|CTE|KUL|Self|TEI|CollateX|tab(ular)?)|stone|db$/i ) {
44     help( "Input format must be one of CollateX, CSV, CTE, Self, TEI" );
45 }
46 $informat = 'CollateX' if $informat =~ /^c(ollate)?x$/i;
47 $informat = 'KUL' if $informat =~ /^kul$/i;
48 $informat = 'CTE' if $informat =~ /^cte$/i;
49 $informat = 'Self' if $informat =~ /^self$/i;
50 $informat = 'TEI' if $informat =~ /^tei$/i;
51 $informat = 'Tabular' if $informat =~ /^tab$/i;
52 $informat = 'CollateText' if $informat =~ /^stone$/i;
53
54 unless( $outformat =~ /^(graphml|svg|dot|stemma|csv|db)$/ ) {
55     help( "Output format must be one of db, graphml, svg, csv, stemma, or dot" );
56 }
57
58 if( $from || $to ) {
59         help( "Subgraphs only supported in GraphML format" ) 
60                 unless $outformat eq 'graphml';
61 }
62
63 # Do we have a base if we need it?
64 if( $informat =~ /^(KUL|CollateText)$/ && !$inbase ) {
65     help( "$informat input needs a base text" );
66 }
67 $sep = "\t" if $sep eq 'tab';
68
69 my $input = $ARGV[0];
70 my $tradition;
71 my $dir;
72 if( $informat eq 'db' ) {
73         my $dbargs = { dsn => $dsn };
74         $dbargs->{'extra_args'}->{'user'} = $dbuser if $dbuser;
75         $dbargs->{'extra_args'}->{'password'} = $dbpass if $dbpass;
76         $dir = Text::Tradition::Directory->new( $dbargs );
77         my $scope = $dir->new_scope();
78         $tradition = $dir->lookup( $input );
79 } else {
80         # First: read the base. Make a graph, but also note which
81         # nodes represent line beginnings.
82         my %args = ( 'input' => $informat,
83                                  'file' => $input );
84         $args{'base'} = $inbase if $inbase;
85         $args{'language'} = $language if $language;
86         $args{'name'} = $name if $name;
87         $args{'sep_char'} = $sep if $informat eq 'Tabular';
88         ### Custom hacking for Stone
89         if( $informat eq 'CollateText' ) {
90                 $args{'sigla'} = [ qw/ S M X V Z Bb B K W L / ];
91         }
92         $tradition = Text::Tradition->new( %args );
93 }
94 if( $stemmafile ) {
95         my $stemma = $tradition->add_stemma( dotfile => $stemmafile );
96         print STDERR "Saved stemma at $stemmafile\n" if $stemma;
97 }
98
99 # Now output what we have been asked to.
100 if( $outformat eq 'stemma' ) {
101     my $cdata = character_input( $tradition->collation->alignment_table );
102     try {
103         print phylip_pars( $cdata );
104     } catch( Text::Tradition::Error $e ) {
105         print STDERR "Bad result: " . $e->message;
106     }
107 } elsif( $outformat eq 'db' ) {
108         unless( $dir ) {
109                 my $extra_args = { 'create' => 1 };
110                 $extra_args->{'user'} = $dbuser if $dbuser;
111                 $extra_args->{'password'} = $dbpass if $dbpass;
112                 $dir = Text::Tradition::Directory->new( 'dsn' => $dsn, 
113                         'extra_args' => $extra_args );
114         }
115         my $scope = $dir->new_scope;
116         my $uuid;
117         if( $dbid ) {
118                 $uuid = $dir->store( $dbid => $tradition );
119         } else {
120                 $uuid = $dir->store( $tradition );
121         }
122         print STDERR "Saved tradition to database with ID $uuid\n";
123 } else {
124     my $output = "as_$outformat";
125     my $opts = {};
126     $opts->{'from'} = $from if $from;
127     $opts->{'to'} = $to if $to;
128     $opts->{'nocalc'} = 1 if $debug;
129     print $tradition->collation->$output( $opts );
130 }
131
132 sub help {
133     my( $msg ) = @_;
134     print STDERR << "EOF"
135 Usage: $0 -i [format] -o [format] (--base [filename]) (--(no)linear) [inputfile]
136     i, input: Format of the input file.  Must be one of CollateX, CSV, CTE, Self, TEI.
137     o, output: Format of the output.  Must be one of svg, dot, graphml, csv, stemma.
138     b, base: Filename that contains a base text.  Needed for CSV input.
139     l, linear: Treat transposed readings separately, producing a linear graph.  
140         If nolinear, treat transposed readings as the same node.
141     h, help: Print this message.
142 EOF
143     ;
144     if( $msg ) {
145         print STDERR "$msg\n";
146     }
147     exit ($msg ? 1 : 0 );
148 }