Merge branch 'master' of https://github.com/tla/stemmatology
[scpubgit/stemmatology.git] / base / script / make_tradition.pl
1 #!/usr/bin/env perl
2
3 use lib 'lib';
4 use strict;
5 use warnings;
6 use Getopt::Long;
7 use TryCatch;
8 use Text::Tradition;
9 use Text::Tradition::Directory;
10 use Text::Tradition::StemmaUtil qw/ character_input phylip_pars newick_to_svg /;
11
12 binmode STDERR, ":utf8";
13 binmode STDOUT, ":utf8";
14 eval { no warnings; binmode $DB::OUT, ":utf8"; };
15
16 # Variables with defaults
17 my( $informat, $outformat, $language, $name, $sep, $dsn )  = ( '', '', 'Default', 
18         'Tradition', "\t", "dbi:SQLite:dbname=db/traditions.db" );
19 # Variables with no default
20 my( $inbase, $help, $stemmafile,  $dbuser, $dbpass, $from, $to, $dbid, 
21         $nocalc, $nonlinear );
22
23 GetOptions( 'i|in=s'    => \$informat,
24             'b|base=s'  => \$inbase,
25             'o|out=s'   => \$outformat,
26             'l|language=s' => \$language,
27             'n|name=s'  => \$name,
28             'h|help'    => \$help,
29             's|stemma=s' => \$stemmafile,
30             'u|user=s'  => \$dbuser,
31             'p|pass=s'  => \$dbpass,
32             'f|from=s'  => \$from,
33             't|to=s'    => \$to,
34             'nl|nonlinear' => \$nonlinear,
35             'sep=s'             => \$sep,
36             'dsn=s'             => \$dsn,
37             'dbid=s'    => \$dbid,
38             'nc|nocalc' => \$nocalc,
39     );
40
41 if( $help ) {
42     help();
43 }
44
45 unless( $informat =~ /^(CTE|KUL|Self|TEI|CollateX|tab(ular)?)|xlsx?|db$/i ) {
46     help( "Input format must be one of CollateX, CTE, Self, TEI, Tabular, XLS(X), or DB" );
47 }
48 my $excel = $informat =~ /^xls/i ? lc( $informat ) : undef;
49 $informat = 'CollateX' if $informat =~ /^c(ollate)?x$/i;
50 $informat = 'KUL' if $informat =~ /^kul$/i;
51 $informat = 'CTE' if $informat =~ /^cte$/i;
52 $informat = 'Self' if $informat =~ /^self$/i;
53 $informat = 'TEI' if $informat =~ /^tei$/i;
54 $informat = 'Tabular' if $informat =~ /^tab$/i;
55 $informat = 'CollateText' if $informat =~ /^stone$/i;
56 $informat = 'Tabular' if $informat =~ /^xls/i;
57
58 unless( $outformat =~ /^(graphml|svg|dot|adj(acency)?|stemma(svg)?|(c|t)sv|db)$/i ) {
59     help( "Output format must be one of db, graphml, svg, csv, tsv, stemma, adjacency, or dot" );
60 }
61 $outformat = 'adjacency_list' if $outformat =~ /^adj/i;
62
63 if( $from || $to ) {
64         help( "Subgraphs only supported in GraphML, dot, adjacency, or SVG format" ) 
65                 unless $outformat =~ /^(graphml|dot|svg|adjacency_list)$/;
66 }
67
68 # Do we have a base if we need it?
69 if( $informat =~ /^(KUL|CollateText)$/ && !$inbase ) {
70     help( "$informat input needs a base text" );
71 }
72 $sep = "\t" if $sep eq 'tab';
73
74 my $input = $ARGV[0];
75 my $tradition;
76 my $dir;
77 if( $informat eq 'db' ) {
78         my $dbargs = { dsn => $dsn };
79         $dbargs->{'extra_args'}->{'user'} = $dbuser if $dbuser;
80         $dbargs->{'extra_args'}->{'password'} = $dbpass if $dbpass;
81         $dir = Text::Tradition::Directory->new( $dbargs );
82         my $scope = $dir->new_scope();
83         $tradition = $dir->lookup( $input );
84 } else {
85         # First: read the base. Make a graph, but also note which
86         # nodes represent line beginnings.
87         my %args = ( 'input' => $informat,
88                                  'file' => $input );
89         $args{'linear'} = 0 if $nonlinear;
90         $args{'base'} = $inbase if $inbase;
91         $args{'language'} = $language if $language;
92         $args{'name'} = $name if $name;
93         $args{'nocalc'} = 1 if $nocalc;
94         if( $informat eq 'Tabular' ) {
95                 if( $excel ) {
96                         $args{'excel'} = $excel;
97                 } else {
98                         $args{'sep_char'} = $sep;
99                 }
100         }
101         # If we are writing to the database, use that DB as the userstore.
102         if( $outformat eq 'db' ) {
103                 unless( $dir ) {
104                         my $extra_args = { 'create' => 1 };
105                         $extra_args->{'user'} = $dbuser if $dbuser;
106                         $extra_args->{'password'} = $dbpass if $dbpass;
107                         $dir = Text::Tradition::Directory->new( 'dsn' => $dsn,
108                                 'extra_args' => $extra_args );
109                 }
110                 $args{'userstore'} = $dir;
111         }
112         ### Custom hacking for Stone
113         if( $informat eq 'CollateText' ) {
114                 $args{'sigla'} = [ qw/ S M X V Z Bb B K W L / ];
115         }
116         my $scope = $dir->new_scope() if $dir;
117         $tradition = Text::Tradition->new( %args );
118 }
119 if( $stemmafile ) {
120         my $stemma = $tradition->add_stemma( dotfile => $stemmafile );
121         print STDERR "Saved stemma at $stemmafile\n" if $stemma;
122 }
123
124 # Now output what we have been asked to.
125 if( $outformat =~ /^stemma(.*)$/ ) {
126     my $type = $1 || 'newick';
127     my $cdata = character_input( $tradition );
128     my $newick;
129     try {
130         $newick = phylip_pars( $cdata );
131     } catch( Text::Tradition::Error $e ) {
132         print STDERR "Bad result from pars: " . $e->message;
133         exit;
134     }
135     if( $type eq 'newick' ) {
136         print $newick;
137     } elsif( $type eq 'svg' ) {
138         print newick_to_svg( $newick );
139     }
140 } elsif( $outformat eq 'db' ) {
141         unless( $dir ) {
142                 my $extra_args = { 'create' => 1 };
143                 $extra_args->{'user'} = $dbuser if $dbuser;
144                 $extra_args->{'password'} = $dbpass if $dbpass;
145                 $dir = Text::Tradition::Directory->new( 'dsn' => $dsn, 
146                         'extra_args' => $extra_args );
147         }
148         my $scope = $dir->new_scope;
149         my $uuid;
150         if( $dbid ) {
151                 $uuid = $dir->store( $dbid => $tradition );
152         } else {
153                 $uuid = $dir->store( $tradition );
154         }
155         print STDERR "Saved tradition to database with ID $uuid\n";
156 } else {
157     my $output = "as_$outformat";
158     my $opts = {};
159     $opts->{'from'} = $from if $from;
160     $opts->{'to'} = $to if $to;
161     $opts->{'nocalc'} = 1 if $nocalc;
162     print $tradition->collation->$output( $opts );
163 }
164
165 sub help {
166     my( $msg ) = @_;
167     print STDERR << "EOF"
168 Usage: $0 -i [format] -o [format] (--base [filename]) (--(no)linear) [inputfile]
169     i, input: Format of the input file.  Must be one of CollateX, CSV, CTE, Self, TEI.
170     o, output: Format of the output.  Must be one of svg, dot, graphml, csv, stemma.
171     b, base: Filename that contains a base text.  Needed for CSV input.
172     l, linear: Treat transposed readings separately, producing a linear graph.  
173         If nolinear, treat transposed readings as the same node.
174     h, help: Print this message.
175 EOF
176     ;
177     if( $msg ) {
178         print STDERR "$msg\n";
179     }
180     exit ($msg ? 1 : 0 );
181 }