Caelum's work so far
Peter Rabbitson [Wed, 16 Sep 2009 17:34:29 +0000 (17:34 +0000)]
Changes
lib/DBIx/Class/Storage/DBI.pm
lib/DBIx/Class/Storage/DBI/Sybase.pm
t/746sybase.t

diff --git a/Changes b/Changes
index 28d0239..de29178 100644 (file)
--- a/Changes
+++ b/Changes
@@ -24,6 +24,7 @@ Revision history for DBIx::Class
             when needed
           - Support for interpolated variables with proper quoting when
             connecting to an older Sybase and/or via FreeTDS
+          - Bulk API support for populate()
 
 0.08111 2009-09-06 21:58:00 (UTC)
         - The hashref to connection_info now accepts a 'dbh_maker'
index 4990e78..5f63e28 100644 (file)
@@ -1328,7 +1328,7 @@ sub insert {
 ## scalar refs, or at least, all the same type as the first set, the statement is
 ## only prepped once.
 sub insert_bulk {
-  my ($self, $source, $cols, $data) = @_;
+  my ($self, $source, $cols, $data, $sth_attr) = @_;
 
 # redispatch to insert_bulk method of storage we reblessed into, if necessary
   if (not $self->_driver_determined) {
@@ -1339,10 +1339,11 @@ sub insert_bulk {
   my %colvalues;
   my $table = $source->from;
   @colvalues{@$cols} = (0..$#$cols);
+# XXX some bulk APIs require column list in database order
   my ($sql, @bind) = $self->sql_maker->insert($table, \%colvalues);
 
   $self->_query_start( $sql, @bind );
-  my $sth = $self->sth($sql);
+  my $sth = $self->sth($sql, 'insert', $sth_attr);
 
 #  @bind = map { ref $_ ? ''.$_ : $_ } @bind; # stringify args
 
@@ -1371,11 +1372,11 @@ sub insert_bulk {
     $placeholder_index++;
   }
   my $rv = eval { $sth->execute_array({ArrayTupleStatus => $tuple_status}) };
-  if (my $err = $@) {
+  if (my $err = $@ || $sth->errstr) {
     my $i = 0;
     ++$i while $i <= $#$tuple_status && !ref $tuple_status->[$i];
 
-    $self->throw_exception($sth->errstr || "Unexpected populate error: $err")
+    $self->throw_exception("Unexpected populate error: $err")
       if ($i > $#$tuple_status);
 
     require Data::Dumper;
@@ -1386,14 +1387,14 @@ sub insert_bulk {
     local $Data::Dumper::Sortkeys = 1;
 
     $self->throw_exception(sprintf "%s for populate slice:\n%s",
-      $tuple_status->[$i][1],
+      ($tuple_status->[$i][1] || $err),
       Data::Dumper::Dumper(
         { map { $cols->[$_] => $data->[$i][$_] } (0 .. $#$cols) }
       ),
     );
   }
-  $self->throw_exception($sth->errstr) if !$rv;
 
+  $sth->finish;
   $self->_query_end( $sql, @bind );
   return (wantarray ? ($rv, $sth, @bind) : $rv);
 }
@@ -2057,12 +2058,15 @@ Returns a L<DBI> sth (statement handle) for the supplied SQL.
 =cut
 
 sub _dbh_sth {
-  my ($self, $dbh, $sql) = @_;
+  my ($self, $dbh, $sql, $op, $sth_attr) = @_;
+# $op is ignored right now
+
+  $sth_attr ||= {};
 
   # 3 is the if_active parameter which avoids active sth re-use
   my $sth = $self->disable_sth_caching
-    ? $dbh->prepare($sql)
-    : $dbh->prepare_cached($sql, {}, 3);
+    ? $dbh->prepare($sql, $sth_attr)
+    : $dbh->prepare_cached($sql, $sth_attr, 3);
 
   # XXX You would think RaiseError would make this impossible,
   #  but apparently that's not true :(
@@ -2072,8 +2076,8 @@ sub _dbh_sth {
 }
 
 sub sth {
-  my ($self, $sql) = @_;
-  $self->dbh_do('_dbh_sth', $sql);  # retry over disconnects
+  my ($self, $sql, $op, $sth_attr) = @_;
+  $self->dbh_do('_dbh_sth', $sql, $op, $sth_attr);  # retry over disconnects
 }
 
 sub _dbh_columns_info_for {
index 1bb8956..c68f21f 100644 (file)
@@ -13,11 +13,13 @@ use List::Util ();
 use Sub::Name ();
 
 __PACKAGE__->mk_group_accessors('simple' =>
-    qw/_identity _blob_log_on_update _writer_storage _is_writer_storage
+    qw/_identity _blob_log_on_update _writer_storage _is_extra_storage
+       _bulk_storage _is_bulk_storage _began_bulk_work 
+       _bulk_disabled_due_to_coderef_connect_info_warned
        _identity_method/
 );
 
-my @also_proxy_to_writer_storage = qw/
+my @also_proxy_to_extra_storages = qw/
   disconnect _connect_info _sql_maker _sql_maker_opts disable_sth_caching
   auto_savepoint unsafe cursor_class debug debugobj schema
 /;
@@ -102,7 +104,7 @@ EOF
         bless $self, $no_bind_vars;
         $self->_rebless;
       } elsif (not $self->_typeless_placeholders_supported) {
-# this is highly unlikely, but we check just in case
+        # this is highly unlikely, but we check just in case
         $self->auto_cast(1);
       }
     }
@@ -118,28 +120,62 @@ sub _init {
 
 # create storage for insert/(update blob) transactions,
 # unless this is that storage
-  return if $self->_is_writer_storage;
+  return if $self->_is_extra_storage;
 
   my $writer_storage = (ref $self)->new;
 
-  $writer_storage->_is_writer_storage(1);
+  $writer_storage->_is_extra_storage(1);
   $writer_storage->connect_info($self->connect_info);
 
   $self->_writer_storage($writer_storage);
+
+# create a bulk storage unless connect_info is a coderef
+  return
+    if (Scalar::Util::reftype($self->_dbi_connect_info->[0])||'') eq 'CODE';
+
+  my $bulk_storage = (ref $self)->new;
+
+  $bulk_storage->_is_extra_storage(1);
+  $bulk_storage->_is_bulk_storage(1); # for special ->disconnect acrobatics
+  $bulk_storage->connect_info($self->connect_info);
+
+# this is why
+  $bulk_storage->_dbi_connect_info->[0] .= ';bulkLogin=1';
+  
+  $self->_bulk_storage($bulk_storage);
 }
 
-for my $method (@also_proxy_to_writer_storage) {
+for my $method (@also_proxy_to_extra_storages) {
   no strict 'refs';
+  no warnings 'redefine';
 
   my $replaced = __PACKAGE__->can($method);
 
-  *{$method} = Sub::Name::subname __PACKAGE__."::$method" => sub {
+  *{$method} = Sub::Name::subname $method => sub {
     my $self = shift;
     $self->_writer_storage->$replaced(@_) if $self->_writer_storage;
+    $self->_bulk_storage->$replaced(@_)   if $self->_bulk_storage;
     return $self->$replaced(@_);
   };
 }
 
+sub disconnect {
+  my $self = shift;
+
+# Even though we call $sth->finish for uses off the bulk API, there's still an
+# "active statement" warning on disconnect, which we throw away here.
+# This is due to the bug described in insert_bulk.
+# Currently a noop because 'prepare' is used instead of 'prepare_cached'.
+  local $SIG{__WARN__} = sub {
+    warn $_[0] unless $_[0] =~ /active statement/i;
+  } if $self->_is_bulk_storage;
+
+# so that next transaction gets a dbh
+  $self->_began_bulk_work(0) if $self->_is_bulk_storage;
+
+  $self->next::method;
+}
+
 # Make sure we have CHAINED mode turned on if AutoCommit is off in non-FreeTDS
 # DBD::Sybase (since we don't know how DBD::Sybase was compiled.) If however
 # we're using FreeTDS, CHAINED mode turns on an implicit transaction which we
@@ -148,6 +184,12 @@ sub _populate_dbh {
   my $self = shift;
 
   $self->next::method(@_);
+  
+  if ($self->_is_bulk_storage) {
+# this should be cleared on every reconnect
+    $self->_began_bulk_work(0);
+    return;
+  }
 
   if (not $self->using_freetds) {
     $self->_dbh->{syb_chained_txn} = 1;
@@ -384,7 +426,7 @@ sub update {
   return $wantarray ? @res : $res[0];
 }
 
-### the insert_bulk stuff stolen from DBI/MSSQL.pm
+### the insert_bulk partially stolen from DBI/MSSQL.pm
 
 sub _set_identity_insert {
   my ($self, $table) = @_;
@@ -416,30 +458,194 @@ sub _unset_identity_insert {
   $dbh->do ($sql);
 }
 
-# XXX this should use the DBD::Sybase bulk API, where possible
+## XXX add blob support
 sub insert_bulk {
   my $self = shift;
   my ($source, $cols, $data) = @_;
 
   my $is_identity_insert = (List::Util::first
-      { $source->column_info ($_)->{is_auto_increment} }
-      (@{$cols})
-  )
-     ? 1
-     : 0;
-
-  if ($is_identity_insert) {
-     $self->_set_identity_insert ($source->name);
+    { $source->column_info ($_)->{is_auto_increment} } @{$cols}
+  ) ? 1 : 0;
+
+  my @source_columns = $source->columns;
+
+  my $use_bulk_api =
+    $self->_bulk_storage && 
+    $self->_get_dbh->{syb_has_blk};
+
+  if ((not $use_bulk_api) &&
+      (Scalar::Util::reftype($self->_dbi_connect_info->[0])||'') eq 'CODE' &&
+      (not $self->_bulk_disabled_due_to_coderef_connect_info_warned)) {
+    carp <<'EOF';
+Bulk API support disabled due to use of a CODEREF connect_info. Reverting to
+array inserts.
+EOF
+    $self->_bulk_disabled_due_to_coderef_connect_info_warned(1);
   }
 
-  $self->next::method(@_);
+  if (not $use_bulk_api) {
+    if ($is_identity_insert) {
+       $self->_set_identity_insert ($source->name);
+    }
+
+    $self->next::method(@_);
+
+    if ($is_identity_insert) {
+       $self->_unset_identity_insert ($source->name);
+    }
 
-  if ($is_identity_insert) {
-     $self->_unset_identity_insert ($source->name);
+    return;
   }
-}
 
-### end of stolen insert_bulk section
+# otherwise, use the bulk API
+
+# rearrange @$data so that columns are in database order
+  my %orig_idx;
+  @orig_idx{@$cols} = 0..$#$cols;
+
+  my %new_idx;
+  @new_idx{@source_columns} = 0..$#source_columns;
+
+  my @new_data;
+  for my $datum (@$data) {
+    my $new_datum = [];
+    for my $col (@source_columns) {
+# identity data will be 'undef' if not $is_identity_insert
+# columns with defaults will also be 'undef'
+      $new_datum->[ $new_idx{$col} ] =
+        exists $orig_idx{$col} ? $datum->[ $orig_idx{$col} ] : undef;
+    }
+    push @new_data, $new_datum;
+  }
+
+  my $identity_col = List::Util::first
+    { $source->column_info($_)->{is_auto_increment} } @source_columns;
+
+# bcp identity index is 1-based
+  my $identity_idx = exists $new_idx{$identity_col} ?
+    $new_idx{$identity_col} + 1 : 0;
+
+## Set a client-side conversion error handler, straight from DBD::Sybase docs.
+# This ignores any data conversion errors detected by the client side libs, as
+# they are usually harmless.
+  my $orig_cslib_cb = DBD::Sybase::set_cslib_cb(
+    Sub::Name::subname insert_bulk => sub {
+      my ($layer, $origin, $severity, $errno, $errmsg, $osmsg, $blkmsg) = @_;
+
+      return 1 if $errno == 36;
+
+      carp 
+        "Layer: $layer, Origin: $origin, Severity: $severity, Error: $errno" .
+        ($errmsg ? "\n$errmsg" : '') .
+        ($osmsg  ? "\n$osmsg"  : '')  .
+        ($blkmsg ? "\n$blkmsg" : '');
+      
+      return 0;
+  });
+
+  eval {
+    my $bulk = $self->_bulk_storage;
+
+    my $guard = $bulk->txn_scope_guard;
+
+## XXX get this to work instead of our own $sth
+## will require SQLA or *Hacks changes for ordered columns
+#    $bulk->next::method($source, \@source_columns, \@new_data, {
+#      syb_bcp_attribs => {
+#        identity_flag   => $is_identity_insert,
+#        identity_column => $identity_idx, 
+#      }
+#    });
+    my $sql = 'INSERT INTO ' .
+      $bulk->sql_maker->_quote($source->name) . ' (' .
+# colname list is ignored for BCP, but does no harm
+      (join ', ', map $bulk->sql_maker->_quote($_), @source_columns) . ') '.
+      ' VALUES ('.  (join ', ', ('?') x @source_columns) . ')';
+
+## XXX there's a bug in the DBD::Sybase bulk support that makes $sth->finish for
+## a prepare_cached statement ineffective. Replace with ->sth when fixed, or
+## better yet the version above. Should be fixed in DBD::Sybase .
+    my $sth = $bulk->_get_dbh->prepare($sql,
+#      'insert', # op
+      {
+        syb_bcp_attribs => {
+          identity_flag   => $is_identity_insert,
+          identity_column => $identity_idx, 
+        }
+      }
+    );
+
+    my $bind_attributes = $self->source_bind_attributes($source);
+
+    foreach my $slice_idx (0..$#source_columns) {
+      my $col = $source_columns[$slice_idx];
+
+      my $attributes = $bind_attributes->{$col}
+        if $bind_attributes && defined $bind_attributes->{$col};
+
+      my @slice = map $_->[$slice_idx], @new_data;
+
+      $sth->bind_param_array(($slice_idx + 1), \@slice, $attributes);
+    }
+
+    $bulk->_query_start($sql);
+
+# this is stolen from DBI::insert_bulk
+    my $tuple_status = [];
+    my $rv = eval { $sth->execute_array({ArrayTupleStatus => $tuple_status}) };
+
+    if (my $err = $@ || $sth->errstr) {
+      my $i = 0;
+      ++$i while $i <= $#$tuple_status && !ref $tuple_status->[$i];
+
+      $self->throw_exception("Unexpected populate error: $err")
+        if ($i > $#$tuple_status);
+
+      require Data::Dumper;
+      local $Data::Dumper::Terse = 1;
+      local $Data::Dumper::Indent = 1;
+      local $Data::Dumper::Useqq = 1;
+      local $Data::Dumper::Quotekeys = 0;
+      local $Data::Dumper::Sortkeys = 1;
+
+      $self->throw_exception(sprintf "%s for populate slice:\n%s",
+        ($tuple_status->[$i][1] || $err),
+        Data::Dumper::Dumper(
+          { map { $source_columns[$_] => $new_data[$i][$_] } (0 .. $#$cols) }
+        ),
+      );
+    }
+
+    $guard->commit;
+    $sth->finish;
+
+    $bulk->_query_end($sql);
+  };
+  my $exception = $@;
+  if ($exception =~ /-Y option/) {
+    carp <<"EOF";
+
+Sybase bulk API operation failed due to character set incompatibility, reverting
+to regular array inserts:
+
+*** Try unsetting the LANG environment variable.
+
+$@
+EOF
+    $self->_bulk_storage(undef);
+    DBD::Sybase::set_cslib_cb($orig_cslib_cb);
+    unshift @_, $self;
+    goto \&insert_bulk;
+  }
+  elsif ($exception) {
+    DBD::Sybase::set_cslib_cb($orig_cslib_cb);
+# rollback makes the bulkLogin connection unusable
+    $self->_bulk_storage->disconnect;
+    $self->throw_exception($exception);
+  }
+
+  DBD::Sybase::set_cslib_cb($orig_cslib_cb);
+}
 
 sub _remove_blob_cols {
   my ($self, $source, $fields) = @_;
@@ -597,10 +803,18 @@ sub datetime_parser_type { "DateTime::Format::Sybase" }
 
 sub _dbh_begin_work {
   my $self = shift;
+
+# bulkLogin=1 connections are always in a transaction, and can only call BEGIN
+# TRAN once. However, we need to make sure there's a $dbh.
+  return if $self->_is_bulk_storage && $self->_dbh && $self->_began_bulk_work;
+
   $self->next::method(@_);
+
   if ($self->using_freetds) {
     $self->_get_dbh->do('BEGIN TRAN');
   }
+
+  $self->_began_bulk_work(1) if $self->_is_bulk_storage;
 }
 
 sub _dbh_commit {
@@ -772,6 +986,27 @@ C<SET TEXTSIZE> command on connection.
 See L</connect_call_blob_setup> for a L<DBIx::Class::Storage::DBI/connect_info>
 setting you need to work with C<IMAGE> columns.
 
+=head1 BULK API
+
+The experimental L<DBD::Sybase> Bulk API support is used for
+L<populate|DBIx::Class::ResultSet/populate> in B<void> context, in a transaction
+on a separate connection.
+
+To use this feature effectively, use a large number of rows for each
+L<populate|DBIx::Class::ResultSet/populate> call, eg.:
+
+  while (my $rows = $data_source->get_100_rows()) {
+    $rs->populate($rows);
+  }
+
+B<NOTE:> the L<add_columns|DBIx::Class::ResultSource/add_columns>
+calls in your C<Result> classes B<must> list columns in database order for this
+to work. Also, you may have to unset the C<LANG> environment variable before
+loading your app, if it doesn't match the character set of your database.
+
+When inserting IMAGE columns using this method, you'll need to use
+L</connect_call_blob_setup> as well.
+
 =head1 AUTHOR
 
 See L<DBIx::Class/CONTRIBUTORS>.
index 9e0caae..92b6818 100644 (file)
@@ -11,7 +11,7 @@ use DBIx::Class::Storage::DBI::Sybase::NoBindVars;
 
 my ($dsn, $user, $pass) = @ENV{map { "DBICTEST_SYBASE_${_}" } qw/DSN USER PASS/};
 
-my $TESTS = 48 + 2;
+my $TESTS = 55 + 2;
 
 if (not ($dsn && $user)) {
   plan skip_all =>
@@ -188,8 +188,7 @@ SQL
     }
   }
 
-# test insert_bulk using populate, this should always pass whether or not it
-# does anything Sybase specific or not. Just here to aid debugging.
+# test insert_bulk using populate.
   lives_ok {
     $schema->resultset('Artist')->populate([
       {
@@ -224,6 +223,47 @@ SQL
 
   $bulk_rs->delete;
 
+# make sure insert_bulk works a second time on the same connection
+  lives_ok {
+    $schema->resultset('Artist')->populate([
+      {
+        name => 'bulk artist 1',
+        charfield => 'bar',
+      },
+      {
+        name => 'bulk artist 2',
+        charfield => 'bar',
+      },
+      {
+        name => 'bulk artist 3',
+        charfield => 'bar',
+      },
+    ]);
+  } 'insert_bulk via populate called a second time';
+
+  is $bulk_rs->count, 3,
+    'correct number inserted via insert_bulk';
+
+  is ((grep $_->charfield eq 'bar', $bulk_rs->all), 3,
+    'column set correctly via insert_bulk');
+
+  $bulk_rs->delete;
+
+# test invalid insert_bulk (missing required column)
+#
+# There should be a rollback, reconnect and the next valid insert_bulk should
+# succeed.
+  throws_ok {
+    $schema->resultset('Artist')->populate([
+      {
+        charfield => 'foo',
+      }
+    ]);
+  } qr/no value or default|does not allow null/i,
+# The second pattern is the error from fallback to regular array insert on
+# incompatible charset.
+  'insert_bulk with missing required column throws error';
+
 # now test insert_bulk with IDENTITY_INSERT
   lives_ok {
     $schema->resultset('Artist')->populate([
@@ -264,7 +304,7 @@ SQL
 
 # mostly stolen from the blob stuff Nniuq wrote for t/73oracle.t
   SKIP: {
-    skip 'TEXT/IMAGE support does not work with FreeTDS', 13
+    skip 'TEXT/IMAGE support does not work with FreeTDS', 16
       if $schema->storage->using_freetds;
 
     my $dbh = $schema->storage->_dbh;
@@ -301,45 +341,30 @@ SQL
       foreach my $size (qw(small large)) {
         no warnings 'uninitialized';
 
-        my $created = eval { $rs->create( { $type => $binstr{$size} } ) };
-        ok(!$@, "inserted $size $type without dying");
-        diag $@ if $@;
+        my $created;
+        lives_ok {
+          $created = $rs->create( { $type => $binstr{$size} } )
+        } "inserted $size $type without dying";
 
         $last_id = $created->id if $created;
 
-        my $got = eval {
-          $rs->find($last_id)->$type
-        };
-        diag $@ if $@;
-        ok($got eq $binstr{$size}, "verified inserted $size $type");
+        lives_and {
+          ok($rs->find($last_id)->$type eq $binstr{$size})
+        } "verified inserted $size $type";
       }
     }
 
+    $rs->delete;
+
     # blob insert with explicit PK
     # also a good opportunity to test IDENTITY_INSERT
-    {
-      local $SIG{__WARN__} = sub {};
-      eval { $dbh->do('DROP TABLE bindtype_test') };
-
-      $dbh->do(qq[
-        CREATE TABLE bindtype_test 
-        (
-          id    INT   IDENTITY PRIMARY KEY,
-          bytea INT   NULL,
-          blob  IMAGE NULL,
-          clob  TEXT  NULL
-        )
-      ],{ RaiseError => 1, PrintError => 0 });
-    }
-    my $created = eval { $rs->create( { id => 1, blob => $binstr{large} } ) };
-    ok(!$@, "inserted large blob without dying with manual PK");
-    diag $@ if $@;
+    lives_ok {
+      $rs->create( { id => 1, blob => $binstr{large} } )
+    } 'inserted large blob without dying with manual PK';
 
-    my $got = eval {
-      $rs->find(1)->blob
-    };
-    diag $@ if $@;
-    ok($got eq $binstr{large}, "verified inserted large blob with manual PK");
+    lives_and {
+      ok($rs->find(1)->blob eq $binstr{large})
+    } 'verified inserted large blob with manual PK';
 
     # try a blob update
     my $new_str = $binstr{large} . 'mtfnpy';
@@ -350,22 +375,48 @@ SQL
       $schema = get_schema();
     }
 
-    eval { $rs->search({ id => 1 })->update({ blob => $new_str }) };
-    ok !$@, 'updated blob successfully';
-    diag $@ if $@;
-    $got = eval {
-      $rs->find(1)->blob
-    };
-    diag $@ if $@;
-    ok($got eq $new_str, "verified updated blob");
+    lives_ok {
+      $rs->search({ id => 1 })->update({ blob => $new_str })
+    } 'updated blob successfully';
+
+    lives_and {
+      ok($rs->find(1)->blob eq $new_str)
+    } 'verified updated blob';
 
     ## try multi-row blob update
     # first insert some blobs
-    $rs->find(1)->delete;
-    $rs->create({ blob => $binstr{large} }) for (1..3);
     $new_str = $binstr{large} . 'foo';
-    $rs->update({ blob => $new_str });
-    is((grep $_->blob eq $new_str, $rs->all), 3, 'multi-row blob update');
+    lives_and {
+      $rs->delete;
+      $rs->create({ blob => $binstr{large} }) for (1..2);
+      $rs->update({ blob => $new_str });
+      is((grep $_->blob eq $new_str, $rs->all), 2);
+    } 'multi-row blob update';
+
+    $rs->delete;
+
+    # now try insert_bulk with blobs
+    $new_str = $binstr{large} . 'bar';
+    lives_ok {
+      $rs->populate([
+        {
+          bytea => 1,
+          blob => $binstr{large},
+          clob => $new_str,
+        },
+        {
+          bytea => 1,
+          blob => $binstr{large},
+          clob => $new_str,
+        },
+      ]);
+    } 'insert_bulk with blobs does not die';
+
+    is((grep $_->blob eq $binstr{large}, $rs->all), 2,
+      'IMAGE column set correctly via insert_bulk');
+
+    is((grep $_->clob eq $new_str, $rs->all), 2,
+      'TEXT column set correctly via insert_bulk');
   }
 
 # test MONEY column support