reimplement PATH_INFO unescaping
[catagits/HTTP-Request-AsCGI.git] / lib / HTTP / Request / AsCGI.pm
1 package HTTP::Request::AsCGI;
2 # ABSTRACT: Set up a CGI environment from an HTTP::Request
3 use strict;
4 use warnings;
5 use bytes;
6 use base 'Class::Accessor::Fast';
7
8 use Carp;
9 use HTTP::Response;
10 use IO::Handle;
11 use IO::File;
12 use URI ();
13 use URI::Escape ();
14
15 __PACKAGE__->mk_accessors(qw[ environment request stdin stdout stderr ]);
16
17 # old typo
18 =begin Pod::Coverage
19
20   enviroment
21
22 =end Pod::Coverage
23
24 =cut
25
26 *enviroment = \&environment;
27
28 my %reserved = map { sprintf('%02x', ord($_)) => 1 } split //, $URI::reserved;
29 sub _uri_safe_unescape {
30     my ($s) = @_;
31     $s =~ s/%([a-fA-F0-9]{2})/$reserved{lc($1)} ? "%$1" : chr(hex($1))/ge;
32     $s;
33 }
34
35 sub new {
36     my $class   = shift;
37     my $request = shift;
38
39     unless ( @_ % 2 == 0 && eval { $request->isa('HTTP::Request') } ) {
40         croak(qq/usage: $class->new( \$request [, key => value] )/);
41     }
42
43     my $self = $class->SUPER::new( { restored => 0, setuped => 0 } );
44     $self->request($request);
45     $self->stdin( IO::File->new_tmpfile );
46     $self->stdout( IO::File->new_tmpfile );
47
48     my $host = $request->header('Host');
49     my $uri  = $request->uri->clone;
50     $uri->scheme('http')    unless $uri->scheme;
51     $uri->host('localhost') unless $uri->host;
52     $uri->port(80)          unless $uri->port;
53     $uri->host_port($host)  unless !$host || ( $host eq $uri->host_port );
54
55     $uri = $uri->canonical;
56
57     my $environment = {
58         GATEWAY_INTERFACE => 'CGI/1.1',
59         HTTP_HOST         => $uri->host_port,
60         HTTPS             => ( $uri->scheme eq 'https' ) ? 'ON' : 'OFF',  # not in RFC 3875
61         PATH_INFO         => _uri_safe_unescape($uri->path),
62         QUERY_STRING      => $uri->query || '',
63         SCRIPT_NAME       => '/',
64         SERVER_NAME       => $uri->host,
65         SERVER_PORT       => $uri->port,
66         SERVER_PROTOCOL   => $request->protocol || 'HTTP/1.1',
67         SERVER_SOFTWARE   => "HTTP-Request-AsCGI/$VERSION",
68         REMOTE_ADDR       => '127.0.0.1',
69         REMOTE_HOST       => 'localhost',
70         REMOTE_PORT       => int( rand(64000) + 1000 ),                   # not in RFC 3875
71         REQUEST_URI       => $uri->path_query,                            # not in RFC 3875
72         REQUEST_METHOD    => $request->method,
73         @_
74     };
75
76     foreach my $field ( $request->headers->header_field_names ) {
77
78         my $key = uc("HTTP_$field");
79         $key =~ tr/-/_/;
80         $key =~ s/^HTTP_// if $field =~ /^Content-(Length|Type)$/;
81
82         unless ( exists $environment->{$key} ) {
83             $environment->{$key} = $request->headers->header($field);
84         }
85     }
86
87     unless ( $environment->{SCRIPT_NAME} eq '/' && $environment->{PATH_INFO} ) {
88         $environment->{PATH_INFO} =~ s/^\Q$environment->{SCRIPT_NAME}\E/\//;
89         $environment->{PATH_INFO} =~ s/^\/+/\//;
90     }
91
92     $self->environment($environment);
93
94     return $self;
95 }
96
97 sub setup {
98     my $self = shift;
99
100     $self->{restore}->{environment} = {%ENV};
101
102     binmode( $self->stdin );
103
104     if ( $self->request->content_length ) {
105
106         $self->stdin->print($self->request->content)
107           or croak("Can't write request content to stdin handle: $!");
108
109         $self->stdin->seek(0, SEEK_SET)
110           or croak("Can't seek stdin handle: $!");
111
112         $self->stdin->flush
113           or croak("Can't flush stdin handle: $!");
114     }
115
116     open( $self->{restore}->{stdin}, '<&'. STDIN->fileno )
117       or croak("Can't dup stdin: $!");
118
119     open( STDIN, '<&='. $self->stdin->fileno )
120       or croak("Can't open stdin: $!");
121
122     binmode( STDIN );
123
124     if ( $self->stdout ) {
125
126         open( $self->{restore}->{stdout}, '>&'. STDOUT->fileno )
127           or croak("Can't dup stdout: $!");
128
129         open( STDOUT, '>&='. $self->stdout->fileno )
130           or croak("Can't open stdout: $!");
131
132         binmode( $self->stdout );
133         binmode( STDOUT);
134     }
135
136     if ( $self->stderr ) {
137
138         open( $self->{restore}->{stderr}, '>&'. STDERR->fileno )
139           or croak("Can't dup stderr: $!");
140
141         open( STDERR, '>&='. $self->stderr->fileno )
142           or croak("Can't open stderr: $!");
143
144         binmode( $self->stderr );
145         binmode( STDERR );
146     }
147
148     {
149         no warnings 'uninitialized';
150         %ENV = %{ $self->environment };
151     }
152
153     if ( $INC{'CGI.pm'} ) {
154         CGI::initialize_globals();
155     }
156
157     $self->{setuped}++;
158
159     return $self;
160 }
161
162 sub response {
163     my ( $self, $callback ) = @_;
164
165     return undef unless $self->stdout;
166
167     seek( $self->stdout, 0, SEEK_SET )
168       or croak("Can't seek stdout handle: $!");
169
170     my $headers;
171     while ( my $line = $self->stdout->getline ) {
172         $headers .= $line;
173         last if $headers =~ /\x0d?\x0a\x0d?\x0a$/;
174     }
175     
176     unless ( defined $headers ) {
177         $headers = "HTTP/1.1 500 Internal Server Error\x0d\x0a";
178     }
179
180     unless ( $headers =~ /^HTTP/ ) {
181         $headers = "HTTP/1.1 200 OK\x0d\x0a" . $headers;
182     }
183
184     my $response = HTTP::Response->parse($headers);
185     $response->date( time() ) unless $response->date;
186
187     my $message = $response->message;
188     my $status  = $response->header('Status');
189
190     if ( $message && $message =~ /^(.+)\x0d$/ ) {
191         $response->message($1);
192     }
193
194     if ( $status && $status =~ /^(\d\d\d)\s?(.+)?$/ ) {
195
196         my $code    = $1;
197         my $message = $2 || HTTP::Status::status_message($code);
198
199         $response->code($code);
200         $response->message($message);
201     }
202     
203     my $length = ( stat( $self->stdout ) )[7] - tell( $self->stdout );
204
205     if ( $response->code == 500 && !$length ) {
206
207         $response->content( $response->error_as_HTML );
208         $response->content_type('text/html');
209
210         return $response;
211     }
212
213     if ($callback) {
214
215         my $handle = $self->stdout;
216
217         $response->content( sub {
218
219             if ( $handle->read( my $buffer, 4096 ) ) {
220                 return $buffer;
221             }
222
223             return undef;
224         });
225     }
226     else {
227
228         my $length = 0;
229
230         while ( $self->stdout->read( my $buffer, 4096 ) ) {
231             $length += length($buffer);
232             $response->add_content($buffer);
233         }
234
235         if ( $length && !$response->content_length ) {
236             $response->content_length($length);
237         }
238     }
239
240     return $response;
241 }
242
243 sub restore {
244     my $self = shift;
245
246     {
247         no warnings 'uninitialized';
248         %ENV = %{ $self->{restore}->{environment} };
249     }
250
251     open( STDIN, '<&'. fileno($self->{restore}->{stdin}) )
252       or croak("Can't restore stdin: $!");
253
254     sysseek( $self->stdin, 0, SEEK_SET )
255       or croak("Can't seek stdin: $!");
256
257     if ( $self->{restore}->{stdout} ) {
258
259         STDOUT->flush
260           or croak("Can't flush stdout: $!");
261
262         open( STDOUT, '>&'. fileno($self->{restore}->{stdout}) )
263           or croak("Can't restore stdout: $!");
264
265         sysseek( $self->stdout, 0, SEEK_SET )
266           or croak("Can't seek stdout: $!");
267     }
268
269     if ( $self->{restore}->{stderr} ) {
270
271         STDERR->flush
272           or croak("Can't flush stderr: $!");
273
274         open( STDERR, '>&'. fileno($self->{restore}->{stderr}) )
275           or croak("Can't restore stderr: $!");
276
277         sysseek( $self->stderr, 0, SEEK_SET )
278           or croak("Can't seek stderr: $!");
279     }
280
281     $self->{restored}++;
282
283     return $self;
284 }
285
286 sub DESTROY {
287     my $self = shift;
288     $self->restore if $self->{setuped} && !$self->{restored};
289 }
290
291 1;
292
293 __END__
294
295 =head1 SYNOPSIS
296
297     use CGI;
298     use HTTP::Request;
299     use HTTP::Request::AsCGI;
300     
301     my $request = HTTP::Request->new( GET => 'http://www.host.com/' );
302     my $stdout;
303     
304     {
305         my $c = HTTP::Request::AsCGI->new($request)->setup;
306         my $q = CGI->new;
307         
308         print $q->header,
309               $q->start_html('Hello World'),
310               $q->h1('Hello World'),
311               $q->end_html;
312         
313         $stdout = $c->stdout;
314         
315         # environment and descriptors will automatically be restored
316         # when $c is destructed.
317     }
318     
319     while ( my $line = $stdout->getline ) {
320         print $line;
321     }
322     
323 =head1 DESCRIPTION
324
325 Provides a convenient way of setting up an CGI environment from an HTTP::Request.
326
327 =head1 METHODS
328
329 =over 4 
330
331 =item new ( $request [, key => value ] )
332
333 Constructor.  The first argument must be a instance of HTTP::Request, followed
334 by optional pairs of environment key and value.
335
336 =item environment
337
338 Returns a hashref containing the environment that will be used in setup. 
339 Changing the hashref after setup has been called will have no effect.
340
341 =item setup
342
343 Sets up the environment and descriptors.
344
345 =item restore
346
347 Restores the environment and descriptors. Can only be called after setup.
348
349 =item request
350
351 Returns the request given to constructor.
352
353 =item response
354
355 Returns a HTTP::Response. Can only be called after restore.
356
357 =item stdin
358
359 Accessor for handle that will be used for STDIN, must be a real seekable
360 handle with an file descriptor. Defaults to a tempoary IO::File instance.
361
362 =item stdout
363
364 Accessor for handle that will be used for STDOUT, must be a real seekable
365 handle with an file descriptor. Defaults to a tempoary IO::File instance.
366
367 =item stderr
368
369 Accessor for handle that will be used for STDERR, must be a real seekable
370 handle with an file descriptor.
371
372 =back
373
374 =head1 SEE ALSO
375
376 =over 4
377
378 =item examples directory in this distribution.
379
380 =item L<WWW::Mechanize::CGI>
381
382 =item L<Test::WWW::Mechanize::CGI>
383
384 =back
385
386 =head1 THANKS TO
387
388 Thomas L. Shinnick for his valuable win32 testing.
389
390 =cut