Document the hint constants and where they're used.
[p5sagit/p5-mst-13.2.git] / lib / open.pm
1 package open;
2 use warnings;
3 use Carp;
4 $open::hint_bits = 0x20000; # HINT_LOCALIZE_HH
5
6 our $VERSION = '1.01';
7
8 my $locale_encoding;
9
10 sub in_locale { $^H & ($locale::hint_bits || 0)}
11
12 sub _get_locale_encoding {
13     unless (defined $locale_encoding) {
14         # I18N::Langinfo isn't available everywhere
15         eval {
16             require I18N::Langinfo;
17             I18N::Langinfo->import(qw(langinfo CODESET));
18             $locale_encoding = langinfo(CODESET());
19         };
20         my $country_language;
21
22         no warnings 'uninitialized';
23
24         if (not $locale_encoding && in_locale()) {
25             if ($ENV{LC_ALL} =~ /^([^.]+)\.([^.]+)$/) {
26                 ($country_language, $locale_encoding) = ($1, $2);
27             } elsif ($ENV{LANG} =~ /^([^.]+)\.([^.]+)$/) {
28                 ($country_language, $locale_encoding) = ($1, $2);
29             }
30             # LANGUAGE affects only LC_MESSAGES only on glibc
31         } elsif (not $locale_encoding) {
32             if ($ENV{LC_ALL} =~ /\butf-?8\b/i ||
33                 $ENV{LANG}   =~ /\butf-?8\b/i) {
34                 $locale_encoding = 'utf8';
35             }
36             # Could do more heuristics based on the country and language
37             # parts of LC_ALL and LANG (the parts before the dot (if any)),
38             # since we have Locale::Country and Locale::Language available.
39             # TODO: get a database of Language -> Encoding mappings
40             # (the Estonian database at http://www.eki.ee/letter/
41             # would be excellent!) --jhi
42         }
43         if (defined $locale_encoding &&
44             $locale_encoding eq 'euc' &&
45             defined $country_language) {
46             if ($country_language =~ /^ja_JP|japan(?:ese)?$/i) {
47                 $locale_encoding = 'euc-jp';
48             } elsif ($country_language =~ /^ko_KR|korean?$/i) {
49                 $locale_encoding = 'euc-kr';
50             } elsif ($country_language =~ /^zh_CN|chin(?:a|ese)?$/i) {
51                 $locale_encoding = 'euc-cn';
52             } elsif ($country_language =~ /^zh_TW|taiwan(?:ese)?$/i) {
53                 $locale_encoding = 'euc-tw';
54             }
55             croak "Locale encoding 'euc' too ambiguous"
56                 if $locale_encoding eq 'euc';
57         }
58     }
59 }
60
61 sub import {
62     my ($class,@args) = @_;
63     croak("`use open' needs explicit list of PerlIO layers") unless @args;
64     my $std;
65     $^H |= $open::hint_bits;
66     my ($in,$out) = split(/\0/,(${^OPEN} || "\0"), -1);
67     while (@args) {
68         my $type = shift(@args);
69         my $dscp;
70         if ($type =~ /^:?(utf8|locale|encoding\(.+\))$/) {
71             $type = 'IO';
72             $dscp = ":$1";
73         } elsif ($type eq ':std') {
74             $std = 1;
75             next;
76         } else {
77             $dscp = shift(@args) || '';
78         }
79         my @val;
80         foreach my $layer (split(/\s+/,$dscp)) {
81             $layer =~ s/^://;
82             if ($layer eq 'locale') {
83                 use Encode;
84                 _get_locale_encoding()
85                     unless defined $locale_encoding;
86                 (warnings::warnif("layer", "Cannot figure out an encoding to use"), last)
87                     unless defined $locale_encoding;
88                 if ($locale_encoding =~ /^utf-?8$/i) {
89                     $layer = "utf8";
90                 } else {
91                     $layer = "encoding($locale_encoding)";
92                 }
93                 $std = 1;
94             } else {
95                 my $target = $layer;            # the layer name itself
96                 $target =~ s/^(\w+)\(.+\)$/$1/; # strip parameters
97
98                 unless(PerlIO::Layer::->find($target)) {
99                     warnings::warnif("layer", "Unknown PerlIO layer '$layer'");
100                 }
101             }
102             push(@val,":$layer");
103             if ($layer =~ /^(crlf|raw)$/) {
104                 $^H{"open_$type"} = $layer;
105             }
106         }
107         if ($type eq 'IN') {
108             $in  = join(' ',@val);
109         }
110         elsif ($type eq 'OUT') {
111             $out = join(' ',@val);
112         }
113         elsif ($type eq 'IO') {
114             $in = $out = join(' ',@val);
115         }
116         else {
117             croak "Unknown PerlIO layer class '$type'";
118         }
119     }
120     ${^OPEN} = join("\0",$in,$out) if $in or $out;
121     if ($std) {
122         if ($in) {
123             if ($in =~ /:utf8\b/) {
124                     binmode(STDIN,  ":utf8");
125                 } elsif ($in =~ /(\w+\(.+\))/) {
126                     binmode(STDIN,  ":$1");
127                 }
128         }
129         if ($out) {
130             if ($out =~ /:utf8\b/) {
131                 binmode(STDOUT,  ":utf8");
132                 binmode(STDERR,  ":utf8");
133             } elsif ($out =~ /(\w+\(.+\))/) {
134                 binmode(STDOUT,  ":$1");
135                 binmode(STDERR,  ":$1");
136             }
137         }
138     }
139 }
140
141 1;
142 __END__
143
144 =head1 NAME
145
146 open - perl pragma to set default PerlIO layers for input and output
147
148 =head1 SYNOPSIS
149
150     use open IN  => ":crlf", OUT => ":bytes";
151     use open OUT => ':utf8';
152     use open IO  => ":encoding(iso-8859-7)";
153
154     use open IO  => ':locale';
155
156     use open ':utf8';
157     use open ':locale';
158     use open ':encoding(iso-8859-7)';
159
160     use open ':std';
161
162 =head1 DESCRIPTION
163
164 Full-fledged support for I/O layers is now implemented provided
165 Perl is configured to use PerlIO as its IO system (which is now the
166 default).
167
168 The C<open> pragma serves as one of the interfaces to declare default
169 "layers" (also known as "disciplines") for all I/O. Any open(),
170 readpipe() (aka qx//) and similar operators found within the lexical
171 scope of this pragma will use the declared defaults.
172
173 With the C<IN> subpragma you can declare the default layers
174 of input streams, and with the C<OUT> subpragma you can declare
175 the default layers of output streams.  With the C<IO>  subpragma
176 you can control both input and output streams simultaneously.
177
178 If you have a legacy encoding, you can use the C<:encoding(...)> tag.
179
180 if you want to set your encoding layers based on your
181 locale environment variables, you can use the C<:locale> tag.
182 For example:
183
184     $ENV{LANG} = 'ru_RU.KOI8-R';
185     # the :locale will probe the locale environment variables like LANG
186     use open OUT => ':locale';
187     open(O, ">koi8");
188     print O chr(0x430); # Unicode CYRILLIC SMALL LETTER A = KOI8-R 0xc1
189     close O;
190     open(I, "<koi8");
191     printf "%#x\n", ord(<I>), "\n"; # this should print 0xc1
192     close I;
193
194 These are equivalent
195
196     use open ':utf8';
197     use open IO => ':utf8';
198
199 as are these
200
201     use open ':locale';
202     use open IO => ':locale';
203
204 and these
205
206     use open ':encoding(iso-8859-7)';
207     use open IO => ':encoding(iso-8859-7)';
208
209 The matching of encoding names is loose: case does not matter, and
210 many encodings have several aliases.  See L<Encode::Supported> for
211 details and the list of supported locales.
212
213 Note that C<:utf8> PerlIO layer must always be specified exactly like
214 that, it is not subject to the loose matching of encoding names.
215
216 When open() is given an explicit list of layers they are appended to
217 the list declared using this pragma.
218
219 The C<:std> subpragma on its own has no effect, but if combined with
220 the C<:utf8> or C<:encoding> subpragmas, it converts the standard
221 filehandles (STDIN, STDOUT, STDERR) to comply with encoding selected
222 for input/output handles.  For example, if both input and out are
223 chosen to be C<:utf8>, a C<:std> will mean that STDIN, STDOUT, and
224 STDERR are also in C<:utf8>.  On the other hand, if only output is
225 chosen to be in C<< :encoding(koi8r) >>, a C<:std> will cause only the
226 STDOUT and STDERR to be in C<koi8r>.  The C<:locale> subpragma
227 implicitly turns on C<:std>.
228
229 The logic of C<:locale> is as follows:
230
231 =over 4
232
233 =item 1.
234
235 If the platform supports the langinfo(CODESET) interface, the codeset
236 returned is used as the default encoding for the open pragma.
237
238 =item 2.
239
240 If 1. didn't work but we are under the locale pragma, the environment
241 variables LC_ALL and LANG (in that order) are matched for encodings
242 (the part after C<.>, if any), and if any found, that is used 
243 as the default encoding for the open pragma.
244
245 =item 3.
246
247 If 1. and 2. didn't work, the environment variables LC_ALL and LANG
248 (in that order) are matched for anything looking like UTF-8, and if
249 any found, C<:utf8> is used as the default encoding for the open
250 pragma.
251
252 =back
253
254 If your locale environment variables (LC_ALL, LC_CTYPE, LANG)
255 contain the strings 'UTF-8' or 'UTF8' (case-insensitive matching),
256 the default encoding of your STDIN, STDOUT, and STDERR, and of
257 B<any subsequent file open>, is UTF-8.
258
259 Directory handles may also support PerlIO layers in the future.
260
261 =head1 NONPERLIO FUNCTIONALITY
262
263 If Perl is not built to use PerlIO as its IO system then only the two
264 pseudo-layers C<:bytes> and C<:crlf> are available.
265
266 The C<:bytes> layer corresponds to "binary mode" and the C<:crlf>
267 layer corresponds to "text mode" on platforms that distinguish
268 between the two modes when opening files (which is many DOS-like
269 platforms, including Windows).  These two layers are no-ops on
270 platforms where binmode() is a no-op, but perform their functions
271 everywhere if PerlIO is enabled.
272
273 =head1 IMPLEMENTATION DETAILS
274
275 There is a class method in C<PerlIO::Layer> C<find> which is
276 implemented as XS code.  It is called by C<import> to validate the
277 layers:
278
279    PerlIO::Layer::->find("perlio")
280
281 The return value (if defined) is a Perl object, of class
282 C<PerlIO::Layer> which is created by the C code in F<perlio.c>.  As
283 yet there is nothing useful you can do with the object at the perl
284 level.
285
286 =head1 SEE ALSO
287
288 L<perlfunc/"binmode">, L<perlfunc/"open">, L<perlunicode>, L<PerlIO>,
289 L<encoding>
290
291 =cut