Integrate mainline
[p5sagit/p5-mst-13.2.git] / t / io / utf8.t
1 #!./perl
2
3 BEGIN {
4     chdir 't' if -d 't';
5     @INC = '../lib';
6     unless (find PerlIO::Layer 'perlio') {
7         print "1..0 # Skip: not perlio\n";
8         exit 0;
9     }
10 }
11
12 no utf8; # needed for use utf8 not griping about the raw octets
13
14 $| = 1;
15 print "1..31\n";
16
17 open(F,"+>:utf8",'a');
18 print F chr(0x100).'£';
19 print '#'.tell(F)."\n";
20 print "not " unless tell(F) == 4;
21 print "ok 1\n";
22 print F "\n";
23 print '#'.tell(F)."\n";
24 print "not " unless tell(F) >= 5;
25 print "ok 2\n";
26 seek(F,0,0);
27 print "not " unless getc(F) eq chr(0x100);
28 print "ok 3\n";
29 print "not " unless getc(F) eq "£";
30 print "ok 4\n";
31 print "not " unless getc(F) eq "\n";
32 print "ok 5\n";
33 seek(F,0,0);
34 binmode(F,":bytes");
35 my $chr = chr(0xc4);
36 if (ord('A') == 193) { $chr = chr(0x8c); } # EBCDIC
37 print "not " unless getc(F) eq $chr;
38 print "ok 6\n";
39 $chr = chr(0x80);
40 if (ord('A') == 193) { $chr = chr(0x41); } # EBCDIC
41 print "not " unless getc(F) eq $chr;
42 print "ok 7\n";
43 $chr = chr(0xc2);
44 if (ord('A') == 193) { $chr = chr(0x80); } # EBCDIC
45 print "not " unless getc(F) eq $chr;
46 print "ok 8\n";
47 $chr = chr(0xa3);
48 if (ord('A') == 193) { $chr = chr(0x44); } # EBCDIC
49 print "not " unless getc(F) eq $chr;
50 print "ok 9\n";
51 print "not " unless getc(F) eq "\n";
52 print "ok 10\n";
53 seek(F,0,0);
54 binmode(F,":utf8");
55 print "not " unless scalar(<F>) eq "\x{100}£\n";
56 print "ok 11\n";
57 seek(F,0,0);
58 $buf = chr(0x200);
59 $count = read(F,$buf,2,1);
60 print "not " unless $count == 2;
61 print "ok 12\n";
62 print "not " unless $buf eq "\x{200}\x{100}£";
63 print "ok 13\n";
64 close(F);
65
66 {
67 $a = chr(300); # This *is* UTF-encoded
68 $b = chr(130); # This is not.
69
70 open F, ">:utf8", 'a' or die $!;
71 print F $a,"\n";
72 close F;
73
74 open F, "<:utf8", 'a' or die $!;
75 $x = <F>;
76 chomp($x);
77 print "not " unless $x eq chr(300);
78 print "ok 14\n";
79
80 open F, "a" or die $!; # Not UTF
81 $x = <F>;
82 chomp($x);
83 $chr = chr(196).chr(172);
84 if (ord('A') == 193) { $chr = chr(141).chr(83); } # EBCDIC
85 print "not " unless $x eq $chr;
86 print "ok 15\n";
87 close F;
88
89 open F, ">:utf8", 'a' or die $!;
90 binmode(F);  # we write a "\n" and then tell() - avoid CRLF issues.
91 print F $a;
92 my $y;
93 { my $x = tell(F);
94     { use bytes; $y = length($a);}
95     print "not " unless $x == $y;
96     print "ok 16\n";
97 }
98
99 { # Check byte length of $b
100 use bytes; my $y = length($b);
101 print "not " unless $y == 1;
102 print "ok 17\n";
103 }
104
105 print F $b,"\n"; # Don't upgrades $b
106
107 { # Check byte length of $b
108 use bytes; my $y = length($b);
109 print "not ($y) " unless $y == 1;
110 print "ok 18\n";
111 }
112
113 { my $x = tell(F);
114     { use bytes; if (ord('A')==193){$y += 2;}else{$y += 3;}} # EBCDIC ASCII
115     print "not ($x,$y) " unless $x == $y;
116     print "ok 19\n";
117 }
118
119 close F;
120
121 open F, "a" or die $!; # Not UTF
122 $x = <F>;
123 chomp($x);
124 $chr = v196.172.194.130;
125 if (ord('A') == 193) { $chr = v141.83.130; } # EBCDIC
126 printf "not (%vd) ", $x unless $x eq $chr;
127 print "ok 20\n";
128
129 open F, "<:utf8", "a" or die $!;
130 $x = <F>;
131 chomp($x);
132 close F;
133 printf "not (%vd) ", $x unless $x eq chr(300).chr(130);
134 print "ok 21\n";
135
136 # Now let's make it suffer.
137 open F, ">", "a" or die $!;
138 my $w;
139 {
140     use warnings 'utf8';
141     local $SIG{__WARN__} = sub { $w = $_[0] };
142     print F $a;
143 }
144 print "not " if ($@ || $w !~ /Wide character in print/i);
145 print "ok 22\n";
146 }
147
148 # Hm. Time to get more evil.
149 open F, ">:utf8", "a" or die $!;
150 print F $a;
151 binmode(F, ":bytes");
152 print F chr(130)."\n";
153 close F;
154
155 open F, "<", "a" or die $!;
156 $x = <F>; chomp $x;
157 $chr = v196.172.130;
158 if (ord('A') == 193) { $chr = v141.83.130; } # EBCDIC
159 print "not " unless $x eq $chr;
160 print "ok 23\n";
161
162 # Right.
163 open F, ">:utf8", "a" or die $!;
164 print F $a;
165 close F;
166 open F, ">>", "a" or die $!;
167 print F chr(130)."\n";
168 close F;
169
170 open F, "<", "a" or die $!;
171 $x = <F>; chomp $x;
172 print "not " unless $x eq $chr;
173 print "ok 24\n";
174
175 # Now we have a deformed file.
176
177 if (ord('A') == 193) {
178     print "ok 25 # Skip: EBCDIC\n"; # EBCDIC doesn't complain
179 } else {
180     open F, "<:utf8", "a" or die $!;
181     $x = <F>; chomp $x;
182     local $SIG{__WARN__} = sub { print "ok 25\n" };
183     eval { sprintf "%vd\n", $x };
184 }
185
186 close F;
187 unlink('a');
188
189 open F, ">:utf8", "a";
190 @a = map { chr(1 << ($_ << 2)) } 0..5; # 0x1, 0x10, .., 0x100000
191 unshift @a, chr(0); # ... and a null byte in front just for fun
192 print F @a;
193 close F;
194
195 my $c;
196
197 # read() should work on characters, not bytes
198 open F, "<:utf8", "a";
199 $a = 0;
200 for (@a) {
201     unless (($c = read(F, $b, 1) == 1)  &&
202             length($b)           == 1  &&
203             ord($b)              == ord($_) &&
204             tell(F)              == ($a += bytes::length($b))) {
205         print '# ord($_)           == ', ord($_), "\n";
206         print '# ord($b)           == ', ord($b), "\n";
207         print '# length($b)        == ', length($b), "\n";
208         print '# bytes::length($b) == ', bytes::length($b), "\n";
209         print '# tell(F)           == ', tell(F), "\n";
210         print '# $a                == ', $a, "\n";
211         print '# $c                == ', $c, "\n";
212         print "not ";
213         last;
214     }
215 }
216 close F;
217 print "ok 26\n";
218
219 {
220     # Check that warnings are on on I/O, and that they can be muffled.
221
222     local $SIG{__WARN__} = sub { $@ = shift };
223
224     undef $@;
225     open F, ">a";
226     print F chr(0x100);
227     close(F);
228
229     print $@ =~ /Wide character in print/ ? "ok 27\n" : "not ok 27\n";
230
231     undef $@;
232     open F, ">:utf8", "a";
233     print F chr(0x100);
234     close(F);
235
236     print defined $@ ? "not ok 28\n" : "ok 28\n";
237
238     undef $@;
239     open F, ">a";
240     binmode(F, ":utf8");
241     print F chr(0x100);
242     close(F);
243
244     print defined $@ ? "not ok 29\n" : "ok 29\n";
245
246     no warnings 'utf8';
247
248     undef $@;
249     open F, ">a";
250     print F chr(0x100);
251     close(F);
252
253     print defined $@ ? "not ok 30\n" : "ok 30\n";
254
255     use warnings 'utf8';
256
257     undef $@;
258     open F, ">a";
259     print F chr(0x100);
260     close(F);
261
262     print $@ =~ /Wide character in print/ ? "ok 31\n" : "not ok 31\n";
263 }
264
265 # sysread() and syswrite() tested in lib/open.t since Fnctl is used
266
267 END {
268     1 while unlink "a";
269     1 while unlink "b";
270 }
271