More binmode :bytes.
[p5sagit/p5-mst-13.2.git] / t / io / utf8.t
1 #!./perl
2
3 BEGIN {
4     chdir 't' if -d 't';
5     @INC = '../lib';
6     unless (find PerlIO::Layer 'perlio') {
7         print "1..0 # Skip: not perlio\n";
8         exit 0;
9     }
10 }
11
12 no utf8; # needed for use utf8 not griping about the raw octets
13
14 $| = 1;
15 print "1..31\n";
16
17 open(F,"+>:utf8",'a');
18 print F chr(0x100).'£';
19 print '#'.tell(F)."\n";
20 print "not " unless tell(F) == 4;
21 print "ok 1\n";
22 print F "\n";
23 print '#'.tell(F)."\n";
24 print "not " unless tell(F) >= 5;
25 print "ok 2\n";
26 seek(F,0,0);
27 print "not " unless getc(F) eq chr(0x100);
28 print "ok 3\n";
29 print "not " unless getc(F) eq "£";
30 print "ok 4\n";
31 print "not " unless getc(F) eq "\n";
32 print "ok 5\n";
33 seek(F,0,0);
34 binmode(F,":bytes");
35 my $chr = chr(0xc4);
36 if (ord('A') == 193) { $chr = chr(0x8c); } # EBCDIC
37 print "not " unless getc(F) eq $chr;
38 print "ok 6\n";
39 $chr = chr(0x80);
40 if (ord('A') == 193) { $chr = chr(0x41); } # EBCDIC
41 print "not " unless getc(F) eq $chr;
42 print "ok 7\n";
43 $chr = chr(0xc2);
44 if (ord('A') == 193) { $chr = chr(0x80); } # EBCDIC
45 print "not " unless getc(F) eq $chr;
46 print "ok 8\n";
47 $chr = chr(0xa3);
48 if (ord('A') == 193) { $chr = chr(0x44); } # EBCDIC
49 print "not " unless getc(F) eq $chr;
50 print "ok 9\n";
51 print "not " unless getc(F) eq "\n";
52 print "ok 10\n";
53 seek(F,0,0);
54 binmode(F,":utf8");
55 print "not " unless scalar(<F>) eq "\x{100}£\n";
56 print "ok 11\n";
57 seek(F,0,0);
58 $buf = chr(0x200);
59 $count = read(F,$buf,2,1);
60 print "not " unless $count == 2;
61 print "ok 12\n";
62 print "not " unless $buf eq "\x{200}\x{100}£";
63 print "ok 13\n";
64 close(F);
65
66 {
67 $a = chr(300); # This *is* UTF-encoded
68 $b = chr(130); # This is not.
69
70 open F, ">:utf8", 'a' or die $!;
71 print F $a,"\n";
72 close F;
73
74 open F, "<:utf8", 'a' or die $!;
75 $x = <F>;
76 chomp($x);
77 print "not " unless $x eq chr(300);
78 print "ok 14\n";
79
80 open F, "a" or die $!; # Not UTF
81 binmode(F, ":bytes");
82 $x = <F>;
83 chomp($x);
84 $chr = chr(196).chr(172);
85 if (ord('A') == 193) { $chr = chr(141).chr(83); } # EBCDIC
86 print "not " unless $x eq $chr;
87 print "ok 15\n";
88 close F;
89
90 open F, ">:utf8", 'a' or die $!;
91 binmode(F);  # we write a "\n" and then tell() - avoid CRLF issues.
92 print F $a;
93 my $y;
94 { my $x = tell(F);
95     { use bytes; $y = length($a);}
96     print "not " unless $x == $y;
97     print "ok 16\n";
98 }
99
100 { # Check byte length of $b
101 use bytes; my $y = length($b);
102 print "not " unless $y == 1;
103 print "ok 17\n";
104 }
105
106 print F $b,"\n"; # Don't upgrades $b
107
108 { # Check byte length of $b
109 use bytes; my $y = length($b);
110 print "not ($y) " unless $y == 1;
111 print "ok 18\n";
112 }
113
114 { my $x = tell(F);
115     { use bytes; if (ord('A')==193){$y += 2;}else{$y += 3;}} # EBCDIC ASCII
116     print "not ($x,$y) " unless $x == $y;
117     print "ok 19\n";
118 }
119
120 close F;
121
122 open F, "a" or die $!; # Not UTF
123 binmode(F, ":bytes");
124 $x = <F>;
125 chomp($x);
126 $chr = v196.172.194.130;
127 if (ord('A') == 193) { $chr = v141.83.130; } # EBCDIC
128 printf "not (%vd) ", $x unless $x eq $chr;
129 print "ok 20\n";
130
131 open F, "<:utf8", "a" or die $!;
132 $x = <F>;
133 chomp($x);
134 close F;
135 printf "not (%vd) ", $x unless $x eq chr(300).chr(130);
136 print "ok 21\n";
137
138 if (${^OPEN} =~ /:utf8/) {
139     
140 } else {
141     # Now let's make it suffer.
142     open F, ">", "a" or die $!;
143     my $w;
144     {
145         use warnings 'utf8';
146         local $SIG{__WARN__} = sub { $w = $_[0] };
147         print F $a;
148     }
149     print "not " if ($@ || $w !~ /Wide character in print/i);
150     print "ok 22\n";
151 }
152 }
153
154 # Hm. Time to get more evil.
155 open F, ">:utf8", "a" or die $!;
156 print F $a;
157 binmode(F, ":bytes");
158 print F chr(130)."\n";
159 close F;
160  
161 open F, "<", "a" or die $!;
162 binmode(F, ":bytes");
163 $x = <F>; chomp $x;
164 $chr = v196.172.130;
165 if (ord('A') == 193) { $chr = v141.83.130; } # EBCDIC
166 print "not " unless $x eq $chr;
167 print "ok 23\n";
168
169 # Right.
170 open F, ">:utf8", "a" or die $!;
171 print F $a;
172 close F;
173 open F, ">>", "a" or die $!;
174 print F chr(130)."\n";
175 close F;
176
177 open F, "<", "a" or die $!;
178 $x = <F>; chomp $x;
179 print "not " unless $x eq $chr;
180 print "ok 24\n";
181
182 # Now we have a deformed file.
183
184 if (ord('A') == 193) {
185     print "ok 25 # Skip: EBCDIC\n"; # EBCDIC doesn't complain
186 } else {
187     open F, "<:utf8", "a" or die $!;
188     $x = <F>; chomp $x;
189     local $SIG{__WARN__} = sub { print "ok 25\n" };
190     eval { sprintf "%vd\n", $x };
191 }
192
193 close F;
194 unlink('a');
195
196 open F, ">:utf8", "a";
197 @a = map { chr(1 << ($_ << 2)) } 0..5; # 0x1, 0x10, .., 0x100000
198 unshift @a, chr(0); # ... and a null byte in front just for fun
199 print F @a;
200 close F;
201
202 my $c;
203
204 # read() should work on characters, not bytes
205 open F, "<:utf8", "a";
206 $a = 0;
207 for (@a) {
208     unless (($c = read(F, $b, 1) == 1)  &&
209             length($b)           == 1  &&
210             ord($b)              == ord($_) &&
211             tell(F)              == ($a += bytes::length($b))) {
212         print '# ord($_)           == ', ord($_), "\n";
213         print '# ord($b)           == ', ord($b), "\n";
214         print '# length($b)        == ', length($b), "\n";
215         print '# bytes::length($b) == ', bytes::length($b), "\n";
216         print '# tell(F)           == ', tell(F), "\n";
217         print '# $a                == ', $a, "\n";
218         print '# $c                == ', $c, "\n";
219         print "not ";
220         last;
221     }
222 }
223 close F;
224 print "ok 26\n";
225
226 {
227     # Check that warnings are on on I/O, and that they can be muffled.
228
229     local $SIG{__WARN__} = sub { $@ = shift };
230
231     undef $@;
232     open F, ">a";
233     binmode(F, ":bytes");
234     print F chr(0x100);
235     close(F);
236
237     print $@ =~ /Wide character in print/ ? "ok 27\n" : "not ok 27\n";
238
239     undef $@;
240     open F, ">:utf8", "a";
241     print F chr(0x100);
242     close(F);
243
244     print defined $@ ? "not ok 28\n" : "ok 28\n";
245
246     undef $@;
247     open F, ">a";
248     binmode(F, ":utf8");
249     print F chr(0x100);
250     close(F);
251
252     print defined $@ ? "not ok 29\n" : "ok 29\n";
253
254     no warnings 'utf8';
255
256     undef $@;
257     open F, ">a";
258     print F chr(0x100);
259     close(F);
260
261     print defined $@ ? "not ok 30\n" : "ok 30\n";
262
263     use warnings 'utf8';
264
265     undef $@;
266     open F, ">a";
267     binmode(F, ":bytes");
268     print F chr(0x100);
269     close(F);
270
271     print $@ =~ /Wide character in print/ ? "ok 31\n" : "not ok 31\n";
272 }
273
274 # sysread() and syswrite() tested in lib/open.t since Fnctl is used
275
276 END {
277     1 while unlink "a";
278     1 while unlink "b";
279 }
280