More memory lane.
[p5sagit/p5-mst-13.2.git] / doop.c
1 /*    doop.c
2  *
3  *    Copyright (C) 1991, 1992, 1993, 1994, 1995, 1996, 1997, 1998, 1999,
4  *    2000, 2001, 2002, by Larry Wall and others
5  *
6  *    You may distribute under the terms of either the GNU General Public
7  *    License or the Artistic License, as specified in the README file.
8  *
9  */
10
11 /*
12  * "'So that was the job I felt I had to do when I started,' thought Sam."
13  */
14
15 #include "EXTERN.h"
16 #define PERL_IN_DOOP_C
17 #include "perl.h"
18
19 #ifndef PERL_MICRO
20 #if !defined(NSIG) || defined(M_UNIX) || defined(M_XENIX)
21 #include <signal.h>
22 #endif
23 #endif
24
25 STATIC I32
26 S_do_trans_simple(pTHX_ SV *sv)
27 {
28     U8 *s;
29     U8 *d;
30     U8 *send;
31     U8 *dstart;
32     I32 matches = 0;
33     I32 grows = PL_op->op_private & OPpTRANS_GROWS;
34     STRLEN len;
35     short *tbl;
36     I32 ch;
37
38     tbl = (short*)cPVOP->op_pv;
39     if (!tbl)
40         Perl_croak(aTHX_ "panic: do_trans_simple line %d",__LINE__);
41
42     s = (U8*)SvPV(sv, len);
43     send = s + len;
44
45     /* First, take care of non-UTF8 input strings, because they're easy */
46     if (!SvUTF8(sv)) {
47         while (s < send) {
48             if ((ch = tbl[*s]) >= 0) {
49                 matches++;
50                 *s++ = (U8)ch;
51             }
52             else
53                 s++;
54         }
55         SvSETMAGIC(sv);
56         return matches;
57     }
58
59     /* Allow for expansion: $_="a".chr(400); tr/a/\xFE/, FE needs encoding */
60     if (grows)
61         New(0, d, len*2+1, U8);
62     else
63         d = s;
64     dstart = d;
65     while (s < send) {
66         STRLEN ulen;
67         UV c;
68
69         /* Need to check this, otherwise 128..255 won't match */
70         c = utf8n_to_uvchr(s, send - s, &ulen, 0);
71         if (c < 0x100 && (ch = tbl[c]) >= 0) {
72             matches++;
73             d = uvchr_to_utf8(d, ch);
74             s += ulen;
75         }
76         else { /* No match -> copy */
77             Move(s, d, ulen, U8);
78             d += ulen;
79             s += ulen;
80         }
81     }
82     if (grows) {
83         sv_setpvn(sv, (char*)dstart, d - dstart);
84         Safefree(dstart);
85     }
86     else {
87         *d = '\0';
88         SvCUR_set(sv, d - dstart);
89     }
90     SvUTF8_on(sv);
91     SvSETMAGIC(sv);
92     return matches;
93 }
94
95 STATIC I32
96 S_do_trans_count(pTHX_ SV *sv)
97 {
98     U8 *s;
99     U8 *send;
100     I32 matches = 0;
101     STRLEN len;
102     short *tbl;
103     I32 complement = PL_op->op_private & OPpTRANS_COMPLEMENT;
104
105     tbl = (short*)cPVOP->op_pv;
106     if (!tbl)
107         Perl_croak(aTHX_ "panic: do_trans_count line %d",__LINE__);
108
109     s = (U8*)SvPV(sv, len);
110     send = s + len;
111
112     if (!SvUTF8(sv))
113         while (s < send) {
114             if (tbl[*s++] >= 0)
115                 matches++;
116         }
117     else
118         while (s < send) {
119             UV c;
120             STRLEN ulen;
121             c = utf8n_to_uvchr(s, send - s, &ulen, 0);
122             if (c < 0x100) {
123                 if (tbl[c] >= 0)
124                     matches++;
125             } else if (complement)
126                 matches++;
127             s += ulen;
128         }
129
130     return matches;
131 }
132
133 STATIC I32
134 S_do_trans_complex(pTHX_ SV *sv)
135 {
136     U8 *s;
137     U8 *send;
138     U8 *d;
139     U8 *dstart;
140     I32 isutf8;
141     I32 matches = 0;
142     I32 grows = PL_op->op_private & OPpTRANS_GROWS;
143     I32 complement = PL_op->op_private & OPpTRANS_COMPLEMENT;
144     I32 del = PL_op->op_private & OPpTRANS_DELETE;
145     STRLEN len, rlen = 0;
146     short *tbl;
147     I32 ch;
148
149     tbl = (short*)cPVOP->op_pv;
150     if (!tbl)
151         Perl_croak(aTHX_ "panic: do_trans_complex line %d",__LINE__);
152
153     s = (U8*)SvPV(sv, len);
154     isutf8 = SvUTF8(sv);
155     send = s + len;
156
157     if (!isutf8) {
158         dstart = d = s;
159         if (PL_op->op_private & OPpTRANS_SQUASH) {
160             U8* p = send;
161             while (s < send) {
162                 if ((ch = tbl[*s]) >= 0) {
163                     *d = (U8)ch;
164                     matches++;
165                     if (p != d - 1 || *p != *d)
166                         p = d++;
167                 }
168                 else if (ch == -1)      /* -1 is unmapped character */
169                     *d++ = *s;  
170                 else if (ch == -2)      /* -2 is delete character */
171                     matches++;
172                 s++;
173             }
174         }
175         else {
176             while (s < send) {
177                 if ((ch = tbl[*s]) >= 0) {
178                     matches++;
179                     *d++ = (U8)ch;
180                 }
181                 else if (ch == -1)      /* -1 is unmapped character */
182                     *d++ = *s;
183                 else if (ch == -2)      /* -2 is delete character */
184                     matches++;
185                 s++;
186             }
187         }
188         *d = '\0';
189         SvCUR_set(sv, d - dstart);
190     }
191     else { /* isutf8 */
192         if (grows)
193             New(0, d, len*2+1, U8);
194         else
195             d = s;
196         dstart = d;
197         if (complement && !del)
198             rlen = tbl[0x100];
199
200 #ifdef MACOS_TRADITIONAL
201 #define comp CoMP   /* "comp" is a keyword in some compilers ... */
202 #endif
203
204         if (PL_op->op_private & OPpTRANS_SQUASH) {
205             UV pch = 0xfeedface;
206             while (s < send) {
207                 STRLEN len;
208                 UV comp = utf8_to_uvchr(s, &len);
209
210                 if (comp > 0xff) {
211                     if (!complement) {
212                         Copy(s, d, len, U8);
213                         d += len;
214                     }
215                     else {
216                         matches++;
217                         if (!del) {
218                             ch = (rlen == 0) ? comp :
219                                 (comp - 0x100 < rlen) ?
220                                 tbl[comp+1] : tbl[0x100+rlen];
221                             if ((UV)ch != pch) {
222                                 d = uvchr_to_utf8(d, ch);
223                                 pch = (UV)ch;
224                             }
225                             s += len;
226                             continue;
227                         }
228                     }
229                 }
230                 else if ((ch = tbl[comp]) >= 0) {
231                     matches++;
232                     if ((UV)ch != pch) {
233                         d = uvchr_to_utf8(d, ch);
234                         pch = (UV)ch;
235                     }
236                     s += len;
237                     continue;
238                 }
239                 else if (ch == -1) {    /* -1 is unmapped character */
240                     Copy(s, d, len, U8);
241                     d += len;
242                 }
243                 else if (ch == -2)      /* -2 is delete character */
244                     matches++;
245                 s += len;
246                 pch = 0xfeedface;
247             }
248         }
249         else {
250             while (s < send) {
251                 STRLEN len;
252                 UV comp = utf8_to_uvchr(s, &len);
253                 if (comp > 0xff) {
254                     if (!complement) {
255                         Move(s, d, len, U8);
256                         d += len;
257                     }
258                     else {
259                         matches++;
260                         if (!del) {
261                             if (comp - 0x100 < rlen)
262                                 d = uvchr_to_utf8(d, tbl[comp+1]);
263                             else
264                                 d = uvchr_to_utf8(d, tbl[0x100+rlen]);
265                         }
266                     }
267                 }
268                 else if ((ch = tbl[comp]) >= 0) {
269                     d = uvchr_to_utf8(d, ch);
270                     matches++;
271                 }
272                 else if (ch == -1) {    /* -1 is unmapped character */
273                     Copy(s, d, len, U8);
274                     d += len;
275                 }
276                 else if (ch == -2)      /* -2 is delete character */
277                     matches++;
278                 s += len;
279             }
280         }
281         if (grows) {
282             sv_setpvn(sv, (char*)dstart, d - dstart);
283             Safefree(dstart);
284         }
285         else {
286             *d = '\0';
287             SvCUR_set(sv, d - dstart);
288         }
289         SvUTF8_on(sv);
290     }
291     SvSETMAGIC(sv);
292     return matches;
293 }
294
295 STATIC I32
296 S_do_trans_simple_utf8(pTHX_ SV *sv)
297 {
298     U8 *s;
299     U8 *send;
300     U8 *d;
301     U8 *start;
302     U8 *dstart, *dend;
303     I32 matches = 0;
304     I32 grows = PL_op->op_private & OPpTRANS_GROWS;
305     STRLEN len;
306
307     SV* rv = (SV*)cSVOP->op_sv;
308     HV* hv = (HV*)SvRV(rv);
309     SV** svp = hv_fetch(hv, "NONE", 4, FALSE);
310     UV none = svp ? SvUV(*svp) : 0x7fffffff;
311     UV extra = none + 1;
312     UV final = 0;
313     UV uv;
314     I32 isutf8;
315     U8 hibit = 0;
316
317     s = (U8*)SvPV(sv, len);
318     isutf8 = SvUTF8(sv);
319     if (!isutf8) {
320         U8 *t = s, *e = s + len;
321         while (t < e) {
322             U8 ch = *t++;
323             if ((hibit = !NATIVE_IS_INVARIANT(ch)))
324                 break;
325         }
326         if (hibit)
327             s = bytes_to_utf8(s, &len);
328     }
329     send = s + len;
330     start = s;
331
332     svp = hv_fetch(hv, "FINAL", 5, FALSE);
333     if (svp)
334         final = SvUV(*svp);
335
336     if (grows) {
337         /* d needs to be bigger than s, in case e.g. upgrading is required */
338         New(0, d, len*3+UTF8_MAXLEN, U8);
339         dend = d + len * 3;
340         dstart = d;
341     }
342     else {
343         dstart = d = s;
344         dend = d + len;
345     }
346
347     while (s < send) {
348         if ((uv = swash_fetch(rv, s, TRUE)) < none) {
349             s += UTF8SKIP(s);
350             matches++;
351             d = uvuni_to_utf8(d, uv);
352         }
353         else if (uv == none) {
354             int i = UTF8SKIP(s);
355             Move(s, d, i, U8);
356             d += i;
357             s += i;
358         }
359         else if (uv == extra) {
360             int i = UTF8SKIP(s);
361             s += i;
362             matches++;
363             d = uvuni_to_utf8(d, final);
364         }
365         else
366             s += UTF8SKIP(s);
367
368         if (d > dend) {
369             STRLEN clen = d - dstart;
370             STRLEN nlen = dend - dstart + len + UTF8_MAXLEN;
371             if (!grows)
372                 Perl_croak(aTHX_ "panic: do_trans_simple_utf8 line %d",__LINE__);
373             Renew(dstart, nlen+UTF8_MAXLEN, U8);
374             d = dstart + clen;
375             dend = dstart + nlen;
376         }
377     }
378     if (grows || hibit) {
379         sv_setpvn(sv, (char*)dstart, d - dstart);
380         Safefree(dstart);
381         if (grows && hibit)
382             Safefree(start);
383     }
384     else {
385         *d = '\0';
386         SvCUR_set(sv, d - dstart);
387     }
388     SvSETMAGIC(sv);
389     SvUTF8_on(sv);
390
391     return matches;
392 }
393
394 STATIC I32
395 S_do_trans_count_utf8(pTHX_ SV *sv)
396 {
397     U8 *s;
398     U8 *start = 0, *send;
399     I32 matches = 0;
400     STRLEN len;
401
402     SV* rv = (SV*)cSVOP->op_sv;
403     HV* hv = (HV*)SvRV(rv);
404     SV** svp = hv_fetch(hv, "NONE", 4, FALSE);
405     UV none = svp ? SvUV(*svp) : 0x7fffffff;
406     UV extra = none + 1;
407     UV uv;
408     U8 hibit = 0;
409
410     s = (U8*)SvPV(sv, len);
411     if (!SvUTF8(sv)) {
412         U8 *t = s, *e = s + len;
413         while (t < e) {
414             U8 ch = *t++;
415             if ((hibit = !NATIVE_IS_INVARIANT(ch)))
416                 break;
417         }
418         if (hibit)
419             start = s = bytes_to_utf8(s, &len);
420     }
421     send = s + len;
422
423     while (s < send) {
424         if ((uv = swash_fetch(rv, s, TRUE)) < none || uv == extra)
425             matches++;
426         s += UTF8SKIP(s);
427     }
428     if (hibit)
429         Safefree(start);
430
431     return matches;
432 }
433
434 STATIC I32
435 S_do_trans_complex_utf8(pTHX_ SV *sv)
436 {
437     U8 *s;
438     U8 *start, *send;
439     U8 *d;
440     I32 matches = 0;
441     I32 squash   = PL_op->op_private & OPpTRANS_SQUASH;
442     I32 del      = PL_op->op_private & OPpTRANS_DELETE;
443     I32 grows    = PL_op->op_private & OPpTRANS_GROWS;
444     SV* rv = (SV*)cSVOP->op_sv;
445     HV* hv = (HV*)SvRV(rv);
446     SV** svp = hv_fetch(hv, "NONE", 4, FALSE);
447     UV none = svp ? SvUV(*svp) : 0x7fffffff;
448     UV extra = none + 1;
449     UV final = 0;
450     bool havefinal = FALSE;
451     UV uv;
452     STRLEN len;
453     U8 *dstart, *dend;
454     I32 isutf8;
455     U8 hibit = 0;
456
457     s = (U8*)SvPV(sv, len);
458     isutf8 = SvUTF8(sv);
459     if (!isutf8) {
460         U8 *t = s, *e = s + len;
461         while (t < e) {
462             U8 ch = *t++;
463             if ((hibit = !NATIVE_IS_INVARIANT(ch)))
464                 break;
465         }
466         if (hibit)
467             s = bytes_to_utf8(s, &len);
468     }
469     send = s + len;
470     start = s;
471
472     svp = hv_fetch(hv, "FINAL", 5, FALSE);
473     if (svp) {
474         final = SvUV(*svp);
475         havefinal = TRUE;
476     }
477
478     if (grows) {
479         /* d needs to be bigger than s, in case e.g. upgrading is required */
480         New(0, d, len*3+UTF8_MAXLEN, U8);
481         dend = d + len * 3;
482         dstart = d;
483     }
484     else {
485         dstart = d = s;
486         dend = d + len;
487     }
488
489     if (squash) {
490         UV puv = 0xfeedface;
491         while (s < send) {
492             uv = swash_fetch(rv, s, TRUE);
493         
494             if (d > dend) {
495                 STRLEN clen = d - dstart;
496                 STRLEN nlen = dend - dstart + len + UTF8_MAXLEN;
497                 if (!grows)
498                     Perl_croak(aTHX_ "panic: do_trans_complex_utf8 line %d",__LINE__);
499                 Renew(dstart, nlen+UTF8_MAXLEN, U8);
500                 d = dstart + clen;
501                 dend = dstart + nlen;
502             }
503             if (uv < none) {
504                 matches++;
505                 s += UTF8SKIP(s);
506                 if (uv != puv) {
507                     d = uvuni_to_utf8(d, uv);
508                     puv = uv;
509                 }
510                 continue;
511             }
512             else if (uv == none) {      /* "none" is unmapped character */
513                 int i = UTF8SKIP(s);
514                 Move(s, d, i, U8);
515                 d += i;
516                 s += i;
517                 puv = 0xfeedface;
518                 continue;
519             }
520             else if (uv == extra && !del) {
521                 matches++;
522                 if (havefinal) {
523                     s += UTF8SKIP(s);
524                     if (puv != final) {
525                         d = uvuni_to_utf8(d, final);
526                         puv = final;
527                     }
528                 }
529                 else {
530                     STRLEN len;
531                     uv = utf8_to_uvuni(s, &len);
532                     if (uv != puv) {
533                         Move(s, d, len, U8);
534                         d += len;
535                         puv = uv;
536                     }
537                     s += len;
538                 }
539                 continue;
540             }
541             matches++;                  /* "none+1" is delete character */
542             s += UTF8SKIP(s);
543         }
544     }
545     else {
546         while (s < send) {
547             uv = swash_fetch(rv, s, TRUE);
548             if (d > dend) {
549                 STRLEN clen = d - dstart;
550                 STRLEN nlen = dend - dstart + len + UTF8_MAXLEN;
551                 if (!grows)
552                     Perl_croak(aTHX_ "panic: do_trans_complex_utf8 line %d",__LINE__);
553                 Renew(dstart, nlen+UTF8_MAXLEN, U8);
554                 d = dstart + clen;
555                 dend = dstart + nlen;
556             }
557             if (uv < none) {
558                 matches++;
559                 s += UTF8SKIP(s);
560                 d = uvuni_to_utf8(d, uv);
561                 continue;
562             }
563             else if (uv == none) {      /* "none" is unmapped character */
564                 int i = UTF8SKIP(s);
565                 Move(s, d, i, U8);
566                 d += i;
567                 s += i;
568                 continue;
569             }
570             else if (uv == extra && !del) {
571                 matches++;
572                 s += UTF8SKIP(s);
573                 d = uvuni_to_utf8(d, final);
574                 continue;
575             }
576             matches++;                  /* "none+1" is delete character */
577             s += UTF8SKIP(s);
578         }
579     }
580     if (grows || hibit) {
581         sv_setpvn(sv, (char*)dstart, d - dstart);
582         Safefree(dstart);
583         if (grows && hibit)
584             Safefree(start);
585     }
586     else {
587         *d = '\0';
588         SvCUR_set(sv, d - dstart);
589     }
590     SvUTF8_on(sv);
591     SvSETMAGIC(sv);
592
593     return matches;
594 }
595
596 I32
597 Perl_do_trans(pTHX_ SV *sv)
598 {
599     STRLEN len;
600     I32 hasutf = (PL_op->op_private &
601                     (OPpTRANS_FROM_UTF|OPpTRANS_TO_UTF));
602
603     if (SvREADONLY(sv)) {
604         if (SvIsCOW(sv))
605             sv_force_normal_flags(sv, 0);
606         if (SvREADONLY(sv) && !(PL_op->op_private & OPpTRANS_IDENTICAL))
607             Perl_croak(aTHX_ PL_no_modify);
608     }
609     (void)SvPV(sv, len);
610     if (!len)
611         return 0;
612     if (!(PL_op->op_private & OPpTRANS_IDENTICAL)) {
613         if (!SvPOKp(sv))
614             (void)SvPV_force(sv, len);
615         (void)SvPOK_only_UTF8(sv);
616     }
617
618     DEBUG_t( Perl_deb(aTHX_ "2.TBL\n"));
619
620     switch (PL_op->op_private & ~hasutf & 63) {
621     case 0:
622         if (hasutf)
623             return do_trans_simple_utf8(sv);
624         else
625             return do_trans_simple(sv);
626
627     case OPpTRANS_IDENTICAL:
628     case OPpTRANS_IDENTICAL|OPpTRANS_COMPLEMENT:
629         if (hasutf)
630             return do_trans_count_utf8(sv);
631         else
632             return do_trans_count(sv);
633
634     default:
635         if (hasutf)
636             return do_trans_complex_utf8(sv);
637         else
638             return do_trans_complex(sv);
639     }
640 }
641
642 void
643 Perl_do_join(pTHX_ register SV *sv, SV *del, register SV **mark, register SV **sp)
644 {
645     SV **oldmark = mark;
646     register I32 items = sp - mark;
647     register STRLEN len;
648     STRLEN delimlen;
649     STRLEN tmplen;
650
651     (void) SvPV(del, delimlen); /* stringify and get the delimlen */
652     /* SvCUR assumes it's SvPOK() and woe betide you if it's not. */
653
654     mark++;
655     len = (items > 0 ? (delimlen * (items - 1) ) : 0);
656     (void)SvUPGRADE(sv, SVt_PV);
657     if (SvLEN(sv) < len + items) {      /* current length is way too short */
658         while (items-- > 0) {
659             if (*mark && !SvGAMAGIC(*mark) && SvOK(*mark)) {
660                 SvPV(*mark, tmplen);
661                 len += tmplen;
662             }
663             mark++;
664         }
665         SvGROW(sv, len + 1);            /* so try to pre-extend */
666
667         mark = oldmark;
668         items = sp - mark;
669         ++mark;
670     }
671
672     sv_setpv(sv, "");
673     if (PL_tainting && SvMAGICAL(sv))
674         SvTAINTED_off(sv);
675
676     if (items-- > 0) {
677         if (*mark)
678             sv_catsv(sv, *mark);
679         mark++;
680     }
681
682     if (delimlen) {
683         for (; items > 0; items--,mark++) {
684             sv_catsv(sv,del);
685             sv_catsv(sv,*mark);
686         }
687     }
688     else {
689         for (; items > 0; items--,mark++)
690             sv_catsv(sv,*mark);
691     }
692     SvSETMAGIC(sv);
693 }
694
695 void
696 Perl_do_sprintf(pTHX_ SV *sv, I32 len, SV **sarg)
697 {
698     STRLEN patlen;
699     char *pat = SvPV(*sarg, patlen);
700     bool do_taint = FALSE;
701
702     SvUTF8_off(sv);
703     if (DO_UTF8(*sarg))
704         SvUTF8_on(sv);
705     sv_vsetpvfn(sv, pat, patlen, Null(va_list*), sarg + 1, len - 1, &do_taint);
706     SvSETMAGIC(sv);
707     if (do_taint)
708         SvTAINTED_on(sv);
709 }
710
711 /* currently converts input to bytes if possible, but doesn't sweat failure */
712 UV
713 Perl_do_vecget(pTHX_ SV *sv, I32 offset, I32 size)
714 {
715     STRLEN srclen, len;
716     unsigned char *s = (unsigned char *) SvPV(sv, srclen);
717     UV retnum = 0;
718
719     if (offset < 0)
720         return retnum;
721     if (size < 1 || (size & (size-1))) /* size < 1 or not a power of two */
722         Perl_croak(aTHX_ "Illegal number of bits in vec");
723
724     if (SvUTF8(sv))
725         (void) Perl_sv_utf8_downgrade(aTHX_ sv, TRUE);
726
727     offset *= size;     /* turn into bit offset */
728     len = (offset + size + 7) / 8;      /* required number of bytes */
729     if (len > srclen) {
730         if (size <= 8)
731             retnum = 0;
732         else {
733             offset >>= 3;       /* turn into byte offset */
734             if (size == 16) {
735                 if ((STRLEN)offset >= srclen)
736                     retnum = 0;
737                 else
738                     retnum = (UV) s[offset] <<  8;
739             }
740             else if (size == 32) {
741                 if ((STRLEN)offset >= srclen)
742                     retnum = 0;
743                 else if ((STRLEN)(offset + 1) >= srclen)
744                     retnum =
745                         ((UV) s[offset    ] << 24);
746                 else if ((STRLEN)(offset + 2) >= srclen)
747                     retnum =
748                         ((UV) s[offset    ] << 24) +
749                         ((UV) s[offset + 1] << 16);
750                 else
751                     retnum =
752                         ((UV) s[offset    ] << 24) +
753                         ((UV) s[offset + 1] << 16) +
754                         (     s[offset + 2] <<  8);
755             }
756 #ifdef UV_IS_QUAD
757             else if (size == 64) {
758                 if (ckWARN(WARN_PORTABLE))
759                     Perl_warner(aTHX_ packWARN(WARN_PORTABLE),
760                                 "Bit vector size > 32 non-portable");
761                 if (offset >= srclen)
762                     retnum = 0;
763                 else if (offset + 1 >= srclen)
764                     retnum =
765                         (UV) s[offset     ] << 56;
766                 else if (offset + 2 >= srclen)
767                     retnum =
768                         ((UV) s[offset    ] << 56) +
769                         ((UV) s[offset + 1] << 48);
770                 else if (offset + 3 >= srclen)
771                     retnum =
772                         ((UV) s[offset    ] << 56) +
773                         ((UV) s[offset + 1] << 48) +
774                         ((UV) s[offset + 2] << 40);
775                 else if (offset + 4 >= srclen)
776                     retnum =
777                         ((UV) s[offset    ] << 56) +
778                         ((UV) s[offset + 1] << 48) +
779                         ((UV) s[offset + 2] << 40) +
780                         ((UV) s[offset + 3] << 32);
781                 else if (offset + 5 >= srclen)
782                     retnum =
783                         ((UV) s[offset    ] << 56) +
784                         ((UV) s[offset + 1] << 48) +
785                         ((UV) s[offset + 2] << 40) +
786                         ((UV) s[offset + 3] << 32) +
787                         (     s[offset + 4] << 24);
788                 else if (offset + 6 >= srclen)
789                     retnum =
790                         ((UV) s[offset    ] << 56) +
791                         ((UV) s[offset + 1] << 48) +
792                         ((UV) s[offset + 2] << 40) +
793                         ((UV) s[offset + 3] << 32) +
794                         ((UV) s[offset + 4] << 24) +
795                         ((UV) s[offset + 5] << 16);
796                 else
797                     retnum =
798                         ((UV) s[offset    ] << 56) +
799                         ((UV) s[offset + 1] << 48) +
800                         ((UV) s[offset + 2] << 40) +
801                         ((UV) s[offset + 3] << 32) +
802                         ((UV) s[offset + 4] << 24) +
803                         ((UV) s[offset + 5] << 16) +
804                         (     s[offset + 6] <<  8);
805             }
806 #endif
807         }
808     }
809     else if (size < 8)
810         retnum = (s[offset >> 3] >> (offset & 7)) & ((1 << size) - 1);
811     else {
812         offset >>= 3;   /* turn into byte offset */
813         if (size == 8)
814             retnum = s[offset];
815         else if (size == 16)
816             retnum =
817                 ((UV) s[offset] <<      8) +
818                       s[offset + 1];
819         else if (size == 32)
820             retnum =
821                 ((UV) s[offset    ] << 24) +
822                 ((UV) s[offset + 1] << 16) +
823                 (     s[offset + 2] <<  8) +
824                       s[offset + 3];
825 #ifdef UV_IS_QUAD
826         else if (size == 64) {
827             if (ckWARN(WARN_PORTABLE))
828                 Perl_warner(aTHX_ packWARN(WARN_PORTABLE),
829                             "Bit vector size > 32 non-portable");
830             retnum =
831                 ((UV) s[offset    ] << 56) +
832                 ((UV) s[offset + 1] << 48) +
833                 ((UV) s[offset + 2] << 40) +
834                 ((UV) s[offset + 3] << 32) +
835                 ((UV) s[offset + 4] << 24) +
836                 ((UV) s[offset + 5] << 16) +
837                 (     s[offset + 6] <<  8) +
838                       s[offset + 7];
839         }
840 #endif
841     }
842
843     return retnum;
844 }
845
846 /* currently converts input to bytes if possible but doesn't sweat failures,
847  * although it does ensure that the string it clobbers is not marked as
848  * utf8-valid any more
849  */
850 void
851 Perl_do_vecset(pTHX_ SV *sv)
852 {
853     SV *targ = LvTARG(sv);
854     register I32 offset;
855     register I32 size;
856     register unsigned char *s;
857     register UV lval;
858     I32 mask;
859     STRLEN targlen;
860     STRLEN len;
861
862     if (!targ)
863         return;
864     s = (unsigned char*)SvPV_force(targ, targlen);
865     if (SvUTF8(targ)) {
866         /* This is handled by the SvPOK_only below...
867         if (!Perl_sv_utf8_downgrade(aTHX_ targ, TRUE))
868             SvUTF8_off(targ);
869          */
870         (void) Perl_sv_utf8_downgrade(aTHX_ targ, TRUE);
871     }
872
873     (void)SvPOK_only(targ);
874     lval = SvUV(sv);
875     offset = LvTARGOFF(sv);
876     if (offset < 0)
877         Perl_croak(aTHX_ "Negative offset to vec in lvalue context");
878     size = LvTARGLEN(sv);
879     if (size < 1 || (size & (size-1))) /* size < 1 or not a power of two */
880         Perl_croak(aTHX_ "Illegal number of bits in vec");
881
882     offset *= size;                     /* turn into bit offset */
883     len = (offset + size + 7) / 8;      /* required number of bytes */
884     if (len > targlen) {
885         s = (unsigned char*)SvGROW(targ, len + 1);
886         (void)memzero((char *)(s + targlen), len - targlen + 1);
887         SvCUR_set(targ, len);
888     }
889
890     if (size < 8) {
891         mask = (1 << size) - 1;
892         size = offset & 7;
893         lval &= mask;
894         offset >>= 3;                   /* turn into byte offset */
895         s[offset] &= ~(mask << size);
896         s[offset] |= lval << size;
897     }
898     else {
899         offset >>= 3;                   /* turn into byte offset */
900         if (size == 8)
901             s[offset  ] = (U8)( lval        & 0xff);
902         else if (size == 16) {
903             s[offset  ] = (U8)((lval >>  8) & 0xff);
904             s[offset+1] = (U8)( lval        & 0xff);
905         }
906         else if (size == 32) {
907             s[offset  ] = (U8)((lval >> 24) & 0xff);
908             s[offset+1] = (U8)((lval >> 16) & 0xff);
909             s[offset+2] = (U8)((lval >>  8) & 0xff);
910             s[offset+3] = (U8)( lval        & 0xff);
911         }
912 #ifdef UV_IS_QUAD
913         else if (size == 64) {
914             if (ckWARN(WARN_PORTABLE))
915                 Perl_warner(aTHX_ packWARN(WARN_PORTABLE),
916                             "Bit vector size > 32 non-portable");
917             s[offset  ] = (U8)((lval >> 56) & 0xff);
918             s[offset+1] = (U8)((lval >> 48) & 0xff);
919             s[offset+2] = (U8)((lval >> 40) & 0xff);
920             s[offset+3] = (U8)((lval >> 32) & 0xff);
921             s[offset+4] = (U8)((lval >> 24) & 0xff);
922             s[offset+5] = (U8)((lval >> 16) & 0xff);
923             s[offset+6] = (U8)((lval >>  8) & 0xff);
924             s[offset+7] = (U8)( lval        & 0xff);
925         }
926 #endif
927     }
928     SvSETMAGIC(targ);
929 }
930
931 void
932 Perl_do_chop(pTHX_ register SV *astr, register SV *sv)
933 {
934     STRLEN len;
935     char *s;
936
937     if (SvTYPE(sv) == SVt_PVAV) {
938         register I32 i;
939         I32 max;
940         AV* av = (AV*)sv;
941         max = AvFILL(av);
942         for (i = 0; i <= max; i++) {
943             sv = (SV*)av_fetch(av, i, FALSE);
944             if (sv && ((sv = *(SV**)sv), sv != &PL_sv_undef))
945                 do_chop(astr, sv);
946         }
947         return;
948     }
949     else if (SvTYPE(sv) == SVt_PVHV) {
950         HV* hv = (HV*)sv;
951         HE* entry;
952         (void)hv_iterinit(hv);
953         /*SUPPRESS 560*/
954         while ((entry = hv_iternext(hv)))
955             do_chop(astr,hv_iterval(hv,entry));
956         return;
957     }
958     else if (SvREADONLY(sv)) {
959         if (SvFAKE(sv)) {
960             /* SV is copy-on-write */
961             sv_force_normal_flags(sv, 0);
962         }
963         if (SvREADONLY(sv))
964             Perl_croak(aTHX_ PL_no_modify);
965     }
966     s = SvPV(sv, len);
967     if (len && !SvPOK(sv))
968         s = SvPV_force(sv, len);
969     if (DO_UTF8(sv)) {
970         if (s && len) {
971             char *send = s + len;
972             char *start = s;
973             s = send - 1;
974             while (s > start && UTF8_IS_CONTINUATION(*s))
975                 s--;
976             if (utf8_to_uvchr((U8*)s, 0)) {
977                 sv_setpvn(astr, s, send - s);
978                 *s = '\0';
979                 SvCUR_set(sv, s - start);
980                 SvNIOK_off(sv);
981                 SvUTF8_on(astr);
982             }
983         }
984         else
985             sv_setpvn(astr, "", 0);
986     }
987     else if (s && len) {
988         s += --len;
989         sv_setpvn(astr, s, 1);
990         *s = '\0';
991         SvCUR_set(sv, len);
992         SvUTF8_off(sv);
993         SvNIOK_off(sv);
994     }
995     else
996         sv_setpvn(astr, "", 0);
997     SvSETMAGIC(sv);
998 }
999
1000 I32
1001 Perl_do_chomp(pTHX_ register SV *sv)
1002 {
1003     register I32 count;
1004     STRLEN len;
1005     STRLEN n_a;
1006     char *s;
1007
1008     if (RsSNARF(PL_rs))
1009         return 0;
1010     if (RsRECORD(PL_rs))
1011       return 0;
1012     count = 0;
1013     if (SvTYPE(sv) == SVt_PVAV) {
1014         register I32 i;
1015         I32 max;
1016         AV* av = (AV*)sv;
1017         max = AvFILL(av);
1018         for (i = 0; i <= max; i++) {
1019             sv = (SV*)av_fetch(av, i, FALSE);
1020             if (sv && ((sv = *(SV**)sv), sv != &PL_sv_undef))
1021                 count += do_chomp(sv);
1022         }
1023         return count;
1024     }
1025     else if (SvTYPE(sv) == SVt_PVHV) {
1026         HV* hv = (HV*)sv;
1027         HE* entry;
1028         (void)hv_iterinit(hv);
1029         /*SUPPRESS 560*/
1030         while ((entry = hv_iternext(hv)))
1031             count += do_chomp(hv_iterval(hv,entry));
1032         return count;
1033     }
1034     else if (SvREADONLY(sv)) {
1035         if (SvFAKE(sv)) {
1036             /* SV is copy-on-write */
1037             sv_force_normal_flags(sv, 0);
1038         }
1039         if (SvREADONLY(sv))
1040             Perl_croak(aTHX_ PL_no_modify);
1041     }
1042     s = SvPV(sv, len);
1043     if (s && len) {
1044         s += --len;
1045         if (RsPARA(PL_rs)) {
1046             if (*s != '\n')
1047                 goto nope;
1048             ++count;
1049             while (len && s[-1] == '\n') {
1050                 --len;
1051                 --s;
1052                 ++count;
1053             }
1054         }
1055         else {
1056             STRLEN rslen;
1057             char *rsptr = SvPV(PL_rs, rslen);
1058             if (rslen == 1) {
1059                 if (*s != *rsptr)
1060                     goto nope;
1061                 ++count;
1062             }
1063             else {
1064                 if (len < rslen - 1)
1065                     goto nope;
1066                 len -= rslen - 1;
1067                 s -= rslen - 1;
1068                 if (memNE(s, rsptr, rslen))
1069                     goto nope;
1070                 count += rslen;
1071             }
1072         }
1073         s = SvPV_force(sv, n_a);
1074         SvCUR_set(sv, len);
1075         *SvEND(sv) = '\0';
1076         SvNIOK_off(sv);
1077         SvSETMAGIC(sv);
1078     }
1079   nope:
1080     return count;
1081 }
1082
1083 void
1084 Perl_do_vop(pTHX_ I32 optype, SV *sv, SV *left, SV *right)
1085 {
1086 #ifdef LIBERAL
1087     register long *dl;
1088     register long *ll;
1089     register long *rl;
1090 #endif
1091     register char *dc;
1092     STRLEN leftlen;
1093     STRLEN rightlen;
1094     register char *lc;
1095     register char *rc;
1096     register I32 len;
1097     I32 lensave;
1098     char *lsave;
1099     char *rsave;
1100     bool left_utf = DO_UTF8(left);
1101     bool right_utf = DO_UTF8(right);
1102     I32 needlen = 0;
1103
1104     if (left_utf && !right_utf)
1105         sv_utf8_upgrade(right);
1106     else if (!left_utf && right_utf)
1107         sv_utf8_upgrade(left);
1108
1109     if (sv != left || (optype != OP_BIT_AND && !SvOK(sv) && !SvGMAGICAL(sv)))
1110         sv_setpvn(sv, "", 0);   /* avoid undef warning on |= and ^= */
1111     lsave = lc = SvPV(left, leftlen);
1112     rsave = rc = SvPV(right, rightlen);
1113     len = leftlen < rightlen ? leftlen : rightlen;
1114     lensave = len;
1115     if ((left_utf || right_utf) && (sv == left || sv == right)) {
1116         needlen = optype == OP_BIT_AND ? len : leftlen + rightlen;
1117         Newz(801, dc, needlen + 1, char);
1118     }
1119     else if (SvOK(sv) || SvTYPE(sv) > SVt_PVMG) {
1120         STRLEN n_a;
1121         dc = SvPV_force(sv, n_a);
1122         if (SvCUR(sv) < (STRLEN)len) {
1123             dc = SvGROW(sv, (STRLEN)(len + 1));
1124             (void)memzero(dc + SvCUR(sv), len - SvCUR(sv) + 1);
1125         }
1126         if (optype != OP_BIT_AND && (left_utf || right_utf))
1127             dc = SvGROW(sv, leftlen + rightlen + 1);
1128     }
1129     else {
1130         needlen = ((optype == OP_BIT_AND)
1131                     ? len : (leftlen > rightlen ? leftlen : rightlen));
1132         Newz(801, dc, needlen + 1, char);
1133         (void)sv_usepvn(sv, dc, needlen);
1134         dc = SvPVX(sv);         /* sv_usepvn() calls Renew() */
1135     }
1136     SvCUR_set(sv, len);
1137     (void)SvPOK_only(sv);
1138     if (left_utf || right_utf) {
1139         UV duc, luc, ruc;
1140         char *dcsave = dc;
1141         STRLEN lulen = leftlen;
1142         STRLEN rulen = rightlen;
1143         STRLEN ulen;
1144
1145         switch (optype) {
1146         case OP_BIT_AND:
1147             while (lulen && rulen) {
1148                 luc = utf8n_to_uvchr((U8*)lc, lulen, &ulen, UTF8_ALLOW_ANYUV);
1149                 lc += ulen;
1150                 lulen -= ulen;
1151                 ruc = utf8n_to_uvchr((U8*)rc, rulen, &ulen, UTF8_ALLOW_ANYUV);
1152                 rc += ulen;
1153                 rulen -= ulen;
1154                 duc = luc & ruc;
1155                 dc = (char*)uvchr_to_utf8((U8*)dc, duc);
1156             }
1157             if (sv == left || sv == right)
1158                 (void)sv_usepvn(sv, dcsave, needlen);
1159             SvCUR_set(sv, dc - dcsave);
1160             break;
1161         case OP_BIT_XOR:
1162             while (lulen && rulen) {
1163                 luc = utf8n_to_uvchr((U8*)lc, lulen, &ulen, UTF8_ALLOW_ANYUV);
1164                 lc += ulen;
1165                 lulen -= ulen;
1166                 ruc = utf8n_to_uvchr((U8*)rc, rulen, &ulen, UTF8_ALLOW_ANYUV);
1167                 rc += ulen;
1168                 rulen -= ulen;
1169                 duc = luc ^ ruc;
1170                 dc = (char*)uvchr_to_utf8((U8*)dc, duc);
1171             }
1172             goto mop_up_utf;
1173         case OP_BIT_OR:
1174             while (lulen && rulen) {
1175                 luc = utf8n_to_uvchr((U8*)lc, lulen, &ulen, UTF8_ALLOW_ANYUV);
1176                 lc += ulen;
1177                 lulen -= ulen;
1178                 ruc = utf8n_to_uvchr((U8*)rc, rulen, &ulen, UTF8_ALLOW_ANYUV);
1179                 rc += ulen;
1180                 rulen -= ulen;
1181                 duc = luc | ruc;
1182                 dc = (char*)uvchr_to_utf8((U8*)dc, duc);
1183             }
1184           mop_up_utf:
1185             if (sv == left || sv == right)
1186                 (void)sv_usepvn(sv, dcsave, needlen);
1187             SvCUR_set(sv, dc - dcsave);
1188             if (rulen)
1189                 sv_catpvn(sv, rc, rulen);
1190             else if (lulen)
1191                 sv_catpvn(sv, lc, lulen);
1192             else
1193                 *SvEND(sv) = '\0';
1194             break;
1195         }
1196         SvUTF8_on(sv);
1197         goto finish;
1198     }
1199     else
1200 #ifdef LIBERAL
1201     if (len >= sizeof(long)*4 &&
1202         !((long)dc % sizeof(long)) &&
1203         !((long)lc % sizeof(long)) &&
1204         !((long)rc % sizeof(long)))     /* It's almost always aligned... */
1205     {
1206         I32 remainder = len % (sizeof(long)*4);
1207         len /= (sizeof(long)*4);
1208
1209         dl = (long*)dc;
1210         ll = (long*)lc;
1211         rl = (long*)rc;
1212
1213         switch (optype) {
1214         case OP_BIT_AND:
1215             while (len--) {
1216                 *dl++ = *ll++ & *rl++;
1217                 *dl++ = *ll++ & *rl++;
1218                 *dl++ = *ll++ & *rl++;
1219                 *dl++ = *ll++ & *rl++;
1220             }
1221             break;
1222         case OP_BIT_XOR:
1223             while (len--) {
1224                 *dl++ = *ll++ ^ *rl++;
1225                 *dl++ = *ll++ ^ *rl++;
1226                 *dl++ = *ll++ ^ *rl++;
1227                 *dl++ = *ll++ ^ *rl++;
1228             }
1229             break;
1230         case OP_BIT_OR:
1231             while (len--) {
1232                 *dl++ = *ll++ | *rl++;
1233                 *dl++ = *ll++ | *rl++;
1234                 *dl++ = *ll++ | *rl++;
1235                 *dl++ = *ll++ | *rl++;
1236             }
1237         }
1238
1239         dc = (char*)dl;
1240         lc = (char*)ll;
1241         rc = (char*)rl;
1242
1243         len = remainder;
1244     }
1245 #endif
1246     {
1247         switch (optype) {
1248         case OP_BIT_AND:
1249             while (len--)
1250                 *dc++ = *lc++ & *rc++;
1251             break;
1252         case OP_BIT_XOR:
1253             while (len--)
1254                 *dc++ = *lc++ ^ *rc++;
1255             goto mop_up;
1256         case OP_BIT_OR:
1257             while (len--)
1258                 *dc++ = *lc++ | *rc++;
1259           mop_up:
1260             len = lensave;
1261             if (rightlen > (STRLEN)len)
1262                 sv_catpvn(sv, rsave + len, rightlen - len);
1263             else if (leftlen > (STRLEN)len)
1264                 sv_catpvn(sv, lsave + len, leftlen - len);
1265             else
1266                 *SvEND(sv) = '\0';
1267             break;
1268         }
1269     }
1270 finish:
1271     SvTAINT(sv);
1272 }
1273
1274 OP *
1275 Perl_do_kv(pTHX)
1276 {
1277     dSP;
1278     HV *hv = (HV*)POPs;
1279     HV *keys;
1280     register HE *entry;
1281     SV *tmpstr;
1282     I32 gimme = GIMME_V;
1283     I32 dokeys =   (PL_op->op_type == OP_KEYS);
1284     I32 dovalues = (PL_op->op_type == OP_VALUES);
1285
1286     if (PL_op->op_type == OP_RV2HV || PL_op->op_type == OP_PADHV)
1287         dokeys = dovalues = TRUE;
1288
1289     if (!hv) {
1290         if (PL_op->op_flags & OPf_MOD || LVRET) {       /* lvalue */
1291             dTARGET;            /* make sure to clear its target here */
1292             if (SvTYPE(TARG) == SVt_PVLV)
1293                 LvTARG(TARG) = Nullsv;
1294             PUSHs(TARG);
1295         }
1296         RETURN;
1297     }
1298
1299     keys = hv;
1300     (void)hv_iterinit(keys);    /* always reset iterator regardless */
1301
1302     if (gimme == G_VOID)
1303         RETURN;
1304
1305     if (gimme == G_SCALAR) {
1306         IV i;
1307         dTARGET;
1308
1309         if (PL_op->op_flags & OPf_MOD || LVRET) {       /* lvalue */
1310             if (SvTYPE(TARG) < SVt_PVLV) {
1311                 sv_upgrade(TARG, SVt_PVLV);
1312                 sv_magic(TARG, Nullsv, PERL_MAGIC_nkeys, Nullch, 0);
1313             }
1314             LvTYPE(TARG) = 'k';
1315             if (LvTARG(TARG) != (SV*)keys) {
1316                 if (LvTARG(TARG))
1317                     SvREFCNT_dec(LvTARG(TARG));
1318                 LvTARG(TARG) = SvREFCNT_inc(keys);
1319             }
1320             PUSHs(TARG);
1321             RETURN;
1322         }
1323
1324         if (! SvTIED_mg((SV*)keys, PERL_MAGIC_tied))
1325             i = HvKEYS(keys);
1326         else {
1327             i = 0;
1328             /*SUPPRESS 560*/
1329             while (hv_iternext(keys)) i++;
1330         }
1331         PUSHi( i );
1332         RETURN;
1333     }
1334
1335     EXTEND(SP, HvKEYS(keys) * (dokeys + dovalues));
1336
1337     PUTBACK;    /* hv_iternext and hv_iterval might clobber stack_sp */
1338     while ((entry = hv_iternext(keys))) {
1339         SPAGAIN;
1340         if (dokeys) {
1341             SV* sv = hv_iterkeysv(entry);
1342             XPUSHs(sv); /* won't clobber stack_sp */
1343         }
1344         if (dovalues) {
1345             PUTBACK;
1346             tmpstr = hv_iterval(hv,entry);
1347             DEBUG_H(Perl_sv_setpvf(aTHX_ tmpstr, "%lu%%%d=%lu",
1348                             (unsigned long)HeHASH(entry),
1349                             HvMAX(keys)+1,
1350                             (unsigned long)(HeHASH(entry) & HvMAX(keys))));
1351             SPAGAIN;
1352             XPUSHs(tmpstr);
1353         }
1354         PUTBACK;
1355     }
1356     return NORMAL;
1357 }
1358