d11fe1931565e9e44f22bd6535bdff65c175799d
[p5sagit/p5-mst-13.2.git] / regexec.c
1 /*    regexec.c
2  */
3
4 /*
5  * "One Ring to rule them all, One Ring to find them..."
6  */
7
8 /* This file contains functions for executing a regular expression.  See
9  * also regcomp.c which funnily enough, contains functions for compiling
10  * a regular expression.
11  *
12  * This file is also copied at build time to ext/re/re_exec.c, where
13  * it's built with -DPERL_EXT_RE_BUILD -DPERL_EXT_RE_DEBUG -DPERL_EXT.
14  * This causes the main functions to be compiled under new names and with
15  * debugging support added, which makes "use re 'debug'" work.
16  */
17
18 /* NOTE: this is derived from Henry Spencer's regexp code, and should not
19  * confused with the original package (see point 3 below).  Thanks, Henry!
20  */
21
22 /* Additional note: this code is very heavily munged from Henry's version
23  * in places.  In some spots I've traded clarity for efficiency, so don't
24  * blame Henry for some of the lack of readability.
25  */
26
27 /* The names of the functions have been changed from regcomp and
28  * regexec to  pregcomp and pregexec in order to avoid conflicts
29  * with the POSIX routines of the same names.
30 */
31
32 #ifdef PERL_EXT_RE_BUILD
33 #include "re_top.h"
34 #endif
35
36 /*
37  * pregcomp and pregexec -- regsub and regerror are not used in perl
38  *
39  *      Copyright (c) 1986 by University of Toronto.
40  *      Written by Henry Spencer.  Not derived from licensed software.
41  *
42  *      Permission is granted to anyone to use this software for any
43  *      purpose on any computer system, and to redistribute it freely,
44  *      subject to the following restrictions:
45  *
46  *      1. The author is not responsible for the consequences of use of
47  *              this software, no matter how awful, even if they arise
48  *              from defects in it.
49  *
50  *      2. The origin of this software must not be misrepresented, either
51  *              by explicit claim or by omission.
52  *
53  *      3. Altered versions must be plainly marked as such, and must not
54  *              be misrepresented as being the original software.
55  *
56  ****    Alterations to Henry's code are...
57  ****
58  ****    Copyright (C) 1991, 1992, 1993, 1994, 1995, 1996, 1997, 1998, 1999,
59  ****    2000, 2001, 2002, 2003, 2004, 2005, 2006, by Larry Wall and others
60  ****
61  ****    You may distribute under the terms of either the GNU General Public
62  ****    License or the Artistic License, as specified in the README file.
63  *
64  * Beware that some of this code is subtly aware of the way operator
65  * precedence is structured in regular expressions.  Serious changes in
66  * regular-expression syntax might require a total rethink.
67  */
68 #include "EXTERN.h"
69 #define PERL_IN_REGEXEC_C
70 #include "perl.h"
71
72 #ifdef PERL_IN_XSUB_RE
73 #  include "re_comp.h"
74 #else
75 #  include "regcomp.h"
76 #endif
77
78 #define RF_tainted      1               /* tainted information used? */
79 #define RF_warned       2               /* warned about big count? */
80
81 #define RF_utf8         8               /* Pattern contains multibyte chars? */
82
83 #define UTF ((PL_reg_flags & RF_utf8) != 0)
84
85 #define RS_init         1               /* eval environment created */
86 #define RS_set          2               /* replsv value is set */
87
88 #ifndef STATIC
89 #define STATIC  static
90 #endif
91
92 #define REGINCLASS(prog,p,c)  (ANYOF_FLAGS(p) ? reginclass(prog,p,c,0,0) : ANYOF_BITMAP_TEST(p,*(c)))
93
94 /*
95  * Forwards.
96  */
97
98 #define CHR_SVLEN(sv) (do_utf8 ? sv_len_utf8(sv) : SvCUR(sv))
99 #define CHR_DIST(a,b) (PL_reg_match_utf8 ? utf8_distance(a,b) : a - b)
100
101 #define HOPc(pos,off) \
102         (char *)(PL_reg_match_utf8 \
103             ? reghop3((U8*)pos, off, (U8*)(off >= 0 ? PL_regeol : PL_bostr)) \
104             : (U8*)(pos + off))
105 #define HOPBACKc(pos, off) \
106         (char*)(PL_reg_match_utf8\
107             ? reghopmaybe3((U8*)pos, -off, (U8*)PL_bostr) \
108             : (pos - off >= PL_bostr)           \
109                 ? (U8*)pos - off                \
110                 : NULL)
111
112 #define HOP3(pos,off,lim) (PL_reg_match_utf8 ? reghop3((U8*)(pos), off, (U8*)(lim)) : (U8*)(pos + off))
113 #define HOP3c(pos,off,lim) ((char*)HOP3(pos,off,lim))
114
115 #define LOAD_UTF8_CHARCLASS(class,str) STMT_START { \
116     if (!CAT2(PL_utf8_,class)) { bool ok; ENTER; save_re_context(); ok=CAT2(is_utf8_,class)((const U8*)str); assert(ok); LEAVE; } } STMT_END
117 #define LOAD_UTF8_CHARCLASS_ALNUM() LOAD_UTF8_CHARCLASS(alnum,"a")
118 #define LOAD_UTF8_CHARCLASS_DIGIT() LOAD_UTF8_CHARCLASS(digit,"0")
119 #define LOAD_UTF8_CHARCLASS_SPACE() LOAD_UTF8_CHARCLASS(space," ")
120 #define LOAD_UTF8_CHARCLASS_MARK()  LOAD_UTF8_CHARCLASS(mark, "\xcd\x86")
121
122 /* TODO: Combine JUMPABLE and HAS_TEXT to cache OP(rn) */
123
124 /* for use after a quantifier and before an EXACT-like node -- japhy */
125 #define JUMPABLE(rn) ( \
126     OP(rn) == OPEN || OP(rn) == CLOSE || OP(rn) == EVAL || \
127     OP(rn) == SUSPEND || OP(rn) == IFMATCH || \
128     OP(rn) == PLUS || OP(rn) == MINMOD || \
129     (PL_regkind[OP(rn)] == CURLY && ARG1(rn) > 0) \
130 )
131
132 #define HAS_TEXT(rn) ( \
133     PL_regkind[OP(rn)] == EXACT || PL_regkind[OP(rn)] == REF \
134 )
135
136 /*
137   Search for mandatory following text node; for lookahead, the text must
138   follow but for lookbehind (rn->flags != 0) we skip to the next step.
139 */
140 #define FIND_NEXT_IMPT(rn) STMT_START { \
141     while (JUMPABLE(rn)) { \
142         const OPCODE type = OP(rn); \
143         if (type == SUSPEND || PL_regkind[type] == CURLY) \
144             rn = NEXTOPER(NEXTOPER(rn)); \
145         else if (type == PLUS) \
146             rn = NEXTOPER(rn); \
147         else if (type == IFMATCH) \
148             rn = (rn->flags == 0) ? NEXTOPER(NEXTOPER(rn)) : rn + ARG(rn); \
149         else rn += NEXT_OFF(rn); \
150     } \
151 } STMT_END 
152
153
154 static void restore_pos(pTHX_ void *arg);
155
156 STATIC CHECKPOINT
157 S_regcppush(pTHX_ I32 parenfloor)
158 {
159     dVAR;
160     const int retval = PL_savestack_ix;
161 #define REGCP_PAREN_ELEMS 4
162     const int paren_elems_to_push = (PL_regsize - parenfloor) * REGCP_PAREN_ELEMS;
163     int p;
164     GET_RE_DEBUG_FLAGS_DECL;
165
166     if (paren_elems_to_push < 0)
167         Perl_croak(aTHX_ "panic: paren_elems_to_push < 0");
168
169 #define REGCP_OTHER_ELEMS 8
170     SSGROW(paren_elems_to_push + REGCP_OTHER_ELEMS);
171     for (p = PL_regsize; p > parenfloor; p--) {
172 /* REGCP_PARENS_ELEMS are pushed per pairs of parentheses. */
173         SSPUSHINT(PL_regendp[p]);
174         SSPUSHINT(PL_regstartp[p]);
175         SSPUSHPTR(PL_reg_start_tmp[p]);
176         SSPUSHINT(p);
177         DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
178           "     saving \\%"UVuf" %"IVdf"(%"IVdf")..%"IVdf"\n",
179                       (UV)p, (IV)PL_regstartp[p],
180                       (IV)(PL_reg_start_tmp[p] - PL_bostr),
181                       (IV)PL_regendp[p]
182         ));
183     }
184 /* REGCP_OTHER_ELEMS are pushed in any case, parentheses or no. */
185     SSPUSHPTR(PL_regstartp);
186     SSPUSHPTR(PL_regendp);
187     SSPUSHINT(PL_regsize);
188     SSPUSHINT(*PL_reglastparen);
189     SSPUSHINT(*PL_reglastcloseparen);
190     SSPUSHPTR(PL_reginput);
191 #define REGCP_FRAME_ELEMS 2
192 /* REGCP_FRAME_ELEMS are part of the REGCP_OTHER_ELEMS and
193  * are needed for the regexp context stack bookkeeping. */
194     SSPUSHINT(paren_elems_to_push + REGCP_OTHER_ELEMS - REGCP_FRAME_ELEMS);
195     SSPUSHINT(SAVEt_REGCONTEXT); /* Magic cookie. */
196
197     return retval;
198 }
199
200 /* These are needed since we do not localize EVAL nodes: */
201 #define REGCP_SET(cp)                                           \
202     DEBUG_STATE_r(                                              \
203             PerlIO_printf(Perl_debug_log,                       \
204                 "  Setting an EVAL scope, savestack=%"IVdf"\n", \
205                 (IV)PL_savestack_ix));                          \
206     cp = PL_savestack_ix
207
208 #define REGCP_UNWIND(cp)                                        \
209     DEBUG_STATE_r(                                              \
210         if (cp != PL_savestack_ix)                              \
211             PerlIO_printf(Perl_debug_log,                       \
212                 "  Clearing an EVAL scope, savestack=%"IVdf"..%"IVdf"\n", \
213                 (IV)(cp), (IV)PL_savestack_ix));                \
214     regcpblow(cp)
215
216 STATIC char *
217 S_regcppop(pTHX_ const regexp *rex)
218 {
219     dVAR;
220     I32 i;
221     char *input;
222
223     GET_RE_DEBUG_FLAGS_DECL;
224
225     /* Pop REGCP_OTHER_ELEMS before the parentheses loop starts. */
226     i = SSPOPINT;
227     assert(i == SAVEt_REGCONTEXT); /* Check that the magic cookie is there. */
228     i = SSPOPINT; /* Parentheses elements to pop. */
229     input = (char *) SSPOPPTR;
230     *PL_reglastcloseparen = SSPOPINT;
231     *PL_reglastparen = SSPOPINT;
232     PL_regsize = SSPOPINT;
233     PL_regendp=(I32 *) SSPOPPTR;
234     PL_regstartp=(I32 *) SSPOPPTR;
235
236     
237     /* Now restore the parentheses context. */
238     for (i -= (REGCP_OTHER_ELEMS - REGCP_FRAME_ELEMS);
239          i > 0; i -= REGCP_PAREN_ELEMS) {
240         I32 tmps;
241         U32 paren = (U32)SSPOPINT;
242         PL_reg_start_tmp[paren] = (char *) SSPOPPTR;
243         PL_regstartp[paren] = SSPOPINT;
244         tmps = SSPOPINT;
245         if (paren <= *PL_reglastparen)
246             PL_regendp[paren] = tmps;
247         DEBUG_EXECUTE_r(
248             PerlIO_printf(Perl_debug_log,
249                           "     restoring \\%"UVuf" to %"IVdf"(%"IVdf")..%"IVdf"%s\n",
250                           (UV)paren, (IV)PL_regstartp[paren],
251                           (IV)(PL_reg_start_tmp[paren] - PL_bostr),
252                           (IV)PL_regendp[paren],
253                           (paren > *PL_reglastparen ? "(no)" : ""));
254         );
255     }
256     DEBUG_EXECUTE_r(
257         if (*PL_reglastparen + 1 <= rex->nparens) {
258             PerlIO_printf(Perl_debug_log,
259                           "     restoring \\%"IVdf"..\\%"IVdf" to undef\n",
260                           (IV)(*PL_reglastparen + 1), (IV)rex->nparens);
261         }
262     );
263 #if 1
264     /* It would seem that the similar code in regtry()
265      * already takes care of this, and in fact it is in
266      * a better location to since this code can #if 0-ed out
267      * but the code in regtry() is needed or otherwise tests
268      * requiring null fields (pat.t#187 and split.t#{13,14}
269      * (as of patchlevel 7877)  will fail.  Then again,
270      * this code seems to be necessary or otherwise
271      * building DynaLoader will fail:
272      * "Error: '*' not in typemap in DynaLoader.xs, line 164"
273      * --jhi */
274     for (i = *PL_reglastparen + 1; (U32)i <= rex->nparens; i++) {
275         if (i > PL_regsize)
276             PL_regstartp[i] = -1;
277         PL_regendp[i] = -1;
278     }
279 #endif
280     return input;
281 }
282
283 #define regcpblow(cp) LEAVE_SCOPE(cp)   /* Ignores regcppush()ed data. */
284
285 /*
286  * pregexec and friends
287  */
288
289 #ifndef PERL_IN_XSUB_RE
290 /*
291  - pregexec - match a regexp against a string
292  */
293 I32
294 Perl_pregexec(pTHX_ register regexp *prog, char *stringarg, register char *strend,
295          char *strbeg, I32 minend, SV *screamer, U32 nosave)
296 /* strend: pointer to null at end of string */
297 /* strbeg: real beginning of string */
298 /* minend: end of match must be >=minend after stringarg. */
299 /* nosave: For optimizations. */
300 {
301     return
302         regexec_flags(prog, stringarg, strend, strbeg, minend, screamer, NULL,
303                       nosave ? 0 : REXEC_COPY_STR);
304 }
305 #endif
306
307 /*
308  * Need to implement the following flags for reg_anch:
309  *
310  * USE_INTUIT_NOML              - Useful to call re_intuit_start() first
311  * USE_INTUIT_ML
312  * INTUIT_AUTORITATIVE_NOML     - Can trust a positive answer
313  * INTUIT_AUTORITATIVE_ML
314  * INTUIT_ONCE_NOML             - Intuit can match in one location only.
315  * INTUIT_ONCE_ML
316  *
317  * Another flag for this function: SECOND_TIME (so that float substrs
318  * with giant delta may be not rechecked).
319  */
320
321 /* Assumptions: if ANCH_GPOS, then strpos is anchored. XXXX Check GPOS logic */
322
323 /* If SCREAM, then SvPVX_const(sv) should be compatible with strpos and strend.
324    Otherwise, only SvCUR(sv) is used to get strbeg. */
325
326 /* XXXX We assume that strpos is strbeg unless sv. */
327
328 /* XXXX Some places assume that there is a fixed substring.
329         An update may be needed if optimizer marks as "INTUITable"
330         RExen without fixed substrings.  Similarly, it is assumed that
331         lengths of all the strings are no more than minlen, thus they
332         cannot come from lookahead.
333         (Or minlen should take into account lookahead.) */
334
335 /* A failure to find a constant substring means that there is no need to make
336    an expensive call to REx engine, thus we celebrate a failure.  Similarly,
337    finding a substring too deep into the string means that less calls to
338    regtry() should be needed.
339
340    REx compiler's optimizer found 4 possible hints:
341         a) Anchored substring;
342         b) Fixed substring;
343         c) Whether we are anchored (beginning-of-line or \G);
344         d) First node (of those at offset 0) which may distingush positions;
345    We use a)b)d) and multiline-part of c), and try to find a position in the
346    string which does not contradict any of them.
347  */
348
349 /* Most of decisions we do here should have been done at compile time.
350    The nodes of the REx which we used for the search should have been
351    deleted from the finite automaton. */
352
353 char *
354 Perl_re_intuit_start(pTHX_ regexp *prog, SV *sv, char *strpos,
355                      char *strend, U32 flags, re_scream_pos_data *data)
356 {
357     dVAR;
358     register I32 start_shift = 0;
359     /* Should be nonnegative! */
360     register I32 end_shift   = 0;
361     register char *s;
362     register SV *check;
363     char *strbeg;
364     char *t;
365     const bool do_utf8 = (sv && SvUTF8(sv)) ? 1 : 0; /* if no sv we have to assume bytes */
366     I32 ml_anch;
367     register char *other_last = NULL;   /* other substr checked before this */
368     char *check_at = NULL;              /* check substr found at this pos */
369     const I32 multiline = prog->reganch & PMf_MULTILINE;
370 #ifdef DEBUGGING
371     const char * const i_strpos = strpos;
372 #endif
373
374     GET_RE_DEBUG_FLAGS_DECL;
375
376     RX_MATCH_UTF8_set(prog,do_utf8);
377
378     if (prog->reganch & ROPT_UTF8) {
379         PL_reg_flags |= RF_utf8;
380     }
381     DEBUG_EXECUTE_r( 
382         debug_start_match(prog, do_utf8, strpos, strend, 
383             sv ? "Guessing start of match in sv for"
384                : "Guessing start of match in string for");
385               );
386
387     /* CHR_DIST() would be more correct here but it makes things slow. */
388     if (prog->minlen > strend - strpos) {
389         DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
390                               "String too short... [re_intuit_start]\n"));
391         goto fail;
392     }
393                 
394     strbeg = (sv && SvPOK(sv)) ? strend - SvCUR(sv) : strpos;
395     PL_regeol = strend;
396     if (do_utf8) {
397         if (!prog->check_utf8 && prog->check_substr)
398             to_utf8_substr(prog);
399         check = prog->check_utf8;
400     } else {
401         if (!prog->check_substr && prog->check_utf8)
402             to_byte_substr(prog);
403         check = prog->check_substr;
404     }
405     if (check == &PL_sv_undef) {
406         DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
407                 "Non-utf8 string cannot match utf8 check string\n"));
408         goto fail;
409     }
410     if (prog->reganch & ROPT_ANCH) {    /* Match at beg-of-str or after \n */
411         ml_anch = !( (prog->reganch & ROPT_ANCH_SINGLE)
412                      || ( (prog->reganch & ROPT_ANCH_BOL)
413                           && !multiline ) );    /* Check after \n? */
414
415         if (!ml_anch) {
416           if ( !(prog->reganch & (ROPT_ANCH_GPOS /* Checked by the caller */
417                                   | ROPT_IMPLICIT)) /* not a real BOL */
418                /* SvCUR is not set on references: SvRV and SvPVX_const overlap */
419                && sv && !SvROK(sv)
420                && (strpos != strbeg)) {
421               DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "Not at start...\n"));
422               goto fail;
423           }
424           if (prog->check_offset_min == prog->check_offset_max &&
425               !(prog->reganch & ROPT_CANY_SEEN)) {
426             /* Substring at constant offset from beg-of-str... */
427             I32 slen;
428
429             s = HOP3c(strpos, prog->check_offset_min, strend);
430             
431             if (SvTAIL(check)) {
432                 slen = SvCUR(check);    /* >= 1 */
433
434                 if ( strend - s > slen || strend - s < slen - 1
435                      || (strend - s == slen && strend[-1] != '\n')) {
436                     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "String too long...\n"));
437                     goto fail_finish;
438                 }
439                 /* Now should match s[0..slen-2] */
440                 slen--;
441                 if (slen && (*SvPVX_const(check) != *s
442                              || (slen > 1
443                                  && memNE(SvPVX_const(check), s, slen)))) {
444                   report_neq:
445                     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "String not equal...\n"));
446                     goto fail_finish;
447                 }
448             }
449             else if (*SvPVX_const(check) != *s
450                      || ((slen = SvCUR(check)) > 1
451                          && memNE(SvPVX_const(check), s, slen)))
452                 goto report_neq;
453             check_at = s;
454             goto success_at_start;
455           }
456         }
457         /* Match is anchored, but substr is not anchored wrt beg-of-str. */
458         s = strpos;
459         start_shift = prog->check_offset_min; /* okay to underestimate on CC */
460         end_shift = prog->check_end_shift;
461         
462         if (!ml_anch) {
463             const I32 end = prog->check_offset_max + CHR_SVLEN(check)
464                                          - (SvTAIL(check) != 0);
465             const I32 eshift = CHR_DIST((U8*)strend, (U8*)s) - end;
466
467             if (end_shift < eshift)
468                 end_shift = eshift;
469         }
470     }
471     else {                              /* Can match at random position */
472         ml_anch = 0;
473         s = strpos;
474         start_shift = prog->check_offset_min;  /* okay to underestimate on CC */
475         end_shift = prog->check_end_shift;
476         
477         /* end shift should be non negative here */
478     }
479
480 #ifdef DEBUGGING        /* 7/99: reports of failure (with the older version) */
481     if (end_shift < 0)
482         Perl_croak(aTHX_ "panic: end_shift: %"IVdf" pattern:\n%s\n ",
483                    (IV)end_shift, prog->precomp);
484 #endif
485
486   restart:
487     /* Find a possible match in the region s..strend by looking for
488        the "check" substring in the region corrected by start/end_shift. */
489     
490     {
491         I32 srch_start_shift = start_shift;
492         I32 srch_end_shift = end_shift;
493         if (srch_start_shift < 0 && strbeg - s > srch_start_shift) {
494             srch_end_shift -= ((strbeg - s) - srch_start_shift); 
495             srch_start_shift = strbeg - s;
496         }
497     DEBUG_OPTIMISE_MORE_r({
498         PerlIO_printf(Perl_debug_log, "Check offset min: %"IVdf" Start shift: %"IVdf" End shift %"IVdf" Real End Shift: %"IVdf"\n",
499             (IV)prog->check_offset_min,
500             (IV)srch_start_shift,
501             (IV)srch_end_shift, 
502             (IV)prog->check_end_shift);
503     });       
504         
505     if (flags & REXEC_SCREAM) {
506         I32 p = -1;                     /* Internal iterator of scream. */
507         I32 * const pp = data ? data->scream_pos : &p;
508
509         if (PL_screamfirst[BmRARE(check)] >= 0
510             || ( BmRARE(check) == '\n'
511                  && (BmPREVIOUS(check) == SvCUR(check) - 1)
512                  && SvTAIL(check) ))
513             s = screaminstr(sv, check,
514                             srch_start_shift + (s - strbeg), srch_end_shift, pp, 0);
515         else
516             goto fail_finish;
517         /* we may be pointing at the wrong string */
518         if (s && RX_MATCH_COPIED(prog))
519             s = strbeg + (s - SvPVX_const(sv));
520         if (data)
521             *data->scream_olds = s;
522     }
523     else {
524         U8* start_point;
525         U8* end_point;
526         if (prog->reganch & ROPT_CANY_SEEN) {
527             start_point= (U8*)(s + srch_start_shift);
528             end_point= (U8*)(strend - srch_end_shift);
529         } else {
530             start_point= HOP3(s, srch_start_shift, srch_start_shift < 0 ? strbeg : strend);
531             end_point= HOP3(strend, -srch_end_shift, strbeg);
532         }
533         DEBUG_OPTIMISE_MORE_r({
534             PerlIO_printf(Perl_debug_log, "fbm_instr len=%d str=<%.*s>\n", 
535                 (int)(end_point - start_point),
536                 (int)(end_point - start_point) > 20 ? 20 : (int)(end_point - start_point), 
537                 start_point);
538         });
539
540         s = fbm_instr( start_point, end_point,
541                       check, multiline ? FBMrf_MULTILINE : 0);
542     }
543     }
544     /* Update the count-of-usability, remove useless subpatterns,
545         unshift s.  */
546
547     DEBUG_EXECUTE_r({
548         RE_PV_QUOTED_DECL(quoted, do_utf8, PERL_DEBUG_PAD_ZERO(0), 
549             SvPVX_const(check), RE_SV_DUMPLEN(check), 30);
550         PerlIO_printf(Perl_debug_log, "%s %s substr %s%s%s",
551                           (s ? "Found" : "Did not find"),
552             (check == (do_utf8 ? prog->anchored_utf8 : prog->anchored_substr) 
553                 ? "anchored" : "floating"),
554             quoted,
555             RE_SV_TAIL(check),
556             (s ? " at offset " : "...\n") ); 
557     });
558
559     if (!s)
560         goto fail_finish;
561     /* Finish the diagnostic message */
562     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "%ld...\n", (long)(s - i_strpos)) );
563
564     /* XXX dmq: first branch is for positive lookbehind...
565        Our check string is offset from the beginning of the pattern.
566        So we need to do any stclass tests offset forward from that 
567        point. I think. :-(
568      */
569     
570         
571     
572     check_at=s;
573      
574
575     /* Got a candidate.  Check MBOL anchoring, and the *other* substr.
576        Start with the other substr.
577        XXXX no SCREAM optimization yet - and a very coarse implementation
578        XXXX /ttx+/ results in anchored="ttx", floating="x".  floating will
579                 *always* match.  Probably should be marked during compile...
580        Probably it is right to do no SCREAM here...
581      */
582
583     if (do_utf8 ? (prog->float_utf8 && prog->anchored_utf8) 
584                 : (prog->float_substr && prog->anchored_substr)) 
585     {
586         /* Take into account the "other" substring. */
587         /* XXXX May be hopelessly wrong for UTF... */
588         if (!other_last)
589             other_last = strpos;
590         if (check == (do_utf8 ? prog->float_utf8 : prog->float_substr)) {
591           do_other_anchored:
592             {
593                 char * const last = HOP3c(s, -start_shift, strbeg);
594                 char *last1, *last2;
595                 char * const saved_s = s;
596                 SV* must;
597
598                 t = s - prog->check_offset_max;
599                 if (s - strpos > prog->check_offset_max  /* signed-corrected t > strpos */
600                     && (!do_utf8
601                         || ((t = (char*)reghopmaybe3((U8*)s, -(prog->check_offset_max), (U8*)strpos))
602                             && t > strpos)))
603                     NOOP;
604                 else
605                     t = strpos;
606                 t = HOP3c(t, prog->anchored_offset, strend);
607                 if (t < other_last)     /* These positions already checked */
608                     t = other_last;
609                 last2 = last1 = HOP3c(strend, -prog->minlen, strbeg);
610                 if (last < last1)
611                     last1 = last;
612                 /* XXXX It is not documented what units *_offsets are in.  
613                    We assume bytes, but this is clearly wrong. 
614                    Meaning this code needs to be carefully reviewed for errors.
615                    dmq.
616                   */
617  
618                 /* On end-of-str: see comment below. */
619                 must = do_utf8 ? prog->anchored_utf8 : prog->anchored_substr;
620                 if (must == &PL_sv_undef) {
621                     s = (char*)NULL;
622                     DEBUG_r(must = prog->anchored_utf8);        /* for debug */
623                 }
624                 else
625                     s = fbm_instr(
626                         (unsigned char*)t,
627                         HOP3(HOP3(last1, prog->anchored_offset, strend)
628                                 + SvCUR(must), -(SvTAIL(must)!=0), strbeg),
629                         must,
630                         multiline ? FBMrf_MULTILINE : 0
631                     );
632                 DEBUG_EXECUTE_r({
633                     RE_PV_QUOTED_DECL(quoted, do_utf8, PERL_DEBUG_PAD_ZERO(0), 
634                         SvPVX_const(must), RE_SV_DUMPLEN(must), 30);
635                     PerlIO_printf(Perl_debug_log, "%s anchored substr %s%s",
636                         (s ? "Found" : "Contradicts"),
637                         quoted, RE_SV_TAIL(must));
638                 });                 
639                 
640                             
641                 if (!s) {
642                     if (last1 >= last2) {
643                         DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
644                                                 ", giving up...\n"));
645                         goto fail_finish;
646                     }
647                     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
648                         ", trying floating at offset %ld...\n",
649                         (long)(HOP3c(saved_s, 1, strend) - i_strpos)));
650                     other_last = HOP3c(last1, prog->anchored_offset+1, strend);
651                     s = HOP3c(last, 1, strend);
652                     goto restart;
653                 }
654                 else {
655                     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, " at offset %ld...\n",
656                           (long)(s - i_strpos)));
657                     t = HOP3c(s, -prog->anchored_offset, strbeg);
658                     other_last = HOP3c(s, 1, strend);
659                     s = saved_s;
660                     if (t == strpos)
661                         goto try_at_start;
662                     goto try_at_offset;
663                 }
664             }
665         }
666         else {          /* Take into account the floating substring. */
667             char *last, *last1;
668             char * const saved_s = s;
669             SV* must;
670
671             t = HOP3c(s, -start_shift, strbeg);
672             last1 = last =
673                 HOP3c(strend, -prog->minlen + prog->float_min_offset, strbeg);
674             if (CHR_DIST((U8*)last, (U8*)t) > prog->float_max_offset)
675                 last = HOP3c(t, prog->float_max_offset, strend);
676             s = HOP3c(t, prog->float_min_offset, strend);
677             if (s < other_last)
678                 s = other_last;
679  /* XXXX It is not documented what units *_offsets are in.  Assume bytes.  */
680             must = do_utf8 ? prog->float_utf8 : prog->float_substr;
681             /* fbm_instr() takes into account exact value of end-of-str
682                if the check is SvTAIL(ed).  Since false positives are OK,
683                and end-of-str is not later than strend we are OK. */
684             if (must == &PL_sv_undef) {
685                 s = (char*)NULL;
686                 DEBUG_r(must = prog->float_utf8);       /* for debug message */
687             }
688             else
689                 s = fbm_instr((unsigned char*)s,
690                               (unsigned char*)last + SvCUR(must)
691                                   - (SvTAIL(must)!=0),
692                               must, multiline ? FBMrf_MULTILINE : 0);
693             DEBUG_EXECUTE_r({
694                 RE_PV_QUOTED_DECL(quoted, do_utf8, PERL_DEBUG_PAD_ZERO(0), 
695                     SvPVX_const(must), RE_SV_DUMPLEN(must), 30);
696                 PerlIO_printf(Perl_debug_log, "%s floating substr %s%s",
697                     (s ? "Found" : "Contradicts"),
698                     quoted, RE_SV_TAIL(must));
699             });
700             if (!s) {
701                 if (last1 == last) {
702                     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
703                                             ", giving up...\n"));
704                     goto fail_finish;
705                 }
706                 DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
707                     ", trying anchored starting at offset %ld...\n",
708                     (long)(saved_s + 1 - i_strpos)));
709                 other_last = last;
710                 s = HOP3c(t, 1, strend);
711                 goto restart;
712             }
713             else {
714                 DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, " at offset %ld...\n",
715                       (long)(s - i_strpos)));
716                 other_last = s; /* Fix this later. --Hugo */
717                 s = saved_s;
718                 if (t == strpos)
719                     goto try_at_start;
720                 goto try_at_offset;
721             }
722         }
723     }
724
725     
726     t= (char*)HOP3( s, -prog->check_offset_max, (prog->check_offset_max<0) ? strend : strpos);
727         
728     DEBUG_OPTIMISE_MORE_r(
729         PerlIO_printf(Perl_debug_log, 
730             "Check offset min:%"IVdf" max:%"IVdf" S:%"IVdf" t:%"IVdf" D:%"IVdf" end:%"IVdf"\n",
731             (IV)prog->check_offset_min,
732             (IV)prog->check_offset_max,
733             (IV)(s-strpos),
734             (IV)(t-strpos),
735             (IV)(t-s),
736             (IV)(strend-strpos)
737         )
738     );
739
740     if (s - strpos > prog->check_offset_max  /* signed-corrected t > strpos */
741         && (!do_utf8
742             || ((t = (char*)reghopmaybe3((U8*)s, -prog->check_offset_max, (U8*) ((prog->check_offset_max<0) ? strend : strpos)))
743                  && t > strpos))) 
744     {
745         /* Fixed substring is found far enough so that the match
746            cannot start at strpos. */
747       try_at_offset:
748         if (ml_anch && t[-1] != '\n') {
749             /* Eventually fbm_*() should handle this, but often
750                anchored_offset is not 0, so this check will not be wasted. */
751             /* XXXX In the code below we prefer to look for "^" even in
752                presence of anchored substrings.  And we search even
753                beyond the found float position.  These pessimizations
754                are historical artefacts only.  */
755           find_anchor:
756             while (t < strend - prog->minlen) {
757                 if (*t == '\n') {
758                     if (t < check_at - prog->check_offset_min) {
759                         if (do_utf8 ? prog->anchored_utf8 : prog->anchored_substr) {
760                             /* Since we moved from the found position,
761                                we definitely contradict the found anchored
762                                substr.  Due to the above check we do not
763                                contradict "check" substr.
764                                Thus we can arrive here only if check substr
765                                is float.  Redo checking for "other"=="fixed".
766                              */
767                             strpos = t + 1;                     
768                             DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "Found /%s^%s/m at offset %ld, rescanning for anchored from offset %ld...\n",
769                                 PL_colors[0], PL_colors[1], (long)(strpos - i_strpos), (long)(strpos - i_strpos + prog->anchored_offset)));
770                             goto do_other_anchored;
771                         }
772                         /* We don't contradict the found floating substring. */
773                         /* XXXX Why not check for STCLASS? */
774                         s = t + 1;
775                         DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "Found /%s^%s/m at offset %ld...\n",
776                             PL_colors[0], PL_colors[1], (long)(s - i_strpos)));
777                         goto set_useful;
778                     }
779                     /* Position contradicts check-string */
780                     /* XXXX probably better to look for check-string
781                        than for "\n", so one should lower the limit for t? */
782                     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "Found /%s^%s/m, restarting lookup for check-string at offset %ld...\n",
783                         PL_colors[0], PL_colors[1], (long)(t + 1 - i_strpos)));
784                     other_last = strpos = s = t + 1;
785                     goto restart;
786                 }
787                 t++;
788             }
789             DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "Did not find /%s^%s/m...\n",
790                         PL_colors[0], PL_colors[1]));
791             goto fail_finish;
792         }
793         else {
794             DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "Starting position does not contradict /%s^%s/m...\n",
795                         PL_colors[0], PL_colors[1]));
796         }
797         s = t;
798       set_useful:
799         ++BmUSEFUL(do_utf8 ? prog->check_utf8 : prog->check_substr);    /* hooray/5 */
800     }
801     else {
802         /* The found string does not prohibit matching at strpos,
803            - no optimization of calling REx engine can be performed,
804            unless it was an MBOL and we are not after MBOL,
805            or a future STCLASS check will fail this. */
806       try_at_start:
807         /* Even in this situation we may use MBOL flag if strpos is offset
808            wrt the start of the string. */
809         if (ml_anch && sv && !SvROK(sv) /* See prev comment on SvROK */
810             && (strpos != strbeg) && strpos[-1] != '\n'
811             /* May be due to an implicit anchor of m{.*foo}  */
812             && !(prog->reganch & ROPT_IMPLICIT))
813         {
814             t = strpos;
815             goto find_anchor;
816         }
817         DEBUG_EXECUTE_r( if (ml_anch)
818             PerlIO_printf(Perl_debug_log, "Position at offset %ld does not contradict /%s^%s/m...\n",
819                         (long)(strpos - i_strpos), PL_colors[0], PL_colors[1]);
820         );
821       success_at_start:
822         if (!(prog->reganch & ROPT_NAUGHTY)     /* XXXX If strpos moved? */
823             && (do_utf8 ? (
824                 prog->check_utf8                /* Could be deleted already */
825                 && --BmUSEFUL(prog->check_utf8) < 0
826                 && (prog->check_utf8 == prog->float_utf8)
827             ) : (
828                 prog->check_substr              /* Could be deleted already */
829                 && --BmUSEFUL(prog->check_substr) < 0
830                 && (prog->check_substr == prog->float_substr)
831             )))
832         {
833             /* If flags & SOMETHING - do not do it many times on the same match */
834             DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "... Disabling check substring...\n"));
835             SvREFCNT_dec(do_utf8 ? prog->check_utf8 : prog->check_substr);
836             if (do_utf8 ? prog->check_substr : prog->check_utf8)
837                 SvREFCNT_dec(do_utf8 ? prog->check_substr : prog->check_utf8);
838             prog->check_substr = prog->check_utf8 = NULL;       /* disable */
839             prog->float_substr = prog->float_utf8 = NULL;       /* clear */
840             check = NULL;                       /* abort */
841             s = strpos;
842             /* XXXX This is a remnant of the old implementation.  It
843                     looks wasteful, since now INTUIT can use many
844                     other heuristics. */
845             prog->reganch &= ~RE_USE_INTUIT;
846         }
847         else
848             s = strpos;
849     }
850
851     /* Last resort... */
852     /* XXXX BmUSEFUL already changed, maybe multiple change is meaningful... */
853     /* trie stclasses are too expensive to use here, we are better off to
854        leave it to regmatch itself */
855     if (prog->regstclass && PL_regkind[OP(prog->regstclass)]!=TRIE) {
856         /* minlen == 0 is possible if regstclass is \b or \B,
857            and the fixed substr is ''$.
858            Since minlen is already taken into account, s+1 is before strend;
859            accidentally, minlen >= 1 guaranties no false positives at s + 1
860            even for \b or \B.  But (minlen? 1 : 0) below assumes that
861            regstclass does not come from lookahead...  */
862         /* If regstclass takes bytelength more than 1: If charlength==1, OK.
863            This leaves EXACTF only, which is dealt with in find_byclass().  */
864         const U8* const str = (U8*)STRING(prog->regstclass);
865         const int cl_l = (PL_regkind[OP(prog->regstclass)] == EXACT
866                     ? CHR_DIST(str+STR_LEN(prog->regstclass), str)
867                     : 1);
868         char * endpos;
869         if (prog->anchored_substr || prog->anchored_utf8 || ml_anch)
870             endpos= HOP3c(s, (prog->minlen ? cl_l : 0), strend);
871         else if (prog->float_substr || prog->float_utf8)
872             endpos= HOP3c(HOP3c(check_at, -start_shift, strbeg), cl_l, strend);
873         else 
874             endpos= strend;
875                     
876         DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "start_shift: %"IVdf" check_at: %d s: %d endpos: %d\n",
877                                       (IV)start_shift, check_at - strbeg, s - strbeg, endpos - strbeg));
878         
879         t = s;
880         s = find_byclass(prog, prog->regstclass, s, endpos, NULL);
881         if (!s) {
882 #ifdef DEBUGGING
883             const char *what = NULL;
884 #endif
885             if (endpos == strend) {
886                 DEBUG_EXECUTE_r( PerlIO_printf(Perl_debug_log,
887                                 "Could not match STCLASS...\n") );
888                 goto fail;
889             }
890             DEBUG_EXECUTE_r( PerlIO_printf(Perl_debug_log,
891                                    "This position contradicts STCLASS...\n") );
892             if ((prog->reganch & ROPT_ANCH) && !ml_anch)
893                 goto fail;
894             /* Contradict one of substrings */
895             if (prog->anchored_substr || prog->anchored_utf8) {
896                 if ((do_utf8 ? prog->anchored_utf8 : prog->anchored_substr) == check) {
897                     DEBUG_EXECUTE_r( what = "anchored" );
898                   hop_and_restart:
899                     s = HOP3c(t, 1, strend);
900                     if (s + start_shift + end_shift > strend) {
901                         /* XXXX Should be taken into account earlier? */
902                         DEBUG_EXECUTE_r( PerlIO_printf(Perl_debug_log,
903                                                "Could not match STCLASS...\n") );
904                         goto fail;
905                     }
906                     if (!check)
907                         goto giveup;
908                     DEBUG_EXECUTE_r( PerlIO_printf(Perl_debug_log,
909                                 "Looking for %s substr starting at offset %ld...\n",
910                                  what, (long)(s + start_shift - i_strpos)) );
911                     goto restart;
912                 }
913                 /* Have both, check_string is floating */
914                 if (t + start_shift >= check_at) /* Contradicts floating=check */
915                     goto retry_floating_check;
916                 /* Recheck anchored substring, but not floating... */
917                 s = check_at;
918                 if (!check)
919                     goto giveup;
920                 DEBUG_EXECUTE_r( PerlIO_printf(Perl_debug_log,
921                           "Looking for anchored substr starting at offset %ld...\n",
922                           (long)(other_last - i_strpos)) );
923                 goto do_other_anchored;
924             }
925             /* Another way we could have checked stclass at the
926                current position only: */
927             if (ml_anch) {
928                 s = t = t + 1;
929                 if (!check)
930                     goto giveup;
931                 DEBUG_EXECUTE_r( PerlIO_printf(Perl_debug_log,
932                           "Looking for /%s^%s/m starting at offset %ld...\n",
933                           PL_colors[0], PL_colors[1], (long)(t - i_strpos)) );
934                 goto try_at_offset;
935             }
936             if (!(do_utf8 ? prog->float_utf8 : prog->float_substr))     /* Could have been deleted */
937                 goto fail;
938             /* Check is floating subtring. */
939           retry_floating_check:
940             t = check_at - start_shift;
941             DEBUG_EXECUTE_r( what = "floating" );
942             goto hop_and_restart;
943         }
944         if (t != s) {
945             DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
946                         "By STCLASS: moving %ld --> %ld\n",
947                                   (long)(t - i_strpos), (long)(s - i_strpos))
948                    );
949         }
950         else {
951             DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
952                                   "Does not contradict STCLASS...\n"); 
953                    );
954         }
955     }
956   giveup:
957     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "%s%s:%s match at offset %ld\n",
958                           PL_colors[4], (check ? "Guessed" : "Giving up"),
959                           PL_colors[5], (long)(s - i_strpos)) );
960     return s;
961
962   fail_finish:                          /* Substring not found */
963     if (prog->check_substr || prog->check_utf8)         /* could be removed already */
964         BmUSEFUL(do_utf8 ? prog->check_utf8 : prog->check_substr) += 5; /* hooray */
965   fail:
966     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "%sMatch rejected by optimizer%s\n",
967                           PL_colors[4], PL_colors[5]));
968     return NULL;
969 }
970
971
972
973 #define REXEC_TRIE_READ_CHAR(trie_type, trie, uc, uscan, len, uvc, charid,  \
974 foldlen, foldbuf, uniflags) STMT_START {                                    \
975     switch (trie_type) {                                                    \
976     case trie_utf8_fold:                                                    \
977         if ( foldlen>0 ) {                                                  \
978             uvc = utf8n_to_uvuni( uscan, UTF8_MAXLEN, &len, uniflags );     \
979             foldlen -= len;                                                 \
980             uscan += len;                                                   \
981             len=0;                                                          \
982         } else {                                                            \
983             uvc = utf8n_to_uvuni( (U8*)uc, UTF8_MAXLEN, &len, uniflags );   \
984             uvc = to_uni_fold( uvc, foldbuf, &foldlen );                    \
985             foldlen -= UNISKIP( uvc );                                      \
986             uscan = foldbuf + UNISKIP( uvc );                               \
987         }                                                                   \
988         break;                                                              \
989     case trie_utf8:                                                         \
990         uvc = utf8n_to_uvuni( (U8*)uc, UTF8_MAXLEN, &len, uniflags );       \
991         break;                                                              \
992     case trie_plain:                                                        \
993         uvc = (UV)*uc;                                                      \
994         len = 1;                                                            \
995     }                                                                       \
996                                                                             \
997     if (uvc < 256) {                                                        \
998         charid = trie->charmap[ uvc ];                                      \
999     }                                                                       \
1000     else {                                                                  \
1001         charid = 0;                                                         \
1002         if (trie->widecharmap) {                                            \
1003             SV** const svpp = hv_fetch(trie->widecharmap,                   \
1004                         (char*)&uvc, sizeof(UV), 0);                        \
1005             if (svpp)                                                       \
1006                 charid = (U16)SvIV(*svpp);                                  \
1007         }                                                                   \
1008     }                                                                       \
1009 } STMT_END
1010
1011 #define REXEC_FBC_EXACTISH_CHECK(CoNd)                  \
1012     if ( (CoNd)                                        \
1013          && (ln == len ||                              \
1014              ibcmp_utf8(s, NULL, 0,  do_utf8,          \
1015                         m, NULL, ln, (bool)UTF))       \
1016          && (!reginfo || regtry(reginfo, s)) )         \
1017         goto got_it;                                   \
1018     else {                                             \
1019          U8 foldbuf[UTF8_MAXBYTES_CASE+1];             \
1020          uvchr_to_utf8(tmpbuf, c);                     \
1021          f = to_utf8_fold(tmpbuf, foldbuf, &foldlen);  \
1022          if ( f != c                                   \
1023               && (f == c1 || f == c2)                  \
1024               && (ln == foldlen ||                     \
1025                   !ibcmp_utf8((char *) foldbuf,        \
1026                               NULL, foldlen, do_utf8,  \
1027                               m,                       \
1028                               NULL, ln, (bool)UTF))    \
1029               && (!reginfo || regtry(reginfo, s)) )    \
1030               goto got_it;                             \
1031     }                                                  \
1032     s += len
1033
1034 #define REXEC_FBC_EXACTISH_SCAN(CoNd)                     \
1035 STMT_START {                                              \
1036     while (s <= e) {                                      \
1037         if ( (CoNd)                                       \
1038              && (ln == 1 || !(OP(c) == EXACTF             \
1039                               ? ibcmp(s, m, ln)           \
1040                               : ibcmp_locale(s, m, ln)))  \
1041              && (!reginfo || regtry(reginfo, s)) )        \
1042             goto got_it;                                  \
1043         s++;                                              \
1044     }                                                     \
1045 } STMT_END
1046
1047 #define REXEC_FBC_UTF8_SCAN(CoDe)                     \
1048 STMT_START {                                          \
1049     while (s + (uskip = UTF8SKIP(s)) <= strend) {     \
1050         CoDe                                          \
1051         s += uskip;                                   \
1052     }                                                 \
1053 } STMT_END
1054
1055 #define REXEC_FBC_SCAN(CoDe)                          \
1056 STMT_START {                                          \
1057     while (s < strend) {                              \
1058         CoDe                                          \
1059         s++;                                          \
1060     }                                                 \
1061 } STMT_END
1062
1063 #define REXEC_FBC_UTF8_CLASS_SCAN(CoNd)               \
1064 REXEC_FBC_UTF8_SCAN(                                  \
1065     if (CoNd) {                                       \
1066         if (tmp && (!reginfo || regtry(reginfo, s)))  \
1067             goto got_it;                              \
1068         else                                          \
1069             tmp = doevery;                            \
1070     }                                                 \
1071     else                                              \
1072         tmp = 1;                                      \
1073 )
1074
1075 #define REXEC_FBC_CLASS_SCAN(CoNd)                    \
1076 REXEC_FBC_SCAN(                                       \
1077     if (CoNd) {                                       \
1078         if (tmp && (!reginfo || regtry(reginfo, s)))  \
1079             goto got_it;                              \
1080         else                                          \
1081             tmp = doevery;                            \
1082     }                                                 \
1083     else                                              \
1084         tmp = 1;                                      \
1085 )
1086
1087 #define REXEC_FBC_TRYIT               \
1088 if ((!reginfo || regtry(reginfo, s))) \
1089     goto got_it
1090
1091 #define REXEC_FBC_CSCAN_PRELOAD(UtFpReLoAd,CoNdUtF8,CoNd)      \
1092     if (do_utf8) {                                             \
1093         UtFpReLoAd;                                            \
1094         REXEC_FBC_UTF8_CLASS_SCAN(CoNdUtF8);                   \
1095     }                                                          \
1096     else {                                                     \
1097         REXEC_FBC_CLASS_SCAN(CoNd);                            \
1098     }                                                          \
1099     break
1100
1101 #define REXEC_FBC_CSCAN_TAINT(CoNdUtF8,CoNd)                   \
1102     PL_reg_flags |= RF_tainted;                                \
1103     if (do_utf8) {                                             \
1104         REXEC_FBC_UTF8_CLASS_SCAN(CoNdUtF8);                   \
1105     }                                                          \
1106     else {                                                     \
1107         REXEC_FBC_CLASS_SCAN(CoNd);                            \
1108     }                                                          \
1109     break
1110
1111 #define DUMP_EXEC_POS(li,s,doutf8) \
1112     dump_exec_pos(li,s,(PL_regeol),(PL_bostr),(PL_reg_starttry),doutf8)
1113
1114 /* We know what class REx starts with.  Try to find this position... */
1115 /* if reginfo is NULL, its a dryrun */
1116 /* annoyingly all the vars in this routine have different names from their counterparts
1117    in regmatch. /grrr */
1118
1119 STATIC char *
1120 S_find_byclass(pTHX_ regexp * prog, const regnode *c, char *s, 
1121     const char *strend, const regmatch_info *reginfo)
1122 {
1123         dVAR;
1124         const I32 doevery = (prog->reganch & ROPT_SKIP) == 0;
1125         char *m;
1126         STRLEN ln;
1127         STRLEN lnc;
1128         register STRLEN uskip;
1129         unsigned int c1;
1130         unsigned int c2;
1131         char *e;
1132         register I32 tmp = 1;   /* Scratch variable? */
1133         register const bool do_utf8 = PL_reg_match_utf8;
1134
1135         /* We know what class it must start with. */
1136         switch (OP(c)) {
1137         case ANYOF:
1138             if (do_utf8) {
1139                  REXEC_FBC_UTF8_CLASS_SCAN((ANYOF_FLAGS(c) & ANYOF_UNICODE) ||
1140                           !UTF8_IS_INVARIANT((U8)s[0]) ?
1141                           reginclass(prog, c, (U8*)s, 0, do_utf8) :
1142                           REGINCLASS(prog, c, (U8*)s));
1143             }
1144             else {
1145                  while (s < strend) {
1146                       STRLEN skip = 1;
1147
1148                       if (REGINCLASS(prog, c, (U8*)s) ||
1149                           (ANYOF_FOLD_SHARP_S(c, s, strend) &&
1150                            /* The assignment of 2 is intentional:
1151                             * for the folded sharp s, the skip is 2. */
1152                            (skip = SHARP_S_SKIP))) {
1153                            if (tmp && (!reginfo || regtry(reginfo, s)))
1154                                 goto got_it;
1155                            else
1156                                 tmp = doevery;
1157                       }
1158                       else 
1159                            tmp = 1;
1160                       s += skip;
1161                  }
1162             }
1163             break;
1164         case CANY:
1165             REXEC_FBC_SCAN(
1166                 if (tmp && (!reginfo || regtry(reginfo, s)))
1167                     goto got_it;
1168                 else
1169                     tmp = doevery;
1170             );
1171             break;
1172         case EXACTF:
1173             m   = STRING(c);
1174             ln  = STR_LEN(c);   /* length to match in octets/bytes */
1175             lnc = (I32) ln;     /* length to match in characters */
1176             if (UTF) {
1177                 STRLEN ulen1, ulen2;
1178                 U8 *sm = (U8 *) m;
1179                 U8 tmpbuf1[UTF8_MAXBYTES_CASE+1];
1180                 U8 tmpbuf2[UTF8_MAXBYTES_CASE+1];
1181                 const U32 uniflags = UTF8_ALLOW_DEFAULT;
1182
1183                 to_utf8_lower((U8*)m, tmpbuf1, &ulen1);
1184                 to_utf8_upper((U8*)m, tmpbuf2, &ulen2);
1185
1186                 c1 = utf8n_to_uvchr(tmpbuf1, UTF8_MAXBYTES_CASE, 
1187                                     0, uniflags);
1188                 c2 = utf8n_to_uvchr(tmpbuf2, UTF8_MAXBYTES_CASE,
1189                                     0, uniflags);
1190                 lnc = 0;
1191                 while (sm < ((U8 *) m + ln)) {
1192                     lnc++;
1193                     sm += UTF8SKIP(sm);
1194                 }
1195             }
1196             else {
1197                 c1 = *(U8*)m;
1198                 c2 = PL_fold[c1];
1199             }
1200             goto do_exactf;
1201         case EXACTFL:
1202             m   = STRING(c);
1203             ln  = STR_LEN(c);
1204             lnc = (I32) ln;
1205             c1 = *(U8*)m;
1206             c2 = PL_fold_locale[c1];
1207           do_exactf:
1208             e = HOP3c(strend, -((I32)lnc), s);
1209
1210             if (!reginfo && e < s)
1211                 e = s;                  /* Due to minlen logic of intuit() */
1212
1213             /* The idea in the EXACTF* cases is to first find the
1214              * first character of the EXACTF* node and then, if
1215              * necessary, case-insensitively compare the full
1216              * text of the node.  The c1 and c2 are the first
1217              * characters (though in Unicode it gets a bit
1218              * more complicated because there are more cases
1219              * than just upper and lower: one needs to use
1220              * the so-called folding case for case-insensitive
1221              * matching (called "loose matching" in Unicode).
1222              * ibcmp_utf8() will do just that. */
1223
1224             if (do_utf8) {
1225                 UV c, f;
1226                 U8 tmpbuf [UTF8_MAXBYTES+1];
1227                 STRLEN len, foldlen;
1228                 const U32 uniflags = UTF8_ALLOW_DEFAULT;
1229                 if (c1 == c2) {
1230                     /* Upper and lower of 1st char are equal -
1231                      * probably not a "letter". */
1232                     while (s <= e) {
1233                         c = utf8n_to_uvchr((U8*)s, UTF8_MAXBYTES, &len,
1234                                            uniflags);
1235                         REXEC_FBC_EXACTISH_CHECK(c == c1);
1236                     }
1237                 }
1238                 else {
1239                     while (s <= e) {
1240                       c = utf8n_to_uvchr((U8*)s, UTF8_MAXBYTES, &len,
1241                                            uniflags);
1242
1243                         /* Handle some of the three Greek sigmas cases.
1244                          * Note that not all the possible combinations
1245                          * are handled here: some of them are handled
1246                          * by the standard folding rules, and some of
1247                          * them (the character class or ANYOF cases)
1248                          * are handled during compiletime in
1249                          * regexec.c:S_regclass(). */
1250                         if (c == (UV)UNICODE_GREEK_CAPITAL_LETTER_SIGMA ||
1251                             c == (UV)UNICODE_GREEK_SMALL_LETTER_FINAL_SIGMA)
1252                             c = (UV)UNICODE_GREEK_SMALL_LETTER_SIGMA;
1253
1254                         REXEC_FBC_EXACTISH_CHECK(c == c1 || c == c2);
1255                     }
1256                 }
1257             }
1258             else {
1259                 if (c1 == c2)
1260                     REXEC_FBC_EXACTISH_SCAN(*(U8*)s == c1);
1261                 else
1262                     REXEC_FBC_EXACTISH_SCAN(*(U8*)s == c1 || *(U8*)s == c2);
1263             }
1264             break;
1265         case BOUNDL:
1266             PL_reg_flags |= RF_tainted;
1267             /* FALL THROUGH */
1268         case BOUND:
1269             if (do_utf8) {
1270                 if (s == PL_bostr)
1271                     tmp = '\n';
1272                 else {
1273                     U8 * const r = reghop3((U8*)s, -1, (U8*)PL_bostr);
1274                     tmp = utf8n_to_uvchr(r, UTF8SKIP(r), 0, UTF8_ALLOW_DEFAULT);
1275                 }
1276                 tmp = ((OP(c) == BOUND ?
1277                         isALNUM_uni(tmp) : isALNUM_LC_uvchr(UNI_TO_NATIVE(tmp))) != 0);
1278                 LOAD_UTF8_CHARCLASS_ALNUM();
1279                 REXEC_FBC_UTF8_SCAN(
1280                     if (tmp == !(OP(c) == BOUND ?
1281                                  (bool)swash_fetch(PL_utf8_alnum, (U8*)s, do_utf8) :
1282                                  isALNUM_LC_utf8((U8*)s)))
1283                     {
1284                         tmp = !tmp;
1285                         REXEC_FBC_TRYIT;
1286                 }
1287                 );
1288             }
1289             else {
1290                 tmp = (s != PL_bostr) ? UCHARAT(s - 1) : '\n';
1291                 tmp = ((OP(c) == BOUND ? isALNUM(tmp) : isALNUM_LC(tmp)) != 0);
1292                 REXEC_FBC_SCAN(
1293                     if (tmp ==
1294                         !(OP(c) == BOUND ? isALNUM(*s) : isALNUM_LC(*s))) {
1295                         tmp = !tmp;
1296                         REXEC_FBC_TRYIT;
1297                 }
1298                 );
1299             }
1300             if ((!prog->minlen && tmp) && (!reginfo || regtry(reginfo, s)))
1301                 goto got_it;
1302             break;
1303         case NBOUNDL:
1304             PL_reg_flags |= RF_tainted;
1305             /* FALL THROUGH */
1306         case NBOUND:
1307             if (do_utf8) {
1308                 if (s == PL_bostr)
1309                     tmp = '\n';
1310                 else {
1311                     U8 * const r = reghop3((U8*)s, -1, (U8*)PL_bostr);
1312                     tmp = utf8n_to_uvchr(r, UTF8SKIP(r), 0, UTF8_ALLOW_DEFAULT);
1313                 }
1314                 tmp = ((OP(c) == NBOUND ?
1315                         isALNUM_uni(tmp) : isALNUM_LC_uvchr(UNI_TO_NATIVE(tmp))) != 0);
1316                 LOAD_UTF8_CHARCLASS_ALNUM();
1317                 REXEC_FBC_UTF8_SCAN(
1318                     if (tmp == !(OP(c) == NBOUND ?
1319                                  (bool)swash_fetch(PL_utf8_alnum, (U8*)s, do_utf8) :
1320                                  isALNUM_LC_utf8((U8*)s)))
1321                         tmp = !tmp;
1322                     else REXEC_FBC_TRYIT;
1323                 );
1324             }
1325             else {
1326                 tmp = (s != PL_bostr) ? UCHARAT(s - 1) : '\n';
1327                 tmp = ((OP(c) == NBOUND ?
1328                         isALNUM(tmp) : isALNUM_LC(tmp)) != 0);
1329                 REXEC_FBC_SCAN(
1330                     if (tmp ==
1331                         !(OP(c) == NBOUND ? isALNUM(*s) : isALNUM_LC(*s)))
1332                         tmp = !tmp;
1333                     else REXEC_FBC_TRYIT;
1334                 );
1335             }
1336             if ((!prog->minlen && !tmp) && (!reginfo || regtry(reginfo, s)))
1337                 goto got_it;
1338             break;
1339         case ALNUM:
1340             REXEC_FBC_CSCAN_PRELOAD(
1341                 LOAD_UTF8_CHARCLASS_ALNUM(),
1342                 swash_fetch(PL_utf8_alnum, (U8*)s, do_utf8),
1343                 isALNUM(*s)
1344             );
1345         case ALNUML:
1346             REXEC_FBC_CSCAN_TAINT(
1347                 isALNUM_LC_utf8((U8*)s),
1348                 isALNUM_LC(*s)
1349             );
1350         case NALNUM:
1351             REXEC_FBC_CSCAN_PRELOAD(
1352                 LOAD_UTF8_CHARCLASS_ALNUM(),
1353                 !swash_fetch(PL_utf8_alnum, (U8*)s, do_utf8),
1354                 !isALNUM(*s)
1355             );
1356         case NALNUML:
1357             REXEC_FBC_CSCAN_TAINT(
1358                 !isALNUM_LC_utf8((U8*)s),
1359                 !isALNUM_LC(*s)
1360             );
1361         case SPACE:
1362             REXEC_FBC_CSCAN_PRELOAD(
1363                 LOAD_UTF8_CHARCLASS_SPACE(),
1364                 *s == ' ' || swash_fetch(PL_utf8_space,(U8*)s, do_utf8),
1365                 isSPACE(*s)
1366             );
1367         case SPACEL:
1368             REXEC_FBC_CSCAN_TAINT(
1369                 *s == ' ' || isSPACE_LC_utf8((U8*)s),
1370                 isSPACE_LC(*s)
1371             );
1372         case NSPACE:
1373             REXEC_FBC_CSCAN_PRELOAD(
1374                 LOAD_UTF8_CHARCLASS_SPACE(),
1375                 !(*s == ' ' || swash_fetch(PL_utf8_space,(U8*)s, do_utf8)),
1376                 !isSPACE(*s)
1377             );
1378         case NSPACEL:
1379             REXEC_FBC_CSCAN_TAINT(
1380                 !(*s == ' ' || isSPACE_LC_utf8((U8*)s)),
1381                 !isSPACE_LC(*s)
1382             );
1383         case DIGIT:
1384             REXEC_FBC_CSCAN_PRELOAD(
1385                 LOAD_UTF8_CHARCLASS_DIGIT(),
1386                 swash_fetch(PL_utf8_digit,(U8*)s, do_utf8),
1387                 isDIGIT(*s)
1388             );
1389         case DIGITL:
1390             REXEC_FBC_CSCAN_TAINT(
1391                 isDIGIT_LC_utf8((U8*)s),
1392                 isDIGIT_LC(*s)
1393             );
1394         case NDIGIT:
1395             REXEC_FBC_CSCAN_PRELOAD(
1396                 LOAD_UTF8_CHARCLASS_DIGIT(),
1397                 !swash_fetch(PL_utf8_digit,(U8*)s, do_utf8),
1398                 !isDIGIT(*s)
1399             );
1400         case NDIGITL:
1401             REXEC_FBC_CSCAN_TAINT(
1402                 !isDIGIT_LC_utf8((U8*)s),
1403                 !isDIGIT_LC(*s)
1404             );
1405         case AHOCORASICKC:
1406         case AHOCORASICK: 
1407             {
1408                 const enum { trie_plain, trie_utf8, trie_utf8_fold }
1409                     trie_type = do_utf8 ?
1410                           (c->flags == EXACT ? trie_utf8 : trie_utf8_fold)
1411                         : trie_plain;
1412                 /* what trie are we using right now */
1413                 reg_ac_data *aho
1414                     = (reg_ac_data*)prog->data->data[ ARG( c ) ];
1415                 reg_trie_data *trie=aho->trie;
1416
1417                 const char *last_start = strend - trie->minlen;
1418 #ifdef DEBUGGING
1419                 const char *real_start = s;
1420 #endif
1421                 STRLEN maxlen = trie->maxlen;
1422                 SV *sv_points;
1423                 U8 **points; /* map of where we were in the input string
1424                                 when reading a given char. For ASCII this
1425                                 is unnecessary overhead as the relationship
1426                                 is always 1:1, but for unicode, especially
1427                                 case folded unicode this is not true. */
1428                 U8 foldbuf[ UTF8_MAXBYTES_CASE + 1 ];
1429                 U8 *bitmap=NULL;
1430
1431
1432                 GET_RE_DEBUG_FLAGS_DECL;
1433
1434                 /* We can't just allocate points here. We need to wrap it in
1435                  * an SV so it gets freed properly if there is a croak while
1436                  * running the match */
1437                 ENTER;
1438                 SAVETMPS;
1439                 sv_points=newSV(maxlen * sizeof(U8 *));
1440                 SvCUR_set(sv_points,
1441                     maxlen * sizeof(U8 *));
1442                 SvPOK_on(sv_points);
1443                 sv_2mortal(sv_points);
1444                 points=(U8**)SvPV_nolen(sv_points );
1445                 if ( trie_type != trie_utf8_fold 
1446                      && (trie->bitmap || OP(c)==AHOCORASICKC) ) 
1447                 {
1448                     if (trie->bitmap) 
1449                         bitmap=(U8*)trie->bitmap;
1450                     else
1451                         bitmap=(U8*)ANYOF_BITMAP(c);
1452                 }
1453                 /* this is the Aho-Corasick algorithm modified a touch
1454                    to include special handling for long "unknown char" 
1455                    sequences. The basic idea being that we use AC as long
1456                    as we are dealing with a possible matching char, when
1457                    we encounter an unknown char (and we have not encountered
1458                    an accepting state) we scan forward until we find a legal 
1459                    starting char. 
1460                    AC matching is basically that of trie matching, except
1461                    that when we encounter a failing transition, we fall back
1462                    to the current states "fail state", and try the current char 
1463                    again, a process we repeat until we reach the root state, 
1464                    state 1, or a legal transition. If we fail on the root state 
1465                    then we can either terminate if we have reached an accepting 
1466                    state previously, or restart the entire process from the beginning 
1467                    if we have not.
1468
1469                  */
1470                 while (s <= last_start) {
1471                     const U32 uniflags = UTF8_ALLOW_DEFAULT;
1472                     U8 *uc = (U8*)s;
1473                     U16 charid = 0;
1474                     U32 base = 1;
1475                     U32 state = 1;
1476                     UV uvc = 0;
1477                     STRLEN len = 0;
1478                     STRLEN foldlen = 0;
1479                     U8 *uscan = (U8*)NULL;
1480                     U8 *leftmost = NULL;
1481 #ifdef DEBUGGING                    
1482                     U32 accepted_word= 0;
1483 #endif
1484                     U32 pointpos = 0;
1485
1486                     while ( state && uc <= (U8*)strend ) {
1487                         int failed=0;
1488                         U32 word = aho->states[ state ].wordnum;
1489
1490                         if( state==1 ) {
1491                             if ( bitmap ) {
1492                                 DEBUG_TRIE_EXECUTE_r(
1493                                     if ( uc <= (U8*)last_start && !BITMAP_TEST(bitmap,*uc) ) {
1494                                         dump_exec_pos( (char *)uc, c, strend, real_start, 
1495                                             (char *)uc, do_utf8 );
1496                                         PerlIO_printf( Perl_debug_log,
1497                                             " Scanning for legal start char...\n");
1498                                     }
1499                                 );            
1500                                 while ( uc <= (U8*)last_start  && !BITMAP_TEST(bitmap,*uc) ) {
1501                                     uc++;
1502                                 }
1503                                 s= (char *)uc;
1504                             }
1505                             if (uc >(U8*)last_start) break;
1506                         }
1507                                             
1508                         if ( word ) {
1509                             U8 *lpos= points[ (pointpos - trie->wordlen[word-1] ) % maxlen ];
1510                             if (!leftmost || lpos < leftmost) {
1511                                 DEBUG_r(accepted_word=word);
1512                                 leftmost= lpos;
1513                             }
1514                             if (base==0) break;
1515                             
1516                         }
1517                         points[pointpos++ % maxlen]= uc;
1518                         REXEC_TRIE_READ_CHAR(trie_type, trie, uc, uscan, len,
1519                             uvc, charid, foldlen, foldbuf, uniflags);
1520                         DEBUG_TRIE_EXECUTE_r({
1521                             dump_exec_pos( (char *)uc, c, strend, real_start, 
1522                                 s,   do_utf8 );
1523                             PerlIO_printf(Perl_debug_log,
1524                                 " Charid:%3u CP:%4"UVxf" ",
1525                                  charid, uvc);
1526                         });
1527
1528                         do {
1529 #ifdef DEBUGGING
1530                             word = aho->states[ state ].wordnum;
1531 #endif
1532                             base = aho->states[ state ].trans.base;
1533
1534                             DEBUG_TRIE_EXECUTE_r({
1535                                 if (failed) 
1536                                     dump_exec_pos( (char *)uc, c, strend, real_start, 
1537                                         s,   do_utf8 );
1538                                 PerlIO_printf( Perl_debug_log,
1539                                     "%sState: %4"UVxf", word=%"UVxf,
1540                                     failed ? " Fail transition to " : "",
1541                                     (UV)state, (UV)word);
1542                             });
1543                             if ( base ) {
1544                                 U32 tmp;
1545                                 if (charid &&
1546                                      (base + charid > trie->uniquecharcount )
1547                                      && (base + charid - 1 - trie->uniquecharcount
1548                                             < trie->lasttrans)
1549                                      && trie->trans[base + charid - 1 -
1550                                             trie->uniquecharcount].check == state
1551                                      && (tmp=trie->trans[base + charid - 1 -
1552                                         trie->uniquecharcount ].next))
1553                                 {
1554                                     DEBUG_TRIE_EXECUTE_r(
1555                                         PerlIO_printf( Perl_debug_log," - legal\n"));
1556                                     state = tmp;
1557                                     break;
1558                                 }
1559                                 else {
1560                                     DEBUG_TRIE_EXECUTE_r(
1561                                         PerlIO_printf( Perl_debug_log," - fail\n"));
1562                                     failed = 1;
1563                                     state = aho->fail[state];
1564                                 }
1565                             }
1566                             else {
1567                                 /* we must be accepting here */
1568                                 DEBUG_TRIE_EXECUTE_r(
1569                                         PerlIO_printf( Perl_debug_log," - accepting\n"));
1570                                 failed = 1;
1571                                 break;
1572                             }
1573                         } while(state);
1574                         uc += len;
1575                         if (failed) {
1576                             if (leftmost)
1577                                 break;
1578                             if (!state) state = 1;
1579                         }
1580                     }
1581                     if ( aho->states[ state ].wordnum ) {
1582                         U8 *lpos = points[ (pointpos - trie->wordlen[aho->states[ state ].wordnum-1]) % maxlen ];
1583                         if (!leftmost || lpos < leftmost) {
1584                             DEBUG_r(accepted_word=aho->states[ state ].wordnum);
1585                             leftmost = lpos;
1586                         }
1587                     }
1588                     if (leftmost) {
1589                         s = (char*)leftmost;
1590                         DEBUG_TRIE_EXECUTE_r({
1591                             PerlIO_printf( 
1592                                 Perl_debug_log,"Matches word #%"UVxf" at position %d. Trying full pattern...\n",
1593                                 (UV)accepted_word, s - real_start
1594                             );
1595                         });
1596                         if (!reginfo || regtry(reginfo, s)) {
1597                             FREETMPS;
1598                             LEAVE;
1599                             goto got_it;
1600                         }
1601                         s = HOPc(s,1);
1602                         DEBUG_TRIE_EXECUTE_r({
1603                             PerlIO_printf( Perl_debug_log,"Pattern failed. Looking for new start point...\n");
1604                         });
1605                     } else {
1606                         DEBUG_TRIE_EXECUTE_r(
1607                             PerlIO_printf( Perl_debug_log,"No match.\n"));
1608                         break;
1609                     }
1610                 }
1611                 FREETMPS;
1612                 LEAVE;
1613             }
1614             break;
1615         default:
1616             Perl_croak(aTHX_ "panic: unknown regstclass %d", (int)OP(c));
1617             break;
1618         }
1619         return 0;
1620       got_it:
1621         return s;
1622 }
1623
1624 /*
1625  - regexec_flags - match a regexp against a string
1626  */
1627 I32
1628 Perl_regexec_flags(pTHX_ register regexp *prog, char *stringarg, register char *strend,
1629               char *strbeg, I32 minend, SV *sv, void *data, U32 flags)
1630 /* strend: pointer to null at end of string */
1631 /* strbeg: real beginning of string */
1632 /* minend: end of match must be >=minend after stringarg. */
1633 /* data: May be used for some additional optimizations. */
1634 /* nosave: For optimizations. */
1635 {
1636     dVAR;
1637     register char *s;
1638     register regnode *c;
1639     register char *startpos = stringarg;
1640     I32 minlen;         /* must match at least this many chars */
1641     I32 dontbother = 0; /* how many characters not to try at end */
1642     I32 end_shift = 0;                  /* Same for the end. */         /* CC */
1643     I32 scream_pos = -1;                /* Internal iterator of scream. */
1644     char *scream_olds = NULL;
1645     SV* const oreplsv = GvSV(PL_replgv);
1646     const bool do_utf8 = (bool)DO_UTF8(sv);
1647     I32 multiline;
1648
1649     regmatch_info reginfo;  /* create some info to pass to regtry etc */
1650
1651     GET_RE_DEBUG_FLAGS_DECL;
1652
1653     PERL_UNUSED_ARG(data);
1654
1655     /* Be paranoid... */
1656     if (prog == NULL || startpos == NULL) {
1657         Perl_croak(aTHX_ "NULL regexp parameter");
1658         return 0;
1659     }
1660
1661     multiline = prog->reganch & PMf_MULTILINE;
1662     reginfo.prog = prog;
1663
1664     RX_MATCH_UTF8_set(prog, do_utf8);
1665     DEBUG_EXECUTE_r( 
1666         debug_start_match(prog, do_utf8, startpos, strend, 
1667         "Matching");
1668     );
1669
1670     minlen = prog->minlen;
1671     
1672     if (strend - startpos < (minlen+(prog->check_offset_min<0?prog->check_offset_min:0))) {
1673         DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
1674                               "String too short [regexec_flags]...\n"));
1675         goto phooey;
1676     }
1677
1678     
1679     /* Check validity of program. */
1680     if (UCHARAT(prog->program) != REG_MAGIC) {
1681         Perl_croak(aTHX_ "corrupted regexp program");
1682     }
1683
1684     PL_reg_flags = 0;
1685     PL_reg_eval_set = 0;
1686     PL_reg_maxiter = 0;
1687
1688     if (prog->reganch & ROPT_UTF8)
1689         PL_reg_flags |= RF_utf8;
1690
1691     /* Mark beginning of line for ^ and lookbehind. */
1692     reginfo.bol = startpos; /* XXX not used ??? */
1693     PL_bostr  = strbeg;
1694     reginfo.sv = sv;
1695
1696     /* Mark end of line for $ (and such) */
1697     PL_regeol = strend;
1698
1699     /* see how far we have to get to not match where we matched before */
1700     reginfo.till = startpos+minend;
1701
1702     /* If there is a "must appear" string, look for it. */
1703     s = startpos;
1704
1705     if (prog->reganch & ROPT_GPOS_SEEN) { /* Need to set reginfo->ganch */
1706         MAGIC *mg;
1707
1708         if (flags & REXEC_IGNOREPOS)    /* Means: check only at start */
1709             reginfo.ganch = startpos;
1710         else if (sv && SvTYPE(sv) >= SVt_PVMG
1711                   && SvMAGIC(sv)
1712                   && (mg = mg_find(sv, PERL_MAGIC_regex_global))
1713                   && mg->mg_len >= 0) {
1714             reginfo.ganch = strbeg + mg->mg_len;        /* Defined pos() */
1715             if (prog->reganch & ROPT_ANCH_GPOS) {
1716                 if (s > reginfo.ganch)
1717                     goto phooey;
1718                 s = reginfo.ganch;
1719             }
1720         }
1721         else                            /* pos() not defined */
1722             reginfo.ganch = strbeg;
1723     }
1724
1725     if (!(flags & REXEC_CHECKED) && (prog->check_substr != NULL || prog->check_utf8 != NULL)) {
1726         re_scream_pos_data d;
1727
1728         d.scream_olds = &scream_olds;
1729         d.scream_pos = &scream_pos;
1730         s = re_intuit_start(prog, sv, s, strend, flags, &d);
1731         if (!s) {
1732             DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "Not present...\n"));
1733             goto phooey;        /* not present */
1734         }
1735     }
1736
1737
1738
1739     /* Simplest case:  anchored match need be tried only once. */
1740     /*  [unless only anchor is BOL and multiline is set] */
1741     if (prog->reganch & (ROPT_ANCH & ~ROPT_ANCH_GPOS)) {
1742         if (s == startpos && regtry(&reginfo, startpos))
1743             goto got_it;
1744         else if (multiline || (prog->reganch & ROPT_IMPLICIT)
1745                  || (prog->reganch & ROPT_ANCH_MBOL)) /* XXXX SBOL? */
1746         {
1747             char *end;
1748
1749             if (minlen)
1750                 dontbother = minlen - 1;
1751             end = HOP3c(strend, -dontbother, strbeg) - 1;
1752             /* for multiline we only have to try after newlines */
1753             if (prog->check_substr || prog->check_utf8) {
1754                 if (s == startpos)
1755                     goto after_try;
1756                 while (1) {
1757                     if (regtry(&reginfo, s))
1758                         goto got_it;
1759                   after_try:
1760                     if (s >= end)
1761                         goto phooey;
1762                     if (prog->reganch & RE_USE_INTUIT) {
1763                         s = re_intuit_start(prog, sv, s + 1, strend, flags, NULL);
1764                         if (!s)
1765                             goto phooey;
1766                     }
1767                     else
1768                         s++;
1769                 }               
1770             } else {
1771                 if (s > startpos)
1772                     s--;
1773                 while (s < end) {
1774                     if (*s++ == '\n') { /* don't need PL_utf8skip here */
1775                         if (regtry(&reginfo, s))
1776                             goto got_it;
1777                     }
1778                 }               
1779             }
1780         }
1781         goto phooey;
1782     } else if (ROPT_GPOS_CHECK == (prog->reganch & ROPT_GPOS_CHECK)) 
1783     {
1784         /* the warning about reginfo.ganch being used without intialization
1785            is bogus -- we set it above, when prog->reganch & ROPT_GPOS_SEEN 
1786            and we only enter this block when the same bit is set. */
1787         if (regtry(&reginfo, reginfo.ganch))
1788             goto got_it;
1789         goto phooey;
1790     }
1791
1792     /* Messy cases:  unanchored match. */
1793     if ((prog->anchored_substr || prog->anchored_utf8) && prog->reganch & ROPT_SKIP) {
1794         /* we have /x+whatever/ */
1795         /* it must be a one character string (XXXX Except UTF?) */
1796         char ch;
1797 #ifdef DEBUGGING
1798         int did_match = 0;
1799 #endif
1800         if (!(do_utf8 ? prog->anchored_utf8 : prog->anchored_substr))
1801             do_utf8 ? to_utf8_substr(prog) : to_byte_substr(prog);
1802         ch = SvPVX_const(do_utf8 ? prog->anchored_utf8 : prog->anchored_substr)[0];
1803
1804         if (do_utf8) {
1805             REXEC_FBC_SCAN(
1806                 if (*s == ch) {
1807                     DEBUG_EXECUTE_r( did_match = 1 );
1808                     if (regtry(&reginfo, s)) goto got_it;
1809                     s += UTF8SKIP(s);
1810                     while (s < strend && *s == ch)
1811                         s += UTF8SKIP(s);
1812                 }
1813             );
1814         }
1815         else {
1816             REXEC_FBC_SCAN(
1817                 if (*s == ch) {
1818                     DEBUG_EXECUTE_r( did_match = 1 );
1819                     if (regtry(&reginfo, s)) goto got_it;
1820                     s++;
1821                     while (s < strend && *s == ch)
1822                         s++;
1823                 }
1824             );
1825         }
1826         DEBUG_EXECUTE_r(if (!did_match)
1827                 PerlIO_printf(Perl_debug_log,
1828                                   "Did not find anchored character...\n")
1829                );
1830     }
1831     else if (prog->anchored_substr != NULL
1832               || prog->anchored_utf8 != NULL
1833               || ((prog->float_substr != NULL || prog->float_utf8 != NULL)
1834                   && prog->float_max_offset < strend - s)) {
1835         SV *must;
1836         I32 back_max;
1837         I32 back_min;
1838         char *last;
1839         char *last1;            /* Last position checked before */
1840 #ifdef DEBUGGING
1841         int did_match = 0;
1842 #endif
1843         if (prog->anchored_substr || prog->anchored_utf8) {
1844             if (!(do_utf8 ? prog->anchored_utf8 : prog->anchored_substr))
1845                 do_utf8 ? to_utf8_substr(prog) : to_byte_substr(prog);
1846             must = do_utf8 ? prog->anchored_utf8 : prog->anchored_substr;
1847             back_max = back_min = prog->anchored_offset;
1848         } else {
1849             if (!(do_utf8 ? prog->float_utf8 : prog->float_substr))
1850                 do_utf8 ? to_utf8_substr(prog) : to_byte_substr(prog);
1851             must = do_utf8 ? prog->float_utf8 : prog->float_substr;
1852             back_max = prog->float_max_offset;
1853             back_min = prog->float_min_offset;
1854         }
1855         
1856             
1857         if (must == &PL_sv_undef)
1858             /* could not downgrade utf8 check substring, so must fail */
1859             goto phooey;
1860
1861         if (back_min<0) {
1862             last = strend;
1863         } else {
1864             last = HOP3c(strend,        /* Cannot start after this */
1865                   -(I32)(CHR_SVLEN(must)
1866                          - (SvTAIL(must) != 0) + back_min), strbeg);
1867         }
1868         if (s > PL_bostr)
1869             last1 = HOPc(s, -1);
1870         else
1871             last1 = s - 1;      /* bogus */
1872
1873         /* XXXX check_substr already used to find "s", can optimize if
1874            check_substr==must. */
1875         scream_pos = -1;
1876         dontbother = end_shift;
1877         strend = HOPc(strend, -dontbother);
1878         while ( (s <= last) &&
1879                 ((flags & REXEC_SCREAM)
1880                  ? (s = screaminstr(sv, must, HOP3c(s, back_min, (back_min<0 ? strbeg : strend)) - strbeg,
1881                                     end_shift, &scream_pos, 0))
1882                  : (s = fbm_instr((unsigned char*)HOP3(s, back_min, (back_min<0 ? strbeg : strend)),
1883                                   (unsigned char*)strend, must,
1884                                   multiline ? FBMrf_MULTILINE : 0))) ) {
1885             /* we may be pointing at the wrong string */
1886             if ((flags & REXEC_SCREAM) && RX_MATCH_COPIED(prog))
1887                 s = strbeg + (s - SvPVX_const(sv));
1888             DEBUG_EXECUTE_r( did_match = 1 );
1889             if (HOPc(s, -back_max) > last1) {
1890                 last1 = HOPc(s, -back_min);
1891                 s = HOPc(s, -back_max);
1892             }
1893             else {
1894                 char * const t = (last1 >= PL_bostr) ? HOPc(last1, 1) : last1 + 1;
1895
1896                 last1 = HOPc(s, -back_min);
1897                 s = t;
1898             }
1899             if (do_utf8) {
1900                 while (s <= last1) {
1901                     if (regtry(&reginfo, s))
1902                         goto got_it;
1903                     s += UTF8SKIP(s);
1904                 }
1905             }
1906             else {
1907                 while (s <= last1) {
1908                     if (regtry(&reginfo, s))
1909                         goto got_it;
1910                     s++;
1911                 }
1912             }
1913         }
1914         DEBUG_EXECUTE_r(if (!did_match) {
1915             RE_PV_QUOTED_DECL(quoted, do_utf8, PERL_DEBUG_PAD_ZERO(0), 
1916                 SvPVX_const(must), RE_SV_DUMPLEN(must), 30);
1917             PerlIO_printf(Perl_debug_log, "Did not find %s substr %s%s...\n",
1918                               ((must == prog->anchored_substr || must == prog->anchored_utf8)
1919                                ? "anchored" : "floating"),
1920                 quoted, RE_SV_TAIL(must));
1921         });                 
1922         goto phooey;
1923     }
1924     else if ( (c = prog->regstclass) ) {
1925         if (minlen) {
1926             const OPCODE op = OP(prog->regstclass);
1927             /* don't bother with what can't match */
1928             if (PL_regkind[op] != EXACT && op != CANY && PL_regkind[op] != TRIE)
1929                 strend = HOPc(strend, -(minlen - 1));
1930         }
1931         DEBUG_EXECUTE_r({
1932             SV * const prop = sv_newmortal();
1933             regprop(prog, prop, c);
1934             {
1935                 RE_PV_QUOTED_DECL(quoted,UTF,PERL_DEBUG_PAD_ZERO(1),
1936                     s,strend-s,60);
1937                 PerlIO_printf(Perl_debug_log,
1938                     "Matching stclass %.*s against %s (%d chars)\n",
1939                     (int)SvCUR(prop), SvPVX_const(prop),
1940                      quoted, (int)(strend - s));
1941             }
1942         });
1943         if (find_byclass(prog, c, s, strend, &reginfo))
1944             goto got_it;
1945         DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "Contradicts stclass... [regexec_flags]\n"));
1946     }
1947     else {
1948         dontbother = 0;
1949         if (prog->float_substr != NULL || prog->float_utf8 != NULL) {
1950             /* Trim the end. */
1951             char *last;
1952             SV* float_real;
1953
1954             if (!(do_utf8 ? prog->float_utf8 : prog->float_substr))
1955                 do_utf8 ? to_utf8_substr(prog) : to_byte_substr(prog);
1956             float_real = do_utf8 ? prog->float_utf8 : prog->float_substr;
1957
1958             if (flags & REXEC_SCREAM) {
1959                 last = screaminstr(sv, float_real, s - strbeg,
1960                                    end_shift, &scream_pos, 1); /* last one */
1961                 if (!last)
1962                     last = scream_olds; /* Only one occurrence. */
1963                 /* we may be pointing at the wrong string */
1964                 else if (RX_MATCH_COPIED(prog))
1965                     s = strbeg + (s - SvPVX_const(sv));
1966             }
1967             else {
1968                 STRLEN len;
1969                 const char * const little = SvPV_const(float_real, len);
1970
1971                 if (SvTAIL(float_real)) {
1972                     if (memEQ(strend - len + 1, little, len - 1))
1973                         last = strend - len + 1;
1974                     else if (!multiline)
1975                         last = memEQ(strend - len, little, len)
1976                             ? strend - len : NULL;
1977                     else
1978                         goto find_last;
1979                 } else {
1980                   find_last:
1981                     if (len)
1982                         last = rninstr(s, strend, little, little + len);
1983                     else
1984                         last = strend;  /* matching "$" */
1985                 }
1986             }
1987             if (last == NULL) {
1988                 DEBUG_EXECUTE_r(
1989                     PerlIO_printf(Perl_debug_log,
1990                         "%sCan't trim the tail, match fails (should not happen)%s\n",
1991                         PL_colors[4], PL_colors[5]));
1992                 goto phooey; /* Should not happen! */
1993             }
1994             dontbother = strend - last + prog->float_min_offset;
1995         }
1996         if (minlen && (dontbother < minlen))
1997             dontbother = minlen - 1;
1998         strend -= dontbother;              /* this one's always in bytes! */
1999         /* We don't know much -- general case. */
2000         if (do_utf8) {
2001             for (;;) {
2002                 if (regtry(&reginfo, s))
2003                     goto got_it;
2004                 if (s >= strend)
2005                     break;
2006                 s += UTF8SKIP(s);
2007             };
2008         }
2009         else {
2010             do {
2011                 if (regtry(&reginfo, s))
2012                     goto got_it;
2013             } while (s++ < strend);
2014         }
2015     }
2016
2017     /* Failure. */
2018     goto phooey;
2019
2020 got_it:
2021     RX_MATCH_TAINTED_set(prog, PL_reg_flags & RF_tainted);
2022
2023     if (PL_reg_eval_set) {
2024         /* Preserve the current value of $^R */
2025         if (oreplsv != GvSV(PL_replgv))
2026             sv_setsv(oreplsv, GvSV(PL_replgv));/* So that when GvSV(replgv) is
2027                                                   restored, the value remains
2028                                                   the same. */
2029         restore_pos(aTHX_ prog);
2030     }
2031
2032     /* make sure $`, $&, $', and $digit will work later */
2033     if ( !(flags & REXEC_NOT_FIRST) ) {
2034         RX_MATCH_COPY_FREE(prog);
2035         if (flags & REXEC_COPY_STR) {
2036             const I32 i = PL_regeol - startpos + (stringarg - strbeg);
2037 #ifdef PERL_OLD_COPY_ON_WRITE
2038             if ((SvIsCOW(sv)
2039                  || (SvFLAGS(sv) & CAN_COW_MASK) == CAN_COW_FLAGS)) {
2040                 if (DEBUG_C_TEST) {
2041                     PerlIO_printf(Perl_debug_log,
2042                                   "Copy on write: regexp capture, type %d\n",
2043                                   (int) SvTYPE(sv));
2044                 }
2045                 prog->saved_copy = sv_setsv_cow(prog->saved_copy, sv);
2046                 prog->subbeg = (char *)SvPVX_const(prog->saved_copy);
2047                 assert (SvPOKp(prog->saved_copy));
2048             } else
2049 #endif
2050             {
2051                 RX_MATCH_COPIED_on(prog);
2052                 s = savepvn(strbeg, i);
2053                 prog->subbeg = s;
2054             }
2055             prog->sublen = i;
2056         }
2057         else {
2058             prog->subbeg = strbeg;
2059             prog->sublen = PL_regeol - strbeg;  /* strend may have been modified */
2060         }
2061     }
2062
2063     return 1;
2064
2065 phooey:
2066     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "%sMatch failed%s\n",
2067                           PL_colors[4], PL_colors[5]));
2068     if (PL_reg_eval_set)
2069         restore_pos(aTHX_ prog);
2070     return 0;
2071 }
2072
2073
2074 /*
2075  - regtry - try match at specific point
2076  */
2077 STATIC I32                      /* 0 failure, 1 success */
2078 S_regtry(pTHX_ const regmatch_info *reginfo, char *startpos)
2079 {
2080     dVAR;
2081     register I32 *sp;
2082     register I32 *ep;
2083     CHECKPOINT lastcp;
2084     regexp *prog = reginfo->prog;
2085     GET_RE_DEBUG_FLAGS_DECL;
2086
2087     if ((prog->reganch & ROPT_EVAL_SEEN) && !PL_reg_eval_set) {
2088         MAGIC *mg;
2089
2090         PL_reg_eval_set = RS_init;
2091         DEBUG_EXECUTE_r(DEBUG_s(
2092             PerlIO_printf(Perl_debug_log, "  setting stack tmpbase at %"IVdf"\n",
2093                           (IV)(PL_stack_sp - PL_stack_base));
2094             ));
2095         SAVEI32(cxstack[cxstack_ix].blk_oldsp);
2096         cxstack[cxstack_ix].blk_oldsp = PL_stack_sp - PL_stack_base;
2097         /* Otherwise OP_NEXTSTATE will free whatever on stack now.  */
2098         SAVETMPS;
2099         /* Apparently this is not needed, judging by wantarray. */
2100         /* SAVEI8(cxstack[cxstack_ix].blk_gimme);
2101            cxstack[cxstack_ix].blk_gimme = G_SCALAR; */
2102
2103         if (reginfo->sv) {
2104             /* Make $_ available to executed code. */
2105             if (reginfo->sv != DEFSV) {
2106                 SAVE_DEFSV;
2107                 DEFSV = reginfo->sv;
2108             }
2109         
2110             if (!(SvTYPE(reginfo->sv) >= SVt_PVMG && SvMAGIC(reginfo->sv)
2111                   && (mg = mg_find(reginfo->sv, PERL_MAGIC_regex_global)))) {
2112                 /* prepare for quick setting of pos */
2113 #ifdef PERL_OLD_COPY_ON_WRITE
2114                 if (SvIsCOW(sv))
2115                     sv_force_normal_flags(sv, 0);
2116 #endif
2117                 mg = sv_magicext(reginfo->sv, NULL, PERL_MAGIC_regex_global,
2118                                  &PL_vtbl_mglob, NULL, 0);
2119                 mg->mg_len = -1;
2120             }
2121             PL_reg_magic    = mg;
2122             PL_reg_oldpos   = mg->mg_len;
2123             SAVEDESTRUCTOR_X(restore_pos, prog);
2124         }
2125         if (!PL_reg_curpm) {
2126             Newxz(PL_reg_curpm, 1, PMOP);
2127 #ifdef USE_ITHREADS
2128             {
2129                 SV* const repointer = newSViv(0);
2130                 /* so we know which PL_regex_padav element is PL_reg_curpm */
2131                 SvFLAGS(repointer) |= SVf_BREAK;
2132                 av_push(PL_regex_padav,repointer);
2133                 PL_reg_curpm->op_pmoffset = av_len(PL_regex_padav);
2134                 PL_regex_pad = AvARRAY(PL_regex_padav);
2135             }
2136 #endif      
2137         }
2138         PM_SETRE(PL_reg_curpm, prog);
2139         PL_reg_oldcurpm = PL_curpm;
2140         PL_curpm = PL_reg_curpm;
2141         if (RX_MATCH_COPIED(prog)) {
2142             /*  Here is a serious problem: we cannot rewrite subbeg,
2143                 since it may be needed if this match fails.  Thus
2144                 $` inside (?{}) could fail... */
2145             PL_reg_oldsaved = prog->subbeg;
2146             PL_reg_oldsavedlen = prog->sublen;
2147 #ifdef PERL_OLD_COPY_ON_WRITE
2148             PL_nrs = prog->saved_copy;
2149 #endif
2150             RX_MATCH_COPIED_off(prog);
2151         }
2152         else
2153             PL_reg_oldsaved = NULL;
2154         prog->subbeg = PL_bostr;
2155         prog->sublen = PL_regeol - PL_bostr; /* strend may have been modified */
2156     }
2157     DEBUG_EXECUTE_r(PL_reg_starttry = startpos);
2158     prog->startp[0] = startpos - PL_bostr;
2159     PL_reginput = startpos;
2160     PL_reglastparen = &prog->lastparen;
2161     PL_reglastcloseparen = &prog->lastcloseparen;
2162     prog->lastparen = 0;
2163     prog->lastcloseparen = 0;
2164     PL_regsize = 0;
2165     PL_regstartp = prog->startp;
2166     PL_regendp = prog->endp;
2167     if (PL_reg_start_tmpl <= prog->nparens) {
2168         PL_reg_start_tmpl = prog->nparens*3/2 + 3;
2169         if(PL_reg_start_tmp)
2170             Renew(PL_reg_start_tmp, PL_reg_start_tmpl, char*);
2171         else
2172             Newx(PL_reg_start_tmp, PL_reg_start_tmpl, char*);
2173     }
2174
2175     /* XXXX What this code is doing here?!!!  There should be no need
2176        to do this again and again, PL_reglastparen should take care of
2177        this!  --ilya*/
2178
2179     /* Tests pat.t#187 and split.t#{13,14} seem to depend on this code.
2180      * Actually, the code in regcppop() (which Ilya may be meaning by
2181      * PL_reglastparen), is not needed at all by the test suite
2182      * (op/regexp, op/pat, op/split), but that code is needed, oddly
2183      * enough, for building DynaLoader, or otherwise this
2184      * "Error: '*' not in typemap in DynaLoader.xs, line 164"
2185      * will happen.  Meanwhile, this code *is* needed for the
2186      * above-mentioned test suite tests to succeed.  The common theme
2187      * on those tests seems to be returning null fields from matches.
2188      * --jhi */
2189 #if 1
2190     sp = prog->startp;
2191     ep = prog->endp;
2192     if (prog->nparens) {
2193         register I32 i;
2194         for (i = prog->nparens; i > (I32)*PL_reglastparen; i--) {
2195             *++sp = -1;
2196             *++ep = -1;
2197         }
2198     }
2199 #endif
2200     REGCP_SET(lastcp);
2201     if (regmatch(reginfo, prog->program + 1)) {
2202         prog->endp[0] = PL_reginput - PL_bostr;
2203         return 1;
2204     }
2205     REGCP_UNWIND(lastcp);
2206     return 0;
2207 }
2208
2209
2210 #define sayYES goto yes
2211 #define sayNO goto no
2212 #define sayNO_SILENT goto no_silent
2213
2214 /* we dont use STMT_START/END here because it leads to 
2215    "unreachable code" warnings, which are bogus, but distracting. */
2216 #define CACHEsayNO \
2217     if (ST.cache_mask) \
2218        PL_reg_poscache[ST.cache_offset] |= ST.cache_mask; \
2219     sayNO
2220
2221 /* this is used to determine how far from the left messages like
2222    'failed...' are printed. It should be set such that messages 
2223    are inline with the regop output that created them.
2224 */
2225 #define REPORT_CODE_OFF 32
2226
2227
2228 /* Make sure there is a test for this +1 options in re_tests */
2229 #define TRIE_INITAL_ACCEPT_BUFFLEN 4;
2230
2231 #define CHRTEST_UNINIT -1001 /* c1/c2 haven't been calculated yet */
2232 #define CHRTEST_VOID   -1000 /* the c1/c2 "next char" test should be skipped */
2233
2234 #define SLAB_FIRST(s) (&(s)->states[0])
2235 #define SLAB_LAST(s)  (&(s)->states[PERL_REGMATCH_SLAB_SLOTS-1])
2236
2237 /* grab a new slab and return the first slot in it */
2238
2239 STATIC regmatch_state *
2240 S_push_slab(pTHX)
2241 {
2242 #if PERL_VERSION < 9
2243     dMY_CXT;
2244 #endif
2245     regmatch_slab *s = PL_regmatch_slab->next;
2246     if (!s) {
2247         Newx(s, 1, regmatch_slab);
2248         s->prev = PL_regmatch_slab;
2249         s->next = NULL;
2250         PL_regmatch_slab->next = s;
2251     }
2252     PL_regmatch_slab = s;
2253     return SLAB_FIRST(s);
2254 }
2255
2256
2257 /* push a new state then goto it */
2258
2259 #define PUSH_STATE_GOTO(state, node) \
2260     scan = node; \
2261     st->resume_state = state; \
2262     goto push_state;
2263
2264 /* push a new state with success backtracking, then goto it */
2265
2266 #define PUSH_YES_STATE_GOTO(state, node) \
2267     scan = node; \
2268     st->resume_state = state; \
2269     goto push_yes_state;
2270
2271
2272
2273 /*
2274  - regmatch - main matching routine
2275  *
2276  * Conceptually the strategy is simple:  check to see whether the current
2277  * node matches, call self recursively to see whether the rest matches,
2278  * and then act accordingly.  In practice we make some effort to avoid
2279  * recursion, in particular by going through "ordinary" nodes (that don't
2280  * need to know whether the rest of the match failed) by a loop instead of
2281  * by recursion.
2282  */
2283 /* [lwall] I've hoisted the register declarations to the outer block in order to
2284  * maybe save a little bit of pushing and popping on the stack.  It also takes
2285  * advantage of machines that use a register save mask on subroutine entry.
2286  *
2287  * This function used to be heavily recursive, but since this had the
2288  * effect of blowing the CPU stack on complex regexes, it has been
2289  * restructured to be iterative, and to save state onto the heap rather
2290  * than the stack. Essentially whereever regmatch() used to be called, it
2291  * pushes the current state, notes where to return, then jumps back into
2292  * the main loop.
2293  *
2294  * Originally the structure of this function used to look something like
2295
2296     S_regmatch() {
2297         int a = 1, b = 2;
2298         ...
2299         while (scan != NULL) {
2300             a++; // do stuff with a and b
2301             ...
2302             switch (OP(scan)) {
2303                 case FOO: {
2304                     int local = 3;
2305                     ...
2306                     if (regmatch(...))  // recurse
2307                         goto yes;
2308                 }
2309                 ...
2310             }
2311         }
2312         yes:
2313         return 1;
2314     }
2315
2316  * Now it looks something like this:
2317
2318     typedef struct {
2319         int a, b, local;
2320         int resume_state;
2321     } regmatch_state;
2322
2323     S_regmatch() {
2324         regmatch_state *st = new();
2325         int depth=0;
2326         st->a++; // do stuff with a and b
2327         ...
2328         while (scan != NULL) {
2329             ...
2330             switch (OP(scan)) {
2331                 case FOO: {
2332                     st->local = 3;
2333                     ...
2334                     st->scan = scan;
2335                     scan = ...;
2336                     st->resume_state = resume_FOO;
2337                     goto start_recurse; // recurse
2338
2339                     resume_point_FOO:
2340                     if (result)
2341                         goto yes;
2342                 }
2343                 ...
2344             }
2345           start_recurse:
2346             st = new(); push a new state
2347             st->a = 1; st->b = 2;
2348             depth++;
2349         }
2350       yes:
2351         result = 1;
2352         if (depth--) {
2353             st = pop();
2354             switch (resume_state) {
2355             case resume_FOO:
2356                 goto resume_point_FOO;
2357             ...
2358             }
2359         }
2360         return result
2361     }
2362             
2363  * WARNING: this means that any line in this function that contains a
2364  * REGMATCH() or TRYPAREN() is actually simulating a recursive call to
2365  * regmatch() using gotos instead. Thus the values of any local variables
2366  * not saved in the regmatch_state structure will have been lost when
2367  * execution resumes on the next line .
2368  *
2369  * States (ie the st pointer) are allocated in slabs of about 4K in size.
2370  * PL_regmatch_state always points to the currently active state, and
2371  * PL_regmatch_slab points to the slab currently containing PL_regmatch_state.
2372  * The first time regmatch is called, the first slab is allocated, and is
2373  * never freed until interpreter desctruction. When the slab is full,
2374  * a new one is allocated chained to the end. At exit from regmatch, slabs
2375  * allocated since entry are freed.
2376  */
2377  
2378
2379 #define DEBUG_STATE_pp(pp)                                  \
2380     DEBUG_STATE_r({                                         \
2381         DUMP_EXEC_POS(locinput, scan, do_utf8);             \
2382         PerlIO_printf(Perl_debug_log,                       \
2383             "    %*s"pp" %s\n",                             \
2384             depth*2, "",                                    \
2385             reg_name[st->resume_state] );   \
2386     });
2387
2388
2389 #define REG_NODE_NUM(x) ((x) ? (int)((x)-prog) : -1)
2390
2391 #ifdef DEBUGGING
2392
2393 STATIC void
2394 S_debug_start_match(pTHX_ const regexp *prog, const bool do_utf8, 
2395     const char *start, const char *end, const char *blurb)
2396 {
2397     const bool utf8_pat= prog->reganch & ROPT_UTF8 ? 1 : 0;
2398     if (!PL_colorset)   
2399             reginitcolors();    
2400     {
2401         RE_PV_QUOTED_DECL(s0, utf8_pat, PERL_DEBUG_PAD_ZERO(0), 
2402             prog->precomp, prog->prelen, 60);   
2403         
2404         RE_PV_QUOTED_DECL(s1, do_utf8, PERL_DEBUG_PAD_ZERO(1), 
2405             start, end - start, 60); 
2406         
2407         PerlIO_printf(Perl_debug_log, 
2408             "%s%s REx%s %s against %s\n", 
2409                        PL_colors[4], blurb, PL_colors[5], s0, s1); 
2410         
2411         if (do_utf8||utf8_pat) 
2412             PerlIO_printf(Perl_debug_log, "UTF-8 %s%s%s...\n",
2413                 utf8_pat ? "pattern" : "",
2414                 utf8_pat && do_utf8 ? " and " : "",
2415                 do_utf8 ? "string" : ""
2416             ); 
2417     }
2418 }
2419
2420 STATIC void
2421 S_dump_exec_pos(pTHX_ const char *locinput, 
2422                       const regnode *scan, 
2423                       const char *loc_regeol, 
2424                       const char *loc_bostr, 
2425                       const char *loc_reg_starttry,
2426                       const bool do_utf8)
2427 {
2428     const int docolor = *PL_colors[0] || *PL_colors[2] || *PL_colors[4];
2429     const int taill = (docolor ? 10 : 7); /* 3 chars for "> <" */
2430     int l = (loc_regeol - locinput) > taill ? taill : (loc_regeol - locinput);
2431     /* The part of the string before starttry has one color
2432        (pref0_len chars), between starttry and current
2433        position another one (pref_len - pref0_len chars),
2434        after the current position the third one.
2435        We assume that pref0_len <= pref_len, otherwise we
2436        decrease pref0_len.  */
2437     int pref_len = (locinput - loc_bostr) > (5 + taill) - l
2438         ? (5 + taill) - l : locinput - loc_bostr;
2439     int pref0_len;
2440
2441     while (do_utf8 && UTF8_IS_CONTINUATION(*(U8*)(locinput - pref_len)))
2442         pref_len++;
2443     pref0_len = pref_len  - (locinput - loc_reg_starttry);
2444     if (l + pref_len < (5 + taill) && l < loc_regeol - locinput)
2445         l = ( loc_regeol - locinput > (5 + taill) - pref_len
2446               ? (5 + taill) - pref_len : loc_regeol - locinput);
2447     while (do_utf8 && UTF8_IS_CONTINUATION(*(U8*)(locinput + l)))
2448         l--;
2449     if (pref0_len < 0)
2450         pref0_len = 0;
2451     if (pref0_len > pref_len)
2452         pref0_len = pref_len;
2453     {
2454         const int is_uni = (do_utf8 && OP(scan) != CANY) ? 1 : 0;
2455
2456         RE_PV_COLOR_DECL(s0,len0,is_uni,PERL_DEBUG_PAD(0),
2457             (locinput - pref_len),pref0_len, 60, 4, 5);
2458         
2459         RE_PV_COLOR_DECL(s1,len1,is_uni,PERL_DEBUG_PAD(1),
2460                     (locinput - pref_len + pref0_len),
2461                     pref_len - pref0_len, 60, 2, 3);
2462         
2463         RE_PV_COLOR_DECL(s2,len2,is_uni,PERL_DEBUG_PAD(2),
2464                     locinput, loc_regeol - locinput, 10, 0, 1);
2465
2466         const STRLEN tlen=len0+len1+len2;
2467         PerlIO_printf(Perl_debug_log,
2468                     "%4"IVdf" <%.*s%.*s%s%.*s>%*s|",
2469                     (IV)(locinput - loc_bostr),
2470                     len0, s0,
2471                     len1, s1,
2472                     (docolor ? "" : "> <"),
2473                     len2, s2,
2474                     (int)(tlen > 19 ? 0 :  19 - tlen),
2475                     "");
2476     }
2477 }
2478
2479 #endif
2480
2481 STATIC I32                      /* 0 failure, 1 success */
2482 S_regmatch(pTHX_ const regmatch_info *reginfo, regnode *prog)
2483 {
2484 #if PERL_VERSION < 9
2485     dMY_CXT;
2486 #endif
2487     dVAR;
2488     register const bool do_utf8 = PL_reg_match_utf8;
2489     const U32 uniflags = UTF8_ALLOW_DEFAULT;
2490
2491     regexp *rex = reginfo->prog;
2492
2493     regmatch_slab  *orig_slab;
2494     regmatch_state *orig_state;
2495
2496     /* the current state. This is a cached copy of PL_regmatch_state */
2497     register regmatch_state *st;
2498
2499     /* cache heavy used fields of st in registers */
2500     register regnode *scan;
2501     register regnode *next;
2502     register I32 n = 0; /* general value; init to avoid compiler warning */
2503     register I32 ln = 0; /* len or last;  init to avoid compiler warning */
2504     register char *locinput = PL_reginput;
2505     register I32 nextchr;   /* is always set to UCHARAT(locinput) */
2506
2507     bool result = 0;        /* return value of S_regmatch */
2508     int depth = 0;          /* depth of backtrack stack */
2509     int nochange_depth = 0; /* depth of RECURSE recursion with nochange*/
2510     regmatch_state *yes_state = NULL; /* state to pop to on success of
2511                                                             subpattern */
2512     regmatch_state *cur_eval = NULL; /* most recent EVAL_AB state */
2513     struct regmatch_state  *cur_curlyx = NULL; /* most recent curlyx */
2514     U32 state_num;
2515
2516     /* these three flags are set by various ops to signal information to
2517      * the very next op. They have a useful lifetime of exactly one loop
2518      * iteration, and are not preserved or restored by state pushes/pops
2519      */
2520     bool sw = 0;            /* the condition value in (?(cond)a|b) */
2521     bool minmod = 0;        /* the next "{n,m}" is a "{n,m}?" */
2522     int logical = 0;        /* the following EVAL is:
2523                                 0: (?{...})
2524                                 1: (?(?{...})X|Y)
2525                                 2: (??{...})
2526                                or the following IFMATCH/UNLESSM is:
2527                                 false: plain (?=foo)
2528                                 true:  used as a condition: (?(?=foo))
2529                             */
2530
2531 #ifdef DEBUGGING
2532     GET_RE_DEBUG_FLAGS_DECL;
2533 #endif
2534
2535     /* on first ever call to regmatch, allocate first slab */
2536     if (!PL_regmatch_slab) {
2537         Newx(PL_regmatch_slab, 1, regmatch_slab);
2538         PL_regmatch_slab->prev = NULL;
2539         PL_regmatch_slab->next = NULL;
2540         PL_regmatch_state = SLAB_FIRST(PL_regmatch_slab);
2541     }
2542
2543     /* remember current high-water mark for exit */
2544     /* XXX this should be done with SAVE* instead */
2545     orig_slab  = PL_regmatch_slab;
2546     orig_state = PL_regmatch_state;
2547
2548     /* grab next free state slot */
2549     st = ++PL_regmatch_state;
2550     if (st >  SLAB_LAST(PL_regmatch_slab))
2551         st = PL_regmatch_state = S_push_slab(aTHX);
2552
2553     /* Note that nextchr is a byte even in UTF */
2554     nextchr = UCHARAT(locinput);
2555     scan = prog;
2556     while (scan != NULL) {
2557
2558         DEBUG_EXECUTE_r( {
2559             SV * const prop = sv_newmortal();
2560             regnode *rnext=regnext(scan);
2561             DUMP_EXEC_POS( locinput, scan, do_utf8 );
2562             regprop(rex, prop, scan);
2563             
2564             PerlIO_printf(Perl_debug_log,
2565                     "%3"IVdf":%*s%s(%"IVdf")\n",
2566                     (IV)(scan - rex->program), depth*2, "",
2567                     SvPVX_const(prop),
2568                     (PL_regkind[OP(scan)] == END || !rnext) ? 
2569                         0 : (IV)(rnext - rex->program));
2570         });
2571
2572         next = scan + NEXT_OFF(scan);
2573         if (next == scan)
2574             next = NULL;
2575         state_num = OP(scan);
2576
2577       reenter_switch:
2578         switch (state_num) {
2579         case BOL:
2580             if (locinput == PL_bostr)
2581             {
2582                 /* reginfo->till = reginfo->bol; */
2583                 break;
2584             }
2585             sayNO;
2586         case MBOL:
2587             if (locinput == PL_bostr ||
2588                 ((nextchr || locinput < PL_regeol) && locinput[-1] == '\n'))
2589             {
2590                 break;
2591             }
2592             sayNO;
2593         case SBOL:
2594             if (locinput == PL_bostr)
2595                 break;
2596             sayNO;
2597         case GPOS:
2598             if (locinput == reginfo->ganch)
2599                 break;
2600             sayNO;
2601         case EOL:
2602                 goto seol;
2603         case MEOL:
2604             if ((nextchr || locinput < PL_regeol) && nextchr != '\n')
2605                 sayNO;
2606             break;
2607         case SEOL:
2608           seol:
2609             if ((nextchr || locinput < PL_regeol) && nextchr != '\n')
2610                 sayNO;
2611             if (PL_regeol - locinput > 1)
2612                 sayNO;
2613             break;
2614         case EOS:
2615             if (PL_regeol != locinput)
2616                 sayNO;
2617             break;
2618         case SANY:
2619             if (!nextchr && locinput >= PL_regeol)
2620                 sayNO;
2621             if (do_utf8) {
2622                 locinput += PL_utf8skip[nextchr];
2623                 if (locinput > PL_regeol)
2624                     sayNO;
2625                 nextchr = UCHARAT(locinput);
2626             }
2627             else
2628                 nextchr = UCHARAT(++locinput);
2629             break;
2630         case CANY:
2631             if (!nextchr && locinput >= PL_regeol)
2632                 sayNO;
2633             nextchr = UCHARAT(++locinput);
2634             break;
2635         case REG_ANY:
2636             if ((!nextchr && locinput >= PL_regeol) || nextchr == '\n')
2637                 sayNO;
2638             if (do_utf8) {
2639                 locinput += PL_utf8skip[nextchr];
2640                 if (locinput > PL_regeol)
2641                     sayNO;
2642                 nextchr = UCHARAT(locinput);
2643             }
2644             else
2645                 nextchr = UCHARAT(++locinput);
2646             break;
2647
2648 #undef  ST
2649 #define ST st->u.trie
2650         case TRIEC:
2651             /* In this case the charclass data is available inline so
2652                we can fail fast without a lot of extra overhead. 
2653              */
2654             if (scan->flags == EXACT || !do_utf8) {
2655                 if(!ANYOF_BITMAP_TEST(scan, *locinput)) {
2656                     DEBUG_EXECUTE_r(
2657                         PerlIO_printf(Perl_debug_log,
2658                                   "%*s  %sfailed to match trie start class...%s\n",
2659                                   REPORT_CODE_OFF+depth*2, "", PL_colors[4], PL_colors[5])
2660                     );
2661                     sayNO_SILENT;
2662                     /* NOTREACHED */
2663                 }                       
2664             }
2665             /* FALL THROUGH */
2666         case TRIE:
2667             {
2668                 /* what type of TRIE am I? (utf8 makes this contextual) */
2669                 const enum { trie_plain, trie_utf8, trie_utf8_fold }
2670                     trie_type = do_utf8 ?
2671                           (scan->flags == EXACT ? trie_utf8 : trie_utf8_fold)
2672                         : trie_plain;
2673
2674                 /* what trie are we using right now */
2675                 reg_trie_data * const trie
2676                     = (reg_trie_data*)rex->data->data[ ARG( scan ) ];
2677                 U32 state = trie->startstate;
2678
2679                 if (trie->bitmap && trie_type != trie_utf8_fold &&
2680                     !TRIE_BITMAP_TEST(trie,*locinput)
2681                 ) {
2682                     if (trie->states[ state ].wordnum) {
2683                          DEBUG_EXECUTE_r(
2684                             PerlIO_printf(Perl_debug_log,
2685                                           "%*s  %smatched empty string...%s\n",
2686                                           REPORT_CODE_OFF+depth*2, "", PL_colors[4], PL_colors[5])
2687                         );
2688                         break;
2689                     } else {
2690                         DEBUG_EXECUTE_r(
2691                             PerlIO_printf(Perl_debug_log,
2692                                           "%*s  %sfailed to match trie start class...%s\n",
2693                                           REPORT_CODE_OFF+depth*2, "", PL_colors[4], PL_colors[5])
2694                         );
2695                         sayNO_SILENT;
2696                    }
2697                 }
2698
2699             { 
2700                 U8 *uc = ( U8* )locinput;
2701
2702                 STRLEN len = 0;
2703                 STRLEN foldlen = 0;
2704                 U8 *uscan = (U8*)NULL;
2705                 STRLEN bufflen=0;
2706                 SV *sv_accept_buff = NULL;
2707                 U8 foldbuf[ UTF8_MAXBYTES_CASE + 1 ];
2708
2709                 ST.accepted = 0; /* how many accepting states we have seen */
2710                 ST.B = next;
2711                 ST.jump = trie->jump;
2712                 
2713 #ifdef DEBUGGING
2714                 ST.me = scan;
2715 #endif
2716                 
2717                 
2718
2719                 /*
2720                    traverse the TRIE keeping track of all accepting states
2721                    we transition through until we get to a failing node.
2722                 */
2723
2724                 while ( state && uc <= (U8*)PL_regeol ) {
2725                     U32 base = trie->states[ state ].trans.base;
2726                     UV uvc = 0;
2727                     U16 charid;
2728                     /* We use charid to hold the wordnum as we don't use it
2729                        for charid until after we have done the wordnum logic. 
2730                        We define an alias just so that the wordnum logic reads
2731                        more naturally. */
2732
2733 #define got_wordnum charid
2734                     got_wordnum = trie->states[ state ].wordnum;
2735
2736                     if ( got_wordnum ) {
2737                         if ( ! ST.accepted ) {
2738                             ENTER;
2739                             SAVETMPS;
2740                             bufflen = TRIE_INITAL_ACCEPT_BUFFLEN;
2741                             sv_accept_buff=newSV(bufflen *
2742                                             sizeof(reg_trie_accepted) - 1);
2743                             SvCUR_set(sv_accept_buff, 0);
2744                             SvPOK_on(sv_accept_buff);
2745                             sv_2mortal(sv_accept_buff);
2746                             SAVETMPS;
2747                             ST.accept_buff =
2748                                 (reg_trie_accepted*)SvPV_nolen(sv_accept_buff );
2749                         }
2750                         do {
2751                             if (ST.accepted >= bufflen) {
2752                                 bufflen *= 2;
2753                                 ST.accept_buff =(reg_trie_accepted*)
2754                                     SvGROW(sv_accept_buff,
2755                                         bufflen * sizeof(reg_trie_accepted));
2756                             }
2757                             SvCUR_set(sv_accept_buff,SvCUR(sv_accept_buff)
2758                                 + sizeof(reg_trie_accepted));
2759
2760
2761                             ST.accept_buff[ST.accepted].wordnum = got_wordnum;
2762                             ST.accept_buff[ST.accepted].endpos = uc;
2763                             ++ST.accepted;
2764                         } while (trie->nextword && (got_wordnum= trie->nextword[got_wordnum]));
2765                     }
2766 #undef got_wordnum 
2767
2768                     DEBUG_TRIE_EXECUTE_r({
2769                                 DUMP_EXEC_POS( (char *)uc, scan, do_utf8 );
2770                                 PerlIO_printf( Perl_debug_log,
2771                                     "%*s  %sState: %4"UVxf" Accepted: %4"UVxf" ",
2772                                     2+depth * 2, "", PL_colors[4],
2773                                     (UV)state, (UV)ST.accepted );
2774                     });
2775
2776                     if ( base ) {
2777                         REXEC_TRIE_READ_CHAR(trie_type, trie, uc, uscan, len,
2778                             uvc, charid, foldlen, foldbuf, uniflags);
2779
2780                         if (charid &&
2781                              (base + charid > trie->uniquecharcount )
2782                              && (base + charid - 1 - trie->uniquecharcount
2783                                     < trie->lasttrans)
2784                              && trie->trans[base + charid - 1 -
2785                                     trie->uniquecharcount].check == state)
2786                         {
2787                             state = trie->trans[base + charid - 1 -
2788                                 trie->uniquecharcount ].next;
2789                         }
2790                         else {
2791                             state = 0;
2792                         }
2793                         uc += len;
2794
2795                     }
2796                     else {
2797                         state = 0;
2798                     }
2799                     DEBUG_TRIE_EXECUTE_r(
2800                         PerlIO_printf( Perl_debug_log,
2801                             "Charid:%3x CP:%4"UVxf" After State: %4"UVxf"%s\n",
2802                             charid, uvc, (UV)state, PL_colors[5] );
2803                     );
2804                 }
2805                 if (!ST.accepted )
2806                    sayNO;
2807
2808                 DEBUG_EXECUTE_r(
2809                     PerlIO_printf( Perl_debug_log,
2810                         "%*s  %sgot %"IVdf" possible matches%s\n",
2811                         REPORT_CODE_OFF + depth * 2, "",
2812                         PL_colors[4], (IV)ST.accepted, PL_colors[5] );
2813                 );
2814             }}
2815
2816             /* FALL THROUGH */
2817
2818         case TRIE_next_fail: /* we failed - try next alterative */
2819
2820             if ( ST.accepted == 1 ) {
2821                 /* only one choice left - just continue */
2822                 DEBUG_EXECUTE_r({
2823                     reg_trie_data * const trie
2824                         = (reg_trie_data*)rex->data->data[ ARG(ST.me) ];
2825                     SV ** const tmp = RX_DEBUG(reginfo->prog)
2826                                     ? av_fetch( trie->words, ST.accept_buff[ 0 ].wordnum-1, 0 )
2827                                     : NULL;
2828                     PerlIO_printf( Perl_debug_log,
2829                         "%*s  %sonly one match left: #%d <%s>%s\n",
2830                         REPORT_CODE_OFF+depth*2, "", PL_colors[4],
2831                         ST.accept_buff[ 0 ].wordnum,
2832                         tmp ? SvPV_nolen_const( *tmp ) : "not compiled under -Dr",
2833                         PL_colors[5] );
2834                 });
2835                 PL_reginput = (char *)ST.accept_buff[ 0 ].endpos;
2836                 /* in this case we free tmps/leave before we call regmatch
2837                    as we wont be using accept_buff again. */
2838                 FREETMPS;
2839                 LEAVE;
2840                 locinput = PL_reginput;
2841                 nextchr = UCHARAT(locinput);
2842                 
2843                 if ( !ST.jump ) 
2844                     scan = ST.B;
2845                 else
2846                     scan = ST.B - ST.jump[ST.accept_buff[0].wordnum];
2847                 
2848                 continue; /* execute rest of RE */
2849             }
2850
2851             if (!ST.accepted-- ) {
2852                 FREETMPS;
2853                 LEAVE;
2854                 sayNO;
2855             }
2856
2857             /*
2858                There are at least two accepting states left.  Presumably
2859                the number of accepting states is going to be low,
2860                typically two. So we simply scan through to find the one
2861                with lowest wordnum.  Once we find it, we swap the last
2862                state into its place and decrement the size. We then try to
2863                match the rest of the pattern at the point where the word
2864                ends. If we succeed, control just continues along the
2865                regex; if we fail we return here to try the next accepting
2866                state
2867              */
2868
2869             {
2870                 U32 best = 0;
2871                 U32 cur;
2872                 for( cur = 1 ; cur <= ST.accepted ; cur++ ) {
2873                     DEBUG_TRIE_EXECUTE_r(
2874                         PerlIO_printf( Perl_debug_log,
2875                             "%*s  %sgot %"IVdf" (%d) as best, looking at %"IVdf" (%d)%s\n",
2876                             REPORT_CODE_OFF + depth * 2, "", PL_colors[4],
2877                             (IV)best, ST.accept_buff[ best ].wordnum, (IV)cur,
2878                             ST.accept_buff[ cur ].wordnum, PL_colors[5] );
2879                     );
2880
2881                     if (ST.accept_buff[cur].wordnum <
2882                             ST.accept_buff[best].wordnum)
2883                         best = cur;
2884                 }
2885
2886                 DEBUG_EXECUTE_r({
2887                     reg_trie_data * const trie
2888                         = (reg_trie_data*)rex->data->data[ ARG(ST.me) ];
2889                     SV ** const tmp = RX_DEBUG(reginfo->prog)
2890                                 ? av_fetch( trie->words, ST.accept_buff[ best ].wordnum - 1, 0 )
2891                                 : NULL;
2892                     regnode *nextop=!ST.jump ? 
2893                                     ST.B : 
2894                                     ST.B - ST.jump[ST.accept_buff[best].wordnum];    
2895                     PerlIO_printf( Perl_debug_log, 
2896                         "%*s  %strying alternation #%d <%s> at node #%d %s\n",
2897                         REPORT_CODE_OFF+depth*2, "", PL_colors[4],
2898                         ST.accept_buff[best].wordnum,
2899                         tmp ? SvPV_nolen_const( *tmp ) : "not compiled under -Dr", 
2900                             REG_NODE_NUM(nextop),
2901                         PL_colors[5] );
2902                 });
2903
2904                 if ( best<ST.accepted ) {
2905                     reg_trie_accepted tmp = ST.accept_buff[ best ];
2906                     ST.accept_buff[ best ] = ST.accept_buff[ ST.accepted ];
2907                     ST.accept_buff[ ST.accepted ] = tmp;
2908                     best = ST.accepted;
2909                 }
2910                 PL_reginput = (char *)ST.accept_buff[ best ].endpos;
2911                 if ( !ST.jump ) {
2912                     PUSH_STATE_GOTO(TRIE_next, ST.B);
2913                     /* NOTREACHED */
2914                 } else {
2915                     PUSH_STATE_GOTO(TRIE_next, ST.B - ST.jump[ST.accept_buff[best].wordnum]);
2916                     /* NOTREACHED */
2917                 }
2918                 /* NOTREACHED */
2919             }
2920             /* NOTREACHED */
2921
2922 #undef  ST
2923
2924         case EXACT: {
2925             char *s = STRING(scan);
2926             ln = STR_LEN(scan);
2927             if (do_utf8 != UTF) {
2928                 /* The target and the pattern have differing utf8ness. */
2929                 char *l = locinput;
2930                 const char * const e = s + ln;
2931
2932                 if (do_utf8) {
2933                     /* The target is utf8, the pattern is not utf8. */
2934                     while (s < e) {
2935                         STRLEN ulen;
2936                         if (l >= PL_regeol)
2937                              sayNO;
2938                         if (NATIVE_TO_UNI(*(U8*)s) !=
2939                             utf8n_to_uvuni((U8*)l, UTF8_MAXBYTES, &ulen,
2940                                             uniflags))
2941                              sayNO;
2942                         l += ulen;
2943                         s ++;
2944                     }
2945                 }
2946                 else {
2947                     /* The target is not utf8, the pattern is utf8. */
2948                     while (s < e) {
2949                         STRLEN ulen;
2950                         if (l >= PL_regeol)
2951                             sayNO;
2952                         if (NATIVE_TO_UNI(*((U8*)l)) !=
2953                             utf8n_to_uvuni((U8*)s, UTF8_MAXBYTES, &ulen,
2954                                            uniflags))
2955                             sayNO;
2956                         s += ulen;
2957                         l ++;
2958                     }
2959                 }
2960                 locinput = l;
2961                 nextchr = UCHARAT(locinput);
2962                 break;
2963             }
2964             /* The target and the pattern have the same utf8ness. */
2965             /* Inline the first character, for speed. */
2966             if (UCHARAT(s) != nextchr)
2967                 sayNO;
2968             if (PL_regeol - locinput < ln)
2969                 sayNO;
2970             if (ln > 1 && memNE(s, locinput, ln))
2971                 sayNO;
2972             locinput += ln;
2973             nextchr = UCHARAT(locinput);
2974             break;
2975             }
2976         case EXACTFL:
2977             PL_reg_flags |= RF_tainted;
2978             /* FALL THROUGH */
2979         case EXACTF: {
2980             char * const s = STRING(scan);
2981             ln = STR_LEN(scan);
2982
2983             if (do_utf8 || UTF) {
2984               /* Either target or the pattern are utf8. */
2985                 const char * const l = locinput;
2986                 char *e = PL_regeol;
2987
2988                 if (ibcmp_utf8(s, 0,  ln, (bool)UTF,
2989                                l, &e, 0,  do_utf8)) {
2990                      /* One more case for the sharp s:
2991                       * pack("U0U*", 0xDF) =~ /ss/i,
2992                       * the 0xC3 0x9F are the UTF-8
2993                       * byte sequence for the U+00DF. */
2994                      if (!(do_utf8 &&
2995                            toLOWER(s[0]) == 's' &&
2996                            ln >= 2 &&
2997                            toLOWER(s[1]) == 's' &&
2998                            (U8)l[0] == 0xC3 &&
2999                            e - l >= 2 &&
3000                            (U8)l[1] == 0x9F))
3001                           sayNO;
3002                 }
3003                 locinput = e;
3004                 nextchr = UCHARAT(locinput);
3005                 break;
3006             }
3007
3008             /* Neither the target and the pattern are utf8. */
3009
3010             /* Inline the first character, for speed. */
3011             if (UCHARAT(s) != nextchr &&
3012                 UCHARAT(s) != ((OP(scan) == EXACTF)
3013                                ? PL_fold : PL_fold_locale)[nextchr])
3014                 sayNO;
3015             if (PL_regeol - locinput < ln)
3016                 sayNO;
3017             if (ln > 1 && (OP(scan) == EXACTF
3018                            ? ibcmp(s, locinput, ln)
3019                            : ibcmp_locale(s, locinput, ln)))
3020                 sayNO;
3021             locinput += ln;
3022             nextchr = UCHARAT(locinput);
3023             break;
3024             }
3025         case ANYOF:
3026             if (do_utf8) {
3027                 STRLEN inclasslen = PL_regeol - locinput;
3028
3029                 if (!reginclass(rex, scan, (U8*)locinput, &inclasslen, do_utf8))
3030                     goto anyof_fail;
3031                 if (locinput >= PL_regeol)
3032                     sayNO;
3033                 locinput += inclasslen ? inclasslen : UTF8SKIP(locinput);
3034                 nextchr = UCHARAT(locinput);
3035                 break;
3036             }
3037             else {
3038                 if (nextchr < 0)
3039                     nextchr = UCHARAT(locinput);
3040                 if (!REGINCLASS(rex, scan, (U8*)locinput))
3041                     goto anyof_fail;
3042                 if (!nextchr && locinput >= PL_regeol)
3043                     sayNO;
3044                 nextchr = UCHARAT(++locinput);
3045                 break;
3046             }
3047         anyof_fail:
3048             /* If we might have the case of the German sharp s
3049              * in a casefolding Unicode character class. */
3050
3051             if (ANYOF_FOLD_SHARP_S(scan, locinput, PL_regeol)) {
3052                  locinput += SHARP_S_SKIP;
3053                  nextchr = UCHARAT(locinput);
3054             }
3055             else
3056                  sayNO;
3057             break;
3058         case ALNUML:
3059             PL_reg_flags |= RF_tainted;
3060             /* FALL THROUGH */
3061         case ALNUM:
3062             if (!nextchr)
3063                 sayNO;
3064             if (do_utf8) {
3065                 LOAD_UTF8_CHARCLASS_ALNUM();
3066                 if (!(OP(scan) == ALNUM
3067                       ? (bool)swash_fetch(PL_utf8_alnum, (U8*)locinput, do_utf8)
3068                       : isALNUM_LC_utf8((U8*)locinput)))
3069                 {
3070                     sayNO;
3071                 }
3072                 locinput += PL_utf8skip[nextchr];
3073                 nextchr = UCHARAT(locinput);
3074                 break;
3075             }
3076             if (!(OP(scan) == ALNUM
3077                   ? isALNUM(nextchr) : isALNUM_LC(nextchr)))
3078                 sayNO;
3079             nextchr = UCHARAT(++locinput);
3080             break;
3081         case NALNUML:
3082             PL_reg_flags |= RF_tainted;
3083             /* FALL THROUGH */
3084         case NALNUM:
3085             if (!nextchr && locinput >= PL_regeol)
3086                 sayNO;
3087             if (do_utf8) {
3088                 LOAD_UTF8_CHARCLASS_ALNUM();
3089                 if (OP(scan) == NALNUM
3090                     ? (bool)swash_fetch(PL_utf8_alnum, (U8*)locinput, do_utf8)
3091                     : isALNUM_LC_utf8((U8*)locinput))
3092                 {
3093                     sayNO;
3094                 }
3095                 locinput += PL_utf8skip[nextchr];
3096                 nextchr = UCHARAT(locinput);
3097                 break;
3098             }
3099             if (OP(scan) == NALNUM
3100                 ? isALNUM(nextchr) : isALNUM_LC(nextchr))
3101                 sayNO;
3102             nextchr = UCHARAT(++locinput);
3103             break;
3104         case BOUNDL:
3105         case NBOUNDL:
3106             PL_reg_flags |= RF_tainted;
3107             /* FALL THROUGH */
3108         case BOUND:
3109         case NBOUND:
3110             /* was last char in word? */
3111             if (do_utf8) {
3112                 if (locinput == PL_bostr)
3113                     ln = '\n';
3114                 else {
3115                     const U8 * const r = reghop3((U8*)locinput, -1, (U8*)PL_bostr);
3116                 
3117                     ln = utf8n_to_uvchr(r, UTF8SKIP(r), 0, uniflags);
3118                 }
3119                 if (OP(scan) == BOUND || OP(scan) == NBOUND) {
3120                     ln = isALNUM_uni(ln);
3121                     LOAD_UTF8_CHARCLASS_ALNUM();
3122                     n = swash_fetch(PL_utf8_alnum, (U8*)locinput, do_utf8);
3123                 }
3124                 else {
3125                     ln = isALNUM_LC_uvchr(UNI_TO_NATIVE(ln));
3126                     n = isALNUM_LC_utf8((U8*)locinput);
3127                 }
3128             }
3129             else {
3130                 ln = (locinput != PL_bostr) ?
3131                     UCHARAT(locinput - 1) : '\n';
3132                 if (OP(scan) == BOUND || OP(scan) == NBOUND) {
3133                     ln = isALNUM(ln);
3134                     n = isALNUM(nextchr);
3135                 }
3136                 else {
3137                     ln = isALNUM_LC(ln);
3138                     n = isALNUM_LC(nextchr);
3139                 }
3140             }
3141             if (((!ln) == (!n)) == (OP(scan) == BOUND ||
3142                                     OP(scan) == BOUNDL))
3143                     sayNO;
3144             break;
3145         case SPACEL:
3146             PL_reg_flags |= RF_tainted;
3147             /* FALL THROUGH */
3148         case SPACE:
3149             if (!nextchr)
3150                 sayNO;
3151             if (do_utf8) {
3152                 if (UTF8_IS_CONTINUED(nextchr)) {
3153                     LOAD_UTF8_CHARCLASS_SPACE();
3154                     if (!(OP(scan) == SPACE
3155                           ? (bool)swash_fetch(PL_utf8_space, (U8*)locinput, do_utf8)
3156                           : isSPACE_LC_utf8((U8*)locinput)))
3157                     {
3158                         sayNO;
3159                     }
3160                     locinput += PL_utf8skip[nextchr];
3161                     nextchr = UCHARAT(locinput);
3162                     break;
3163                 }
3164                 if (!(OP(scan) == SPACE
3165                       ? isSPACE(nextchr) : isSPACE_LC(nextchr)))
3166                     sayNO;
3167                 nextchr = UCHARAT(++locinput);
3168             }
3169             else {
3170                 if (!(OP(scan) == SPACE
3171                       ? isSPACE(nextchr) : isSPACE_LC(nextchr)))
3172                     sayNO;
3173                 nextchr = UCHARAT(++locinput);
3174             }
3175             break;
3176         case NSPACEL:
3177             PL_reg_flags |= RF_tainted;
3178             /* FALL THROUGH */
3179         case NSPACE:
3180             if (!nextchr && locinput >= PL_regeol)
3181                 sayNO;
3182             if (do_utf8) {
3183                 LOAD_UTF8_CHARCLASS_SPACE();
3184                 if (OP(scan) == NSPACE
3185                     ? (bool)swash_fetch(PL_utf8_space, (U8*)locinput, do_utf8)
3186                     : isSPACE_LC_utf8((U8*)locinput))
3187                 {
3188                     sayNO;
3189                 }
3190                 locinput += PL_utf8skip[nextchr];
3191                 nextchr = UCHARAT(locinput);
3192                 break;
3193             }
3194             if (OP(scan) == NSPACE
3195                 ? isSPACE(nextchr) : isSPACE_LC(nextchr))
3196                 sayNO;
3197             nextchr = UCHARAT(++locinput);
3198             break;
3199         case DIGITL:
3200             PL_reg_flags |= RF_tainted;
3201             /* FALL THROUGH */
3202         case DIGIT:
3203             if (!nextchr)
3204                 sayNO;
3205             if (do_utf8) {
3206                 LOAD_UTF8_CHARCLASS_DIGIT();
3207                 if (!(OP(scan) == DIGIT
3208                       ? (bool)swash_fetch(PL_utf8_digit, (U8*)locinput, do_utf8)
3209                       : isDIGIT_LC_utf8((U8*)locinput)))
3210                 {
3211                     sayNO;
3212                 }
3213                 locinput += PL_utf8skip[nextchr];
3214                 nextchr = UCHARAT(locinput);
3215                 break;
3216             }
3217             if (!(OP(scan) == DIGIT
3218                   ? isDIGIT(nextchr) : isDIGIT_LC(nextchr)))
3219                 sayNO;
3220             nextchr = UCHARAT(++locinput);
3221             break;
3222         case NDIGITL:
3223             PL_reg_flags |= RF_tainted;
3224             /* FALL THROUGH */
3225         case NDIGIT:
3226             if (!nextchr && locinput >= PL_regeol)
3227                 sayNO;
3228             if (do_utf8) {
3229                 LOAD_UTF8_CHARCLASS_DIGIT();
3230                 if (OP(scan) == NDIGIT
3231                     ? (bool)swash_fetch(PL_utf8_digit, (U8*)locinput, do_utf8)
3232                     : isDIGIT_LC_utf8((U8*)locinput))
3233                 {
3234                     sayNO;
3235                 }
3236                 locinput += PL_utf8skip[nextchr];
3237                 nextchr = UCHARAT(locinput);
3238                 break;
3239             }
3240             if (OP(scan) == NDIGIT
3241                 ? isDIGIT(nextchr) : isDIGIT_LC(nextchr))
3242                 sayNO;
3243             nextchr = UCHARAT(++locinput);
3244             break;
3245         case CLUMP:
3246             if (locinput >= PL_regeol)
3247                 sayNO;
3248             if  (do_utf8) {
3249                 LOAD_UTF8_CHARCLASS_MARK();
3250                 if (swash_fetch(PL_utf8_mark,(U8*)locinput, do_utf8))
3251                     sayNO;
3252                 locinput += PL_utf8skip[nextchr];
3253                 while (locinput < PL_regeol &&
3254                        swash_fetch(PL_utf8_mark,(U8*)locinput, do_utf8))
3255                     locinput += UTF8SKIP(locinput);
3256                 if (locinput > PL_regeol)
3257                     sayNO;
3258             } 
3259             else
3260                locinput++;
3261             nextchr = UCHARAT(locinput);
3262             break;
3263         case REFFL:
3264             PL_reg_flags |= RF_tainted;
3265             /* FALL THROUGH */
3266         case REF:
3267         case REFF: {
3268             char *s;
3269             n = ARG(scan);  /* which paren pair */
3270             ln = PL_regstartp[n];
3271             PL_reg_leftiter = PL_reg_maxiter;           /* Void cache */
3272             if ((I32)*PL_reglastparen < n || ln == -1)
3273                 sayNO;                  /* Do not match unless seen CLOSEn. */
3274             if (ln == PL_regendp[n])
3275                 break;
3276
3277             s = PL_bostr + ln;
3278             if (do_utf8 && OP(scan) != REF) {   /* REF can do byte comparison */
3279                 char *l = locinput;
3280                 const char *e = PL_bostr + PL_regendp[n];
3281                 /*
3282                  * Note that we can't do the "other character" lookup trick as
3283                  * in the 8-bit case (no pun intended) because in Unicode we
3284                  * have to map both upper and title case to lower case.
3285                  */
3286                 if (OP(scan) == REFF) {
3287                     while (s < e) {
3288                         STRLEN ulen1, ulen2;
3289                         U8 tmpbuf1[UTF8_MAXBYTES_CASE+1];
3290                         U8 tmpbuf2[UTF8_MAXBYTES_CASE+1];
3291
3292                         if (l >= PL_regeol)
3293                             sayNO;
3294                         toLOWER_utf8((U8*)s, tmpbuf1, &ulen1);
3295                         toLOWER_utf8((U8*)l, tmpbuf2, &ulen2);
3296                         if (ulen1 != ulen2 || memNE((char *)tmpbuf1, (char *)tmpbuf2, ulen1))
3297                             sayNO;
3298                         s += ulen1;
3299                         l += ulen2;
3300                     }
3301                 }
3302                 locinput = l;
3303                 nextchr = UCHARAT(locinput);
3304                 break;
3305             }
3306
3307             /* Inline the first character, for speed. */
3308             if (UCHARAT(s) != nextchr &&
3309                 (OP(scan) == REF ||
3310                  (UCHARAT(s) != ((OP(scan) == REFF
3311                                   ? PL_fold : PL_fold_locale)[nextchr]))))
3312                 sayNO;
3313             ln = PL_regendp[n] - ln;
3314             if (locinput + ln > PL_regeol)
3315                 sayNO;
3316             if (ln > 1 && (OP(scan) == REF
3317                            ? memNE(s, locinput, ln)
3318                            : (OP(scan) == REFF
3319                               ? ibcmp(s, locinput, ln)
3320                               : ibcmp_locale(s, locinput, ln))))
3321                 sayNO;
3322             locinput += ln;
3323             nextchr = UCHARAT(locinput);
3324             break;
3325             }
3326
3327         case NOTHING:
3328         case TAIL:
3329             break;
3330         case BACK:
3331             break;
3332
3333 #undef  ST
3334 #define ST st->u.eval
3335         {
3336             SV *ret;
3337             regexp *re;
3338             regnode *startpoint;            
3339             
3340         case SRECURSE:
3341         case RECURSE: /*    /(...(?1))/      */
3342             if (cur_eval && cur_eval->locinput==locinput) {
3343                 if (cur_eval->u.eval.close_paren == ARG(scan)) 
3344                     Perl_croak(aTHX_ "Infinite recursion in RECURSE in regexp");
3345                 if ( ++nochange_depth > MAX_RECURSE_EVAL_NOCHANGE_DEPTH ) 
3346                     Perl_croak(aTHX_ "RECURSE without pos change exceeded limit in regexp");
3347             } else {
3348                 nochange_depth = 0;
3349             }    
3350             re = rex;
3351             (void)ReREFCNT_inc(rex);
3352             if (OP(scan)==RECURSE) {
3353                 startpoint = scan + ARG2L(scan);
3354                 ST.close_paren = ARG(scan);
3355             } else {
3356                 startpoint = re->program+1;
3357                 ST.close_paren = 0;
3358             }
3359             goto eval_recurse_doit;
3360             /* NOTREACHED */
3361         case EVAL:  /*   /(?{A})B/   /(??{A})B/  and /(?(?{A})X|Y)B/   */        
3362             if (cur_eval && cur_eval->locinput==locinput) {
3363                 if ( ++nochange_depth > MAX_RECURSE_EVAL_NOCHANGE_DEPTH ) 
3364                     Perl_croak(aTHX_ "EVAL without pos change exceeded limit in regexp");
3365             } else {
3366                 nochange_depth = 0;
3367             }    
3368             {
3369                 /* execute the code in the {...} */
3370                 dSP;
3371                 SV ** const before = SP;
3372                 OP_4tree * const oop = PL_op;
3373                 COP * const ocurcop = PL_curcop;
3374                 PAD *old_comppad;
3375             
3376                 n = ARG(scan);
3377                 PL_op = (OP_4tree*)rex->data->data[n];
3378                 DEBUG_EXECUTE_r( PerlIO_printf(Perl_debug_log, "  re_eval 0x%"UVxf"\n", PTR2UV(PL_op)) );
3379                 PAD_SAVE_LOCAL(old_comppad, (PAD*)rex->data->data[n + 2]);
3380                 PL_regendp[0] = PL_reg_magic->mg_len = locinput - PL_bostr;
3381
3382                 CALLRUNOPS(aTHX);                       /* Scalar context. */
3383                 SPAGAIN;
3384                 if (SP == before)
3385                     ret = &PL_sv_undef;   /* protect against empty (?{}) blocks. */
3386                 else {
3387                     ret = POPs;
3388                     PUTBACK;
3389                 }
3390
3391                 PL_op = oop;
3392                 PAD_RESTORE_LOCAL(old_comppad);
3393                 PL_curcop = ocurcop;
3394                 if (!logical) {
3395                     /* /(?{...})/ */
3396                     sv_setsv(save_scalar(PL_replgv), ret);
3397                     break;
3398                 }
3399             }
3400             if (logical == 2) { /* Postponed subexpression: /(??{...})/ */
3401                 logical = 0;
3402                 {
3403                     /* extract RE object from returned value; compiling if
3404                      * necessary */
3405
3406                     MAGIC *mg = NULL;
3407                     const SV *sv;
3408                     if(SvROK(ret) && SvSMAGICAL(sv = SvRV(ret)))
3409                         mg = mg_find(sv, PERL_MAGIC_qr);
3410                     else if (SvSMAGICAL(ret)) {
3411                         if (SvGMAGICAL(ret))
3412                             sv_unmagic(ret, PERL_MAGIC_qr);
3413                         else
3414                             mg = mg_find(ret, PERL_MAGIC_qr);
3415                     }
3416
3417                     if (mg) {
3418                         re = (regexp *)mg->mg_obj;
3419                         (void)ReREFCNT_inc(re);
3420                     }
3421                     else {
3422                         STRLEN len;
3423                         const char * const t = SvPV_const(ret, len);
3424                         PMOP pm;
3425                         const I32 osize = PL_regsize;
3426
3427                         Zero(&pm, 1, PMOP);
3428                         if (DO_UTF8(ret)) pm.op_pmdynflags |= PMdf_DYN_UTF8;
3429                         re = CALLREGCOMP((char*)t, (char*)t + len, &pm);
3430                         if (!(SvFLAGS(ret)
3431                               & (SVs_TEMP | SVs_PADTMP | SVf_READONLY
3432                                 | SVs_GMG)))
3433                             sv_magic(ret,(SV*)ReREFCNT_inc(re),
3434                                         PERL_MAGIC_qr,0,0);
3435                         PL_regsize = osize;
3436                     }
3437                 }
3438                 DEBUG_EXECUTE_r(
3439                     debug_start_match(re, do_utf8, locinput, PL_regeol, 
3440                         "Matching embedded");
3441                 );              
3442                 startpoint = re->program + 1;
3443                 ST.close_paren = 0; /* only used for RECURSE */
3444                 /* borrowed from regtry */
3445                 if (PL_reg_start_tmpl <= re->nparens) {
3446                     PL_reg_start_tmpl = re->nparens*3/2 + 3;
3447                     if(PL_reg_start_tmp)
3448                         Renew(PL_reg_start_tmp, PL_reg_start_tmpl, char*);
3449                     else
3450                         Newx(PL_reg_start_tmp, PL_reg_start_tmpl, char*);
3451                 }                       
3452
3453         eval_recurse_doit: /* Share code with RECURSE below this line */                                
3454                 /* run the pattern returned from (??{...}) */
3455                 ST.cp = regcppush(0);   /* Save *all* the positions. */
3456                 REGCP_SET(ST.lastcp);
3457                 
3458                 PL_regstartp = re->startp; /* essentially NOOP on RECURSE */
3459                 PL_regendp = re->endp;     /* essentially NOOP on RECURSE */
3460                 
3461                 *PL_reglastparen = 0;
3462                 *PL_reglastcloseparen = 0;
3463                 PL_reginput = locinput;
3464
3465                 /* XXXX This is too dramatic a measure... */
3466                 PL_reg_maxiter = 0;
3467
3468                 ST.toggle_reg_flags = PL_reg_flags;
3469                 if (re->reganch & ROPT_UTF8)
3470                     PL_reg_flags |= RF_utf8;
3471                 else
3472                     PL_reg_flags &= ~RF_utf8;
3473                 ST.toggle_reg_flags ^= PL_reg_flags; /* diff of old and new */
3474
3475                 ST.prev_rex = rex;
3476                 ST.prev_curlyx = cur_curlyx;
3477                 rex = re;
3478                 cur_curlyx = NULL;
3479                 ST.B = next;
3480                 ST.prev_eval = cur_eval;
3481                 cur_eval = st;
3482                 /* now continue from first node in postoned RE */
3483                 PUSH_YES_STATE_GOTO(EVAL_AB, startpoint);
3484                 /* NOTREACHED */
3485             }
3486             /* logical is 1,   /(?(?{...})X|Y)/ */
3487             sw = (bool)SvTRUE(ret);
3488             logical = 0;
3489             break;
3490         }
3491
3492         case EVAL_AB: /* cleanup after a successful (??{A})B */
3493             /* note: this is called twice; first after popping B, then A */
3494             PL_reg_flags ^= ST.toggle_reg_flags; 
3495             ReREFCNT_dec(rex);
3496             rex = ST.prev_rex;
3497             regcpblow(ST.cp);
3498             cur_eval = ST.prev_eval;
3499             cur_curlyx = ST.prev_curlyx;
3500             /* XXXX This is too dramatic a measure... */
3501             PL_reg_maxiter = 0;
3502             sayYES;
3503
3504
3505         case EVAL_AB_fail: /* unsuccessfully ran A or B in (??{A})B */
3506             /* note: this is called twice; first after popping B, then A */
3507             PL_reg_flags ^= ST.toggle_reg_flags; 
3508             ReREFCNT_dec(rex);
3509             rex = ST.prev_rex;
3510             PL_reginput = locinput;
3511             REGCP_UNWIND(ST.lastcp);
3512             regcppop(rex);
3513             cur_eval = ST.prev_eval;
3514             cur_curlyx = ST.prev_curlyx;
3515             /* XXXX This is too dramatic a measure... */
3516             PL_reg_maxiter = 0;
3517             sayNO_SILENT;
3518 #undef ST
3519
3520         case OPEN:
3521             n = ARG(scan);  /* which paren pair */
3522             PL_reg_start_tmp[n] = locinput;
3523             if (n > PL_regsize)
3524                 PL_regsize = n;
3525             break;
3526         case CLOSE:
3527             n = ARG(scan);  /* which paren pair */
3528             PL_regstartp[n] = PL_reg_start_tmp[n] - PL_bostr;
3529             PL_regendp[n] = locinput - PL_bostr;
3530             if (n > (I32)*PL_reglastparen)
3531                 *PL_reglastparen = n;
3532             *PL_reglastcloseparen = n;
3533             if (cur_eval && cur_eval->u.eval.close_paren == (U32)n) {
3534                 goto fake_end;
3535             }    
3536             break;
3537         case GROUPP:
3538             n = ARG(scan);  /* which paren pair */
3539             sw = (bool)((I32)*PL_reglastparen >= n && PL_regendp[n] != -1);
3540             break;
3541         case IFTHEN:
3542             PL_reg_leftiter = PL_reg_maxiter;           /* Void cache */
3543             if (sw)
3544                 next = NEXTOPER(NEXTOPER(scan));
3545             else {
3546                 next = scan + ARG(scan);
3547                 if (OP(next) == IFTHEN) /* Fake one. */
3548                     next = NEXTOPER(NEXTOPER(next));
3549             }
3550             break;
3551         case LOGICAL:
3552             logical = scan->flags;
3553             break;
3554
3555 /*******************************************************************
3556
3557 The CURLYX/WHILEM pair of ops handle the most generic case of the /A*B/
3558 pattern, where A and B are subpatterns. (For simple A, CURLYM or
3559 STAR/PLUS/CURLY/CURLYN are used instead.)
3560
3561 A*B is compiled as <CURLYX><A><WHILEM><B>
3562
3563 On entry to the subpattern, CURLYX is called. This pushes a CURLYX
3564 state, which contains the current count, initialised to -1. It also sets
3565 cur_curlyx to point to this state, with any previous value saved in the
3566 state block.
3567
3568 CURLYX then jumps straight to the WHILEM op, rather than executing A,
3569 since the pattern may possibly match zero times (i.e. it's a while {} loop
3570 rather than a do {} while loop).
3571
3572 Each entry to WHILEM represents a successful match of A. The count in the
3573 CURLYX block is incremented, another WHILEM state is pushed, and execution
3574 passes to A or B depending on greediness and the current count.
3575
3576 For example, if matching against the string a1a2a3b (where the aN are
3577 substrings that match /A/), then the match progresses as follows: (the
3578 pushed states are interspersed with the bits of strings matched so far):
3579
3580     <CURLYX cnt=-1>
3581     <CURLYX cnt=0><WHILEM>
3582     <CURLYX cnt=1><WHILEM> a1 <WHILEM>
3583     <CURLYX cnt=2><WHILEM> a1 <WHILEM> a2 <WHILEM>
3584     <CURLYX cnt=3><WHILEM> a1 <WHILEM> a2 <WHILEM> a3 <WHILEM>
3585     <CURLYX cnt=3><WHILEM> a1 <WHILEM> a2 <WHILEM> a3 <WHILEM> b
3586
3587 (Contrast this with something like CURLYM, which maintains only a single
3588 backtrack state:
3589
3590     <CURLYM cnt=0> a1
3591     a1 <CURLYM cnt=1> a2
3592     a1 a2 <CURLYM cnt=2> a3
3593     a1 a2 a3 <CURLYM cnt=3> b
3594 )
3595
3596 Each WHILEM state block marks a point to backtrack to upon partial failure
3597 of A or B, and also contains some minor state data related to that
3598 iteration.  The CURLYX block, pointed to by cur_curlyx, contains the
3599 overall state, such as the count, and pointers to the A and B ops.
3600
3601 This is complicated slightly by nested CURLYX/WHILEM's. Since cur_curlyx
3602 must always point to the *current* CURLYX block, the rules are:
3603
3604 When executing CURLYX, save the old cur_curlyx in the CURLYX state block,
3605 and set cur_curlyx to point the new block.
3606
3607 When popping the CURLYX block after a successful or unsuccessful match,
3608 restore the previous cur_curlyx.
3609
3610 When WHILEM is about to execute B, save the current cur_curlyx, and set it
3611 to the outer one saved in the CURLYX block.
3612
3613 When popping the WHILEM block after a successful or unsuccessful B match,
3614 restore the previous cur_curlyx.
3615
3616 Here's an example for the pattern (AI* BI)*BO
3617 I and O refer to inner and outer, C and W refer to CURLYX and WHILEM:
3618
3619 cur_
3620 curlyx backtrack stack
3621 ------ ---------------
3622 NULL   
3623 CO     <CO prev=NULL> <WO>
3624 CI     <CO prev=NULL> <WO> <CI prev=CO> <WI> ai 
3625 CO     <CO prev=NULL> <WO> <CI prev=CO> <WI> ai <WI prev=CI> bi 
3626 NULL   <CO prev=NULL> <WO> <CI prev=CO> <WI> ai <WI prev=CI> bi <WO prev=CO> bo
3627
3628 At this point the pattern succeeds, and we work back down the stack to
3629 clean up, restoring as we go:
3630
3631 CO     <CO prev=NULL> <WO> <CI prev=CO> <WI> ai <WI prev=CI> bi 
3632 CI     <CO prev=NULL> <WO> <CI prev=CO> <WI> ai 
3633 CO     <CO prev=NULL> <WO>
3634 NULL   
3635
3636 *******************************************************************/
3637
3638 #define ST st->u.curlyx
3639
3640         case CURLYX:    /* start of /A*B/  (for complex A) */
3641         {
3642             /* No need to save/restore up to this paren */
3643             I32 parenfloor = scan->flags;
3644             
3645             assert(next); /* keep Coverity happy */
3646             if (OP(PREVOPER(next)) == NOTHING) /* LONGJMP */
3647                 next += ARG(next);
3648
3649             /* XXXX Probably it is better to teach regpush to support
3650                parenfloor > PL_regsize... */
3651             if (parenfloor > (I32)*PL_reglastparen)
3652                 parenfloor = *PL_reglastparen; /* Pessimization... */
3653
3654             ST.prev_curlyx= cur_curlyx;
3655             cur_curlyx = st;
3656             ST.cp = PL_savestack_ix;
3657
3658             /* these fields contain the state of the current curly.
3659              * they are accessed by subsequent WHILEMs */
3660             ST.parenfloor = parenfloor;
3661             ST.min = ARG1(scan);
3662             ST.max = ARG2(scan);
3663             ST.A = NEXTOPER(scan) + EXTRA_STEP_2ARGS;
3664             ST.B = next;
3665             ST.minmod = minmod;
3666             minmod = 0;
3667             ST.count = -1;      /* this will be updated by WHILEM */
3668             ST.lastloc = NULL;  /* this will be updated by WHILEM */
3669
3670             PL_reginput = locinput;
3671             PUSH_YES_STATE_GOTO(CURLYX_end, PREVOPER(next));
3672             /* NOTREACHED */
3673         }
3674
3675         case CURLYX_end: /* just finished matching all of A*B */
3676             regcpblow(ST.cp);
3677             cur_curlyx = ST.prev_curlyx;
3678             sayYES;
3679             /* NOTREACHED */
3680
3681         case CURLYX_end_fail: /* just failed to match all of A*B */
3682             regcpblow(ST.cp);
3683             cur_curlyx = ST.prev_curlyx;
3684             sayNO;
3685             /* NOTREACHED */
3686
3687
3688 #undef ST
3689 #define ST st->u.whilem
3690
3691         case WHILEM:     /* just matched an A in /A*B/  (for complex A) */
3692         {
3693             /* see the discussion above about CURLYX/WHILEM */
3694
3695             I32 n;
3696             assert(cur_curlyx); /* keep Coverity happy */
3697             n = ++cur_curlyx->u.curlyx.count; /* how many A's matched */
3698             ST.save_lastloc = cur_curlyx->u.curlyx.lastloc;
3699             ST.cache_offset = 0;
3700             ST.cache_mask = 0;
3701             
3702             PL_reginput = locinput;
3703
3704             DEBUG_EXECUTE_r( PerlIO_printf(Perl_debug_log,
3705                   "%*s  whilem: matched %ld out of %ld..%ld\n",
3706                   REPORT_CODE_OFF+depth*2, "", (long)n,
3707                   (long)cur_curlyx->u.curlyx.min,
3708                   (long)cur_curlyx->u.curlyx.max)
3709             );
3710
3711             /* First just match a string of min A's. */
3712
3713             if (n < cur_curlyx->u.curlyx.min) {
3714                 cur_curlyx->u.curlyx.lastloc = locinput;
3715                 PUSH_STATE_GOTO(WHILEM_A_pre, cur_curlyx->u.curlyx.A);
3716                 /* NOTREACHED */
3717             }
3718
3719             /* If degenerate A matches "", assume A done. */
3720
3721             if (locinput == cur_curlyx->u.curlyx.lastloc) {
3722                 DEBUG_EXECUTE_r( PerlIO_printf(Perl_debug_log,
3723                    "%*s  whilem: empty match detected, trying continuation...\n",
3724                    REPORT_CODE_OFF+depth*2, "")
3725                 );
3726                 goto do_whilem_B_max;
3727             }
3728
3729             /* super-linear cache processing */
3730
3731             if (scan->flags) {
3732
3733                 if (!PL_reg_maxiter) {
3734                     /* start the countdown: Postpone detection until we
3735                      * know the match is not *that* much linear. */
3736                     PL_reg_maxiter = (PL_regeol - PL_bostr + 1) * (scan->flags>>4);
3737                     /* possible overflow for long strings and many CURLYX's */
3738                     if (PL_reg_maxiter < 0)
3739                         PL_reg_maxiter = I32_MAX;
3740                     PL_reg_leftiter = PL_reg_maxiter;
3741                 }
3742
3743                 if (PL_reg_leftiter-- == 0) {
3744                     /* initialise cache */
3745                     const I32 size = (PL_reg_maxiter + 7)/8;
3746                     if (PL_reg_poscache) {
3747                         if ((I32)PL_reg_poscache_size < size) {
3748                             Renew(PL_reg_poscache, size, char);
3749                             PL_reg_poscache_size = size;
3750                         }
3751                         Zero(PL_reg_poscache, size, char);
3752                     }
3753                     else {
3754                         PL_reg_poscache_size = size;
3755                         Newxz(PL_reg_poscache, size, char);
3756                     }
3757                     DEBUG_EXECUTE_r( PerlIO_printf(Perl_debug_log,
3758       "%swhilem: Detected a super-linear match, switching on caching%s...\n",
3759                               PL_colors[4], PL_colors[5])
3760                     );
3761                 }
3762
3763                 if (PL_reg_leftiter < 0) {
3764                     /* have we already failed at this position? */
3765                     I32 offset, mask;
3766                     offset  = (scan->flags & 0xf) - 1
3767                                 + (locinput - PL_bostr)  * (scan->flags>>4);
3768                     mask    = 1 << (offset % 8);
3769                     offset /= 8;
3770                     if (PL_reg_poscache[offset] & mask) {
3771                         DEBUG_EXECUTE_r( PerlIO_printf(Perl_debug_log,
3772                             "%*s  whilem: (cache) already tried at this position...\n",
3773                             REPORT_CODE_OFF+depth*2, "")
3774                         );
3775                         sayNO; /* cache records failure */
3776                     }
3777                     ST.cache_offset = offset;
3778                     ST.cache_mask   = mask;
3779                 }
3780             }
3781
3782             /* Prefer B over A for minimal matching. */
3783
3784             if (cur_curlyx->u.curlyx.minmod) {
3785                 ST.save_curlyx = cur_curlyx;
3786                 cur_curlyx = cur_curlyx->u.curlyx.prev_curlyx;
3787                 ST.cp = regcppush(ST.save_curlyx->u.curlyx.parenfloor);
3788                 REGCP_SET(ST.lastcp);
3789                 PUSH_YES_STATE_GOTO(WHILEM_B_min, ST.save_curlyx->u.curlyx.B);
3790                 /* NOTREACHED */
3791             }
3792
3793             /* Prefer A over B for maximal matching. */
3794
3795             if (n < cur_curlyx->u.curlyx.max) { /* More greed allowed? */
3796                 ST.cp = regcppush(cur_curlyx->u.curlyx.parenfloor);
3797                 cur_curlyx->u.curlyx.lastloc = locinput;
3798                 REGCP_SET(ST.lastcp);
3799                 PUSH_STATE_GOTO(WHILEM_A_max, cur_curlyx->u.curlyx.A);
3800                 /* NOTREACHED */
3801             }
3802             goto do_whilem_B_max;
3803         }
3804         /* NOTREACHED */
3805
3806         case WHILEM_B_min: /* just matched B in a minimal match */
3807         case WHILEM_B_max: /* just matched B in a maximal match */
3808             cur_curlyx = ST.save_curlyx;
3809             sayYES;
3810             /* NOTREACHED */
3811
3812         case WHILEM_B_max_fail: /* just failed to match B in a maximal match */
3813             cur_curlyx = ST.save_curlyx;
3814             cur_curlyx->u.curlyx.lastloc = ST.save_lastloc;
3815             cur_curlyx->u.curlyx.count--;
3816             CACHEsayNO;
3817             /* NOTREACHED */
3818
3819         case WHILEM_A_min_fail: /* just failed to match A in a minimal match */
3820             REGCP_UNWIND(ST.lastcp);
3821             regcppop(rex);
3822             /* FALL THROUGH */
3823         case WHILEM_A_pre_fail: /* just failed to match even minimal A */
3824             cur_curlyx->u.curlyx.lastloc = ST.save_lastloc;
3825             cur_curlyx->u.curlyx.count--;
3826             CACHEsayNO;
3827             /* NOTREACHED */
3828
3829         case WHILEM_A_max_fail: /* just failed to match A in a maximal match */
3830             REGCP_UNWIND(ST.lastcp);
3831             regcppop(rex);      /* Restore some previous $<digit>s? */
3832             PL_reginput = locinput;
3833             DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
3834                 "%*s  whilem: failed, trying continuation...\n",
3835                 REPORT_CODE_OFF+depth*2, "")
3836             );
3837           do_whilem_B_max:
3838             if (cur_curlyx->u.curlyx.count >= REG_INFTY
3839                 && ckWARN(WARN_REGEXP)
3840                 && !(PL_reg_flags & RF_warned))
3841             {
3842                 PL_reg_flags |= RF_warned;
3843                 Perl_warner(aTHX_ packWARN(WARN_REGEXP), "%s limit (%d) exceeded",
3844                      "Complex regular subexpression recursion",
3845                      REG_INFTY - 1);
3846             }
3847
3848             /* now try B */
3849             ST.save_curlyx = cur_curlyx;
3850             cur_curlyx = cur_curlyx->u.curlyx.prev_curlyx;
3851             PUSH_YES_STATE_GOTO(WHILEM_B_max, ST.save_curlyx->u.curlyx.B);
3852             /* NOTREACHED */
3853
3854         case WHILEM_B_min_fail: /* just failed to match B in a minimal match */
3855             cur_curlyx = ST.save_curlyx;
3856             REGCP_UNWIND(ST.lastcp);
3857             regcppop(rex);
3858
3859             if (cur_curlyx->u.curlyx.count >= cur_curlyx->u.curlyx.max) {
3860                 /* Maximum greed exceeded */
3861                 if (cur_curlyx->u.curlyx.count >= REG_INFTY
3862                     && ckWARN(WARN_REGEXP)
3863                     && !(PL_reg_flags & RF_warned))
3864                 {
3865                     PL_reg_flags |= RF_warned;
3866                     Perl_warner(aTHX_ packWARN(WARN_REGEXP),
3867                         "%s limit (%d) exceeded",
3868                         "Complex regular subexpression recursion",
3869                         REG_INFTY - 1);
3870                 }
3871                 cur_curlyx->u.curlyx.count--;
3872                 CACHEsayNO;
3873             }
3874
3875             DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
3876                 "%*s  trying longer...\n", REPORT_CODE_OFF+depth*2, "")
3877             );
3878             /* Try grabbing another A and see if it helps. */
3879             PL_reginput = locinput;
3880             cur_curlyx->u.curlyx.lastloc = locinput;
3881             ST.cp = regcppush(cur_curlyx->u.curlyx.parenfloor);
3882             REGCP_SET(ST.lastcp);
3883             PUSH_STATE_GOTO(WHILEM_A_min, ST.save_curlyx->u.curlyx.A);
3884             /* NOTREACHED */
3885
3886 #undef  ST
3887 #define ST st->u.branch
3888
3889         case BRANCHJ:       /*  /(...|A|...)/ with long next pointer */
3890             next = scan + ARG(scan);
3891             if (next == scan)
3892                 next = NULL;
3893             scan = NEXTOPER(scan);
3894             /* FALL THROUGH */
3895
3896         case BRANCH:        /*  /(...|A|...)/ */
3897             scan = NEXTOPER(scan); /* scan now points to inner node */
3898             if (!next || (OP(next) != BRANCH && OP(next) != BRANCHJ))
3899                 /* last branch; skip state push and jump direct to node */
3900                 continue;
3901             ST.lastparen = *PL_reglastparen;
3902             ST.next_branch = next;
3903             REGCP_SET(ST.cp);
3904             PL_reginput = locinput;
3905
3906             /* Now go into the branch */
3907             PUSH_STATE_GOTO(BRANCH_next, scan);
3908             /* NOTREACHED */
3909
3910         case BRANCH_next_fail: /* that branch failed; try the next, if any */
3911             REGCP_UNWIND(ST.cp);
3912             for (n = *PL_reglastparen; n > ST.lastparen; n--)
3913                 PL_regendp[n] = -1;
3914             *PL_reglastparen = n;
3915             scan = ST.next_branch;
3916             /* no more branches? */
3917             if (!scan || (OP(scan) != BRANCH && OP(scan) != BRANCHJ))
3918                 sayNO;
3919             continue; /* execute next BRANCH[J] op */
3920             /* NOTREACHED */
3921     
3922         case MINMOD:
3923             minmod = 1;
3924             break;
3925
3926 #undef  ST
3927 #define ST st->u.curlym
3928
3929         case CURLYM:    /* /A{m,n}B/ where A is fixed-length */
3930
3931             /* This is an optimisation of CURLYX that enables us to push
3932              * only a single backtracking state, no matter now many matches
3933              * there are in {m,n}. It relies on the pattern being constant
3934              * length, with no parens to influence future backrefs
3935              */
3936
3937             ST.me = scan;
3938             scan = NEXTOPER(scan) + NODE_STEP_REGNODE;
3939
3940             /* if paren positive, emulate an OPEN/CLOSE around A */
3941             if (ST.me->flags) {
3942                 I32 paren = ST.me->flags;
3943                 if (paren > PL_regsize)
3944                     PL_regsize = paren;
3945                 if (paren > (I32)*PL_reglastparen)
3946                     *PL_reglastparen = paren;
3947                 scan += NEXT_OFF(scan); /* Skip former OPEN. */
3948             }
3949             ST.A = scan;
3950             ST.B = next;
3951             ST.alen = 0;
3952             ST.count = 0;
3953             ST.minmod = minmod;
3954             minmod = 0;
3955             ST.c1 = CHRTEST_UNINIT;
3956             REGCP_SET(ST.cp);
3957
3958             if (!(ST.minmod ? ARG1(ST.me) : ARG2(ST.me))) /* min/max */
3959                 goto curlym_do_B;
3960
3961           curlym_do_A: /* execute the A in /A{m,n}B/  */
3962             PL_reginput = locinput;
3963             PUSH_YES_STATE_GOTO(CURLYM_A, ST.A); /* match A */
3964             /* NOTREACHED */
3965
3966         case CURLYM_A: /* we've just matched an A */
3967             locinput = st->locinput;
3968             nextchr = UCHARAT(locinput);
3969
3970             ST.count++;
3971             /* after first match, determine A's length: u.curlym.alen */
3972             if (ST.count == 1) {
3973                 if (PL_reg_match_utf8) {
3974                     char *s = locinput;
3975                     while (s < PL_reginput) {
3976                         ST.alen++;
3977                         s += UTF8SKIP(s);
3978                     }
3979                 }
3980                 else {
3981                     ST.alen = PL_reginput - locinput;
3982                 }
3983                 if (ST.alen == 0)
3984                     ST.count = ST.minmod ? ARG1(ST.me) : ARG2(ST.me);
3985             }
3986             DEBUG_EXECUTE_r(
3987                 PerlIO_printf(Perl_debug_log,
3988                           "%*s  CURLYM now matched %"IVdf" times, len=%"IVdf"...\n",
3989                           (int)(REPORT_CODE_OFF+(depth*2)), "",
3990                           (IV) ST.count, (IV)ST.alen)
3991             );
3992
3993             locinput = PL_reginput;
3994             if (ST.count < (ST.minmod ? ARG1(ST.me) : ARG2(ST.me)))
3995                 goto curlym_do_A; /* try to match another A */
3996             goto curlym_do_B; /* try to match B */
3997
3998         case CURLYM_A_fail: /* just failed to match an A */
3999             REGCP_UNWIND(ST.cp);
4000             if (ST.minmod || ST.count < ARG1(ST.me) /* min*/ )
4001                 sayNO;
4002
4003           curlym_do_B: /* execute the B in /A{m,n}B/  */
4004             PL_reginput = locinput;
4005             if (ST.c1 == CHRTEST_UNINIT) {
4006                 /* calculate c1 and c2 for possible match of 1st char
4007                  * following curly */
4008                 ST.c1 = ST.c2 = CHRTEST_VOID;
4009                 if (HAS_TEXT(ST.B) || JUMPABLE(ST.B)) {
4010                     regnode *text_node = ST.B;
4011                     if (! HAS_TEXT(text_node))
4012                         FIND_NEXT_IMPT(text_node);
4013                     if (HAS_TEXT(text_node)
4014                         && PL_regkind[OP(text_node)] != REF)
4015                     {
4016                         ST.c1 = (U8)*STRING(text_node);
4017                         ST.c2 =
4018                             (OP(text_node) == EXACTF || OP(text_node) == REFF)
4019                             ? PL_fold[ST.c1]
4020                             : (OP(text_node) == EXACTFL || OP(text_node) == REFFL)
4021                                 ? PL_fold_locale[ST.c1]
4022                                 : ST.c1;
4023                     }
4024                 }
4025             }
4026
4027             DEBUG_EXECUTE_r(
4028                 PerlIO_printf(Perl_debug_log,
4029                     "%*s  CURLYM trying tail with matches=%"IVdf"...\n",
4030                     (int)(REPORT_CODE_OFF+(depth*2)),
4031                     "", (IV)ST.count)
4032                 );
4033             if (ST.c1 != CHRTEST_VOID
4034                     && UCHARAT(PL_reginput) != ST.c1
4035                     && UCHARAT(PL_reginput) != ST.c2)
4036             {
4037                 /* simulate B failing */
4038                 state_num = CURLYM_B_fail;
4039                 goto reenter_switch;
4040             }
4041
4042             if (ST.me->flags) {
4043                 /* mark current A as captured */
4044                 I32 paren = ST.me->flags;
4045                 if (ST.count) {
4046                     PL_regstartp[paren]
4047                         = HOPc(PL_reginput, -ST.alen) - PL_bostr;
4048                     PL_regendp[paren] = PL_reginput - PL_bostr;
4049                 }
4050                 else
4051                     PL_regendp[paren] = -1;
4052             }
4053             PUSH_STATE_GOTO(CURLYM_B, ST.B); /* match B */
4054             /* NOTREACHED */
4055
4056         case CURLYM_B_fail: /* just failed to match a B */
4057             REGCP_UNWIND(ST.cp);
4058             if (ST.minmod) {
4059                 if (ST.count == ARG2(ST.me) /* max */)
4060                     sayNO;
4061                 goto curlym_do_A; /* try to match a further A */
4062             }
4063             /* backtrack one A */
4064             if (ST.count == ARG1(ST.me) /* min */)
4065                 sayNO;
4066             ST.count--;
4067             locinput = HOPc(locinput, -ST.alen);
4068             goto curlym_do_B; /* try to match B */
4069
4070 #undef ST
4071 #define ST st->u.curly
4072
4073 #define CURLY_SETPAREN(paren, success) \
4074     if (paren) { \
4075         if (success) { \
4076             PL_regstartp[paren] = HOPc(locinput, -1) - PL_bostr; \
4077             PL_regendp[paren] = locinput - PL_bostr; \
4078         } \
4079         else \
4080             PL_regendp[paren] = -1; \
4081     }
4082
4083         case STAR:              /*  /A*B/ where A is width 1 */
4084             ST.paren = 0;
4085             ST.min = 0;
4086             ST.max = REG_INFTY;
4087             scan = NEXTOPER(scan);
4088             goto repeat;
4089         case PLUS:              /*  /A+B/ where A is width 1 */
4090             ST.paren = 0;
4091             ST.min = 1;
4092             ST.max = REG_INFTY;
4093             scan = NEXTOPER(scan);
4094             goto repeat;
4095         case CURLYN:            /*  /(A){m,n}B/ where A is width 1 */
4096             ST.paren = scan->flags;     /* Which paren to set */
4097             if (ST.paren > PL_regsize)
4098                 PL_regsize = ST.paren;
4099             if (ST.paren > (I32)*PL_reglastparen)
4100                 *PL_reglastparen = ST.paren;
4101             ST.min = ARG1(scan);  /* min to match */
4102             ST.max = ARG2(scan);  /* max to match */
4103             scan = regnext(NEXTOPER(scan) + NODE_STEP_REGNODE);
4104             goto repeat;
4105         case CURLY:             /*  /A{m,n}B/ where A is width 1 */
4106             ST.paren = 0;
4107             ST.min = ARG1(scan);  /* min to match */
4108             ST.max = ARG2(scan);  /* max to match */
4109             scan = NEXTOPER(scan) + NODE_STEP_REGNODE;
4110           repeat:
4111             /*
4112             * Lookahead to avoid useless match attempts
4113             * when we know what character comes next.
4114             *
4115             * Used to only do .*x and .*?x, but now it allows
4116             * for )'s, ('s and (?{ ... })'s to be in the way
4117             * of the quantifier and the EXACT-like node.  -- japhy
4118             */
4119
4120             if (ST.min > ST.max) /* XXX make this a compile-time check? */
4121                 sayNO;
4122             if (HAS_TEXT(next) || JUMPABLE(next)) {
4123                 U8 *s;
4124                 regnode *text_node = next;
4125
4126                 if (! HAS_TEXT(text_node)) 
4127                     FIND_NEXT_IMPT(text_node);
4128
4129                 if (! HAS_TEXT(text_node))
4130                     ST.c1 = ST.c2 = CHRTEST_VOID;
4131                 else {
4132                     if (PL_regkind[OP(text_node)] == REF) {
4133                         ST.c1 = ST.c2 = CHRTEST_VOID;
4134                         goto assume_ok_easy;
4135                     }
4136                     else
4137                         s = (U8*)STRING(text_node);
4138
4139                     if (!UTF) {
4140                         ST.c2 = ST.c1 = *s;
4141                         if (OP(text_node) == EXACTF || OP(text_node) == REFF)
4142                             ST.c2 = PL_fold[ST.c1];
4143                         else if (OP(text_node) == EXACTFL || OP(text_node) == REFFL)
4144                             ST.c2 = PL_fold_locale[ST.c1];
4145                     }
4146                     else { /* UTF */
4147                         if (OP(text_node) == EXACTF || OP(text_node) == REFF) {
4148                              STRLEN ulen1, ulen2;
4149                              U8 tmpbuf1[UTF8_MAXBYTES_CASE+1];
4150                              U8 tmpbuf2[UTF8_MAXBYTES_CASE+1];
4151
4152                              to_utf8_lower((U8*)s, tmpbuf1, &ulen1);
4153                              to_utf8_upper((U8*)s, tmpbuf2, &ulen2);
4154 #ifdef EBCDIC
4155                              ST.c1 = utf8n_to_uvchr(tmpbuf1, UTF8_MAXLEN, 0,
4156                                                     ckWARN(WARN_UTF8) ?
4157                                                     0 : UTF8_ALLOW_ANY);
4158                              ST.c2 = utf8n_to_uvchr(tmpbuf2, UTF8_MAXLEN, 0,
4159                                                     ckWARN(WARN_UTF8) ?
4160                                                     0 : UTF8_ALLOW_ANY);
4161 #else
4162                              ST.c1 = utf8n_to_uvuni(tmpbuf1, UTF8_MAXBYTES, 0,
4163                                                     uniflags);
4164                              ST.c2 = utf8n_to_uvuni(tmpbuf2, UTF8_MAXBYTES, 0,
4165                                                     uniflags);
4166 #endif
4167                         }
4168                         else {
4169                             ST.c2 = ST.c1 = utf8n_to_uvchr(s, UTF8_MAXBYTES, 0,
4170                                                      uniflags);
4171                         }
4172                     }
4173                 }
4174             }
4175             else
4176                 ST.c1 = ST.c2 = CHRTEST_VOID;
4177         assume_ok_easy:
4178
4179             ST.A = scan;
4180             ST.B = next;
4181             PL_reginput = locinput;
4182             if (minmod) {
4183                 minmod = 0;
4184                 if (ST.min && regrepeat(rex, ST.A, ST.min) < ST.min)
4185                     sayNO;
4186                 ST.count = ST.min;
4187                 locinput = PL_reginput;
4188                 REGCP_SET(ST.cp);
4189                 if (ST.c1 == CHRTEST_VOID)
4190                     goto curly_try_B_min;
4191
4192                 ST.oldloc = locinput;
4193
4194                 /* set ST.maxpos to the furthest point along the
4195                  * string that could possibly match */
4196                 if  (ST.max == REG_INFTY) {
4197                     ST.maxpos = PL_regeol - 1;
4198                     if (do_utf8)
4199                         while (UTF8_IS_CONTINUATION(*(U8*)ST.maxpos))
4200                             ST.maxpos--;
4201                 }
4202                 else if (do_utf8) {
4203                     int m = ST.max - ST.min;
4204                     for (ST.maxpos = locinput;
4205                          m >0 && ST.maxpos + UTF8SKIP(ST.maxpos) <= PL_regeol; m--)
4206                         ST.maxpos += UTF8SKIP(ST.maxpos);
4207                 }
4208                 else {
4209                     ST.maxpos = locinput + ST.max - ST.min;
4210                     if (ST.maxpos >= PL_regeol)
4211                         ST.maxpos = PL_regeol - 1;
4212                 }
4213                 goto curly_try_B_min_known;
4214
4215             }
4216             else {
4217                 ST.count = regrepeat(rex, ST.A, ST.max);
4218                 locinput = PL_reginput;
4219                 if (ST.count < ST.min)
4220                     sayNO;
4221                 if ((ST.count > ST.min)
4222                     && (PL_regkind[OP(ST.B)] == EOL) && (OP(ST.B) != MEOL))
4223                 {
4224                     /* A{m,n} must come at the end of the string, there's
4225                      * no point in backing off ... */
4226                     ST.min = ST.count;
4227                     /* ...except that $ and \Z can match before *and* after
4228                        newline at the end.  Consider "\n\n" =~ /\n+\Z\n/.
4229                        We may back off by one in this case. */
4230                     if (UCHARAT(PL_reginput - 1) == '\n' && OP(ST.B) != EOS)
4231                         ST.min--;
4232                 }
4233                 REGCP_SET(ST.cp);
4234                 goto curly_try_B_max;
4235             }
4236             /* NOTREACHED */
4237
4238
4239         case CURLY_B_min_known_fail:
4240             /* failed to find B in a non-greedy match where c1,c2 valid */
4241             if (ST.paren && ST.count)
4242                 PL_regendp[ST.paren] = -1;
4243
4244             PL_reginput = locinput;     /* Could be reset... */
4245             REGCP_UNWIND(ST.cp);
4246             /* Couldn't or didn't -- move forward. */
4247             ST.oldloc = locinput;
4248             if (do_utf8)
4249                 locinput += UTF8SKIP(locinput);
4250             else
4251                 locinput++;
4252             ST.count++;
4253           curly_try_B_min_known:
4254              /* find the next place where 'B' could work, then call B */
4255             {
4256                 int n;
4257                 if (do_utf8) {
4258                     n = (ST.oldloc == locinput) ? 0 : 1;
4259                     if (ST.c1 == ST.c2) {
4260                         STRLEN len;
4261                         /* set n to utf8_distance(oldloc, locinput) */
4262                         while (locinput <= ST.maxpos &&
4263                                utf8n_to_uvchr((U8*)locinput,
4264                                               UTF8_MAXBYTES, &len,
4265                                               uniflags) != (UV)ST.c1) {
4266                             locinput += len;
4267                             n++;
4268                         }
4269                     }
4270                     else {
4271                         /* set n to utf8_distance(oldloc, locinput) */
4272                         while (locinput <= ST.maxpos) {
4273                             STRLEN len;
4274                             const UV c = utf8n_to_uvchr((U8*)locinput,
4275                                                   UTF8_MAXBYTES, &len,
4276                                                   uniflags);
4277                             if (c == (UV)ST.c1 || c == (UV)ST.c2)
4278                                 break;
4279                             locinput += len;
4280                             n++;
4281                         }
4282                     }
4283                 }
4284                 else {
4285                     if (ST.c1 == ST.c2) {
4286                         while (locinput <= ST.maxpos &&
4287                                UCHARAT(locinput) != ST.c1)
4288                             locinput++;
4289                     }
4290                     else {
4291                         while (locinput <= ST.maxpos
4292                                && UCHARAT(locinput) != ST.c1
4293                                && UCHARAT(locinput) != ST.c2)
4294                             locinput++;
4295                     }
4296                     n = locinput - ST.oldloc;
4297                 }
4298                 if (locinput > ST.maxpos)
4299                     sayNO;
4300                 /* PL_reginput == oldloc now */
4301                 if (n) {
4302                     ST.count += n;
4303                     if (regrepeat(rex, ST.A, n) < n)
4304                         sayNO;
4305                 }
4306                 PL_reginput = locinput;
4307                 CURLY_SETPAREN(ST.paren, ST.count);
4308                 PUSH_STATE_GOTO(CURLY_B_min_known, ST.B);
4309             }
4310             /* NOTREACHED */
4311
4312
4313         case CURLY_B_min_fail:
4314             /* failed to find B in a non-greedy match where c1,c2 invalid */
4315             if (ST.paren && ST.count)
4316                 PL_regendp[ST.paren] = -1;
4317
4318             REGCP_UNWIND(ST.cp);
4319             /* failed -- move forward one */
4320             PL_reginput = locinput;
4321             if (regrepeat(rex, ST.A, 1)) {
4322                 ST.count++;
4323                 locinput = PL_reginput;
4324                 if (ST.count <= ST.max || (ST.max == REG_INFTY &&
4325                         ST.count > 0)) /* count overflow ? */
4326                 {
4327                   curly_try_B_min:
4328                     CURLY_SETPAREN(ST.paren, ST.count);
4329                     PUSH_STATE_GOTO(CURLY_B_min, ST.B);
4330                 }
4331             }
4332             sayNO;
4333             /* NOTREACHED */
4334
4335
4336         curly_try_B_max:
4337             /* a successful greedy match: now try to match B */
4338             {
4339                 UV c = 0;
4340                 if (ST.c1 != CHRTEST_VOID)
4341                     c = do_utf8 ? utf8n_to_uvchr((U8*)PL_reginput,
4342                                            UTF8_MAXBYTES, 0, uniflags)
4343                                 : (UV) UCHARAT(PL_reginput);
4344                 /* If it could work, try it. */
4345                 if (ST.c1 == CHRTEST_VOID || c == (UV)ST.c1 || c == (UV)ST.c2) {
4346                     CURLY_SETPAREN(ST.paren, ST.count);
4347                     PUSH_STATE_GOTO(CURLY_B_max, ST.B);
4348                     /* NOTREACHED */
4349                 }
4350             }
4351             /* FALL THROUGH */
4352         case CURLY_B_max_fail:
4353             /* failed to find B in a greedy match */
4354             if (ST.paren && ST.count)
4355                 PL_regendp[ST.paren] = -1;
4356
4357             REGCP_UNWIND(ST.cp);
4358             /*  back up. */
4359             if (--ST.count < ST.min)
4360                 sayNO;
4361             PL_reginput = locinput = HOPc(locinput, -1);
4362             goto curly_try_B_max;
4363
4364 #undef ST
4365
4366
4367         case END:
4368             fake_end:
4369             if (cur_eval) {
4370                 /* we've just finished A in /(??{A})B/; now continue with B */
4371                 I32 tmpix;
4372
4373
4374                 st->u.eval.toggle_reg_flags
4375                             = cur_eval->u.eval.toggle_reg_flags;
4376                 PL_reg_flags ^= st->u.eval.toggle_reg_flags; 
4377
4378                 st->u.eval.prev_rex = rex;              /* inner */
4379                 rex    = cur_eval->u.eval.prev_rex;     /* outer */
4380                 cur_curlyx = cur_eval->u.eval.prev_curlyx;
4381                 ReREFCNT_inc(rex);
4382                 st->u.eval.cp = regcppush(0);   /* Save *all* the positions. */
4383                 REGCP_SET(st->u.eval.lastcp);
4384                 PL_reginput = locinput;
4385
4386                 /* Restore parens of the outer rex without popping the
4387                  * savestack */
4388                 tmpix = PL_savestack_ix;
4389                 PL_savestack_ix = cur_eval->u.eval.lastcp;
4390                 regcppop(rex);
4391                 PL_savestack_ix = tmpix;
4392
4393                 st->u.eval.prev_eval = cur_eval;
4394                 cur_eval = cur_eval->u.eval.prev_eval;
4395                 DEBUG_EXECUTE_r(
4396                     PerlIO_printf(Perl_debug_log, "%*s  EVAL trying tail ... %x\n",
4397                                       REPORT_CODE_OFF+depth*2, "",(int)cur_eval););
4398                 PUSH_YES_STATE_GOTO(EVAL_AB,
4399                         st->u.eval.prev_eval->u.eval.B); /* match B */
4400             }
4401
4402             if (locinput < reginfo->till) {
4403                 DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
4404                                       "%sMatch possible, but length=%ld is smaller than requested=%ld, failing!%s\n",
4405                                       PL_colors[4],
4406                                       (long)(locinput - PL_reg_starttry),
4407                                       (long)(reginfo->till - PL_reg_starttry),
4408                                       PL_colors[5]));
4409                 sayNO_SILENT;           /* Cannot match: too short. */
4410             }
4411             PL_reginput = locinput;     /* put where regtry can find it */
4412             sayYES;                     /* Success! */
4413
4414         case SUCCEED: /* successful SUSPEND/UNLESSM/IFMATCH/CURLYM */
4415             DEBUG_EXECUTE_r(
4416             PerlIO_printf(Perl_debug_log,
4417                 "%*s  %ssubpattern success...%s\n",
4418                 REPORT_CODE_OFF+depth*2, "", PL_colors[4], PL_colors[5]));
4419             PL_reginput = locinput;     /* put where regtry can find it */
4420             sayYES;                     /* Success! */
4421
4422 #undef  ST
4423 #define ST st->u.ifmatch
4424
4425         case SUSPEND:   /* (?>A) */
4426             ST.wanted = 1;
4427             PL_reginput = locinput;
4428             goto do_ifmatch;    
4429
4430         case UNLESSM:   /* -ve lookaround: (?!A), or with flags, (?<!A) */
4431             ST.wanted = 0;
4432             goto ifmatch_trivial_fail_test;
4433
4434         case IFMATCH:   /* +ve lookaround: (?=A), or with flags, (?<=A) */
4435             ST.wanted = 1;
4436           ifmatch_trivial_fail_test:
4437             if (scan->flags) {
4438                 char * const s = HOPBACKc(locinput, scan->flags);
4439                 if (!s) {
4440                     /* trivial fail */
4441                     if (logical) {
4442                         logical = 0;
4443                         sw = 1 - (bool)ST.wanted;
4444                     }
4445                     else if (ST.wanted)
4446                         sayNO;
4447                     next = scan + ARG(scan);
4448                     if (next == scan)
4449                         next = NULL;
4450                     break;
4451                 }
4452                 PL_reginput = s;
4453             }
4454             else
4455                 PL_reginput = locinput;
4456
4457           do_ifmatch:
4458             ST.me = scan;
4459             ST.logical = logical;
4460             /* execute body of (?...A) */
4461             PUSH_YES_STATE_GOTO(IFMATCH_A, NEXTOPER(NEXTOPER(scan)));
4462             /* NOTREACHED */
4463
4464         case IFMATCH_A_fail: /* body of (?...A) failed */
4465             ST.wanted = !ST.wanted;
4466             /* FALL THROUGH */
4467
4468         case IFMATCH_A: /* body of (?...A) succeeded */
4469             if (ST.logical) {
4470                 sw = (bool)ST.wanted;
4471             }
4472             else if (!ST.wanted)
4473                 sayNO;
4474
4475             if (OP(ST.me) == SUSPEND)
4476                 locinput = PL_reginput;
4477             else {
4478                 locinput = PL_reginput = st->locinput;
4479                 nextchr = UCHARAT(locinput);
4480             }
4481             scan = ST.me + ARG(ST.me);
4482             if (scan == ST.me)
4483                 scan = NULL;
4484             continue; /* execute B */
4485
4486 #undef ST
4487
4488         case LONGJMP:
4489             next = scan + ARG(scan);
4490             if (next == scan)
4491                 next = NULL;
4492             break;
4493         default:
4494             PerlIO_printf(Perl_error_log, "%"UVxf" %d\n",
4495                           PTR2UV(scan), OP(scan));
4496             Perl_croak(aTHX_ "regexp memory corruption");
4497         }
4498
4499         scan = next;
4500         continue;
4501         /* NOTREACHED */
4502
4503       push_yes_state:
4504         /* push a state that backtracks on success */
4505         st->u.yes.prev_yes_state = yes_state;
4506         yes_state = st;
4507         /* FALL THROUGH */
4508       push_state:
4509         /* push a new regex state, then continue at scan  */
4510         {
4511             regmatch_state *newst;
4512
4513             DEBUG_STATE_pp("push");
4514             depth++;
4515             st->locinput = locinput;
4516             newst = st+1; 
4517             if (newst >  SLAB_LAST(PL_regmatch_slab))
4518                 newst = S_push_slab(aTHX);
4519             PL_regmatch_state = newst;
4520
4521             locinput = PL_reginput;
4522             nextchr = UCHARAT(locinput);
4523             st = newst;
4524             continue;
4525             /* NOTREACHED */
4526         }
4527     }
4528
4529     /*
4530     * We get here only if there's trouble -- normally "case END" is
4531     * the terminating point.
4532     */
4533     Perl_croak(aTHX_ "corrupted regexp pointers");
4534     /*NOTREACHED*/
4535     sayNO;
4536
4537 yes:
4538     if (yes_state) {
4539         /* we have successfully completed a subexpression, but we must now
4540          * pop to the state marked by yes_state and continue from there */
4541         assert(st != yes_state);
4542 #ifdef DEBUGGING
4543         while (st != yes_state) {
4544             st--;
4545             if (st < SLAB_FIRST(PL_regmatch_slab)) {
4546                 PL_regmatch_slab = PL_regmatch_slab->prev;
4547                 st = SLAB_LAST(PL_regmatch_slab);
4548             }
4549             DEBUG_STATE_pp("pop (yes)");
4550             depth--;
4551         }
4552 #else
4553         while (yes_state < SLAB_FIRST(PL_regmatch_slab)
4554             || yes_state > SLAB_LAST(PL_regmatch_slab))
4555         {
4556             /* not in this slab, pop slab */
4557             depth -= (st - SLAB_FIRST(PL_regmatch_slab) + 1);
4558             PL_regmatch_slab = PL_regmatch_slab->prev;
4559             st = SLAB_LAST(PL_regmatch_slab);
4560         }
4561         depth -= (st - yes_state);
4562 #endif
4563         st = yes_state;
4564         yes_state = st->u.yes.prev_yes_state;
4565         PL_regmatch_state = st;
4566
4567         state_num = st->resume_state;
4568         goto reenter_switch;
4569     }
4570
4571     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "%sMatch successful!%s\n",
4572                           PL_colors[4], PL_colors[5]));
4573
4574     result = 1;
4575     goto final_exit;
4576
4577 no:
4578     DEBUG_EXECUTE_r(
4579         PerlIO_printf(Perl_debug_log,
4580             "%*s  %sfailed...%s\n",
4581             REPORT_CODE_OFF+depth*2, "", 
4582             PL_colors[4], PL_colors[5])
4583         );
4584
4585 no_silent:
4586     if (depth) {
4587         /* there's a previous state to backtrack to */
4588         st--;
4589         if (st < SLAB_FIRST(PL_regmatch_slab)) {
4590             PL_regmatch_slab = PL_regmatch_slab->prev;
4591             st = SLAB_LAST(PL_regmatch_slab);
4592         }
4593         PL_regmatch_state = st;
4594         locinput= st->locinput;
4595         nextchr = UCHARAT(locinput);
4596
4597         DEBUG_STATE_pp("pop");
4598         depth--;
4599         if (yes_state == st)
4600             yes_state = st->u.yes.prev_yes_state;
4601
4602         state_num = st->resume_state + 1; /* failure = success + 1 */
4603         goto reenter_switch;
4604     }
4605     result = 0;
4606
4607   final_exit:
4608
4609     /* restore original high-water mark */
4610     PL_regmatch_slab  = orig_slab;
4611     PL_regmatch_state = orig_state;
4612
4613     /* free all slabs above current one */
4614     if (orig_slab->next) {
4615         regmatch_slab *sl = orig_slab->next;
4616         orig_slab->next = NULL;
4617         while (sl) {
4618             regmatch_slab * const osl = sl;
4619             sl = sl->next;
4620             Safefree(osl);
4621         }
4622     }
4623
4624     return result;
4625 }
4626
4627 /*
4628  - regrepeat - repeatedly match something simple, report how many
4629  */
4630 /*
4631  * [This routine now assumes that it will only match on things of length 1.
4632  * That was true before, but now we assume scan - reginput is the count,
4633  * rather than incrementing count on every character.  [Er, except utf8.]]
4634  */
4635 STATIC I32
4636 S_regrepeat(pTHX_ const regexp *prog, const regnode *p, I32 max)
4637 {
4638     dVAR;
4639     register char *scan;
4640     register I32 c;
4641     register char *loceol = PL_regeol;
4642     register I32 hardcount = 0;
4643     register bool do_utf8 = PL_reg_match_utf8;
4644
4645     scan = PL_reginput;
4646     if (max == REG_INFTY)
4647         max = I32_MAX;
4648     else if (max < loceol - scan)
4649         loceol = scan + max;
4650     switch (OP(p)) {
4651     case REG_ANY:
4652         if (do_utf8) {
4653             loceol = PL_regeol;
4654             while (scan < loceol && hardcount < max && *scan != '\n') {
4655                 scan += UTF8SKIP(scan);
4656                 hardcount++;
4657             }
4658         } else {
4659             while (scan < loceol && *scan != '\n')
4660                 scan++;
4661         }
4662         break;
4663     case SANY:
4664         if (do_utf8) {
4665             loceol = PL_regeol;
4666             while (scan < loceol && hardcount < max) {
4667                 scan += UTF8SKIP(scan);
4668                 hardcount++;
4669             }
4670         }
4671         else
4672             scan = loceol;
4673         break;
4674     case CANY:
4675         scan = loceol;
4676         break;
4677     case EXACT:         /* length of string is 1 */
4678         c = (U8)*STRING(p);
4679         while (scan < loceol && UCHARAT(scan) == c)
4680             scan++;
4681         break;
4682     case EXACTF:        /* length of string is 1 */
4683         c = (U8)*STRING(p);
4684         while (scan < loceol &&
4685                (UCHARAT(scan) == c || UCHARAT(scan) == PL_fold[c]))
4686             scan++;
4687         break;
4688     case EXACTFL:       /* length of string is 1 */
4689         PL_reg_flags |= RF_tainted;
4690         c = (U8)*STRING(p);
4691         while (scan < loceol &&
4692                (UCHARAT(scan) == c || UCHARAT(scan) == PL_fold_locale[c]))
4693             scan++;
4694         break;
4695     case ANYOF:
4696         if (do_utf8) {
4697             loceol = PL_regeol;
4698             while (hardcount < max && scan < loceol &&
4699                    reginclass(prog, p, (U8*)scan, 0, do_utf8)) {
4700                 scan += UTF8SKIP(scan);
4701                 hardcount++;
4702             }
4703         } else {
4704             while (scan < loceol && REGINCLASS(prog, p, (U8*)scan))
4705                 scan++;
4706         }
4707         break;
4708     case ALNUM:
4709         if (do_utf8) {
4710             loceol = PL_regeol;
4711             LOAD_UTF8_CHARCLASS_ALNUM();
4712             while (hardcount < max && scan < loceol &&
4713                    swash_fetch(PL_utf8_alnum, (U8*)scan, do_utf8)) {
4714                 scan += UTF8SKIP(scan);
4715                 hardcount++;
4716             }
4717         } else {
4718             while (scan < loceol && isALNUM(*scan))
4719                 scan++;
4720         }
4721         break;
4722     case ALNUML:
4723         PL_reg_flags |= RF_tainted;
4724         if (do_utf8) {
4725             loceol = PL_regeol;
4726             while (hardcount < max && scan < loceol &&
4727                    isALNUM_LC_utf8((U8*)scan)) {
4728                 scan += UTF8SKIP(scan);
4729                 hardcount++;
4730             }
4731         } else {
4732             while (scan < loceol && isALNUM_LC(*scan))
4733                 scan++;
4734         }
4735         break;
4736     case NALNUM:
4737         if (do_utf8) {
4738             loceol = PL_regeol;
4739             LOAD_UTF8_CHARCLASS_ALNUM();
4740             while (hardcount < max && scan < loceol &&
4741                    !swash_fetch(PL_utf8_alnum, (U8*)scan, do_utf8)) {
4742                 scan += UTF8SKIP(scan);
4743                 hardcount++;
4744             }
4745         } else {
4746             while (scan < loceol && !isALNUM(*scan))
4747                 scan++;
4748         }
4749         break;
4750     case NALNUML:
4751         PL_reg_flags |= RF_tainted;
4752         if (do_utf8) {
4753             loceol = PL_regeol;
4754             while (hardcount < max && scan < loceol &&
4755                    !isALNUM_LC_utf8((U8*)scan)) {
4756                 scan += UTF8SKIP(scan);
4757                 hardcount++;
4758             }
4759         } else {
4760             while (scan < loceol && !isALNUM_LC(*scan))
4761                 scan++;
4762         }
4763         break;
4764     case SPACE:
4765         if (do_utf8) {
4766             loceol = PL_regeol;
4767             LOAD_UTF8_CHARCLASS_SPACE();
4768             while (hardcount < max && scan < loceol &&
4769                    (*scan == ' ' ||
4770                     swash_fetch(PL_utf8_space,(U8*)scan, do_utf8))) {
4771                 scan += UTF8SKIP(scan);
4772                 hardcount++;
4773             }
4774         } else {
4775             while (scan < loceol && isSPACE(*scan))
4776                 scan++;
4777         }
4778         break;
4779     case SPACEL:
4780         PL_reg_flags |= RF_tainted;
4781         if (do_utf8) {
4782             loceol = PL_regeol;
4783             while (hardcount < max && scan < loceol &&
4784                    (*scan == ' ' || isSPACE_LC_utf8((U8*)scan))) {
4785                 scan += UTF8SKIP(scan);
4786                 hardcount++;
4787             }
4788         } else {
4789             while (scan < loceol && isSPACE_LC(*scan))
4790                 scan++;
4791         }
4792         break;
4793     case NSPACE:
4794         if (do_utf8) {
4795             loceol = PL_regeol;
4796             LOAD_UTF8_CHARCLASS_SPACE();
4797             while (hardcount < max && scan < loceol &&
4798                    !(*scan == ' ' ||
4799                      swash_fetch(PL_utf8_space,(U8*)scan, do_utf8))) {
4800                 scan += UTF8SKIP(scan);
4801                 hardcount++;
4802             }
4803         } else {
4804             while (scan < loceol && !isSPACE(*scan))
4805                 scan++;
4806             break;
4807         }
4808     case NSPACEL:
4809         PL_reg_flags |= RF_tainted;
4810         if (do_utf8) {
4811             loceol = PL_regeol;
4812             while (hardcount < max && scan < loceol &&
4813                    !(*scan == ' ' || isSPACE_LC_utf8((U8*)scan))) {
4814                 scan += UTF8SKIP(scan);
4815                 hardcount++;
4816             }
4817         } else {
4818             while (scan < loceol && !isSPACE_LC(*scan))
4819                 scan++;
4820         }
4821         break;
4822     case DIGIT:
4823         if (do_utf8) {
4824             loceol = PL_regeol;
4825             LOAD_UTF8_CHARCLASS_DIGIT();
4826             while (hardcount < max && scan < loceol &&
4827                    swash_fetch(PL_utf8_digit, (U8*)scan, do_utf8)) {
4828                 scan += UTF8SKIP(scan);
4829                 hardcount++;
4830             }
4831         } else {
4832             while (scan < loceol && isDIGIT(*scan))
4833                 scan++;
4834         }
4835         break;
4836     case NDIGIT:
4837         if (do_utf8) {
4838             loceol = PL_regeol;
4839             LOAD_UTF8_CHARCLASS_DIGIT();
4840             while (hardcount < max && scan < loceol &&
4841                    !swash_fetch(PL_utf8_digit, (U8*)scan, do_utf8)) {
4842                 scan += UTF8SKIP(scan);
4843                 hardcount++;
4844             }
4845         } else {
4846             while (scan < loceol && !isDIGIT(*scan))
4847                 scan++;
4848         }
4849         break;
4850     default:            /* Called on something of 0 width. */
4851         break;          /* So match right here or not at all. */
4852     }
4853
4854     if (hardcount)
4855         c = hardcount;
4856     else
4857         c = scan - PL_reginput;
4858     PL_reginput = scan;
4859
4860     DEBUG_r({
4861         GET_RE_DEBUG_FLAGS_DECL;
4862         DEBUG_EXECUTE_r({
4863             SV * const prop = sv_newmortal();
4864             regprop(prog, prop, p);
4865             PerlIO_printf(Perl_debug_log,
4866                         "%*s  %s can match %"IVdf" times out of %"IVdf"...\n",
4867                         REPORT_CODE_OFF+1, "", SvPVX_const(prop),(IV)c,(IV)max);
4868         });
4869     });
4870
4871     return(c);
4872 }
4873
4874
4875 #if !defined(PERL_IN_XSUB_RE) || defined(PLUGGABLE_RE_EXTENSION)
4876 /*
4877 - regclass_swash - prepare the utf8 swash
4878 */
4879
4880 SV *
4881 Perl_regclass_swash(pTHX_ const regexp *prog, register const regnode* node, bool doinit, SV** listsvp, SV **altsvp)
4882 {
4883     dVAR;
4884     SV *sw  = NULL;
4885     SV *si  = NULL;
4886     SV *alt = NULL;
4887     const struct reg_data * const data = prog ? prog->data : NULL;
4888
4889     if (data && data->count) {
4890         const U32 n = ARG(node);
4891
4892         if (data->what[n] == 's') {
4893             SV * const rv = (SV*)data->data[n];
4894             AV * const av = (AV*)SvRV((SV*)rv);
4895             SV **const ary = AvARRAY(av);
4896             SV **a, **b;
4897         
4898             /* See the end of regcomp.c:S_regclass() for
4899              * documentation of these array elements. */
4900
4901             si = *ary;
4902             a  = SvROK(ary[1]) ? &ary[1] : 0;
4903             b  = SvTYPE(ary[2]) == SVt_PVAV ? &ary[2] : 0;
4904
4905             if (a)
4906                 sw = *a;
4907             else if (si && doinit) {
4908                 sw = swash_init("utf8", "", si, 1, 0);
4909                 (void)av_store(av, 1, sw);
4910             }
4911             if (b)
4912                 alt = *b;
4913         }
4914     }
4915         
4916     if (listsvp)
4917         *listsvp = si;
4918     if (altsvp)
4919         *altsvp  = alt;
4920
4921     return sw;
4922 }
4923 #endif
4924
4925 /*
4926  - reginclass - determine if a character falls into a character class
4927  
4928   The n is the ANYOF regnode, the p is the target string, lenp
4929   is pointer to the maximum length of how far to go in the p
4930   (if the lenp is zero, UTF8SKIP(p) is used),
4931   do_utf8 tells whether the target string is in UTF-8.
4932
4933  */
4934
4935 STATIC bool
4936 S_reginclass(pTHX_ const regexp *prog, register const regnode *n, register const U8* p, STRLEN* lenp, register bool do_utf8)
4937 {
4938     dVAR;
4939     const char flags = ANYOF_FLAGS(n);
4940     bool match = FALSE;
4941     UV c = *p;
4942     STRLEN len = 0;
4943     STRLEN plen;
4944
4945     if (do_utf8 && !UTF8_IS_INVARIANT(c)) {
4946         c = utf8n_to_uvchr(p, UTF8_MAXBYTES, &len,
4947                 (UTF8_ALLOW_DEFAULT & UTF8_ALLOW_ANYUV) | UTF8_CHECK_ONLY);
4948                 /* see [perl #37836] for UTF8_ALLOW_ANYUV */
4949         if (len == (STRLEN)-1) 
4950             Perl_croak(aTHX_ "Malformed UTF-8 character (fatal)");
4951     }
4952
4953     plen = lenp ? *lenp : UNISKIP(NATIVE_TO_UNI(c));
4954     if (do_utf8 || (flags & ANYOF_UNICODE)) {
4955         if (lenp)
4956             *lenp = 0;
4957         if (do_utf8 && !ANYOF_RUNTIME(n)) {
4958             if (len != (STRLEN)-1 && c < 256 && ANYOF_BITMAP_TEST(n, c))
4959                 match = TRUE;
4960         }
4961         if (!match && do_utf8 && (flags & ANYOF_UNICODE_ALL) && c >= 256)
4962             match = TRUE;
4963         if (!match) {
4964             AV *av;
4965             SV * const sw = regclass_swash(prog, n, TRUE, 0, (SV**)&av);
4966         
4967             if (sw) {
4968                 if (swash_fetch(sw, p, do_utf8))
4969                     match = TRUE;
4970                 else if (flags & ANYOF_FOLD) {
4971                     if (!match && lenp && av) {
4972                         I32 i;
4973                         for (i = 0; i <= av_len(av); i++) {
4974                             SV* const sv = *av_fetch(av, i, FALSE);
4975                             STRLEN len;
4976                             const char * const s = SvPV_const(sv, len);
4977                         
4978                             if (len <= plen && memEQ(s, (char*)p, len)) {
4979                                 *lenp = len;
4980                                 match = TRUE;
4981                                 break;
4982                             }
4983                         }
4984                     }
4985                     if (!match) {
4986                         U8 tmpbuf[UTF8_MAXBYTES_CASE+1];
4987                         STRLEN tmplen;
4988
4989                         to_utf8_fold(p, tmpbuf, &tmplen);
4990                         if (swash_fetch(sw, tmpbuf, do_utf8))
4991                             match = TRUE;
4992                     }
4993                 }
4994             }
4995         }
4996         if (match && lenp && *lenp == 0)
4997             *lenp = UNISKIP(NATIVE_TO_UNI(c));
4998     }
4999     if (!match && c < 256) {
5000         if (ANYOF_BITMAP_TEST(n, c))
5001             match = TRUE;
5002         else if (flags & ANYOF_FOLD) {
5003             U8 f;
5004
5005             if (flags & ANYOF_LOCALE) {
5006                 PL_reg_flags |= RF_tainted;
5007                 f = PL_fold_locale[c];
5008             }
5009             else
5010                 f = PL_fold[c];
5011             if (f != c && ANYOF_BITMAP_TEST(n, f))
5012                 match = TRUE;
5013         }
5014         
5015         if (!match && (flags & ANYOF_CLASS)) {
5016             PL_reg_flags |= RF_tainted;
5017             if (
5018                 (ANYOF_CLASS_TEST(n, ANYOF_ALNUM)   &&  isALNUM_LC(c))  ||
5019                 (ANYOF_CLASS_TEST(n, ANYOF_NALNUM)  && !isALNUM_LC(c))  ||
5020                 (ANYOF_CLASS_TEST(n, ANYOF_SPACE)   &&  isSPACE_LC(c))  ||
5021                 (ANYOF_CLASS_TEST(n, ANYOF_NSPACE)  && !isSPACE_LC(c))  ||
5022                 (ANYOF_CLASS_TEST(n, ANYOF_DIGIT)   &&  isDIGIT_LC(c))  ||
5023                 (ANYOF_CLASS_TEST(n, ANYOF_NDIGIT)  && !isDIGIT_LC(c))  ||
5024                 (ANYOF_CLASS_TEST(n, ANYOF_ALNUMC)  &&  isALNUMC_LC(c)) ||
5025                 (ANYOF_CLASS_TEST(n, ANYOF_NALNUMC) && !isALNUMC_LC(c)) ||
5026                 (ANYOF_CLASS_TEST(n, ANYOF_ALPHA)   &&  isALPHA_LC(c))  ||
5027                 (ANYOF_CLASS_TEST(n, ANYOF_NALPHA)  && !isALPHA_LC(c))  ||
5028                 (ANYOF_CLASS_TEST(n, ANYOF_ASCII)   &&  isASCII(c))     ||
5029                 (ANYOF_CLASS_TEST(n, ANYOF_NASCII)  && !isASCII(c))     ||
5030                 (ANYOF_CLASS_TEST(n, ANYOF_CNTRL)   &&  isCNTRL_LC(c))  ||
5031                 (ANYOF_CLASS_TEST(n, ANYOF_NCNTRL)  && !isCNTRL_LC(c))  ||
5032                 (ANYOF_CLASS_TEST(n, ANYOF_GRAPH)   &&  isGRAPH_LC(c))  ||
5033                 (ANYOF_CLASS_TEST(n, ANYOF_NGRAPH)  && !isGRAPH_LC(c))  ||
5034                 (ANYOF_CLASS_TEST(n, ANYOF_LOWER)   &&  isLOWER_LC(c))  ||
5035                 (ANYOF_CLASS_TEST(n, ANYOF_NLOWER)  && !isLOWER_LC(c))  ||
5036                 (ANYOF_CLASS_TEST(n, ANYOF_PRINT)   &&  isPRINT_LC(c))  ||
5037                 (ANYOF_CLASS_TEST(n, ANYOF_NPRINT)  && !isPRINT_LC(c))  ||
5038                 (ANYOF_CLASS_TEST(n, ANYOF_PUNCT)   &&  isPUNCT_LC(c))  ||
5039                 (ANYOF_CLASS_TEST(n, ANYOF_NPUNCT)  && !isPUNCT_LC(c))  ||
5040                 (ANYOF_CLASS_TEST(n, ANYOF_UPPER)   &&  isUPPER_LC(c))  ||
5041                 (ANYOF_CLASS_TEST(n, ANYOF_NUPPER)  && !isUPPER_LC(c))  ||
5042                 (ANYOF_CLASS_TEST(n, ANYOF_XDIGIT)  &&  isXDIGIT(c))    ||
5043                 (ANYOF_CLASS_TEST(n, ANYOF_NXDIGIT) && !isXDIGIT(c))    ||
5044                 (ANYOF_CLASS_TEST(n, ANYOF_PSXSPC)  &&  isPSXSPC(c))    ||
5045                 (ANYOF_CLASS_TEST(n, ANYOF_NPSXSPC) && !isPSXSPC(c))    ||
5046                 (ANYOF_CLASS_TEST(n, ANYOF_BLANK)   &&  isBLANK(c))     ||
5047                 (ANYOF_CLASS_TEST(n, ANYOF_NBLANK)  && !isBLANK(c))
5048                 ) /* How's that for a conditional? */
5049             {
5050                 match = TRUE;
5051             }
5052         }
5053     }
5054
5055     return (flags & ANYOF_INVERT) ? !match : match;
5056 }
5057
5058 STATIC U8 *
5059 S_reghop3(U8 *s, I32 off, const U8* lim)
5060 {
5061     dVAR;
5062     if (off >= 0) {
5063         while (off-- && s < lim) {
5064             /* XXX could check well-formedness here */
5065             s += UTF8SKIP(s);
5066         }
5067     }
5068     else {
5069         while (off++ && s > lim) {
5070             s--;
5071             if (UTF8_IS_CONTINUED(*s)) {
5072                 while (s > lim && UTF8_IS_CONTINUATION(*s))
5073                     s--;
5074             }
5075             /* XXX could check well-formedness here */
5076         }
5077     }
5078     return s;
5079 }
5080
5081 #ifdef XXX_dmq
5082 /* there are a bunch of places where we use two reghop3's that should
5083    be replaced with this routine. but since thats not done yet 
5084    we ifdef it out - dmq
5085 */
5086 STATIC U8 *
5087 S_reghop4(U8 *s, I32 off, const U8* llim, const U8* rlim)
5088 {
5089     dVAR;
5090     if (off >= 0) {
5091         while (off-- && s < rlim) {
5092             /* XXX could check well-formedness here */
5093             s += UTF8SKIP(s);
5094         }
5095     }
5096     else {
5097         while (off++ && s > llim) {
5098             s--;
5099             if (UTF8_IS_CONTINUED(*s)) {
5100                 while (s > llim && UTF8_IS_CONTINUATION(*s))
5101                     s--;
5102             }
5103             /* XXX could check well-formedness here */
5104         }
5105     }
5106     return s;
5107 }
5108 #endif
5109
5110 STATIC U8 *
5111 S_reghopmaybe3(U8* s, I32 off, const U8* lim)
5112 {
5113     dVAR;
5114     if (off >= 0) {
5115         while (off-- && s < lim) {
5116             /* XXX could check well-formedness here */
5117             s += UTF8SKIP(s);
5118         }
5119         if (off >= 0)
5120             return NULL;
5121     }
5122     else {
5123         while (off++ && s > lim) {
5124             s--;
5125             if (UTF8_IS_CONTINUED(*s)) {
5126                 while (s > lim && UTF8_IS_CONTINUATION(*s))
5127                     s--;
5128             }
5129             /* XXX could check well-formedness here */
5130         }
5131         if (off <= 0)
5132             return NULL;
5133     }
5134     return s;
5135 }
5136
5137 static void
5138 restore_pos(pTHX_ void *arg)
5139 {
5140     dVAR;
5141     regexp * const rex = (regexp *)arg;
5142     if (PL_reg_eval_set) {
5143         if (PL_reg_oldsaved) {
5144             rex->subbeg = PL_reg_oldsaved;
5145             rex->sublen = PL_reg_oldsavedlen;
5146 #ifdef PERL_OLD_COPY_ON_WRITE
5147             rex->saved_copy = PL_nrs;
5148 #endif
5149             RX_MATCH_COPIED_on(rex);
5150         }
5151         PL_reg_magic->mg_len = PL_reg_oldpos;
5152         PL_reg_eval_set = 0;
5153         PL_curpm = PL_reg_oldcurpm;
5154     }   
5155 }
5156
5157 STATIC void
5158 S_to_utf8_substr(pTHX_ register regexp *prog)
5159 {
5160     if (prog->float_substr && !prog->float_utf8) {
5161         SV* const sv = newSVsv(prog->float_substr);
5162         prog->float_utf8 = sv;
5163         sv_utf8_upgrade(sv);
5164         if (SvTAIL(prog->float_substr))
5165             SvTAIL_on(sv);
5166         if (prog->float_substr == prog->check_substr)
5167             prog->check_utf8 = sv;
5168     }
5169     if (prog->anchored_substr && !prog->anchored_utf8) {
5170         SV* const sv = newSVsv(prog->anchored_substr);
5171         prog->anchored_utf8 = sv;
5172         sv_utf8_upgrade(sv);
5173         if (SvTAIL(prog->anchored_substr))
5174             SvTAIL_on(sv);
5175         if (prog->anchored_substr == prog->check_substr)
5176             prog->check_utf8 = sv;
5177     }
5178 }
5179
5180 STATIC void
5181 S_to_byte_substr(pTHX_ register regexp *prog)
5182 {
5183     dVAR;
5184     if (prog->float_utf8 && !prog->float_substr) {
5185         SV* sv = newSVsv(prog->float_utf8);
5186         prog->float_substr = sv;
5187         if (sv_utf8_downgrade(sv, TRUE)) {
5188             if (SvTAIL(prog->float_utf8))
5189                 SvTAIL_on(sv);
5190         } else {
5191             SvREFCNT_dec(sv);
5192             prog->float_substr = sv = &PL_sv_undef;
5193         }
5194         if (prog->float_utf8 == prog->check_utf8)
5195             prog->check_substr = sv;
5196     }
5197     if (prog->anchored_utf8 && !prog->anchored_substr) {
5198         SV* sv = newSVsv(prog->anchored_utf8);
5199         prog->anchored_substr = sv;
5200         if (sv_utf8_downgrade(sv, TRUE)) {
5201             if (SvTAIL(prog->anchored_utf8))
5202                 SvTAIL_on(sv);
5203         } else {
5204             SvREFCNT_dec(sv);
5205             prog->anchored_substr = sv = &PL_sv_undef;
5206         }
5207         if (prog->anchored_utf8 == prog->check_utf8)
5208             prog->check_substr = sv;
5209     }
5210 }
5211
5212 /*
5213  * Local variables:
5214  * c-indentation-style: bsd
5215  * c-basic-offset: 4
5216  * indent-tabs-mode: t
5217  * End:
5218  *
5219  * ex: set ts=8 sts=4 sw=4 noet:
5220  */