fix $^R scoping bug.
[p5sagit/p5-mst-13.2.git] / regexec.c
1 /*    regexec.c
2  */
3
4 /*
5  * "One Ring to rule them all, One Ring to find them..."
6  */
7
8 /* This file contains functions for executing a regular expression.  See
9  * also regcomp.c which funnily enough, contains functions for compiling
10  * a regular expression.
11  *
12  * This file is also copied at build time to ext/re/re_exec.c, where
13  * it's built with -DPERL_EXT_RE_BUILD -DPERL_EXT_RE_DEBUG -DPERL_EXT.
14  * This causes the main functions to be compiled under new names and with
15  * debugging support added, which makes "use re 'debug'" work.
16  */
17
18 /* NOTE: this is derived from Henry Spencer's regexp code, and should not
19  * confused with the original package (see point 3 below).  Thanks, Henry!
20  */
21
22 /* Additional note: this code is very heavily munged from Henry's version
23  * in places.  In some spots I've traded clarity for efficiency, so don't
24  * blame Henry for some of the lack of readability.
25  */
26
27 /* The names of the functions have been changed from regcomp and
28  * regexec to  pregcomp and pregexec in order to avoid conflicts
29  * with the POSIX routines of the same names.
30 */
31
32 #ifdef PERL_EXT_RE_BUILD
33 #include "re_top.h"
34 #endif
35
36 /*
37  * pregcomp and pregexec -- regsub and regerror are not used in perl
38  *
39  *      Copyright (c) 1986 by University of Toronto.
40  *      Written by Henry Spencer.  Not derived from licensed software.
41  *
42  *      Permission is granted to anyone to use this software for any
43  *      purpose on any computer system, and to redistribute it freely,
44  *      subject to the following restrictions:
45  *
46  *      1. The author is not responsible for the consequences of use of
47  *              this software, no matter how awful, even if they arise
48  *              from defects in it.
49  *
50  *      2. The origin of this software must not be misrepresented, either
51  *              by explicit claim or by omission.
52  *
53  *      3. Altered versions must be plainly marked as such, and must not
54  *              be misrepresented as being the original software.
55  *
56  ****    Alterations to Henry's code are...
57  ****
58  ****    Copyright (C) 1991, 1992, 1993, 1994, 1995, 1996, 1997, 1998, 1999,
59  ****    2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007 by Larry Wall and others
60  ****
61  ****    You may distribute under the terms of either the GNU General Public
62  ****    License or the Artistic License, as specified in the README file.
63  *
64  * Beware that some of this code is subtly aware of the way operator
65  * precedence is structured in regular expressions.  Serious changes in
66  * regular-expression syntax might require a total rethink.
67  */
68 #include "EXTERN.h"
69 #define PERL_IN_REGEXEC_C
70 #include "perl.h"
71
72 #ifdef PERL_IN_XSUB_RE
73 #  include "re_comp.h"
74 #else
75 #  include "regcomp.h"
76 #endif
77
78 #define RF_tainted      1               /* tainted information used? */
79 #define RF_warned       2               /* warned about big count? */
80
81 #define RF_utf8         8               /* Pattern contains multibyte chars? */
82
83 #define UTF ((PL_reg_flags & RF_utf8) != 0)
84
85 #define RS_init         1               /* eval environment created */
86 #define RS_set          2               /* replsv value is set */
87
88 #ifndef STATIC
89 #define STATIC  static
90 #endif
91
92 #define REGINCLASS(prog,p,c)  (ANYOF_FLAGS(p) ? reginclass(prog,p,c,0,0) : ANYOF_BITMAP_TEST(p,*(c)))
93
94 /*
95  * Forwards.
96  */
97
98 #define CHR_SVLEN(sv) (do_utf8 ? sv_len_utf8(sv) : SvCUR(sv))
99 #define CHR_DIST(a,b) (PL_reg_match_utf8 ? utf8_distance(a,b) : a - b)
100
101 #define HOPc(pos,off) \
102         (char *)(PL_reg_match_utf8 \
103             ? reghop3((U8*)pos, off, (U8*)(off >= 0 ? PL_regeol : PL_bostr)) \
104             : (U8*)(pos + off))
105 #define HOPBACKc(pos, off) \
106         (char*)(PL_reg_match_utf8\
107             ? reghopmaybe3((U8*)pos, -off, (U8*)PL_bostr) \
108             : (pos - off >= PL_bostr)           \
109                 ? (U8*)pos - off                \
110                 : NULL)
111
112 #define HOP3(pos,off,lim) (PL_reg_match_utf8 ? reghop3((U8*)(pos), off, (U8*)(lim)) : (U8*)(pos + off))
113 #define HOP3c(pos,off,lim) ((char*)HOP3(pos,off,lim))
114
115 #define LOAD_UTF8_CHARCLASS(class,str) STMT_START { \
116     if (!CAT2(PL_utf8_,class)) { bool ok; ENTER; save_re_context(); ok=CAT2(is_utf8_,class)((const U8*)str); assert(ok); LEAVE; } } STMT_END
117 #define LOAD_UTF8_CHARCLASS_ALNUM() LOAD_UTF8_CHARCLASS(alnum,"a")
118 #define LOAD_UTF8_CHARCLASS_DIGIT() LOAD_UTF8_CHARCLASS(digit,"0")
119 #define LOAD_UTF8_CHARCLASS_SPACE() LOAD_UTF8_CHARCLASS(space," ")
120 #define LOAD_UTF8_CHARCLASS_MARK()  LOAD_UTF8_CHARCLASS(mark, "\xcd\x86")
121
122 /* TODO: Combine JUMPABLE and HAS_TEXT to cache OP(rn) */
123
124 /* for use after a quantifier and before an EXACT-like node -- japhy */
125 /* it would be nice to rework regcomp.sym to generate this stuff. sigh */
126 #define JUMPABLE(rn) (      \
127     OP(rn) == OPEN ||       \
128     (OP(rn) == CLOSE && (!cur_eval || cur_eval->u.eval.close_paren != ARG(rn))) || \
129     OP(rn) == EVAL ||   \
130     OP(rn) == SUSPEND || OP(rn) == IFMATCH || \
131     OP(rn) == PLUS || OP(rn) == MINMOD || \
132     OP(rn) == KEEPS || (PL_regkind[OP(rn)] == VERB) || \
133     (PL_regkind[OP(rn)] == CURLY && ARG1(rn) > 0) \
134 )
135 #define IS_EXACT(rn) (PL_regkind[OP(rn)] == EXACT)
136
137 #define HAS_TEXT(rn) ( IS_EXACT(rn) || PL_regkind[OP(rn)] == REF )
138
139 #if 0 
140 /* Currently these are only used when PL_regkind[OP(rn)] == EXACT so
141    we don't need this definition. */
142 #define IS_TEXT(rn)   ( OP(rn)==EXACT   || OP(rn)==REF   || OP(rn)==NREF   )
143 #define IS_TEXTF(rn)  ( OP(rn)==EXACTF  || OP(rn)==REFF  || OP(rn)==NREFF  )
144 #define IS_TEXTFL(rn) ( OP(rn)==EXACTFL || OP(rn)==REFFL || OP(rn)==NREFFL )
145
146 #else
147 /* ... so we use this as its faster. */
148 #define IS_TEXT(rn)   ( OP(rn)==EXACT   )
149 #define IS_TEXTF(rn)  ( OP(rn)==EXACTF  )
150 #define IS_TEXTFL(rn) ( OP(rn)==EXACTFL )
151
152 #endif
153
154 /*
155   Search for mandatory following text node; for lookahead, the text must
156   follow but for lookbehind (rn->flags != 0) we skip to the next step.
157 */
158 #define FIND_NEXT_IMPT(rn) STMT_START { \
159     while (JUMPABLE(rn)) { \
160         const OPCODE type = OP(rn); \
161         if (type == SUSPEND || PL_regkind[type] == CURLY) \
162             rn = NEXTOPER(NEXTOPER(rn)); \
163         else if (type == PLUS) \
164             rn = NEXTOPER(rn); \
165         else if (type == IFMATCH) \
166             rn = (rn->flags == 0) ? NEXTOPER(NEXTOPER(rn)) : rn + ARG(rn); \
167         else rn += NEXT_OFF(rn); \
168     } \
169 } STMT_END 
170
171
172 static void restore_pos(pTHX_ void *arg);
173
174 STATIC CHECKPOINT
175 S_regcppush(pTHX_ I32 parenfloor)
176 {
177     dVAR;
178     const int retval = PL_savestack_ix;
179 #define REGCP_PAREN_ELEMS 4
180     const int paren_elems_to_push = (PL_regsize - parenfloor) * REGCP_PAREN_ELEMS;
181     int p;
182     GET_RE_DEBUG_FLAGS_DECL;
183
184     if (paren_elems_to_push < 0)
185         Perl_croak(aTHX_ "panic: paren_elems_to_push < 0");
186
187 #define REGCP_OTHER_ELEMS 7
188     SSGROW(paren_elems_to_push + REGCP_OTHER_ELEMS);
189     
190     for (p = PL_regsize; p > parenfloor; p--) {
191 /* REGCP_PARENS_ELEMS are pushed per pairs of parentheses. */
192         SSPUSHINT(PL_regoffs[p].end);
193         SSPUSHINT(PL_regoffs[p].start);
194         SSPUSHPTR(PL_reg_start_tmp[p]);
195         SSPUSHINT(p);
196         DEBUG_BUFFERS_r(PerlIO_printf(Perl_debug_log,
197           "     saving \\%"UVuf" %"IVdf"(%"IVdf")..%"IVdf"\n",
198                       (UV)p, (IV)PL_regoffs[p].start,
199                       (IV)(PL_reg_start_tmp[p] - PL_bostr),
200                       (IV)PL_regoffs[p].end
201         ));
202     }
203 /* REGCP_OTHER_ELEMS are pushed in any case, parentheses or no. */
204     SSPUSHPTR(PL_regoffs);
205     SSPUSHINT(PL_regsize);
206     SSPUSHINT(*PL_reglastparen);
207     SSPUSHINT(*PL_reglastcloseparen);
208     SSPUSHPTR(PL_reginput);
209 #define REGCP_FRAME_ELEMS 2
210 /* REGCP_FRAME_ELEMS are part of the REGCP_OTHER_ELEMS and
211  * are needed for the regexp context stack bookkeeping. */
212     SSPUSHINT(paren_elems_to_push + REGCP_OTHER_ELEMS - REGCP_FRAME_ELEMS);
213     SSPUSHINT(SAVEt_REGCONTEXT); /* Magic cookie. */
214
215     return retval;
216 }
217
218 /* These are needed since we do not localize EVAL nodes: */
219 #define REGCP_SET(cp)                                           \
220     DEBUG_STATE_r(                                              \
221             PerlIO_printf(Perl_debug_log,                       \
222                 "  Setting an EVAL scope, savestack=%"IVdf"\n", \
223                 (IV)PL_savestack_ix));                          \
224     cp = PL_savestack_ix
225
226 #define REGCP_UNWIND(cp)                                        \
227     DEBUG_STATE_r(                                              \
228         if (cp != PL_savestack_ix)                              \
229             PerlIO_printf(Perl_debug_log,                       \
230                 "  Clearing an EVAL scope, savestack=%"IVdf"..%"IVdf"\n", \
231                 (IV)(cp), (IV)PL_savestack_ix));                \
232     regcpblow(cp)
233
234 STATIC char *
235 S_regcppop(pTHX_ const regexp *rex)
236 {
237     dVAR;
238     U32 i;
239     char *input;
240
241     GET_RE_DEBUG_FLAGS_DECL;
242
243     /* Pop REGCP_OTHER_ELEMS before the parentheses loop starts. */
244     i = SSPOPINT;
245     assert(i == SAVEt_REGCONTEXT); /* Check that the magic cookie is there. */
246     i = SSPOPINT; /* Parentheses elements to pop. */
247     input = (char *) SSPOPPTR;
248     *PL_reglastcloseparen = SSPOPINT;
249     *PL_reglastparen = SSPOPINT;
250     PL_regsize = SSPOPINT;
251     PL_regoffs=(regexp_paren_pair *) SSPOPPTR;
252
253     
254     /* Now restore the parentheses context. */
255     for (i -= (REGCP_OTHER_ELEMS - REGCP_FRAME_ELEMS);
256          i > 0; i -= REGCP_PAREN_ELEMS) {
257         I32 tmps;
258         U32 paren = (U32)SSPOPINT;
259         PL_reg_start_tmp[paren] = (char *) SSPOPPTR;
260         PL_regoffs[paren].start = SSPOPINT;
261         tmps = SSPOPINT;
262         if (paren <= *PL_reglastparen)
263             PL_regoffs[paren].end = tmps;
264         DEBUG_BUFFERS_r(
265             PerlIO_printf(Perl_debug_log,
266                           "     restoring \\%"UVuf" to %"IVdf"(%"IVdf")..%"IVdf"%s\n",
267                           (UV)paren, (IV)PL_regoffs[paren].start,
268                           (IV)(PL_reg_start_tmp[paren] - PL_bostr),
269                           (IV)PL_regoffs[paren].end,
270                           (paren > *PL_reglastparen ? "(no)" : ""));
271         );
272     }
273     DEBUG_BUFFERS_r(
274         if (*PL_reglastparen + 1 <= rex->nparens) {
275             PerlIO_printf(Perl_debug_log,
276                           "     restoring \\%"IVdf"..\\%"IVdf" to undef\n",
277                           (IV)(*PL_reglastparen + 1), (IV)rex->nparens);
278         }
279     );
280 #if 1
281     /* It would seem that the similar code in regtry()
282      * already takes care of this, and in fact it is in
283      * a better location to since this code can #if 0-ed out
284      * but the code in regtry() is needed or otherwise tests
285      * requiring null fields (pat.t#187 and split.t#{13,14}
286      * (as of patchlevel 7877)  will fail.  Then again,
287      * this code seems to be necessary or otherwise
288      * building DynaLoader will fail:
289      * "Error: '*' not in typemap in DynaLoader.xs, line 164"
290      * --jhi */
291     for (i = *PL_reglastparen + 1; i <= rex->nparens; i++) {
292         if (i > PL_regsize)
293             PL_regoffs[i].start = -1;
294         PL_regoffs[i].end = -1;
295     }
296 #endif
297     return input;
298 }
299
300 #define regcpblow(cp) LEAVE_SCOPE(cp)   /* Ignores regcppush()ed data. */
301
302 /*
303  * pregexec and friends
304  */
305
306 #ifndef PERL_IN_XSUB_RE
307 /*
308  - pregexec - match a regexp against a string
309  */
310 I32
311 Perl_pregexec(pTHX_ register regexp *prog, char *stringarg, register char *strend,
312          char *strbeg, I32 minend, SV *screamer, U32 nosave)
313 /* strend: pointer to null at end of string */
314 /* strbeg: real beginning of string */
315 /* minend: end of match must be >=minend after stringarg. */
316 /* nosave: For optimizations. */
317 {
318     return
319         regexec_flags(prog, stringarg, strend, strbeg, minend, screamer, NULL,
320                       nosave ? 0 : REXEC_COPY_STR);
321 }
322 #endif
323
324 /*
325  * Need to implement the following flags for reg_anch:
326  *
327  * USE_INTUIT_NOML              - Useful to call re_intuit_start() first
328  * USE_INTUIT_ML
329  * INTUIT_AUTORITATIVE_NOML     - Can trust a positive answer
330  * INTUIT_AUTORITATIVE_ML
331  * INTUIT_ONCE_NOML             - Intuit can match in one location only.
332  * INTUIT_ONCE_ML
333  *
334  * Another flag for this function: SECOND_TIME (so that float substrs
335  * with giant delta may be not rechecked).
336  */
337
338 /* Assumptions: if ANCH_GPOS, then strpos is anchored. XXXX Check GPOS logic */
339
340 /* If SCREAM, then SvPVX_const(sv) should be compatible with strpos and strend.
341    Otherwise, only SvCUR(sv) is used to get strbeg. */
342
343 /* XXXX We assume that strpos is strbeg unless sv. */
344
345 /* XXXX Some places assume that there is a fixed substring.
346         An update may be needed if optimizer marks as "INTUITable"
347         RExen without fixed substrings.  Similarly, it is assumed that
348         lengths of all the strings are no more than minlen, thus they
349         cannot come from lookahead.
350         (Or minlen should take into account lookahead.) 
351   NOTE: Some of this comment is not correct. minlen does now take account
352   of lookahead/behind. Further research is required. -- demerphq
353
354 */
355
356 /* A failure to find a constant substring means that there is no need to make
357    an expensive call to REx engine, thus we celebrate a failure.  Similarly,
358    finding a substring too deep into the string means that less calls to
359    regtry() should be needed.
360
361    REx compiler's optimizer found 4 possible hints:
362         a) Anchored substring;
363         b) Fixed substring;
364         c) Whether we are anchored (beginning-of-line or \G);
365         d) First node (of those at offset 0) which may distingush positions;
366    We use a)b)d) and multiline-part of c), and try to find a position in the
367    string which does not contradict any of them.
368  */
369
370 /* Most of decisions we do here should have been done at compile time.
371    The nodes of the REx which we used for the search should have been
372    deleted from the finite automaton. */
373
374 char *
375 Perl_re_intuit_start(pTHX_ regexp *prog, SV *sv, char *strpos,
376                      char *strend, U32 flags, re_scream_pos_data *data)
377 {
378     dVAR;
379     register I32 start_shift = 0;
380     /* Should be nonnegative! */
381     register I32 end_shift   = 0;
382     register char *s;
383     register SV *check;
384     char *strbeg;
385     char *t;
386     const bool do_utf8 = (sv && SvUTF8(sv)) ? 1 : 0; /* if no sv we have to assume bytes */
387     I32 ml_anch;
388     register char *other_last = NULL;   /* other substr checked before this */
389     char *check_at = NULL;              /* check substr found at this pos */
390     const I32 multiline = prog->extflags & RXf_PMf_MULTILINE;
391     RXi_GET_DECL(prog,progi);
392 #ifdef DEBUGGING
393     const char * const i_strpos = strpos;
394 #endif
395
396     GET_RE_DEBUG_FLAGS_DECL;
397
398     RX_MATCH_UTF8_set(prog,do_utf8);
399
400     if (prog->extflags & RXf_UTF8) {
401         PL_reg_flags |= RF_utf8;
402     }
403     DEBUG_EXECUTE_r( 
404         debug_start_match(prog, do_utf8, strpos, strend, 
405             sv ? "Guessing start of match in sv for"
406                : "Guessing start of match in string for");
407               );
408
409     /* CHR_DIST() would be more correct here but it makes things slow. */
410     if (prog->minlen > strend - strpos) {
411         DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
412                               "String too short... [re_intuit_start]\n"));
413         goto fail;
414     }
415                 
416     strbeg = (sv && SvPOK(sv)) ? strend - SvCUR(sv) : strpos;
417     PL_regeol = strend;
418     if (do_utf8) {
419         if (!prog->check_utf8 && prog->check_substr)
420             to_utf8_substr(prog);
421         check = prog->check_utf8;
422     } else {
423         if (!prog->check_substr && prog->check_utf8)
424             to_byte_substr(prog);
425         check = prog->check_substr;
426     }
427     if (check == &PL_sv_undef) {
428         DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
429                 "Non-utf8 string cannot match utf8 check string\n"));
430         goto fail;
431     }
432     if (prog->extflags & RXf_ANCH) {    /* Match at beg-of-str or after \n */
433         ml_anch = !( (prog->extflags & RXf_ANCH_SINGLE)
434                      || ( (prog->extflags & RXf_ANCH_BOL)
435                           && !multiline ) );    /* Check after \n? */
436
437         if (!ml_anch) {
438           if ( !(prog->extflags & RXf_ANCH_GPOS) /* Checked by the caller */
439                 && !(prog->intflags & PREGf_IMPLICIT) /* not a real BOL */
440                /* SvCUR is not set on references: SvRV and SvPVX_const overlap */
441                && sv && !SvROK(sv)
442                && (strpos != strbeg)) {
443               DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "Not at start...\n"));
444               goto fail;
445           }
446           if (prog->check_offset_min == prog->check_offset_max &&
447               !(prog->extflags & RXf_CANY_SEEN)) {
448             /* Substring at constant offset from beg-of-str... */
449             I32 slen;
450
451             s = HOP3c(strpos, prog->check_offset_min, strend);
452             
453             if (SvTAIL(check)) {
454                 slen = SvCUR(check);    /* >= 1 */
455
456                 if ( strend - s > slen || strend - s < slen - 1
457                      || (strend - s == slen && strend[-1] != '\n')) {
458                     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "String too long...\n"));
459                     goto fail_finish;
460                 }
461                 /* Now should match s[0..slen-2] */
462                 slen--;
463                 if (slen && (*SvPVX_const(check) != *s
464                              || (slen > 1
465                                  && memNE(SvPVX_const(check), s, slen)))) {
466                   report_neq:
467                     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "String not equal...\n"));
468                     goto fail_finish;
469                 }
470             }
471             else if (*SvPVX_const(check) != *s
472                      || ((slen = SvCUR(check)) > 1
473                          && memNE(SvPVX_const(check), s, slen)))
474                 goto report_neq;
475             check_at = s;
476             goto success_at_start;
477           }
478         }
479         /* Match is anchored, but substr is not anchored wrt beg-of-str. */
480         s = strpos;
481         start_shift = prog->check_offset_min; /* okay to underestimate on CC */
482         end_shift = prog->check_end_shift;
483         
484         if (!ml_anch) {
485             const I32 end = prog->check_offset_max + CHR_SVLEN(check)
486                                          - (SvTAIL(check) != 0);
487             const I32 eshift = CHR_DIST((U8*)strend, (U8*)s) - end;
488
489             if (end_shift < eshift)
490                 end_shift = eshift;
491         }
492     }
493     else {                              /* Can match at random position */
494         ml_anch = 0;
495         s = strpos;
496         start_shift = prog->check_offset_min;  /* okay to underestimate on CC */
497         end_shift = prog->check_end_shift;
498         
499         /* end shift should be non negative here */
500     }
501
502 #ifdef QDEBUGGING       /* 7/99: reports of failure (with the older version) */
503     if (end_shift < 0)
504         Perl_croak(aTHX_ "panic: end_shift: %"IVdf" pattern:\n%s\n ",
505                    (IV)end_shift, prog->precomp);
506 #endif
507
508   restart:
509     /* Find a possible match in the region s..strend by looking for
510        the "check" substring in the region corrected by start/end_shift. */
511     
512     {
513         I32 srch_start_shift = start_shift;
514         I32 srch_end_shift = end_shift;
515         if (srch_start_shift < 0 && strbeg - s > srch_start_shift) {
516             srch_end_shift -= ((strbeg - s) - srch_start_shift); 
517             srch_start_shift = strbeg - s;
518         }
519     DEBUG_OPTIMISE_MORE_r({
520         PerlIO_printf(Perl_debug_log, "Check offset min: %"IVdf" Start shift: %"IVdf" End shift %"IVdf" Real End Shift: %"IVdf"\n",
521             (IV)prog->check_offset_min,
522             (IV)srch_start_shift,
523             (IV)srch_end_shift, 
524             (IV)prog->check_end_shift);
525     });       
526         
527     if (flags & REXEC_SCREAM) {
528         I32 p = -1;                     /* Internal iterator of scream. */
529         I32 * const pp = data ? data->scream_pos : &p;
530
531         if (PL_screamfirst[BmRARE(check)] >= 0
532             || ( BmRARE(check) == '\n'
533                  && (BmPREVIOUS(check) == SvCUR(check) - 1)
534                  && SvTAIL(check) ))
535             s = screaminstr(sv, check,
536                             srch_start_shift + (s - strbeg), srch_end_shift, pp, 0);
537         else
538             goto fail_finish;
539         /* we may be pointing at the wrong string */
540         if (s && RX_MATCH_COPIED(prog))
541             s = strbeg + (s - SvPVX_const(sv));
542         if (data)
543             *data->scream_olds = s;
544     }
545     else {
546         U8* start_point;
547         U8* end_point;
548         if (prog->extflags & RXf_CANY_SEEN) {
549             start_point= (U8*)(s + srch_start_shift);
550             end_point= (U8*)(strend - srch_end_shift);
551         } else {
552             start_point= HOP3(s, srch_start_shift, srch_start_shift < 0 ? strbeg : strend);
553             end_point= HOP3(strend, -srch_end_shift, strbeg);
554         }
555         DEBUG_OPTIMISE_MORE_r({
556             PerlIO_printf(Perl_debug_log, "fbm_instr len=%d str=<%.*s>\n", 
557                 (int)(end_point - start_point),
558                 (int)(end_point - start_point) > 20 ? 20 : (int)(end_point - start_point), 
559                 start_point);
560         });
561
562         s = fbm_instr( start_point, end_point,
563                       check, multiline ? FBMrf_MULTILINE : 0);
564     }
565     }
566     /* Update the count-of-usability, remove useless subpatterns,
567         unshift s.  */
568
569     DEBUG_EXECUTE_r({
570         RE_PV_QUOTED_DECL(quoted, do_utf8, PERL_DEBUG_PAD_ZERO(0), 
571             SvPVX_const(check), RE_SV_DUMPLEN(check), 30);
572         PerlIO_printf(Perl_debug_log, "%s %s substr %s%s%s",
573                           (s ? "Found" : "Did not find"),
574             (check == (do_utf8 ? prog->anchored_utf8 : prog->anchored_substr) 
575                 ? "anchored" : "floating"),
576             quoted,
577             RE_SV_TAIL(check),
578             (s ? " at offset " : "...\n") ); 
579     });
580
581     if (!s)
582         goto fail_finish;
583     /* Finish the diagnostic message */
584     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "%ld...\n", (long)(s - i_strpos)) );
585
586     /* XXX dmq: first branch is for positive lookbehind...
587        Our check string is offset from the beginning of the pattern.
588        So we need to do any stclass tests offset forward from that 
589        point. I think. :-(
590      */
591     
592         
593     
594     check_at=s;
595      
596
597     /* Got a candidate.  Check MBOL anchoring, and the *other* substr.
598        Start with the other substr.
599        XXXX no SCREAM optimization yet - and a very coarse implementation
600        XXXX /ttx+/ results in anchored="ttx", floating="x".  floating will
601                 *always* match.  Probably should be marked during compile...
602        Probably it is right to do no SCREAM here...
603      */
604
605     if (do_utf8 ? (prog->float_utf8 && prog->anchored_utf8) 
606                 : (prog->float_substr && prog->anchored_substr)) 
607     {
608         /* Take into account the "other" substring. */
609         /* XXXX May be hopelessly wrong for UTF... */
610         if (!other_last)
611             other_last = strpos;
612         if (check == (do_utf8 ? prog->float_utf8 : prog->float_substr)) {
613           do_other_anchored:
614             {
615                 char * const last = HOP3c(s, -start_shift, strbeg);
616                 char *last1, *last2;
617                 char * const saved_s = s;
618                 SV* must;
619
620                 t = s - prog->check_offset_max;
621                 if (s - strpos > prog->check_offset_max  /* signed-corrected t > strpos */
622                     && (!do_utf8
623                         || ((t = (char*)reghopmaybe3((U8*)s, -(prog->check_offset_max), (U8*)strpos))
624                             && t > strpos)))
625                     NOOP;
626                 else
627                     t = strpos;
628                 t = HOP3c(t, prog->anchored_offset, strend);
629                 if (t < other_last)     /* These positions already checked */
630                     t = other_last;
631                 last2 = last1 = HOP3c(strend, -prog->minlen, strbeg);
632                 if (last < last1)
633                     last1 = last;
634                 /* XXXX It is not documented what units *_offsets are in.  
635                    We assume bytes, but this is clearly wrong. 
636                    Meaning this code needs to be carefully reviewed for errors.
637                    dmq.
638                   */
639  
640                 /* On end-of-str: see comment below. */
641                 must = do_utf8 ? prog->anchored_utf8 : prog->anchored_substr;
642                 if (must == &PL_sv_undef) {
643                     s = (char*)NULL;
644                     DEBUG_r(must = prog->anchored_utf8);        /* for debug */
645                 }
646                 else
647                     s = fbm_instr(
648                         (unsigned char*)t,
649                         HOP3(HOP3(last1, prog->anchored_offset, strend)
650                                 + SvCUR(must), -(SvTAIL(must)!=0), strbeg),
651                         must,
652                         multiline ? FBMrf_MULTILINE : 0
653                     );
654                 DEBUG_EXECUTE_r({
655                     RE_PV_QUOTED_DECL(quoted, do_utf8, PERL_DEBUG_PAD_ZERO(0), 
656                         SvPVX_const(must), RE_SV_DUMPLEN(must), 30);
657                     PerlIO_printf(Perl_debug_log, "%s anchored substr %s%s",
658                         (s ? "Found" : "Contradicts"),
659                         quoted, RE_SV_TAIL(must));
660                 });                 
661                 
662                             
663                 if (!s) {
664                     if (last1 >= last2) {
665                         DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
666                                                 ", giving up...\n"));
667                         goto fail_finish;
668                     }
669                     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
670                         ", trying floating at offset %ld...\n",
671                         (long)(HOP3c(saved_s, 1, strend) - i_strpos)));
672                     other_last = HOP3c(last1, prog->anchored_offset+1, strend);
673                     s = HOP3c(last, 1, strend);
674                     goto restart;
675                 }
676                 else {
677                     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, " at offset %ld...\n",
678                           (long)(s - i_strpos)));
679                     t = HOP3c(s, -prog->anchored_offset, strbeg);
680                     other_last = HOP3c(s, 1, strend);
681                     s = saved_s;
682                     if (t == strpos)
683                         goto try_at_start;
684                     goto try_at_offset;
685                 }
686             }
687         }
688         else {          /* Take into account the floating substring. */
689             char *last, *last1;
690             char * const saved_s = s;
691             SV* must;
692
693             t = HOP3c(s, -start_shift, strbeg);
694             last1 = last =
695                 HOP3c(strend, -prog->minlen + prog->float_min_offset, strbeg);
696             if (CHR_DIST((U8*)last, (U8*)t) > prog->float_max_offset)
697                 last = HOP3c(t, prog->float_max_offset, strend);
698             s = HOP3c(t, prog->float_min_offset, strend);
699             if (s < other_last)
700                 s = other_last;
701  /* XXXX It is not documented what units *_offsets are in.  Assume bytes.  */
702             must = do_utf8 ? prog->float_utf8 : prog->float_substr;
703             /* fbm_instr() takes into account exact value of end-of-str
704                if the check is SvTAIL(ed).  Since false positives are OK,
705                and end-of-str is not later than strend we are OK. */
706             if (must == &PL_sv_undef) {
707                 s = (char*)NULL;
708                 DEBUG_r(must = prog->float_utf8);       /* for debug message */
709             }
710             else
711                 s = fbm_instr((unsigned char*)s,
712                               (unsigned char*)last + SvCUR(must)
713                                   - (SvTAIL(must)!=0),
714                               must, multiline ? FBMrf_MULTILINE : 0);
715             DEBUG_EXECUTE_r({
716                 RE_PV_QUOTED_DECL(quoted, do_utf8, PERL_DEBUG_PAD_ZERO(0), 
717                     SvPVX_const(must), RE_SV_DUMPLEN(must), 30);
718                 PerlIO_printf(Perl_debug_log, "%s floating substr %s%s",
719                     (s ? "Found" : "Contradicts"),
720                     quoted, RE_SV_TAIL(must));
721             });
722             if (!s) {
723                 if (last1 == last) {
724                     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
725                                             ", giving up...\n"));
726                     goto fail_finish;
727                 }
728                 DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
729                     ", trying anchored starting at offset %ld...\n",
730                     (long)(saved_s + 1 - i_strpos)));
731                 other_last = last;
732                 s = HOP3c(t, 1, strend);
733                 goto restart;
734             }
735             else {
736                 DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, " at offset %ld...\n",
737                       (long)(s - i_strpos)));
738                 other_last = s; /* Fix this later. --Hugo */
739                 s = saved_s;
740                 if (t == strpos)
741                     goto try_at_start;
742                 goto try_at_offset;
743             }
744         }
745     }
746
747     
748     t= (char*)HOP3( s, -prog->check_offset_max, (prog->check_offset_max<0) ? strend : strpos);
749         
750     DEBUG_OPTIMISE_MORE_r(
751         PerlIO_printf(Perl_debug_log, 
752             "Check offset min:%"IVdf" max:%"IVdf" S:%"IVdf" t:%"IVdf" D:%"IVdf" end:%"IVdf"\n",
753             (IV)prog->check_offset_min,
754             (IV)prog->check_offset_max,
755             (IV)(s-strpos),
756             (IV)(t-strpos),
757             (IV)(t-s),
758             (IV)(strend-strpos)
759         )
760     );
761
762     if (s - strpos > prog->check_offset_max  /* signed-corrected t > strpos */
763         && (!do_utf8
764             || ((t = (char*)reghopmaybe3((U8*)s, -prog->check_offset_max, (U8*) ((prog->check_offset_max<0) ? strend : strpos)))
765                  && t > strpos))) 
766     {
767         /* Fixed substring is found far enough so that the match
768            cannot start at strpos. */
769       try_at_offset:
770         if (ml_anch && t[-1] != '\n') {
771             /* Eventually fbm_*() should handle this, but often
772                anchored_offset is not 0, so this check will not be wasted. */
773             /* XXXX In the code below we prefer to look for "^" even in
774                presence of anchored substrings.  And we search even
775                beyond the found float position.  These pessimizations
776                are historical artefacts only.  */
777           find_anchor:
778             while (t < strend - prog->minlen) {
779                 if (*t == '\n') {
780                     if (t < check_at - prog->check_offset_min) {
781                         if (do_utf8 ? prog->anchored_utf8 : prog->anchored_substr) {
782                             /* Since we moved from the found position,
783                                we definitely contradict the found anchored
784                                substr.  Due to the above check we do not
785                                contradict "check" substr.
786                                Thus we can arrive here only if check substr
787                                is float.  Redo checking for "other"=="fixed".
788                              */
789                             strpos = t + 1;                     
790                             DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "Found /%s^%s/m at offset %ld, rescanning for anchored from offset %ld...\n",
791                                 PL_colors[0], PL_colors[1], (long)(strpos - i_strpos), (long)(strpos - i_strpos + prog->anchored_offset)));
792                             goto do_other_anchored;
793                         }
794                         /* We don't contradict the found floating substring. */
795                         /* XXXX Why not check for STCLASS? */
796                         s = t + 1;
797                         DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "Found /%s^%s/m at offset %ld...\n",
798                             PL_colors[0], PL_colors[1], (long)(s - i_strpos)));
799                         goto set_useful;
800                     }
801                     /* Position contradicts check-string */
802                     /* XXXX probably better to look for check-string
803                        than for "\n", so one should lower the limit for t? */
804                     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "Found /%s^%s/m, restarting lookup for check-string at offset %ld...\n",
805                         PL_colors[0], PL_colors[1], (long)(t + 1 - i_strpos)));
806                     other_last = strpos = s = t + 1;
807                     goto restart;
808                 }
809                 t++;
810             }
811             DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "Did not find /%s^%s/m...\n",
812                         PL_colors[0], PL_colors[1]));
813             goto fail_finish;
814         }
815         else {
816             DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "Starting position does not contradict /%s^%s/m...\n",
817                         PL_colors[0], PL_colors[1]));
818         }
819         s = t;
820       set_useful:
821         ++BmUSEFUL(do_utf8 ? prog->check_utf8 : prog->check_substr);    /* hooray/5 */
822     }
823     else {
824         /* The found string does not prohibit matching at strpos,
825            - no optimization of calling REx engine can be performed,
826            unless it was an MBOL and we are not after MBOL,
827            or a future STCLASS check will fail this. */
828       try_at_start:
829         /* Even in this situation we may use MBOL flag if strpos is offset
830            wrt the start of the string. */
831         if (ml_anch && sv && !SvROK(sv) /* See prev comment on SvROK */
832             && (strpos != strbeg) && strpos[-1] != '\n'
833             /* May be due to an implicit anchor of m{.*foo}  */
834             && !(prog->intflags & PREGf_IMPLICIT))
835         {
836             t = strpos;
837             goto find_anchor;
838         }
839         DEBUG_EXECUTE_r( if (ml_anch)
840             PerlIO_printf(Perl_debug_log, "Position at offset %ld does not contradict /%s^%s/m...\n",
841                           (long)(strpos - i_strpos), PL_colors[0], PL_colors[1]);
842         );
843       success_at_start:
844         if (!(prog->intflags & PREGf_NAUGHTY)   /* XXXX If strpos moved? */
845             && (do_utf8 ? (
846                 prog->check_utf8                /* Could be deleted already */
847                 && --BmUSEFUL(prog->check_utf8) < 0
848                 && (prog->check_utf8 == prog->float_utf8)
849             ) : (
850                 prog->check_substr              /* Could be deleted already */
851                 && --BmUSEFUL(prog->check_substr) < 0
852                 && (prog->check_substr == prog->float_substr)
853             )))
854         {
855             /* If flags & SOMETHING - do not do it many times on the same match */
856             DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "... Disabling check substring...\n"));
857             SvREFCNT_dec(do_utf8 ? prog->check_utf8 : prog->check_substr);
858             if (do_utf8 ? prog->check_substr : prog->check_utf8)
859                 SvREFCNT_dec(do_utf8 ? prog->check_substr : prog->check_utf8);
860             prog->check_substr = prog->check_utf8 = NULL;       /* disable */
861             prog->float_substr = prog->float_utf8 = NULL;       /* clear */
862             check = NULL;                       /* abort */
863             s = strpos;
864             /* XXXX This is a remnant of the old implementation.  It
865                     looks wasteful, since now INTUIT can use many
866                     other heuristics. */
867             prog->extflags &= ~RXf_USE_INTUIT;
868         }
869         else
870             s = strpos;
871     }
872
873     /* Last resort... */
874     /* XXXX BmUSEFUL already changed, maybe multiple change is meaningful... */
875     /* trie stclasses are too expensive to use here, we are better off to
876        leave it to regmatch itself */
877     if (progi->regstclass && PL_regkind[OP(progi->regstclass)]!=TRIE) {
878         /* minlen == 0 is possible if regstclass is \b or \B,
879            and the fixed substr is ''$.
880            Since minlen is already taken into account, s+1 is before strend;
881            accidentally, minlen >= 1 guaranties no false positives at s + 1
882            even for \b or \B.  But (minlen? 1 : 0) below assumes that
883            regstclass does not come from lookahead...  */
884         /* If regstclass takes bytelength more than 1: If charlength==1, OK.
885            This leaves EXACTF only, which is dealt with in find_byclass().  */
886         const U8* const str = (U8*)STRING(progi->regstclass);
887         const int cl_l = (PL_regkind[OP(progi->regstclass)] == EXACT
888                     ? CHR_DIST(str+STR_LEN(progi->regstclass), str)
889                     : 1);
890         char * endpos;
891         if (prog->anchored_substr || prog->anchored_utf8 || ml_anch)
892             endpos= HOP3c(s, (prog->minlen ? cl_l : 0), strend);
893         else if (prog->float_substr || prog->float_utf8)
894             endpos= HOP3c(HOP3c(check_at, -start_shift, strbeg), cl_l, strend);
895         else 
896             endpos= strend;
897                     
898         DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "start_shift: %"IVdf" check_at: %"IVdf" s: %"IVdf" endpos: %"IVdf"\n",
899                                       (IV)start_shift, (IV)(check_at - strbeg), (IV)(s - strbeg), (IV)(endpos - strbeg)));
900         
901         t = s;
902         s = find_byclass(prog, progi->regstclass, s, endpos, NULL);
903         if (!s) {
904 #ifdef DEBUGGING
905             const char *what = NULL;
906 #endif
907             if (endpos == strend) {
908                 DEBUG_EXECUTE_r( PerlIO_printf(Perl_debug_log,
909                                 "Could not match STCLASS...\n") );
910                 goto fail;
911             }
912             DEBUG_EXECUTE_r( PerlIO_printf(Perl_debug_log,
913                                    "This position contradicts STCLASS...\n") );
914             if ((prog->extflags & RXf_ANCH) && !ml_anch)
915                 goto fail;
916             /* Contradict one of substrings */
917             if (prog->anchored_substr || prog->anchored_utf8) {
918                 if ((do_utf8 ? prog->anchored_utf8 : prog->anchored_substr) == check) {
919                     DEBUG_EXECUTE_r( what = "anchored" );
920                   hop_and_restart:
921                     s = HOP3c(t, 1, strend);
922                     if (s + start_shift + end_shift > strend) {
923                         /* XXXX Should be taken into account earlier? */
924                         DEBUG_EXECUTE_r( PerlIO_printf(Perl_debug_log,
925                                                "Could not match STCLASS...\n") );
926                         goto fail;
927                     }
928                     if (!check)
929                         goto giveup;
930                     DEBUG_EXECUTE_r( PerlIO_printf(Perl_debug_log,
931                                 "Looking for %s substr starting at offset %ld...\n",
932                                  what, (long)(s + start_shift - i_strpos)) );
933                     goto restart;
934                 }
935                 /* Have both, check_string is floating */
936                 if (t + start_shift >= check_at) /* Contradicts floating=check */
937                     goto retry_floating_check;
938                 /* Recheck anchored substring, but not floating... */
939                 s = check_at;
940                 if (!check)
941                     goto giveup;
942                 DEBUG_EXECUTE_r( PerlIO_printf(Perl_debug_log,
943                           "Looking for anchored substr starting at offset %ld...\n",
944                           (long)(other_last - i_strpos)) );
945                 goto do_other_anchored;
946             }
947             /* Another way we could have checked stclass at the
948                current position only: */
949             if (ml_anch) {
950                 s = t = t + 1;
951                 if (!check)
952                     goto giveup;
953                 DEBUG_EXECUTE_r( PerlIO_printf(Perl_debug_log,
954                           "Looking for /%s^%s/m starting at offset %ld...\n",
955                           PL_colors[0], PL_colors[1], (long)(t - i_strpos)) );
956                 goto try_at_offset;
957             }
958             if (!(do_utf8 ? prog->float_utf8 : prog->float_substr))     /* Could have been deleted */
959                 goto fail;
960             /* Check is floating subtring. */
961           retry_floating_check:
962             t = check_at - start_shift;
963             DEBUG_EXECUTE_r( what = "floating" );
964             goto hop_and_restart;
965         }
966         if (t != s) {
967             DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
968                         "By STCLASS: moving %ld --> %ld\n",
969                                   (long)(t - i_strpos), (long)(s - i_strpos))
970                    );
971         }
972         else {
973             DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
974                                   "Does not contradict STCLASS...\n"); 
975                    );
976         }
977     }
978   giveup:
979     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "%s%s:%s match at offset %ld\n",
980                           PL_colors[4], (check ? "Guessed" : "Giving up"),
981                           PL_colors[5], (long)(s - i_strpos)) );
982     return s;
983
984   fail_finish:                          /* Substring not found */
985     if (prog->check_substr || prog->check_utf8)         /* could be removed already */
986         BmUSEFUL(do_utf8 ? prog->check_utf8 : prog->check_substr) += 5; /* hooray */
987   fail:
988     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "%sMatch rejected by optimizer%s\n",
989                           PL_colors[4], PL_colors[5]));
990     return NULL;
991 }
992
993
994
995 #define REXEC_TRIE_READ_CHAR(trie_type, trie, widecharmap, uc, uscan, len,  \
996 uvc, charid, foldlen, foldbuf, uniflags) STMT_START {                       \
997     switch (trie_type) {                                                    \
998     case trie_utf8_fold:                                                    \
999         if ( foldlen>0 ) {                                                  \
1000             uvc = utf8n_to_uvuni( uscan, UTF8_MAXLEN, &len, uniflags );     \
1001             foldlen -= len;                                                 \
1002             uscan += len;                                                   \
1003             len=0;                                                          \
1004         } else {                                                            \
1005             uvc = utf8n_to_uvuni( (U8*)uc, UTF8_MAXLEN, &len, uniflags );   \
1006             uvc = to_uni_fold( uvc, foldbuf, &foldlen );                    \
1007             foldlen -= UNISKIP( uvc );                                      \
1008             uscan = foldbuf + UNISKIP( uvc );                               \
1009         }                                                                   \
1010         break;                                                              \
1011     case trie_utf8:                                                         \
1012         uvc = utf8n_to_uvuni( (U8*)uc, UTF8_MAXLEN, &len, uniflags );       \
1013         break;                                                              \
1014     case trie_plain:                                                        \
1015         uvc = (UV)*uc;                                                      \
1016         len = 1;                                                            \
1017     }                                                                       \
1018                                                                             \
1019     if (uvc < 256) {                                                        \
1020         charid = trie->charmap[ uvc ];                                      \
1021     }                                                                       \
1022     else {                                                                  \
1023         charid = 0;                                                         \
1024         if (widecharmap) {                                                  \
1025             SV** const svpp = hv_fetch(widecharmap,                         \
1026                         (char*)&uvc, sizeof(UV), 0);                        \
1027             if (svpp)                                                       \
1028                 charid = (U16)SvIV(*svpp);                                  \
1029         }                                                                   \
1030     }                                                                       \
1031 } STMT_END
1032
1033 #define REXEC_FBC_EXACTISH_CHECK(CoNd)                  \
1034     if ( (CoNd)                                        \
1035          && (ln == len ||                              \
1036              ibcmp_utf8(s, NULL, 0,  do_utf8,          \
1037                         m, NULL, ln, (bool)UTF))       \
1038          && (!reginfo || regtry(reginfo, &s)) )         \
1039         goto got_it;                                   \
1040     else {                                             \
1041          U8 foldbuf[UTF8_MAXBYTES_CASE+1];             \
1042          uvchr_to_utf8(tmpbuf, c);                     \
1043          f = to_utf8_fold(tmpbuf, foldbuf, &foldlen);  \
1044          if ( f != c                                   \
1045               && (f == c1 || f == c2)                  \
1046               && (ln == foldlen ||                     \
1047                   !ibcmp_utf8((char *) foldbuf,        \
1048                               NULL, foldlen, do_utf8,  \
1049                               m,                       \
1050                               NULL, ln, (bool)UTF))    \
1051               && (!reginfo || regtry(reginfo, &s)) )    \
1052               goto got_it;                             \
1053     }                                                  \
1054     s += len
1055
1056 #define REXEC_FBC_EXACTISH_SCAN(CoNd)                     \
1057 STMT_START {                                              \
1058     while (s <= e) {                                      \
1059         if ( (CoNd)                                       \
1060              && (ln == 1 || !(OP(c) == EXACTF             \
1061                               ? ibcmp(s, m, ln)           \
1062                               : ibcmp_locale(s, m, ln)))  \
1063              && (!reginfo || regtry(reginfo, &s)) )        \
1064             goto got_it;                                  \
1065         s++;                                              \
1066     }                                                     \
1067 } STMT_END
1068
1069 #define REXEC_FBC_UTF8_SCAN(CoDe)                     \
1070 STMT_START {                                          \
1071     while (s + (uskip = UTF8SKIP(s)) <= strend) {     \
1072         CoDe                                          \
1073         s += uskip;                                   \
1074     }                                                 \
1075 } STMT_END
1076
1077 #define REXEC_FBC_SCAN(CoDe)                          \
1078 STMT_START {                                          \
1079     while (s < strend) {                              \
1080         CoDe                                          \
1081         s++;                                          \
1082     }                                                 \
1083 } STMT_END
1084
1085 #define REXEC_FBC_UTF8_CLASS_SCAN(CoNd)               \
1086 REXEC_FBC_UTF8_SCAN(                                  \
1087     if (CoNd) {                                       \
1088         if (tmp && (!reginfo || regtry(reginfo, &s)))  \
1089             goto got_it;                              \
1090         else                                          \
1091             tmp = doevery;                            \
1092     }                                                 \
1093     else                                              \
1094         tmp = 1;                                      \
1095 )
1096
1097 #define REXEC_FBC_CLASS_SCAN(CoNd)                    \
1098 REXEC_FBC_SCAN(                                       \
1099     if (CoNd) {                                       \
1100         if (tmp && (!reginfo || regtry(reginfo, &s)))  \
1101             goto got_it;                              \
1102         else                                          \
1103             tmp = doevery;                            \
1104     }                                                 \
1105     else                                              \
1106         tmp = 1;                                      \
1107 )
1108
1109 #define REXEC_FBC_TRYIT               \
1110 if ((!reginfo || regtry(reginfo, &s))) \
1111     goto got_it
1112
1113 #define REXEC_FBC_CSCAN_PRELOAD(UtFpReLoAd,CoNdUtF8,CoNd)      \
1114     if (do_utf8) {                                             \
1115         UtFpReLoAd;                                            \
1116         REXEC_FBC_UTF8_CLASS_SCAN(CoNdUtF8);                   \
1117     }                                                          \
1118     else {                                                     \
1119         REXEC_FBC_CLASS_SCAN(CoNd);                            \
1120     }                                                          \
1121     break
1122
1123 #define REXEC_FBC_CSCAN_TAINT(CoNdUtF8,CoNd)                   \
1124     PL_reg_flags |= RF_tainted;                                \
1125     if (do_utf8) {                                             \
1126         REXEC_FBC_UTF8_CLASS_SCAN(CoNdUtF8);                   \
1127     }                                                          \
1128     else {                                                     \
1129         REXEC_FBC_CLASS_SCAN(CoNd);                            \
1130     }                                                          \
1131     break
1132
1133 #define DUMP_EXEC_POS(li,s,doutf8) \
1134     dump_exec_pos(li,s,(PL_regeol),(PL_bostr),(PL_reg_starttry),doutf8)
1135
1136 /* We know what class REx starts with.  Try to find this position... */
1137 /* if reginfo is NULL, its a dryrun */
1138 /* annoyingly all the vars in this routine have different names from their counterparts
1139    in regmatch. /grrr */
1140
1141 STATIC char *
1142 S_find_byclass(pTHX_ regexp * prog, const regnode *c, char *s, 
1143     const char *strend, regmatch_info *reginfo)
1144 {
1145         dVAR;
1146         const I32 doevery = (prog->intflags & PREGf_SKIP) == 0;
1147         char *m;
1148         STRLEN ln;
1149         STRLEN lnc;
1150         register STRLEN uskip;
1151         unsigned int c1;
1152         unsigned int c2;
1153         char *e;
1154         register I32 tmp = 1;   /* Scratch variable? */
1155         register const bool do_utf8 = PL_reg_match_utf8;
1156         RXi_GET_DECL(prog,progi);
1157         
1158         /* We know what class it must start with. */
1159         switch (OP(c)) {
1160         case ANYOF:
1161             if (do_utf8) {
1162                  REXEC_FBC_UTF8_CLASS_SCAN((ANYOF_FLAGS(c) & ANYOF_UNICODE) ||
1163                           !UTF8_IS_INVARIANT((U8)s[0]) ?
1164                           reginclass(prog, c, (U8*)s, 0, do_utf8) :
1165                           REGINCLASS(prog, c, (U8*)s));
1166             }
1167             else {
1168                  while (s < strend) {
1169                       STRLEN skip = 1;
1170
1171                       if (REGINCLASS(prog, c, (U8*)s) ||
1172                           (ANYOF_FOLD_SHARP_S(c, s, strend) &&
1173                            /* The assignment of 2 is intentional:
1174                             * for the folded sharp s, the skip is 2. */
1175                            (skip = SHARP_S_SKIP))) {
1176                            if (tmp && (!reginfo || regtry(reginfo, &s)))
1177                                 goto got_it;
1178                            else
1179                                 tmp = doevery;
1180                       }
1181                       else 
1182                            tmp = 1;
1183                       s += skip;
1184                  }
1185             }
1186             break;
1187         case CANY:
1188             REXEC_FBC_SCAN(
1189                 if (tmp && (!reginfo || regtry(reginfo, &s)))
1190                     goto got_it;
1191                 else
1192                     tmp = doevery;
1193             );
1194             break;
1195         case EXACTF:
1196             m   = STRING(c);
1197             ln  = STR_LEN(c);   /* length to match in octets/bytes */
1198             lnc = (I32) ln;     /* length to match in characters */
1199             if (UTF) {
1200                 STRLEN ulen1, ulen2;
1201                 U8 *sm = (U8 *) m;
1202                 U8 tmpbuf1[UTF8_MAXBYTES_CASE+1];
1203                 U8 tmpbuf2[UTF8_MAXBYTES_CASE+1];
1204                 const U32 uniflags = UTF8_ALLOW_DEFAULT;
1205
1206                 to_utf8_lower((U8*)m, tmpbuf1, &ulen1);
1207                 to_utf8_upper((U8*)m, tmpbuf2, &ulen2);
1208
1209                 c1 = utf8n_to_uvchr(tmpbuf1, UTF8_MAXBYTES_CASE, 
1210                                     0, uniflags);
1211                 c2 = utf8n_to_uvchr(tmpbuf2, UTF8_MAXBYTES_CASE,
1212                                     0, uniflags);
1213                 lnc = 0;
1214                 while (sm < ((U8 *) m + ln)) {
1215                     lnc++;
1216                     sm += UTF8SKIP(sm);
1217                 }
1218             }
1219             else {
1220                 c1 = *(U8*)m;
1221                 c2 = PL_fold[c1];
1222             }
1223             goto do_exactf;
1224         case EXACTFL:
1225             m   = STRING(c);
1226             ln  = STR_LEN(c);
1227             lnc = (I32) ln;
1228             c1 = *(U8*)m;
1229             c2 = PL_fold_locale[c1];
1230           do_exactf:
1231             e = HOP3c(strend, -((I32)lnc), s);
1232
1233             if (!reginfo && e < s)
1234                 e = s;                  /* Due to minlen logic of intuit() */
1235
1236             /* The idea in the EXACTF* cases is to first find the
1237              * first character of the EXACTF* node and then, if
1238              * necessary, case-insensitively compare the full
1239              * text of the node.  The c1 and c2 are the first
1240              * characters (though in Unicode it gets a bit
1241              * more complicated because there are more cases
1242              * than just upper and lower: one needs to use
1243              * the so-called folding case for case-insensitive
1244              * matching (called "loose matching" in Unicode).
1245              * ibcmp_utf8() will do just that. */
1246
1247             if (do_utf8) {
1248                 UV c, f;
1249                 U8 tmpbuf [UTF8_MAXBYTES+1];
1250                 STRLEN len, foldlen;
1251                 const U32 uniflags = UTF8_ALLOW_DEFAULT;
1252                 if (c1 == c2) {
1253                     /* Upper and lower of 1st char are equal -
1254                      * probably not a "letter". */
1255                     while (s <= e) {
1256                         c = utf8n_to_uvchr((U8*)s, UTF8_MAXBYTES, &len,
1257                                            uniflags);
1258                         REXEC_FBC_EXACTISH_CHECK(c == c1);
1259                     }
1260                 }
1261                 else {
1262                     while (s <= e) {
1263                       c = utf8n_to_uvchr((U8*)s, UTF8_MAXBYTES, &len,
1264                                            uniflags);
1265
1266                         /* Handle some of the three Greek sigmas cases.
1267                          * Note that not all the possible combinations
1268                          * are handled here: some of them are handled
1269                          * by the standard folding rules, and some of
1270                          * them (the character class or ANYOF cases)
1271                          * are handled during compiletime in
1272                          * regexec.c:S_regclass(). */
1273                         if (c == (UV)UNICODE_GREEK_CAPITAL_LETTER_SIGMA ||
1274                             c == (UV)UNICODE_GREEK_SMALL_LETTER_FINAL_SIGMA)
1275                             c = (UV)UNICODE_GREEK_SMALL_LETTER_SIGMA;
1276
1277                         REXEC_FBC_EXACTISH_CHECK(c == c1 || c == c2);
1278                     }
1279                 }
1280             }
1281             else {
1282                 if (c1 == c2)
1283                     REXEC_FBC_EXACTISH_SCAN(*(U8*)s == c1);
1284                 else
1285                     REXEC_FBC_EXACTISH_SCAN(*(U8*)s == c1 || *(U8*)s == c2);
1286             }
1287             break;
1288         case BOUNDL:
1289             PL_reg_flags |= RF_tainted;
1290             /* FALL THROUGH */
1291         case BOUND:
1292             if (do_utf8) {
1293                 if (s == PL_bostr)
1294                     tmp = '\n';
1295                 else {
1296                     U8 * const r = reghop3((U8*)s, -1, (U8*)PL_bostr);
1297                     tmp = utf8n_to_uvchr(r, UTF8SKIP(r), 0, UTF8_ALLOW_DEFAULT);
1298                 }
1299                 tmp = ((OP(c) == BOUND ?
1300                         isALNUM_uni(tmp) : isALNUM_LC_uvchr(UNI_TO_NATIVE(tmp))) != 0);
1301                 LOAD_UTF8_CHARCLASS_ALNUM();
1302                 REXEC_FBC_UTF8_SCAN(
1303                     if (tmp == !(OP(c) == BOUND ?
1304                                  (bool)swash_fetch(PL_utf8_alnum, (U8*)s, do_utf8) :
1305                                  isALNUM_LC_utf8((U8*)s)))
1306                     {
1307                         tmp = !tmp;
1308                         REXEC_FBC_TRYIT;
1309                 }
1310                 );
1311             }
1312             else {
1313                 tmp = (s != PL_bostr) ? UCHARAT(s - 1) : '\n';
1314                 tmp = ((OP(c) == BOUND ? isALNUM(tmp) : isALNUM_LC(tmp)) != 0);
1315                 REXEC_FBC_SCAN(
1316                     if (tmp ==
1317                         !(OP(c) == BOUND ? isALNUM(*s) : isALNUM_LC(*s))) {
1318                         tmp = !tmp;
1319                         REXEC_FBC_TRYIT;
1320                 }
1321                 );
1322             }
1323             if ((!prog->minlen && tmp) && (!reginfo || regtry(reginfo, &s)))
1324                 goto got_it;
1325             break;
1326         case NBOUNDL:
1327             PL_reg_flags |= RF_tainted;
1328             /* FALL THROUGH */
1329         case NBOUND:
1330             if (do_utf8) {
1331                 if (s == PL_bostr)
1332                     tmp = '\n';
1333                 else {
1334                     U8 * const r = reghop3((U8*)s, -1, (U8*)PL_bostr);
1335                     tmp = utf8n_to_uvchr(r, UTF8SKIP(r), 0, UTF8_ALLOW_DEFAULT);
1336                 }
1337                 tmp = ((OP(c) == NBOUND ?
1338                         isALNUM_uni(tmp) : isALNUM_LC_uvchr(UNI_TO_NATIVE(tmp))) != 0);
1339                 LOAD_UTF8_CHARCLASS_ALNUM();
1340                 REXEC_FBC_UTF8_SCAN(
1341                     if (tmp == !(OP(c) == NBOUND ?
1342                                  (bool)swash_fetch(PL_utf8_alnum, (U8*)s, do_utf8) :
1343                                  isALNUM_LC_utf8((U8*)s)))
1344                         tmp = !tmp;
1345                     else REXEC_FBC_TRYIT;
1346                 );
1347             }
1348             else {
1349                 tmp = (s != PL_bostr) ? UCHARAT(s - 1) : '\n';
1350                 tmp = ((OP(c) == NBOUND ?
1351                         isALNUM(tmp) : isALNUM_LC(tmp)) != 0);
1352                 REXEC_FBC_SCAN(
1353                     if (tmp ==
1354                         !(OP(c) == NBOUND ? isALNUM(*s) : isALNUM_LC(*s)))
1355                         tmp = !tmp;
1356                     else REXEC_FBC_TRYIT;
1357                 );
1358             }
1359             if ((!prog->minlen && !tmp) && (!reginfo || regtry(reginfo, &s)))
1360                 goto got_it;
1361             break;
1362         case ALNUM:
1363             REXEC_FBC_CSCAN_PRELOAD(
1364                 LOAD_UTF8_CHARCLASS_ALNUM(),
1365                 swash_fetch(PL_utf8_alnum, (U8*)s, do_utf8),
1366                 isALNUM(*s)
1367             );
1368         case ALNUML:
1369             REXEC_FBC_CSCAN_TAINT(
1370                 isALNUM_LC_utf8((U8*)s),
1371                 isALNUM_LC(*s)
1372             );
1373         case NALNUM:
1374             REXEC_FBC_CSCAN_PRELOAD(
1375                 LOAD_UTF8_CHARCLASS_ALNUM(),
1376                 !swash_fetch(PL_utf8_alnum, (U8*)s, do_utf8),
1377                 !isALNUM(*s)
1378             );
1379         case NALNUML:
1380             REXEC_FBC_CSCAN_TAINT(
1381                 !isALNUM_LC_utf8((U8*)s),
1382                 !isALNUM_LC(*s)
1383             );
1384         case SPACE:
1385             REXEC_FBC_CSCAN_PRELOAD(
1386                 LOAD_UTF8_CHARCLASS_SPACE(),
1387                 *s == ' ' || swash_fetch(PL_utf8_space,(U8*)s, do_utf8),
1388                 isSPACE(*s)
1389             );
1390         case SPACEL:
1391             REXEC_FBC_CSCAN_TAINT(
1392                 *s == ' ' || isSPACE_LC_utf8((U8*)s),
1393                 isSPACE_LC(*s)
1394             );
1395         case NSPACE:
1396             REXEC_FBC_CSCAN_PRELOAD(
1397                 LOAD_UTF8_CHARCLASS_SPACE(),
1398                 !(*s == ' ' || swash_fetch(PL_utf8_space,(U8*)s, do_utf8)),
1399                 !isSPACE(*s)
1400             );
1401         case NSPACEL:
1402             REXEC_FBC_CSCAN_TAINT(
1403                 !(*s == ' ' || isSPACE_LC_utf8((U8*)s)),
1404                 !isSPACE_LC(*s)
1405             );
1406         case DIGIT:
1407             REXEC_FBC_CSCAN_PRELOAD(
1408                 LOAD_UTF8_CHARCLASS_DIGIT(),
1409                 swash_fetch(PL_utf8_digit,(U8*)s, do_utf8),
1410                 isDIGIT(*s)
1411             );
1412         case DIGITL:
1413             REXEC_FBC_CSCAN_TAINT(
1414                 isDIGIT_LC_utf8((U8*)s),
1415                 isDIGIT_LC(*s)
1416             );
1417         case NDIGIT:
1418             REXEC_FBC_CSCAN_PRELOAD(
1419                 LOAD_UTF8_CHARCLASS_DIGIT(),
1420                 !swash_fetch(PL_utf8_digit,(U8*)s, do_utf8),
1421                 !isDIGIT(*s)
1422             );
1423         case NDIGITL:
1424             REXEC_FBC_CSCAN_TAINT(
1425                 !isDIGIT_LC_utf8((U8*)s),
1426                 !isDIGIT_LC(*s)
1427             );
1428         case AHOCORASICKC:
1429         case AHOCORASICK: 
1430             {
1431                 const enum { trie_plain, trie_utf8, trie_utf8_fold }
1432                     trie_type = do_utf8 ?
1433                           (c->flags == EXACT ? trie_utf8 : trie_utf8_fold)
1434                         : trie_plain;
1435                 /* what trie are we using right now */
1436                 reg_ac_data *aho
1437                     = (reg_ac_data*)progi->data->data[ ARG( c ) ];
1438                 reg_trie_data *trie
1439                     = (reg_trie_data*)progi->data->data[ aho->trie ];
1440                 HV *widecharmap = (HV*) progi->data->data[ aho->trie + 1 ];
1441
1442                 const char *last_start = strend - trie->minlen;
1443 #ifdef DEBUGGING
1444                 const char *real_start = s;
1445 #endif
1446                 STRLEN maxlen = trie->maxlen;
1447                 SV *sv_points;
1448                 U8 **points; /* map of where we were in the input string
1449                                 when reading a given char. For ASCII this
1450                                 is unnecessary overhead as the relationship
1451                                 is always 1:1, but for unicode, especially
1452                                 case folded unicode this is not true. */
1453                 U8 foldbuf[ UTF8_MAXBYTES_CASE + 1 ];
1454                 U8 *bitmap=NULL;
1455
1456
1457                 GET_RE_DEBUG_FLAGS_DECL;
1458
1459                 /* We can't just allocate points here. We need to wrap it in
1460                  * an SV so it gets freed properly if there is a croak while
1461                  * running the match */
1462                 ENTER;
1463                 SAVETMPS;
1464                 sv_points=newSV(maxlen * sizeof(U8 *));
1465                 SvCUR_set(sv_points,
1466                     maxlen * sizeof(U8 *));
1467                 SvPOK_on(sv_points);
1468                 sv_2mortal(sv_points);
1469                 points=(U8**)SvPV_nolen(sv_points );
1470                 if ( trie_type != trie_utf8_fold 
1471                      && (trie->bitmap || OP(c)==AHOCORASICKC) ) 
1472                 {
1473                     if (trie->bitmap) 
1474                         bitmap=(U8*)trie->bitmap;
1475                     else
1476                         bitmap=(U8*)ANYOF_BITMAP(c);
1477                 }
1478                 /* this is the Aho-Corasick algorithm modified a touch
1479                    to include special handling for long "unknown char" 
1480                    sequences. The basic idea being that we use AC as long
1481                    as we are dealing with a possible matching char, when
1482                    we encounter an unknown char (and we have not encountered
1483                    an accepting state) we scan forward until we find a legal 
1484                    starting char. 
1485                    AC matching is basically that of trie matching, except
1486                    that when we encounter a failing transition, we fall back
1487                    to the current states "fail state", and try the current char 
1488                    again, a process we repeat until we reach the root state, 
1489                    state 1, or a legal transition. If we fail on the root state 
1490                    then we can either terminate if we have reached an accepting 
1491                    state previously, or restart the entire process from the beginning 
1492                    if we have not.
1493
1494                  */
1495                 while (s <= last_start) {
1496                     const U32 uniflags = UTF8_ALLOW_DEFAULT;
1497                     U8 *uc = (U8*)s;
1498                     U16 charid = 0;
1499                     U32 base = 1;
1500                     U32 state = 1;
1501                     UV uvc = 0;
1502                     STRLEN len = 0;
1503                     STRLEN foldlen = 0;
1504                     U8 *uscan = (U8*)NULL;
1505                     U8 *leftmost = NULL;
1506 #ifdef DEBUGGING                    
1507                     U32 accepted_word= 0;
1508 #endif
1509                     U32 pointpos = 0;
1510
1511                     while ( state && uc <= (U8*)strend ) {
1512                         int failed=0;
1513                         U32 word = aho->states[ state ].wordnum;
1514
1515                         if( state==1 ) {
1516                             if ( bitmap ) {
1517                                 DEBUG_TRIE_EXECUTE_r(
1518                                     if ( uc <= (U8*)last_start && !BITMAP_TEST(bitmap,*uc) ) {
1519                                         dump_exec_pos( (char *)uc, c, strend, real_start, 
1520                                             (char *)uc, do_utf8 );
1521                                         PerlIO_printf( Perl_debug_log,
1522                                             " Scanning for legal start char...\n");
1523                                     }
1524                                 );            
1525                                 while ( uc <= (U8*)last_start  && !BITMAP_TEST(bitmap,*uc) ) {
1526                                     uc++;
1527                                 }
1528                                 s= (char *)uc;
1529                             }
1530                             if (uc >(U8*)last_start) break;
1531                         }
1532                                             
1533                         if ( word ) {
1534                             U8 *lpos= points[ (pointpos - trie->wordlen[word-1] ) % maxlen ];
1535                             if (!leftmost || lpos < leftmost) {
1536                                 DEBUG_r(accepted_word=word);
1537                                 leftmost= lpos;
1538                             }
1539                             if (base==0) break;
1540                             
1541                         }
1542                         points[pointpos++ % maxlen]= uc;
1543                         REXEC_TRIE_READ_CHAR(trie_type, trie, widecharmap, uc,
1544                                              uscan, len, uvc, charid, foldlen,
1545                                              foldbuf, uniflags);
1546                         DEBUG_TRIE_EXECUTE_r({
1547                             dump_exec_pos( (char *)uc, c, strend, real_start, 
1548                                 s,   do_utf8 );
1549                             PerlIO_printf(Perl_debug_log,
1550                                 " Charid:%3u CP:%4"UVxf" ",
1551                                  charid, uvc);
1552                         });
1553
1554                         do {
1555 #ifdef DEBUGGING
1556                             word = aho->states[ state ].wordnum;
1557 #endif
1558                             base = aho->states[ state ].trans.base;
1559
1560                             DEBUG_TRIE_EXECUTE_r({
1561                                 if (failed) 
1562                                     dump_exec_pos( (char *)uc, c, strend, real_start, 
1563                                         s,   do_utf8 );
1564                                 PerlIO_printf( Perl_debug_log,
1565                                     "%sState: %4"UVxf", word=%"UVxf,
1566                                     failed ? " Fail transition to " : "",
1567                                     (UV)state, (UV)word);
1568                             });
1569                             if ( base ) {
1570                                 U32 tmp;
1571                                 if (charid &&
1572                                      (base + charid > trie->uniquecharcount )
1573                                      && (base + charid - 1 - trie->uniquecharcount
1574                                             < trie->lasttrans)
1575                                      && trie->trans[base + charid - 1 -
1576                                             trie->uniquecharcount].check == state
1577                                      && (tmp=trie->trans[base + charid - 1 -
1578                                         trie->uniquecharcount ].next))
1579                                 {
1580                                     DEBUG_TRIE_EXECUTE_r(
1581                                         PerlIO_printf( Perl_debug_log," - legal\n"));
1582                                     state = tmp;
1583                                     break;
1584                                 }
1585                                 else {
1586                                     DEBUG_TRIE_EXECUTE_r(
1587                                         PerlIO_printf( Perl_debug_log," - fail\n"));
1588                                     failed = 1;
1589                                     state = aho->fail[state];
1590                                 }
1591                             }
1592                             else {
1593                                 /* we must be accepting here */
1594                                 DEBUG_TRIE_EXECUTE_r(
1595                                         PerlIO_printf( Perl_debug_log," - accepting\n"));
1596                                 failed = 1;
1597                                 break;
1598                             }
1599                         } while(state);
1600                         uc += len;
1601                         if (failed) {
1602                             if (leftmost)
1603                                 break;
1604                             if (!state) state = 1;
1605                         }
1606                     }
1607                     if ( aho->states[ state ].wordnum ) {
1608                         U8 *lpos = points[ (pointpos - trie->wordlen[aho->states[ state ].wordnum-1]) % maxlen ];
1609                         if (!leftmost || lpos < leftmost) {
1610                             DEBUG_r(accepted_word=aho->states[ state ].wordnum);
1611                             leftmost = lpos;
1612                         }
1613                     }
1614                     if (leftmost) {
1615                         s = (char*)leftmost;
1616                         DEBUG_TRIE_EXECUTE_r({
1617                             PerlIO_printf( 
1618                                 Perl_debug_log,"Matches word #%"UVxf" at position %"IVdf". Trying full pattern...\n",
1619                                 (UV)accepted_word, (IV)(s - real_start)
1620                             );
1621                         });
1622                         if (!reginfo || regtry(reginfo, &s)) {
1623                             FREETMPS;
1624                             LEAVE;
1625                             goto got_it;
1626                         }
1627                         s = HOPc(s,1);
1628                         DEBUG_TRIE_EXECUTE_r({
1629                             PerlIO_printf( Perl_debug_log,"Pattern failed. Looking for new start point...\n");
1630                         });
1631                     } else {
1632                         DEBUG_TRIE_EXECUTE_r(
1633                             PerlIO_printf( Perl_debug_log,"No match.\n"));
1634                         break;
1635                     }
1636                 }
1637                 FREETMPS;
1638                 LEAVE;
1639             }
1640             break;
1641         default:
1642             Perl_croak(aTHX_ "panic: unknown regstclass %d", (int)OP(c));
1643             break;
1644         }
1645         return 0;
1646       got_it:
1647         return s;
1648 }
1649
1650 static void 
1651 S_swap_match_buff (pTHX_ regexp *prog) {
1652     regexp_paren_pair *t;
1653
1654     if (!prog->swap) {
1655     /* We have to be careful. If the previous successful match
1656        was from this regex we don't want a subsequent paritally
1657        successful match to clobber the old results. 
1658        So when we detect this possibility we add a swap buffer
1659        to the re, and switch the buffer each match. If we fail
1660        we switch it back, otherwise we leave it swapped.
1661     */
1662         Newxz(prog->swap, (prog->nparens + 1), regexp_paren_pair);
1663     }
1664     t = prog->swap;
1665     prog->swap = prog->offs;
1666     prog->offs = t;
1667 }    
1668
1669
1670 /*
1671  - regexec_flags - match a regexp against a string
1672  */
1673 I32
1674 Perl_regexec_flags(pTHX_ register regexp *prog, char *stringarg, register char *strend,
1675               char *strbeg, I32 minend, SV *sv, void *data, U32 flags)
1676 /* strend: pointer to null at end of string */
1677 /* strbeg: real beginning of string */
1678 /* minend: end of match must be >=minend after stringarg. */
1679 /* data: May be used for some additional optimizations. 
1680          Currently its only used, with a U32 cast, for transmitting 
1681          the ganch offset when doing a /g match. This will change */
1682 /* nosave: For optimizations. */
1683 {
1684     dVAR;
1685     /*register*/ char *s;
1686     register regnode *c;
1687     /*register*/ char *startpos = stringarg;
1688     I32 minlen;         /* must match at least this many chars */
1689     I32 dontbother = 0; /* how many characters not to try at end */
1690     I32 end_shift = 0;                  /* Same for the end. */         /* CC */
1691     I32 scream_pos = -1;                /* Internal iterator of scream. */
1692     char *scream_olds = NULL;
1693     const bool do_utf8 = (bool)DO_UTF8(sv);
1694     I32 multiline;
1695     RXi_GET_DECL(prog,progi);
1696     regmatch_info reginfo;  /* create some info to pass to regtry etc */
1697     bool swap_on_fail = 0;
1698
1699     GET_RE_DEBUG_FLAGS_DECL;
1700
1701     PERL_UNUSED_ARG(data);
1702
1703     /* Be paranoid... */
1704     if (prog == NULL || startpos == NULL) {
1705         Perl_croak(aTHX_ "NULL regexp parameter");
1706         return 0;
1707     }
1708
1709     multiline = prog->extflags & RXf_PMf_MULTILINE;
1710     reginfo.prog = prog;
1711
1712     RX_MATCH_UTF8_set(prog, do_utf8);
1713     DEBUG_EXECUTE_r( 
1714         debug_start_match(prog, do_utf8, startpos, strend, 
1715         "Matching");
1716     );
1717
1718     minlen = prog->minlen;
1719     
1720     if (strend - startpos < (minlen+(prog->check_offset_min<0?prog->check_offset_min:0))) {
1721         DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
1722                               "String too short [regexec_flags]...\n"));
1723         goto phooey;
1724     }
1725
1726     
1727     /* Check validity of program. */
1728     if (UCHARAT(progi->program) != REG_MAGIC) {
1729         Perl_croak(aTHX_ "corrupted regexp program");
1730     }
1731
1732     PL_reg_flags = 0;
1733     PL_reg_eval_set = 0;
1734     PL_reg_maxiter = 0;
1735
1736     if (prog->extflags & RXf_UTF8)
1737         PL_reg_flags |= RF_utf8;
1738
1739     /* Mark beginning of line for ^ and lookbehind. */
1740     reginfo.bol = startpos; /* XXX not used ??? */
1741     PL_bostr  = strbeg;
1742     reginfo.sv = sv;
1743
1744     /* Mark end of line for $ (and such) */
1745     PL_regeol = strend;
1746
1747     /* see how far we have to get to not match where we matched before */
1748     reginfo.till = startpos+minend;
1749
1750     /* If there is a "must appear" string, look for it. */
1751     s = startpos;
1752
1753     if (prog->extflags & RXf_GPOS_SEEN) { /* Need to set reginfo->ganch */
1754         MAGIC *mg;
1755
1756         if (flags & REXEC_IGNOREPOS)    /* Means: check only at start */
1757             reginfo.ganch = startpos + prog->gofs;
1758         else if (sv && SvTYPE(sv) >= SVt_PVMG
1759                   && SvMAGIC(sv)
1760                   && (mg = mg_find(sv, PERL_MAGIC_regex_global))
1761                   && mg->mg_len >= 0) {
1762             reginfo.ganch = strbeg + mg->mg_len;        /* Defined pos() */
1763             if (prog->extflags & RXf_ANCH_GPOS) {
1764                 if (s > reginfo.ganch)
1765                     goto phooey;
1766                 s = reginfo.ganch - prog->gofs;
1767             }
1768         }
1769         else if (data) {
1770             reginfo.ganch = strbeg + PTR2UV(data);
1771         } else                          /* pos() not defined */
1772             reginfo.ganch = strbeg;
1773     }
1774     if (PL_curpm && (PM_GETRE(PL_curpm) == prog)) {
1775         swap_on_fail = 1;
1776         swap_match_buff(prog); /* do we need a save destructor here for
1777                                   eval dies? */
1778     }
1779     if (!(flags & REXEC_CHECKED) && (prog->check_substr != NULL || prog->check_utf8 != NULL)) {
1780         re_scream_pos_data d;
1781
1782         d.scream_olds = &scream_olds;
1783         d.scream_pos = &scream_pos;
1784         s = re_intuit_start(prog, sv, s, strend, flags, &d);
1785         if (!s) {
1786             DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "Not present...\n"));
1787             goto phooey;        /* not present */
1788         }
1789     }
1790
1791
1792
1793     /* Simplest case:  anchored match need be tried only once. */
1794     /*  [unless only anchor is BOL and multiline is set] */
1795     if (prog->extflags & (RXf_ANCH & ~RXf_ANCH_GPOS)) {
1796         if (s == startpos && regtry(&reginfo, &startpos))
1797             goto got_it;
1798         else if (multiline || (prog->intflags & PREGf_IMPLICIT)
1799                  || (prog->extflags & RXf_ANCH_MBOL)) /* XXXX SBOL? */
1800         {
1801             char *end;
1802
1803             if (minlen)
1804                 dontbother = minlen - 1;
1805             end = HOP3c(strend, -dontbother, strbeg) - 1;
1806             /* for multiline we only have to try after newlines */
1807             if (prog->check_substr || prog->check_utf8) {
1808                 if (s == startpos)
1809                     goto after_try;
1810                 while (1) {
1811                     if (regtry(&reginfo, &s))
1812                         goto got_it;
1813                   after_try:
1814                     if (s >= end)
1815                         goto phooey;
1816                     if (prog->extflags & RXf_USE_INTUIT) {
1817                         s = re_intuit_start(prog, sv, s + 1, strend, flags, NULL);
1818                         if (!s)
1819                             goto phooey;
1820                     }
1821                     else
1822                         s++;
1823                 }               
1824             } else {
1825                 if (s > startpos)
1826                     s--;
1827                 while (s < end) {
1828                     if (*s++ == '\n') { /* don't need PL_utf8skip here */
1829                         if (regtry(&reginfo, &s))
1830                             goto got_it;
1831                     }
1832                 }               
1833             }
1834         }
1835         goto phooey;
1836     } else if (RXf_GPOS_CHECK == (prog->extflags & RXf_GPOS_CHECK)) 
1837     {
1838         /* the warning about reginfo.ganch being used without intialization
1839            is bogus -- we set it above, when prog->extflags & RXf_GPOS_SEEN 
1840            and we only enter this block when the same bit is set. */
1841         char *tmp_s = reginfo.ganch - prog->gofs;
1842         if (regtry(&reginfo, &tmp_s))
1843             goto got_it;
1844         goto phooey;
1845     }
1846
1847     /* Messy cases:  unanchored match. */
1848     if ((prog->anchored_substr || prog->anchored_utf8) && prog->intflags & PREGf_SKIP) {
1849         /* we have /x+whatever/ */
1850         /* it must be a one character string (XXXX Except UTF?) */
1851         char ch;
1852 #ifdef DEBUGGING
1853         int did_match = 0;
1854 #endif
1855         if (!(do_utf8 ? prog->anchored_utf8 : prog->anchored_substr))
1856             do_utf8 ? to_utf8_substr(prog) : to_byte_substr(prog);
1857         ch = SvPVX_const(do_utf8 ? prog->anchored_utf8 : prog->anchored_substr)[0];
1858
1859         if (do_utf8) {
1860             REXEC_FBC_SCAN(
1861                 if (*s == ch) {
1862                     DEBUG_EXECUTE_r( did_match = 1 );
1863                     if (regtry(&reginfo, &s)) goto got_it;
1864                     s += UTF8SKIP(s);
1865                     while (s < strend && *s == ch)
1866                         s += UTF8SKIP(s);
1867                 }
1868             );
1869         }
1870         else {
1871             REXEC_FBC_SCAN(
1872                 if (*s == ch) {
1873                     DEBUG_EXECUTE_r( did_match = 1 );
1874                     if (regtry(&reginfo, &s)) goto got_it;
1875                     s++;
1876                     while (s < strend && *s == ch)
1877                         s++;
1878                 }
1879             );
1880         }
1881         DEBUG_EXECUTE_r(if (!did_match)
1882                 PerlIO_printf(Perl_debug_log,
1883                                   "Did not find anchored character...\n")
1884                );
1885     }
1886     else if (prog->anchored_substr != NULL
1887               || prog->anchored_utf8 != NULL
1888               || ((prog->float_substr != NULL || prog->float_utf8 != NULL)
1889                   && prog->float_max_offset < strend - s)) {
1890         SV *must;
1891         I32 back_max;
1892         I32 back_min;
1893         char *last;
1894         char *last1;            /* Last position checked before */
1895 #ifdef DEBUGGING
1896         int did_match = 0;
1897 #endif
1898         if (prog->anchored_substr || prog->anchored_utf8) {
1899             if (!(do_utf8 ? prog->anchored_utf8 : prog->anchored_substr))
1900                 do_utf8 ? to_utf8_substr(prog) : to_byte_substr(prog);
1901             must = do_utf8 ? prog->anchored_utf8 : prog->anchored_substr;
1902             back_max = back_min = prog->anchored_offset;
1903         } else {
1904             if (!(do_utf8 ? prog->float_utf8 : prog->float_substr))
1905                 do_utf8 ? to_utf8_substr(prog) : to_byte_substr(prog);
1906             must = do_utf8 ? prog->float_utf8 : prog->float_substr;
1907             back_max = prog->float_max_offset;
1908             back_min = prog->float_min_offset;
1909         }
1910         
1911             
1912         if (must == &PL_sv_undef)
1913             /* could not downgrade utf8 check substring, so must fail */
1914             goto phooey;
1915
1916         if (back_min<0) {
1917             last = strend;
1918         } else {
1919             last = HOP3c(strend,        /* Cannot start after this */
1920                   -(I32)(CHR_SVLEN(must)
1921                          - (SvTAIL(must) != 0) + back_min), strbeg);
1922         }
1923         if (s > PL_bostr)
1924             last1 = HOPc(s, -1);
1925         else
1926             last1 = s - 1;      /* bogus */
1927
1928         /* XXXX check_substr already used to find "s", can optimize if
1929            check_substr==must. */
1930         scream_pos = -1;
1931         dontbother = end_shift;
1932         strend = HOPc(strend, -dontbother);
1933         while ( (s <= last) &&
1934                 ((flags & REXEC_SCREAM)
1935                  ? (s = screaminstr(sv, must, HOP3c(s, back_min, (back_min<0 ? strbeg : strend)) - strbeg,
1936                                     end_shift, &scream_pos, 0))
1937                  : (s = fbm_instr((unsigned char*)HOP3(s, back_min, (back_min<0 ? strbeg : strend)),
1938                                   (unsigned char*)strend, must,
1939                                   multiline ? FBMrf_MULTILINE : 0))) ) {
1940             /* we may be pointing at the wrong string */
1941             if ((flags & REXEC_SCREAM) && RX_MATCH_COPIED(prog))
1942                 s = strbeg + (s - SvPVX_const(sv));
1943             DEBUG_EXECUTE_r( did_match = 1 );
1944             if (HOPc(s, -back_max) > last1) {
1945                 last1 = HOPc(s, -back_min);
1946                 s = HOPc(s, -back_max);
1947             }
1948             else {
1949                 char * const t = (last1 >= PL_bostr) ? HOPc(last1, 1) : last1 + 1;
1950
1951                 last1 = HOPc(s, -back_min);
1952                 s = t;
1953             }
1954             if (do_utf8) {
1955                 while (s <= last1) {
1956                     if (regtry(&reginfo, &s))
1957                         goto got_it;
1958                     s += UTF8SKIP(s);
1959                 }
1960             }
1961             else {
1962                 while (s <= last1) {
1963                     if (regtry(&reginfo, &s))
1964                         goto got_it;
1965                     s++;
1966                 }
1967             }
1968         }
1969         DEBUG_EXECUTE_r(if (!did_match) {
1970             RE_PV_QUOTED_DECL(quoted, do_utf8, PERL_DEBUG_PAD_ZERO(0), 
1971                 SvPVX_const(must), RE_SV_DUMPLEN(must), 30);
1972             PerlIO_printf(Perl_debug_log, "Did not find %s substr %s%s...\n",
1973                               ((must == prog->anchored_substr || must == prog->anchored_utf8)
1974                                ? "anchored" : "floating"),
1975                 quoted, RE_SV_TAIL(must));
1976         });                 
1977         goto phooey;
1978     }
1979     else if ( (c = progi->regstclass) ) {
1980         if (minlen) {
1981             const OPCODE op = OP(progi->regstclass);
1982             /* don't bother with what can't match */
1983             if (PL_regkind[op] != EXACT && op != CANY && PL_regkind[op] != TRIE)
1984                 strend = HOPc(strend, -(minlen - 1));
1985         }
1986         DEBUG_EXECUTE_r({
1987             SV * const prop = sv_newmortal();
1988             regprop(prog, prop, c);
1989             {
1990                 RE_PV_QUOTED_DECL(quoted,do_utf8,PERL_DEBUG_PAD_ZERO(1),
1991                     s,strend-s,60);
1992                 PerlIO_printf(Perl_debug_log,
1993                     "Matching stclass %.*s against %s (%d chars)\n",
1994                     (int)SvCUR(prop), SvPVX_const(prop),
1995                      quoted, (int)(strend - s));
1996             }
1997         });
1998         if (find_byclass(prog, c, s, strend, &reginfo))
1999             goto got_it;
2000         DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "Contradicts stclass... [regexec_flags]\n"));
2001     }
2002     else {
2003         dontbother = 0;
2004         if (prog->float_substr != NULL || prog->float_utf8 != NULL) {
2005             /* Trim the end. */
2006             char *last;
2007             SV* float_real;
2008
2009             if (!(do_utf8 ? prog->float_utf8 : prog->float_substr))
2010                 do_utf8 ? to_utf8_substr(prog) : to_byte_substr(prog);
2011             float_real = do_utf8 ? prog->float_utf8 : prog->float_substr;
2012
2013             if (flags & REXEC_SCREAM) {
2014                 last = screaminstr(sv, float_real, s - strbeg,
2015                                    end_shift, &scream_pos, 1); /* last one */
2016                 if (!last)
2017                     last = scream_olds; /* Only one occurrence. */
2018                 /* we may be pointing at the wrong string */
2019                 else if (RX_MATCH_COPIED(prog))
2020                     s = strbeg + (s - SvPVX_const(sv));
2021             }
2022             else {
2023                 STRLEN len;
2024                 const char * const little = SvPV_const(float_real, len);
2025
2026                 if (SvTAIL(float_real)) {
2027                     if (memEQ(strend - len + 1, little, len - 1))
2028                         last = strend - len + 1;
2029                     else if (!multiline)
2030                         last = memEQ(strend - len, little, len)
2031                             ? strend - len : NULL;
2032                     else
2033                         goto find_last;
2034                 } else {
2035                   find_last:
2036                     if (len)
2037                         last = rninstr(s, strend, little, little + len);
2038                     else
2039                         last = strend;  /* matching "$" */
2040                 }
2041             }
2042             if (last == NULL) {
2043                 DEBUG_EXECUTE_r(
2044                     PerlIO_printf(Perl_debug_log,
2045                         "%sCan't trim the tail, match fails (should not happen)%s\n",
2046                         PL_colors[4], PL_colors[5]));
2047                 goto phooey; /* Should not happen! */
2048             }
2049             dontbother = strend - last + prog->float_min_offset;
2050         }
2051         if (minlen && (dontbother < minlen))
2052             dontbother = minlen - 1;
2053         strend -= dontbother;              /* this one's always in bytes! */
2054         /* We don't know much -- general case. */
2055         if (do_utf8) {
2056             for (;;) {
2057                 if (regtry(&reginfo, &s))
2058                     goto got_it;
2059                 if (s >= strend)
2060                     break;
2061                 s += UTF8SKIP(s);
2062             };
2063         }
2064         else {
2065             do {
2066                 if (regtry(&reginfo, &s))
2067                     goto got_it;
2068             } while (s++ < strend);
2069         }
2070     }
2071
2072     /* Failure. */
2073     goto phooey;
2074
2075 got_it:
2076     RX_MATCH_TAINTED_set(prog, PL_reg_flags & RF_tainted);
2077
2078     if (PL_reg_eval_set)
2079         restore_pos(aTHX_ prog);
2080     if (prog->paren_names) 
2081         (void)hv_iterinit(prog->paren_names);
2082
2083     /* make sure $`, $&, $', and $digit will work later */
2084     if ( !(flags & REXEC_NOT_FIRST) ) {
2085         RX_MATCH_COPY_FREE(prog);
2086         if (flags & REXEC_COPY_STR) {
2087             const I32 i = PL_regeol - startpos + (stringarg - strbeg);
2088 #ifdef PERL_OLD_COPY_ON_WRITE
2089             if ((SvIsCOW(sv)
2090                  || (SvFLAGS(sv) & CAN_COW_MASK) == CAN_COW_FLAGS)) {
2091                 if (DEBUG_C_TEST) {
2092                     PerlIO_printf(Perl_debug_log,
2093                                   "Copy on write: regexp capture, type %d\n",
2094                                   (int) SvTYPE(sv));
2095                 }
2096                 prog->saved_copy = sv_setsv_cow(prog->saved_copy, sv);
2097                 prog->subbeg = (char *)SvPVX_const(prog->saved_copy);
2098                 assert (SvPOKp(prog->saved_copy));
2099             } else
2100 #endif
2101             {
2102                 RX_MATCH_COPIED_on(prog);
2103                 s = savepvn(strbeg, i);
2104                 prog->subbeg = s;
2105             }
2106             prog->sublen = i;
2107         }
2108         else {
2109             prog->subbeg = strbeg;
2110             prog->sublen = PL_regeol - strbeg;  /* strend may have been modified */
2111         }
2112     }
2113
2114     return 1;
2115
2116 phooey:
2117     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "%sMatch failed%s\n",
2118                           PL_colors[4], PL_colors[5]));
2119     if (PL_reg_eval_set)
2120         restore_pos(aTHX_ prog);
2121     if (swap_on_fail) 
2122         /* we failed :-( roll it back */
2123         swap_match_buff(prog);
2124     
2125     return 0;
2126 }
2127
2128
2129 /*
2130  - regtry - try match at specific point
2131  */
2132 STATIC I32                      /* 0 failure, 1 success */
2133 S_regtry(pTHX_ regmatch_info *reginfo, char **startpos)
2134 {
2135     dVAR;
2136     CHECKPOINT lastcp;
2137     regexp *prog = reginfo->prog;
2138     RXi_GET_DECL(prog,progi);
2139     GET_RE_DEBUG_FLAGS_DECL;
2140     reginfo->cutpoint=NULL;
2141
2142     if ((prog->extflags & RXf_EVAL_SEEN) && !PL_reg_eval_set) {
2143         MAGIC *mg;
2144
2145         PL_reg_eval_set = RS_init;
2146         DEBUG_EXECUTE_r(DEBUG_s(
2147             PerlIO_printf(Perl_debug_log, "  setting stack tmpbase at %"IVdf"\n",
2148                           (IV)(PL_stack_sp - PL_stack_base));
2149             ));
2150         SAVESTACK_CXPOS();
2151         cxstack[cxstack_ix].blk_oldsp = PL_stack_sp - PL_stack_base;
2152         /* Otherwise OP_NEXTSTATE will free whatever on stack now.  */
2153         SAVETMPS;
2154         /* Apparently this is not needed, judging by wantarray. */
2155         /* SAVEI8(cxstack[cxstack_ix].blk_gimme);
2156            cxstack[cxstack_ix].blk_gimme = G_SCALAR; */
2157
2158         if (reginfo->sv) {
2159             /* Make $_ available to executed code. */
2160             if (reginfo->sv != DEFSV) {
2161                 SAVE_DEFSV;
2162                 DEFSV = reginfo->sv;
2163             }
2164         
2165             if (!(SvTYPE(reginfo->sv) >= SVt_PVMG && SvMAGIC(reginfo->sv)
2166                   && (mg = mg_find(reginfo->sv, PERL_MAGIC_regex_global)))) {
2167                 /* prepare for quick setting of pos */
2168 #ifdef PERL_OLD_COPY_ON_WRITE
2169                 if (SvIsCOW(reginfo->sv))
2170                     sv_force_normal_flags(reginfo->sv, 0);
2171 #endif
2172                 mg = sv_magicext(reginfo->sv, NULL, PERL_MAGIC_regex_global,
2173                                  &PL_vtbl_mglob, NULL, 0);
2174                 mg->mg_len = -1;
2175             }
2176             PL_reg_magic    = mg;
2177             PL_reg_oldpos   = mg->mg_len;
2178             SAVEDESTRUCTOR_X(restore_pos, prog);
2179         }
2180         if (!PL_reg_curpm) {
2181             Newxz(PL_reg_curpm, 1, PMOP);
2182 #ifdef USE_ITHREADS
2183             {
2184                 SV* const repointer = newSViv(0);
2185                 /* so we know which PL_regex_padav element is PL_reg_curpm */
2186                 SvFLAGS(repointer) |= SVf_BREAK;
2187                 av_push(PL_regex_padav,repointer);
2188                 PL_reg_curpm->op_pmoffset = av_len(PL_regex_padav);
2189                 PL_regex_pad = AvARRAY(PL_regex_padav);
2190             }
2191 #endif      
2192         }
2193         PM_SETRE(PL_reg_curpm, prog);
2194         PL_reg_oldcurpm = PL_curpm;
2195         PL_curpm = PL_reg_curpm;
2196         if (RX_MATCH_COPIED(prog)) {
2197             /*  Here is a serious problem: we cannot rewrite subbeg,
2198                 since it may be needed if this match fails.  Thus
2199                 $` inside (?{}) could fail... */
2200             PL_reg_oldsaved = prog->subbeg;
2201             PL_reg_oldsavedlen = prog->sublen;
2202 #ifdef PERL_OLD_COPY_ON_WRITE
2203             PL_nrs = prog->saved_copy;
2204 #endif
2205             RX_MATCH_COPIED_off(prog);
2206         }
2207         else
2208             PL_reg_oldsaved = NULL;
2209         prog->subbeg = PL_bostr;
2210         prog->sublen = PL_regeol - PL_bostr; /* strend may have been modified */
2211     }
2212     DEBUG_EXECUTE_r(PL_reg_starttry = *startpos);
2213     prog->offs[0].start = *startpos - PL_bostr;
2214     PL_reginput = *startpos;
2215     PL_reglastparen = &prog->lastparen;
2216     PL_reglastcloseparen = &prog->lastcloseparen;
2217     prog->lastparen = 0;
2218     prog->lastcloseparen = 0;
2219     PL_regsize = 0;
2220     PL_regoffs = prog->offs;
2221     if (PL_reg_start_tmpl <= prog->nparens) {
2222         PL_reg_start_tmpl = prog->nparens*3/2 + 3;
2223         if(PL_reg_start_tmp)
2224             Renew(PL_reg_start_tmp, PL_reg_start_tmpl, char*);
2225         else
2226             Newx(PL_reg_start_tmp, PL_reg_start_tmpl, char*);
2227     }
2228
2229     /* XXXX What this code is doing here?!!!  There should be no need
2230        to do this again and again, PL_reglastparen should take care of
2231        this!  --ilya*/
2232
2233     /* Tests pat.t#187 and split.t#{13,14} seem to depend on this code.
2234      * Actually, the code in regcppop() (which Ilya may be meaning by
2235      * PL_reglastparen), is not needed at all by the test suite
2236      * (op/regexp, op/pat, op/split), but that code is needed, oddly
2237      * enough, for building DynaLoader, or otherwise this
2238      * "Error: '*' not in typemap in DynaLoader.xs, line 164"
2239      * will happen.  Meanwhile, this code *is* needed for the
2240      * above-mentioned test suite tests to succeed.  The common theme
2241      * on those tests seems to be returning null fields from matches.
2242      * --jhi */
2243 #if 1
2244     if (prog->nparens) {
2245         regexp_paren_pair *pp = PL_regoffs;
2246         register I32 i;
2247         for (i = prog->nparens; i > (I32)*PL_reglastparen; i--) {
2248             ++pp;
2249             pp->start = -1;
2250             pp->end = -1;
2251         }
2252     }
2253 #endif
2254     REGCP_SET(lastcp);
2255     if (regmatch(reginfo, progi->program + 1)) {
2256         PL_regoffs[0].end = PL_reginput - PL_bostr;
2257         return 1;
2258     }
2259     if (reginfo->cutpoint)
2260         *startpos= reginfo->cutpoint;
2261     REGCP_UNWIND(lastcp);
2262     return 0;
2263 }
2264
2265
2266 #define sayYES goto yes
2267 #define sayNO goto no
2268 #define sayNO_SILENT goto no_silent
2269
2270 /* we dont use STMT_START/END here because it leads to 
2271    "unreachable code" warnings, which are bogus, but distracting. */
2272 #define CACHEsayNO \
2273     if (ST.cache_mask) \
2274        PL_reg_poscache[ST.cache_offset] |= ST.cache_mask; \
2275     sayNO
2276
2277 /* this is used to determine how far from the left messages like
2278    'failed...' are printed. It should be set such that messages 
2279    are inline with the regop output that created them.
2280 */
2281 #define REPORT_CODE_OFF 32
2282
2283
2284 /* Make sure there is a test for this +1 options in re_tests */
2285 #define TRIE_INITAL_ACCEPT_BUFFLEN 4;
2286
2287 #define CHRTEST_UNINIT -1001 /* c1/c2 haven't been calculated yet */
2288 #define CHRTEST_VOID   -1000 /* the c1/c2 "next char" test should be skipped */
2289
2290 #define SLAB_FIRST(s) (&(s)->states[0])
2291 #define SLAB_LAST(s)  (&(s)->states[PERL_REGMATCH_SLAB_SLOTS-1])
2292
2293 /* grab a new slab and return the first slot in it */
2294
2295 STATIC regmatch_state *
2296 S_push_slab(pTHX)
2297 {
2298 #if PERL_VERSION < 9 && !defined(PERL_CORE)
2299     dMY_CXT;
2300 #endif
2301     regmatch_slab *s = PL_regmatch_slab->next;
2302     if (!s) {
2303         Newx(s, 1, regmatch_slab);
2304         s->prev = PL_regmatch_slab;
2305         s->next = NULL;
2306         PL_regmatch_slab->next = s;
2307     }
2308     PL_regmatch_slab = s;
2309     return SLAB_FIRST(s);
2310 }
2311
2312
2313 /* push a new state then goto it */
2314
2315 #define PUSH_STATE_GOTO(state, node) \
2316     scan = node; \
2317     st->resume_state = state; \
2318     goto push_state;
2319
2320 /* push a new state with success backtracking, then goto it */
2321
2322 #define PUSH_YES_STATE_GOTO(state, node) \
2323     scan = node; \
2324     st->resume_state = state; \
2325     goto push_yes_state;
2326
2327
2328
2329 /*
2330
2331 regmatch() - main matching routine
2332
2333 This is basically one big switch statement in a loop. We execute an op,
2334 set 'next' to point the next op, and continue. If we come to a point which
2335 we may need to backtrack to on failure such as (A|B|C), we push a
2336 backtrack state onto the backtrack stack. On failure, we pop the top
2337 state, and re-enter the loop at the state indicated. If there are no more
2338 states to pop, we return failure.
2339
2340 Sometimes we also need to backtrack on success; for example /A+/, where
2341 after successfully matching one A, we need to go back and try to
2342 match another one; similarly for lookahead assertions: if the assertion
2343 completes successfully, we backtrack to the state just before the assertion
2344 and then carry on.  In these cases, the pushed state is marked as
2345 'backtrack on success too'. This marking is in fact done by a chain of
2346 pointers, each pointing to the previous 'yes' state. On success, we pop to
2347 the nearest yes state, discarding any intermediate failure-only states.
2348 Sometimes a yes state is pushed just to force some cleanup code to be
2349 called at the end of a successful match or submatch; e.g. (??{$re}) uses
2350 it to free the inner regex.
2351
2352 Note that failure backtracking rewinds the cursor position, while
2353 success backtracking leaves it alone.
2354
2355 A pattern is complete when the END op is executed, while a subpattern
2356 such as (?=foo) is complete when the SUCCESS op is executed. Both of these
2357 ops trigger the "pop to last yes state if any, otherwise return true"
2358 behaviour.
2359
2360 A common convention in this function is to use A and B to refer to the two
2361 subpatterns (or to the first nodes thereof) in patterns like /A*B/: so A is
2362 the subpattern to be matched possibly multiple times, while B is the entire
2363 rest of the pattern. Variable and state names reflect this convention.
2364
2365 The states in the main switch are the union of ops and failure/success of
2366 substates associated with with that op.  For example, IFMATCH is the op
2367 that does lookahead assertions /(?=A)B/ and so the IFMATCH state means
2368 'execute IFMATCH'; while IFMATCH_A is a state saying that we have just
2369 successfully matched A and IFMATCH_A_fail is a state saying that we have
2370 just failed to match A. Resume states always come in pairs. The backtrack
2371 state we push is marked as 'IFMATCH_A', but when that is popped, we resume
2372 at IFMATCH_A or IFMATCH_A_fail, depending on whether we are backtracking
2373 on success or failure.
2374
2375 The struct that holds a backtracking state is actually a big union, with
2376 one variant for each major type of op. The variable st points to the
2377 top-most backtrack struct. To make the code clearer, within each
2378 block of code we #define ST to alias the relevant union.
2379
2380 Here's a concrete example of a (vastly oversimplified) IFMATCH
2381 implementation:
2382
2383     switch (state) {
2384     ....
2385
2386 #define ST st->u.ifmatch
2387
2388     case IFMATCH: // we are executing the IFMATCH op, (?=A)B
2389         ST.foo = ...; // some state we wish to save
2390         ...
2391         // push a yes backtrack state with a resume value of
2392         // IFMATCH_A/IFMATCH_A_fail, then continue execution at the
2393         // first node of A:
2394         PUSH_YES_STATE_GOTO(IFMATCH_A, A);
2395         // NOTREACHED
2396
2397     case IFMATCH_A: // we have successfully executed A; now continue with B
2398         next = B;
2399         bar = ST.foo; // do something with the preserved value
2400         break;
2401
2402     case IFMATCH_A_fail: // A failed, so the assertion failed
2403         ...;   // do some housekeeping, then ...
2404         sayNO; // propagate the failure
2405
2406 #undef ST
2407
2408     ...
2409     }
2410
2411 For any old-timers reading this who are familiar with the old recursive
2412 approach, the code above is equivalent to:
2413
2414     case IFMATCH: // we are executing the IFMATCH op, (?=A)B
2415     {
2416         int foo = ...
2417         ...
2418         if (regmatch(A)) {
2419             next = B;
2420             bar = foo;
2421             break;
2422         }
2423         ...;   // do some housekeeping, then ...
2424         sayNO; // propagate the failure
2425     }
2426
2427 The topmost backtrack state, pointed to by st, is usually free. If you
2428 want to claim it, populate any ST.foo fields in it with values you wish to
2429 save, then do one of
2430
2431         PUSH_STATE_GOTO(resume_state, node);
2432         PUSH_YES_STATE_GOTO(resume_state, node);
2433
2434 which sets that backtrack state's resume value to 'resume_state', pushes a
2435 new free entry to the top of the backtrack stack, then goes to 'node'.
2436 On backtracking, the free slot is popped, and the saved state becomes the
2437 new free state. An ST.foo field in this new top state can be temporarily
2438 accessed to retrieve values, but once the main loop is re-entered, it
2439 becomes available for reuse.
2440
2441 Note that the depth of the backtrack stack constantly increases during the
2442 left-to-right execution of the pattern, rather than going up and down with
2443 the pattern nesting. For example the stack is at its maximum at Z at the
2444 end of the pattern, rather than at X in the following:
2445
2446     /(((X)+)+)+....(Y)+....Z/
2447
2448 The only exceptions to this are lookahead/behind assertions and the cut,
2449 (?>A), which pop all the backtrack states associated with A before
2450 continuing.
2451  
2452 Bascktrack state structs are allocated in slabs of about 4K in size.
2453 PL_regmatch_state and st always point to the currently active state,
2454 and PL_regmatch_slab points to the slab currently containing
2455 PL_regmatch_state.  The first time regmatch() is called, the first slab is
2456 allocated, and is never freed until interpreter destruction. When the slab
2457 is full, a new one is allocated and chained to the end. At exit from
2458 regmatch(), slabs allocated since entry are freed.
2459
2460 */
2461  
2462
2463 #define DEBUG_STATE_pp(pp)                                  \
2464     DEBUG_STATE_r({                                         \
2465         DUMP_EXEC_POS(locinput, scan, do_utf8);             \
2466         PerlIO_printf(Perl_debug_log,                       \
2467             "    %*s"pp" %s%s%s%s%s\n",                     \
2468             depth*2, "",                                    \
2469             PL_reg_name[st->resume_state],                     \
2470             ((st==yes_state||st==mark_state) ? "[" : ""),   \
2471             ((st==yes_state) ? "Y" : ""),                   \
2472             ((st==mark_state) ? "M" : ""),                  \
2473             ((st==yes_state||st==mark_state) ? "]" : "")    \
2474         );                                                  \
2475     });
2476
2477
2478 #define REG_NODE_NUM(x) ((x) ? (int)((x)-prog) : -1)
2479
2480 #ifdef DEBUGGING
2481
2482 STATIC void
2483 S_debug_start_match(pTHX_ const regexp *prog, const bool do_utf8, 
2484     const char *start, const char *end, const char *blurb)
2485 {
2486     const bool utf8_pat= prog->extflags & RXf_UTF8 ? 1 : 0;
2487     if (!PL_colorset)   
2488             reginitcolors();    
2489     {
2490         RE_PV_QUOTED_DECL(s0, utf8_pat, PERL_DEBUG_PAD_ZERO(0), 
2491             prog->precomp, prog->prelen, 60);   
2492         
2493         RE_PV_QUOTED_DECL(s1, do_utf8, PERL_DEBUG_PAD_ZERO(1), 
2494             start, end - start, 60); 
2495         
2496         PerlIO_printf(Perl_debug_log, 
2497             "%s%s REx%s %s against %s\n", 
2498                        PL_colors[4], blurb, PL_colors[5], s0, s1); 
2499         
2500         if (do_utf8||utf8_pat) 
2501             PerlIO_printf(Perl_debug_log, "UTF-8 %s%s%s...\n",
2502                 utf8_pat ? "pattern" : "",
2503                 utf8_pat && do_utf8 ? " and " : "",
2504                 do_utf8 ? "string" : ""
2505             ); 
2506     }
2507 }
2508
2509 STATIC void
2510 S_dump_exec_pos(pTHX_ const char *locinput, 
2511                       const regnode *scan, 
2512                       const char *loc_regeol, 
2513                       const char *loc_bostr, 
2514                       const char *loc_reg_starttry,
2515                       const bool do_utf8)
2516 {
2517     const int docolor = *PL_colors[0] || *PL_colors[2] || *PL_colors[4];
2518     const int taill = (docolor ? 10 : 7); /* 3 chars for "> <" */
2519     int l = (loc_regeol - locinput) > taill ? taill : (loc_regeol - locinput);
2520     /* The part of the string before starttry has one color
2521        (pref0_len chars), between starttry and current
2522        position another one (pref_len - pref0_len chars),
2523        after the current position the third one.
2524        We assume that pref0_len <= pref_len, otherwise we
2525        decrease pref0_len.  */
2526     int pref_len = (locinput - loc_bostr) > (5 + taill) - l
2527         ? (5 + taill) - l : locinput - loc_bostr;
2528     int pref0_len;
2529
2530     while (do_utf8 && UTF8_IS_CONTINUATION(*(U8*)(locinput - pref_len)))
2531         pref_len++;
2532     pref0_len = pref_len  - (locinput - loc_reg_starttry);
2533     if (l + pref_len < (5 + taill) && l < loc_regeol - locinput)
2534         l = ( loc_regeol - locinput > (5 + taill) - pref_len
2535               ? (5 + taill) - pref_len : loc_regeol - locinput);
2536     while (do_utf8 && UTF8_IS_CONTINUATION(*(U8*)(locinput + l)))
2537         l--;
2538     if (pref0_len < 0)
2539         pref0_len = 0;
2540     if (pref0_len > pref_len)
2541         pref0_len = pref_len;
2542     {
2543         const int is_uni = (do_utf8 && OP(scan) != CANY) ? 1 : 0;
2544
2545         RE_PV_COLOR_DECL(s0,len0,is_uni,PERL_DEBUG_PAD(0),
2546             (locinput - pref_len),pref0_len, 60, 4, 5);
2547         
2548         RE_PV_COLOR_DECL(s1,len1,is_uni,PERL_DEBUG_PAD(1),
2549                     (locinput - pref_len + pref0_len),
2550                     pref_len - pref0_len, 60, 2, 3);
2551         
2552         RE_PV_COLOR_DECL(s2,len2,is_uni,PERL_DEBUG_PAD(2),
2553                     locinput, loc_regeol - locinput, 10, 0, 1);
2554
2555         const STRLEN tlen=len0+len1+len2;
2556         PerlIO_printf(Perl_debug_log,
2557                     "%4"IVdf" <%.*s%.*s%s%.*s>%*s|",
2558                     (IV)(locinput - loc_bostr),
2559                     len0, s0,
2560                     len1, s1,
2561                     (docolor ? "" : "> <"),
2562                     len2, s2,
2563                     (int)(tlen > 19 ? 0 :  19 - tlen),
2564                     "");
2565     }
2566 }
2567
2568 #endif
2569
2570 /* reg_check_named_buff_matched()
2571  * Checks to see if a named buffer has matched. The data array of 
2572  * buffer numbers corresponding to the buffer is expected to reside
2573  * in the regexp->data->data array in the slot stored in the ARG() of
2574  * node involved. Note that this routine doesn't actually care about the
2575  * name, that information is not preserved from compilation to execution.
2576  * Returns the index of the leftmost defined buffer with the given name
2577  * or 0 if non of the buffers matched.
2578  */
2579 STATIC I32
2580 S_reg_check_named_buff_matched(pTHX_ const regexp *rex, const regnode *scan) {
2581     I32 n;
2582     RXi_GET_DECL(rex,rexi);
2583     SV *sv_dat=(SV*)rexi->data->data[ ARG( scan ) ];
2584     I32 *nums=(I32*)SvPVX(sv_dat);
2585     for ( n=0; n<SvIVX(sv_dat); n++ ) {
2586         if ((I32)*PL_reglastparen >= nums[n] &&
2587             PL_regoffs[nums[n]].end != -1)
2588         {
2589             return nums[n];
2590         }
2591     }
2592     return 0;
2593 }
2594
2595 #define SETREX(Re1,Re2) \
2596     if (PL_reg_eval_set) PM_SETRE((PL_reg_curpm), (Re2)); \
2597     Re1 = (Re2)
2598
2599 STATIC I32                      /* 0 failure, 1 success */
2600 S_regmatch(pTHX_ regmatch_info *reginfo, regnode *prog)
2601 {
2602 #if PERL_VERSION < 9 && !defined(PERL_CORE)
2603     dMY_CXT;
2604 #endif
2605     dVAR;
2606     register const bool do_utf8 = PL_reg_match_utf8;
2607     const U32 uniflags = UTF8_ALLOW_DEFAULT;
2608
2609     regexp *rex = reginfo->prog;
2610     RXi_GET_DECL(rex,rexi);
2611     
2612     regmatch_slab  *orig_slab;
2613     regmatch_state *orig_state;
2614
2615     /* the current state. This is a cached copy of PL_regmatch_state */
2616     register regmatch_state *st;
2617
2618     /* cache heavy used fields of st in registers */
2619     register regnode *scan;
2620     register regnode *next;
2621     register U32 n = 0; /* general value; init to avoid compiler warning */
2622     register I32 ln = 0; /* len or last;  init to avoid compiler warning */
2623     register char *locinput = PL_reginput;
2624     register I32 nextchr;   /* is always set to UCHARAT(locinput) */
2625
2626     bool result = 0;        /* return value of S_regmatch */
2627     int depth = 0;          /* depth of backtrack stack */
2628     U32 nochange_depth = 0; /* depth of GOSUB recursion with nochange */
2629     const U32 max_nochange_depth =
2630         (3 * rex->nparens > MAX_RECURSE_EVAL_NOCHANGE_DEPTH) ?
2631         3 * rex->nparens : MAX_RECURSE_EVAL_NOCHANGE_DEPTH;
2632             
2633     regmatch_state *yes_state = NULL; /* state to pop to on success of
2634                                                             subpattern */
2635     /* mark_state piggy backs on the yes_state logic so that when we unwind 
2636        the stack on success we can update the mark_state as we go */
2637     regmatch_state *mark_state = NULL; /* last mark state we have seen */
2638     
2639     regmatch_state *cur_eval = NULL; /* most recent EVAL_AB state */
2640     struct regmatch_state  *cur_curlyx = NULL; /* most recent curlyx */
2641     U32 state_num;
2642     bool no_final = 0;      /* prevent failure from backtracking? */
2643     bool do_cutgroup = 0;   /* no_final only until next branch/trie entry */
2644     char *startpoint = PL_reginput;
2645     SV *popmark = NULL;     /* are we looking for a mark? */
2646     SV *sv_commit = NULL;   /* last mark name seen in failure */
2647     SV *sv_yes_mark = NULL; /* last mark name we have seen 
2648                                during a successfull match */
2649     U32 lastopen = 0;       /* last open we saw */
2650     bool has_cutgroup = RX_HAS_CUTGROUP(rex) ? 1 : 0;   
2651
2652     SV* const oreplsv = GvSV(PL_replgv);
2653                
2654     
2655     /* these three flags are set by various ops to signal information to
2656      * the very next op. They have a useful lifetime of exactly one loop
2657      * iteration, and are not preserved or restored by state pushes/pops
2658      */
2659     bool sw = 0;            /* the condition value in (?(cond)a|b) */
2660     bool minmod = 0;        /* the next "{n,m}" is a "{n,m}?" */
2661     int logical = 0;        /* the following EVAL is:
2662                                 0: (?{...})
2663                                 1: (?(?{...})X|Y)
2664                                 2: (??{...})
2665                                or the following IFMATCH/UNLESSM is:
2666                                 false: plain (?=foo)
2667                                 true:  used as a condition: (?(?=foo))
2668                             */
2669
2670 #ifdef DEBUGGING
2671     GET_RE_DEBUG_FLAGS_DECL;
2672 #endif
2673
2674     DEBUG_OPTIMISE_r( DEBUG_EXECUTE_r({
2675             PerlIO_printf(Perl_debug_log,"regmatch start\n");
2676     }));
2677     /* on first ever call to regmatch, allocate first slab */
2678     if (!PL_regmatch_slab) {
2679         Newx(PL_regmatch_slab, 1, regmatch_slab);
2680         PL_regmatch_slab->prev = NULL;
2681         PL_regmatch_slab->next = NULL;
2682         PL_regmatch_state = SLAB_FIRST(PL_regmatch_slab);
2683     }
2684
2685     /* remember current high-water mark for exit */
2686     /* XXX this should be done with SAVE* instead */
2687     orig_slab  = PL_regmatch_slab;
2688     orig_state = PL_regmatch_state;
2689
2690     /* grab next free state slot */
2691     st = ++PL_regmatch_state;
2692     if (st >  SLAB_LAST(PL_regmatch_slab))
2693         st = PL_regmatch_state = S_push_slab(aTHX);
2694
2695     /* Note that nextchr is a byte even in UTF */
2696     nextchr = UCHARAT(locinput);
2697     scan = prog;
2698     while (scan != NULL) {
2699
2700         DEBUG_EXECUTE_r( {
2701             SV * const prop = sv_newmortal();
2702             regnode *rnext=regnext(scan);
2703             DUMP_EXEC_POS( locinput, scan, do_utf8 );
2704             regprop(rex, prop, scan);
2705             
2706             PerlIO_printf(Perl_debug_log,
2707                     "%3"IVdf":%*s%s(%"IVdf")\n",
2708                     (IV)(scan - rexi->program), depth*2, "",
2709                     SvPVX_const(prop),
2710                     (PL_regkind[OP(scan)] == END || !rnext) ? 
2711                         0 : (IV)(rnext - rexi->program));
2712         });
2713
2714         next = scan + NEXT_OFF(scan);
2715         if (next == scan)
2716             next = NULL;
2717         state_num = OP(scan);
2718
2719       reenter_switch:
2720         switch (state_num) {
2721         case BOL:
2722             if (locinput == PL_bostr)
2723             {
2724                 /* reginfo->till = reginfo->bol; */
2725                 break;
2726             }
2727             sayNO;
2728         case MBOL:
2729             if (locinput == PL_bostr ||
2730                 ((nextchr || locinput < PL_regeol) && locinput[-1] == '\n'))
2731             {
2732                 break;
2733             }
2734             sayNO;
2735         case SBOL:
2736             if (locinput == PL_bostr)
2737                 break;
2738             sayNO;
2739         case GPOS:
2740             if (locinput == reginfo->ganch)
2741                 break;
2742             sayNO;
2743
2744         case KEEPS:
2745             /* update the startpoint */
2746             st->u.keeper.val = PL_regoffs[0].start;
2747             PL_reginput = locinput;
2748             PL_regoffs[0].start = locinput - PL_bostr;
2749             PUSH_STATE_GOTO(KEEPS_next, next);
2750             /*NOT-REACHED*/
2751         case KEEPS_next_fail:
2752             /* rollback the start point change */
2753             PL_regoffs[0].start = st->u.keeper.val;
2754             sayNO_SILENT;
2755             /*NOT-REACHED*/
2756         case EOL:
2757                 goto seol;
2758         case MEOL:
2759             if ((nextchr || locinput < PL_regeol) && nextchr != '\n')
2760                 sayNO;
2761             break;
2762         case SEOL:
2763           seol:
2764             if ((nextchr || locinput < PL_regeol) && nextchr != '\n')
2765                 sayNO;
2766             if (PL_regeol - locinput > 1)
2767                 sayNO;
2768             break;
2769         case EOS:
2770             if (PL_regeol != locinput)
2771                 sayNO;
2772             break;
2773         case SANY:
2774             if (!nextchr && locinput >= PL_regeol)
2775                 sayNO;
2776             if (do_utf8) {
2777                 locinput += PL_utf8skip[nextchr];
2778                 if (locinput > PL_regeol)
2779                     sayNO;
2780                 nextchr = UCHARAT(locinput);
2781             }
2782             else
2783                 nextchr = UCHARAT(++locinput);
2784             break;
2785         case CANY:
2786             if (!nextchr && locinput >= PL_regeol)
2787                 sayNO;
2788             nextchr = UCHARAT(++locinput);
2789             break;
2790         case REG_ANY:
2791             if ((!nextchr && locinput >= PL_regeol) || nextchr == '\n')
2792                 sayNO;
2793             if (do_utf8) {
2794                 locinput += PL_utf8skip[nextchr];
2795                 if (locinput > PL_regeol)
2796                     sayNO;
2797                 nextchr = UCHARAT(locinput);
2798             }
2799             else
2800                 nextchr = UCHARAT(++locinput);
2801             break;
2802
2803 #undef  ST
2804 #define ST st->u.trie
2805         case TRIEC:
2806             /* In this case the charclass data is available inline so
2807                we can fail fast without a lot of extra overhead. 
2808              */
2809             if (scan->flags == EXACT || !do_utf8) {
2810                 if(!ANYOF_BITMAP_TEST(scan, *locinput)) {
2811                     DEBUG_EXECUTE_r(
2812                         PerlIO_printf(Perl_debug_log,
2813                                   "%*s  %sfailed to match trie start class...%s\n",
2814                                   REPORT_CODE_OFF+depth*2, "", PL_colors[4], PL_colors[5])
2815                     );
2816                     sayNO_SILENT;
2817                     /* NOTREACHED */
2818                 }                       
2819             }
2820             /* FALL THROUGH */
2821         case TRIE:
2822             {
2823                 /* what type of TRIE am I? (utf8 makes this contextual) */
2824                 const enum { trie_plain, trie_utf8, trie_utf8_fold }
2825                     trie_type = do_utf8 ?
2826                           (scan->flags == EXACT ? trie_utf8 : trie_utf8_fold)
2827                         : trie_plain;
2828
2829                 /* what trie are we using right now */
2830                 reg_trie_data * const trie
2831                     = (reg_trie_data*)rexi->data->data[ ARG( scan ) ];
2832                 HV * widecharmap = (HV *)rexi->data->data[ ARG( scan ) + 1 ];
2833                 U32 state = trie->startstate;
2834
2835                 if (trie->bitmap && trie_type != trie_utf8_fold &&
2836                     !TRIE_BITMAP_TEST(trie,*locinput)
2837                 ) {
2838                     if (trie->states[ state ].wordnum) {
2839                          DEBUG_EXECUTE_r(
2840                             PerlIO_printf(Perl_debug_log,
2841                                           "%*s  %smatched empty string...%s\n",
2842                                           REPORT_CODE_OFF+depth*2, "", PL_colors[4], PL_colors[5])
2843                         );
2844                         break;
2845                     } else {
2846                         DEBUG_EXECUTE_r(
2847                             PerlIO_printf(Perl_debug_log,
2848                                           "%*s  %sfailed to match trie start class...%s\n",
2849                                           REPORT_CODE_OFF+depth*2, "", PL_colors[4], PL_colors[5])
2850                         );
2851                         sayNO_SILENT;
2852                    }
2853                 }
2854
2855             { 
2856                 U8 *uc = ( U8* )locinput;
2857
2858                 STRLEN len = 0;
2859                 STRLEN foldlen = 0;
2860                 U8 *uscan = (U8*)NULL;
2861                 STRLEN bufflen=0;
2862                 SV *sv_accept_buff = NULL;
2863                 U8 foldbuf[ UTF8_MAXBYTES_CASE + 1 ];
2864
2865                 ST.accepted = 0; /* how many accepting states we have seen */
2866                 ST.B = next;
2867                 ST.jump = trie->jump;
2868                 ST.me = scan;
2869                 /*
2870                    traverse the TRIE keeping track of all accepting states
2871                    we transition through until we get to a failing node.
2872                 */
2873
2874                 while ( state && uc <= (U8*)PL_regeol ) {
2875                     U32 base = trie->states[ state ].trans.base;
2876                     UV uvc = 0;
2877                     U16 charid;
2878                     /* We use charid to hold the wordnum as we don't use it
2879                        for charid until after we have done the wordnum logic. 
2880                        We define an alias just so that the wordnum logic reads
2881                        more naturally. */
2882
2883 #define got_wordnum charid
2884                     got_wordnum = trie->states[ state ].wordnum;
2885
2886                     if ( got_wordnum ) {
2887                         if ( ! ST.accepted ) {
2888                             ENTER;
2889                             SAVETMPS;
2890                             bufflen = TRIE_INITAL_ACCEPT_BUFFLEN;
2891                             sv_accept_buff=newSV(bufflen *
2892                                             sizeof(reg_trie_accepted) - 1);
2893                             SvCUR_set(sv_accept_buff, 0);
2894                             SvPOK_on(sv_accept_buff);
2895                             sv_2mortal(sv_accept_buff);
2896                             SAVETMPS;
2897                             ST.accept_buff =
2898                                 (reg_trie_accepted*)SvPV_nolen(sv_accept_buff );
2899                         }
2900                         do {
2901                             if (ST.accepted >= bufflen) {
2902                                 bufflen *= 2;
2903                                 ST.accept_buff =(reg_trie_accepted*)
2904                                     SvGROW(sv_accept_buff,
2905                                         bufflen * sizeof(reg_trie_accepted));
2906                             }
2907                             SvCUR_set(sv_accept_buff,SvCUR(sv_accept_buff)
2908                                 + sizeof(reg_trie_accepted));
2909
2910
2911                             ST.accept_buff[ST.accepted].wordnum = got_wordnum;
2912                             ST.accept_buff[ST.accepted].endpos = uc;
2913                             ++ST.accepted;
2914                         } while (trie->nextword && (got_wordnum= trie->nextword[got_wordnum]));
2915                     }
2916 #undef got_wordnum 
2917
2918                     DEBUG_TRIE_EXECUTE_r({
2919                                 DUMP_EXEC_POS( (char *)uc, scan, do_utf8 );
2920                                 PerlIO_printf( Perl_debug_log,
2921                                     "%*s  %sState: %4"UVxf" Accepted: %4"UVxf" ",
2922                                     2+depth * 2, "", PL_colors[4],
2923                                     (UV)state, (UV)ST.accepted );
2924                     });
2925
2926                     if ( base ) {
2927                         REXEC_TRIE_READ_CHAR(trie_type, trie, widecharmap, uc,
2928                                              uscan, len, uvc, charid, foldlen,
2929                                              foldbuf, uniflags);
2930
2931                         if (charid &&
2932                              (base + charid > trie->uniquecharcount )
2933                              && (base + charid - 1 - trie->uniquecharcount
2934                                     < trie->lasttrans)
2935                              && trie->trans[base + charid - 1 -
2936                                     trie->uniquecharcount].check == state)
2937                         {
2938                             state = trie->trans[base + charid - 1 -
2939                                 trie->uniquecharcount ].next;
2940                         }
2941                         else {
2942                             state = 0;
2943                         }
2944                         uc += len;
2945
2946                     }
2947                     else {
2948                         state = 0;
2949                     }
2950                     DEBUG_TRIE_EXECUTE_r(
2951                         PerlIO_printf( Perl_debug_log,
2952                             "Charid:%3x CP:%4"UVxf" After State: %4"UVxf"%s\n",
2953                             charid, uvc, (UV)state, PL_colors[5] );
2954                     );
2955                 }
2956                 if (!ST.accepted )
2957                    sayNO;
2958
2959                 DEBUG_EXECUTE_r(
2960                     PerlIO_printf( Perl_debug_log,
2961                         "%*s  %sgot %"IVdf" possible matches%s\n",
2962                         REPORT_CODE_OFF + depth * 2, "",
2963                         PL_colors[4], (IV)ST.accepted, PL_colors[5] );
2964                 );
2965             }}
2966             goto trie_first_try; /* jump into the fail handler */
2967             /* NOTREACHED */
2968         case TRIE_next_fail: /* we failed - try next alterative */
2969             if ( ST.jump) {
2970                 REGCP_UNWIND(ST.cp);
2971                 for (n = *PL_reglastparen; n > ST.lastparen; n--)
2972                     PL_regoffs[n].end = -1;
2973                 *PL_reglastparen = n;
2974             }
2975           trie_first_try:
2976             if (do_cutgroup) {
2977                 do_cutgroup = 0;
2978                 no_final = 0;
2979             }
2980
2981             if ( ST.jump) {
2982                 ST.lastparen = *PL_reglastparen;
2983                 REGCP_SET(ST.cp);
2984             }           
2985             if ( ST.accepted == 1 ) {
2986                 /* only one choice left - just continue */
2987                 DEBUG_EXECUTE_r({
2988                     AV *const trie_words
2989                         = (AV *) rexi->data->data[ARG(ST.me)+TRIE_WORDS_OFFSET];
2990                     SV ** const tmp = av_fetch( trie_words, 
2991                         ST.accept_buff[ 0 ].wordnum-1, 0 );
2992                     SV *sv= tmp ? sv_newmortal() : NULL;
2993                     
2994                     PerlIO_printf( Perl_debug_log,
2995                         "%*s  %sonly one match left: #%d <%s>%s\n",
2996                         REPORT_CODE_OFF+depth*2, "", PL_colors[4],
2997                         ST.accept_buff[ 0 ].wordnum,
2998                         tmp ? pv_pretty(sv, SvPV_nolen_const(*tmp), SvCUR(*tmp), 0, 
2999                                 PL_colors[0], PL_colors[1],
3000                                 (SvUTF8(*tmp) ? PERL_PV_ESCAPE_UNI : 0)
3001                             ) 
3002                         : "not compiled under -Dr",
3003                         PL_colors[5] );
3004                 });
3005                 PL_reginput = (char *)ST.accept_buff[ 0 ].endpos;
3006                 /* in this case we free tmps/leave before we call regmatch
3007                    as we wont be using accept_buff again. */
3008                 
3009                 locinput = PL_reginput;
3010                 nextchr = UCHARAT(locinput);
3011                 if ( !ST.jump || !ST.jump[ST.accept_buff[0].wordnum]) 
3012                     scan = ST.B;
3013                 else
3014                     scan = ST.me + ST.jump[ST.accept_buff[0].wordnum];
3015                 if (!has_cutgroup) {
3016                     FREETMPS;
3017                     LEAVE;
3018                 } else {
3019                     ST.accepted--;
3020                     PUSH_YES_STATE_GOTO(TRIE_next, scan);
3021                 }
3022                 
3023                 continue; /* execute rest of RE */
3024             }
3025             
3026             if ( !ST.accepted-- ) {
3027                 DEBUG_EXECUTE_r({
3028                     PerlIO_printf( Perl_debug_log,
3029                         "%*s  %sTRIE failed...%s\n",
3030                         REPORT_CODE_OFF+depth*2, "", 
3031                         PL_colors[4],
3032                         PL_colors[5] );
3033                 });
3034                 FREETMPS;
3035                 LEAVE;
3036                 sayNO_SILENT;
3037                 /*NOTREACHED*/
3038             } 
3039
3040             /*
3041                There are at least two accepting states left.  Presumably
3042                the number of accepting states is going to be low,
3043                typically two. So we simply scan through to find the one
3044                with lowest wordnum.  Once we find it, we swap the last
3045                state into its place and decrement the size. We then try to
3046                match the rest of the pattern at the point where the word
3047                ends. If we succeed, control just continues along the
3048                regex; if we fail we return here to try the next accepting
3049                state
3050              */
3051
3052             {
3053                 U32 best = 0;
3054                 U32 cur;
3055                 for( cur = 1 ; cur <= ST.accepted ; cur++ ) {
3056                     DEBUG_TRIE_EXECUTE_r(
3057                         PerlIO_printf( Perl_debug_log,
3058                             "%*s  %sgot %"IVdf" (%d) as best, looking at %"IVdf" (%d)%s\n",
3059                             REPORT_CODE_OFF + depth * 2, "", PL_colors[4],
3060                             (IV)best, ST.accept_buff[ best ].wordnum, (IV)cur,
3061                             ST.accept_buff[ cur ].wordnum, PL_colors[5] );
3062                     );
3063
3064                     if (ST.accept_buff[cur].wordnum <
3065                             ST.accept_buff[best].wordnum)
3066                         best = cur;
3067                 }
3068
3069                 DEBUG_EXECUTE_r({
3070                     AV *const trie_words
3071                         = (AV *) rexi->data->data[ARG(ST.me)+TRIE_WORDS_OFFSET];
3072                     SV ** const tmp = av_fetch( trie_words, 
3073                         ST.accept_buff[ best ].wordnum - 1, 0 );
3074                     regnode *nextop=(!ST.jump || !ST.jump[ST.accept_buff[best].wordnum]) ? 
3075                                     ST.B : 
3076                                     ST.me + ST.jump[ST.accept_buff[best].wordnum];    
3077                     SV *sv= tmp ? sv_newmortal() : NULL;
3078                     
3079                     PerlIO_printf( Perl_debug_log, 
3080                         "%*s  %strying alternation #%d <%s> at node #%d %s\n",
3081                         REPORT_CODE_OFF+depth*2, "", PL_colors[4],
3082                         ST.accept_buff[best].wordnum,
3083                         tmp ? pv_pretty(sv, SvPV_nolen_const(*tmp), SvCUR(*tmp), 0, 
3084                                 PL_colors[0], PL_colors[1],
3085                                 (SvUTF8(*tmp) ? PERL_PV_ESCAPE_UNI : 0)
3086                             ) : "not compiled under -Dr", 
3087                             REG_NODE_NUM(nextop),
3088                         PL_colors[5] );
3089                 });
3090
3091                 if ( best<ST.accepted ) {
3092                     reg_trie_accepted tmp = ST.accept_buff[ best ];
3093                     ST.accept_buff[ best ] = ST.accept_buff[ ST.accepted ];
3094                     ST.accept_buff[ ST.accepted ] = tmp;
3095                     best = ST.accepted;
3096                 }
3097                 PL_reginput = (char *)ST.accept_buff[ best ].endpos;
3098                 if ( !ST.jump || !ST.jump[ST.accept_buff[best].wordnum]) {
3099                     scan = ST.B;
3100                     /* NOTREACHED */
3101                 } else {
3102                     scan = ST.me + ST.jump[ST.accept_buff[best].wordnum];
3103                     /* NOTREACHED */
3104                 }
3105                 if (has_cutgroup) {
3106                     PUSH_YES_STATE_GOTO(TRIE_next, scan);    
3107                     /* NOTREACHED */
3108                 } else {
3109                     PUSH_STATE_GOTO(TRIE_next, scan);
3110                     /* NOTREACHED */
3111                 }
3112                 /* NOTREACHED */
3113             }
3114             /* NOTREACHED */
3115         case TRIE_next:
3116             FREETMPS;
3117             LEAVE;
3118             sayYES;
3119 #undef  ST
3120
3121         case EXACT: {
3122             char *s = STRING(scan);
3123             ln = STR_LEN(scan);
3124             if (do_utf8 != UTF) {
3125                 /* The target and the pattern have differing utf8ness. */
3126                 char *l = locinput;
3127                 const char * const e = s + ln;
3128
3129                 if (do_utf8) {
3130                     /* The target is utf8, the pattern is not utf8. */
3131                     while (s < e) {
3132                         STRLEN ulen;
3133                         if (l >= PL_regeol)
3134                              sayNO;
3135                         if (NATIVE_TO_UNI(*(U8*)s) !=
3136                             utf8n_to_uvuni((U8*)l, UTF8_MAXBYTES, &ulen,
3137                                             uniflags))
3138                              sayNO;
3139                         l += ulen;
3140                         s ++;
3141                     }
3142                 }
3143                 else {
3144                     /* The target is not utf8, the pattern is utf8. */
3145                     while (s < e) {
3146                         STRLEN ulen;
3147                         if (l >= PL_regeol)
3148                             sayNO;
3149                         if (NATIVE_TO_UNI(*((U8*)l)) !=
3150                             utf8n_to_uvuni((U8*)s, UTF8_MAXBYTES, &ulen,
3151                                            uniflags))
3152                             sayNO;
3153                         s += ulen;
3154                         l ++;
3155                     }
3156                 }
3157                 locinput = l;
3158                 nextchr = UCHARAT(locinput);
3159                 break;
3160             }
3161             /* The target and the pattern have the same utf8ness. */
3162             /* Inline the first character, for speed. */
3163             if (UCHARAT(s) != nextchr)
3164                 sayNO;
3165             if (PL_regeol - locinput < ln)
3166                 sayNO;
3167             if (ln > 1 && memNE(s, locinput, ln))
3168                 sayNO;
3169             locinput += ln;
3170             nextchr = UCHARAT(locinput);
3171             break;
3172             }
3173         case EXACTFL:
3174             PL_reg_flags |= RF_tainted;
3175             /* FALL THROUGH */
3176         case EXACTF: {
3177             char * const s = STRING(scan);
3178             ln = STR_LEN(scan);
3179
3180             if (do_utf8 || UTF) {
3181               /* Either target or the pattern are utf8. */
3182                 const char * const l = locinput;
3183                 char *e = PL_regeol;
3184
3185                 if (ibcmp_utf8(s, 0,  ln, (bool)UTF,
3186                                l, &e, 0,  do_utf8)) {
3187                      /* One more case for the sharp s:
3188                       * pack("U0U*", 0xDF) =~ /ss/i,
3189                       * the 0xC3 0x9F are the UTF-8
3190                       * byte sequence for the U+00DF. */
3191                      if (!(do_utf8 &&
3192                            toLOWER(s[0]) == 's' &&
3193                            ln >= 2 &&
3194                            toLOWER(s[1]) == 's' &&
3195                            (U8)l[0] == 0xC3 &&
3196                            e - l >= 2 &&
3197                            (U8)l[1] == 0x9F))
3198                           sayNO;
3199                 }
3200                 locinput = e;
3201                 nextchr = UCHARAT(locinput);
3202                 break;
3203             }
3204
3205             /* Neither the target and the pattern are utf8. */
3206
3207             /* Inline the first character, for speed. */
3208             if (UCHARAT(s) != nextchr &&
3209                 UCHARAT(s) != ((OP(scan) == EXACTF)
3210                                ? PL_fold : PL_fold_locale)[nextchr])
3211                 sayNO;
3212             if (PL_regeol - locinput < ln)
3213                 sayNO;
3214             if (ln > 1 && (OP(scan) == EXACTF
3215                            ? ibcmp(s, locinput, ln)
3216                            : ibcmp_locale(s, locinput, ln)))
3217                 sayNO;
3218             locinput += ln;
3219             nextchr = UCHARAT(locinput);
3220             break;
3221             }
3222         case ANYOF:
3223             if (do_utf8) {
3224                 STRLEN inclasslen = PL_regeol - locinput;
3225
3226                 if (!reginclass(rex, scan, (U8*)locinput, &inclasslen, do_utf8))
3227                     goto anyof_fail;
3228                 if (locinput >= PL_regeol)
3229                     sayNO;
3230                 locinput += inclasslen ? inclasslen : UTF8SKIP(locinput);
3231                 nextchr = UCHARAT(locinput);
3232                 break;
3233             }
3234             else {
3235                 if (nextchr < 0)
3236                     nextchr = UCHARAT(locinput);
3237                 if (!REGINCLASS(rex, scan, (U8*)locinput))
3238                     goto anyof_fail;
3239                 if (!nextchr && locinput >= PL_regeol)
3240                     sayNO;
3241                 nextchr = UCHARAT(++locinput);
3242                 break;
3243             }
3244         anyof_fail:
3245             /* If we might have the case of the German sharp s
3246              * in a casefolding Unicode character class. */
3247
3248             if (ANYOF_FOLD_SHARP_S(scan, locinput, PL_regeol)) {
3249                  locinput += SHARP_S_SKIP;
3250                  nextchr = UCHARAT(locinput);
3251             }
3252             else
3253                  sayNO;
3254             break;
3255         case ALNUML:
3256             PL_reg_flags |= RF_tainted;
3257             /* FALL THROUGH */
3258         case ALNUM:
3259             if (!nextchr)
3260                 sayNO;
3261             if (do_utf8) {
3262                 LOAD_UTF8_CHARCLASS_ALNUM();
3263                 if (!(OP(scan) == ALNUM
3264                       ? (bool)swash_fetch(PL_utf8_alnum, (U8*)locinput, do_utf8)
3265                       : isALNUM_LC_utf8((U8*)locinput)))
3266                 {
3267                     sayNO;
3268                 }
3269                 locinput += PL_utf8skip[nextchr];
3270                 nextchr = UCHARAT(locinput);
3271                 break;
3272             }
3273             if (!(OP(scan) == ALNUM
3274                   ? isALNUM(nextchr) : isALNUM_LC(nextchr)))
3275                 sayNO;
3276             nextchr = UCHARAT(++locinput);
3277             break;
3278         case NALNUML:
3279             PL_reg_flags |= RF_tainted;
3280             /* FALL THROUGH */
3281         case NALNUM:
3282             if (!nextchr && locinput >= PL_regeol)
3283                 sayNO;
3284             if (do_utf8) {
3285                 LOAD_UTF8_CHARCLASS_ALNUM();
3286                 if (OP(scan) == NALNUM
3287                     ? (bool)swash_fetch(PL_utf8_alnum, (U8*)locinput, do_utf8)
3288                     : isALNUM_LC_utf8((U8*)locinput))
3289                 {
3290                     sayNO;
3291                 }
3292                 locinput += PL_utf8skip[nextchr];
3293                 nextchr = UCHARAT(locinput);
3294                 break;
3295             }
3296             if (OP(scan) == NALNUM
3297                 ? isALNUM(nextchr) : isALNUM_LC(nextchr))
3298                 sayNO;
3299             nextchr = UCHARAT(++locinput);
3300             break;
3301         case BOUNDL:
3302         case NBOUNDL:
3303             PL_reg_flags |= RF_tainted;
3304             /* FALL THROUGH */
3305         case BOUND:
3306         case NBOUND:
3307             /* was last char in word? */
3308             if (do_utf8) {
3309                 if (locinput == PL_bostr)
3310                     ln = '\n';
3311                 else {
3312                     const U8 * const r = reghop3((U8*)locinput, -1, (U8*)PL_bostr);
3313                 
3314                     ln = utf8n_to_uvchr(r, UTF8SKIP(r), 0, uniflags);
3315                 }
3316                 if (OP(scan) == BOUND || OP(scan) == NBOUND) {
3317                     ln = isALNUM_uni(ln);
3318                     LOAD_UTF8_CHARCLASS_ALNUM();
3319                     n = swash_fetch(PL_utf8_alnum, (U8*)locinput, do_utf8);
3320                 }
3321                 else {
3322                     ln = isALNUM_LC_uvchr(UNI_TO_NATIVE(ln));
3323                     n = isALNUM_LC_utf8((U8*)locinput);
3324                 }
3325             }
3326             else {
3327                 ln = (locinput != PL_bostr) ?
3328                     UCHARAT(locinput - 1) : '\n';
3329                 if (OP(scan) == BOUND || OP(scan) == NBOUND) {
3330                     ln = isALNUM(ln);
3331                     n = isALNUM(nextchr);
3332                 }
3333                 else {
3334                     ln = isALNUM_LC(ln);
3335                     n = isALNUM_LC(nextchr);
3336                 }
3337             }
3338             if (((!ln) == (!n)) == (OP(scan) == BOUND ||
3339                                     OP(scan) == BOUNDL))
3340                     sayNO;
3341             break;
3342         case SPACEL:
3343             PL_reg_flags |= RF_tainted;
3344             /* FALL THROUGH */
3345         case SPACE:
3346             if (!nextchr)
3347                 sayNO;
3348             if (do_utf8) {
3349                 if (UTF8_IS_CONTINUED(nextchr)) {
3350                     LOAD_UTF8_CHARCLASS_SPACE();
3351                     if (!(OP(scan) == SPACE
3352                           ? (bool)swash_fetch(PL_utf8_space, (U8*)locinput, do_utf8)
3353                           : isSPACE_LC_utf8((U8*)locinput)))
3354                     {
3355                         sayNO;
3356                     }
3357                     locinput += PL_utf8skip[nextchr];
3358                     nextchr = UCHARAT(locinput);
3359                     break;
3360                 }
3361                 if (!(OP(scan) == SPACE
3362                       ? isSPACE(nextchr) : isSPACE_LC(nextchr)))
3363                     sayNO;
3364                 nextchr = UCHARAT(++locinput);
3365             }
3366             else {
3367                 if (!(OP(scan) == SPACE
3368                       ? isSPACE(nextchr) : isSPACE_LC(nextchr)))
3369                     sayNO;
3370                 nextchr = UCHARAT(++locinput);
3371             }
3372             break;
3373         case NSPACEL:
3374             PL_reg_flags |= RF_tainted;
3375             /* FALL THROUGH */
3376         case NSPACE:
3377             if (!nextchr && locinput >= PL_regeol)
3378                 sayNO;
3379             if (do_utf8) {
3380                 LOAD_UTF8_CHARCLASS_SPACE();
3381                 if (OP(scan) == NSPACE
3382                     ? (bool)swash_fetch(PL_utf8_space, (U8*)locinput, do_utf8)
3383                     : isSPACE_LC_utf8((U8*)locinput))
3384                 {
3385                     sayNO;
3386                 }
3387                 locinput += PL_utf8skip[nextchr];
3388                 nextchr = UCHARAT(locinput);
3389                 break;
3390             }
3391             if (OP(scan) == NSPACE
3392                 ? isSPACE(nextchr) : isSPACE_LC(nextchr))
3393                 sayNO;
3394             nextchr = UCHARAT(++locinput);
3395             break;
3396         case DIGITL:
3397             PL_reg_flags |= RF_tainted;
3398             /* FALL THROUGH */
3399         case DIGIT:
3400             if (!nextchr)
3401                 sayNO;
3402             if (do_utf8) {
3403                 LOAD_UTF8_CHARCLASS_DIGIT();
3404                 if (!(OP(scan) == DIGIT
3405                       ? (bool)swash_fetch(PL_utf8_digit, (U8*)locinput, do_utf8)
3406                       : isDIGIT_LC_utf8((U8*)locinput)))
3407                 {
3408                     sayNO;
3409                 }
3410                 locinput += PL_utf8skip[nextchr];
3411                 nextchr = UCHARAT(locinput);
3412                 break;
3413             }
3414             if (!(OP(scan) == DIGIT
3415                   ? isDIGIT(nextchr) : isDIGIT_LC(nextchr)))
3416                 sayNO;
3417             nextchr = UCHARAT(++locinput);
3418             break;
3419         case NDIGITL:
3420             PL_reg_flags |= RF_tainted;
3421             /* FALL THROUGH */
3422         case NDIGIT:
3423             if (!nextchr && locinput >= PL_regeol)
3424                 sayNO;
3425             if (do_utf8) {
3426                 LOAD_UTF8_CHARCLASS_DIGIT();
3427                 if (OP(scan) == NDIGIT
3428                     ? (bool)swash_fetch(PL_utf8_digit, (U8*)locinput, do_utf8)
3429                     : isDIGIT_LC_utf8((U8*)locinput))
3430                 {
3431                     sayNO;
3432                 }
3433                 locinput += PL_utf8skip[nextchr];
3434                 nextchr = UCHARAT(locinput);
3435                 break;
3436             }
3437             if (OP(scan) == NDIGIT
3438                 ? isDIGIT(nextchr) : isDIGIT_LC(nextchr))
3439                 sayNO;
3440             nextchr = UCHARAT(++locinput);
3441             break;
3442         case CLUMP:
3443             if (locinput >= PL_regeol)
3444                 sayNO;
3445             if  (do_utf8) {
3446                 LOAD_UTF8_CHARCLASS_MARK();
3447                 if (swash_fetch(PL_utf8_mark,(U8*)locinput, do_utf8))
3448                     sayNO;
3449                 locinput += PL_utf8skip[nextchr];
3450                 while (locinput < PL_regeol &&
3451                        swash_fetch(PL_utf8_mark,(U8*)locinput, do_utf8))
3452                     locinput += UTF8SKIP(locinput);
3453                 if (locinput > PL_regeol)
3454                     sayNO;
3455             } 
3456             else
3457                locinput++;
3458             nextchr = UCHARAT(locinput);
3459             break;
3460             
3461         case NREFFL:
3462         {
3463             char *s;
3464             char type;
3465             PL_reg_flags |= RF_tainted;
3466             /* FALL THROUGH */
3467         case NREF:
3468         case NREFF:
3469             type = OP(scan);
3470             n = reg_check_named_buff_matched(rex,scan);
3471
3472             if ( n ) {
3473                 type = REF + ( type - NREF );
3474                 goto do_ref;
3475             } else {
3476                 sayNO;
3477             }
3478             /* unreached */
3479         case REFFL:
3480             PL_reg_flags |= RF_tainted;
3481             /* FALL THROUGH */
3482         case REF:
3483         case REFF: 
3484             n = ARG(scan);  /* which paren pair */
3485             type = OP(scan);
3486           do_ref:  
3487             ln = PL_regoffs[n].start;
3488             PL_reg_leftiter = PL_reg_maxiter;           /* Void cache */
3489             if (*PL_reglastparen < n || ln == -1)
3490                 sayNO;                  /* Do not match unless seen CLOSEn. */
3491             if (ln == PL_regoffs[n].end)
3492                 break;
3493
3494             s = PL_bostr + ln;
3495             if (do_utf8 && type != REF) {       /* REF can do byte comparison */
3496                 char *l = locinput;
3497                 const char *e = PL_bostr + PL_regoffs[n].end;
3498                 /*
3499                  * Note that we can't do the "other character" lookup trick as
3500                  * in the 8-bit case (no pun intended) because in Unicode we
3501                  * have to map both upper and title case to lower case.
3502                  */
3503                 if (type == REFF) {
3504                     while (s < e) {
3505                         STRLEN ulen1, ulen2;
3506                         U8 tmpbuf1[UTF8_MAXBYTES_CASE+1];
3507                         U8 tmpbuf2[UTF8_MAXBYTES_CASE+1];
3508
3509                         if (l >= PL_regeol)
3510                             sayNO;
3511                         toLOWER_utf8((U8*)s, tmpbuf1, &ulen1);
3512                         toLOWER_utf8((U8*)l, tmpbuf2, &ulen2);
3513                         if (ulen1 != ulen2 || memNE((char *)tmpbuf1, (char *)tmpbuf2, ulen1))
3514                             sayNO;
3515                         s += ulen1;
3516                         l += ulen2;
3517                     }
3518                 }
3519                 locinput = l;
3520                 nextchr = UCHARAT(locinput);
3521                 break;
3522             }
3523
3524             /* Inline the first character, for speed. */
3525             if (UCHARAT(s) != nextchr &&
3526                 (type == REF ||
3527                  (UCHARAT(s) != (type == REFF
3528                                   ? PL_fold : PL_fold_locale)[nextchr])))
3529                 sayNO;
3530             ln = PL_regoffs[n].end - ln;
3531             if (locinput + ln > PL_regeol)
3532                 sayNO;
3533             if (ln > 1 && (type == REF
3534                            ? memNE(s, locinput, ln)
3535                            : (type == REFF
3536                               ? ibcmp(s, locinput, ln)
3537                               : ibcmp_locale(s, locinput, ln))))
3538                 sayNO;
3539             locinput += ln;
3540             nextchr = UCHARAT(locinput);
3541             break;
3542         }
3543         case NOTHING:
3544         case TAIL:
3545             break;
3546         case BACK:
3547             break;
3548
3549 #undef  ST
3550 #define ST st->u.eval
3551         {
3552             SV *ret;
3553             regexp *re;
3554             regexp_internal *rei;
3555             regnode *startpoint;
3556
3557         case GOSTART:
3558         case GOSUB: /*    /(...(?1))/   /(...(?&foo))/   */
3559             if (cur_eval && cur_eval->locinput==locinput) {
3560                 if (cur_eval->u.eval.close_paren == (U32)ARG(scan)) 
3561                     Perl_croak(aTHX_ "Infinite recursion in regex");
3562                 if ( ++nochange_depth > max_nochange_depth )
3563                     Perl_croak(aTHX_ 
3564                         "Pattern subroutine nesting without pos change"
3565                         " exceeded limit in regex");
3566             } else {
3567                 nochange_depth = 0;
3568             }
3569             re = rex;
3570             rei = rexi;
3571             (void)ReREFCNT_inc(rex);
3572             if (OP(scan)==GOSUB) {
3573                 startpoint = scan + ARG2L(scan);
3574                 ST.close_paren = ARG(scan);
3575             } else {
3576                 startpoint = rei->program+1;
3577                 ST.close_paren = 0;
3578             }
3579             goto eval_recurse_doit;
3580             /* NOTREACHED */
3581         case EVAL:  /*   /(?{A})B/   /(??{A})B/  and /(?(?{A})X|Y)B/   */        
3582             if (cur_eval && cur_eval->locinput==locinput) {
3583                 if ( ++nochange_depth > max_nochange_depth )
3584                     Perl_croak(aTHX_ "EVAL without pos change exceeded limit in regex");
3585             } else {
3586                 nochange_depth = 0;
3587             }    
3588             {
3589                 /* execute the code in the {...} */
3590                 dSP;
3591                 SV ** const before = SP;
3592                 OP_4tree * const oop = PL_op;
3593                 COP * const ocurcop = PL_curcop;
3594                 PAD *old_comppad;
3595             
3596                 n = ARG(scan);
3597                 PL_op = (OP_4tree*)rexi->data->data[n];
3598                 DEBUG_STATE_r( PerlIO_printf(Perl_debug_log, 
3599                     "  re_eval 0x%"UVxf"\n", PTR2UV(PL_op)) );
3600                 PAD_SAVE_LOCAL(old_comppad, (PAD*)rexi->data->data[n + 2]);
3601                 PL_regoffs[0].end = PL_reg_magic->mg_len = locinput - PL_bostr;
3602
3603                 if (sv_yes_mark) {
3604                     SV *sv_mrk = get_sv("REGMARK", 1);
3605                     sv_setsv(sv_mrk, sv_yes_mark);
3606                 }
3607
3608                 CALLRUNOPS(aTHX);                       /* Scalar context. */
3609                 SPAGAIN;
3610                 if (SP == before)
3611                     ret = &PL_sv_undef;   /* protect against empty (?{}) blocks. */
3612                 else {
3613                     ret = POPs;
3614                     PUTBACK;
3615                 }
3616
3617                 PL_op = oop;
3618                 PAD_RESTORE_LOCAL(old_comppad);
3619                 PL_curcop = ocurcop;
3620                 if (!logical) {
3621                     /* /(?{...})/ */
3622                     sv_setsv(save_scalar(PL_replgv), ret);
3623                     break;
3624                 }
3625             }
3626             if (logical == 2) { /* Postponed subexpression: /(??{...})/ */
3627                 logical = 0;
3628                 {
3629                     /* extract RE object from returned value; compiling if
3630                      * necessary */
3631
3632                     MAGIC *mg = NULL;
3633                     const SV *sv;
3634                     if(SvROK(ret) && SvSMAGICAL(sv = SvRV(ret)))
3635                         mg = mg_find(sv, PERL_MAGIC_qr);
3636                     else if (SvSMAGICAL(ret)) {
3637                         if (SvGMAGICAL(ret))
3638                             sv_unmagic(ret, PERL_MAGIC_qr);
3639                         else
3640                             mg = mg_find(ret, PERL_MAGIC_qr);
3641                     }
3642
3643                     if (mg) {
3644                         re = reg_temp_copy((regexp *)mg->mg_obj); /*XXX:dmq*/
3645                     }
3646                     else {
3647                         STRLEN len;
3648                         const char * const t = SvPV_const(ret, len);
3649                         PMOP pm;
3650                         const I32 osize = PL_regsize;
3651
3652                         Zero(&pm, 1, PMOP);
3653                         if (DO_UTF8(ret)) pm.op_pmdynflags |= PMdf_DYN_UTF8;
3654                         re = CALLREGCOMP((char*)t, (char*)t + len, &pm);
3655                         if (!(SvFLAGS(ret)
3656                               & (SVs_TEMP | SVs_PADTMP | SVf_READONLY
3657                                 | SVs_GMG)))
3658                             sv_magic(ret,(SV*)ReREFCNT_inc(re),
3659                                         PERL_MAGIC_qr,0,0);
3660                         PL_regsize = osize;
3661                     }
3662                 }
3663                 RX_MATCH_COPIED_off(re);
3664                 re->subbeg = rex->subbeg;
3665                 re->sublen = rex->sublen;
3666                 rei = RXi_GET(re);
3667                 DEBUG_EXECUTE_r(
3668                     debug_start_match(re, do_utf8, locinput, PL_regeol, 
3669                         "Matching embedded");
3670                 );              
3671                 startpoint = rei->program + 1;
3672                 ST.close_paren = 0; /* only used for GOSUB */
3673                 /* borrowed from regtry */
3674                 if (PL_reg_start_tmpl <= re->nparens) {
3675                     PL_reg_start_tmpl = re->nparens*3/2 + 3;
3676                     if(PL_reg_start_tmp)
3677                         Renew(PL_reg_start_tmp, PL_reg_start_tmpl, char*);
3678                     else
3679                         Newx(PL_reg_start_tmp, PL_reg_start_tmpl, char*);
3680                 }                       
3681
3682         eval_recurse_doit: /* Share code with GOSUB below this line */                          
3683                 /* run the pattern returned from (??{...}) */
3684                 ST.cp = regcppush(0);   /* Save *all* the positions. */
3685                 REGCP_SET(ST.lastcp);
3686                 
3687                 PL_regoffs = re->offs; /* essentially NOOP on GOSUB */
3688                 
3689                 *PL_reglastparen = 0;
3690                 *PL_reglastcloseparen = 0;
3691                 PL_reginput = locinput;
3692                 PL_regsize = 0;
3693
3694                 /* XXXX This is too dramatic a measure... */
3695                 PL_reg_maxiter = 0;
3696
3697                 ST.toggle_reg_flags = PL_reg_flags;
3698                 if (re->extflags & RXf_UTF8)
3699                     PL_reg_flags |= RF_utf8;
3700                 else
3701                     PL_reg_flags &= ~RF_utf8;
3702                 ST.toggle_reg_flags ^= PL_reg_flags; /* diff of old and new */
3703
3704                 ST.prev_rex = rex;
3705                 ST.prev_curlyx = cur_curlyx;
3706                 SETREX(rex,re);
3707                 rexi = rei;
3708                 cur_curlyx = NULL;
3709                 ST.B = next;
3710                 ST.prev_eval = cur_eval;
3711                 cur_eval = st;
3712                 /* now continue from first node in postoned RE */
3713                 PUSH_YES_STATE_GOTO(EVAL_AB, startpoint);
3714                 /* NOTREACHED */
3715             }
3716             /* logical is 1,   /(?(?{...})X|Y)/ */
3717             sw = (bool)SvTRUE(ret);
3718             logical = 0;
3719             break;
3720         }
3721
3722         case EVAL_AB: /* cleanup after a successful (??{A})B */
3723             /* note: this is called twice; first after popping B, then A */
3724             PL_reg_flags ^= ST.toggle_reg_flags; 
3725             ReREFCNT_dec(rex);
3726             SETREX(rex,ST.prev_rex);
3727             rexi = RXi_GET(rex);
3728             regcpblow(ST.cp);
3729             cur_eval = ST.prev_eval;
3730             cur_curlyx = ST.prev_curlyx;
3731             /* XXXX This is too dramatic a measure... */
3732             PL_reg_maxiter = 0;
3733             if ( nochange_depth )
3734                 nochange_depth--;
3735             sayYES;
3736
3737
3738         case EVAL_AB_fail: /* unsuccessfully ran A or B in (??{A})B */
3739             /* note: this is called twice; first after popping B, then A */
3740             PL_reg_flags ^= ST.toggle_reg_flags; 
3741             ReREFCNT_dec(rex);
3742             SETREX(rex,ST.prev_rex);
3743             rexi = RXi_GET(rex); 
3744             PL_reginput = locinput;
3745             REGCP_UNWIND(ST.lastcp);
3746             regcppop(rex);
3747             cur_eval = ST.prev_eval;
3748             cur_curlyx = ST.prev_curlyx;
3749             /* XXXX This is too dramatic a measure... */
3750             PL_reg_maxiter = 0;
3751             if ( nochange_depth )
3752                 nochange_depth--;
3753             sayNO_SILENT;
3754 #undef ST
3755
3756         case OPEN:
3757             n = ARG(scan);  /* which paren pair */
3758             PL_reg_start_tmp[n] = locinput;
3759             if (n > PL_regsize)
3760                 PL_regsize = n;
3761             lastopen = n;
3762             break;
3763         case CLOSE:
3764             n = ARG(scan);  /* which paren pair */
3765             PL_regoffs[n].start = PL_reg_start_tmp[n] - PL_bostr;
3766             PL_regoffs[n].end = locinput - PL_bostr;
3767             /*if (n > PL_regsize)
3768                 PL_regsize = n;*/
3769             if (n > *PL_reglastparen)
3770                 *PL_reglastparen = n;
3771             *PL_reglastcloseparen = n;
3772             if (cur_eval && cur_eval->u.eval.close_paren == n) {
3773                 goto fake_end;
3774             }    
3775             break;
3776         case ACCEPT:
3777             if (ARG(scan)){
3778                 regnode *cursor;
3779                 for (cursor=scan;
3780                      cursor && OP(cursor)!=END; 
3781                      cursor=regnext(cursor)) 
3782                 {
3783                     if ( OP(cursor)==CLOSE ){
3784                         n = ARG(cursor);
3785                         if ( n <= lastopen ) {
3786                             PL_regoffs[n].start
3787                                 = PL_reg_start_tmp[n] - PL_bostr;
3788                             PL_regoffs[n].end = locinput - PL_bostr;
3789                             /*if (n > PL_regsize)
3790                             PL_regsize = n;*/
3791                             if (n > *PL_reglastparen)
3792                                 *PL_reglastparen = n;
3793                             *PL_reglastcloseparen = n;
3794                             if ( n == ARG(scan) || (cur_eval &&
3795                                 cur_eval->u.eval.close_paren == n))
3796                                 break;
3797                         }
3798                     }
3799                 }
3800             }
3801             goto fake_end;
3802             /*NOTREACHED*/          
3803         case GROUPP:
3804             n = ARG(scan);  /* which paren pair */
3805             sw = (bool)(*PL_reglastparen >= n && PL_regoffs[n].end != -1);
3806             break;
3807         case NGROUPP:
3808             /* reg_check_named_buff_matched returns 0 for no match */
3809             sw = (bool)(0 < reg_check_named_buff_matched(rex,scan));
3810             break;
3811         case INSUBP:
3812             n = ARG(scan);
3813             sw = (cur_eval && (!n || cur_eval->u.eval.close_paren == n));
3814             break;
3815         case DEFINEP:
3816             sw = 0;
3817             break;
3818         case IFTHEN:
3819             PL_reg_leftiter = PL_reg_maxiter;           /* Void cache */
3820             if (sw)
3821                 next = NEXTOPER(NEXTOPER(scan));
3822             else {
3823                 next = scan + ARG(scan);
3824                 if (OP(next) == IFTHEN) /* Fake one. */
3825                     next = NEXTOPER(NEXTOPER(next));
3826             }
3827             break;
3828         case LOGICAL:
3829             logical = scan->flags;
3830             break;
3831
3832 /*******************************************************************
3833
3834 The CURLYX/WHILEM pair of ops handle the most generic case of the /A*B/
3835 pattern, where A and B are subpatterns. (For simple A, CURLYM or
3836 STAR/PLUS/CURLY/CURLYN are used instead.)
3837
3838 A*B is compiled as <CURLYX><A><WHILEM><B>
3839
3840 On entry to the subpattern, CURLYX is called. This pushes a CURLYX
3841 state, which contains the current count, initialised to -1. It also sets
3842 cur_curlyx to point to this state, with any previous value saved in the
3843 state block.
3844
3845 CURLYX then jumps straight to the WHILEM op, rather than executing A,
3846 since the pattern may possibly match zero times (i.e. it's a while {} loop
3847 rather than a do {} while loop).
3848
3849 Each entry to WHILEM represents a successful match of A. The count in the
3850 CURLYX block is incremented, another WHILEM state is pushed, and execution
3851 passes to A or B depending on greediness and the current count.
3852
3853 For example, if matching against the string a1a2a3b (where the aN are
3854 substrings that match /A/), then the match progresses as follows: (the
3855 pushed states are interspersed with the bits of strings matched so far):
3856
3857     <CURLYX cnt=-1>
3858     <CURLYX cnt=0><WHILEM>
3859     <CURLYX cnt=1><WHILEM> a1 <WHILEM>
3860     <CURLYX cnt=2><WHILEM> a1 <WHILEM> a2 <WHILEM>
3861     <CURLYX cnt=3><WHILEM> a1 <WHILEM> a2 <WHILEM> a3 <WHILEM>
3862     <CURLYX cnt=3><WHILEM> a1 <WHILEM> a2 <WHILEM> a3 <WHILEM> b
3863
3864 (Contrast this with something like CURLYM, which maintains only a single
3865 backtrack state:
3866
3867     <CURLYM cnt=0> a1
3868     a1 <CURLYM cnt=1> a2
3869     a1 a2 <CURLYM cnt=2> a3
3870     a1 a2 a3 <CURLYM cnt=3> b
3871 )
3872
3873 Each WHILEM state block marks a point to backtrack to upon partial failure
3874 of A or B, and also contains some minor state data related to that
3875 iteration.  The CURLYX block, pointed to by cur_curlyx, contains the
3876 overall state, such as the count, and pointers to the A and B ops.
3877
3878 This is complicated slightly by nested CURLYX/WHILEM's. Since cur_curlyx
3879 must always point to the *current* CURLYX block, the rules are:
3880
3881 When executing CURLYX, save the old cur_curlyx in the CURLYX state block,
3882 and set cur_curlyx to point the new block.
3883
3884 When popping the CURLYX block after a successful or unsuccessful match,
3885 restore the previous cur_curlyx.
3886
3887 When WHILEM is about to execute B, save the current cur_curlyx, and set it
3888 to the outer one saved in the CURLYX block.
3889
3890 When popping the WHILEM block after a successful or unsuccessful B match,
3891 restore the previous cur_curlyx.
3892
3893 Here's an example for the pattern (AI* BI)*BO
3894 I and O refer to inner and outer, C and W refer to CURLYX and WHILEM:
3895
3896 cur_
3897 curlyx backtrack stack
3898 ------ ---------------
3899 NULL   
3900 CO     <CO prev=NULL> <WO>
3901 CI     <CO prev=NULL> <WO> <CI prev=CO> <WI> ai 
3902 CO     <CO prev=NULL> <WO> <CI prev=CO> <WI> ai <WI prev=CI> bi 
3903 NULL   <CO prev=NULL> <WO> <CI prev=CO> <WI> ai <WI prev=CI> bi <WO prev=CO> bo
3904
3905 At this point the pattern succeeds, and we work back down the stack to
3906 clean up, restoring as we go:
3907
3908 CO     <CO prev=NULL> <WO> <CI prev=CO> <WI> ai <WI prev=CI> bi 
3909 CI     <CO prev=NULL> <WO> <CI prev=CO> <WI> ai 
3910 CO     <CO prev=NULL> <WO>
3911 NULL   
3912
3913 *******************************************************************/
3914
3915 #define ST st->u.curlyx
3916
3917         case CURLYX:    /* start of /A*B/  (for complex A) */
3918         {
3919             /* No need to save/restore up to this paren */
3920             I32 parenfloor = scan->flags;
3921             
3922             assert(next); /* keep Coverity happy */
3923             if (OP(PREVOPER(next)) == NOTHING) /* LONGJMP */
3924                 next += ARG(next);
3925
3926             /* XXXX Probably it is better to teach regpush to support
3927                parenfloor > PL_regsize... */
3928             if (parenfloor > (I32)*PL_reglastparen)
3929                 parenfloor = *PL_reglastparen; /* Pessimization... */
3930
3931             ST.prev_curlyx= cur_curlyx;
3932             cur_curlyx = st;
3933             ST.cp = PL_savestack_ix;
3934
3935             /* these fields contain the state of the current curly.
3936              * they are accessed by subsequent WHILEMs */
3937             ST.parenfloor = parenfloor;
3938             ST.min = ARG1(scan);
3939             ST.max = ARG2(scan);
3940             ST.A = NEXTOPER(scan) + EXTRA_STEP_2ARGS;
3941             ST.B = next;
3942             ST.minmod = minmod;
3943             minmod = 0;
3944             ST.count = -1;      /* this will be updated by WHILEM */
3945             ST.lastloc = NULL;  /* this will be updated by WHILEM */
3946
3947             PL_reginput = locinput;
3948             PUSH_YES_STATE_GOTO(CURLYX_end, PREVOPER(next));
3949             /* NOTREACHED */
3950         }
3951
3952         case CURLYX_end: /* just finished matching all of A*B */
3953             cur_curlyx = ST.prev_curlyx;
3954             sayYES;
3955             /* NOTREACHED */
3956
3957         case CURLYX_end_fail: /* just failed to match all of A*B */
3958             regcpblow(ST.cp);
3959             cur_curlyx = ST.prev_curlyx;
3960             sayNO;
3961             /* NOTREACHED */
3962
3963
3964 #undef ST
3965 #define ST st->u.whilem
3966
3967         case WHILEM:     /* just matched an A in /A*B/  (for complex A) */
3968         {
3969             /* see the discussion above about CURLYX/WHILEM */
3970             I32 n;
3971             assert(cur_curlyx); /* keep Coverity happy */
3972             n = ++cur_curlyx->u.curlyx.count; /* how many A's matched */
3973             ST.save_lastloc = cur_curlyx->u.curlyx.lastloc;
3974             ST.cache_offset = 0;
3975             ST.cache_mask = 0;
3976             
3977             PL_reginput = locinput;
3978
3979             DEBUG_EXECUTE_r( PerlIO_printf(Perl_debug_log,
3980                   "%*s  whilem: matched %ld out of %ld..%ld\n",
3981                   REPORT_CODE_OFF+depth*2, "", (long)n,
3982                   (long)cur_curlyx->u.curlyx.min,
3983                   (long)cur_curlyx->u.curlyx.max)
3984             );
3985
3986             /* First just match a string of min A's. */
3987
3988             if (n < cur_curlyx->u.curlyx.min) {
3989                 cur_curlyx->u.curlyx.lastloc = locinput;
3990                 PUSH_STATE_GOTO(WHILEM_A_pre, cur_curlyx->u.curlyx.A);
3991                 /* NOTREACHED */
3992             }
3993
3994             /* If degenerate A matches "", assume A done. */
3995
3996             if (locinput == cur_curlyx->u.curlyx.lastloc) {
3997                 DEBUG_EXECUTE_r( PerlIO_printf(Perl_debug_log,
3998                    "%*s  whilem: empty match detected, trying continuation...\n",
3999                    REPORT_CODE_OFF+depth*2, "")
4000                 );
4001                 goto do_whilem_B_max;
4002             }
4003
4004             /* super-linear cache processing */
4005
4006             if (scan->flags) {
4007
4008                 if (!PL_reg_maxiter) {
4009                     /* start the countdown: Postpone detection until we
4010                      * know the match is not *that* much linear. */
4011                     PL_reg_maxiter = (PL_regeol - PL_bostr + 1) * (scan->flags>>4);
4012                     /* possible overflow for long strings and many CURLYX's */
4013                     if (PL_reg_maxiter < 0)
4014                         PL_reg_maxiter = I32_MAX;
4015                     PL_reg_leftiter = PL_reg_maxiter;
4016                 }
4017
4018                 if (PL_reg_leftiter-- == 0) {
4019                     /* initialise cache */
4020                     const I32 size = (PL_reg_maxiter + 7)/8;
4021                     if (PL_reg_poscache) {
4022                         if ((I32)PL_reg_poscache_size < size) {
4023                             Renew(PL_reg_poscache, size, char);
4024                             PL_reg_poscache_size = size;
4025                         }
4026                         Zero(PL_reg_poscache, size, char);
4027                     }
4028                     else {
4029                         PL_reg_poscache_size = size;
4030                         Newxz(PL_reg_poscache, size, char);
4031                     }
4032                     DEBUG_EXECUTE_r( PerlIO_printf(Perl_debug_log,
4033       "%swhilem: Detected a super-linear match, switching on caching%s...\n",
4034                               PL_colors[4], PL_colors[5])
4035                     );
4036                 }
4037
4038                 if (PL_reg_leftiter < 0) {
4039                     /* have we already failed at this position? */
4040                     I32 offset, mask;
4041                     offset  = (scan->flags & 0xf) - 1
4042                                 + (locinput - PL_bostr)  * (scan->flags>>4);
4043                     mask    = 1 << (offset % 8);
4044                     offset /= 8;
4045                     if (PL_reg_poscache[offset] & mask) {
4046                         DEBUG_EXECUTE_r( PerlIO_printf(Perl_debug_log,
4047                             "%*s  whilem: (cache) already tried at this position...\n",
4048                             REPORT_CODE_OFF+depth*2, "")
4049                         );
4050                         sayNO; /* cache records failure */
4051                     }
4052                     ST.cache_offset = offset;
4053                     ST.cache_mask   = mask;
4054                 }
4055             }
4056
4057             /* Prefer B over A for minimal matching. */
4058
4059             if (cur_curlyx->u.curlyx.minmod) {
4060                 ST.save_curlyx = cur_curlyx;
4061                 cur_curlyx = cur_curlyx->u.curlyx.prev_curlyx;
4062                 ST.cp = regcppush(ST.save_curlyx->u.curlyx.parenfloor);
4063                 REGCP_SET(ST.lastcp);
4064                 PUSH_YES_STATE_GOTO(WHILEM_B_min, ST.save_curlyx->u.curlyx.B);
4065                 /* NOTREACHED */
4066             }
4067
4068             /* Prefer A over B for maximal matching. */
4069
4070             if (n < cur_curlyx->u.curlyx.max) { /* More greed allowed? */
4071                 ST.cp = regcppush(cur_curlyx->u.curlyx.parenfloor);
4072                 cur_curlyx->u.curlyx.lastloc = locinput;
4073                 REGCP_SET(ST.lastcp);
4074                 PUSH_STATE_GOTO(WHILEM_A_max, cur_curlyx->u.curlyx.A);
4075                 /* NOTREACHED */
4076             }
4077             goto do_whilem_B_max;
4078         }
4079         /* NOTREACHED */
4080
4081         case WHILEM_B_min: /* just matched B in a minimal match */
4082         case WHILEM_B_max: /* just matched B in a maximal match */
4083             cur_curlyx = ST.save_curlyx;
4084             sayYES;
4085             /* NOTREACHED */
4086
4087         case WHILEM_B_max_fail: /* just failed to match B in a maximal match */
4088             cur_curlyx = ST.save_curlyx;
4089             cur_curlyx->u.curlyx.lastloc = ST.save_lastloc;
4090             cur_curlyx->u.curlyx.count--;
4091             CACHEsayNO;
4092             /* NOTREACHED */
4093
4094         case WHILEM_A_min_fail: /* just failed to match A in a minimal match */
4095             REGCP_UNWIND(ST.lastcp);
4096             regcppop(rex);
4097             /* FALL THROUGH */
4098         case WHILEM_A_pre_fail: /* just failed to match even minimal A */
4099             cur_curlyx->u.curlyx.lastloc = ST.save_lastloc;
4100             cur_curlyx->u.curlyx.count--;
4101             CACHEsayNO;
4102             /* NOTREACHED */
4103
4104         case WHILEM_A_max_fail: /* just failed to match A in a maximal match */
4105             REGCP_UNWIND(ST.lastcp);
4106             regcppop(rex);      /* Restore some previous $<digit>s? */
4107             PL_reginput = locinput;
4108             DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
4109                 "%*s  whilem: failed, trying continuation...\n",
4110                 REPORT_CODE_OFF+depth*2, "")
4111             );
4112           do_whilem_B_max:
4113             if (cur_curlyx->u.curlyx.count >= REG_INFTY
4114                 && ckWARN(WARN_REGEXP)
4115                 && !(PL_reg_flags & RF_warned))
4116             {
4117                 PL_reg_flags |= RF_warned;
4118                 Perl_warner(aTHX_ packWARN(WARN_REGEXP), "%s limit (%d) exceeded",
4119                      "Complex regular subexpression recursion",
4120                      REG_INFTY - 1);
4121             }
4122
4123             /* now try B */
4124             ST.save_curlyx = cur_curlyx;
4125             cur_curlyx = cur_curlyx->u.curlyx.prev_curlyx;
4126             PUSH_YES_STATE_GOTO(WHILEM_B_max, ST.save_curlyx->u.curlyx.B);
4127             /* NOTREACHED */
4128
4129         case WHILEM_B_min_fail: /* just failed to match B in a minimal match */
4130             cur_curlyx = ST.save_curlyx;
4131             REGCP_UNWIND(ST.lastcp);
4132             regcppop(rex);
4133
4134             if (cur_curlyx->u.curlyx.count >= cur_curlyx->u.curlyx.max) {
4135                 /* Maximum greed exceeded */
4136                 if (cur_curlyx->u.curlyx.count >= REG_INFTY
4137                     && ckWARN(WARN_REGEXP)
4138                     && !(PL_reg_flags & RF_warned))
4139                 {
4140                     PL_reg_flags |= RF_warned;
4141                     Perl_warner(aTHX_ packWARN(WARN_REGEXP),
4142                         "%s limit (%d) exceeded",
4143                         "Complex regular subexpression recursion",
4144                         REG_INFTY - 1);
4145                 }
4146                 cur_curlyx->u.curlyx.count--;
4147                 CACHEsayNO;
4148             }
4149
4150             DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
4151                 "%*s  trying longer...\n", REPORT_CODE_OFF+depth*2, "")
4152             );
4153             /* Try grabbing another A and see if it helps. */
4154             PL_reginput = locinput;
4155             cur_curlyx->u.curlyx.lastloc = locinput;
4156             ST.cp = regcppush(cur_curlyx->u.curlyx.parenfloor);
4157             REGCP_SET(ST.lastcp);
4158             PUSH_STATE_GOTO(WHILEM_A_min, ST.save_curlyx->u.curlyx.A);
4159             /* NOTREACHED */
4160
4161 #undef  ST
4162 #define ST st->u.branch
4163
4164         case BRANCHJ:       /*  /(...|A|...)/ with long next pointer */
4165             next = scan + ARG(scan);
4166             if (next == scan)
4167                 next = NULL;
4168             scan = NEXTOPER(scan);
4169             /* FALL THROUGH */
4170
4171         case BRANCH:        /*  /(...|A|...)/ */
4172             scan = NEXTOPER(scan); /* scan now points to inner node */
4173             if ((!next || (OP(next) != BRANCH && OP(next) != BRANCHJ)) 
4174                 && !has_cutgroup)
4175             {
4176                 /* last branch; skip state push and jump direct to node */
4177                 continue;
4178             }
4179             ST.lastparen = *PL_reglastparen;
4180             ST.next_branch = next;
4181             REGCP_SET(ST.cp);
4182             PL_reginput = locinput;
4183
4184             /* Now go into the branch */
4185             if (has_cutgroup) {
4186                 PUSH_YES_STATE_GOTO(BRANCH_next, scan);    
4187             } else {
4188                 PUSH_STATE_GOTO(BRANCH_next, scan);
4189             }
4190             /* NOTREACHED */
4191         case CUTGROUP:
4192             PL_reginput = locinput;
4193             sv_yes_mark = st->u.mark.mark_name = scan->flags ? NULL :
4194                 (SV*)rexi->data->data[ ARG( scan ) ];
4195             PUSH_STATE_GOTO(CUTGROUP_next,next);
4196             /* NOTREACHED */
4197         case CUTGROUP_next_fail:
4198             do_cutgroup = 1;
4199             no_final = 1;
4200             if (st->u.mark.mark_name)
4201                 sv_commit = st->u.mark.mark_name;
4202             sayNO;          
4203             /* NOTREACHED */
4204         case BRANCH_next:
4205             sayYES;
4206             /* NOTREACHED */
4207         case BRANCH_next_fail: /* that branch failed; try the next, if any */
4208             if (do_cutgroup) {
4209                 do_cutgroup = 0;
4210                 no_final = 0;
4211             }
4212             REGCP_UNWIND(ST.cp);
4213             for (n = *PL_reglastparen; n > ST.lastparen; n--)
4214                 PL_regoffs[n].end = -1;
4215             *PL_reglastparen = n;
4216             /*dmq: *PL_reglastcloseparen = n; */
4217             scan = ST.next_branch;
4218             /* no more branches? */
4219             if (!scan || (OP(scan) != BRANCH && OP(scan) != BRANCHJ)) {
4220                 DEBUG_EXECUTE_r({
4221                     PerlIO_printf( Perl_debug_log,
4222                         "%*s  %sBRANCH failed...%s\n",
4223                         REPORT_CODE_OFF+depth*2, "", 
4224                         PL_colors[4],
4225                         PL_colors[5] );
4226                 });
4227                 sayNO_SILENT;
4228             }
4229             continue; /* execute next BRANCH[J] op */
4230             /* NOTREACHED */
4231     
4232         case MINMOD:
4233             minmod = 1;
4234             break;
4235
4236 #undef  ST
4237 #define ST st->u.curlym
4238
4239         case CURLYM:    /* /A{m,n}B/ where A is fixed-length */
4240
4241             /* This is an optimisation of CURLYX that enables us to push
4242              * only a single backtracking state, no matter now many matches
4243              * there are in {m,n}. It relies on the pattern being constant
4244              * length, with no parens to influence future backrefs
4245              */
4246
4247             ST.me = scan;
4248             scan = NEXTOPER(scan) + NODE_STEP_REGNODE;
4249
4250             /* if paren positive, emulate an OPEN/CLOSE around A */
4251             if (ST.me->flags) {
4252                 U32 paren = ST.me->flags;
4253                 if (paren > PL_regsize)
4254                     PL_regsize = paren;
4255                 if (paren > *PL_reglastparen)
4256                     *PL_reglastparen = paren;
4257                 scan += NEXT_OFF(scan); /* Skip former OPEN. */
4258             }
4259             ST.A = scan;
4260             ST.B = next;
4261             ST.alen = 0;
4262             ST.count = 0;
4263             ST.minmod = minmod;
4264             minmod = 0;
4265             ST.c1 = CHRTEST_UNINIT;
4266             REGCP_SET(ST.cp);
4267
4268             if (!(ST.minmod ? ARG1(ST.me) : ARG2(ST.me))) /* min/max */
4269                 goto curlym_do_B;
4270
4271           curlym_do_A: /* execute the A in /A{m,n}B/  */
4272             PL_reginput = locinput;
4273             PUSH_YES_STATE_GOTO(CURLYM_A, ST.A); /* match A */
4274             /* NOTREACHED */
4275
4276         case CURLYM_A: /* we've just matched an A */
4277             locinput = st->locinput;
4278             nextchr = UCHARAT(locinput);
4279
4280             ST.count++;
4281             /* after first match, determine A's length: u.curlym.alen */
4282             if (ST.count == 1) {
4283                 if (PL_reg_match_utf8) {
4284                     char *s = locinput;
4285                     while (s < PL_reginput) {
4286                         ST.alen++;
4287                         s += UTF8SKIP(s);
4288                     }
4289                 }
4290                 else {
4291                     ST.alen = PL_reginput - locinput;
4292                 }
4293                 if (ST.alen == 0)
4294                     ST.count = ST.minmod ? ARG1(ST.me) : ARG2(ST.me);
4295             }
4296             DEBUG_EXECUTE_r(
4297                 PerlIO_printf(Perl_debug_log,
4298                           "%*s  CURLYM now matched %"IVdf" times, len=%"IVdf"...\n",
4299                           (int)(REPORT_CODE_OFF+(depth*2)), "",
4300                           (IV) ST.count, (IV)ST.alen)
4301             );
4302
4303             locinput = PL_reginput;
4304                         
4305             if (cur_eval && cur_eval->u.eval.close_paren && 
4306                 cur_eval->u.eval.close_paren == (U32)ST.me->flags) 
4307                 goto fake_end;
4308                 
4309             if ( ST.count < (ST.minmod ? ARG1(ST.me) : ARG2(ST.me)) )
4310                 goto curlym_do_A; /* try to match another A */
4311             goto curlym_do_B; /* try to match B */
4312
4313         case CURLYM_A_fail: /* just failed to match an A */
4314             REGCP_UNWIND(ST.cp);
4315
4316             if (ST.minmod || ST.count < ARG1(ST.me) /* min*/ 
4317                 || (cur_eval && cur_eval->u.eval.close_paren &&
4318                     cur_eval->u.eval.close_paren == (U32)ST.me->flags))
4319                 sayNO;
4320
4321           curlym_do_B: /* execute the B in /A{m,n}B/  */
4322             PL_reginput = locinput;
4323             if (ST.c1 == CHRTEST_UNINIT) {
4324                 /* calculate c1 and c2 for possible match of 1st char
4325                  * following curly */
4326                 ST.c1 = ST.c2 = CHRTEST_VOID;
4327                 if (HAS_TEXT(ST.B) || JUMPABLE(ST.B)) {
4328                     regnode *text_node = ST.B;
4329                     if (! HAS_TEXT(text_node))
4330                         FIND_NEXT_IMPT(text_node);
4331                     /* this used to be 
4332                         
4333                         (HAS_TEXT(text_node) && PL_regkind[OP(text_node)] == EXACT)
4334                         
4335                         But the former is redundant in light of the latter.
4336                         
4337                         if this changes back then the macro for 
4338                         IS_TEXT and friends need to change.
4339                      */
4340                     if (PL_regkind[OP(text_node)] == EXACT)
4341                     {
4342                         
4343                         ST.c1 = (U8)*STRING(text_node);
4344                         ST.c2 =
4345                             (IS_TEXTF(text_node))
4346                             ? PL_fold[ST.c1]
4347                             : (IS_TEXTFL(text_node))
4348                                 ? PL_fold_locale[ST.c1]
4349                                 : ST.c1;
4350                     }
4351                 }
4352             }
4353
4354             DEBUG_EXECUTE_r(
4355                 PerlIO_printf(Perl_debug_log,
4356                     "%*s  CURLYM trying tail with matches=%"IVdf"...\n",
4357                     (int)(REPORT_CODE_OFF+(depth*2)),
4358                     "", (IV)ST.count)
4359                 );
4360             if (ST.c1 != CHRTEST_VOID
4361                     && UCHARAT(PL_reginput) != ST.c1
4362                     && UCHARAT(PL_reginput) != ST.c2)
4363             {
4364                 /* simulate B failing */
4365                 DEBUG_OPTIMISE_r(
4366                     PerlIO_printf(Perl_debug_log,
4367                         "%*s  CURLYM Fast bail c1=%"IVdf" c2=%"IVdf"\n",
4368                         (int)(REPORT_CODE_OFF+(depth*2)),"",
4369                         (IV)ST.c1,(IV)ST.c2
4370                 ));
4371                 state_num = CURLYM_B_fail;
4372                 goto reenter_switch;
4373             }
4374
4375             if (ST.me->flags) {
4376                 /* mark current A as captured */
4377                 I32 paren = ST.me->flags;
4378                 if (ST.count) {
4379                     PL_regoffs[paren].start
4380                         = HOPc(PL_reginput, -ST.alen) - PL_bostr;
4381                     PL_regoffs[paren].end = PL_reginput - PL_bostr;
4382                     /*dmq: *PL_reglastcloseparen = paren; */
4383                 }
4384                 else
4385                     PL_regoffs[paren].end = -1;
4386                 if (cur_eval && cur_eval->u.eval.close_paren &&
4387                     cur_eval->u.eval.close_paren == (U32)ST.me->flags) 
4388                 {
4389                     if (ST.count) 
4390                         goto fake_end;
4391                     else
4392                         sayNO;
4393                 }
4394             }
4395             
4396             PUSH_STATE_GOTO(CURLYM_B, ST.B); /* match B */
4397             /* NOTREACHED */
4398
4399         case CURLYM_B_fail: /* just failed to match a B */
4400             REGCP_UNWIND(ST.cp);
4401             if (ST.minmod) {
4402                 if (ST.count == ARG2(ST.me) /* max */)
4403                     sayNO;
4404                 goto curlym_do_A; /* try to match a further A */
4405             }
4406             /* backtrack one A */
4407             if (ST.count == ARG1(ST.me) /* min */)
4408                 sayNO;
4409             ST.count--;
4410             locinput = HOPc(locinput, -ST.alen);
4411             goto curlym_do_B; /* try to match B */
4412
4413 #undef ST
4414 #define ST st->u.curly
4415
4416 #define CURLY_SETPAREN(paren, success) \
4417     if (paren) { \
4418         if (success) { \
4419             PL_regoffs[paren].start = HOPc(locinput, -1) - PL_bostr; \
4420             PL_regoffs[paren].end = locinput - PL_bostr; \
4421             *PL_reglastcloseparen = paren; \
4422         } \
4423         else \
4424             PL_regoffs[paren].end = -1; \
4425     }
4426
4427         case STAR:              /*  /A*B/ where A is width 1 */
4428             ST.paren = 0;
4429             ST.min = 0;
4430             ST.max = REG_INFTY;
4431             scan = NEXTOPER(scan);
4432             goto repeat;
4433         case PLUS:              /*  /A+B/ where A is width 1 */
4434             ST.paren = 0;
4435             ST.min = 1;
4436             ST.max = REG_INFTY;
4437             scan = NEXTOPER(scan);
4438             goto repeat;
4439         case CURLYN:            /*  /(A){m,n}B/ where A is width 1 */
4440             ST.paren = scan->flags;     /* Which paren to set */
4441             if (ST.paren > PL_regsize)
4442                 PL_regsize = ST.paren;
4443             if (ST.paren > *PL_reglastparen)
4444                 *PL_reglastparen = ST.paren;
4445             ST.min = ARG1(scan);  /* min to match */
4446             ST.max = ARG2(scan);  /* max to match */
4447             if (cur_eval && cur_eval->u.eval.close_paren &&
4448                 cur_eval->u.eval.close_paren == (U32)ST.paren) {
4449                 ST.min=1;
4450                 ST.max=1;
4451             }
4452             scan = regnext(NEXTOPER(scan) + NODE_STEP_REGNODE);
4453             goto repeat;
4454         case CURLY:             /*  /A{m,n}B/ where A is width 1 */
4455             ST.paren = 0;
4456             ST.min = ARG1(scan);  /* min to match */
4457             ST.max = ARG2(scan);  /* max to match */
4458             scan = NEXTOPER(scan) + NODE_STEP_REGNODE;
4459           repeat:
4460             /*
4461             * Lookahead to avoid useless match attempts
4462             * when we know what character comes next.
4463             *
4464             * Used to only do .*x and .*?x, but now it allows
4465             * for )'s, ('s and (?{ ... })'s to be in the way
4466             * of the quantifier and the EXACT-like node.  -- japhy
4467             */
4468
4469             if (ST.min > ST.max) /* XXX make this a compile-time check? */
4470                 sayNO;
4471             if (HAS_TEXT(next) || JUMPABLE(next)) {
4472                 U8 *s;
4473                 regnode *text_node = next;
4474
4475                 if (! HAS_TEXT(text_node)) 
4476                     FIND_NEXT_IMPT(text_node);
4477
4478                 if (! HAS_TEXT(text_node))
4479                     ST.c1 = ST.c2 = CHRTEST_VOID;
4480                 else {
4481                     if ( PL_regkind[OP(text_node)] != EXACT ) {
4482                         ST.c1 = ST.c2 = CHRTEST_VOID;
4483                         goto assume_ok_easy;
4484                     }
4485                     else
4486                         s = (U8*)STRING(text_node);
4487                     
4488                     /*  Currently we only get here when 
4489                         
4490                         PL_rekind[OP(text_node)] == EXACT
4491                     
4492                         if this changes back then the macro for IS_TEXT and 
4493                         friends need to change. */
4494                     if (!UTF) {
4495                         ST.c2 = ST.c1 = *s;
4496                         if (IS_TEXTF(text_node))
4497                             ST.c2 = PL_fold[ST.c1];
4498                         else if (IS_TEXTFL(text_node))
4499                             ST.c2 = PL_fold_locale[ST.c1];
4500                     }
4501                     else { /* UTF */
4502                         if (IS_TEXTF(text_node)) {
4503                              STRLEN ulen1, ulen2;
4504                              U8 tmpbuf1[UTF8_MAXBYTES_CASE+1];
4505                              U8 tmpbuf2[UTF8_MAXBYTES_CASE+1];
4506
4507                              to_utf8_lower((U8*)s, tmpbuf1, &ulen1);
4508                              to_utf8_upper((U8*)s, tmpbuf2, &ulen2);
4509 #ifdef EBCDIC
4510                              ST.c1 = utf8n_to_uvchr(tmpbuf1, UTF8_MAXLEN, 0,
4511                                                     ckWARN(WARN_UTF8) ?
4512                                                     0 : UTF8_ALLOW_ANY);
4513                              ST.c2 = utf8n_to_uvchr(tmpbuf2, UTF8_MAXLEN, 0,
4514                                                     ckWARN(WARN_UTF8) ?
4515                                                     0 : UTF8_ALLOW_ANY);
4516 #else
4517                              ST.c1 = utf8n_to_uvuni(tmpbuf1, UTF8_MAXBYTES, 0,
4518                                                     uniflags);
4519                              ST.c2 = utf8n_to_uvuni(tmpbuf2, UTF8_MAXBYTES, 0,
4520                                                     uniflags);
4521 #endif
4522                         }
4523                         else {
4524                             ST.c2 = ST.c1 = utf8n_to_uvchr(s, UTF8_MAXBYTES, 0,
4525                                                      uniflags);
4526                         }
4527                     }
4528                 }
4529             }
4530             else
4531                 ST.c1 = ST.c2 = CHRTEST_VOID;
4532         assume_ok_easy:
4533
4534             ST.A = scan;
4535             ST.B = next;
4536             PL_reginput = locinput;
4537             if (minmod) {
4538                 minmod = 0;
4539                 if (ST.min && regrepeat(rex, ST.A, ST.min, depth) < ST.min)
4540                     sayNO;
4541                 ST.count = ST.min;
4542                 locinput = PL_reginput;
4543                 REGCP_SET(ST.cp);
4544                 if (ST.c1 == CHRTEST_VOID)
4545                     goto curly_try_B_min;
4546
4547                 ST.oldloc = locinput;
4548
4549                 /* set ST.maxpos to the furthest point along the
4550                  * string that could possibly match */
4551                 if  (ST.max == REG_INFTY) {
4552                     ST.maxpos = PL_regeol - 1;
4553                     if (do_utf8)
4554                         while (UTF8_IS_CONTINUATION(*(U8*)ST.maxpos))
4555                             ST.maxpos--;
4556                 }
4557                 else if (do_utf8) {
4558                     int m = ST.max - ST.min;
4559                     for (ST.maxpos = locinput;
4560                          m >0 && ST.maxpos + UTF8SKIP(ST.maxpos) <= PL_regeol; m--)
4561                         ST.maxpos += UTF8SKIP(ST.maxpos);
4562                 }
4563                 else {
4564                     ST.maxpos = locinput + ST.max - ST.min;
4565                     if (ST.maxpos >= PL_regeol)
4566                         ST.maxpos = PL_regeol - 1;
4567                 }
4568                 goto curly_try_B_min_known;
4569
4570             }
4571             else {
4572                 ST.count = regrepeat(rex, ST.A, ST.max, depth);
4573                 locinput = PL_reginput;
4574                 if (ST.count < ST.min)
4575                     sayNO;
4576                 if ((ST.count > ST.min)
4577                     && (PL_regkind[OP(ST.B)] == EOL) && (OP(ST.B) != MEOL))
4578                 {
4579                     /* A{m,n} must come at the end of the string, there's
4580                      * no point in backing off ... */
4581                     ST.min = ST.count;
4582                     /* ...except that $ and \Z can match before *and* after
4583                        newline at the end.  Consider "\n\n" =~ /\n+\Z\n/.
4584                        We may back off by one in this case. */
4585                     if (UCHARAT(PL_reginput - 1) == '\n' && OP(ST.B) != EOS)
4586                         ST.min--;
4587                 }
4588                 REGCP_SET(ST.cp);
4589                 goto curly_try_B_max;
4590             }
4591             /* NOTREACHED */
4592
4593
4594         case CURLY_B_min_known_fail:
4595             /* failed to find B in a non-greedy match where c1,c2 valid */
4596             if (ST.paren && ST.count)
4597                 PL_regoffs[ST.paren].end = -1;
4598
4599             PL_reginput = locinput;     /* Could be reset... */
4600             REGCP_UNWIND(ST.cp);
4601             /* Couldn't or didn't -- move forward. */
4602             ST.oldloc = locinput;
4603             if (do_utf8)
4604                 locinput += UTF8SKIP(locinput);
4605             else
4606                 locinput++;
4607             ST.count++;
4608           curly_try_B_min_known:
4609              /* find the next place where 'B' could work, then call B */
4610             {
4611                 int n;
4612                 if (do_utf8) {
4613                     n = (ST.oldloc == locinput) ? 0 : 1;
4614                     if (ST.c1 == ST.c2) {
4615                         STRLEN len;
4616                         /* set n to utf8_distance(oldloc, locinput) */
4617                         while (locinput <= ST.maxpos &&
4618                                utf8n_to_uvchr((U8*)locinput,
4619                                               UTF8_MAXBYTES, &len,
4620                                               uniflags) != (UV)ST.c1) {
4621                             locinput += len;
4622                             n++;
4623                         }
4624                     }
4625                     else {
4626                         /* set n to utf8_distance(oldloc, locinput) */
4627                         while (locinput <= ST.maxpos) {
4628                             STRLEN len;
4629                             const UV c = utf8n_to_uvchr((U8*)locinput,
4630                                                   UTF8_MAXBYTES, &len,
4631                                                   uniflags);
4632                             if (c == (UV)ST.c1 || c == (UV)ST.c2)
4633                                 break;
4634                             locinput += len;
4635                             n++;
4636                         }
4637                     }
4638                 }
4639                 else {
4640                     if (ST.c1 == ST.c2) {
4641                         while (locinput <= ST.maxpos &&
4642                                UCHARAT(locinput) != ST.c1)
4643                             locinput++;
4644                     }
4645                     else {
4646                         while (locinput <= ST.maxpos
4647                                && UCHARAT(locinput) != ST.c1
4648                                && UCHARAT(locinput) != ST.c2)
4649                             locinput++;
4650                     }
4651                     n = locinput - ST.oldloc;
4652                 }
4653                 if (locinput > ST.maxpos)
4654                     sayNO;
4655                 /* PL_reginput == oldloc now */
4656                 if (n) {
4657                     ST.count += n;
4658                     if (regrepeat(rex, ST.A, n, depth) < n)
4659                         sayNO;
4660                 }
4661                 PL_reginput = locinput;
4662                 CURLY_SETPAREN(ST.paren, ST.count);
4663                 if (cur_eval && cur_eval->u.eval.close_paren && 
4664                     cur_eval->u.eval.close_paren == (U32)ST.paren) {
4665                     goto fake_end;
4666                 }
4667                 PUSH_STATE_GOTO(CURLY_B_min_known, ST.B);
4668             }
4669             /* NOTREACHED */
4670
4671
4672         case CURLY_B_min_fail:
4673             /* failed to find B in a non-greedy match where c1,c2 invalid */
4674             if (ST.paren && ST.count)
4675                 PL_regoffs[ST.paren].end = -1;
4676
4677             REGCP_UNWIND(ST.cp);
4678             /* failed -- move forward one */
4679             PL_reginput = locinput;
4680             if (regrepeat(rex, ST.A, 1, depth)) {
4681                 ST.count++;
4682                 locinput = PL_reginput;
4683                 if (ST.count <= ST.max || (ST.max == REG_INFTY &&
4684                         ST.count > 0)) /* count overflow ? */
4685                 {
4686                   curly_try_B_min:
4687                     CURLY_SETPAREN(ST.paren, ST.count);
4688                     if (cur_eval && cur_eval->u.eval.close_paren &&
4689                         cur_eval->u.eval.close_paren == (U32)ST.paren) {
4690                         goto fake_end;
4691                     }
4692                     PUSH_STATE_GOTO(CURLY_B_min, ST.B);
4693                 }
4694             }
4695             sayNO;
4696             /* NOTREACHED */
4697
4698
4699         curly_try_B_max:
4700             /* a successful greedy match: now try to match B */
4701             if (cur_eval && cur_eval->u.eval.close_paren &&
4702                 cur_eval->u.eval.close_paren == (U32)ST.paren) {
4703                 goto fake_end;
4704             }
4705             {
4706                 UV c = 0;
4707                 if (ST.c1 != CHRTEST_VOID)
4708                     c = do_utf8 ? utf8n_to_uvchr((U8*)PL_reginput,
4709                                            UTF8_MAXBYTES, 0, uniflags)
4710                                 : (UV) UCHARAT(PL_reginput);
4711                 /* If it could work, try it. */
4712                 if (ST.c1 == CHRTEST_VOID || c == (UV)ST.c1 || c == (UV)ST.c2) {
4713                     CURLY_SETPAREN(ST.paren, ST.count);
4714                     PUSH_STATE_GOTO(CURLY_B_max, ST.B);
4715                     /* NOTREACHED */
4716                 }
4717             }
4718             /* FALL THROUGH */
4719         case CURLY_B_max_fail:
4720             /* failed to find B in a greedy match */
4721             if (ST.paren && ST.count)
4722                 PL_regoffs[ST.paren].end = -1;
4723
4724             REGCP_UNWIND(ST.cp);
4725             /*  back up. */
4726             if (--ST.count < ST.min)
4727                 sayNO;
4728             PL_reginput = locinput = HOPc(locinput, -1);
4729             goto curly_try_B_max;
4730
4731 #undef ST
4732
4733         case END:
4734             fake_end:
4735             if (cur_eval) {
4736                 /* we've just finished A in /(??{A})B/; now continue with B */
4737                 I32 tmpix;
4738                 st->u.eval.toggle_reg_flags
4739                             = cur_eval->u.eval.toggle_reg_flags;
4740                 PL_reg_flags ^= st->u.eval.toggle_reg_flags; 
4741
4742                 st->u.eval.prev_rex = rex;              /* inner */
4743                 SETREX(rex,cur_eval->u.eval.prev_rex);
4744                 rexi = RXi_GET(rex);
4745                 cur_curlyx = cur_eval->u.eval.prev_curlyx;
4746                 ReREFCNT_inc(rex);
4747                 st->u.eval.cp = regcppush(0);   /* Save *all* the positions. */
4748                 REGCP_SET(st->u.eval.lastcp);
4749                 PL_reginput = locinput;
4750
4751                 /* Restore parens of the outer rex without popping the
4752                  * savestack */
4753                 tmpix = PL_savestack_ix;
4754                 PL_savestack_ix = cur_eval->u.eval.lastcp;
4755                 regcppop(rex);
4756                 PL_savestack_ix = tmpix;
4757
4758                 st->u.eval.prev_eval = cur_eval;
4759                 cur_eval = cur_eval->u.eval.prev_eval;
4760                 DEBUG_EXECUTE_r(
4761                     PerlIO_printf(Perl_debug_log, "%*s  EVAL trying tail ... %"UVxf"\n",
4762                                       REPORT_CODE_OFF+depth*2, "",PTR2UV(cur_eval)););
4763                 if ( nochange_depth )
4764                     nochange_depth--;
4765
4766                 PUSH_YES_STATE_GOTO(EVAL_AB,
4767                         st->u.eval.prev_eval->u.eval.B); /* match B */
4768             }
4769
4770             if (locinput < reginfo->till) {
4771                 DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
4772                                       "%sMatch possible, but length=%ld is smaller than requested=%ld, failing!%s\n",
4773                                       PL_colors[4],
4774                                       (long)(locinput - PL_reg_starttry),
4775                                       (long)(reginfo->till - PL_reg_starttry),
4776                                       PL_colors[5]));
4777                                               
4778                 sayNO_SILENT;           /* Cannot match: too short. */
4779             }
4780             PL_reginput = locinput;     /* put where regtry can find it */
4781             sayYES;                     /* Success! */
4782
4783         case SUCCEED: /* successful SUSPEND/UNLESSM/IFMATCH/CURLYM */
4784             DEBUG_EXECUTE_r(
4785             PerlIO_printf(Perl_debug_log,
4786                 "%*s  %ssubpattern success...%s\n",
4787                 REPORT_CODE_OFF+depth*2, "", PL_colors[4], PL_colors[5]));
4788             PL_reginput = locinput;     /* put where regtry can find it */
4789             sayYES;                     /* Success! */
4790
4791 #undef  ST
4792 #define ST st->u.ifmatch
4793
4794         case SUSPEND:   /* (?>A) */
4795             ST.wanted = 1;
4796             PL_reginput = locinput;
4797             goto do_ifmatch;    
4798
4799         case UNLESSM:   /* -ve lookaround: (?!A), or with flags, (?<!A) */
4800             ST.wanted = 0;
4801             goto ifmatch_trivial_fail_test;
4802
4803         case IFMATCH:   /* +ve lookaround: (?=A), or with flags, (?<=A) */
4804             ST.wanted = 1;
4805           ifmatch_trivial_fail_test:
4806             if (scan->flags) {
4807                 char * const s = HOPBACKc(locinput, scan->flags);
4808                 if (!s) {
4809                     /* trivial fail */
4810                     if (logical) {
4811                         logical = 0;
4812                         sw = 1 - (bool)ST.wanted;
4813                     }
4814                     else if (ST.wanted)
4815                         sayNO;
4816                     next = scan + ARG(scan);
4817                     if (next == scan)
4818                         next = NULL;
4819                     break;
4820                 }
4821                 PL_reginput = s;
4822             }
4823             else
4824                 PL_reginput = locinput;
4825
4826           do_ifmatch:
4827             ST.me = scan;
4828             ST.logical = logical;
4829             /* execute body of (?...A) */
4830             PUSH_YES_STATE_GOTO(IFMATCH_A, NEXTOPER(NEXTOPER(scan)));
4831             /* NOTREACHED */
4832
4833         case IFMATCH_A_fail: /* body of (?...A) failed */
4834             ST.wanted = !ST.wanted;
4835             /* FALL THROUGH */
4836
4837         case IFMATCH_A: /* body of (?...A) succeeded */
4838             if (ST.logical) {
4839                 sw = (bool)ST.wanted;
4840             }
4841             else if (!ST.wanted)
4842                 sayNO;
4843
4844             if (OP(ST.me) == SUSPEND)
4845                 locinput = PL_reginput;
4846             else {
4847                 locinput = PL_reginput = st->locinput;
4848                 nextchr = UCHARAT(locinput);
4849             }
4850             scan = ST.me + ARG(ST.me);
4851             if (scan == ST.me)
4852                 scan = NULL;
4853             continue; /* execute B */
4854
4855 #undef ST
4856
4857         case LONGJMP:
4858             next = scan + ARG(scan);
4859             if (next == scan)
4860                 next = NULL;
4861             break;
4862         case COMMIT:
4863             reginfo->cutpoint = PL_regeol;
4864             /* FALLTHROUGH */
4865         case PRUNE:
4866             PL_reginput = locinput;
4867             if (!scan->flags)
4868                 sv_yes_mark = sv_commit = (SV*)rexi->data->data[ ARG( scan ) ];
4869             PUSH_STATE_GOTO(COMMIT_next,next);
4870             /* NOTREACHED */
4871         case COMMIT_next_fail:
4872             no_final = 1;    
4873             /* FALLTHROUGH */       
4874         case OPFAIL:
4875             sayNO;
4876             /* NOTREACHED */
4877
4878 #define ST st->u.mark
4879         case MARKPOINT:
4880             ST.prev_mark = mark_state;
4881             ST.mark_name = sv_commit = sv_yes_mark 
4882                 = (SV*)rexi->data->data[ ARG( scan ) ];
4883             mark_state = st;
4884             ST.mark_loc = PL_reginput = locinput;
4885             PUSH_YES_STATE_GOTO(MARKPOINT_next,next);
4886             /* NOTREACHED */
4887         case MARKPOINT_next:
4888             mark_state = ST.prev_mark;
4889             sayYES;
4890             /* NOTREACHED */
4891         case MARKPOINT_next_fail:
4892             if (popmark && sv_eq(ST.mark_name,popmark)) 
4893             {
4894                 if (ST.mark_loc > startpoint)
4895                     reginfo->cutpoint = HOPBACKc(ST.mark_loc, 1);
4896                 popmark = NULL; /* we found our mark */
4897                 sv_commit = ST.mark_name;
4898
4899                 DEBUG_EXECUTE_r({
4900                         PerlIO_printf(Perl_debug_log,
4901                             "%*s  %ssetting cutpoint to mark:%"SVf"...%s\n",
4902                             REPORT_CODE_OFF+depth*2, "", 
4903                             PL_colors[4], SVfARG(sv_commit), PL_colors[5]);
4904                 });
4905             }
4906             mark_state = ST.prev_mark;
4907             sv_yes_mark = mark_state ? 
4908                 mark_state->u.mark.mark_name : NULL;
4909             sayNO;
4910             /* NOTREACHED */
4911         case SKIP:
4912             PL_reginput = locinput;
4913             if (scan->flags) {
4914                 /* (*SKIP) : if we fail we cut here*/
4915                 ST.mark_name = NULL;
4916                 ST.mark_loc = locinput;
4917                 PUSH_STATE_GOTO(SKIP_next,next);    
4918             } else {
4919                 /* (*SKIP:NAME) : if there is a (*MARK:NAME) fail where it was, 
4920                    otherwise do nothing.  Meaning we need to scan 
4921                  */
4922                 regmatch_state *cur = mark_state;
4923                 SV *find = (SV*)rexi->data->data[ ARG( scan ) ];
4924                 
4925                 while (cur) {
4926                     if ( sv_eq( cur->u.mark.mark_name, 
4927                                 find ) ) 
4928                     {
4929                         ST.mark_name = find;
4930                         PUSH_STATE_GOTO( SKIP_next, next );
4931                     }
4932                     cur = cur->u.mark.prev_mark;
4933                 }
4934             }    
4935             /* Didn't find our (*MARK:NAME) so ignore this (*SKIP:NAME) */
4936             break;    
4937         case SKIP_next_fail:
4938             if (ST.mark_name) {
4939                 /* (*CUT:NAME) - Set up to search for the name as we 
4940                    collapse the stack*/
4941                 popmark = ST.mark_name;    
4942             } else {
4943                 /* (*CUT) - No name, we cut here.*/
4944                 if (ST.mark_loc > startpoint)
4945                     reginfo->cutpoint = HOPBACKc(ST.mark_loc, 1);
4946                 /* but we set sv_commit to latest mark_name if there
4947                    is one so they can test to see how things lead to this
4948                    cut */    
4949                 if (mark_state) 
4950                     sv_commit=mark_state->u.mark.mark_name;                 
4951             } 
4952             no_final = 1; 
4953             sayNO;
4954             /* NOTREACHED */
4955 #undef ST
4956
4957         default:
4958             PerlIO_printf(Perl_error_log, "%"UVxf" %d\n",
4959                           PTR2UV(scan), OP(scan));
4960             Perl_croak(aTHX_ "regexp memory corruption");
4961             
4962         } /* end switch */ 
4963
4964         /* switch break jumps here */
4965         scan = next; /* prepare to execute the next op and ... */
4966         continue;    /* ... jump back to the top, reusing st */
4967         /* NOTREACHED */
4968
4969       push_yes_state:
4970         /* push a state that backtracks on success */
4971         st->u.yes.prev_yes_state = yes_state;
4972         yes_state = st;
4973         /* FALL THROUGH */
4974       push_state:
4975         /* push a new regex state, then continue at scan  */
4976         {
4977             regmatch_state *newst;
4978
4979             DEBUG_STACK_r({
4980                 regmatch_state *cur = st;
4981                 regmatch_state *curyes = yes_state;
4982                 int curd = depth;
4983                 regmatch_slab *slab = PL_regmatch_slab;
4984                 for (;curd > -1;cur--,curd--) {
4985                     if (cur < SLAB_FIRST(slab)) {
4986                         slab = slab->prev;
4987                         cur = SLAB_LAST(slab);
4988                     }
4989                     PerlIO_printf(Perl_error_log, "%*s#%-3d %-10s %s\n",
4990                         REPORT_CODE_OFF + 2 + depth * 2,"",
4991                         curd, PL_reg_name[cur->resume_state],
4992                         (curyes == cur) ? "yes" : ""
4993                     );
4994                     if (curyes == cur)
4995                         curyes = cur->u.yes.prev_yes_state;
4996                 }
4997             } else 
4998                 DEBUG_STATE_pp("push")
4999             );
5000             depth++;
5001             st->locinput = locinput;
5002             newst = st+1; 
5003             if (newst >  SLAB_LAST(PL_regmatch_slab))
5004                 newst = S_push_slab(aTHX);
5005             PL_regmatch_state = newst;
5006
5007             locinput = PL_reginput;
5008             nextchr = UCHARAT(locinput);
5009             st = newst;
5010             continue;
5011             /* NOTREACHED */
5012         }
5013     }
5014
5015     /*
5016     * We get here only if there's trouble -- normally "case END" is
5017     * the terminating point.
5018     */
5019     Perl_croak(aTHX_ "corrupted regexp pointers");
5020     /*NOTREACHED*/
5021     sayNO;
5022
5023 yes:
5024     if (yes_state) {
5025         /* we have successfully completed a subexpression, but we must now
5026          * pop to the state marked by yes_state and continue from there */
5027         assert(st != yes_state);
5028 #ifdef DEBUGGING
5029         while (st != yes_state) {
5030             st--;
5031             if (st < SLAB_FIRST(PL_regmatch_slab)) {
5032                 PL_regmatch_slab = PL_regmatch_slab->prev;
5033                 st = SLAB_LAST(PL_regmatch_slab);
5034             }
5035             DEBUG_STATE_r({
5036                 if (no_final) {
5037                     DEBUG_STATE_pp("pop (no final)");        
5038                 } else {
5039                     DEBUG_STATE_pp("pop (yes)");
5040                 }
5041             });
5042             depth--;
5043         }
5044 #else
5045         while (yes_state < SLAB_FIRST(PL_regmatch_slab)
5046             || yes_state > SLAB_LAST(PL_regmatch_slab))
5047         {
5048             /* not in this slab, pop slab */
5049             depth -= (st - SLAB_FIRST(PL_regmatch_slab) + 1);
5050             PL_regmatch_slab = PL_regmatch_slab->prev;
5051             st = SLAB_LAST(PL_regmatch_slab);
5052         }
5053         depth -= (st - yes_state);
5054 #endif
5055         st = yes_state;
5056         yes_state = st->u.yes.prev_yes_state;
5057         PL_regmatch_state = st;
5058         
5059         if (no_final) {
5060             locinput= st->locinput;
5061             nextchr = UCHARAT(locinput);
5062         }
5063         state_num = st->resume_state + no_final;
5064         goto reenter_switch;
5065     }
5066
5067     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "%sMatch successful!%s\n",
5068                           PL_colors[4], PL_colors[5]));
5069
5070     if (PL_reg_eval_set) {
5071         /* each successfully executed (?{...}) block does the equivalent of
5072          *   local $^R = do {...}
5073          * When popping the save stack, all these locals would be undone;
5074          * bypass this by setting the outermost saved $^R to the latest
5075          * value */
5076         if (oreplsv != GvSV(PL_replgv))
5077             sv_setsv(oreplsv, GvSV(PL_replgv));
5078     }
5079     result = 1;
5080     goto final_exit;
5081
5082 no:
5083     DEBUG_EXECUTE_r(
5084         PerlIO_printf(Perl_debug_log,
5085             "%*s  %sfailed...%s\n",
5086             REPORT_CODE_OFF+depth*2, "", 
5087             PL_colors[4], PL_colors[5])
5088         );
5089
5090 no_silent:
5091     if (no_final) {
5092         if (yes_state) {
5093             goto yes;
5094         } else {
5095             goto final_exit;
5096         }
5097     }    
5098     if (depth) {
5099         /* there's a previous state to backtrack to */
5100         st--;
5101         if (st < SLAB_FIRST(PL_regmatch_slab)) {
5102             PL_regmatch_slab = PL_regmatch_slab->prev;
5103             st = SLAB_LAST(PL_regmatch_slab);
5104         }
5105         PL_regmatch_state = st;
5106         locinput= st->locinput;
5107         nextchr = UCHARAT(locinput);
5108
5109         DEBUG_STATE_pp("pop");
5110         depth--;
5111         if (yes_state == st)
5112             yes_state = st->u.yes.prev_yes_state;
5113
5114         state_num = st->resume_state + 1; /* failure = success + 1 */
5115         goto reenter_switch;
5116     }
5117     result = 0;
5118
5119   final_exit:
5120     if (rex->intflags & PREGf_VERBARG_SEEN) {
5121         SV *sv_err = get_sv("REGERROR", 1);
5122         SV *sv_mrk = get_sv("REGMARK", 1);
5123         if (result) {
5124             sv_commit = &PL_sv_no;
5125             if (!sv_yes_mark) 
5126                 sv_yes_mark = &PL_sv_yes;
5127         } else {
5128             if (!sv_commit) 
5129                 sv_commit = &PL_sv_yes;
5130             sv_yes_mark = &PL_sv_no;
5131         }
5132         sv_setsv(sv_err, sv_commit);
5133         sv_setsv(sv_mrk, sv_yes_mark);
5134     }
5135
5136     /* restore original high-water mark */
5137     PL_regmatch_slab  = orig_slab;
5138     PL_regmatch_state = orig_state;
5139
5140     /* free all slabs above current one */
5141     if (orig_slab->next) {
5142         regmatch_slab *sl = orig_slab->next;
5143         orig_slab->next = NULL;
5144         while (sl) {
5145             regmatch_slab * const osl = sl;
5146             sl = sl->next;
5147             Safefree(osl);
5148         }
5149     }
5150
5151     return result;
5152 }
5153
5154 /*
5155  - regrepeat - repeatedly match something simple, report how many
5156  */
5157 /*
5158  * [This routine now assumes that it will only match on things of length 1.
5159  * That was true before, but now we assume scan - reginput is the count,
5160  * rather than incrementing count on every character.  [Er, except utf8.]]
5161  */
5162 STATIC I32
5163 S_regrepeat(pTHX_ const regexp *prog, const regnode *p, I32 max, int depth)
5164 {
5165     dVAR;
5166     register char *scan;
5167     register I32 c;
5168     register char *loceol = PL_regeol;
5169     register I32 hardcount = 0;
5170     register bool do_utf8 = PL_reg_match_utf8;
5171 #ifndef DEBUGGING
5172     PERL_UNUSED_ARG(depth);
5173 #endif
5174
5175     scan = PL_reginput;
5176     if (max == REG_INFTY)
5177         max = I32_MAX;
5178     else if (max < loceol - scan)
5179         loceol = scan + max;
5180     switch (OP(p)) {
5181     case REG_ANY:
5182         if (do_utf8) {
5183             loceol = PL_regeol;
5184             while (scan < loceol && hardcount < max && *scan != '\n') {
5185                 scan += UTF8SKIP(scan);
5186                 hardcount++;
5187             }
5188         } else {
5189             while (scan < loceol && *scan != '\n')
5190                 scan++;
5191         }
5192         break;
5193     case SANY:
5194         if (do_utf8) {
5195             loceol = PL_regeol;
5196             while (scan < loceol && hardcount < max) {
5197                 scan += UTF8SKIP(scan);
5198                 hardcount++;
5199             }
5200         }
5201         else
5202             scan = loceol;
5203         break;
5204     case CANY:
5205         scan = loceol;
5206         break;
5207     case EXACT:         /* length of string is 1 */
5208         c = (U8)*STRING(p);
5209         while (scan < loceol && UCHARAT(scan) == c)
5210             scan++;
5211         break;
5212     case EXACTF:        /* length of string is 1 */
5213         c = (U8)*STRING(p);
5214         while (scan < loceol &&
5215                (UCHARAT(scan) == c || UCHARAT(scan) == PL_fold[c]))
5216             scan++;
5217         break;
5218     case EXACTFL:       /* length of string is 1 */
5219         PL_reg_flags |= RF_tainted;
5220         c = (U8)*STRING(p);
5221         while (scan < loceol &&
5222                (UCHARAT(scan) == c || UCHARAT(scan) == PL_fold_locale[c]))
5223             scan++;
5224         break;
5225     case ANYOF:
5226         if (do_utf8) {
5227             loceol = PL_regeol;
5228             while (hardcount < max && scan < loceol &&
5229                    reginclass(prog, p, (U8*)scan, 0, do_utf8)) {
5230                 scan += UTF8SKIP(scan);
5231                 hardcount++;
5232             }
5233         } else {
5234             while (scan < loceol && REGINCLASS(prog, p, (U8*)scan))
5235                 scan++;
5236         }
5237         break;
5238     case ALNUM:
5239         if (do_utf8) {
5240             loceol = PL_regeol;
5241             LOAD_UTF8_CHARCLASS_ALNUM();
5242             while (hardcount < max && scan < loceol &&
5243                    swash_fetch(PL_utf8_alnum, (U8*)scan, do_utf8)) {
5244                 scan += UTF8SKIP(scan);
5245                 hardcount++;
5246             }
5247         } else {
5248             while (scan < loceol && isALNUM(*scan))
5249                 scan++;
5250         }
5251         break;
5252     case ALNUML:
5253         PL_reg_flags |= RF_tainted;
5254         if (do_utf8) {
5255             loceol = PL_regeol;
5256             while (hardcount < max && scan < loceol &&
5257                    isALNUM_LC_utf8((U8*)scan)) {
5258                 scan += UTF8SKIP(scan);
5259                 hardcount++;
5260             }
5261         } else {
5262             while (scan < loceol && isALNUM_LC(*scan))
5263                 scan++;
5264         }
5265         break;
5266     case NALNUM:
5267         if (do_utf8) {
5268             loceol = PL_regeol;
5269             LOAD_UTF8_CHARCLASS_ALNUM();
5270             while (hardcount < max && scan < loceol &&
5271                    !swash_fetch(PL_utf8_alnum, (U8*)scan, do_utf8)) {
5272                 scan += UTF8SKIP(scan);
5273                 hardcount++;
5274             }
5275         } else {
5276             while (scan < loceol && !isALNUM(*scan))
5277                 scan++;
5278         }
5279         break;
5280     case NALNUML:
5281         PL_reg_flags |= RF_tainted;
5282         if (do_utf8) {
5283             loceol = PL_regeol;
5284             while (hardcount < max && scan < loceol &&
5285                    !isALNUM_LC_utf8((U8*)scan)) {
5286                 scan += UTF8SKIP(scan);
5287                 hardcount++;
5288             }
5289         } else {
5290             while (scan < loceol && !isALNUM_LC(*scan))
5291                 scan++;
5292         }
5293         break;
5294     case SPACE:
5295         if (do_utf8) {
5296             loceol = PL_regeol;
5297             LOAD_UTF8_CHARCLASS_SPACE();
5298             while (hardcount < max && scan < loceol &&
5299                    (*scan == ' ' ||
5300                     swash_fetch(PL_utf8_space,(U8*)scan, do_utf8))) {
5301                 scan += UTF8SKIP(scan);
5302                 hardcount++;
5303             }
5304         } else {
5305             while (scan < loceol && isSPACE(*scan))
5306                 scan++;
5307         }
5308         break;
5309     case SPACEL:
5310         PL_reg_flags |= RF_tainted;
5311         if (do_utf8) {
5312             loceol = PL_regeol;
5313             while (hardcount < max && scan < loceol &&
5314                    (*scan == ' ' || isSPACE_LC_utf8((U8*)scan))) {
5315                 scan += UTF8SKIP(scan);
5316                 hardcount++;
5317             }
5318         } else {
5319             while (scan < loceol && isSPACE_LC(*scan))
5320                 scan++;
5321         }
5322         break;
5323     case NSPACE:
5324         if (do_utf8) {
5325             loceol = PL_regeol;
5326             LOAD_UTF8_CHARCLASS_SPACE();
5327             while (hardcount < max && scan < loceol &&
5328                    !(*scan == ' ' ||
5329                      swash_fetch(PL_utf8_space,(U8*)scan, do_utf8))) {
5330                 scan += UTF8SKIP(scan);
5331                 hardcount++;
5332             }
5333         } else {
5334             while (scan < loceol && !isSPACE(*scan))
5335                 scan++;
5336             break;
5337         }
5338     case NSPACEL:
5339         PL_reg_flags |= RF_tainted;
5340         if (do_utf8) {
5341             loceol = PL_regeol;
5342             while (hardcount < max && scan < loceol &&
5343                    !(*scan == ' ' || isSPACE_LC_utf8((U8*)scan))) {
5344                 scan += UTF8SKIP(scan);
5345                 hardcount++;
5346             }
5347         } else {
5348             while (scan < loceol && !isSPACE_LC(*scan))
5349                 scan++;
5350         }
5351         break;
5352     case DIGIT:
5353         if (do_utf8) {
5354             loceol = PL_regeol;
5355             LOAD_UTF8_CHARCLASS_DIGIT();
5356             while (hardcount < max && scan < loceol &&
5357                    swash_fetch(PL_utf8_digit, (U8*)scan, do_utf8)) {
5358                 scan += UTF8SKIP(scan);
5359                 hardcount++;
5360             }
5361         } else {
5362             while (scan < loceol && isDIGIT(*scan))
5363                 scan++;
5364         }
5365         break;
5366     case NDIGIT:
5367         if (do_utf8) {
5368             loceol = PL_regeol;
5369             LOAD_UTF8_CHARCLASS_DIGIT();
5370             while (hardcount < max && scan < loceol &&
5371                    !swash_fetch(PL_utf8_digit, (U8*)scan, do_utf8)) {
5372                 scan += UTF8SKIP(scan);
5373                 hardcount++;
5374             }
5375         } else {
5376             while (scan < loceol && !isDIGIT(*scan))
5377                 scan++;
5378         }
5379         break;
5380     default:            /* Called on something of 0 width. */
5381         break;          /* So match right here or not at all. */
5382     }
5383
5384     if (hardcount)
5385         c = hardcount;
5386     else
5387         c = scan - PL_reginput;
5388     PL_reginput = scan;
5389
5390     DEBUG_r({
5391         GET_RE_DEBUG_FLAGS_DECL;
5392         DEBUG_EXECUTE_r({
5393             SV * const prop = sv_newmortal();
5394             regprop(prog, prop, p);
5395             PerlIO_printf(Perl_debug_log,
5396                         "%*s  %s can match %"IVdf" times out of %"IVdf"...\n",
5397                         REPORT_CODE_OFF + depth*2, "", SvPVX_const(prop),(IV)c,(IV)max);
5398         });
5399     });
5400
5401     return(c);
5402 }
5403
5404
5405 #if !defined(PERL_IN_XSUB_RE) || defined(PLUGGABLE_RE_EXTENSION)
5406 /*
5407 - regclass_swash - prepare the utf8 swash
5408 */
5409
5410 SV *
5411 Perl_regclass_swash(pTHX_ const regexp *prog, register const regnode* node, bool doinit, SV** listsvp, SV **altsvp)
5412 {
5413     dVAR;
5414     SV *sw  = NULL;
5415     SV *si  = NULL;
5416     SV *alt = NULL;
5417     RXi_GET_DECL(prog,progi);
5418     const struct reg_data * const data = prog ? progi->data : NULL;
5419
5420     if (data && data->count) {
5421         const U32 n = ARG(node);
5422
5423         if (data->what[n] == 's') {
5424             SV * const rv = (SV*)data->data[n];
5425             AV * const av = (AV*)SvRV((SV*)rv);
5426             SV **const ary = AvARRAY(av);
5427             SV **a, **b;
5428         
5429             /* See the end of regcomp.c:S_regclass() for
5430              * documentation of these array elements. */
5431
5432             si = *ary;
5433             a  = SvROK(ary[1]) ? &ary[1] : 0;
5434             b  = SvTYPE(ary[2]) == SVt_PVAV ? &ary[2] : 0;
5435
5436             if (a)
5437                 sw = *a;
5438             else if (si && doinit) {
5439                 sw = swash_init("utf8", "", si, 1, 0);
5440                 (void)av_store(av, 1, sw);
5441             }
5442             if (b)
5443                 alt = *b;
5444         }
5445     }
5446         
5447     if (listsvp)
5448         *listsvp = si;
5449     if (altsvp)
5450         *altsvp  = alt;
5451
5452     return sw;
5453 }
5454 #endif
5455
5456 /*
5457  - reginclass - determine if a character falls into a character class
5458  
5459   The n is the ANYOF regnode, the p is the target string, lenp
5460   is pointer to the maximum length of how far to go in the p
5461   (if the lenp is zero, UTF8SKIP(p) is used),
5462   do_utf8 tells whether the target string is in UTF-8.
5463
5464  */
5465
5466 STATIC bool
5467 S_reginclass(pTHX_ const regexp *prog, register const regnode *n, register const U8* p, STRLEN* lenp, register bool do_utf8)
5468 {
5469     dVAR;
5470     const char flags = ANYOF_FLAGS(n);
5471     bool match = FALSE;
5472     UV c = *p;
5473     STRLEN len = 0;
5474     STRLEN plen;
5475
5476     if (do_utf8 && !UTF8_IS_INVARIANT(c)) {
5477         c = utf8n_to_uvchr(p, UTF8_MAXBYTES, &len,
5478                 (UTF8_ALLOW_DEFAULT & UTF8_ALLOW_ANYUV) | UTF8_CHECK_ONLY);
5479                 /* see [perl #37836] for UTF8_ALLOW_ANYUV */
5480         if (len == (STRLEN)-1) 
5481             Perl_croak(aTHX_ "Malformed UTF-8 character (fatal)");
5482     }
5483
5484     plen = lenp ? *lenp : UNISKIP(NATIVE_TO_UNI(c));
5485     if (do_utf8 || (flags & ANYOF_UNICODE)) {
5486         if (lenp)
5487             *lenp = 0;
5488         if (do_utf8 && !ANYOF_RUNTIME(n)) {
5489             if (len != (STRLEN)-1 && c < 256 && ANYOF_BITMAP_TEST(n, c))
5490                 match = TRUE;
5491         }
5492         if (!match && do_utf8 && (flags & ANYOF_UNICODE_ALL) && c >= 256)
5493             match = TRUE;
5494         if (!match) {
5495             AV *av;
5496             SV * const sw = regclass_swash(prog, n, TRUE, 0, (SV**)&av);
5497         
5498             if (sw) {
5499                 if (swash_fetch(sw, p, do_utf8))
5500                     match = TRUE;
5501                 else if (flags & ANYOF_FOLD) {
5502                     if (!match && lenp && av) {
5503                         I32 i;
5504                         for (i = 0; i <= av_len(av); i++) {
5505                             SV* const sv = *av_fetch(av, i, FALSE);
5506                             STRLEN len;
5507                             const char * const s = SvPV_const(sv, len);
5508                         
5509                             if (len <= plen && memEQ(s, (char*)p, len)) {
5510                                 *lenp = len;
5511                                 match = TRUE;
5512                                 break;
5513                             }
5514                         }
5515                     }
5516                     if (!match) {
5517                         U8 tmpbuf[UTF8_MAXBYTES_CASE+1];
5518                         STRLEN tmplen;
5519
5520                         to_utf8_fold(p, tmpbuf, &tmplen);
5521                         if (swash_fetch(sw, tmpbuf, do_utf8))
5522                             match = TRUE;
5523                     }
5524                 }
5525             }
5526         }
5527         if (match && lenp && *lenp == 0)
5528             *lenp = UNISKIP(NATIVE_TO_UNI(c));
5529     }
5530     if (!match && c < 256) {
5531         if (ANYOF_BITMAP_TEST(n, c))
5532             match = TRUE;
5533         else if (flags & ANYOF_FOLD) {
5534             U8 f;
5535
5536             if (flags & ANYOF_LOCALE) {
5537                 PL_reg_flags |= RF_tainted;
5538                 f = PL_fold_locale[c];
5539             }
5540             else
5541                 f = PL_fold[c];
5542             if (f != c && ANYOF_BITMAP_TEST(n, f))
5543                 match = TRUE;
5544         }
5545         
5546         if (!match && (flags & ANYOF_CLASS)) {
5547             PL_reg_flags |= RF_tainted;
5548             if (
5549                 (ANYOF_CLASS_TEST(n, ANYOF_ALNUM)   &&  isALNUM_LC(c))  ||
5550                 (ANYOF_CLASS_TEST(n, ANYOF_NALNUM)  && !isALNUM_LC(c))  ||
5551                 (ANYOF_CLASS_TEST(n, ANYOF_SPACE)   &&  isSPACE_LC(c))  ||
5552                 (ANYOF_CLASS_TEST(n, ANYOF_NSPACE)  && !isSPACE_LC(c))  ||
5553                 (ANYOF_CLASS_TEST(n, ANYOF_DIGIT)   &&  isDIGIT_LC(c))  ||
5554                 (ANYOF_CLASS_TEST(n, ANYOF_NDIGIT)  && !isDIGIT_LC(c))  ||
5555                 (ANYOF_CLASS_TEST(n, ANYOF_ALNUMC)  &&  isALNUMC_LC(c)) ||
5556                 (ANYOF_CLASS_TEST(n, ANYOF_NALNUMC) && !isALNUMC_LC(c)) ||
5557                 (ANYOF_CLASS_TEST(n, ANYOF_ALPHA)   &&  isALPHA_LC(c))  ||
5558                 (ANYOF_CLASS_TEST(n, ANYOF_NALPHA)  && !isALPHA_LC(c))  ||
5559                 (ANYOF_CLASS_TEST(n, ANYOF_ASCII)   &&  isASCII(c))     ||
5560                 (ANYOF_CLASS_TEST(n, ANYOF_NASCII)  && !isASCII(c))     ||
5561                 (ANYOF_CLASS_TEST(n, ANYOF_CNTRL)   &&  isCNTRL_LC(c))  ||
5562                 (ANYOF_CLASS_TEST(n, ANYOF_NCNTRL)  && !isCNTRL_LC(c))  ||
5563                 (ANYOF_CLASS_TEST(n, ANYOF_GRAPH)   &&  isGRAPH_LC(c))  ||
5564                 (ANYOF_CLASS_TEST(n, ANYOF_NGRAPH)  && !isGRAPH_LC(c))  ||
5565                 (ANYOF_CLASS_TEST(n, ANYOF_LOWER)   &&  isLOWER_LC(c))  ||
5566                 (ANYOF_CLASS_TEST(n, ANYOF_NLOWER)  && !isLOWER_LC(c))  ||
5567                 (ANYOF_CLASS_TEST(n, ANYOF_PRINT)   &&  isPRINT_LC(c))  ||
5568                 (ANYOF_CLASS_TEST(n, ANYOF_NPRINT)  && !isPRINT_LC(c))  ||
5569                 (ANYOF_CLASS_TEST(n, ANYOF_PUNCT)   &&  isPUNCT_LC(c))  ||
5570                 (ANYOF_CLASS_TEST(n, ANYOF_NPUNCT)  && !isPUNCT_LC(c))  ||
5571                 (ANYOF_CLASS_TEST(n, ANYOF_UPPER)   &&  isUPPER_LC(c))  ||
5572                 (ANYOF_CLASS_TEST(n, ANYOF_NUPPER)  && !isUPPER_LC(c))  ||
5573                 (ANYOF_CLASS_TEST(n, ANYOF_XDIGIT)  &&  isXDIGIT(c))    ||
5574                 (ANYOF_CLASS_TEST(n, ANYOF_NXDIGIT) && !isXDIGIT(c))    ||
5575                 (ANYOF_CLASS_TEST(n, ANYOF_PSXSPC)  &&  isPSXSPC(c))    ||
5576                 (ANYOF_CLASS_TEST(n, ANYOF_NPSXSPC) && !isPSXSPC(c))    ||
5577                 (ANYOF_CLASS_TEST(n, ANYOF_BLANK)   &&  isBLANK(c))     ||
5578                 (ANYOF_CLASS_TEST(n, ANYOF_NBLANK)  && !isBLANK(c))
5579                 ) /* How's that for a conditional? */
5580             {
5581                 match = TRUE;
5582             }
5583         }
5584     }
5585
5586     return (flags & ANYOF_INVERT) ? !match : match;
5587 }
5588
5589 STATIC U8 *
5590 S_reghop3(U8 *s, I32 off, const U8* lim)
5591 {
5592     dVAR;
5593     if (off >= 0) {
5594         while (off-- && s < lim) {
5595             /* XXX could check well-formedness here */
5596             s += UTF8SKIP(s);
5597         }
5598     }
5599     else {
5600         while (off++ && s > lim) {
5601             s--;
5602             if (UTF8_IS_CONTINUED(*s)) {
5603                 while (s > lim && UTF8_IS_CONTINUATION(*s))
5604                     s--;
5605             }
5606             /* XXX could check well-formedness here */
5607         }
5608     }
5609     return s;
5610 }
5611
5612 #ifdef XXX_dmq
5613 /* there are a bunch of places where we use two reghop3's that should
5614    be replaced with this routine. but since thats not done yet 
5615    we ifdef it out - dmq
5616 */
5617 STATIC U8 *
5618 S_reghop4(U8 *s, I32 off, const U8* llim, const U8* rlim)
5619 {
5620     dVAR;
5621     if (off >= 0) {
5622         while (off-- && s < rlim) {
5623             /* XXX could check well-formedness here */
5624             s += UTF8SKIP(s);
5625         }
5626     }
5627     else {
5628         while (off++ && s > llim) {
5629             s--;
5630             if (UTF8_IS_CONTINUED(*s)) {
5631                 while (s > llim && UTF8_IS_CONTINUATION(*s))
5632                     s--;
5633             }
5634             /* XXX could check well-formedness here */
5635         }
5636     }
5637     return s;
5638 }
5639 #endif
5640
5641 STATIC U8 *
5642 S_reghopmaybe3(U8* s, I32 off, const U8* lim)
5643 {
5644     dVAR;
5645     if (off >= 0) {
5646         while (off-- && s < lim) {
5647             /* XXX could check well-formedness here */
5648             s += UTF8SKIP(s);
5649         }
5650         if (off >= 0)
5651             return NULL;
5652     }
5653     else {
5654         while (off++ && s > lim) {
5655             s--;
5656             if (UTF8_IS_CONTINUED(*s)) {
5657                 while (s > lim && UTF8_IS_CONTINUATION(*s))
5658                     s--;
5659             }
5660             /* XXX could check well-formedness here */
5661         }
5662         if (off <= 0)
5663             return NULL;
5664     }
5665     return s;
5666 }
5667
5668 static void
5669 restore_pos(pTHX_ void *arg)
5670 {
5671     dVAR;
5672     regexp * const rex = (regexp *)arg;
5673     if (PL_reg_eval_set) {
5674         if (PL_reg_oldsaved) {
5675             rex->subbeg = PL_reg_oldsaved;
5676             rex->sublen = PL_reg_oldsavedlen;
5677 #ifdef PERL_OLD_COPY_ON_WRITE
5678             rex->saved_copy = PL_nrs;
5679 #endif
5680             RX_MATCH_COPIED_on(rex);
5681         }
5682         PL_reg_magic->mg_len = PL_reg_oldpos;
5683         PL_reg_eval_set = 0;
5684         PL_curpm = PL_reg_oldcurpm;
5685     }   
5686 }
5687
5688 STATIC void
5689 S_to_utf8_substr(pTHX_ register regexp *prog)
5690 {
5691     int i = 1;
5692     do {
5693         if (prog->substrs->data[i].substr
5694             && !prog->substrs->data[i].utf8_substr) {
5695             SV* const sv = newSVsv(prog->substrs->data[i].substr);
5696             prog->substrs->data[i].utf8_substr = sv;
5697             sv_utf8_upgrade(sv);
5698             if (SvVALID(prog->substrs->data[i].substr)) {
5699                 const U8 flags = BmFLAGS(prog->substrs->data[i].substr);
5700                 if (flags & FBMcf_TAIL) {
5701                     /* Trim the trailing \n that fbm_compile added last
5702                        time.  */
5703                     SvCUR_set(sv, SvCUR(sv) - 1);
5704                     /* Whilst this makes the SV technically "invalid" (as its
5705                        buffer is no longer followed by "\0") when fbm_compile()
5706                        adds the "\n" back, a "\0" is restored.  */
5707                 }
5708                 fbm_compile(sv, flags);
5709             }
5710             if (prog->substrs->data[i].substr == prog->check_substr)
5711                 prog->check_utf8 = sv;
5712         }
5713     } while (i--);
5714 }
5715
5716 STATIC void
5717 S_to_byte_substr(pTHX_ register regexp *prog)
5718 {
5719     dVAR;
5720     int i = 1;
5721     do {
5722         if (prog->substrs->data[i].utf8_substr
5723             && !prog->substrs->data[i].substr) {
5724             SV* sv = newSVsv(prog->substrs->data[i].utf8_substr);
5725             if (sv_utf8_downgrade(sv, TRUE)) {
5726                 if (SvVALID(prog->substrs->data[i].utf8_substr)) {
5727                     const U8 flags
5728                         = BmFLAGS(prog->substrs->data[i].utf8_substr);
5729                     if (flags & FBMcf_TAIL) {
5730                         /* Trim the trailing \n that fbm_compile added last
5731                            time.  */
5732                         SvCUR_set(sv, SvCUR(sv) - 1);
5733                     }
5734                     fbm_compile(sv, flags);
5735                 }           
5736             } else {
5737                 SvREFCNT_dec(sv);
5738                 sv = &PL_sv_undef;
5739             }
5740             prog->substrs->data[i].substr = sv;
5741             if (prog->substrs->data[i].utf8_substr == prog->check_utf8)
5742                 prog->check_substr = sv;
5743         }
5744     } while (i--);
5745 }
5746
5747 /*
5748  * Local variables:
5749  * c-indentation-style: bsd
5750  * c-basic-offset: 4
5751  * indent-tabs-mode: t
5752  * End:
5753  *
5754  * ex: set ts=8 sts=4 sw=4 noet:
5755  */