Upgrade to Test::Harness 2.57_05
[p5sagit/p5-mst-13.2.git] / regexec.c
1 /*    regexec.c
2  */
3
4 /*
5  * "One Ring to rule them all, One Ring to find them..."
6  */
7
8 /* This file contains functions for executing a regular expression.  See
9  * also regcomp.c which funnily enough, contains functions for compiling
10  * a regular expression.
11  *
12  * This file is also copied at build time to ext/re/re_exec.c, where
13  * it's built with -DPERL_EXT_RE_BUILD -DPERL_EXT_RE_DEBUG -DPERL_EXT.
14  * This causes the main functions to be compiled under new names and with
15  * debugging support added, which makes "use re 'debug'" work.
16  
17  */
18
19 /* NOTE: this is derived from Henry Spencer's regexp code, and should not
20  * confused with the original package (see point 3 below).  Thanks, Henry!
21  */
22
23 /* Additional note: this code is very heavily munged from Henry's version
24  * in places.  In some spots I've traded clarity for efficiency, so don't
25  * blame Henry for some of the lack of readability.
26  */
27
28 /* The names of the functions have been changed from regcomp and
29  * regexec to  pregcomp and pregexec in order to avoid conflicts
30  * with the POSIX routines of the same names.
31 */
32
33 #ifdef PERL_EXT_RE_BUILD
34 /* need to replace pregcomp et al, so enable that */
35 #  ifndef PERL_IN_XSUB_RE
36 #    define PERL_IN_XSUB_RE
37 #  endif
38 /* need access to debugger hooks */
39 #  if defined(PERL_EXT_RE_DEBUG) && !defined(DEBUGGING)
40 #    define DEBUGGING
41 #  endif
42 #endif
43
44 #ifdef PERL_IN_XSUB_RE
45 /* We *really* need to overwrite these symbols: */
46 #  define Perl_regexec_flags my_regexec
47 #  define Perl_regdump my_regdump
48 #  define Perl_regprop my_regprop
49 #  define Perl_re_intuit_start my_re_intuit_start
50 /* *These* symbols are masked to allow static link. */
51 #  define Perl_pregexec my_pregexec
52 #  define Perl_reginitcolors my_reginitcolors
53 #  define Perl_regclass_swash my_regclass_swash
54
55 #  define PERL_NO_GET_CONTEXT
56 #endif
57
58 /*
59  * pregcomp and pregexec -- regsub and regerror are not used in perl
60  *
61  *      Copyright (c) 1986 by University of Toronto.
62  *      Written by Henry Spencer.  Not derived from licensed software.
63  *
64  *      Permission is granted to anyone to use this software for any
65  *      purpose on any computer system, and to redistribute it freely,
66  *      subject to the following restrictions:
67  *
68  *      1. The author is not responsible for the consequences of use of
69  *              this software, no matter how awful, even if they arise
70  *              from defects in it.
71  *
72  *      2. The origin of this software must not be misrepresented, either
73  *              by explicit claim or by omission.
74  *
75  *      3. Altered versions must be plainly marked as such, and must not
76  *              be misrepresented as being the original software.
77  *
78  ****    Alterations to Henry's code are...
79  ****
80  ****    Copyright (C) 1991, 1992, 1993, 1994, 1995, 1996, 1997, 1998, 1999,
81  ****    2000, 2001, 2002, 2003, 2004, 2005, 2006, by Larry Wall and others
82  ****
83  ****    You may distribute under the terms of either the GNU General Public
84  ****    License or the Artistic License, as specified in the README file.
85  *
86  * Beware that some of this code is subtly aware of the way operator
87  * precedence is structured in regular expressions.  Serious changes in
88  * regular-expression syntax might require a total rethink.
89  */
90 #include "EXTERN.h"
91 #define PERL_IN_REGEXEC_C
92 #include "perl.h"
93
94 #include "regcomp.h"
95
96 #define RF_tainted      1               /* tainted information used? */
97 #define RF_warned       2               /* warned about big count? */
98 #define RF_evaled       4               /* Did an EVAL with setting? */
99 #define RF_utf8         8               /* String contains multibyte chars? */
100
101 #define UTF ((PL_reg_flags & RF_utf8) != 0)
102
103 #define RS_init         1               /* eval environment created */
104 #define RS_set          2               /* replsv value is set */
105
106 #ifndef STATIC
107 #define STATIC  static
108 #endif
109
110 #define REGINCLASS(prog,p,c)  (ANYOF_FLAGS(p) ? reginclass(prog,p,c,0,0) : ANYOF_BITMAP_TEST(p,*(c)))
111
112 /*
113  * Forwards.
114  */
115
116 #define CHR_SVLEN(sv) (do_utf8 ? sv_len_utf8(sv) : SvCUR(sv))
117 #define CHR_DIST(a,b) (PL_reg_match_utf8 ? utf8_distance(a,b) : a - b)
118
119 #define HOPc(pos,off) ((char *)(PL_reg_match_utf8 \
120             ? reghop3((U8*)pos, off, (U8*)(off >= 0 ? PL_regeol : PL_bostr)) \
121             : (U8*)(pos + off)))
122 #define HOPBACKc(pos, off) ((char*)     \
123     ((PL_reg_match_utf8)                \
124         ? reghopmaybe3((U8*)pos, -off, ((U8*)(off < 0 ? PL_regeol : PL_bostr))) \
125     : (pos - off >= PL_bostr)           \
126         ? (U8*)(pos - off)              \
127     : (U8*)NULL)                        \
128 )
129
130 #define reghopmaybe3_c(pos,off,lim) ((char*)reghopmaybe3((U8*)pos, off, (U8*)lim))
131 #define HOP3(pos,off,lim) (PL_reg_match_utf8 ? reghop3((U8*)pos, off, (U8*)lim) : (U8*)(pos + off))
132 #define HOP3c(pos,off,lim) ((char*)HOP3(pos,off,lim))
133
134 #define LOAD_UTF8_CHARCLASS(class,str) STMT_START { \
135     if (!CAT2(PL_utf8_,class)) { bool ok; ENTER; save_re_context(); ok=CAT2(is_utf8_,class)((const U8*)str); assert(ok); LEAVE; } } STMT_END
136 #define LOAD_UTF8_CHARCLASS_ALNUM() LOAD_UTF8_CHARCLASS(alnum,"a")
137 #define LOAD_UTF8_CHARCLASS_DIGIT() LOAD_UTF8_CHARCLASS(digit,"0")
138 #define LOAD_UTF8_CHARCLASS_SPACE() LOAD_UTF8_CHARCLASS(space," ")
139 #define LOAD_UTF8_CHARCLASS_MARK()  LOAD_UTF8_CHARCLASS(mark, "\xcd\x86")
140
141 /* for use after a quantifier and before an EXACT-like node -- japhy */
142 #define JUMPABLE(rn) ( \
143     OP(rn) == OPEN || OP(rn) == CLOSE || OP(rn) == EVAL || \
144     OP(rn) == SUSPEND || OP(rn) == IFMATCH || \
145     OP(rn) == PLUS || OP(rn) == MINMOD || \
146     (PL_regkind[(U8)OP(rn)] == CURLY && ARG1(rn) > 0) \
147 )
148
149 #define HAS_TEXT(rn) ( \
150     PL_regkind[(U8)OP(rn)] == EXACT || PL_regkind[(U8)OP(rn)] == REF \
151 )
152
153 /*
154   Search for mandatory following text node; for lookahead, the text must
155   follow but for lookbehind (rn->flags != 0) we skip to the next step.
156 */
157 #define FIND_NEXT_IMPT(rn) STMT_START { \
158     while (JUMPABLE(rn)) \
159         if (OP(rn) == SUSPEND || PL_regkind[(U8)OP(rn)] == CURLY) \
160             rn = NEXTOPER(NEXTOPER(rn)); \
161         else if (OP(rn) == PLUS) \
162             rn = NEXTOPER(rn); \
163         else if (OP(rn) == IFMATCH) \
164             rn = (rn->flags == 0) ? NEXTOPER(NEXTOPER(rn)) : rn + ARG(rn); \
165         else rn += NEXT_OFF(rn); \
166 } STMT_END 
167
168 static void restore_pos(pTHX_ void *arg);
169
170 STATIC CHECKPOINT
171 S_regcppush(pTHX_ I32 parenfloor)
172 {
173     dVAR;
174     const int retval = PL_savestack_ix;
175 #define REGCP_PAREN_ELEMS 4
176     const int paren_elems_to_push = (PL_regsize - parenfloor) * REGCP_PAREN_ELEMS;
177     int p;
178
179     if (paren_elems_to_push < 0)
180         Perl_croak(aTHX_ "panic: paren_elems_to_push < 0");
181
182 #define REGCP_OTHER_ELEMS 6
183     SSGROW(paren_elems_to_push + REGCP_OTHER_ELEMS);
184     for (p = PL_regsize; p > parenfloor; p--) {
185 /* REGCP_PARENS_ELEMS are pushed per pairs of parentheses. */
186         SSPUSHINT(PL_regendp[p]);
187         SSPUSHINT(PL_regstartp[p]);
188         SSPUSHPTR(PL_reg_start_tmp[p]);
189         SSPUSHINT(p);
190     }
191 /* REGCP_OTHER_ELEMS are pushed in any case, parentheses or no. */
192     SSPUSHINT(PL_regsize);
193     SSPUSHINT(*PL_reglastparen);
194     SSPUSHINT(*PL_reglastcloseparen);
195     SSPUSHPTR(PL_reginput);
196 #define REGCP_FRAME_ELEMS 2
197 /* REGCP_FRAME_ELEMS are part of the REGCP_OTHER_ELEMS and
198  * are needed for the regexp context stack bookkeeping. */
199     SSPUSHINT(paren_elems_to_push + REGCP_OTHER_ELEMS - REGCP_FRAME_ELEMS);
200     SSPUSHINT(SAVEt_REGCONTEXT); /* Magic cookie. */
201
202     return retval;
203 }
204
205 /* These are needed since we do not localize EVAL nodes: */
206 #  define REGCP_SET(cp)  DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,          \
207                              "  Setting an EVAL scope, savestack=%"IVdf"\n",    \
208                              (IV)PL_savestack_ix)); cp = PL_savestack_ix
209
210 #  define REGCP_UNWIND(cp)  DEBUG_EXECUTE_r(cp != PL_savestack_ix ?             \
211                                 PerlIO_printf(Perl_debug_log,           \
212                                 "  Clearing an EVAL scope, savestack=%"IVdf"..%"IVdf"\n", \
213                                 (IV)(cp), (IV)PL_savestack_ix) : 0); regcpblow(cp)
214
215 STATIC char *
216 S_regcppop(pTHX_ const regexp *rex)
217 {
218     dVAR;
219     I32 i;
220     char *input;
221
222     GET_RE_DEBUG_FLAGS_DECL;
223
224     /* Pop REGCP_OTHER_ELEMS before the parentheses loop starts. */
225     i = SSPOPINT;
226     assert(i == SAVEt_REGCONTEXT); /* Check that the magic cookie is there. */
227     i = SSPOPINT; /* Parentheses elements to pop. */
228     input = (char *) SSPOPPTR;
229     *PL_reglastcloseparen = SSPOPINT;
230     *PL_reglastparen = SSPOPINT;
231     PL_regsize = SSPOPINT;
232
233     /* Now restore the parentheses context. */
234     for (i -= (REGCP_OTHER_ELEMS - REGCP_FRAME_ELEMS);
235          i > 0; i -= REGCP_PAREN_ELEMS) {
236         I32 tmps;
237         U32 paren = (U32)SSPOPINT;
238         PL_reg_start_tmp[paren] = (char *) SSPOPPTR;
239         PL_regstartp[paren] = SSPOPINT;
240         tmps = SSPOPINT;
241         if (paren <= *PL_reglastparen)
242             PL_regendp[paren] = tmps;
243         DEBUG_EXECUTE_r(
244             PerlIO_printf(Perl_debug_log,
245                           "     restoring \\%"UVuf" to %"IVdf"(%"IVdf")..%"IVdf"%s\n",
246                           (UV)paren, (IV)PL_regstartp[paren],
247                           (IV)(PL_reg_start_tmp[paren] - PL_bostr),
248                           (IV)PL_regendp[paren],
249                           (paren > *PL_reglastparen ? "(no)" : ""));
250         );
251     }
252     DEBUG_EXECUTE_r(
253         if ((I32)(*PL_reglastparen + 1) <= rex->nparens) {
254             PerlIO_printf(Perl_debug_log,
255                           "     restoring \\%"IVdf"..\\%"IVdf" to undef\n",
256                           (IV)(*PL_reglastparen + 1), (IV)rex->nparens);
257         }
258     );
259 #if 1
260     /* It would seem that the similar code in regtry()
261      * already takes care of this, and in fact it is in
262      * a better location to since this code can #if 0-ed out
263      * but the code in regtry() is needed or otherwise tests
264      * requiring null fields (pat.t#187 and split.t#{13,14}
265      * (as of patchlevel 7877)  will fail.  Then again,
266      * this code seems to be necessary or otherwise
267      * building DynaLoader will fail:
268      * "Error: '*' not in typemap in DynaLoader.xs, line 164"
269      * --jhi */
270     for (i = *PL_reglastparen + 1; i <= rex->nparens; i++) {
271         if (i > PL_regsize)
272             PL_regstartp[i] = -1;
273         PL_regendp[i] = -1;
274     }
275 #endif
276     return input;
277 }
278
279 #define regcpblow(cp) LEAVE_SCOPE(cp)   /* Ignores regcppush()ed data. */
280
281 #define TRYPAREN(paren, n, input, where) {                      \
282     if (paren) {                                                \
283         if (n) {                                                \
284             PL_regstartp[paren] = HOPc(input, -1) - PL_bostr;   \
285             PL_regendp[paren] = input - PL_bostr;               \
286         }                                                       \
287         else                                                    \
288             PL_regendp[paren] = -1;                             \
289     }                                                           \
290     REGMATCH(next, where);                                      \
291     if (result)                                                 \
292         sayYES;                                                 \
293     if (paren && n)                                             \
294         PL_regendp[paren] = -1;                                 \
295 }
296
297
298 /*
299  * pregexec and friends
300  */
301
302 /*
303  - pregexec - match a regexp against a string
304  */
305 I32
306 Perl_pregexec(pTHX_ register regexp *prog, char *stringarg, register char *strend,
307          char *strbeg, I32 minend, SV *screamer, U32 nosave)
308 /* strend: pointer to null at end of string */
309 /* strbeg: real beginning of string */
310 /* minend: end of match must be >=minend after stringarg. */
311 /* nosave: For optimizations. */
312 {
313     return
314         regexec_flags(prog, stringarg, strend, strbeg, minend, screamer, NULL,
315                       nosave ? 0 : REXEC_COPY_STR);
316 }
317
318
319 /*
320  * Need to implement the following flags for reg_anch:
321  *
322  * USE_INTUIT_NOML              - Useful to call re_intuit_start() first
323  * USE_INTUIT_ML
324  * INTUIT_AUTORITATIVE_NOML     - Can trust a positive answer
325  * INTUIT_AUTORITATIVE_ML
326  * INTUIT_ONCE_NOML             - Intuit can match in one location only.
327  * INTUIT_ONCE_ML
328  *
329  * Another flag for this function: SECOND_TIME (so that float substrs
330  * with giant delta may be not rechecked).
331  */
332
333 /* Assumptions: if ANCH_GPOS, then strpos is anchored. XXXX Check GPOS logic */
334
335 /* If SCREAM, then SvPVX_const(sv) should be compatible with strpos and strend.
336    Otherwise, only SvCUR(sv) is used to get strbeg. */
337
338 /* XXXX We assume that strpos is strbeg unless sv. */
339
340 /* XXXX Some places assume that there is a fixed substring.
341         An update may be needed if optimizer marks as "INTUITable"
342         RExen without fixed substrings.  Similarly, it is assumed that
343         lengths of all the strings are no more than minlen, thus they
344         cannot come from lookahead.
345         (Or minlen should take into account lookahead.) */
346
347 /* A failure to find a constant substring means that there is no need to make
348    an expensive call to REx engine, thus we celebrate a failure.  Similarly,
349    finding a substring too deep into the string means that less calls to
350    regtry() should be needed.
351
352    REx compiler's optimizer found 4 possible hints:
353         a) Anchored substring;
354         b) Fixed substring;
355         c) Whether we are anchored (beginning-of-line or \G);
356         d) First node (of those at offset 0) which may distingush positions;
357    We use a)b)d) and multiline-part of c), and try to find a position in the
358    string which does not contradict any of them.
359  */
360
361 /* Most of decisions we do here should have been done at compile time.
362    The nodes of the REx which we used for the search should have been
363    deleted from the finite automaton. */
364
365 char *
366 Perl_re_intuit_start(pTHX_ regexp *prog, SV *sv, char *strpos,
367                      char *strend, U32 flags, re_scream_pos_data *data)
368 {
369     dVAR;
370     register I32 start_shift = 0;
371     /* Should be nonnegative! */
372     register I32 end_shift   = 0;
373     register char *s;
374     register SV *check;
375     char *strbeg;
376     char *t;
377     const int do_utf8 = sv ? SvUTF8(sv) : 0;    /* if no sv we have to assume bytes */
378     I32 ml_anch;
379     register char *other_last = NULL;   /* other substr checked before this */
380     char *check_at = NULL;              /* check substr found at this pos */
381     const I32 multiline = prog->reganch & PMf_MULTILINE;
382 #ifdef DEBUGGING
383     const char * const i_strpos = strpos;
384     SV * const dsv = PERL_DEBUG_PAD_ZERO(0);
385 #endif
386
387     GET_RE_DEBUG_FLAGS_DECL;
388
389     RX_MATCH_UTF8_set(prog,do_utf8);
390
391     if (prog->reganch & ROPT_UTF8) {
392         DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
393                               "UTF-8 regex...\n"));
394         PL_reg_flags |= RF_utf8;
395     }
396
397     DEBUG_EXECUTE_r({
398          const char *s   = PL_reg_match_utf8 ?
399                          sv_uni_display(dsv, sv, 60, UNI_DISPLAY_REGEX) :
400                          strpos;
401          const int   len = PL_reg_match_utf8 ?
402                          strlen(s) : strend - strpos;
403          if (!PL_colorset)
404               reginitcolors();
405          if (PL_reg_match_utf8)
406              DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
407                                    "UTF-8 target...\n"));
408          PerlIO_printf(Perl_debug_log,
409                        "%sGuessing start of match, REx%s \"%s%.60s%s%s\" against \"%s%.*s%s%s\"...\n",
410                        PL_colors[4], PL_colors[5], PL_colors[0],
411                        prog->precomp,
412                        PL_colors[1],
413                        (strlen(prog->precomp) > 60 ? "..." : ""),
414                        PL_colors[0],
415                        (int)(len > 60 ? 60 : len),
416                        s, PL_colors[1],
417                        (len > 60 ? "..." : "")
418               );
419     });
420
421     /* CHR_DIST() would be more correct here but it makes things slow. */
422     if (prog->minlen > strend - strpos) {
423         DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
424                               "String too short... [re_intuit_start]\n"));
425         goto fail;
426     }
427     strbeg = (sv && SvPOK(sv)) ? strend - SvCUR(sv) : strpos;
428     PL_regeol = strend;
429     if (do_utf8) {
430         if (!prog->check_utf8 && prog->check_substr)
431             to_utf8_substr(prog);
432         check = prog->check_utf8;
433     } else {
434         if (!prog->check_substr && prog->check_utf8)
435             to_byte_substr(prog);
436         check = prog->check_substr;
437     }
438    if (check == &PL_sv_undef) {
439         DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
440                 "Non-utf string cannot match utf check string\n"));
441         goto fail;
442     }
443     if (prog->reganch & ROPT_ANCH) {    /* Match at beg-of-str or after \n */
444         ml_anch = !( (prog->reganch & ROPT_ANCH_SINGLE)
445                      || ( (prog->reganch & ROPT_ANCH_BOL)
446                           && !multiline ) );    /* Check after \n? */
447
448         if (!ml_anch) {
449           if ( !(prog->reganch & (ROPT_ANCH_GPOS /* Checked by the caller */
450                                   | ROPT_IMPLICIT)) /* not a real BOL */
451                /* SvCUR is not set on references: SvRV and SvPVX_const overlap */
452                && sv && !SvROK(sv)
453                && (strpos != strbeg)) {
454               DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "Not at start...\n"));
455               goto fail;
456           }
457           if (prog->check_offset_min == prog->check_offset_max &&
458               !(prog->reganch & ROPT_CANY_SEEN)) {
459             /* Substring at constant offset from beg-of-str... */
460             I32 slen;
461
462             s = HOP3c(strpos, prog->check_offset_min, strend);
463             if (SvTAIL(check)) {
464                 slen = SvCUR(check);    /* >= 1 */
465
466                 if ( strend - s > slen || strend - s < slen - 1
467                      || (strend - s == slen && strend[-1] != '\n')) {
468                     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "String too long...\n"));
469                     goto fail_finish;
470                 }
471                 /* Now should match s[0..slen-2] */
472                 slen--;
473                 if (slen && (*SvPVX_const(check) != *s
474                              || (slen > 1
475                                  && memNE(SvPVX_const(check), s, slen)))) {
476                   report_neq:
477                     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "String not equal...\n"));
478                     goto fail_finish;
479                 }
480             }
481             else if (*SvPVX_const(check) != *s
482                      || ((slen = SvCUR(check)) > 1
483                          && memNE(SvPVX_const(check), s, slen)))
484                 goto report_neq;
485             check_at = s;
486             goto success_at_start;
487           }
488         }
489         /* Match is anchored, but substr is not anchored wrt beg-of-str. */
490         s = strpos;
491         start_shift = prog->check_offset_min; /* okay to underestimate on CC */
492         end_shift = prog->minlen - start_shift -
493             CHR_SVLEN(check) + (SvTAIL(check) != 0);
494         if (!ml_anch) {
495             const I32 end = prog->check_offset_max + CHR_SVLEN(check)
496                                          - (SvTAIL(check) != 0);
497             const I32 eshift = CHR_DIST((U8*)strend, (U8*)s) - end;
498
499             if (end_shift < eshift)
500                 end_shift = eshift;
501         }
502     }
503     else {                              /* Can match at random position */
504         ml_anch = 0;
505         s = strpos;
506         start_shift = prog->check_offset_min; /* okay to underestimate on CC */
507         /* Should be nonnegative! */
508         end_shift = prog->minlen - start_shift -
509             CHR_SVLEN(check) + (SvTAIL(check) != 0);
510     }
511
512 #ifdef DEBUGGING        /* 7/99: reports of failure (with the older version) */
513     if (end_shift < 0)
514         Perl_croak(aTHX_ "panic: end_shift");
515 #endif
516
517   restart:
518     /* Find a possible match in the region s..strend by looking for
519        the "check" substring in the region corrected by start/end_shift. */
520     if (flags & REXEC_SCREAM) {
521         I32 p = -1;                     /* Internal iterator of scream. */
522         I32 * const pp = data ? data->scream_pos : &p;
523
524         if (PL_screamfirst[BmRARE(check)] >= 0
525             || ( BmRARE(check) == '\n'
526                  && (BmPREVIOUS(check) == SvCUR(check) - 1)
527                  && SvTAIL(check) ))
528             s = screaminstr(sv, check,
529                             start_shift + (s - strbeg), end_shift, pp, 0);
530         else
531             goto fail_finish;
532         /* we may be pointing at the wrong string */
533         if (s && RX_MATCH_COPIED(prog))
534             s = strbeg + (s - SvPVX_const(sv));
535         if (data)
536             *data->scream_olds = s;
537     }
538     else if (prog->reganch & ROPT_CANY_SEEN)
539         s = fbm_instr((U8*)(s + start_shift),
540                       (U8*)(strend - end_shift),
541                       check, multiline ? FBMrf_MULTILINE : 0);
542     else
543         s = fbm_instr(HOP3(s, start_shift, strend),
544                       HOP3(strend, -end_shift, strbeg),
545                       check, multiline ? FBMrf_MULTILINE : 0);
546
547     /* Update the count-of-usability, remove useless subpatterns,
548         unshift s.  */
549
550     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "%s %s substr \"%s%.*s%s\"%s%s",
551                           (s ? "Found" : "Did not find"),
552                           (check == (do_utf8 ? prog->anchored_utf8 : prog->anchored_substr) ? "anchored" : "floating"),
553                           PL_colors[0],
554                           (int)(SvCUR(check) - (SvTAIL(check)!=0)),
555                           SvPVX_const(check),
556                           PL_colors[1], (SvTAIL(check) ? "$" : ""),
557                           (s ? " at offset " : "...\n") ) );
558
559     if (!s)
560         goto fail_finish;
561
562     check_at = s;
563
564     /* Finish the diagnostic message */
565     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "%ld...\n", (long)(s - i_strpos)) );
566
567     /* Got a candidate.  Check MBOL anchoring, and the *other* substr.
568        Start with the other substr.
569        XXXX no SCREAM optimization yet - and a very coarse implementation
570        XXXX /ttx+/ results in anchored="ttx", floating="x".  floating will
571                 *always* match.  Probably should be marked during compile...
572        Probably it is right to do no SCREAM here...
573      */
574
575     if (do_utf8 ? (prog->float_utf8 && prog->anchored_utf8) : (prog->float_substr && prog->anchored_substr)) {
576         /* Take into account the "other" substring. */
577         /* XXXX May be hopelessly wrong for UTF... */
578         if (!other_last)
579             other_last = strpos;
580         if (check == (do_utf8 ? prog->float_utf8 : prog->float_substr)) {
581           do_other_anchored:
582             {
583                 char * const last = HOP3c(s, -start_shift, strbeg);
584                 char *last1, *last2;
585                 char *s1 = s;
586                 SV* must;
587
588                 t = s - prog->check_offset_max;
589                 if (s - strpos > prog->check_offset_max  /* signed-corrected t > strpos */
590                     && (!do_utf8
591                         || ((t = reghopmaybe3_c(s, -(prog->check_offset_max), strpos))
592                             && t > strpos)))
593                     /* EMPTY */;
594                 else
595                     t = strpos;
596                 t = HOP3c(t, prog->anchored_offset, strend);
597                 if (t < other_last)     /* These positions already checked */
598                     t = other_last;
599                 last2 = last1 = HOP3c(strend, -prog->minlen, strbeg);
600                 if (last < last1)
601                     last1 = last;
602  /* XXXX It is not documented what units *_offsets are in.  Assume bytes.  */
603                 /* On end-of-str: see comment below. */
604                 must = do_utf8 ? prog->anchored_utf8 : prog->anchored_substr;
605                 if (must == &PL_sv_undef) {
606                     s = (char*)NULL;
607                     DEBUG_EXECUTE_r(must = prog->anchored_utf8);        /* for debug */
608                 }
609                 else
610                     s = fbm_instr(
611                         (unsigned char*)t,
612                         HOP3(HOP3(last1, prog->anchored_offset, strend)
613                                 + SvCUR(must), -(SvTAIL(must)!=0), strbeg),
614                         must,
615                         multiline ? FBMrf_MULTILINE : 0
616                     );
617                 DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
618                         "%s anchored substr \"%s%.*s%s\"%s",
619                         (s ? "Found" : "Contradicts"),
620                         PL_colors[0],
621                           (int)(SvCUR(must)
622                           - (SvTAIL(must)!=0)),
623                           SvPVX_const(must),
624                           PL_colors[1], (SvTAIL(must) ? "$" : "")));
625                 if (!s) {
626                     if (last1 >= last2) {
627                         DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
628                                                 ", giving up...\n"));
629                         goto fail_finish;
630                     }
631                     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
632                         ", trying floating at offset %ld...\n",
633                         (long)(HOP3c(s1, 1, strend) - i_strpos)));
634                     other_last = HOP3c(last1, prog->anchored_offset+1, strend);
635                     s = HOP3c(last, 1, strend);
636                     goto restart;
637                 }
638                 else {
639                     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, " at offset %ld...\n",
640                           (long)(s - i_strpos)));
641                     t = HOP3c(s, -prog->anchored_offset, strbeg);
642                     other_last = HOP3c(s, 1, strend);
643                     s = s1;
644                     if (t == strpos)
645                         goto try_at_start;
646                     goto try_at_offset;
647                 }
648             }
649         }
650         else {          /* Take into account the floating substring. */
651             char *last, *last1;
652             char *s1 = s;
653             SV* must;
654
655             t = HOP3c(s, -start_shift, strbeg);
656             last1 = last =
657                 HOP3c(strend, -prog->minlen + prog->float_min_offset, strbeg);
658             if (CHR_DIST((U8*)last, (U8*)t) > prog->float_max_offset)
659                 last = HOP3c(t, prog->float_max_offset, strend);
660             s = HOP3c(t, prog->float_min_offset, strend);
661             if (s < other_last)
662                 s = other_last;
663  /* XXXX It is not documented what units *_offsets are in.  Assume bytes.  */
664             must = do_utf8 ? prog->float_utf8 : prog->float_substr;
665             /* fbm_instr() takes into account exact value of end-of-str
666                if the check is SvTAIL(ed).  Since false positives are OK,
667                and end-of-str is not later than strend we are OK. */
668             if (must == &PL_sv_undef) {
669                 s = (char*)NULL;
670                 DEBUG_EXECUTE_r(must = prog->float_utf8);       /* for debug message */
671             }
672             else
673                 s = fbm_instr((unsigned char*)s,
674                               (unsigned char*)last + SvCUR(must)
675                                   - (SvTAIL(must)!=0),
676                               must, multiline ? FBMrf_MULTILINE : 0);
677             DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "%s floating substr \"%s%.*s%s\"%s",
678                     (s ? "Found" : "Contradicts"),
679                     PL_colors[0],
680                       (int)(SvCUR(must) - (SvTAIL(must)!=0)),
681                       SvPVX_const(must),
682                       PL_colors[1], (SvTAIL(must) ? "$" : "")));
683             if (!s) {
684                 if (last1 == last) {
685                     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
686                                             ", giving up...\n"));
687                     goto fail_finish;
688                 }
689                 DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
690                     ", trying anchored starting at offset %ld...\n",
691                     (long)(s1 + 1 - i_strpos)));
692                 other_last = last;
693                 s = HOP3c(t, 1, strend);
694                 goto restart;
695             }
696             else {
697                 DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, " at offset %ld...\n",
698                       (long)(s - i_strpos)));
699                 other_last = s; /* Fix this later. --Hugo */
700                 s = s1;
701                 if (t == strpos)
702                     goto try_at_start;
703                 goto try_at_offset;
704             }
705         }
706     }
707
708     t = s - prog->check_offset_max;
709     if (s - strpos > prog->check_offset_max  /* signed-corrected t > strpos */
710         && (!do_utf8
711             || ((t = reghopmaybe3_c(s, -prog->check_offset_max, strpos))
712                  && t > strpos))) {
713         /* Fixed substring is found far enough so that the match
714            cannot start at strpos. */
715       try_at_offset:
716         if (ml_anch && t[-1] != '\n') {
717             /* Eventually fbm_*() should handle this, but often
718                anchored_offset is not 0, so this check will not be wasted. */
719             /* XXXX In the code below we prefer to look for "^" even in
720                presence of anchored substrings.  And we search even
721                beyond the found float position.  These pessimizations
722                are historical artefacts only.  */
723           find_anchor:
724             while (t < strend - prog->minlen) {
725                 if (*t == '\n') {
726                     if (t < check_at - prog->check_offset_min) {
727                         if (do_utf8 ? prog->anchored_utf8 : prog->anchored_substr) {
728                             /* Since we moved from the found position,
729                                we definitely contradict the found anchored
730                                substr.  Due to the above check we do not
731                                contradict "check" substr.
732                                Thus we can arrive here only if check substr
733                                is float.  Redo checking for "other"=="fixed".
734                              */
735                             strpos = t + 1;                     
736                             DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "Found /%s^%s/m at offset %ld, rescanning for anchored from offset %ld...\n",
737                                 PL_colors[0], PL_colors[1], (long)(strpos - i_strpos), (long)(strpos - i_strpos + prog->anchored_offset)));
738                             goto do_other_anchored;
739                         }
740                         /* We don't contradict the found floating substring. */
741                         /* XXXX Why not check for STCLASS? */
742                         s = t + 1;
743                         DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "Found /%s^%s/m at offset %ld...\n",
744                             PL_colors[0], PL_colors[1], (long)(s - i_strpos)));
745                         goto set_useful;
746                     }
747                     /* Position contradicts check-string */
748                     /* XXXX probably better to look for check-string
749                        than for "\n", so one should lower the limit for t? */
750                     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "Found /%s^%s/m, restarting lookup for check-string at offset %ld...\n",
751                         PL_colors[0], PL_colors[1], (long)(t + 1 - i_strpos)));
752                     other_last = strpos = s = t + 1;
753                     goto restart;
754                 }
755                 t++;
756             }
757             DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "Did not find /%s^%s/m...\n",
758                         PL_colors[0], PL_colors[1]));
759             goto fail_finish;
760         }
761         else {
762             DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "Starting position does not contradict /%s^%s/m...\n",
763                         PL_colors[0], PL_colors[1]));
764         }
765         s = t;
766       set_useful:
767         ++BmUSEFUL(do_utf8 ? prog->check_utf8 : prog->check_substr);    /* hooray/5 */
768     }
769     else {
770         /* The found string does not prohibit matching at strpos,
771            - no optimization of calling REx engine can be performed,
772            unless it was an MBOL and we are not after MBOL,
773            or a future STCLASS check will fail this. */
774       try_at_start:
775         /* Even in this situation we may use MBOL flag if strpos is offset
776            wrt the start of the string. */
777         if (ml_anch && sv && !SvROK(sv) /* See prev comment on SvROK */
778             && (strpos != strbeg) && strpos[-1] != '\n'
779             /* May be due to an implicit anchor of m{.*foo}  */
780             && !(prog->reganch & ROPT_IMPLICIT))
781         {
782             t = strpos;
783             goto find_anchor;
784         }
785         DEBUG_EXECUTE_r( if (ml_anch)
786             PerlIO_printf(Perl_debug_log, "Position at offset %ld does not contradict /%s^%s/m...\n",
787                         (long)(strpos - i_strpos), PL_colors[0], PL_colors[1]);
788         );
789       success_at_start:
790         if (!(prog->reganch & ROPT_NAUGHTY)     /* XXXX If strpos moved? */
791             && (do_utf8 ? (
792                 prog->check_utf8                /* Could be deleted already */
793                 && --BmUSEFUL(prog->check_utf8) < 0
794                 && (prog->check_utf8 == prog->float_utf8)
795             ) : (
796                 prog->check_substr              /* Could be deleted already */
797                 && --BmUSEFUL(prog->check_substr) < 0
798                 && (prog->check_substr == prog->float_substr)
799             )))
800         {
801             /* If flags & SOMETHING - do not do it many times on the same match */
802             DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "... Disabling check substring...\n"));
803             SvREFCNT_dec(do_utf8 ? prog->check_utf8 : prog->check_substr);
804             if (do_utf8 ? prog->check_substr : prog->check_utf8)
805                 SvREFCNT_dec(do_utf8 ? prog->check_substr : prog->check_utf8);
806             prog->check_substr = prog->check_utf8 = NULL;       /* disable */
807             prog->float_substr = prog->float_utf8 = NULL;       /* clear */
808             check = NULL;                       /* abort */
809             s = strpos;
810             /* XXXX This is a remnant of the old implementation.  It
811                     looks wasteful, since now INTUIT can use many
812                     other heuristics. */
813             prog->reganch &= ~RE_USE_INTUIT;
814         }
815         else
816             s = strpos;
817     }
818
819     /* Last resort... */
820     /* XXXX BmUSEFUL already changed, maybe multiple change is meaningful... */
821     if (prog->regstclass) {
822         /* minlen == 0 is possible if regstclass is \b or \B,
823            and the fixed substr is ''$.
824            Since minlen is already taken into account, s+1 is before strend;
825            accidentally, minlen >= 1 guaranties no false positives at s + 1
826            even for \b or \B.  But (minlen? 1 : 0) below assumes that
827            regstclass does not come from lookahead...  */
828         /* If regstclass takes bytelength more than 1: If charlength==1, OK.
829            This leaves EXACTF only, which is dealt with in find_byclass().  */
830         const U8* const str = (U8*)STRING(prog->regstclass);
831         const int cl_l = (PL_regkind[(U8)OP(prog->regstclass)] == EXACT
832                     ? CHR_DIST(str+STR_LEN(prog->regstclass), str)
833                     : 1);
834         const char * const endpos = (prog->anchored_substr || prog->anchored_utf8 || ml_anch)
835                 ? HOP3c(s, (prog->minlen ? cl_l : 0), strend)
836                 : (prog->float_substr || prog->float_utf8
837                    ? HOP3c(HOP3c(check_at, -start_shift, strbeg),
838                            cl_l, strend)
839                    : strend);
840
841         t = s;
842         s = find_byclass(prog, prog->regstclass, s, endpos, NULL);
843         if (!s) {
844 #ifdef DEBUGGING
845             const char *what = NULL;
846 #endif
847             if (endpos == strend) {
848                 DEBUG_EXECUTE_r( PerlIO_printf(Perl_debug_log,
849                                 "Could not match STCLASS...\n") );
850                 goto fail;
851             }
852             DEBUG_EXECUTE_r( PerlIO_printf(Perl_debug_log,
853                                    "This position contradicts STCLASS...\n") );
854             if ((prog->reganch & ROPT_ANCH) && !ml_anch)
855                 goto fail;
856             /* Contradict one of substrings */
857             if (prog->anchored_substr || prog->anchored_utf8) {
858                 if ((do_utf8 ? prog->anchored_utf8 : prog->anchored_substr) == check) {
859                     DEBUG_EXECUTE_r( what = "anchored" );
860                   hop_and_restart:
861                     s = HOP3c(t, 1, strend);
862                     if (s + start_shift + end_shift > strend) {
863                         /* XXXX Should be taken into account earlier? */
864                         DEBUG_EXECUTE_r( PerlIO_printf(Perl_debug_log,
865                                                "Could not match STCLASS...\n") );
866                         goto fail;
867                     }
868                     if (!check)
869                         goto giveup;
870                     DEBUG_EXECUTE_r( PerlIO_printf(Perl_debug_log,
871                                 "Looking for %s substr starting at offset %ld...\n",
872                                  what, (long)(s + start_shift - i_strpos)) );
873                     goto restart;
874                 }
875                 /* Have both, check_string is floating */
876                 if (t + start_shift >= check_at) /* Contradicts floating=check */
877                     goto retry_floating_check;
878                 /* Recheck anchored substring, but not floating... */
879                 s = check_at;
880                 if (!check)
881                     goto giveup;
882                 DEBUG_EXECUTE_r( PerlIO_printf(Perl_debug_log,
883                           "Looking for anchored substr starting at offset %ld...\n",
884                           (long)(other_last - i_strpos)) );
885                 goto do_other_anchored;
886             }
887             /* Another way we could have checked stclass at the
888                current position only: */
889             if (ml_anch) {
890                 s = t = t + 1;
891                 if (!check)
892                     goto giveup;
893                 DEBUG_EXECUTE_r( PerlIO_printf(Perl_debug_log,
894                           "Looking for /%s^%s/m starting at offset %ld...\n",
895                           PL_colors[0], PL_colors[1], (long)(t - i_strpos)) );
896                 goto try_at_offset;
897             }
898             if (!(do_utf8 ? prog->float_utf8 : prog->float_substr))     /* Could have been deleted */
899                 goto fail;
900             /* Check is floating subtring. */
901           retry_floating_check:
902             t = check_at - start_shift;
903             DEBUG_EXECUTE_r( what = "floating" );
904             goto hop_and_restart;
905         }
906         if (t != s) {
907             DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
908                         "By STCLASS: moving %ld --> %ld\n",
909                                   (long)(t - i_strpos), (long)(s - i_strpos))
910                    );
911         }
912         else {
913             DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
914                                   "Does not contradict STCLASS...\n"); 
915                    );
916         }
917     }
918   giveup:
919     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "%s%s:%s match at offset %ld\n",
920                           PL_colors[4], (check ? "Guessed" : "Giving up"),
921                           PL_colors[5], (long)(s - i_strpos)) );
922     return s;
923
924   fail_finish:                          /* Substring not found */
925     if (prog->check_substr || prog->check_utf8)         /* could be removed already */
926         BmUSEFUL(do_utf8 ? prog->check_utf8 : prog->check_substr) += 5; /* hooray */
927   fail:
928     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "%sMatch rejected by optimizer%s\n",
929                           PL_colors[4], PL_colors[5]));
930     return NULL;
931 }
932
933 /* We know what class REx starts with.  Try to find this position... */
934 /* if reginfo is NULL, its a dryrun */
935
936 STATIC char *
937 S_find_byclass(pTHX_ regexp * prog, const regnode *c, char *s, const char
938 *strend, const regmatch_info *reginfo)
939 {
940         dVAR;
941         const I32 doevery = (prog->reganch & ROPT_SKIP) == 0;
942         char *m;
943         STRLEN ln;
944         STRLEN lnc;
945         register STRLEN uskip;
946         unsigned int c1;
947         unsigned int c2;
948         char *e;
949         register I32 tmp = 1;   /* Scratch variable? */
950         register const bool do_utf8 = PL_reg_match_utf8;
951
952         /* We know what class it must start with. */
953         switch (OP(c)) {
954         case ANYOF:
955             if (do_utf8) {
956                  while (s + (uskip = UTF8SKIP(s)) <= strend) {
957                       if ((ANYOF_FLAGS(c) & ANYOF_UNICODE) ||
958                           !UTF8_IS_INVARIANT((U8)s[0]) ?
959                           reginclass(prog, c, (U8*)s, 0, do_utf8) :
960                           REGINCLASS(prog, c, (U8*)s)) {
961                            if (tmp && (!reginfo || regtry(reginfo, s)))
962                                 goto got_it;
963                            else
964                                 tmp = doevery;
965                       }
966                       else 
967                            tmp = 1;
968                       s += uskip;
969                  }
970             }
971             else {
972                  while (s < strend) {
973                       STRLEN skip = 1;
974
975                       if (REGINCLASS(prog, c, (U8*)s) ||
976                           (ANYOF_FOLD_SHARP_S(c, s, strend) &&
977                            /* The assignment of 2 is intentional:
978                             * for the folded sharp s, the skip is 2. */
979                            (skip = SHARP_S_SKIP))) {
980                            if (tmp && (!reginfo || regtry(reginfo, s)))
981                                 goto got_it;
982                            else
983                                 tmp = doevery;
984                       }
985                       else 
986                            tmp = 1;
987                       s += skip;
988                  }
989             }
990             break;
991         case CANY:
992             while (s < strend) {
993                 if (tmp && (!reginfo || regtry(reginfo, s)))
994                     goto got_it;
995                 else
996                     tmp = doevery;
997                 s++;
998             }
999             break;
1000         case EXACTF:
1001             m   = STRING(c);
1002             ln  = STR_LEN(c);   /* length to match in octets/bytes */
1003             lnc = (I32) ln;     /* length to match in characters */
1004             if (UTF) {
1005                 STRLEN ulen1, ulen2;
1006                 U8 *sm = (U8 *) m;
1007                 U8 tmpbuf1[UTF8_MAXBYTES_CASE+1];
1008                 U8 tmpbuf2[UTF8_MAXBYTES_CASE+1];
1009                 const U32 uniflags = UTF8_ALLOW_DEFAULT;
1010
1011                 to_utf8_lower((U8*)m, tmpbuf1, &ulen1);
1012                 to_utf8_upper((U8*)m, tmpbuf2, &ulen2);
1013
1014                 c1 = utf8n_to_uvchr(tmpbuf1, UTF8_MAXBYTES_CASE, 
1015                                     0, uniflags);
1016                 c2 = utf8n_to_uvchr(tmpbuf2, UTF8_MAXBYTES_CASE,
1017                                     0, uniflags);
1018                 lnc = 0;
1019                 while (sm < ((U8 *) m + ln)) {
1020                     lnc++;
1021                     sm += UTF8SKIP(sm);
1022                 }
1023             }
1024             else {
1025                 c1 = *(U8*)m;
1026                 c2 = PL_fold[c1];
1027             }
1028             goto do_exactf;
1029         case EXACTFL:
1030             m   = STRING(c);
1031             ln  = STR_LEN(c);
1032             lnc = (I32) ln;
1033             c1 = *(U8*)m;
1034             c2 = PL_fold_locale[c1];
1035           do_exactf:
1036             e = HOP3c(strend, -((I32)lnc), s);
1037
1038             if (!reginfo && e < s)
1039                 e = s;                  /* Due to minlen logic of intuit() */
1040
1041             /* The idea in the EXACTF* cases is to first find the
1042              * first character of the EXACTF* node and then, if
1043              * necessary, case-insensitively compare the full
1044              * text of the node.  The c1 and c2 are the first
1045              * characters (though in Unicode it gets a bit
1046              * more complicated because there are more cases
1047              * than just upper and lower: one needs to use
1048              * the so-called folding case for case-insensitive
1049              * matching (called "loose matching" in Unicode).
1050              * ibcmp_utf8() will do just that. */
1051
1052             if (do_utf8) {
1053                 UV c, f;
1054                 U8 tmpbuf [UTF8_MAXBYTES+1];
1055                 STRLEN len, foldlen;
1056                 const U32 uniflags = UTF8_ALLOW_DEFAULT;
1057                 if (c1 == c2) {
1058                     /* Upper and lower of 1st char are equal -
1059                      * probably not a "letter". */
1060                     while (s <= e) {
1061                         c = utf8n_to_uvchr((U8*)s, UTF8_MAXBYTES, &len,
1062                                            uniflags);
1063                         if ( c == c1
1064                              && (ln == len ||
1065                                  ibcmp_utf8(s, (char **)0, 0,  do_utf8,
1066                                             m, (char **)0, ln, (bool)UTF))
1067                              && (!reginfo || regtry(reginfo, s)) )
1068                             goto got_it;
1069                         else {
1070                              U8 foldbuf[UTF8_MAXBYTES_CASE+1];
1071                              uvchr_to_utf8(tmpbuf, c);
1072                              f = to_utf8_fold(tmpbuf, foldbuf, &foldlen);
1073                              if ( f != c
1074                                   && (f == c1 || f == c2)
1075                                   && (ln == foldlen ||
1076                                       !ibcmp_utf8((char *) foldbuf,
1077                                                   (char **)0, foldlen, do_utf8,
1078                                                   m,
1079                                                   (char **)0, ln, (bool)UTF))
1080                                   && (!reginfo || regtry(reginfo, s)) )
1081                                   goto got_it;
1082                         }
1083                         s += len;
1084                     }
1085                 }
1086                 else {
1087                     while (s <= e) {
1088                       c = utf8n_to_uvchr((U8*)s, UTF8_MAXBYTES, &len,
1089                                            uniflags);
1090
1091                         /* Handle some of the three Greek sigmas cases.
1092                          * Note that not all the possible combinations
1093                          * are handled here: some of them are handled
1094                          * by the standard folding rules, and some of
1095                          * them (the character class or ANYOF cases)
1096                          * are handled during compiletime in
1097                          * regexec.c:S_regclass(). */
1098                         if (c == (UV)UNICODE_GREEK_CAPITAL_LETTER_SIGMA ||
1099                             c == (UV)UNICODE_GREEK_SMALL_LETTER_FINAL_SIGMA)
1100                             c = (UV)UNICODE_GREEK_SMALL_LETTER_SIGMA;
1101
1102                         if ( (c == c1 || c == c2)
1103                              && (ln == len ||
1104                                  ibcmp_utf8(s, (char **)0, 0,  do_utf8,
1105                                             m, (char **)0, ln, (bool)UTF))
1106                              && (!reginfo || regtry(reginfo, s)) )
1107                             goto got_it;
1108                         else {
1109                              U8 foldbuf[UTF8_MAXBYTES_CASE+1];
1110                              uvchr_to_utf8(tmpbuf, c);
1111                              f = to_utf8_fold(tmpbuf, foldbuf, &foldlen);
1112                              if ( f != c
1113                                   && (f == c1 || f == c2)
1114                                   && (ln == foldlen ||
1115                                       !ibcmp_utf8((char *) foldbuf,
1116                                                   (char **)0, foldlen, do_utf8,
1117                                                   m,
1118                                                   (char **)0, ln, (bool)UTF))
1119                                   && (!reginfo || regtry(reginfo, s)) )
1120                                   goto got_it;
1121                         }
1122                         s += len;
1123                     }
1124                 }
1125             }
1126             else {
1127                 if (c1 == c2)
1128                     while (s <= e) {
1129                         if ( *(U8*)s == c1
1130                              && (ln == 1 || !(OP(c) == EXACTF
1131                                               ? ibcmp(s, m, ln)
1132                                               : ibcmp_locale(s, m, ln)))
1133                              && (!reginfo || regtry(reginfo, s)) )
1134                             goto got_it;
1135                         s++;
1136                     }
1137                 else
1138                     while (s <= e) {
1139                         if ( (*(U8*)s == c1 || *(U8*)s == c2)
1140                              && (ln == 1 || !(OP(c) == EXACTF
1141                                               ? ibcmp(s, m, ln)
1142                                               : ibcmp_locale(s, m, ln)))
1143                              && (!reginfo || regtry(reginfo, s)) )
1144                             goto got_it;
1145                         s++;
1146                     }
1147             }
1148             break;
1149         case BOUNDL:
1150             PL_reg_flags |= RF_tainted;
1151             /* FALL THROUGH */
1152         case BOUND:
1153             if (do_utf8) {
1154                 if (s == PL_bostr)
1155                     tmp = '\n';
1156                 else {
1157                     U8 * const r = reghop3((U8*)s, -1, (U8*)PL_bostr);
1158                     tmp = utf8n_to_uvchr(r, UTF8SKIP(r), 0, UTF8_ALLOW_DEFAULT);
1159                 }
1160                 tmp = ((OP(c) == BOUND ?
1161                         isALNUM_uni(tmp) : isALNUM_LC_uvchr(UNI_TO_NATIVE(tmp))) != 0);
1162                 LOAD_UTF8_CHARCLASS_ALNUM();
1163                 while (s + (uskip = UTF8SKIP(s)) <= strend) {
1164                     if (tmp == !(OP(c) == BOUND ?
1165                                  swash_fetch(PL_utf8_alnum, (U8*)s, do_utf8) :
1166                                  isALNUM_LC_utf8((U8*)s)))
1167                     {
1168                         tmp = !tmp;
1169                         if ((!reginfo || regtry(reginfo, s)))
1170                             goto got_it;
1171                     }
1172                     s += uskip;
1173                 }
1174             }
1175             else {
1176                 tmp = (s != PL_bostr) ? UCHARAT(s - 1) : '\n';
1177                 tmp = ((OP(c) == BOUND ? isALNUM(tmp) : isALNUM_LC(tmp)) != 0);
1178                 while (s < strend) {
1179                     if (tmp ==
1180                         !(OP(c) == BOUND ? isALNUM(*s) : isALNUM_LC(*s))) {
1181                         tmp = !tmp;
1182                         if ((!reginfo || regtry(reginfo, s)))
1183                             goto got_it;
1184                     }
1185                     s++;
1186                 }
1187             }
1188             if ((!prog->minlen && tmp) && (!reginfo || regtry(reginfo, s)))
1189                 goto got_it;
1190             break;
1191         case NBOUNDL:
1192             PL_reg_flags |= RF_tainted;
1193             /* FALL THROUGH */
1194         case NBOUND:
1195             if (do_utf8) {
1196                 if (s == PL_bostr)
1197                     tmp = '\n';
1198                 else {
1199                     U8 * const r = reghop3((U8*)s, -1, (U8*)PL_bostr);
1200                     tmp = utf8n_to_uvchr(r, UTF8SKIP(r), 0, UTF8_ALLOW_DEFAULT);
1201                 }
1202                 tmp = ((OP(c) == NBOUND ?
1203                         isALNUM_uni(tmp) : isALNUM_LC_uvchr(UNI_TO_NATIVE(tmp))) != 0);
1204                 LOAD_UTF8_CHARCLASS_ALNUM();
1205                 while (s + (uskip = UTF8SKIP(s)) <= strend) {
1206                     if (tmp == !(OP(c) == NBOUND ?
1207                                  swash_fetch(PL_utf8_alnum, (U8*)s, do_utf8) :
1208                                  isALNUM_LC_utf8((U8*)s)))
1209                         tmp = !tmp;
1210                     else if ((!reginfo || regtry(reginfo, s)))
1211                         goto got_it;
1212                     s += uskip;
1213                 }
1214             }
1215             else {
1216                 tmp = (s != PL_bostr) ? UCHARAT(s - 1) : '\n';
1217                 tmp = ((OP(c) == NBOUND ?
1218                         isALNUM(tmp) : isALNUM_LC(tmp)) != 0);
1219                 while (s < strend) {
1220                     if (tmp ==
1221                         !(OP(c) == NBOUND ? isALNUM(*s) : isALNUM_LC(*s)))
1222                         tmp = !tmp;
1223                     else if ((!reginfo || regtry(reginfo, s)))
1224                         goto got_it;
1225                     s++;
1226                 }
1227             }
1228             if ((!prog->minlen && !tmp) && (!reginfo || regtry(reginfo, s)))
1229                 goto got_it;
1230             break;
1231         case ALNUM:
1232             if (do_utf8) {
1233                 LOAD_UTF8_CHARCLASS_ALNUM();
1234                 while (s + (uskip = UTF8SKIP(s)) <= strend) {
1235                     if (swash_fetch(PL_utf8_alnum, (U8*)s, do_utf8)) {
1236                         if (tmp && (!reginfo || regtry(reginfo, s)))
1237                             goto got_it;
1238                         else
1239                             tmp = doevery;
1240                     }
1241                     else
1242                         tmp = 1;
1243                     s += uskip;
1244                 }
1245             }
1246             else {
1247                 while (s < strend) {
1248                     if (isALNUM(*s)) {
1249                         if (tmp && (!reginfo || regtry(reginfo, s)))
1250                             goto got_it;
1251                         else
1252                             tmp = doevery;
1253                     }
1254                     else
1255                         tmp = 1;
1256                     s++;
1257                 }
1258             }
1259             break;
1260         case ALNUML:
1261             PL_reg_flags |= RF_tainted;
1262             if (do_utf8) {
1263                 while (s + (uskip = UTF8SKIP(s)) <= strend) {
1264                     if (isALNUM_LC_utf8((U8*)s)) {
1265                         if (tmp && (!reginfo || regtry(reginfo, s)))
1266                             goto got_it;
1267                         else
1268                             tmp = doevery;
1269                     }
1270                     else
1271                         tmp = 1;
1272                     s += uskip;
1273                 }
1274             }
1275             else {
1276                 while (s < strend) {
1277                     if (isALNUM_LC(*s)) {
1278                         if (tmp && (!reginfo || regtry(reginfo, s)))
1279                             goto got_it;
1280                         else
1281                             tmp = doevery;
1282                     }
1283                     else
1284                         tmp = 1;
1285                     s++;
1286                 }
1287             }
1288             break;
1289         case NALNUM:
1290             if (do_utf8) {
1291                 LOAD_UTF8_CHARCLASS_ALNUM();
1292                 while (s + (uskip = UTF8SKIP(s)) <= strend) {
1293                     if (!swash_fetch(PL_utf8_alnum, (U8*)s, do_utf8)) {
1294                         if (tmp && (!reginfo || regtry(reginfo, s)))
1295                             goto got_it;
1296                         else
1297                             tmp = doevery;
1298                     }
1299                     else
1300                         tmp = 1;
1301                     s += uskip;
1302                 }
1303             }
1304             else {
1305                 while (s < strend) {
1306                     if (!isALNUM(*s)) {
1307                         if (tmp && (!reginfo || regtry(reginfo, s)))
1308                             goto got_it;
1309                         else
1310                             tmp = doevery;
1311                     }
1312                     else
1313                         tmp = 1;
1314                     s++;
1315                 }
1316             }
1317             break;
1318         case NALNUML:
1319             PL_reg_flags |= RF_tainted;
1320             if (do_utf8) {
1321                 while (s + (uskip = UTF8SKIP(s)) <= strend) {
1322                     if (!isALNUM_LC_utf8((U8*)s)) {
1323                         if (tmp && (!reginfo || regtry(reginfo, s)))
1324                             goto got_it;
1325                         else
1326                             tmp = doevery;
1327                     }
1328                     else
1329                         tmp = 1;
1330                     s += uskip;
1331                 }
1332             }
1333             else {
1334                 while (s < strend) {
1335                     if (!isALNUM_LC(*s)) {
1336                         if (tmp && (!reginfo || regtry(reginfo, s)))
1337                             goto got_it;
1338                         else
1339                             tmp = doevery;
1340                     }
1341                     else
1342                         tmp = 1;
1343                     s++;
1344                 }
1345             }
1346             break;
1347         case SPACE:
1348             if (do_utf8) {
1349                 LOAD_UTF8_CHARCLASS_SPACE();
1350                 while (s + (uskip = UTF8SKIP(s)) <= strend) {
1351                     if (*s == ' ' || swash_fetch(PL_utf8_space,(U8*)s, do_utf8)) {
1352                         if (tmp && (!reginfo || regtry(reginfo, s)))
1353                             goto got_it;
1354                         else
1355                             tmp = doevery;
1356                     }
1357                     else
1358                         tmp = 1;
1359                     s += uskip;
1360                 }
1361             }
1362             else {
1363                 while (s < strend) {
1364                     if (isSPACE(*s)) {
1365                         if (tmp && (!reginfo || regtry(reginfo, s)))
1366                             goto got_it;
1367                         else
1368                             tmp = doevery;
1369                     }
1370                     else
1371                         tmp = 1;
1372                     s++;
1373                 }
1374             }
1375             break;
1376         case SPACEL:
1377             PL_reg_flags |= RF_tainted;
1378             if (do_utf8) {
1379                 while (s + (uskip = UTF8SKIP(s)) <= strend) {
1380                     if (*s == ' ' || isSPACE_LC_utf8((U8*)s)) {
1381                         if (tmp && (!reginfo || regtry(reginfo, s)))
1382                             goto got_it;
1383                         else
1384                             tmp = doevery;
1385                     }
1386                     else
1387                         tmp = 1;
1388                     s += uskip;
1389                 }
1390             }
1391             else {
1392                 while (s < strend) {
1393                     if (isSPACE_LC(*s)) {
1394                         if (tmp && (!reginfo || regtry(reginfo, s)))
1395                             goto got_it;
1396                         else
1397                             tmp = doevery;
1398                     }
1399                     else
1400                         tmp = 1;
1401                     s++;
1402                 }
1403             }
1404             break;
1405         case NSPACE:
1406             if (do_utf8) {
1407                 LOAD_UTF8_CHARCLASS_SPACE();
1408                 while (s + (uskip = UTF8SKIP(s)) <= strend) {
1409                     if (!(*s == ' ' || swash_fetch(PL_utf8_space,(U8*)s, do_utf8))) {
1410                         if (tmp && (!reginfo || regtry(reginfo, s)))
1411                             goto got_it;
1412                         else
1413                             tmp = doevery;
1414                     }
1415                     else
1416                         tmp = 1;
1417                     s += uskip;
1418                 }
1419             }
1420             else {
1421                 while (s < strend) {
1422                     if (!isSPACE(*s)) {
1423                         if (tmp && (!reginfo || regtry(reginfo, s)))
1424                             goto got_it;
1425                         else
1426                             tmp = doevery;
1427                     }
1428                     else
1429                         tmp = 1;
1430                     s++;
1431                 }
1432             }
1433             break;
1434         case NSPACEL:
1435             PL_reg_flags |= RF_tainted;
1436             if (do_utf8) {
1437                 while (s + (uskip = UTF8SKIP(s)) <= strend) {
1438                     if (!(*s == ' ' || isSPACE_LC_utf8((U8*)s))) {
1439                         if (tmp && (!reginfo || regtry(reginfo, s)))
1440                             goto got_it;
1441                         else
1442                             tmp = doevery;
1443                     }
1444                     else
1445                         tmp = 1;
1446                     s += uskip;
1447                 }
1448             }
1449             else {
1450                 while (s < strend) {
1451                     if (!isSPACE_LC(*s)) {
1452                         if (tmp && (!reginfo || regtry(reginfo, s)))
1453                             goto got_it;
1454                         else
1455                             tmp = doevery;
1456                     }
1457                     else
1458                         tmp = 1;
1459                     s++;
1460                 }
1461             }
1462             break;
1463         case DIGIT:
1464             if (do_utf8) {
1465                 LOAD_UTF8_CHARCLASS_DIGIT();
1466                 while (s + (uskip = UTF8SKIP(s)) <= strend) {
1467                     if (swash_fetch(PL_utf8_digit,(U8*)s, do_utf8)) {
1468                         if (tmp && (!reginfo || regtry(reginfo, s)))
1469                             goto got_it;
1470                         else
1471                             tmp = doevery;
1472                     }
1473                     else
1474                         tmp = 1;
1475                     s += uskip;
1476                 }
1477             }
1478             else {
1479                 while (s < strend) {
1480                     if (isDIGIT(*s)) {
1481                         if (tmp && (!reginfo || regtry(reginfo, s)))
1482                             goto got_it;
1483                         else
1484                             tmp = doevery;
1485                     }
1486                     else
1487                         tmp = 1;
1488                     s++;
1489                 }
1490             }
1491             break;
1492         case DIGITL:
1493             PL_reg_flags |= RF_tainted;
1494             if (do_utf8) {
1495                 while (s + (uskip = UTF8SKIP(s)) <= strend) {
1496                     if (isDIGIT_LC_utf8((U8*)s)) {
1497                         if (tmp && (!reginfo || regtry(reginfo, s)))
1498                             goto got_it;
1499                         else
1500                             tmp = doevery;
1501                     }
1502                     else
1503                         tmp = 1;
1504                     s += uskip;
1505                 }
1506             }
1507             else {
1508                 while (s < strend) {
1509                     if (isDIGIT_LC(*s)) {
1510                         if (tmp && (!reginfo || regtry(reginfo, s)))
1511                             goto got_it;
1512                         else
1513                             tmp = doevery;
1514                     }
1515                     else
1516                         tmp = 1;
1517                     s++;
1518                 }
1519             }
1520             break;
1521         case NDIGIT:
1522             if (do_utf8) {
1523                 LOAD_UTF8_CHARCLASS_DIGIT();
1524                 while (s + (uskip = UTF8SKIP(s)) <= strend) {
1525                     if (!swash_fetch(PL_utf8_digit,(U8*)s, do_utf8)) {
1526                         if (tmp && (!reginfo || regtry(reginfo, s)))
1527                             goto got_it;
1528                         else
1529                             tmp = doevery;
1530                     }
1531                     else
1532                         tmp = 1;
1533                     s += uskip;
1534                 }
1535             }
1536             else {
1537                 while (s < strend) {
1538                     if (!isDIGIT(*s)) {
1539                         if (tmp && (!reginfo || regtry(reginfo, s)))
1540                             goto got_it;
1541                         else
1542                             tmp = doevery;
1543                     }
1544                     else
1545                         tmp = 1;
1546                     s++;
1547                 }
1548             }
1549             break;
1550         case NDIGITL:
1551             PL_reg_flags |= RF_tainted;
1552             if (do_utf8) {
1553                 while (s + (uskip = UTF8SKIP(s)) <= strend) {
1554                     if (!isDIGIT_LC_utf8((U8*)s)) {
1555                         if (tmp && (!reginfo || regtry(reginfo, s)))
1556                             goto got_it;
1557                         else
1558                             tmp = doevery;
1559                     }
1560                     else
1561                         tmp = 1;
1562                     s += uskip;
1563                 }
1564             }
1565             else {
1566                 while (s < strend) {
1567                     if (!isDIGIT_LC(*s)) {
1568                         if (tmp && (!reginfo || regtry(reginfo, s)))
1569                             goto got_it;
1570                         else
1571                             tmp = doevery;
1572                     }
1573                     else
1574                         tmp = 1;
1575                     s++;
1576                 }
1577             }
1578             break;
1579         default:
1580             Perl_croak(aTHX_ "panic: unknown regstclass %d", (int)OP(c));
1581             break;
1582         }
1583         return 0;
1584       got_it:
1585         return s;
1586 }
1587
1588 /*
1589  - regexec_flags - match a regexp against a string
1590  */
1591 I32
1592 Perl_regexec_flags(pTHX_ register regexp *prog, char *stringarg, register char *strend,
1593               char *strbeg, I32 minend, SV *sv, void *data, U32 flags)
1594 /* strend: pointer to null at end of string */
1595 /* strbeg: real beginning of string */
1596 /* minend: end of match must be >=minend after stringarg. */
1597 /* data: May be used for some additional optimizations. */
1598 /* nosave: For optimizations. */
1599 {
1600     dVAR;
1601     register char *s;
1602     register regnode *c;
1603     register char *startpos = stringarg;
1604     I32 minlen;         /* must match at least this many chars */
1605     I32 dontbother = 0; /* how many characters not to try at end */
1606     I32 end_shift = 0;                  /* Same for the end. */         /* CC */
1607     I32 scream_pos = -1;                /* Internal iterator of scream. */
1608     char *scream_olds = NULL;
1609     SV* oreplsv = GvSV(PL_replgv);
1610     const bool do_utf8 = DO_UTF8(sv);
1611     I32 multiline;
1612 #ifdef DEBUGGING
1613     SV* dsv0;
1614     SV* dsv1;
1615 #endif
1616     regmatch_info reginfo;  /* create some info to pass to regtry etc */
1617
1618     GET_RE_DEBUG_FLAGS_DECL;
1619
1620     PERL_UNUSED_ARG(data);
1621
1622     /* Be paranoid... */
1623     if (prog == NULL || startpos == NULL) {
1624         Perl_croak(aTHX_ "NULL regexp parameter");
1625         return 0;
1626     }
1627
1628     multiline = prog->reganch & PMf_MULTILINE;
1629     reginfo.prog = prog;
1630
1631 #ifdef DEBUGGING
1632     dsv0 = PERL_DEBUG_PAD_ZERO(0);
1633     dsv1 = PERL_DEBUG_PAD_ZERO(1);
1634 #endif
1635
1636     RX_MATCH_UTF8_set(prog, do_utf8);
1637
1638     minlen = prog->minlen;
1639     if (strend - startpos < minlen) {
1640         DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
1641                               "String too short [regexec_flags]...\n"));
1642         goto phooey;
1643     }
1644
1645     /* Check validity of program. */
1646     if (UCHARAT(prog->program) != REG_MAGIC) {
1647         Perl_croak(aTHX_ "corrupted regexp program");
1648     }
1649
1650     PL_reg_flags = 0;
1651     PL_reg_eval_set = 0;
1652     PL_reg_maxiter = 0;
1653
1654     if (prog->reganch & ROPT_UTF8)
1655         PL_reg_flags |= RF_utf8;
1656
1657     /* Mark beginning of line for ^ and lookbehind. */
1658     reginfo.bol = startpos; /* XXX not used ??? */
1659     PL_bostr  = strbeg;
1660     reginfo.sv = sv;
1661
1662     /* Mark end of line for $ (and such) */
1663     PL_regeol = strend;
1664
1665     /* see how far we have to get to not match where we matched before */
1666     reginfo.till = startpos+minend;
1667
1668     /* If there is a "must appear" string, look for it. */
1669     s = startpos;
1670
1671     if (prog->reganch & ROPT_GPOS_SEEN) { /* Need to set reginfo->ganch */
1672         MAGIC *mg;
1673
1674         if (flags & REXEC_IGNOREPOS)    /* Means: check only at start */
1675             reginfo.ganch = startpos;
1676         else if (sv && SvTYPE(sv) >= SVt_PVMG
1677                   && SvMAGIC(sv)
1678                   && (mg = mg_find(sv, PERL_MAGIC_regex_global))
1679                   && mg->mg_len >= 0) {
1680             reginfo.ganch = strbeg + mg->mg_len;        /* Defined pos() */
1681             if (prog->reganch & ROPT_ANCH_GPOS) {
1682                 if (s > reginfo.ganch)
1683                     goto phooey;
1684                 s = reginfo.ganch;
1685             }
1686         }
1687         else                            /* pos() not defined */
1688             reginfo.ganch = strbeg;
1689     }
1690
1691     if (!(flags & REXEC_CHECKED) && (prog->check_substr != NULL || prog->check_utf8 != NULL)) {
1692         re_scream_pos_data d;
1693
1694         d.scream_olds = &scream_olds;
1695         d.scream_pos = &scream_pos;
1696         s = re_intuit_start(prog, sv, s, strend, flags, &d);
1697         if (!s) {
1698             DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "Not present...\n"));
1699             goto phooey;        /* not present */
1700         }
1701     }
1702
1703     DEBUG_EXECUTE_r({
1704         const char * const s0   = UTF
1705             ? pv_uni_display(dsv0, (U8*)prog->precomp, prog->prelen, 60,
1706                           UNI_DISPLAY_REGEX)
1707             : prog->precomp;
1708         const int len0 = UTF ? SvCUR(dsv0) : prog->prelen;
1709         const char * const s1 = do_utf8 ? sv_uni_display(dsv1, sv, 60,
1710                                                UNI_DISPLAY_REGEX) : startpos;
1711         const int len1 = do_utf8 ? SvCUR(dsv1) : strend - startpos;
1712          if (!PL_colorset)
1713              reginitcolors();
1714          PerlIO_printf(Perl_debug_log,
1715                        "%sMatching REx%s \"%s%*.*s%s%s\" against \"%s%.*s%s%s\"\n",
1716                        PL_colors[4], PL_colors[5], PL_colors[0],
1717                        len0, len0, s0,
1718                        PL_colors[1],
1719                        len0 > 60 ? "..." : "",
1720                        PL_colors[0],
1721                        (int)(len1 > 60 ? 60 : len1),
1722                        s1, PL_colors[1],
1723                        (len1 > 60 ? "..." : "")
1724               );
1725     });
1726
1727     /* Simplest case:  anchored match need be tried only once. */
1728     /*  [unless only anchor is BOL and multiline is set] */
1729     if (prog->reganch & (ROPT_ANCH & ~ROPT_ANCH_GPOS)) {
1730         if (s == startpos && regtry(&reginfo, startpos))
1731             goto got_it;
1732         else if (multiline || (prog->reganch & ROPT_IMPLICIT)
1733                  || (prog->reganch & ROPT_ANCH_MBOL)) /* XXXX SBOL? */
1734         {
1735             char *end;
1736
1737             if (minlen)
1738                 dontbother = minlen - 1;
1739             end = HOP3c(strend, -dontbother, strbeg) - 1;
1740             /* for multiline we only have to try after newlines */
1741             if (prog->check_substr || prog->check_utf8) {
1742                 if (s == startpos)
1743                     goto after_try;
1744                 while (1) {
1745                     if (regtry(&reginfo, s))
1746                         goto got_it;
1747                   after_try:
1748                     if (s >= end)
1749                         goto phooey;
1750                     if (prog->reganch & RE_USE_INTUIT) {
1751                         s = re_intuit_start(prog, sv, s + 1, strend, flags, NULL);
1752                         if (!s)
1753                             goto phooey;
1754                     }
1755                     else
1756                         s++;
1757                 }               
1758             } else {
1759                 if (s > startpos)
1760                     s--;
1761                 while (s < end) {
1762                     if (*s++ == '\n') { /* don't need PL_utf8skip here */
1763                         if (regtry(&reginfo, s))
1764                             goto got_it;
1765                     }
1766                 }               
1767             }
1768         }
1769         goto phooey;
1770     } else if (prog->reganch & ROPT_ANCH_GPOS) {
1771         if (regtry(&reginfo, reginfo.ganch))
1772             goto got_it;
1773         goto phooey;
1774     }
1775
1776     /* Messy cases:  unanchored match. */
1777     if ((prog->anchored_substr || prog->anchored_utf8) && prog->reganch & ROPT_SKIP) {
1778         /* we have /x+whatever/ */
1779         /* it must be a one character string (XXXX Except UTF?) */
1780         char ch;
1781 #ifdef DEBUGGING
1782         int did_match = 0;
1783 #endif
1784         if (!(do_utf8 ? prog->anchored_utf8 : prog->anchored_substr))
1785             do_utf8 ? to_utf8_substr(prog) : to_byte_substr(prog);
1786         ch = SvPVX_const(do_utf8 ? prog->anchored_utf8 : prog->anchored_substr)[0];
1787
1788         if (do_utf8) {
1789             while (s < strend) {
1790                 if (*s == ch) {
1791                     DEBUG_EXECUTE_r( did_match = 1 );
1792                     if (regtry(&reginfo, s)) goto got_it;
1793                     s += UTF8SKIP(s);
1794                     while (s < strend && *s == ch)
1795                         s += UTF8SKIP(s);
1796                 }
1797                 s += UTF8SKIP(s);
1798             }
1799         }
1800         else {
1801             while (s < strend) {
1802                 if (*s == ch) {
1803                     DEBUG_EXECUTE_r( did_match = 1 );
1804                     if (regtry(&reginfo, s)) goto got_it;
1805                     s++;
1806                     while (s < strend && *s == ch)
1807                         s++;
1808                 }
1809                 s++;
1810             }
1811         }
1812         DEBUG_EXECUTE_r(if (!did_match)
1813                 PerlIO_printf(Perl_debug_log,
1814                                   "Did not find anchored character...\n")
1815                );
1816     }
1817     else if (prog->anchored_substr != NULL
1818               || prog->anchored_utf8 != NULL
1819               || ((prog->float_substr != NULL || prog->float_utf8 != NULL)
1820                   && prog->float_max_offset < strend - s)) {
1821         SV *must;
1822         I32 back_max;
1823         I32 back_min;
1824         char *last;
1825         char *last1;            /* Last position checked before */
1826 #ifdef DEBUGGING
1827         int did_match = 0;
1828 #endif
1829         if (prog->anchored_substr || prog->anchored_utf8) {
1830             if (!(do_utf8 ? prog->anchored_utf8 : prog->anchored_substr))
1831                 do_utf8 ? to_utf8_substr(prog) : to_byte_substr(prog);
1832             must = do_utf8 ? prog->anchored_utf8 : prog->anchored_substr;
1833             back_max = back_min = prog->anchored_offset;
1834         } else {
1835             if (!(do_utf8 ? prog->float_utf8 : prog->float_substr))
1836                 do_utf8 ? to_utf8_substr(prog) : to_byte_substr(prog);
1837             must = do_utf8 ? prog->float_utf8 : prog->float_substr;
1838             back_max = prog->float_max_offset;
1839             back_min = prog->float_min_offset;
1840         }
1841         if (must == &PL_sv_undef)
1842             /* could not downgrade utf8 check substring, so must fail */
1843             goto phooey;
1844
1845         last = HOP3c(strend,    /* Cannot start after this */
1846                           -(I32)(CHR_SVLEN(must)
1847                                  - (SvTAIL(must) != 0) + back_min), strbeg);
1848
1849         if (s > PL_bostr)
1850             last1 = HOPc(s, -1);
1851         else
1852             last1 = s - 1;      /* bogus */
1853
1854         /* XXXX check_substr already used to find "s", can optimize if
1855            check_substr==must. */
1856         scream_pos = -1;
1857         dontbother = end_shift;
1858         strend = HOPc(strend, -dontbother);
1859         while ( (s <= last) &&
1860                 ((flags & REXEC_SCREAM)
1861                  ? (s = screaminstr(sv, must, HOP3c(s, back_min, strend) - strbeg,
1862                                     end_shift, &scream_pos, 0))
1863                  : (s = fbm_instr((unsigned char*)HOP3(s, back_min, strend),
1864                                   (unsigned char*)strend, must,
1865                                   multiline ? FBMrf_MULTILINE : 0))) ) {
1866             /* we may be pointing at the wrong string */
1867             if ((flags & REXEC_SCREAM) && RX_MATCH_COPIED(prog))
1868                 s = strbeg + (s - SvPVX_const(sv));
1869             DEBUG_EXECUTE_r( did_match = 1 );
1870             if (HOPc(s, -back_max) > last1) {
1871                 last1 = HOPc(s, -back_min);
1872                 s = HOPc(s, -back_max);
1873             }
1874             else {
1875                 char * const t = (last1 >= PL_bostr) ? HOPc(last1, 1) : last1 + 1;
1876
1877                 last1 = HOPc(s, -back_min);
1878                 s = t;
1879             }
1880             if (do_utf8) {
1881                 while (s <= last1) {
1882                     if (regtry(&reginfo, s))
1883                         goto got_it;
1884                     s += UTF8SKIP(s);
1885                 }
1886             }
1887             else {
1888                 while (s <= last1) {
1889                     if (regtry(&reginfo, s))
1890                         goto got_it;
1891                     s++;
1892                 }
1893             }
1894         }
1895         DEBUG_EXECUTE_r(if (!did_match)
1896                     PerlIO_printf(Perl_debug_log, 
1897                                   "Did not find %s substr \"%s%.*s%s\"%s...\n",
1898                               ((must == prog->anchored_substr || must == prog->anchored_utf8)
1899                                ? "anchored" : "floating"),
1900                               PL_colors[0],
1901                               (int)(SvCUR(must) - (SvTAIL(must)!=0)),
1902                               SvPVX_const(must),
1903                                   PL_colors[1], (SvTAIL(must) ? "$" : ""))
1904                );
1905         goto phooey;
1906     }
1907     else if ((c = prog->regstclass)) {
1908         if (minlen) {
1909             I32 op = (U8)OP(prog->regstclass);
1910             /* don't bother with what can't match */
1911             if (PL_regkind[op] != EXACT && op != CANY)
1912                 strend = HOPc(strend, -(minlen - 1));
1913         }
1914         DEBUG_EXECUTE_r({
1915             SV *prop = sv_newmortal();
1916             const char *s0;
1917             const char *s1;
1918             int len0;
1919             int len1;
1920
1921             regprop(prog, prop, c);
1922             s0 = UTF ?
1923               pv_uni_display(dsv0, (U8*)SvPVX_const(prop), SvCUR(prop), 60,
1924                              UNI_DISPLAY_REGEX) :
1925               SvPVX_const(prop);
1926             len0 = UTF ? SvCUR(dsv0) : SvCUR(prop);
1927             s1 = UTF ?
1928               sv_uni_display(dsv1, sv, 60, UNI_DISPLAY_REGEX) : s;
1929             len1 = UTF ? SvCUR(dsv1) : strend - s;
1930             PerlIO_printf(Perl_debug_log,
1931                           "Matching stclass \"%*.*s\" against \"%*.*s\"\n",
1932                           len0, len0, s0,
1933                           len1, len1, s1);
1934         });
1935         if (find_byclass(prog, c, s, strend, &reginfo))
1936             goto got_it;
1937         DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "Contradicts stclass...\n"));
1938     }
1939     else {
1940         dontbother = 0;
1941         if (prog->float_substr != NULL || prog->float_utf8 != NULL) {
1942             /* Trim the end. */
1943             char *last;
1944             SV* float_real;
1945
1946             if (!(do_utf8 ? prog->float_utf8 : prog->float_substr))
1947                 do_utf8 ? to_utf8_substr(prog) : to_byte_substr(prog);
1948             float_real = do_utf8 ? prog->float_utf8 : prog->float_substr;
1949
1950             if (flags & REXEC_SCREAM) {
1951                 last = screaminstr(sv, float_real, s - strbeg,
1952                                    end_shift, &scream_pos, 1); /* last one */
1953                 if (!last)
1954                     last = scream_olds; /* Only one occurrence. */
1955                 /* we may be pointing at the wrong string */
1956                 else if (RX_MATCH_COPIED(prog))
1957                     s = strbeg + (s - SvPVX_const(sv));
1958             }
1959             else {
1960                 STRLEN len;
1961                 const char * const little = SvPV_const(float_real, len);
1962
1963                 if (SvTAIL(float_real)) {
1964                     if (memEQ(strend - len + 1, little, len - 1))
1965                         last = strend - len + 1;
1966                     else if (!multiline)
1967                         last = memEQ(strend - len, little, len)
1968                             ? strend - len : NULL;
1969                     else
1970                         goto find_last;
1971                 } else {
1972                   find_last:
1973                     if (len)
1974                         last = rninstr(s, strend, little, little + len);
1975                     else
1976                         last = strend;  /* matching "$" */
1977                 }
1978             }
1979             if (last == NULL) {
1980                 DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
1981                                       "%sCan't trim the tail, match fails (should not happen)%s\n",
1982                                       PL_colors[4], PL_colors[5]));
1983                 goto phooey; /* Should not happen! */
1984             }
1985             dontbother = strend - last + prog->float_min_offset;
1986         }
1987         if (minlen && (dontbother < minlen))
1988             dontbother = minlen - 1;
1989         strend -= dontbother;              /* this one's always in bytes! */
1990         /* We don't know much -- general case. */
1991         if (do_utf8) {
1992             for (;;) {
1993                 if (regtry(&reginfo, s))
1994                     goto got_it;
1995                 if (s >= strend)
1996                     break;
1997                 s += UTF8SKIP(s);
1998             };
1999         }
2000         else {
2001             do {
2002                 if (regtry(&reginfo, s))
2003                     goto got_it;
2004             } while (s++ < strend);
2005         }
2006     }
2007
2008     /* Failure. */
2009     goto phooey;
2010
2011 got_it:
2012     RX_MATCH_TAINTED_set(prog, PL_reg_flags & RF_tainted);
2013
2014     if (PL_reg_eval_set) {
2015         /* Preserve the current value of $^R */
2016         if (oreplsv != GvSV(PL_replgv))
2017             sv_setsv(oreplsv, GvSV(PL_replgv));/* So that when GvSV(replgv) is
2018                                                   restored, the value remains
2019                                                   the same. */
2020         restore_pos(aTHX_ prog);
2021     }
2022
2023     /* make sure $`, $&, $', and $digit will work later */
2024     if ( !(flags & REXEC_NOT_FIRST) ) {
2025         RX_MATCH_COPY_FREE(prog);
2026         if (flags & REXEC_COPY_STR) {
2027             I32 i = PL_regeol - startpos + (stringarg - strbeg);
2028 #ifdef PERL_OLD_COPY_ON_WRITE
2029             if ((SvIsCOW(sv)
2030                  || (SvFLAGS(sv) & CAN_COW_MASK) == CAN_COW_FLAGS)) {
2031                 if (DEBUG_C_TEST) {
2032                     PerlIO_printf(Perl_debug_log,
2033                                   "Copy on write: regexp capture, type %d\n",
2034                                   (int) SvTYPE(sv));
2035                 }
2036                 prog->saved_copy = sv_setsv_cow(prog->saved_copy, sv);
2037                 prog->subbeg = (char *)SvPVX_const(prog->saved_copy);
2038                 assert (SvPOKp(prog->saved_copy));
2039             } else
2040 #endif
2041             {
2042                 RX_MATCH_COPIED_on(prog);
2043                 s = savepvn(strbeg, i);
2044                 prog->subbeg = s;
2045             }
2046             prog->sublen = i;
2047         }
2048         else {
2049             prog->subbeg = strbeg;
2050             prog->sublen = PL_regeol - strbeg;  /* strend may have been modified */
2051         }
2052     }
2053
2054     return 1;
2055
2056 phooey:
2057     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "%sMatch failed%s\n",
2058                           PL_colors[4], PL_colors[5]));
2059     if (PL_reg_eval_set)
2060         restore_pos(aTHX_ prog);
2061     return 0;
2062 }
2063
2064 /*
2065  - regtry - try match at specific point
2066  */
2067 STATIC I32                      /* 0 failure, 1 success */
2068 S_regtry(pTHX_ const regmatch_info *reginfo, char *startpos)
2069 {
2070     dVAR;
2071     register I32 *sp;
2072     register I32 *ep;
2073     CHECKPOINT lastcp;
2074     regexp *prog = reginfo->prog;
2075     GET_RE_DEBUG_FLAGS_DECL;
2076
2077 #ifdef DEBUGGING
2078     PL_regindent = 0;   /* XXXX Not good when matches are reenterable... */
2079 #endif
2080     if ((prog->reganch & ROPT_EVAL_SEEN) && !PL_reg_eval_set) {
2081         MAGIC *mg;
2082
2083         PL_reg_eval_set = RS_init;
2084         DEBUG_EXECUTE_r(DEBUG_s(
2085             PerlIO_printf(Perl_debug_log, "  setting stack tmpbase at %"IVdf"\n",
2086                           (IV)(PL_stack_sp - PL_stack_base));
2087             ));
2088         SAVEI32(cxstack[cxstack_ix].blk_oldsp);
2089         cxstack[cxstack_ix].blk_oldsp = PL_stack_sp - PL_stack_base;
2090         /* Otherwise OP_NEXTSTATE will free whatever on stack now.  */
2091         SAVETMPS;
2092         /* Apparently this is not needed, judging by wantarray. */
2093         /* SAVEI8(cxstack[cxstack_ix].blk_gimme);
2094            cxstack[cxstack_ix].blk_gimme = G_SCALAR; */
2095
2096         if (reginfo->sv) {
2097             /* Make $_ available to executed code. */
2098             if (reginfo->sv != DEFSV) {
2099                 SAVE_DEFSV;
2100                 DEFSV = reginfo->sv;
2101             }
2102         
2103             if (!(SvTYPE(reginfo->sv) >= SVt_PVMG && SvMAGIC(reginfo->sv)
2104                   && (mg = mg_find(reginfo->sv, PERL_MAGIC_regex_global)))) {
2105                 /* prepare for quick setting of pos */
2106 #ifdef PERL_OLD_COPY_ON_WRITE
2107                 if (SvIsCOW(sv))
2108                     sv_force_normal_flags(sv, 0);
2109 #endif
2110                 mg = sv_magicext(reginfo->sv, (SV*)0, PERL_MAGIC_regex_global,
2111                                  &PL_vtbl_mglob, NULL, 0);
2112                 mg->mg_len = -1;
2113             }
2114             PL_reg_magic    = mg;
2115             PL_reg_oldpos   = mg->mg_len;
2116             SAVEDESTRUCTOR_X(restore_pos, prog);
2117         }
2118         if (!PL_reg_curpm) {
2119             Newxz(PL_reg_curpm, 1, PMOP);
2120 #ifdef USE_ITHREADS
2121             {
2122                 SV* repointer = newSViv(0);
2123                 /* so we know which PL_regex_padav element is PL_reg_curpm */
2124                 SvFLAGS(repointer) |= SVf_BREAK;
2125                 av_push(PL_regex_padav,repointer);
2126                 PL_reg_curpm->op_pmoffset = av_len(PL_regex_padav);
2127                 PL_regex_pad = AvARRAY(PL_regex_padav);
2128             }
2129 #endif      
2130         }
2131         PM_SETRE(PL_reg_curpm, prog);
2132         PL_reg_oldcurpm = PL_curpm;
2133         PL_curpm = PL_reg_curpm;
2134         if (RX_MATCH_COPIED(prog)) {
2135             /*  Here is a serious problem: we cannot rewrite subbeg,
2136                 since it may be needed if this match fails.  Thus
2137                 $` inside (?{}) could fail... */
2138             PL_reg_oldsaved = prog->subbeg;
2139             PL_reg_oldsavedlen = prog->sublen;
2140 #ifdef PERL_OLD_COPY_ON_WRITE
2141             PL_nrs = prog->saved_copy;
2142 #endif
2143             RX_MATCH_COPIED_off(prog);
2144         }
2145         else
2146             PL_reg_oldsaved = NULL;
2147         prog->subbeg = PL_bostr;
2148         prog->sublen = PL_regeol - PL_bostr; /* strend may have been modified */
2149     }
2150     prog->startp[0] = startpos - PL_bostr;
2151     PL_reginput = startpos;
2152     PL_regstartp = prog->startp;
2153     PL_regendp = prog->endp;
2154     PL_reglastparen = &prog->lastparen;
2155     PL_reglastcloseparen = &prog->lastcloseparen;
2156     prog->lastparen = 0;
2157     prog->lastcloseparen = 0;
2158     PL_regsize = 0;
2159     DEBUG_EXECUTE_r(PL_reg_starttry = startpos);
2160     if (PL_reg_start_tmpl <= prog->nparens) {
2161         PL_reg_start_tmpl = prog->nparens*3/2 + 3;
2162         if(PL_reg_start_tmp)
2163             Renew(PL_reg_start_tmp, PL_reg_start_tmpl, char*);
2164         else
2165             Newx(PL_reg_start_tmp, PL_reg_start_tmpl, char*);
2166     }
2167
2168     /* XXXX What this code is doing here?!!!  There should be no need
2169        to do this again and again, PL_reglastparen should take care of
2170        this!  --ilya*/
2171
2172     /* Tests pat.t#187 and split.t#{13,14} seem to depend on this code.
2173      * Actually, the code in regcppop() (which Ilya may be meaning by
2174      * PL_reglastparen), is not needed at all by the test suite
2175      * (op/regexp, op/pat, op/split), but that code is needed, oddly
2176      * enough, for building DynaLoader, or otherwise this
2177      * "Error: '*' not in typemap in DynaLoader.xs, line 164"
2178      * will happen.  Meanwhile, this code *is* needed for the
2179      * above-mentioned test suite tests to succeed.  The common theme
2180      * on those tests seems to be returning null fields from matches.
2181      * --jhi */
2182 #if 1
2183     sp = prog->startp;
2184     ep = prog->endp;
2185     if (prog->nparens) {
2186         register I32 i;
2187         for (i = prog->nparens; i > (I32)*PL_reglastparen; i--) {
2188             *++sp = -1;
2189             *++ep = -1;
2190         }
2191     }
2192 #endif
2193     REGCP_SET(lastcp);
2194     if (regmatch(reginfo, prog->program + 1)) {
2195         prog->endp[0] = PL_reginput - PL_bostr;
2196         return 1;
2197     }
2198     REGCP_UNWIND(lastcp);
2199     return 0;
2200 }
2201
2202 #define RE_UNWIND_BRANCH        1
2203 #define RE_UNWIND_BRANCHJ       2
2204
2205 union re_unwind_t;
2206
2207 typedef struct {                /* XX: makes sense to enlarge it... */
2208     I32 type;
2209     I32 prev;
2210     CHECKPOINT lastcp;
2211 } re_unwind_generic_t;
2212
2213 typedef struct {
2214     I32 type;
2215     I32 prev;
2216     CHECKPOINT lastcp;
2217     I32 lastparen;
2218     regnode *next;
2219     char *locinput;
2220     I32 nextchr;
2221     int minmod;
2222 #ifdef DEBUGGING
2223     int regindent;
2224 #endif
2225 } re_unwind_branch_t;
2226
2227 typedef union re_unwind_t {
2228     I32 type;
2229     re_unwind_generic_t generic;
2230     re_unwind_branch_t branch;
2231 } re_unwind_t;
2232
2233 #define sayYES goto yes
2234 #define sayNO goto no
2235 #define sayNO_ANYOF goto no_anyof
2236 #define sayYES_FINAL goto yes_final
2237 #define sayYES_LOUD  goto yes_loud
2238 #define sayNO_FINAL  goto no_final
2239 #define sayNO_SILENT goto do_no
2240 #define saySAME(x) if (x) goto yes; else goto no
2241
2242 #define POSCACHE_SUCCESS 0      /* caching success rather than failure */
2243 #define POSCACHE_SEEN 1         /* we know what we're caching */
2244 #define POSCACHE_START 2        /* the real cache: this bit maps to pos 0 */
2245
2246 #define CACHEsayYES STMT_START { \
2247     if (st->u.whilem.cache_offset | st->u.whilem.cache_bit) { \
2248         if (!(PL_reg_poscache[0] & (1<<POSCACHE_SEEN))) { \
2249             PL_reg_poscache[0] |= (1<<POSCACHE_SUCCESS) | (1<<POSCACHE_SEEN); \
2250             PL_reg_poscache[st->u.whilem.cache_offset] |= (1<<st->u.whilem.cache_bit); \
2251         } \
2252         else if (PL_reg_poscache[0] & (1<<POSCACHE_SUCCESS)) { \
2253             PL_reg_poscache[st->u.whilem.cache_offset] |= (1<<st->u.whilem.cache_bit); \
2254         } \
2255         else { \
2256             /* cache records failure, but this is success */ \
2257             DEBUG_r( \
2258                 PerlIO_printf(Perl_debug_log, \
2259                     "%*s  (remove success from failure cache)\n", \
2260                     REPORT_CODE_OFF+PL_regindent*2, "") \
2261             ); \
2262             PL_reg_poscache[st->u.whilem.cache_offset] &= ~(1<<st->u.whilem.cache_bit); \
2263         } \
2264     } \
2265     sayYES; \
2266 } STMT_END
2267
2268 #define CACHEsayNO STMT_START { \
2269     if (st->u.whilem.cache_offset | st->u.whilem.cache_bit) { \
2270         if (!(PL_reg_poscache[0] & (1<<POSCACHE_SEEN))) { \
2271             PL_reg_poscache[0] |= (1<<POSCACHE_SEEN); \
2272             PL_reg_poscache[st->u.whilem.cache_offset] |= (1<<st->u.whilem.cache_bit); \
2273         } \
2274         else if (!(PL_reg_poscache[0] & (1<<POSCACHE_SUCCESS))) { \
2275             PL_reg_poscache[st->u.whilem.cache_offset] |= (1<<st->u.whilem.cache_bit); \
2276         } \
2277         else { \
2278             /* cache records success, but this is failure */ \
2279             DEBUG_r( \
2280                 PerlIO_printf(Perl_debug_log, \
2281                     "%*s  (remove failure from success cache)\n", \
2282                     REPORT_CODE_OFF+PL_regindent*2, "") \
2283             ); \
2284             PL_reg_poscache[st->u.whilem.cache_offset] &= ~(1<<st->u.whilem.cache_bit); \
2285         } \
2286     } \
2287     sayNO; \
2288 } STMT_END
2289
2290 /* this is used to determine how far from the left messages like
2291    'failed...' are printed. Currently 29 makes these messages line
2292    up with the opcode they refer to. Earlier perls used 25 which
2293    left these messages outdented making reviewing a debug output
2294    quite difficult.
2295 */
2296 #define REPORT_CODE_OFF 29
2297
2298
2299 /* Make sure there is a test for this +1 options in re_tests */
2300 #define TRIE_INITAL_ACCEPT_BUFFLEN 4;
2301
2302 #define SLAB_FIRST(s) (&(s)->states[0])
2303 #define SLAB_LAST(s)  (&(s)->states[PERL_REGMATCH_SLAB_SLOTS-1])
2304
2305 /* grab a new slab and return the first slot in it */
2306
2307 STATIC regmatch_state *
2308 S_push_slab(pTHX)
2309 {
2310     regmatch_slab *s = PL_regmatch_slab->next;
2311     if (!s) {
2312         Newx(s, 1, regmatch_slab);
2313         s->prev = PL_regmatch_slab;
2314         s->next = NULL;
2315         PL_regmatch_slab->next = s;
2316     }
2317     PL_regmatch_slab = s;
2318     return SLAB_FIRST(s);
2319 }
2320
2321 /* simulate a recursive call to regmatch */
2322
2323 #define REGMATCH(ns, where) \
2324     st->scan = scan; \
2325     scan = (ns); \
2326     st->resume_state = resume_##where; \
2327     goto start_recurse; \
2328     resume_point_##where:
2329
2330
2331 /* push a new regex state. Set newst to point to it */
2332
2333 #define PUSH_STATE(newst, resume) \
2334     depth++;    \
2335     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "PUSH STATE(%d)\n", depth)); \
2336     st->scan = scan;    \
2337     st->next = next;    \
2338     st->n = n;  \
2339     st->locinput = locinput;    \
2340     st->resume_state = resume;  \
2341     newst = st+1;   \
2342     if (newst >  SLAB_LAST(PL_regmatch_slab)) \
2343         newst = S_push_slab(aTHX);  \
2344     PL_regmatch_state = newst;  \
2345     newst->cc = 0;  \
2346     newst->minmod = 0;  \
2347     newst->sw = 0;  \
2348     newst->logical = 0; \
2349     newst->unwind = 0;  \
2350     locinput = PL_reginput; \
2351     nextchr = UCHARAT(locinput);    
2352
2353 #define POP_STATE \
2354     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "POP STATE(%d)\n", depth)); \
2355     depth--; \
2356     st--; \
2357     if (st < SLAB_FIRST(PL_regmatch_slab)) { \
2358         PL_regmatch_slab = PL_regmatch_slab->prev; \
2359         st = SLAB_LAST(PL_regmatch_slab); \
2360     } \
2361     PL_regmatch_state = st; \
2362     scan        = st->scan; \
2363     next        = st->next; \
2364     n           = st->n; \
2365     locinput    = st->locinput; \
2366     nextchr = UCHARAT(locinput);
2367
2368 /*
2369  - regmatch - main matching routine
2370  *
2371  * Conceptually the strategy is simple:  check to see whether the current
2372  * node matches, call self recursively to see whether the rest matches,
2373  * and then act accordingly.  In practice we make some effort to avoid
2374  * recursion, in particular by going through "ordinary" nodes (that don't
2375  * need to know whether the rest of the match failed) by a loop instead of
2376  * by recursion.
2377  */
2378 /* [lwall] I've hoisted the register declarations to the outer block in order to
2379  * maybe save a little bit of pushing and popping on the stack.  It also takes
2380  * advantage of machines that use a register save mask on subroutine entry.
2381  *
2382  * This function used to be heavily recursive, but since this had the
2383  * effect of blowing the CPU stack on complex regexes, it has been
2384  * restructured to be iterative, and to save state onto the heap rather
2385  * than the stack. Essentially whereever regmatch() used to be called, it
2386  * pushes the current state, notes where to return, then jumps back into
2387  * the main loop.
2388  *
2389  * Originally the structure of this function used to look something like
2390
2391     S_regmatch() {
2392         int a = 1, b = 2;
2393         ...
2394         while (scan != NULL) {
2395             a++; // do stuff with a and b
2396             ...
2397             switch (OP(scan)) {
2398                 case FOO: {
2399                     int local = 3;
2400                     ...
2401                     if (regmatch(...))  // recurse
2402                         goto yes;
2403                 }
2404                 ...
2405             }
2406         }
2407         yes:
2408         return 1;
2409     }
2410
2411  * Now it looks something like this:
2412
2413     typedef struct {
2414         int a, b, local;
2415         int resume_state;
2416     } regmatch_state;
2417
2418     S_regmatch() {
2419         regmatch_state *st = new();
2420         int depth=0;
2421         st->a++; // do stuff with a and b
2422         ...
2423         while (scan != NULL) {
2424             ...
2425             switch (OP(scan)) {
2426                 case FOO: {
2427                     st->local = 3;
2428                     ...
2429                     st->scan = scan;
2430                     scan = ...;
2431                     st->resume_state = resume_FOO;
2432                     goto start_recurse; // recurse
2433
2434                     resume_point_FOO:
2435                     if (result)
2436                         goto yes;
2437                 }
2438                 ...
2439             }
2440           start_recurse:
2441             st = new(); push a new state
2442             st->a = 1; st->b = 2;
2443             depth++;
2444         }
2445       yes:
2446         result = 1;
2447         if (depth--) {
2448             st = pop();
2449             switch (resume_state) {
2450             case resume_FOO:
2451                 goto resume_point_FOO;
2452             ...
2453             }
2454         }
2455         return result
2456     }
2457             
2458  * WARNING: this means that any line in this function that contains a
2459  * REGMATCH() or TRYPAREN() is actually simulating a recursive call to
2460  * regmatch() using gotos instead. Thus the values of any local variables
2461  * not saved in the regmatch_state structure will have been lost when
2462  * execution resumes on the next line .
2463  *
2464  * States (ie the st pointer) are allocated in slabs of about 4K in size.
2465  * PL_regmatch_state always points to the currently active state, and
2466  * PL_regmatch_slab points to the slab currently containing PL_regmatch_state.
2467  * The first time regmatch is called, the first slab is allocated, and is
2468  * never freed until interpreter desctruction. When the slab is full,
2469  * a new one is allocated chained to the end. At exit from regmatch, slabs
2470  * allocated since entry are freed.
2471  */
2472  
2473
2474 STATIC I32                      /* 0 failure, 1 success */
2475 S_regmatch(pTHX_ const regmatch_info *reginfo, regnode *prog)
2476 {
2477     dVAR;
2478     register const bool do_utf8 = PL_reg_match_utf8;
2479     const U32 uniflags = UTF8_ALLOW_DEFAULT;
2480
2481     regexp *rex = reginfo->prog;
2482
2483     regmatch_slab  *orig_slab;
2484     regmatch_state *orig_state;
2485
2486     /* the current state. This is a cached copy of PL_regmatch_state */
2487     register regmatch_state *st;
2488
2489     /* cache heavy used fields of st in registers */
2490     register regnode *scan;
2491     register regnode *next;
2492     register I32 n = 0; /* initialize to shut up compiler warning */
2493     register char *locinput = PL_reginput;
2494
2495     /* these variables are NOT saved during a recusive RFEGMATCH: */
2496     register I32 nextchr;   /* is always set to UCHARAT(locinput) */
2497     bool result;            /* return value of S_regmatch */
2498     regnode *inner;         /* Next node in internal branch. */
2499     int depth = 0;          /* depth of recursion */
2500     regmatch_state *newst;  /* when pushing a state, this is the new one */
2501     regmatch_state *yes_state = NULL; /* state to pop to on success of
2502                                                             subpattern */
2503     
2504 #ifdef DEBUGGING
2505     SV *re_debug_flags = NULL;
2506     GET_RE_DEBUG_FLAGS;
2507     PL_regindent++;
2508 #endif
2509
2510     /* on first ever call to regmatch, allocate first slab */
2511     if (!PL_regmatch_slab) {
2512         Newx(PL_regmatch_slab, 1, regmatch_slab);
2513         PL_regmatch_slab->prev = NULL;
2514         PL_regmatch_slab->next = NULL;
2515         PL_regmatch_state = SLAB_FIRST(PL_regmatch_slab);
2516     }
2517
2518     /* remember current high-water mark for exit */
2519     /* XXX this should be done with SAVE* instead */
2520     orig_slab  = PL_regmatch_slab;
2521     orig_state = PL_regmatch_state;
2522
2523     /* grab next free state slot */
2524     st = ++PL_regmatch_state;
2525     if (st >  SLAB_LAST(PL_regmatch_slab))
2526         st = PL_regmatch_state = S_push_slab(aTHX);
2527
2528     st->minmod = 0;
2529     st->sw = 0;
2530     st->logical = 0;
2531     st->unwind = 0;
2532     st->cc = NULL;
2533     /* Note that nextchr is a byte even in UTF */
2534     nextchr = UCHARAT(locinput);
2535     scan = prog;
2536     while (scan != NULL) {
2537
2538         DEBUG_EXECUTE_r( {
2539             SV * const prop = sv_newmortal();
2540             const int docolor = *PL_colors[0];
2541             const int taill = (docolor ? 10 : 7); /* 3 chars for "> <" */
2542             int l = (PL_regeol - locinput) > taill ? taill : (PL_regeol - locinput);
2543             /* The part of the string before starttry has one color
2544                (pref0_len chars), between starttry and current
2545                position another one (pref_len - pref0_len chars),
2546                after the current position the third one.
2547                We assume that pref0_len <= pref_len, otherwise we
2548                decrease pref0_len.  */
2549             int pref_len = (locinput - PL_bostr) > (5 + taill) - l
2550                 ? (5 + taill) - l : locinput - PL_bostr;
2551             int pref0_len;
2552
2553             while (do_utf8 && UTF8_IS_CONTINUATION(*(U8*)(locinput - pref_len)))
2554                 pref_len++;
2555             pref0_len = pref_len  - (locinput - PL_reg_starttry);
2556             if (l + pref_len < (5 + taill) && l < PL_regeol - locinput)
2557                 l = ( PL_regeol - locinput > (5 + taill) - pref_len
2558                       ? (5 + taill) - pref_len : PL_regeol - locinput);
2559             while (do_utf8 && UTF8_IS_CONTINUATION(*(U8*)(locinput + l)))
2560                 l--;
2561             if (pref0_len < 0)
2562                 pref0_len = 0;
2563             if (pref0_len > pref_len)
2564                 pref0_len = pref_len;
2565             regprop(rex, prop, scan);
2566             {
2567               const char * const s0 =
2568                 do_utf8 && OP(scan) != CANY ?
2569                 pv_uni_display(PERL_DEBUG_PAD(0), (U8*)(locinput - pref_len),
2570                                pref0_len, 60, UNI_DISPLAY_REGEX) :
2571                 locinput - pref_len;
2572               const int len0 = do_utf8 ? strlen(s0) : pref0_len;
2573               const char * const s1 = do_utf8 && OP(scan) != CANY ?
2574                 pv_uni_display(PERL_DEBUG_PAD(1),
2575                                (U8*)(locinput - pref_len + pref0_len),
2576                                pref_len - pref0_len, 60, UNI_DISPLAY_REGEX) :
2577                 locinput - pref_len + pref0_len;
2578               const int len1 = do_utf8 ? strlen(s1) : pref_len - pref0_len;
2579               const char * const s2 = do_utf8 && OP(scan) != CANY ?
2580                 pv_uni_display(PERL_DEBUG_PAD(2), (U8*)locinput,
2581                                PL_regeol - locinput, 60, UNI_DISPLAY_REGEX) :
2582                 locinput;
2583               const int len2 = do_utf8 ? strlen(s2) : l;
2584               PerlIO_printf(Perl_debug_log,
2585                             "%4"IVdf" <%s%.*s%s%s%.*s%s%s%s%.*s%s>%*s|%3"IVdf":%*s%s\n",
2586                             (IV)(locinput - PL_bostr),
2587                             PL_colors[4],
2588                             len0, s0,
2589                             PL_colors[5],
2590                             PL_colors[2],
2591                             len1, s1,
2592                             PL_colors[3],
2593                             (docolor ? "" : "> <"),
2594                             PL_colors[0],
2595                             len2, s2,
2596                             PL_colors[1],
2597                             15 - l - pref_len + 1,
2598                             "",
2599                             (IV)(scan - rex->program), PL_regindent*2, "",
2600                             SvPVX_const(prop));
2601             }
2602         });
2603
2604         next = scan + NEXT_OFF(scan);
2605         if (next == scan)
2606             next = NULL;
2607
2608         switch (OP(scan)) {
2609         case BOL:
2610             if (locinput == PL_bostr)
2611             {
2612                 /* reginfo->till = reginfo->bol; */
2613                 break;
2614             }
2615             sayNO;
2616         case MBOL:
2617             if (locinput == PL_bostr ||
2618                 ((nextchr || locinput < PL_regeol) && locinput[-1] == '\n'))
2619             {
2620                 break;
2621             }
2622             sayNO;
2623         case SBOL:
2624             if (locinput == PL_bostr)
2625                 break;
2626             sayNO;
2627         case GPOS:
2628             if (locinput == reginfo->ganch)
2629                 break;
2630             sayNO;
2631         case EOL:
2632                 goto seol;
2633         case MEOL:
2634             if ((nextchr || locinput < PL_regeol) && nextchr != '\n')
2635                 sayNO;
2636             break;
2637         case SEOL:
2638           seol:
2639             if ((nextchr || locinput < PL_regeol) && nextchr != '\n')
2640                 sayNO;
2641             if (PL_regeol - locinput > 1)
2642                 sayNO;
2643             break;
2644         case EOS:
2645             if (PL_regeol != locinput)
2646                 sayNO;
2647             break;
2648         case SANY:
2649             if (!nextchr && locinput >= PL_regeol)
2650                 sayNO;
2651             if (do_utf8) {
2652                 locinput += PL_utf8skip[nextchr];
2653                 if (locinput > PL_regeol)
2654                     sayNO;
2655                 nextchr = UCHARAT(locinput);
2656             }
2657             else
2658                 nextchr = UCHARAT(++locinput);
2659             break;
2660         case CANY:
2661             if (!nextchr && locinput >= PL_regeol)
2662                 sayNO;
2663             nextchr = UCHARAT(++locinput);
2664             break;
2665         case REG_ANY:
2666             if ((!nextchr && locinput >= PL_regeol) || nextchr == '\n')
2667                 sayNO;
2668             if (do_utf8) {
2669                 locinput += PL_utf8skip[nextchr];
2670                 if (locinput > PL_regeol)
2671                     sayNO;
2672                 nextchr = UCHARAT(locinput);
2673             }
2674             else
2675                 nextchr = UCHARAT(++locinput);
2676             break;
2677
2678
2679
2680         /*
2681            traverse the TRIE keeping track of all accepting states
2682            we transition through until we get to a failing node.
2683
2684
2685         */
2686         case TRIE:
2687         case TRIEF:
2688         case TRIEFL:
2689             {
2690                 U8 *uc = ( U8* )locinput;
2691                 U32 state = 1;
2692                 U16 charid = 0;
2693                 U32 base = 0;
2694                 UV uvc = 0;
2695                 STRLEN len = 0;
2696                 STRLEN foldlen = 0;
2697                 U8 *uscan = (U8*)NULL;
2698                 STRLEN bufflen=0;
2699                 SV *sv_accept_buff = NULL;
2700                 const enum { trie_plain, trie_utf8, trie_uft8_fold }
2701                     trie_type = do_utf8 ?
2702                           (OP(scan) == TRIE ? trie_utf8 : trie_uft8_fold)
2703                         : trie_plain;
2704
2705                 /* what trie are we using right now */
2706                 reg_trie_data *trie
2707                     = (reg_trie_data*)rex->data->data[ ARG( scan ) ];
2708                 st->u.trie.accepted = 0; /* how many accepting states we have seen */
2709                 result = 0;
2710
2711                 while ( state && uc <= (U8*)PL_regeol ) {
2712
2713                     if (trie->states[ state ].wordnum) {
2714                         if (!st->u.trie.accepted ) {
2715                             ENTER;
2716                             SAVETMPS;
2717                             bufflen = TRIE_INITAL_ACCEPT_BUFFLEN;
2718                             sv_accept_buff=newSV(bufflen *
2719                                             sizeof(reg_trie_accepted) - 1);
2720                             SvCUR_set(sv_accept_buff,
2721                                                 sizeof(reg_trie_accepted));
2722                             SvPOK_on(sv_accept_buff);
2723                             sv_2mortal(sv_accept_buff);
2724                             st->u.trie.accept_buff =
2725                                 (reg_trie_accepted*)SvPV_nolen(sv_accept_buff );
2726                         }
2727                         else {
2728                             if (st->u.trie.accepted >= bufflen) {
2729                                 bufflen *= 2;
2730                                 st->u.trie.accept_buff =(reg_trie_accepted*)
2731                                     SvGROW(sv_accept_buff,
2732                                         bufflen * sizeof(reg_trie_accepted));
2733                             }
2734                             SvCUR_set(sv_accept_buff,SvCUR(sv_accept_buff)
2735                                 + sizeof(reg_trie_accepted));
2736                         }
2737                         st->u.trie.accept_buff[st->u.trie.accepted].wordnum = trie->states[state].wordnum;
2738                         st->u.trie.accept_buff[st->u.trie.accepted].endpos = uc;
2739                         ++st->u.trie.accepted;
2740                     }
2741
2742                     base = trie->states[ state ].trans.base;
2743
2744                     DEBUG_TRIE_EXECUTE_r(
2745                                 PerlIO_printf( Perl_debug_log,
2746                                     "%*s  %sState: %4"UVxf", Base: %4"UVxf", Accepted: %4"UVxf" ",
2747                                     REPORT_CODE_OFF + PL_regindent * 2, "", PL_colors[4],
2748                                     (UV)state, (UV)base, (UV)st->u.trie.accepted );
2749                     );
2750
2751                     if ( base ) {
2752                         switch (trie_type) {
2753                         case trie_uft8_fold:
2754                             if ( foldlen>0 ) {
2755                                 uvc = utf8n_to_uvuni( uscan, UTF8_MAXLEN, &len, uniflags );
2756                                 foldlen -= len;
2757                                 uscan += len;
2758                                 len=0;
2759                             } else {
2760                                 U8 foldbuf[ UTF8_MAXBYTES_CASE + 1 ];
2761                                 uvc = utf8n_to_uvuni( (U8*)uc, UTF8_MAXLEN, &len, uniflags );
2762                                 uvc = to_uni_fold( uvc, foldbuf, &foldlen );
2763                                 foldlen -= UNISKIP( uvc );
2764                                 uscan = foldbuf + UNISKIP( uvc );
2765                             }
2766                             break;
2767                         case trie_utf8:
2768                             uvc = utf8n_to_uvuni( (U8*)uc, UTF8_MAXLEN,
2769                                                             &len, uniflags );
2770                             break;
2771                         case trie_plain:
2772                             uvc = (UV)*uc;
2773                             len = 1;
2774                         }
2775
2776                         if (uvc < 256) {
2777                             charid = trie->charmap[ uvc ];
2778                         }
2779                         else {
2780                             charid = 0;
2781                             if (trie->widecharmap) {
2782                                 SV** svpp = (SV**)NULL;
2783                                 svpp = hv_fetch(trie->widecharmap,
2784                                             (char*)&uvc, sizeof(UV), 0);
2785                                 if (svpp)
2786                                     charid = (U16)SvIV(*svpp);
2787                             }
2788                         }
2789
2790                         if (charid &&
2791                              (base + charid > trie->uniquecharcount )
2792                              && (base + charid - 1 - trie->uniquecharcount
2793                                     < trie->lasttrans)
2794                              && trie->trans[base + charid - 1 -
2795                                     trie->uniquecharcount].check == state)
2796                         {
2797                             state = trie->trans[base + charid - 1 -
2798                                 trie->uniquecharcount ].next;
2799                         }
2800                         else {
2801                             state = 0;
2802                         }
2803                         uc += len;
2804
2805                     }
2806                     else {
2807                         state = 0;
2808                     }
2809                     DEBUG_TRIE_EXECUTE_r(
2810                         PerlIO_printf( Perl_debug_log,
2811                             "Charid:%3x CV:%4"UVxf" After State: %4"UVxf"%s\n",
2812                             charid, uvc, (UV)state, PL_colors[5] );
2813                     );
2814                 }
2815                 if (!st->u.trie.accepted )
2816                    sayNO;
2817
2818             /*
2819                There was at least one accepting state that we
2820                transitioned through. Presumably the number of accepting
2821                states is going to be low, typically one or two. So we
2822                simply scan through to find the one with lowest wordnum.
2823                Once we find it, we swap the last state into its place
2824                and decrement the size. We then try to match the rest of
2825                the pattern at the point where the word ends, if we
2826                succeed then we end the loop, otherwise the loop
2827                eventually terminates once all of the accepting states
2828                have been tried.
2829             */
2830
2831                 if ( st->u.trie.accepted == 1 ) {
2832                     DEBUG_EXECUTE_r({
2833                         SV ** const tmp = av_fetch( trie->words, st->u.trie.accept_buff[ 0 ].wordnum-1, 0 );
2834                         PerlIO_printf( Perl_debug_log,
2835                             "%*s  %sonly one match : #%d <%s>%s\n",
2836                             REPORT_CODE_OFF+PL_regindent*2, "", PL_colors[4],
2837                             st->u.trie.accept_buff[ 0 ].wordnum,
2838                             tmp ? SvPV_nolen_const( *tmp ) : "not compiled under -Dr",
2839                             PL_colors[5] );
2840                     });
2841                     PL_reginput = (char *)st->u.trie.accept_buff[ 0 ].endpos;
2842                     /* in this case we free tmps/leave before we call regmatch
2843                        as we wont be using accept_buff again. */
2844                     FREETMPS;
2845                     LEAVE;
2846                     REGMATCH(scan + NEXT_OFF(scan), TRIE1);
2847                     /*** all unsaved local vars undefined at this point */
2848                 } else {
2849                     DEBUG_EXECUTE_r(
2850                         PerlIO_printf( Perl_debug_log,"%*s  %sgot %"IVdf" possible matches%s\n",
2851                             REPORT_CODE_OFF + PL_regindent * 2, "", PL_colors[4], (IV)st->u.trie.accepted,
2852                             PL_colors[5] );
2853                     );
2854                     while ( !result && st->u.trie.accepted-- ) {
2855                         U32 best = 0;
2856                         U32 cur;
2857                         for( cur = 1 ; cur <= st->u.trie.accepted ; cur++ ) {
2858                             DEBUG_TRIE_EXECUTE_r(
2859                                 PerlIO_printf( Perl_debug_log,
2860                                     "%*s  %sgot %"IVdf" (%d) as best, looking at %"IVdf" (%d)%s\n",
2861                                     REPORT_CODE_OFF + PL_regindent * 2, "", PL_colors[4],
2862                                     (IV)best, st->u.trie.accept_buff[ best ].wordnum, (IV)cur,
2863                                     st->u.trie.accept_buff[ cur ].wordnum, PL_colors[5] );
2864                             );
2865
2866                             if (st->u.trie.accept_buff[cur].wordnum <
2867                                     st->u.trie.accept_buff[best].wordnum)
2868                                 best = cur;
2869                         }
2870                         DEBUG_EXECUTE_r({
2871                             reg_trie_data * const trie = (reg_trie_data*)
2872                                             rex->data->data[ARG(scan)];
2873                             SV ** const tmp = av_fetch( trie->words, st->u.trie.accept_buff[ best ].wordnum - 1, 0 );
2874                             PerlIO_printf( Perl_debug_log, "%*s  %strying alternation #%d <%s> at 0x%p%s\n",
2875                                 REPORT_CODE_OFF+PL_regindent*2, "", PL_colors[4],
2876                                 st->u.trie.accept_buff[best].wordnum,
2877                                 tmp ? SvPV_nolen_const( *tmp ) : "not compiled under -Dr",scan,
2878                                 PL_colors[5] );
2879                         });
2880                         if ( best<st->u.trie.accepted ) {
2881                             reg_trie_accepted tmp = st->u.trie.accept_buff[ best ];
2882                             st->u.trie.accept_buff[ best ] = st->u.trie.accept_buff[ st->u.trie.accepted ];
2883                             st->u.trie.accept_buff[ st->u.trie.accepted ] = tmp;
2884                             best = st->u.trie.accepted;
2885                         }
2886                         PL_reginput = (char *)st->u.trie.accept_buff[ best ].endpos;
2887
2888                         /* 
2889                            as far as I can tell we only need the SAVETMPS/FREETMPS 
2890                            for re's with EVAL in them but I'm leaving them in for 
2891                            all until I can be sure.
2892                          */
2893                         SAVETMPS;
2894                         REGMATCH(scan + NEXT_OFF(scan), TRIE2);
2895                         /*** all unsaved local vars undefined at this point */
2896                         FREETMPS;
2897                     }
2898                     FREETMPS;
2899                     LEAVE;
2900                 }
2901                 
2902                 if (result) {
2903                     sayYES;
2904                 } else {
2905                     sayNO;
2906                 }
2907             }
2908             /* unreached codepoint */
2909         case EXACT: {
2910             char *s = STRING(scan);
2911             st->ln = STR_LEN(scan);
2912             if (do_utf8 != UTF) {
2913                 /* The target and the pattern have differing utf8ness. */
2914                 char *l = locinput;
2915                 const char *e = s + st->ln;
2916
2917                 if (do_utf8) {
2918                     /* The target is utf8, the pattern is not utf8. */
2919                     while (s < e) {
2920                         STRLEN ulen;
2921                         if (l >= PL_regeol)
2922                              sayNO;
2923                         if (NATIVE_TO_UNI(*(U8*)s) !=
2924                             utf8n_to_uvuni((U8*)l, UTF8_MAXBYTES, &ulen,
2925                                             uniflags))
2926                              sayNO;
2927                         l += ulen;
2928                         s ++;
2929                     }
2930                 }
2931                 else {
2932                     /* The target is not utf8, the pattern is utf8. */
2933                     while (s < e) {
2934                         STRLEN ulen;
2935                         if (l >= PL_regeol)
2936                             sayNO;
2937                         if (NATIVE_TO_UNI(*((U8*)l)) !=
2938                             utf8n_to_uvuni((U8*)s, UTF8_MAXBYTES, &ulen,
2939                                            uniflags))
2940                             sayNO;
2941                         s += ulen;
2942                         l ++;
2943                     }
2944                 }
2945                 locinput = l;
2946                 nextchr = UCHARAT(locinput);
2947                 break;
2948             }
2949             /* The target and the pattern have the same utf8ness. */
2950             /* Inline the first character, for speed. */
2951             if (UCHARAT(s) != nextchr)
2952                 sayNO;
2953             if (PL_regeol - locinput < st->ln)
2954                 sayNO;
2955             if (st->ln > 1 && memNE(s, locinput, st->ln))
2956                 sayNO;
2957             locinput += st->ln;
2958             nextchr = UCHARAT(locinput);
2959             break;
2960             }
2961         case EXACTFL:
2962             PL_reg_flags |= RF_tainted;
2963             /* FALL THROUGH */
2964         case EXACTF: {
2965             char *s = STRING(scan);
2966             st->ln = STR_LEN(scan);
2967
2968             if (do_utf8 || UTF) {
2969               /* Either target or the pattern are utf8. */
2970                 char *l = locinput;
2971                 char *e = PL_regeol;
2972
2973                 if (ibcmp_utf8(s, 0,  st->ln, (bool)UTF,
2974                                l, &e, 0,  do_utf8)) {
2975                      /* One more case for the sharp s:
2976                       * pack("U0U*", 0xDF) =~ /ss/i,
2977                       * the 0xC3 0x9F are the UTF-8
2978                       * byte sequence for the U+00DF. */
2979                      if (!(do_utf8 &&
2980                            toLOWER(s[0]) == 's' &&
2981                            st->ln >= 2 &&
2982                            toLOWER(s[1]) == 's' &&
2983                            (U8)l[0] == 0xC3 &&
2984                            e - l >= 2 &&
2985                            (U8)l[1] == 0x9F))
2986                           sayNO;
2987                 }
2988                 locinput = e;
2989                 nextchr = UCHARAT(locinput);
2990                 break;
2991             }
2992
2993             /* Neither the target and the pattern are utf8. */
2994
2995             /* Inline the first character, for speed. */
2996             if (UCHARAT(s) != nextchr &&
2997                 UCHARAT(s) != ((OP(scan) == EXACTF)
2998                                ? PL_fold : PL_fold_locale)[nextchr])
2999                 sayNO;
3000             if (PL_regeol - locinput < st->ln)
3001                 sayNO;
3002             if (st->ln > 1 && (OP(scan) == EXACTF
3003                            ? ibcmp(s, locinput, st->ln)
3004                            : ibcmp_locale(s, locinput, st->ln)))
3005                 sayNO;
3006             locinput += st->ln;
3007             nextchr = UCHARAT(locinput);
3008             break;
3009             }
3010         case ANYOF:
3011             if (do_utf8) {
3012                 STRLEN inclasslen = PL_regeol - locinput;
3013
3014                 if (!reginclass(rex, scan, (U8*)locinput, &inclasslen, do_utf8))
3015                     sayNO_ANYOF;
3016                 if (locinput >= PL_regeol)
3017                     sayNO;
3018                 locinput += inclasslen ? inclasslen : UTF8SKIP(locinput);
3019                 nextchr = UCHARAT(locinput);
3020                 break;
3021             }
3022             else {
3023                 if (nextchr < 0)
3024                     nextchr = UCHARAT(locinput);
3025                 if (!REGINCLASS(rex, scan, (U8*)locinput))
3026                     sayNO_ANYOF;
3027                 if (!nextchr && locinput >= PL_regeol)
3028                     sayNO;
3029                 nextchr = UCHARAT(++locinput);
3030                 break;
3031             }
3032         no_anyof:
3033             /* If we might have the case of the German sharp s
3034              * in a casefolding Unicode character class. */
3035
3036             if (ANYOF_FOLD_SHARP_S(scan, locinput, PL_regeol)) {
3037                  locinput += SHARP_S_SKIP;
3038                  nextchr = UCHARAT(locinput);
3039             }
3040             else
3041                  sayNO;
3042             break;
3043         case ALNUML:
3044             PL_reg_flags |= RF_tainted;
3045             /* FALL THROUGH */
3046         case ALNUM:
3047             if (!nextchr)
3048                 sayNO;
3049             if (do_utf8) {
3050                 LOAD_UTF8_CHARCLASS_ALNUM();
3051                 if (!(OP(scan) == ALNUM
3052                       ? swash_fetch(PL_utf8_alnum, (U8*)locinput, do_utf8)
3053                       : isALNUM_LC_utf8((U8*)locinput)))
3054                 {
3055                     sayNO;
3056                 }
3057                 locinput += PL_utf8skip[nextchr];
3058                 nextchr = UCHARAT(locinput);
3059                 break;
3060             }
3061             if (!(OP(scan) == ALNUM
3062                   ? isALNUM(nextchr) : isALNUM_LC(nextchr)))
3063                 sayNO;
3064             nextchr = UCHARAT(++locinput);
3065             break;
3066         case NALNUML:
3067             PL_reg_flags |= RF_tainted;
3068             /* FALL THROUGH */
3069         case NALNUM:
3070             if (!nextchr && locinput >= PL_regeol)
3071                 sayNO;
3072             if (do_utf8) {
3073                 LOAD_UTF8_CHARCLASS_ALNUM();
3074                 if (OP(scan) == NALNUM
3075                     ? swash_fetch(PL_utf8_alnum, (U8*)locinput, do_utf8)
3076                     : isALNUM_LC_utf8((U8*)locinput))
3077                 {
3078                     sayNO;
3079                 }
3080                 locinput += PL_utf8skip[nextchr];
3081                 nextchr = UCHARAT(locinput);
3082                 break;
3083             }
3084             if (OP(scan) == NALNUM
3085                 ? isALNUM(nextchr) : isALNUM_LC(nextchr))
3086                 sayNO;
3087             nextchr = UCHARAT(++locinput);
3088             break;
3089         case BOUNDL:
3090         case NBOUNDL:
3091             PL_reg_flags |= RF_tainted;
3092             /* FALL THROUGH */
3093         case BOUND:
3094         case NBOUND:
3095             /* was last char in word? */
3096             if (do_utf8) {
3097                 if (locinput == PL_bostr)
3098                     st->ln = '\n';
3099                 else {
3100                     const U8 * const r = reghop3((U8*)locinput, -1, (U8*)PL_bostr);
3101                 
3102                     st->ln = utf8n_to_uvchr(r, UTF8SKIP(r), 0, uniflags);
3103                 }
3104                 if (OP(scan) == BOUND || OP(scan) == NBOUND) {
3105                     st->ln = isALNUM_uni(st->ln);
3106                     LOAD_UTF8_CHARCLASS_ALNUM();
3107                     n = swash_fetch(PL_utf8_alnum, (U8*)locinput, do_utf8);
3108                 }
3109                 else {
3110                     st->ln = isALNUM_LC_uvchr(UNI_TO_NATIVE(st->ln));
3111                     n = isALNUM_LC_utf8((U8*)locinput);
3112                 }
3113             }
3114             else {
3115                 st->ln = (locinput != PL_bostr) ?
3116                     UCHARAT(locinput - 1) : '\n';
3117                 if (OP(scan) == BOUND || OP(scan) == NBOUND) {
3118                     st->ln = isALNUM(st->ln);
3119                     n = isALNUM(nextchr);
3120                 }
3121                 else {
3122                     st->ln = isALNUM_LC(st->ln);
3123                     n = isALNUM_LC(nextchr);
3124                 }
3125             }
3126             if (((!st->ln) == (!n)) == (OP(scan) == BOUND ||
3127                                     OP(scan) == BOUNDL))
3128                     sayNO;
3129             break;
3130         case SPACEL:
3131             PL_reg_flags |= RF_tainted;
3132             /* FALL THROUGH */
3133         case SPACE:
3134             if (!nextchr)
3135                 sayNO;
3136             if (do_utf8) {
3137                 if (UTF8_IS_CONTINUED(nextchr)) {
3138                     LOAD_UTF8_CHARCLASS_SPACE();
3139                     if (!(OP(scan) == SPACE
3140                           ? swash_fetch(PL_utf8_space, (U8*)locinput, do_utf8)
3141                           : isSPACE_LC_utf8((U8*)locinput)))
3142                     {
3143                         sayNO;
3144                     }
3145                     locinput += PL_utf8skip[nextchr];
3146                     nextchr = UCHARAT(locinput);
3147                     break;
3148                 }
3149                 if (!(OP(scan) == SPACE
3150                       ? isSPACE(nextchr) : isSPACE_LC(nextchr)))
3151                     sayNO;
3152                 nextchr = UCHARAT(++locinput);
3153             }
3154             else {
3155                 if (!(OP(scan) == SPACE
3156                       ? isSPACE(nextchr) : isSPACE_LC(nextchr)))
3157                     sayNO;
3158                 nextchr = UCHARAT(++locinput);
3159             }
3160             break;
3161         case NSPACEL:
3162             PL_reg_flags |= RF_tainted;
3163             /* FALL THROUGH */
3164         case NSPACE:
3165             if (!nextchr && locinput >= PL_regeol)
3166                 sayNO;
3167             if (do_utf8) {
3168                 LOAD_UTF8_CHARCLASS_SPACE();
3169                 if (OP(scan) == NSPACE
3170                     ? swash_fetch(PL_utf8_space, (U8*)locinput, do_utf8)
3171                     : isSPACE_LC_utf8((U8*)locinput))
3172                 {
3173                     sayNO;
3174                 }
3175                 locinput += PL_utf8skip[nextchr];
3176                 nextchr = UCHARAT(locinput);
3177                 break;
3178             }
3179             if (OP(scan) == NSPACE
3180                 ? isSPACE(nextchr) : isSPACE_LC(nextchr))
3181                 sayNO;
3182             nextchr = UCHARAT(++locinput);
3183             break;
3184         case DIGITL:
3185             PL_reg_flags |= RF_tainted;
3186             /* FALL THROUGH */
3187         case DIGIT:
3188             if (!nextchr)
3189                 sayNO;
3190             if (do_utf8) {
3191                 LOAD_UTF8_CHARCLASS_DIGIT();
3192                 if (!(OP(scan) == DIGIT
3193                       ? swash_fetch(PL_utf8_digit, (U8*)locinput, do_utf8)
3194                       : isDIGIT_LC_utf8((U8*)locinput)))
3195                 {
3196                     sayNO;
3197                 }
3198                 locinput += PL_utf8skip[nextchr];
3199                 nextchr = UCHARAT(locinput);
3200                 break;
3201             }
3202             if (!(OP(scan) == DIGIT
3203                   ? isDIGIT(nextchr) : isDIGIT_LC(nextchr)))
3204                 sayNO;
3205             nextchr = UCHARAT(++locinput);
3206             break;
3207         case NDIGITL:
3208             PL_reg_flags |= RF_tainted;
3209             /* FALL THROUGH */
3210         case NDIGIT:
3211             if (!nextchr && locinput >= PL_regeol)
3212                 sayNO;
3213             if (do_utf8) {
3214                 LOAD_UTF8_CHARCLASS_DIGIT();
3215                 if (OP(scan) == NDIGIT
3216                     ? swash_fetch(PL_utf8_digit, (U8*)locinput, do_utf8)
3217                     : isDIGIT_LC_utf8((U8*)locinput))
3218                 {
3219                     sayNO;
3220                 }
3221                 locinput += PL_utf8skip[nextchr];
3222                 nextchr = UCHARAT(locinput);
3223                 break;
3224             }
3225             if (OP(scan) == NDIGIT
3226                 ? isDIGIT(nextchr) : isDIGIT_LC(nextchr))
3227                 sayNO;
3228             nextchr = UCHARAT(++locinput);
3229             break;
3230         case CLUMP:
3231             if (locinput >= PL_regeol)
3232                 sayNO;
3233             if  (do_utf8) {
3234                 LOAD_UTF8_CHARCLASS_MARK();
3235                 if (swash_fetch(PL_utf8_mark,(U8*)locinput, do_utf8))
3236                     sayNO;
3237                 locinput += PL_utf8skip[nextchr];
3238                 while (locinput < PL_regeol &&
3239                        swash_fetch(PL_utf8_mark,(U8*)locinput, do_utf8))
3240                     locinput += UTF8SKIP(locinput);
3241                 if (locinput > PL_regeol)
3242                     sayNO;
3243             } 
3244             else
3245                locinput++;
3246             nextchr = UCHARAT(locinput);
3247             break;
3248         case REFFL:
3249             PL_reg_flags |= RF_tainted;
3250             /* FALL THROUGH */
3251         case REF:
3252         case REFF: {
3253             char *s;
3254             n = ARG(scan);  /* which paren pair */
3255             st->ln = PL_regstartp[n];
3256             PL_reg_leftiter = PL_reg_maxiter;           /* Void cache */
3257             if ((I32)*PL_reglastparen < n || st->ln == -1)
3258                 sayNO;                  /* Do not match unless seen CLOSEn. */
3259             if (st->ln == PL_regendp[n])
3260                 break;
3261
3262             s = PL_bostr + st->ln;
3263             if (do_utf8 && OP(scan) != REF) {   /* REF can do byte comparison */
3264                 char *l = locinput;
3265                 const char *e = PL_bostr + PL_regendp[n];
3266                 /*
3267                  * Note that we can't do the "other character" lookup trick as
3268                  * in the 8-bit case (no pun intended) because in Unicode we
3269                  * have to map both upper and title case to lower case.
3270                  */
3271                 if (OP(scan) == REFF) {
3272                     while (s < e) {
3273                         STRLEN ulen1, ulen2;
3274                         U8 tmpbuf1[UTF8_MAXBYTES_CASE+1];
3275                         U8 tmpbuf2[UTF8_MAXBYTES_CASE+1];
3276
3277                         if (l >= PL_regeol)
3278                             sayNO;
3279                         toLOWER_utf8((U8*)s, tmpbuf1, &ulen1);
3280                         toLOWER_utf8((U8*)l, tmpbuf2, &ulen2);
3281                         if (ulen1 != ulen2 || memNE((char *)tmpbuf1, (char *)tmpbuf2, ulen1))
3282                             sayNO;
3283                         s += ulen1;
3284                         l += ulen2;
3285                     }
3286                 }
3287                 locinput = l;
3288                 nextchr = UCHARAT(locinput);
3289                 break;
3290             }
3291
3292             /* Inline the first character, for speed. */
3293             if (UCHARAT(s) != nextchr &&
3294                 (OP(scan) == REF ||
3295                  (UCHARAT(s) != ((OP(scan) == REFF
3296                                   ? PL_fold : PL_fold_locale)[nextchr]))))
3297                 sayNO;
3298             st->ln = PL_regendp[n] - st->ln;
3299             if (locinput + st->ln > PL_regeol)
3300                 sayNO;
3301             if (st->ln > 1 && (OP(scan) == REF
3302                            ? memNE(s, locinput, st->ln)
3303                            : (OP(scan) == REFF
3304                               ? ibcmp(s, locinput, st->ln)
3305                               : ibcmp_locale(s, locinput, st->ln))))
3306                 sayNO;
3307             locinput += st->ln;
3308             nextchr = UCHARAT(locinput);
3309             break;
3310             }
3311
3312         case NOTHING:
3313         case TAIL:
3314             break;
3315         case BACK:
3316             break;
3317         case EVAL:
3318         {
3319             SV *ret;
3320             {
3321                 /* execute the code in the {...} */
3322                 dSP;
3323                 SV ** const before = SP;
3324                 OP_4tree * const oop = PL_op;
3325                 COP * const ocurcop = PL_curcop;
3326                 PAD *old_comppad;
3327             
3328                 n = ARG(scan);
3329                 PL_op = (OP_4tree*)rex->data->data[n];
3330                 DEBUG_EXECUTE_r( PerlIO_printf(Perl_debug_log, "  re_eval 0x%"UVxf"\n", PTR2UV(PL_op)) );
3331                 PAD_SAVE_LOCAL(old_comppad, (PAD*)rex->data->data[n + 2]);
3332                 PL_regendp[0] = PL_reg_magic->mg_len = locinput - PL_bostr;
3333
3334                 CALLRUNOPS(aTHX);                       /* Scalar context. */
3335                 SPAGAIN;
3336                 if (SP == before)
3337                     ret = &PL_sv_undef;   /* protect against empty (?{}) blocks. */
3338                 else {
3339                     ret = POPs;
3340                     PUTBACK;
3341                 }
3342
3343                 PL_op = oop;
3344                 PAD_RESTORE_LOCAL(old_comppad);
3345                 PL_curcop = ocurcop;
3346                 if (!st->logical) {
3347                     /* /(?{...})/ */
3348                     sv_setsv(save_scalar(PL_replgv), ret);
3349                     break;
3350                 }
3351             }
3352             if (st->logical == 2) { /* Postponed subexpression: /(??{...})/ */
3353                 regexp *re;
3354                 {
3355                     /* extract RE object from returned value; compiling if
3356                      * necessary */
3357
3358                     MAGIC *mg = NULL;
3359                     SV *sv;
3360                     if(SvROK(ret) && SvSMAGICAL(sv = SvRV(ret)))
3361                         mg = mg_find(sv, PERL_MAGIC_qr);
3362                     else if (SvSMAGICAL(ret)) {
3363                         if (SvGMAGICAL(ret))
3364                             sv_unmagic(ret, PERL_MAGIC_qr);
3365                         else
3366                             mg = mg_find(ret, PERL_MAGIC_qr);
3367                     }
3368
3369                     if (mg) {
3370                         re = (regexp *)mg->mg_obj;
3371                         (void)ReREFCNT_inc(re);
3372                     }
3373                     else {
3374                         STRLEN len;
3375                         const char * const t = SvPV_const(ret, len);
3376                         PMOP pm;
3377                         const I32 osize = PL_regsize;
3378
3379                         Zero(&pm, 1, PMOP);
3380                         if (DO_UTF8(ret)) pm.op_pmdynflags |= PMdf_DYN_UTF8;
3381                         re = CALLREGCOMP(aTHX_ (char*)t, (char*)t + len, &pm);
3382                         if (!(SvFLAGS(ret)
3383                               & (SVs_TEMP | SVs_PADTMP | SVf_READONLY
3384                                 | SVs_GMG)))
3385                             sv_magic(ret,(SV*)ReREFCNT_inc(re),
3386                                         PERL_MAGIC_qr,0,0);
3387                         PL_regsize = osize;
3388                     }
3389                 }
3390
3391                 /* run the pattern returned from (??{...}) */
3392
3393                 DEBUG_EXECUTE_r(
3394                     PerlIO_printf(Perl_debug_log,
3395                                   "Entering embedded \"%s%.60s%s%s\"\n",
3396                                   PL_colors[0],
3397                                   re->precomp,
3398                                   PL_colors[1],
3399                                   (strlen(re->precomp) > 60 ? "..." : ""))
3400                     );
3401
3402                 st->u.eval.cp = regcppush(0);   /* Save *all* the positions. */
3403                 REGCP_SET(st->u.eval.lastcp);
3404                 *PL_reglastparen = 0;
3405                 *PL_reglastcloseparen = 0;
3406                 PL_reginput = locinput;
3407
3408                 /* XXXX This is too dramatic a measure... */
3409                 PL_reg_maxiter = 0;
3410
3411                 st->logical = 0;
3412                 st->u.eval.toggleutf = ((PL_reg_flags & RF_utf8) != 0) ^
3413                             ((re->reganch & ROPT_UTF8) != 0);
3414                 if (st->u.eval.toggleutf) PL_reg_flags ^= RF_utf8;
3415                 st->u.eval.prev_rex = rex;
3416                 rex = re;
3417
3418                 /* resume to current state on success */
3419                 st->u.yes.prev_yes_state = yes_state;
3420                 yes_state = st;
3421                 PUSH_STATE(newst, resume_EVAL);
3422                 st = newst;
3423
3424                 /* now continue  from first node in postoned RE */
3425                 next = re->program + 1;
3426                 break;
3427                 /* NOTREACHED */
3428             }
3429             /* /(?(?{...})X|Y)/ */
3430             st->sw = SvTRUE(ret);
3431             st->logical = 0;
3432             break;
3433         }
3434         case OPEN:
3435             n = ARG(scan);  /* which paren pair */
3436             PL_reg_start_tmp[n] = locinput;
3437             if (n > PL_regsize)
3438                 PL_regsize = n;
3439             break;
3440         case CLOSE:
3441             n = ARG(scan);  /* which paren pair */
3442             PL_regstartp[n] = PL_reg_start_tmp[n] - PL_bostr;
3443             PL_regendp[n] = locinput - PL_bostr;
3444             if (n > (I32)*PL_reglastparen)
3445                 *PL_reglastparen = n;
3446             *PL_reglastcloseparen = n;
3447             break;
3448         case GROUPP:
3449             n = ARG(scan);  /* which paren pair */
3450             st->sw = ((I32)*PL_reglastparen >= n && PL_regendp[n] != -1);
3451             break;
3452         case IFTHEN:
3453             PL_reg_leftiter = PL_reg_maxiter;           /* Void cache */
3454             if (st->sw)
3455                 next = NEXTOPER(NEXTOPER(scan));
3456             else {
3457                 next = scan + ARG(scan);
3458                 if (OP(next) == IFTHEN) /* Fake one. */
3459                     next = NEXTOPER(NEXTOPER(next));
3460             }
3461             break;
3462         case LOGICAL:
3463             st->logical = scan->flags;
3464             break;
3465 /*******************************************************************
3466  cc points to the regmatch_state associated with the most recent CURLYX.
3467  This struct contains info about the innermost (...)* loop (an
3468  "infoblock"), and a pointer to the next outer cc.
3469
3470  Here is how Y(A)*Z is processed (if it is compiled into CURLYX/WHILEM):
3471
3472    1) After matching Y, regnode for CURLYX is processed;
3473
3474    2) This regnode populates cc, and calls regmatch() recursively
3475       with the starting point at WHILEM node;
3476
3477    3) Each hit of WHILEM node tries to match A and Z (in the order
3478       depending on the current iteration, min/max of {min,max} and
3479       greediness).  The information about where are nodes for "A"
3480       and "Z" is read from cc, as is info on how many times "A"
3481       was already matched, and greediness.
3482
3483    4) After A matches, the same WHILEM node is hit again.
3484
3485    5) Each time WHILEM is hit, cc is the infoblock created by CURLYX
3486       of the same pair.  Thus when WHILEM tries to match Z, it temporarily
3487       resets cc, since this Y(A)*Z can be a part of some other loop:
3488       as in (Y(A)*Z)*.  If Z matches, the automaton will hit the WHILEM node
3489       of the external loop.
3490
3491  Currently present infoblocks form a tree with a stem formed by st->cc
3492  and whatever it mentions via ->next, and additional attached trees
3493  corresponding to temporarily unset infoblocks as in "5" above.
3494
3495  In the following picture, infoblocks for outer loop of
3496  (Y(A)*?Z)*?T are denoted O, for inner I.  NULL starting block
3497  is denoted by x.  The matched string is YAAZYAZT.  Temporarily postponed
3498  infoblocks are drawn below the "reset" infoblock.
3499
3500  In fact in the picture below we do not show failed matches for Z and T
3501  by WHILEM blocks.  [We illustrate minimal matches, since for them it is
3502  more obvious *why* one needs to *temporary* unset infoblocks.]
3503
3504   Matched       REx position    InfoBlocks      Comment
3505                 (Y(A)*?Z)*?T    x
3506                 Y(A)*?Z)*?T     x <- O
3507   Y             (A)*?Z)*?T      x <- O
3508   Y             A)*?Z)*?T       x <- O <- I
3509   YA            )*?Z)*?T        x <- O <- I
3510   YA            A)*?Z)*?T       x <- O <- I
3511   YAA           )*?Z)*?T        x <- O <- I
3512   YAA           Z)*?T           x <- O          # Temporary unset I
3513                                      I
3514
3515   YAAZ          Y(A)*?Z)*?T     x <- O
3516                                      I
3517
3518   YAAZY         (A)*?Z)*?T      x <- O
3519                                      I
3520
3521   YAAZY         A)*?Z)*?T       x <- O <- I
3522                                      I
3523
3524   YAAZYA        )*?Z)*?T        x <- O <- I     
3525                                      I
3526
3527   YAAZYA        Z)*?T           x <- O          # Temporary unset I
3528                                      I,I
3529
3530   YAAZYAZ       )*?T            x <- O
3531                                      I,I
3532
3533   YAAZYAZ       T               x               # Temporary unset O
3534                                 O
3535                                 I,I
3536
3537   YAAZYAZT                      x
3538                                 O
3539                                 I,I
3540  *******************************************************************/
3541
3542         case CURLYX: {
3543                 /* No need to save/restore up to this paren */
3544                 I32 parenfloor = scan->flags;
3545
3546                 /* Dave says:
3547                    
3548                    CURLYX and WHILEM are always paired: they're the moral
3549                    equivalent of pp_enteriter anbd pp_iter.
3550
3551                    The only time next could be null is if the node tree is
3552                    corrupt. This was mentioned on p5p a few days ago.
3553
3554                    See http://www.xray.mpe.mpg.de/mailing-lists/perl5-porters/2006-04/msg00556.html
3555                    So we'll assert that this is true:
3556                 */
3557                 assert(next);
3558                 if (OP(PREVOPER(next)) == NOTHING) /* LONGJMP */
3559                     next += ARG(next);
3560                 /* XXXX Probably it is better to teach regpush to support
3561                    parenfloor > PL_regsize... */
3562                 if (parenfloor > (I32)*PL_reglastparen)
3563                     parenfloor = *PL_reglastparen; /* Pessimization... */
3564
3565                 st->u.curlyx.cp = PL_savestack_ix;
3566                 st->u.curlyx.outercc = st->cc;
3567                 st->cc = st;
3568                 /* these fields contain the state of the current curly.
3569                  * they are accessed by subsequent WHILEMs;
3570                  * cur and lastloc are also updated by WHILEM */
3571                 st->u.curlyx.parenfloor = parenfloor;
3572                 st->u.curlyx.cur = -1; /* this will be updated by WHILEM */
3573                 st->u.curlyx.min = ARG1(scan);
3574                 st->u.curlyx.max  = ARG2(scan);
3575                 st->u.curlyx.scan = NEXTOPER(scan) + EXTRA_STEP_2ARGS;
3576                 st->u.curlyx.lastloc = 0;
3577                 /* st->next and st->minmod are also read by WHILEM */
3578
3579                 PL_reginput = locinput;
3580                 REGMATCH(PREVOPER(next), CURLYX); /* start on the WHILEM */
3581                 /*** all unsaved local vars undefined at this point */
3582                 regcpblow(st->u.curlyx.cp);
3583                 st->cc = st->u.curlyx.outercc;
3584                 saySAME(result);
3585             }
3586             /* NOTREACHED */
3587         case WHILEM: {
3588                 /*
3589                  * This is really hard to understand, because after we match
3590                  * what we're trying to match, we must make sure the rest of
3591                  * the REx is going to match for sure, and to do that we have
3592                  * to go back UP the parse tree by recursing ever deeper.  And
3593                  * if it fails, we have to reset our parent's current state
3594                  * that we can try again after backing off.
3595                  */
3596
3597                 /* Dave says:
3598
3599                    st->cc gets initialised by CURLYX ready for use by WHILEM.
3600                    So again, unless somethings been corrupted, st->cc cannot
3601                    be null at that point in WHILEM.
3602                    
3603                    See http://www.xray.mpe.mpg.de/mailing-lists/perl5-porters/2006-04/msg00556.html
3604                    So we'll assert that this is true:
3605                 */
3606                 assert(st->cc);
3607                 st->u.whilem.lastloc = st->cc->u.curlyx.lastloc; /* Detection of 0-len. */
3608                 st->u.whilem.cache_offset = 0;
3609                 st->u.whilem.cache_bit = 0;
3610                 
3611                 n = st->cc->u.curlyx.cur + 1; /* how many we know we matched */
3612                 PL_reginput = locinput;
3613
3614                 DEBUG_EXECUTE_r(
3615                     PerlIO_printf(Perl_debug_log,
3616                                   "%*s  %ld out of %ld..%ld  cc=%"UVxf"\n",
3617                                   REPORT_CODE_OFF+PL_regindent*2, "",
3618                                   (long)n, (long)st->cc->u.curlyx.min,
3619                                   (long)st->cc->u.curlyx.max, PTR2UV(st->cc))
3620                     );
3621
3622                 /* If degenerate scan matches "", assume scan done. */
3623
3624                 if (locinput == st->cc->u.curlyx.lastloc && n >= st->cc->u.curlyx.min) {
3625                     st->u.whilem.savecc = st->cc;
3626                     st->cc = st->cc->u.curlyx.outercc;
3627                     if (st->cc)
3628                         st->ln = st->cc->u.curlyx.cur;
3629                     DEBUG_EXECUTE_r(
3630                         PerlIO_printf(Perl_debug_log,
3631                            "%*s  empty match detected, try continuation...\n",
3632                            REPORT_CODE_OFF+PL_regindent*2, "")
3633                         );
3634                     REGMATCH(st->u.whilem.savecc->next, WHILEM1);
3635                     /*** all unsaved local vars undefined at this point */
3636                     st->cc = st->u.whilem.savecc;
3637                     if (result)
3638                         sayYES;
3639                     if (st->cc->u.curlyx.outercc)
3640                         st->cc->u.curlyx.outercc->u.curlyx.cur = st->ln;
3641                     sayNO;
3642                 }
3643
3644                 /* First just match a string of min scans. */
3645
3646                 if (n < st->cc->u.curlyx.min) {
3647                     st->cc->u.curlyx.cur = n;
3648                     st->cc->u.curlyx.lastloc = locinput;
3649                     REGMATCH(st->cc->u.curlyx.scan, WHILEM2);
3650                     /*** all unsaved local vars undefined at this point */
3651                     if (result)
3652                         sayYES;
3653                     st->cc->u.curlyx.cur = n - 1;
3654                     st->cc->u.curlyx.lastloc = st->u.whilem.lastloc;
3655                     sayNO;
3656                 }
3657
3658                 if (scan->flags) {
3659                     /* Check whether we already were at this position.
3660                         Postpone detection until we know the match is not
3661                         *that* much linear. */
3662                 if (!PL_reg_maxiter) {
3663                     PL_reg_maxiter = (PL_regeol - PL_bostr + 1) * (scan->flags>>4);
3664                     PL_reg_leftiter = PL_reg_maxiter;
3665                 }
3666                 if (PL_reg_leftiter-- == 0) {
3667                     const I32 size = (PL_reg_maxiter + 7 + POSCACHE_START)/8;
3668                     if (PL_reg_poscache) {
3669                         if ((I32)PL_reg_poscache_size < size) {
3670                             Renew(PL_reg_poscache, size, char);
3671                             PL_reg_poscache_size = size;
3672                         }
3673                         Zero(PL_reg_poscache, size, char);
3674                     }
3675                     else {
3676                         PL_reg_poscache_size = size;
3677                         Newxz(PL_reg_poscache, size, char);
3678                     }
3679                     DEBUG_EXECUTE_r(
3680                         PerlIO_printf(Perl_debug_log,
3681               "%sDetected a super-linear match, switching on caching%s...\n",
3682                                       PL_colors[4], PL_colors[5])
3683                         );
3684                 }
3685                 if (PL_reg_leftiter < 0) {
3686                     st->u.whilem.cache_offset = locinput - PL_bostr;
3687
3688                     st->u.whilem.cache_offset = (scan->flags & 0xf) - 1 + POSCACHE_START
3689                             + st->u.whilem.cache_offset * (scan->flags>>4);
3690                     st->u.whilem.cache_bit = st->u.whilem.cache_offset % 8;
3691                     st->u.whilem.cache_offset /= 8;
3692                     if (PL_reg_poscache[st->u.whilem.cache_offset] & (1<<st->u.whilem.cache_bit)) {
3693                     DEBUG_EXECUTE_r(
3694                         PerlIO_printf(Perl_debug_log,
3695                                       "%*s  already tried at this position...\n",
3696                                       REPORT_CODE_OFF+PL_regindent*2, "")
3697                         );
3698                         if (PL_reg_poscache[0] & (1<<POSCACHE_SUCCESS))
3699                             /* cache records success */
3700                             sayYES;
3701                         else
3702                             /* cache records failure */
3703                             sayNO_SILENT;
3704                     }
3705                 }
3706                 }
3707
3708                 /* Prefer next over scan for minimal matching. */
3709
3710                 if (st->cc->minmod) {
3711                     st->u.whilem.savecc = st->cc;
3712                     st->cc = st->cc->u.curlyx.outercc;
3713                     if (st->cc)
3714                         st->ln = st->cc->u.curlyx.cur;
3715                     st->u.whilem.cp = regcppush(st->u.whilem.savecc->u.curlyx.parenfloor);
3716                     REGCP_SET(st->u.whilem.lastcp);
3717                     REGMATCH(st->u.whilem.savecc->next, WHILEM3);
3718                     /*** all unsaved local vars undefined at this point */
3719                     st->cc = st->u.whilem.savecc;
3720                     if (result) {
3721                         regcpblow(st->u.whilem.cp);
3722                         CACHEsayYES;    /* All done. */
3723                     }
3724                     REGCP_UNWIND(st->u.whilem.lastcp);
3725                     regcppop(rex);
3726                     if (st->cc->u.curlyx.outercc)
3727                         st->cc->u.curlyx.outercc->u.curlyx.cur = st->ln;
3728
3729                     if (n >= st->cc->u.curlyx.max) { /* Maximum greed exceeded? */
3730                         if (ckWARN(WARN_REGEXP) && n >= REG_INFTY
3731                             && !(PL_reg_flags & RF_warned)) {
3732                             PL_reg_flags |= RF_warned;
3733                             Perl_warner(aTHX_ packWARN(WARN_REGEXP), "%s limit (%d) exceeded",
3734                                  "Complex regular subexpression recursion",
3735                                  REG_INFTY - 1);
3736                         }
3737                         CACHEsayNO;
3738                     }
3739
3740                     DEBUG_EXECUTE_r(
3741                         PerlIO_printf(Perl_debug_log,
3742                                       "%*s  trying longer...\n",
3743                                       REPORT_CODE_OFF+PL_regindent*2, "")
3744                         );
3745                     /* Try scanning more and see if it helps. */
3746                     PL_reginput = locinput;
3747                     st->cc->u.curlyx.cur = n;
3748                     st->cc->u.curlyx.lastloc = locinput;
3749                     st->u.whilem.cp = regcppush(st->cc->u.curlyx.parenfloor);
3750                     REGCP_SET(st->u.whilem.lastcp);
3751                     REGMATCH(st->cc->u.curlyx.scan, WHILEM4);
3752                     /*** all unsaved local vars undefined at this point */
3753                     if (result) {
3754                         regcpblow(st->u.whilem.cp);
3755                         CACHEsayYES;
3756                     }
3757                     REGCP_UNWIND(st->u.whilem.lastcp);
3758                     regcppop(rex);
3759                     st->cc->u.curlyx.cur = n - 1;
3760                     st->cc->u.curlyx.lastloc = st->u.whilem.lastloc;
3761                     CACHEsayNO;
3762                 }
3763
3764                 /* Prefer scan over next for maximal matching. */
3765
3766                 if (n < st->cc->u.curlyx.max) { /* More greed allowed? */
3767                     st->u.whilem.cp = regcppush(st->cc->u.curlyx.parenfloor);
3768                     st->cc->u.curlyx.cur = n;
3769                     st->cc->u.curlyx.lastloc = locinput;
3770                     REGCP_SET(st->u.whilem.lastcp);
3771                     REGMATCH(st->cc->u.curlyx.scan, WHILEM5);
3772                     /*** all unsaved local vars undefined at this point */
3773                     if (result) {
3774                         regcpblow(st->u.whilem.cp);
3775                         CACHEsayYES;
3776                     }
3777                     REGCP_UNWIND(st->u.whilem.lastcp);
3778                     regcppop(rex);      /* Restore some previous $<digit>s? */
3779                     PL_reginput = locinput;
3780                     DEBUG_EXECUTE_r(
3781                         PerlIO_printf(Perl_debug_log,
3782                                       "%*s  failed, try continuation...\n",
3783                                       REPORT_CODE_OFF+PL_regindent*2, "")
3784                         );
3785                 }
3786                 if (ckWARN(WARN_REGEXP) && n >= REG_INFTY
3787                         && !(PL_reg_flags & RF_warned)) {
3788                     PL_reg_flags |= RF_warned;
3789                     Perl_warner(aTHX_ packWARN(WARN_REGEXP), "%s limit (%d) exceeded",
3790                          "Complex regular subexpression recursion",
3791                          REG_INFTY - 1);
3792                 }
3793
3794                 /* Failed deeper matches of scan, so see if this one works. */
3795                 st->u.whilem.savecc = st->cc;
3796                 st->cc = st->cc->u.curlyx.outercc;
3797                 if (st->cc)
3798                     st->ln = st->cc->u.curlyx.cur;
3799                 REGMATCH(st->u.whilem.savecc->next, WHILEM6);
3800                 /*** all unsaved local vars undefined at this point */
3801                 st->cc = st->u.whilem.savecc;
3802                 if (result)
3803                     CACHEsayYES;
3804                 if (st->cc->u.curlyx.outercc)
3805                     st->cc->u.curlyx.outercc->u.curlyx.cur = st->ln;
3806                 st->cc->u.curlyx.cur = n - 1;
3807                 st->cc->u.curlyx.lastloc = st->u.whilem.lastloc;
3808                 CACHEsayNO;
3809             }
3810             /* NOTREACHED */
3811         case BRANCHJ:
3812             next = scan + ARG(scan);
3813             if (next == scan)
3814                 next = NULL;
3815             inner = NEXTOPER(NEXTOPER(scan));
3816             goto do_branch;
3817         case BRANCH:
3818             inner = NEXTOPER(scan);
3819           do_branch:
3820             {
3821                 I32 type;
3822                 type = OP(scan);
3823                 if (!next || OP(next) != type)  /* No choice. */
3824                     next = inner;       /* Avoid recursion. */
3825                 else {
3826                     const I32 lastparen = *PL_reglastparen;
3827                     /* Put unwinding data on stack */
3828                     const I32 unwind1 = SSNEWt(1,re_unwind_branch_t);
3829                     re_unwind_branch_t * const uw = SSPTRt(unwind1,re_unwind_branch_t);
3830
3831                     uw->prev = st->unwind;
3832                     st->unwind = unwind1;
3833                     uw->type = ((type == BRANCH)
3834                                 ? RE_UNWIND_BRANCH
3835                                 : RE_UNWIND_BRANCHJ);
3836                     uw->lastparen = lastparen;
3837                     uw->next = next;
3838                     uw->locinput = locinput;
3839                     uw->nextchr = nextchr;
3840                     uw->minmod = st->minmod;
3841 #ifdef DEBUGGING
3842                     uw->regindent = ++PL_regindent;
3843 #endif
3844
3845                     REGCP_SET(uw->lastcp);
3846
3847                     /* Now go into the first branch */
3848                     next = inner;
3849                 }
3850             }
3851             break;
3852         case MINMOD:
3853             st->minmod = 1;
3854             break;
3855         case CURLYM:
3856         {
3857             st->u.curlym.l = st->u.curlym.matches = 0;
3858         
3859             /* We suppose that the next guy does not need
3860                backtracking: in particular, it is of constant non-zero length,
3861                and has no parenths to influence future backrefs. */
3862             st->ln = ARG1(scan);  /* min to match */
3863             n  = ARG2(scan);  /* max to match */
3864             st->u.curlym.paren = scan->flags;
3865             if (st->u.curlym.paren) {
3866                 if (st->u.curlym.paren > PL_regsize)
3867                     PL_regsize = st->u.curlym.paren;
3868                 if (st->u.curlym.paren > (I32)*PL_reglastparen)
3869                     *PL_reglastparen = st->u.curlym.paren;
3870             }
3871             scan = NEXTOPER(scan) + NODE_STEP_REGNODE;
3872             if (st->u.curlym.paren)
3873                 scan += NEXT_OFF(scan); /* Skip former OPEN. */
3874             PL_reginput = locinput;
3875             st->u.curlym.maxwanted = st->minmod ? st->ln : n;
3876             if (st->u.curlym.maxwanted) {
3877                 while (PL_reginput < PL_regeol && st->u.curlym.matches < st->u.curlym.maxwanted) {
3878                     REGMATCH(scan, CURLYM1);
3879                     /*** all unsaved local vars undefined at this point */
3880                     if (!result)
3881                         break;
3882                     /* on first match, determine length, u.curlym.l */
3883                     if (!st->u.curlym.matches++) {
3884                         if (PL_reg_match_utf8) {
3885                             char *s = locinput;
3886                             while (s < PL_reginput) {
3887                                 st->u.curlym.l++;
3888                                 s += UTF8SKIP(s);
3889                             }
3890                         }
3891                         else {
3892                             st->u.curlym.l = PL_reginput - locinput;
3893                         }
3894                         if (st->u.curlym.l == 0) {
3895                             st->u.curlym.matches = st->u.curlym.maxwanted;
3896                             break;
3897                         }
3898                     }
3899                     locinput = PL_reginput;
3900                 }
3901             }
3902
3903             PL_reginput = locinput;
3904
3905             if (st->minmod) {
3906                 st->minmod = 0;
3907                 if (st->ln && st->u.curlym.matches < st->ln)
3908                     sayNO;
3909                 if (HAS_TEXT(next) || JUMPABLE(next)) {
3910                     regnode *text_node = next;
3911
3912                     if (! HAS_TEXT(text_node)) FIND_NEXT_IMPT(text_node);
3913
3914                     if (! HAS_TEXT(text_node)) st->u.curlym.c1 = st->u.curlym.c2 = -1000;
3915                     else {
3916                         if (PL_regkind[(U8)OP(text_node)] == REF) {
3917                             st->u.curlym.c1 = st->u.curlym.c2 = -1000;
3918                             goto assume_ok_MM;
3919                         }
3920                         else { st->u.curlym.c1 = (U8)*STRING(text_node); }
3921                         if (OP(text_node) == EXACTF || OP(text_node) == REFF)
3922                             st->u.curlym.c2 = PL_fold[st->u.curlym.c1];
3923                         else if (OP(text_node) == EXACTFL || OP(text_node) == REFFL)
3924                             st->u.curlym.c2 = PL_fold_locale[st->u.curlym.c1];
3925                         else
3926                             st->u.curlym.c2 = st->u.curlym.c1;
3927                     }
3928                 }
3929                 else
3930                     st->u.curlym.c1 = st->u.curlym.c2 = -1000;
3931             assume_ok_MM:
3932                 REGCP_SET(st->u.curlym.lastcp);
3933                 while (n >= st->ln || (n == REG_INFTY && st->ln > 0)) { /* ln overflow ? */
3934                     /* If it could work, try it. */
3935                     if (st->u.curlym.c1 == -1000 ||
3936                         UCHARAT(PL_reginput) == st->u.curlym.c1 ||
3937                         UCHARAT(PL_reginput) == st->u.curlym.c2)
3938                     {
3939                         if (st->u.curlym.paren) {
3940                             if (st->ln) {
3941                                 PL_regstartp[st->u.curlym.paren] =
3942                                     HOPc(PL_reginput, -st->u.curlym.l) - PL_bostr;
3943                                 PL_regendp[st->u.curlym.paren] = PL_reginput - PL_bostr;
3944                             }
3945                             else
3946                                 PL_regendp[st->u.curlym.paren] = -1;
3947                         }
3948                         REGMATCH(next, CURLYM2);
3949                         /*** all unsaved local vars undefined at this point */
3950                         if (result)
3951                             sayYES;
3952                         REGCP_UNWIND(st->u.curlym.lastcp);
3953                     }
3954                     /* Couldn't or didn't -- move forward. */
3955                     PL_reginput = locinput;
3956                     REGMATCH(scan, CURLYM3);
3957                     /*** all unsaved local vars undefined at this point */
3958                     if (result) {
3959                         st->ln++;
3960                         locinput = PL_reginput;
3961                     }
3962                     else
3963                         sayNO;
3964                 }
3965             }
3966             else {
3967                 DEBUG_EXECUTE_r(
3968                     PerlIO_printf(Perl_debug_log,
3969                               "%*s  matched %"IVdf" times, len=%"IVdf"...\n",
3970                               (int)(REPORT_CODE_OFF+PL_regindent*2), "",
3971                               (IV) st->u.curlym.matches, (IV)st->u.curlym.l)
3972                     );
3973                 if (st->u.curlym.matches >= st->ln) {
3974                     if (HAS_TEXT(next) || JUMPABLE(next)) {
3975                         regnode *text_node = next;
3976
3977                         if (! HAS_TEXT(text_node)) FIND_NEXT_IMPT(text_node);
3978
3979                         if (! HAS_TEXT(text_node)) st->u.curlym.c1 = st->u.curlym.c2 = -1000;
3980                         else {
3981                             if (PL_regkind[(U8)OP(text_node)] == REF) {
3982                                 st->u.curlym.c1 = st->u.curlym.c2 = -1000;
3983                                 goto assume_ok_REG;
3984                             }
3985                             else { st->u.curlym.c1 = (U8)*STRING(text_node); }
3986
3987                             if (OP(text_node) == EXACTF || OP(text_node) == REFF)
3988                                 st->u.curlym.c2 = PL_fold[st->u.curlym.c1];
3989                             else if (OP(text_node) == EXACTFL || OP(text_node) == REFFL)
3990                                 st->u.curlym.c2 = PL_fold_locale[st->u.curlym.c1];
3991                             else
3992                                 st->u.curlym.c2 = st->u.curlym.c1;
3993                         }
3994                     }
3995                     else
3996                         st->u.curlym.c1 = st->u.curlym.c2 = -1000;
3997                 }
3998             assume_ok_REG:
3999                 REGCP_SET(st->u.curlym.lastcp);
4000                 while (st->u.curlym.matches >= st->ln) {
4001                     /* If it could work, try it. */
4002                     if (st->u.curlym.c1 == -1000 ||
4003                         UCHARAT(PL_reginput) == st->u.curlym.c1 ||
4004                         UCHARAT(PL_reginput) == st->u.curlym.c2)
4005                     {
4006                         DEBUG_EXECUTE_r(
4007                             PerlIO_printf(Perl_debug_log,
4008                                 "%*s  trying tail with matches=%"IVdf"...\n",
4009                                 (int)(REPORT_CODE_OFF+PL_regindent*2),
4010                                 "", (IV)st->u.curlym.matches)
4011                             );
4012                         if (st->u.curlym.paren) {
4013                             if (st->u.curlym.matches) {
4014                                 PL_regstartp[st->u.curlym.paren]
4015                                     = HOPc(PL_reginput, -st->u.curlym.l) - PL_bostr;
4016                                 PL_regendp[st->u.curlym.paren] = PL_reginput - PL_bostr;
4017                             }
4018                             else
4019                                 PL_regendp[st->u.curlym.paren] = -1;
4020                         }
4021                         REGMATCH(next, CURLYM4);
4022                         /*** all unsaved local vars undefined at this point */
4023                         if (result)
4024                             sayYES;
4025                         REGCP_UNWIND(st->u.curlym.lastcp);
4026                     }
4027                     /* Couldn't or didn't -- back up. */
4028                     st->u.curlym.matches--;
4029                     locinput = HOPc(locinput, -st->u.curlym.l);
4030                     PL_reginput = locinput;
4031                 }
4032             }
4033             sayNO;
4034             /* NOTREACHED */
4035             break;
4036         }
4037         case CURLYN:
4038             st->u.plus.paren = scan->flags;     /* Which paren to set */
4039             if (st->u.plus.paren > PL_regsize)
4040                 PL_regsize = st->u.plus.paren;
4041             if (st->u.plus.paren > (I32)*PL_reglastparen)
4042                 *PL_reglastparen = st->u.plus.paren;
4043             st->ln = ARG1(scan);  /* min to match */
4044             n  = ARG2(scan);  /* max to match */
4045             scan = regnext(NEXTOPER(scan) + NODE_STEP_REGNODE);
4046             goto repeat;
4047         case CURLY:
4048             st->u.plus.paren = 0;
4049             st->ln = ARG1(scan);  /* min to match */
4050             n  = ARG2(scan);  /* max to match */
4051             scan = NEXTOPER(scan) + NODE_STEP_REGNODE;
4052             goto repeat;
4053         case STAR:
4054             st->ln = 0;
4055             n = REG_INFTY;
4056             scan = NEXTOPER(scan);
4057             st->u.plus.paren = 0;
4058             goto repeat;
4059         case PLUS:
4060             st->ln = 1;
4061             n = REG_INFTY;
4062             scan = NEXTOPER(scan);
4063             st->u.plus.paren = 0;
4064           repeat:
4065             /*
4066             * Lookahead to avoid useless match attempts
4067             * when we know what character comes next.
4068             */
4069
4070             /*
4071             * Used to only do .*x and .*?x, but now it allows
4072             * for )'s, ('s and (?{ ... })'s to be in the way
4073             * of the quantifier and the EXACT-like node.  -- japhy
4074             */
4075
4076             if (HAS_TEXT(next) || JUMPABLE(next)) {
4077                 U8 *s;
4078                 regnode *text_node = next;
4079
4080                 if (! HAS_TEXT(text_node)) FIND_NEXT_IMPT(text_node);
4081
4082                 if (! HAS_TEXT(text_node)) st->u.plus.c1 = st->u.plus.c2 = -1000;
4083                 else {
4084                     if (PL_regkind[(U8)OP(text_node)] == REF) {
4085                         st->u.plus.c1 = st->u.plus.c2 = -1000;
4086                         goto assume_ok_easy;
4087                     }
4088                     else { s = (U8*)STRING(text_node); }
4089
4090                     if (!UTF) {
4091                         st->u.plus.c2 = st->u.plus.c1 = *s;
4092                         if (OP(text_node) == EXACTF || OP(text_node) == REFF)
4093                             st->u.plus.c2 = PL_fold[st->u.plus.c1];
4094                         else if (OP(text_node) == EXACTFL || OP(text_node) == REFFL)
4095                             st->u.plus.c2 = PL_fold_locale[st->u.plus.c1];
4096                     }
4097                     else { /* UTF */
4098                         if (OP(text_node) == EXACTF || OP(text_node) == REFF) {
4099                              STRLEN ulen1, ulen2;
4100                              U8 tmpbuf1[UTF8_MAXBYTES_CASE+1];
4101                              U8 tmpbuf2[UTF8_MAXBYTES_CASE+1];
4102
4103                              to_utf8_lower((U8*)s, tmpbuf1, &ulen1);
4104                              to_utf8_upper((U8*)s, tmpbuf2, &ulen2);
4105
4106                              st->u.plus.c1 = utf8n_to_uvuni(tmpbuf1, UTF8_MAXBYTES, 0,
4107                                                  uniflags);
4108                              st->u.plus.c2 = utf8n_to_uvuni(tmpbuf2, UTF8_MAXBYTES, 0,
4109                                                  uniflags);
4110                         }
4111                         else {
4112                             st->u.plus.c2 = st->u.plus.c1 = utf8n_to_uvchr(s, UTF8_MAXBYTES, 0,
4113                                                      uniflags);
4114                         }
4115                     }
4116                 }
4117             }
4118             else
4119                 st->u.plus.c1 = st->u.plus.c2 = -1000;
4120         assume_ok_easy:
4121             PL_reginput = locinput;
4122             if (st->minmod) {
4123                 st->minmod = 0;
4124                 if (st->ln && regrepeat(rex, scan, st->ln) < st->ln)
4125                     sayNO;
4126                 locinput = PL_reginput;
4127                 REGCP_SET(st->u.plus.lastcp);
4128                 if (st->u.plus.c1 != -1000) {
4129                     st->u.plus.old = locinput;
4130                     st->u.plus.count = 0;
4131
4132                     if  (n == REG_INFTY) {
4133                         st->u.plus.e = PL_regeol - 1;
4134                         if (do_utf8)
4135                             while (UTF8_IS_CONTINUATION(*(U8*)st->u.plus.e))
4136                                 st->u.plus.e--;
4137                     }
4138                     else if (do_utf8) {
4139                         int m = n - st->ln;
4140                         for (st->u.plus.e = locinput;
4141                              m >0 && st->u.plus.e + UTF8SKIP(st->u.plus.e) <= PL_regeol; m--)
4142                             st->u.plus.e += UTF8SKIP(st->u.plus.e);
4143                     }
4144                     else {
4145                         st->u.plus.e = locinput + n - st->ln;
4146                         if (st->u.plus.e >= PL_regeol)
4147                             st->u.plus.e = PL_regeol - 1;
4148                     }
4149                     while (1) {
4150                         /* Find place 'next' could work */
4151                         if (!do_utf8) {
4152                             if (st->u.plus.c1 == st->u.plus.c2) {
4153                                 while (locinput <= st->u.plus.e &&
4154                                        UCHARAT(locinput) != st->u.plus.c1)
4155                                     locinput++;
4156                             } else {
4157                                 while (locinput <= st->u.plus.e
4158                                        && UCHARAT(locinput) != st->u.plus.c1
4159                                        && UCHARAT(locinput) != st->u.plus.c2)
4160                                     locinput++;
4161                             }
4162                             st->u.plus.count = locinput - st->u.plus.old;
4163                         }
4164                         else {
4165                             if (st->u.plus.c1 == st->u.plus.c2) {
4166                                 STRLEN len;
4167                                 /* count initialised to
4168                                  * utf8_distance(old, locinput) */
4169                                 while (locinput <= st->u.plus.e &&
4170                                        utf8n_to_uvchr((U8*)locinput,
4171                                                       UTF8_MAXBYTES, &len,
4172                                                       uniflags) != (UV)st->u.plus.c1) {
4173                                     locinput += len;
4174                                     st->u.plus.count++;
4175                                 }
4176                             } else {
4177                                 STRLEN len;
4178                                 /* count initialised to
4179                                  * utf8_distance(old, locinput) */
4180                                 while (locinput <= st->u.plus.e) {
4181                                     UV c = utf8n_to_uvchr((U8*)locinput,
4182                                                           UTF8_MAXBYTES, &len,
4183                                                           uniflags);
4184                                     if (c == (UV)st->u.plus.c1 || c == (UV)st->u.plus.c2)
4185                                         break;
4186                                     locinput += len;
4187                                     st->u.plus.count++;
4188                                 }
4189                             }
4190                         }
4191                         if (locinput > st->u.plus.e)
4192                             sayNO;
4193                         /* PL_reginput == old now */
4194                         if (locinput != st->u.plus.old) {
4195                             st->ln = 1; /* Did some */
4196                             if (regrepeat(rex, scan, st->u.plus.count) < st->u.plus.count)
4197                                 sayNO;
4198                         }
4199                         /* PL_reginput == locinput now */
4200                         TRYPAREN(st->u.plus.paren, st->ln, locinput, PLUS1);
4201                         /*** all unsaved local vars undefined at this point */
4202                         PL_reginput = locinput; /* Could be reset... */
4203                         REGCP_UNWIND(st->u.plus.lastcp);
4204                         /* Couldn't or didn't -- move forward. */
4205                         st->u.plus.old = locinput;
4206                         if (do_utf8)
4207                             locinput += UTF8SKIP(locinput);
4208                         else
4209                             locinput++;
4210                         st->u.plus.count = 1;
4211                     }
4212                 }
4213                 else
4214                 while (n >= st->ln || (n == REG_INFTY && st->ln > 0)) { /* ln overflow ? */
4215                     UV c;
4216                     if (st->u.plus.c1 != -1000) {
4217                         if (do_utf8)
4218                             c = utf8n_to_uvchr((U8*)PL_reginput,
4219                                                UTF8_MAXBYTES, 0,
4220                                                uniflags);
4221                         else
4222                             c = UCHARAT(PL_reginput);
4223                         /* If it could work, try it. */
4224                         if (c == (UV)st->u.plus.c1 || c == (UV)st->u.plus.c2)
4225                         {
4226                             TRYPAREN(st->u.plus.paren, st->ln, PL_reginput, PLUS2);
4227                             /*** all unsaved local vars undefined at this point */
4228                             REGCP_UNWIND(st->u.plus.lastcp);
4229                         }
4230                     }
4231                     /* If it could work, try it. */
4232                     else if (st->u.plus.c1 == -1000)
4233                     {
4234                         TRYPAREN(st->u.plus.paren, st->ln, PL_reginput, PLUS3);
4235                         /*** all unsaved local vars undefined at this point */
4236                         REGCP_UNWIND(st->u.plus.lastcp);
4237                     }
4238                     /* Couldn't or didn't -- move forward. */
4239                     PL_reginput = locinput;
4240                     if (regrepeat(rex, scan, 1)) {
4241                         st->ln++;
4242                         locinput = PL_reginput;
4243                     }
4244                     else
4245                         sayNO;
4246                 }
4247             }
4248             else {
4249                 n = regrepeat(rex, scan, n);
4250                 locinput = PL_reginput;
4251                 if (st->ln < n && PL_regkind[(U8)OP(next)] == EOL &&
4252                     (OP(next) != MEOL ||
4253                         OP(next) == SEOL || OP(next) == EOS))
4254                 {
4255                     st->ln = n;                 /* why back off? */
4256                     /* ...because $ and \Z can match before *and* after
4257                        newline at the end.  Consider "\n\n" =~ /\n+\Z\n/.
4258                        We should back off by one in this case. */
4259                     if (UCHARAT(PL_reginput - 1) == '\n' && OP(next) != EOS)
4260                         st->ln--;
4261                 }
4262                 REGCP_SET(st->u.plus.lastcp);
4263                 {
4264                     UV c = 0;
4265                     while (n >= st->ln) {
4266                         if (st->u.plus.c1 != -1000) {
4267                             if (do_utf8)
4268                                 c = utf8n_to_uvchr((U8*)PL_reginput,
4269                                                    UTF8_MAXBYTES, 0,
4270                                                    uniflags);
4271                             else
4272                                 c = UCHARAT(PL_reginput);
4273                         }
4274                         /* If it could work, try it. */
4275                         if (st->u.plus.c1 == -1000 || c == (UV)st->u.plus.c1 || c == (UV)st->u.plus.c2)
4276                             {
4277                                 TRYPAREN(st->u.plus.paren, n, PL_reginput, PLUS4);
4278                                 /*** all unsaved local vars undefined at this point */
4279                                 REGCP_UNWIND(st->u.plus.lastcp);
4280                             }
4281                         /* Couldn't or didn't -- back up. */
4282                         n--;
4283                         PL_reginput = locinput = HOPc(locinput, -1);
4284                     }
4285                 }
4286             }
4287             sayNO;
4288             break;
4289         case END:
4290             if (locinput < reginfo->till) {
4291                 DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log,
4292                                       "%sMatch possible, but length=%ld is smaller than requested=%ld, failing!%s\n",
4293                                       PL_colors[4],
4294                                       (long)(locinput - PL_reg_starttry),
4295                                       (long)(reginfo->till - PL_reg_starttry),
4296                                       PL_colors[5]));
4297                 sayNO_FINAL;            /* Cannot match: too short. */
4298             }
4299             PL_reginput = locinput;     /* put where regtry can find it */
4300             sayYES_FINAL;               /* Success! */
4301         case SUCCEED:
4302             PL_reginput = locinput;     /* put where regtry can find it */
4303             sayYES_LOUD;                /* Success! */
4304         case SUSPEND:
4305             n = 1;
4306             PL_reginput = locinput;
4307             goto do_ifmatch;    
4308         case UNLESSM:
4309             n = 0;
4310             if (scan->flags) {
4311                 char * const s = HOPBACKc(locinput, scan->flags);
4312                 if (!s)
4313                     goto say_yes;
4314                 PL_reginput = s;
4315             }
4316             else
4317                 PL_reginput = locinput;
4318             goto do_ifmatch;
4319         case IFMATCH:
4320             n = 1;
4321             if (scan->flags) {
4322                 char * const s = HOPBACKc(locinput, scan->flags);
4323                 if (!s)
4324                     goto say_no;
4325                 PL_reginput = s;
4326             }
4327             else
4328                 PL_reginput = locinput;
4329
4330           do_ifmatch:
4331             REGMATCH(NEXTOPER(NEXTOPER(scan)), IFMATCH);
4332             /*** all unsaved local vars undefined at this point */
4333             if (result != n) {
4334               say_no:
4335                 if (st->logical) {
4336                     st->logical = 0;
4337                     st->sw = 0;
4338                     goto do_longjump;
4339                 }
4340                 else
4341                     sayNO;
4342             }
4343           say_yes:
4344             if (st->logical) {
4345                 st->logical = 0;
4346                 st->sw = 1;
4347             }
4348             if (OP(scan) == SUSPEND) {
4349                 locinput = PL_reginput;
4350                 nextchr = UCHARAT(locinput);
4351             }
4352             /* FALL THROUGH. */
4353         case LONGJMP:
4354           do_longjump:
4355             next = scan + ARG(scan);
4356             if (next == scan)
4357                 next = NULL;
4358             break;
4359         default:
4360             PerlIO_printf(Perl_error_log, "%"UVxf" %d\n",
4361                           PTR2UV(scan), OP(scan));
4362             Perl_croak(aTHX_ "regexp memory corruption");
4363         }
4364
4365       reenter:
4366         scan = next;
4367         continue;
4368         /* NOTREACHED */
4369
4370         /* simulate recursively calling regmatch(), but without actually
4371          * recursing - ie save the current state on the heap rather than on
4372          * the stack, then re-enter the loop. This avoids complex regexes
4373          * blowing the processor stack */
4374
4375       start_recurse:
4376         {
4377             /* push new state */
4378             regmatch_state *oldst = st;
4379
4380             depth++;
4381
4382             /* grab the next free state slot */
4383             st++;
4384             if (st >  SLAB_LAST(PL_regmatch_slab))
4385                 st = S_push_slab(aTHX);
4386             PL_regmatch_state = st;
4387
4388             oldst->next = next;
4389             oldst->n = n;
4390             oldst->locinput = locinput;
4391
4392             st->cc = oldst->cc;
4393             locinput = PL_reginput;
4394             nextchr = UCHARAT(locinput);
4395             st->minmod = 0;
4396             st->sw = 0;
4397             st->logical = 0;
4398             st->unwind = 0;
4399 #ifdef DEBUGGING
4400             PL_regindent++;
4401 #endif
4402         }
4403     }
4404
4405
4406
4407     /*
4408     * We get here only if there's trouble -- normally "case END" is
4409     * the terminating point.
4410     */
4411     Perl_croak(aTHX_ "corrupted regexp pointers");
4412     /*NOTREACHED*/
4413     sayNO;
4414
4415 yes_loud:
4416     DEBUG_EXECUTE_r(
4417         PerlIO_printf(Perl_debug_log,
4418                       "%*s  %scould match...%s\n",
4419                       REPORT_CODE_OFF+PL_regindent*2, "", PL_colors[4], PL_colors[5])
4420         );
4421     goto yes;
4422 yes_final:
4423
4424     if (yes_state) {
4425         /* we have successfully completed a subexpression, but we must now
4426          * pop to the state marked by yes_state and continue from there */
4427
4428         assert(st != yes_state);
4429         while (yes_state < SLAB_FIRST(PL_regmatch_slab)
4430             || yes_state > SLAB_LAST(PL_regmatch_slab))
4431         {
4432             /* not in this slab, pop slab */
4433             depth -= (st - SLAB_FIRST(PL_regmatch_slab) + 1);
4434             PL_regmatch_slab = PL_regmatch_slab->prev;
4435             st = SLAB_LAST(PL_regmatch_slab);
4436         }
4437         depth -= (st - yes_state);
4438         DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "POP STATE TO (%d)\n", depth)); \
4439         st = yes_state;
4440         yes_state = st->u.yes.prev_yes_state;
4441         PL_regmatch_state = st;
4442
4443         switch (st->resume_state) {
4444         case resume_EVAL:
4445             if (st->u.eval.toggleutf)
4446                 PL_reg_flags ^= RF_utf8;
4447             ReREFCNT_dec(rex);
4448             rex = st->u.eval.prev_rex;
4449             /* XXXX This is too dramatic a measure... */
4450             PL_reg_maxiter = 0;
4451             /* Restore parens of the caller without popping the
4452              * savestack */
4453             {
4454                 I32 tmp = PL_savestack_ix;
4455                 PL_savestack_ix = st->u.eval.lastcp;
4456                 regcppop(rex);
4457                 PL_savestack_ix = tmp;
4458             }
4459             PL_reginput = locinput;
4460              /* continue at the node following the (??{...}) */
4461             next        = st->next;
4462             goto reenter;
4463
4464         default:
4465             Perl_croak(aTHX_ "unexpected yes reume state");
4466         }
4467     }
4468
4469     DEBUG_EXECUTE_r(PerlIO_printf(Perl_debug_log, "%sMatch successful!%s\n",
4470                           PL_colors[4], PL_colors[5]));
4471 yes:
4472 #ifdef DEBUGGING
4473     PL_regindent--;
4474 #endif
4475
4476     result = 1;
4477     /* XXX this is duplicate(ish) code to that in the do_no section.
4478      * eventually a yes should just pop the stack back to the current
4479      * yes_state */
4480     if (depth) {
4481         /* restore previous state and re-enter */
4482         POP_STATE;
4483
4484         switch (st->resume_state) {
4485         case resume_TRIE1:
4486             goto resume_point_TRIE1;
4487         case resume_TRIE2:
4488             goto resume_point_TRIE2;
4489         case resume_CURLYX:
4490             goto resume_point_CURLYX;
4491         case resume_WHILEM1:
4492             goto resume_point_WHILEM1;
4493         case resume_WHILEM2:
4494             goto resume_point_WHILEM2;
4495         case resume_WHILEM3:
4496             goto resume_point_WHILEM3;
4497         case resume_WHILEM4:
4498             goto resume_point_WHILEM4;
4499         case resume_WHILEM5:
4500             goto resume_point_WHILEM5;
4501         case resume_WHILEM6:
4502             goto resume_point_WHILEM6;
4503         case resume_CURLYM1:
4504             goto resume_point_CURLYM1;
4505         case resume_CURLYM2:
4506             goto resume_point_CURLYM2;
4507         case resume_CURLYM3:
4508             goto resume_point_CURLYM3;
4509         case resume_CURLYM4:
4510             goto resume_point_CURLYM4;
4511         case resume_IFMATCH:
4512             goto resume_point_IFMATCH;
4513         case resume_PLUS1:
4514             goto resume_point_PLUS1;
4515         case resume_PLUS2:
4516             goto resume_point_PLUS2;
4517         case resume_PLUS3:
4518             goto resume_point_PLUS3;
4519         case resume_PLUS4:
4520             goto resume_point_PLUS4;
4521
4522         case resume_EVAL:
4523         default:
4524             Perl_croak(aTHX_ "regexp resume memory corruption");
4525         }
4526     }
4527     goto final_exit;
4528
4529 no:
4530     DEBUG_EXECUTE_r(
4531         PerlIO_printf(Perl_debug_log,
4532                       "%*s  %sfailed...%s\n",
4533                       REPORT_CODE_OFF+PL_regindent*2, "", PL_colors[4], PL_colors[5])
4534         );
4535     goto do_no;
4536 no_final:
4537 do_no:
4538     if (st->unwind) {
4539         re_unwind_t * const uw = SSPTRt(st->unwind,re_unwind_t);
4540
4541         switch (uw->type) {
4542         case RE_UNWIND_BRANCH:
4543         case RE_UNWIND_BRANCHJ:
4544         {
4545             re_unwind_branch_t * const uwb = &(uw->branch);
4546             const I32 lastparen = uwb->lastparen;
4547         
4548             REGCP_UNWIND(uwb->lastcp);
4549             for (n = *PL_reglastparen; n > lastparen; n--)
4550                 PL_regendp[n] = -1;
4551             *PL_reglastparen = n;
4552             scan = next = uwb->next;
4553             st->minmod = uwb->minmod;
4554             if ( !scan ||
4555                  OP(scan) != (uwb->type == RE_UNWIND_BRANCH
4556                               ? BRANCH : BRANCHJ) ) {           /* Failure */
4557                 st->unwind = uwb->prev;
4558 #ifdef DEBUGGING
4559                 PL_regindent--;
4560 #endif
4561                 goto do_no;
4562             }
4563             /* Have more choice yet.  Reuse the same uwb.  */
4564             if ((n = (uwb->type == RE_UNWIND_BRANCH
4565                       ? NEXT_OFF(next) : ARG(next))))
4566                 next += n;
4567             else
4568                 next = NULL;    /* XXXX Needn't unwinding in this case... */
4569             uwb->next = next;
4570             next = NEXTOPER(scan);
4571             if (uwb->type == RE_UNWIND_BRANCHJ)
4572                 next = NEXTOPER(next);
4573             locinput = uwb->locinput;
4574             nextchr = uwb->nextchr;
4575 #ifdef DEBUGGING
4576             PL_regindent = uwb->regindent;
4577 #endif
4578
4579             goto reenter;
4580         }
4581         /* NOTREACHED */
4582         default:
4583             Perl_croak(aTHX_ "regexp unwind memory corruption");
4584         }
4585         /* NOTREACHED */
4586     }
4587
4588 #ifdef DEBUGGING
4589     PL_regindent--;
4590 #endif
4591     result = 0;
4592
4593     if (depth) {
4594         /* there's a previous state to backtrack to */
4595         POP_STATE;
4596         switch (st->resume_state) {
4597         case resume_TRIE1:
4598             goto resume_point_TRIE1;
4599         case resume_TRIE2:
4600             goto resume_point_TRIE2;
4601         case resume_EVAL:
4602             /* we have failed an (??{...}). Restore state to the outer re
4603              * then re-throw the failure */
4604             if (st->u.eval.toggleutf)
4605                 PL_reg_flags ^= RF_utf8;
4606             ReREFCNT_dec(rex);
4607             rex = st->u.eval.prev_rex;
4608             yes_state = st->u.yes.prev_yes_state;
4609
4610             /* XXXX This is too dramatic a measure... */
4611             PL_reg_maxiter = 0;
4612
4613             PL_reginput = locinput;
4614             REGCP_UNWIND(st->u.eval.lastcp);
4615             regcppop(rex);
4616             goto do_no;
4617
4618         case resume_CURLYX:
4619             goto resume_point_CURLYX;
4620         case resume_WHILEM1:
4621             goto resume_point_WHILEM1;
4622         case resume_WHILEM2:
4623             goto resume_point_WHILEM2;
4624         case resume_WHILEM3:
4625             goto resume_point_WHILEM3;
4626         case resume_WHILEM4:
4627             goto resume_point_WHILEM4;
4628         case resume_WHILEM5:
4629             goto resume_point_WHILEM5;
4630         case resume_WHILEM6:
4631             goto resume_point_WHILEM6;
4632         case resume_CURLYM1:
4633             goto resume_point_CURLYM1;
4634         case resume_CURLYM2:
4635             goto resume_point_CURLYM2;
4636         case resume_CURLYM3:
4637             goto resume_point_CURLYM3;
4638         case resume_CURLYM4:
4639             goto resume_point_CURLYM4;
4640         case resume_IFMATCH:
4641             goto resume_point_IFMATCH;
4642         case resume_PLUS1:
4643             goto resume_point_PLUS1;
4644         case resume_PLUS2:
4645             goto resume_point_PLUS2;
4646         case resume_PLUS3:
4647             goto resume_point_PLUS3;
4648         case resume_PLUS4:
4649             goto resume_point_PLUS4;
4650         default:
4651             Perl_croak(aTHX_ "regexp resume memory corruption");
4652         }
4653     }
4654
4655 final_exit:
4656
4657     /* restore original high-water mark */
4658     PL_regmatch_slab  = orig_slab;
4659     PL_regmatch_state = orig_state;
4660
4661     /* free all slabs above current one */
4662     if (orig_slab->next) {
4663         regmatch_slab *osl, *sl = orig_slab->next;
4664         orig_slab->next = NULL;
4665         while (sl) {
4666             osl = sl;
4667             sl = sl->next;
4668             Safefree(osl);
4669         }
4670     }
4671
4672     return result;
4673
4674 }
4675
4676 /*
4677  - regrepeat - repeatedly match something simple, report how many
4678  */
4679 /*
4680  * [This routine now assumes that it will only match on things of length 1.
4681  * That was true before, but now we assume scan - reginput is the count,
4682  * rather than incrementing count on every character.  [Er, except utf8.]]
4683  */
4684 STATIC I32
4685 S_regrepeat(pTHX_ const regexp *prog, const regnode *p, I32 max)
4686 {
4687     dVAR;
4688     register char *scan;
4689     register I32 c;
4690     register char *loceol = PL_regeol;
4691     register I32 hardcount = 0;
4692     register bool do_utf8 = PL_reg_match_utf8;
4693
4694     scan = PL_reginput;
4695     if (max == REG_INFTY)
4696         max = I32_MAX;
4697     else if (max < loceol - scan)
4698         loceol = scan + max;
4699     switch (OP(p)) {
4700     case REG_ANY:
4701         if (do_utf8) {
4702             loceol = PL_regeol;
4703             while (scan < loceol && hardcount < max && *scan != '\n') {
4704                 scan += UTF8SKIP(scan);
4705                 hardcount++;
4706             }
4707         } else {
4708             while (scan < loceol && *scan != '\n')
4709                 scan++;
4710         }
4711         break;
4712     case SANY:
4713         if (do_utf8) {
4714             loceol = PL_regeol;
4715             while (scan < loceol && hardcount < max) {
4716                 scan += UTF8SKIP(scan);
4717                 hardcount++;
4718             }
4719         }
4720         else
4721             scan = loceol;
4722         break;
4723     case CANY:
4724         scan = loceol;
4725         break;
4726     case EXACT:         /* length of string is 1 */
4727         c = (U8)*STRING(p);
4728         while (scan < loceol && UCHARAT(scan) == c)
4729             scan++;
4730         break;
4731     case EXACTF:        /* length of string is 1 */
4732         c = (U8)*STRING(p);
4733         while (scan < loceol &&
4734                (UCHARAT(scan) == c || UCHARAT(scan) == PL_fold[c]))
4735             scan++;
4736         break;
4737     case EXACTFL:       /* length of string is 1 */
4738         PL_reg_flags |= RF_tainted;
4739         c = (U8)*STRING(p);
4740         while (scan < loceol &&
4741                (UCHARAT(scan) == c || UCHARAT(scan) == PL_fold_locale[c]))
4742             scan++;
4743         break;
4744     case ANYOF:
4745         if (do_utf8) {
4746             loceol = PL_regeol;
4747             while (hardcount < max && scan < loceol &&
4748                    reginclass(prog, p, (U8*)scan, 0, do_utf8)) {
4749                 scan += UTF8SKIP(scan);
4750                 hardcount++;
4751             }
4752         } else {
4753             while (scan < loceol && REGINCLASS(prog, p, (U8*)scan))
4754                 scan++;
4755         }
4756         break;
4757     case ALNUM:
4758         if (do_utf8) {
4759             loceol = PL_regeol;
4760             LOAD_UTF8_CHARCLASS_ALNUM();
4761             while (hardcount < max && scan < loceol &&
4762                    swash_fetch(PL_utf8_alnum, (U8*)scan, do_utf8)) {
4763                 scan += UTF8SKIP(scan);
4764                 hardcount++;
4765             }
4766         } else {
4767             while (scan < loceol && isALNUM(*scan))
4768                 scan++;
4769         }
4770         break;
4771     case ALNUML:
4772         PL_reg_flags |= RF_tainted;
4773         if (do_utf8) {
4774             loceol = PL_regeol;
4775             while (hardcount < max && scan < loceol &&
4776                    isALNUM_LC_utf8((U8*)scan)) {
4777                 scan += UTF8SKIP(scan);
4778                 hardcount++;
4779             }
4780         } else {
4781             while (scan < loceol && isALNUM_LC(*scan))
4782                 scan++;
4783         }
4784         break;
4785     case NALNUM:
4786         if (do_utf8) {
4787             loceol = PL_regeol;
4788             LOAD_UTF8_CHARCLASS_ALNUM();
4789             while (hardcount < max && scan < loceol &&
4790                    !swash_fetch(PL_utf8_alnum, (U8*)scan, do_utf8)) {
4791                 scan += UTF8SKIP(scan);
4792                 hardcount++;
4793             }
4794         } else {
4795             while (scan < loceol && !isALNUM(*scan))
4796                 scan++;
4797         }
4798         break;
4799     case NALNUML:
4800         PL_reg_flags |= RF_tainted;
4801         if (do_utf8) {
4802             loceol = PL_regeol;
4803             while (hardcount < max && scan < loceol &&
4804                    !isALNUM_LC_utf8((U8*)scan)) {
4805                 scan += UTF8SKIP(scan);
4806                 hardcount++;
4807             }
4808         } else {
4809             while (scan < loceol && !isALNUM_LC(*scan))
4810                 scan++;
4811         }
4812         break;
4813     case SPACE:
4814         if (do_utf8) {
4815             loceol = PL_regeol;
4816             LOAD_UTF8_CHARCLASS_SPACE();
4817             while (hardcount < max && scan < loceol &&
4818                    (*scan == ' ' ||
4819                     swash_fetch(PL_utf8_space,(U8*)scan, do_utf8))) {
4820                 scan += UTF8SKIP(scan);
4821                 hardcount++;
4822             }
4823         } else {
4824             while (scan < loceol && isSPACE(*scan))
4825                 scan++;
4826         }
4827         break;
4828     case SPACEL:
4829         PL_reg_flags |= RF_tainted;
4830         if (do_utf8) {
4831             loceol = PL_regeol;
4832             while (hardcount < max && scan < loceol &&
4833                    (*scan == ' ' || isSPACE_LC_utf8((U8*)scan))) {
4834                 scan += UTF8SKIP(scan);
4835                 hardcount++;
4836             }
4837         } else {
4838             while (scan < loceol && isSPACE_LC(*scan))
4839                 scan++;
4840         }
4841         break;
4842     case NSPACE:
4843         if (do_utf8) {
4844             loceol = PL_regeol;
4845             LOAD_UTF8_CHARCLASS_SPACE();
4846             while (hardcount < max && scan < loceol &&
4847                    !(*scan == ' ' ||
4848                      swash_fetch(PL_utf8_space,(U8*)scan, do_utf8))) {
4849                 scan += UTF8SKIP(scan);
4850                 hardcount++;
4851             }
4852         } else {
4853             while (scan < loceol && !isSPACE(*scan))
4854                 scan++;
4855             break;
4856         }
4857     case NSPACEL:
4858         PL_reg_flags |= RF_tainted;
4859         if (do_utf8) {
4860             loceol = PL_regeol;
4861             while (hardcount < max && scan < loceol &&
4862                    !(*scan == ' ' || isSPACE_LC_utf8((U8*)scan))) {
4863                 scan += UTF8SKIP(scan);
4864                 hardcount++;
4865             }
4866         } else {
4867             while (scan < loceol && !isSPACE_LC(*scan))
4868                 scan++;
4869         }
4870         break;
4871     case DIGIT:
4872         if (do_utf8) {
4873             loceol = PL_regeol;
4874             LOAD_UTF8_CHARCLASS_DIGIT();
4875             while (hardcount < max && scan < loceol &&
4876                    swash_fetch(PL_utf8_digit, (U8*)scan, do_utf8)) {
4877                 scan += UTF8SKIP(scan);
4878                 hardcount++;
4879             }
4880         } else {
4881             while (scan < loceol && isDIGIT(*scan))
4882                 scan++;
4883         }
4884         break;
4885     case NDIGIT:
4886         if (do_utf8) {
4887             loceol = PL_regeol;
4888             LOAD_UTF8_CHARCLASS_DIGIT();
4889             while (hardcount < max && scan < loceol &&
4890                    !swash_fetch(PL_utf8_digit, (U8*)scan, do_utf8)) {
4891                 scan += UTF8SKIP(scan);
4892                 hardcount++;
4893             }
4894         } else {
4895             while (scan < loceol && !isDIGIT(*scan))
4896                 scan++;
4897         }
4898         break;
4899     default:            /* Called on something of 0 width. */
4900         break;          /* So match right here or not at all. */
4901     }
4902
4903     if (hardcount)
4904         c = hardcount;
4905     else
4906         c = scan - PL_reginput;
4907     PL_reginput = scan;
4908
4909     DEBUG_r({
4910                 SV *re_debug_flags = NULL;
4911                 SV * const prop = sv_newmortal();
4912                 GET_RE_DEBUG_FLAGS;
4913                 DEBUG_EXECUTE_r({
4914                 regprop(prog, prop, p);
4915                 PerlIO_printf(Perl_debug_log,
4916                               "%*s  %s can match %"IVdf" times out of %"IVdf"...\n",
4917                               REPORT_CODE_OFF+1, "", SvPVX_const(prop),(IV)c,(IV)max);
4918         });
4919         });
4920
4921     return(c);
4922 }
4923
4924
4925 /*
4926 - regclass_swash - prepare the utf8 swash
4927 */
4928
4929 SV *
4930 Perl_regclass_swash(pTHX_ const regexp *prog, register const regnode* node, bool doinit, SV** listsvp, SV **altsvp)
4931 {
4932     dVAR;
4933     SV *sw  = NULL;
4934     SV *si  = NULL;
4935     SV *alt = NULL;
4936     const struct reg_data *data = prog ? prog->data : NULL;
4937
4938     if (data && data->count) {
4939         const U32 n = ARG(node);
4940
4941         if (data->what[n] == 's') {
4942             SV * const rv = (SV*)data->data[n];
4943             AV * const av = (AV*)SvRV((SV*)rv);
4944             SV **const ary = AvARRAY(av);
4945             SV **a, **b;
4946         
4947             /* See the end of regcomp.c:S_regclass() for
4948              * documentation of these array elements. */
4949
4950             si = *ary;
4951             a  = SvROK(ary[1]) ? &ary[1] : 0;
4952             b  = SvTYPE(ary[2]) == SVt_PVAV ? &ary[2] : 0;
4953
4954             if (a)
4955                 sw = *a;
4956             else if (si && doinit) {
4957                 sw = swash_init("utf8", "", si, 1, 0);
4958                 (void)av_store(av, 1, sw);
4959             }
4960             if (b)
4961                 alt = *b;
4962         }
4963     }
4964         
4965     if (listsvp)
4966         *listsvp = si;
4967     if (altsvp)
4968         *altsvp  = alt;
4969
4970     return sw;
4971 }
4972
4973 /*
4974  - reginclass - determine if a character falls into a character class
4975  
4976   The n is the ANYOF regnode, the p is the target string, lenp
4977   is pointer to the maximum length of how far to go in the p
4978   (if the lenp is zero, UTF8SKIP(p) is used),
4979   do_utf8 tells whether the target string is in UTF-8.
4980
4981  */
4982
4983 STATIC bool
4984 S_reginclass(pTHX_ const regexp *prog, register const regnode *n, register const U8* p, STRLEN* lenp, register bool do_utf8)
4985 {
4986     dVAR;
4987     const char flags = ANYOF_FLAGS(n);
4988     bool match = FALSE;
4989     UV c = *p;
4990     STRLEN len = 0;
4991     STRLEN plen;
4992
4993     if (do_utf8 && !UTF8_IS_INVARIANT(c)) {
4994         c = utf8n_to_uvchr(p, UTF8_MAXBYTES, &len,
4995                 (UTF8_ALLOW_DEFAULT & UTF8_ALLOW_ANYUV) | UTF8_CHECK_ONLY);
4996                 /* see [perl #37836] for UTF8_ALLOW_ANYUV */
4997         if (len == (STRLEN)-1)
4998             Perl_croak(aTHX_ "Malformed UTF-8 character (fatal)");
4999     }
5000
5001     plen = lenp ? *lenp : UNISKIP(NATIVE_TO_UNI(c));
5002     if (do_utf8 || (flags & ANYOF_UNICODE)) {
5003         if (lenp)
5004             *lenp = 0;
5005         if (do_utf8 && !ANYOF_RUNTIME(n)) {
5006             if (len != (STRLEN)-1 && c < 256 && ANYOF_BITMAP_TEST(n, c))
5007                 match = TRUE;
5008         }
5009         if (!match && do_utf8 && (flags & ANYOF_UNICODE_ALL) && c >= 256)
5010             match = TRUE;
5011         if (!match) {
5012             AV *av;
5013             SV * const sw = regclass_swash(prog, n, TRUE, 0, (SV**)&av);
5014         
5015             if (sw) {
5016                 if (swash_fetch(sw, p, do_utf8))
5017                     match = TRUE;
5018                 else if (flags & ANYOF_FOLD) {
5019                     if (!match && lenp && av) {
5020                         I32 i;
5021                         for (i = 0; i <= av_len(av); i++) {
5022                             SV* const sv = *av_fetch(av, i, FALSE);
5023                             STRLEN len;
5024                             const char * const s = SvPV_const(sv, len);
5025                         
5026                             if (len <= plen && memEQ(s, (char*)p, len)) {
5027                                 *lenp = len;
5028                                 match = TRUE;
5029                                 break;
5030                             }
5031                         }
5032                     }
5033                     if (!match) {
5034                         U8 tmpbuf[UTF8_MAXBYTES_CASE+1];
5035                         STRLEN tmplen;
5036
5037                         to_utf8_fold(p, tmpbuf, &tmplen);
5038                         if (swash_fetch(sw, tmpbuf, do_utf8))
5039                             match = TRUE;
5040                     }
5041                 }
5042             }
5043         }
5044         if (match && lenp && *lenp == 0)
5045             *lenp = UNISKIP(NATIVE_TO_UNI(c));
5046     }
5047     if (!match && c < 256) {
5048         if (ANYOF_BITMAP_TEST(n, c))
5049             match = TRUE;
5050         else if (flags & ANYOF_FOLD) {
5051             U8 f;
5052
5053             if (flags & ANYOF_LOCALE) {
5054                 PL_reg_flags |= RF_tainted;
5055                 f = PL_fold_locale[c];
5056             }
5057             else
5058                 f = PL_fold[c];
5059             if (f != c && ANYOF_BITMAP_TEST(n, f))
5060                 match = TRUE;
5061         }
5062         
5063         if (!match && (flags & ANYOF_CLASS)) {
5064             PL_reg_flags |= RF_tainted;
5065             if (
5066                 (ANYOF_CLASS_TEST(n, ANYOF_ALNUM)   &&  isALNUM_LC(c))  ||
5067                 (ANYOF_CLASS_TEST(n, ANYOF_NALNUM)  && !isALNUM_LC(c))  ||
5068                 (ANYOF_CLASS_TEST(n, ANYOF_SPACE)   &&  isSPACE_LC(c))  ||
5069                 (ANYOF_CLASS_TEST(n, ANYOF_NSPACE)  && !isSPACE_LC(c))  ||
5070                 (ANYOF_CLASS_TEST(n, ANYOF_DIGIT)   &&  isDIGIT_LC(c))  ||
5071                 (ANYOF_CLASS_TEST(n, ANYOF_NDIGIT)  && !isDIGIT_LC(c))  ||
5072                 (ANYOF_CLASS_TEST(n, ANYOF_ALNUMC)  &&  isALNUMC_LC(c)) ||
5073                 (ANYOF_CLASS_TEST(n, ANYOF_NALNUMC) && !isALNUMC_LC(c)) ||
5074                 (ANYOF_CLASS_TEST(n, ANYOF_ALPHA)   &&  isALPHA_LC(c))  ||
5075                 (ANYOF_CLASS_TEST(n, ANYOF_NALPHA)  && !isALPHA_LC(c))  ||
5076                 (ANYOF_CLASS_TEST(n, ANYOF_ASCII)   &&  isASCII(c))     ||
5077                 (ANYOF_CLASS_TEST(n, ANYOF_NASCII)  && !isASCII(c))     ||
5078                 (ANYOF_CLASS_TEST(n, ANYOF_CNTRL)   &&  isCNTRL_LC(c))  ||
5079                 (ANYOF_CLASS_TEST(n, ANYOF_NCNTRL)  && !isCNTRL_LC(c))  ||
5080                 (ANYOF_CLASS_TEST(n, ANYOF_GRAPH)   &&  isGRAPH_LC(c))  ||
5081                 (ANYOF_CLASS_TEST(n, ANYOF_NGRAPH)  && !isGRAPH_LC(c))  ||
5082                 (ANYOF_CLASS_TEST(n, ANYOF_LOWER)   &&  isLOWER_LC(c))  ||
5083                 (ANYOF_CLASS_TEST(n, ANYOF_NLOWER)  && !isLOWER_LC(c))  ||
5084                 (ANYOF_CLASS_TEST(n, ANYOF_PRINT)   &&  isPRINT_LC(c))  ||
5085                 (ANYOF_CLASS_TEST(n, ANYOF_NPRINT)  && !isPRINT_LC(c))  ||
5086                 (ANYOF_CLASS_TEST(n, ANYOF_PUNCT)   &&  isPUNCT_LC(c))  ||
5087                 (ANYOF_CLASS_TEST(n, ANYOF_NPUNCT)  && !isPUNCT_LC(c))  ||
5088                 (ANYOF_CLASS_TEST(n, ANYOF_UPPER)   &&  isUPPER_LC(c))  ||
5089                 (ANYOF_CLASS_TEST(n, ANYOF_NUPPER)  && !isUPPER_LC(c))  ||
5090                 (ANYOF_CLASS_TEST(n, ANYOF_XDIGIT)  &&  isXDIGIT(c))    ||
5091                 (ANYOF_CLASS_TEST(n, ANYOF_NXDIGIT) && !isXDIGIT(c))    ||
5092                 (ANYOF_CLASS_TEST(n, ANYOF_PSXSPC)  &&  isPSXSPC(c))    ||
5093                 (ANYOF_CLASS_TEST(n, ANYOF_NPSXSPC) && !isPSXSPC(c))    ||
5094                 (ANYOF_CLASS_TEST(n, ANYOF_BLANK)   &&  isBLANK(c))     ||
5095                 (ANYOF_CLASS_TEST(n, ANYOF_NBLANK)  && !isBLANK(c))
5096                 ) /* How's that for a conditional? */
5097             {
5098                 match = TRUE;
5099             }
5100         }
5101     }
5102
5103     return (flags & ANYOF_INVERT) ? !match : match;
5104 }
5105
5106 STATIC U8 *
5107 S_reghop3(U8 *s, I32 off, U8* lim)
5108 {
5109     dVAR;
5110     if (off >= 0) {
5111         while (off-- && s < lim) {
5112             /* XXX could check well-formedness here */
5113             s += UTF8SKIP(s);
5114         }
5115     }
5116     else {
5117         while (off++) {
5118             if (s > lim) {
5119                 s--;
5120                 if (UTF8_IS_CONTINUED(*s)) {
5121                     while (s > (U8*)lim && UTF8_IS_CONTINUATION(*s))
5122                         s--;
5123                 }
5124                 /* XXX could check well-formedness here */
5125             }
5126         }
5127     }
5128     return s;
5129 }
5130
5131 STATIC U8 *
5132 S_reghopmaybe3(U8* s, I32 off, U8* lim)
5133 {
5134     dVAR;
5135     if (off >= 0) {
5136         while (off-- && s < lim) {
5137             /* XXX could check well-formedness here */
5138             s += UTF8SKIP(s);
5139         }
5140         if (off >= 0)
5141             return 0;
5142     }
5143     else {
5144         while (off++) {
5145             if (s > lim) {
5146                 s--;
5147                 if (UTF8_IS_CONTINUED(*s)) {
5148                     while (s > (U8*)lim && UTF8_IS_CONTINUATION(*s))
5149                         s--;
5150                 }
5151                 /* XXX could check well-formedness here */
5152             }
5153             else
5154                 break;
5155         }
5156         if (off <= 0)
5157             return 0;
5158     }
5159     return s;
5160 }
5161
5162 static void
5163 restore_pos(pTHX_ void *arg)
5164 {
5165     dVAR;
5166     regexp * const rex = (regexp *)arg;
5167     if (PL_reg_eval_set) {
5168         if (PL_reg_oldsaved) {
5169             rex->subbeg = PL_reg_oldsaved;
5170             rex->sublen = PL_reg_oldsavedlen;
5171 #ifdef PERL_OLD_COPY_ON_WRITE
5172             rex->saved_copy = PL_nrs;
5173 #endif
5174             RX_MATCH_COPIED_on(rex);
5175         }
5176         PL_reg_magic->mg_len = PL_reg_oldpos;
5177         PL_reg_eval_set = 0;
5178         PL_curpm = PL_reg_oldcurpm;
5179     }   
5180 }
5181
5182 STATIC void
5183 S_to_utf8_substr(pTHX_ register regexp *prog)
5184 {
5185     if (prog->float_substr && !prog->float_utf8) {
5186         SV* const sv = newSVsv(prog->float_substr);
5187         prog->float_utf8 = sv;
5188         sv_utf8_upgrade(sv);
5189         if (SvTAIL(prog->float_substr))
5190             SvTAIL_on(sv);
5191         if (prog->float_substr == prog->check_substr)
5192             prog->check_utf8 = sv;
5193     }
5194     if (prog->anchored_substr && !prog->anchored_utf8) {
5195         SV* const sv = newSVsv(prog->anchored_substr);
5196         prog->anchored_utf8 = sv;
5197         sv_utf8_upgrade(sv);
5198         if (SvTAIL(prog->anchored_substr))
5199             SvTAIL_on(sv);
5200         if (prog->anchored_substr == prog->check_substr)
5201             prog->check_utf8 = sv;
5202     }
5203 }
5204
5205 STATIC void
5206 S_to_byte_substr(pTHX_ register regexp *prog)
5207 {
5208     dVAR;
5209     if (prog->float_utf8 && !prog->float_substr) {
5210         SV* sv = newSVsv(prog->float_utf8);
5211         prog->float_substr = sv;
5212         if (sv_utf8_downgrade(sv, TRUE)) {
5213             if (SvTAIL(prog->float_utf8))
5214                 SvTAIL_on(sv);
5215         } else {
5216             SvREFCNT_dec(sv);
5217             prog->float_substr = sv = &PL_sv_undef;
5218         }
5219         if (prog->float_utf8 == prog->check_utf8)
5220             prog->check_substr = sv;
5221     }
5222     if (prog->anchored_utf8 && !prog->anchored_substr) {
5223         SV* sv = newSVsv(prog->anchored_utf8);
5224         prog->anchored_substr = sv;
5225         if (sv_utf8_downgrade(sv, TRUE)) {
5226             if (SvTAIL(prog->anchored_utf8))
5227                 SvTAIL_on(sv);
5228         } else {
5229             SvREFCNT_dec(sv);
5230             prog->anchored_substr = sv = &PL_sv_undef;
5231         }
5232         if (prog->anchored_utf8 == prog->check_utf8)
5233             prog->check_substr = sv;
5234     }
5235 }
5236
5237 /*
5238  * Local variables:
5239  * c-indentation-style: bsd
5240  * c-basic-offset: 4
5241  * indent-tabs-mode: t
5242  * End:
5243  *
5244  * ex: set ts=8 sts=4 sw=4 noet:
5245  */