6a77d5566fd5810033a32e782b9af2c53870748a
[p5sagit/p5-mst-13.2.git] / regcomp.c
1 /*    regcomp.c
2  */
3
4 /*
5  * "A fair jaw-cracker dwarf-language must be."  --Samwise Gamgee
6  */
7
8 /* This file contains functions for compiling a regular expression.  See
9  * also regexec.c which funnily enough, contains functions for executing
10  * a regular expression.
11  *
12  * This file is also copied at build time to ext/re/re_comp.c, where
13  * it's built with -DPERL_EXT_RE_BUILD -DPERL_EXT_RE_DEBUG -DPERL_EXT.
14  * This causes the main functions to be compiled under new names and with
15  * debugging support added, which makes "use re 'debug'" work.
16  */
17
18 /* NOTE: this is derived from Henry Spencer's regexp code, and should not
19  * confused with the original package (see point 3 below).  Thanks, Henry!
20  */
21
22 /* Additional note: this code is very heavily munged from Henry's version
23  * in places.  In some spots I've traded clarity for efficiency, so don't
24  * blame Henry for some of the lack of readability.
25  */
26
27 /* The names of the functions have been changed from regcomp and
28  * regexec to  pregcomp and pregexec in order to avoid conflicts
29  * with the POSIX routines of the same names.
30 */
31
32 #ifdef PERL_EXT_RE_BUILD
33 #include "re_top.h"
34 #endif
35
36 /*
37  * pregcomp and pregexec -- regsub and regerror are not used in perl
38  *
39  *      Copyright (c) 1986 by University of Toronto.
40  *      Written by Henry Spencer.  Not derived from licensed software.
41  *
42  *      Permission is granted to anyone to use this software for any
43  *      purpose on any computer system, and to redistribute it freely,
44  *      subject to the following restrictions:
45  *
46  *      1. The author is not responsible for the consequences of use of
47  *              this software, no matter how awful, even if they arise
48  *              from defects in it.
49  *
50  *      2. The origin of this software must not be misrepresented, either
51  *              by explicit claim or by omission.
52  *
53  *      3. Altered versions must be plainly marked as such, and must not
54  *              be misrepresented as being the original software.
55  *
56  *
57  ****    Alterations to Henry's code are...
58  ****
59  ****    Copyright (C) 1991, 1992, 1993, 1994, 1995, 1996, 1997, 1998, 1999,
60  ****    2000, 2001, 2002, 2003, 2004, 2005, 2006, 2007 by Larry Wall and others
61  ****
62  ****    You may distribute under the terms of either the GNU General Public
63  ****    License or the Artistic License, as specified in the README file.
64
65  *
66  * Beware that some of this code is subtly aware of the way operator
67  * precedence is structured in regular expressions.  Serious changes in
68  * regular-expression syntax might require a total rethink.
69  */
70 #include "EXTERN.h"
71 #define PERL_IN_REGCOMP_C
72 #include "perl.h"
73
74 #ifndef PERL_IN_XSUB_RE
75 #  include "INTERN.h"
76 #endif
77
78 #define REG_COMP_C
79 #ifdef PERL_IN_XSUB_RE
80 #  include "re_comp.h"
81 #else
82 #  include "regcomp.h"
83 #endif
84
85 #ifdef op
86 #undef op
87 #endif /* op */
88
89 #ifdef MSDOS
90 #  if defined(BUGGY_MSC6)
91  /* MSC 6.00A breaks on op/regexp.t test 85 unless we turn this off */
92 #    pragma optimize("a",off)
93  /* But MSC 6.00A is happy with 'w', for aliases only across function calls*/
94 #    pragma optimize("w",on )
95 #  endif /* BUGGY_MSC6 */
96 #endif /* MSDOS */
97
98 #ifndef STATIC
99 #define STATIC  static
100 #endif
101
102 typedef struct RExC_state_t {
103     U32         flags;                  /* are we folding, multilining? */
104     char        *precomp;               /* uncompiled string. */
105     REGEXP      *rx_sv;                 /* The SV that is the regexp. */
106     regexp      *rx;                    /* perl core regexp structure */
107     regexp_internal     *rxi;           /* internal data for regexp object pprivate field */        
108     char        *start;                 /* Start of input for compile */
109     char        *end;                   /* End of input for compile */
110     char        *parse;                 /* Input-scan pointer. */
111     I32         whilem_seen;            /* number of WHILEM in this expr */
112     regnode     *emit_start;            /* Start of emitted-code area */
113     regnode     *emit_bound;            /* First regnode outside of the allocated space */
114     regnode     *emit;                  /* Code-emit pointer; &regdummy = don't = compiling */
115     I32         naughty;                /* How bad is this pattern? */
116     I32         sawback;                /* Did we see \1, ...? */
117     U32         seen;
118     I32         size;                   /* Code size. */
119     I32         npar;                   /* Capture buffer count, (OPEN). */
120     I32         cpar;                   /* Capture buffer count, (CLOSE). */
121     I32         nestroot;               /* root parens we are in - used by accept */
122     I32         extralen;
123     I32         seen_zerolen;
124     I32         seen_evals;
125     regnode     **open_parens;          /* pointers to open parens */
126     regnode     **close_parens;         /* pointers to close parens */
127     regnode     *opend;                 /* END node in program */
128     I32         utf8;           /* whether the pattern is utf8 or not */
129     I32         orig_utf8;      /* whether the pattern was originally in utf8 */
130                                 /* XXX use this for future optimisation of case
131                                  * where pattern must be upgraded to utf8. */
132     HV          *charnames;             /* cache of named sequences */
133     HV          *paren_names;           /* Paren names */
134     
135     regnode     **recurse;              /* Recurse regops */
136     I32         recurse_count;          /* Number of recurse regops */
137 #if ADD_TO_REGEXEC
138     char        *starttry;              /* -Dr: where regtry was called. */
139 #define RExC_starttry   (pRExC_state->starttry)
140 #endif
141 #ifdef DEBUGGING
142     const char  *lastparse;
143     I32         lastnum;
144     AV          *paren_name_list;       /* idx -> name */
145 #define RExC_lastparse  (pRExC_state->lastparse)
146 #define RExC_lastnum    (pRExC_state->lastnum)
147 #define RExC_paren_name_list    (pRExC_state->paren_name_list)
148 #endif
149 } RExC_state_t;
150
151 #define RExC_flags      (pRExC_state->flags)
152 #define RExC_precomp    (pRExC_state->precomp)
153 #define RExC_rx_sv      (pRExC_state->rx_sv)
154 #define RExC_rx         (pRExC_state->rx)
155 #define RExC_rxi        (pRExC_state->rxi)
156 #define RExC_start      (pRExC_state->start)
157 #define RExC_end        (pRExC_state->end)
158 #define RExC_parse      (pRExC_state->parse)
159 #define RExC_whilem_seen        (pRExC_state->whilem_seen)
160 #ifdef RE_TRACK_PATTERN_OFFSETS
161 #define RExC_offsets    (pRExC_state->rxi->u.offsets) /* I am not like the others */
162 #endif
163 #define RExC_emit       (pRExC_state->emit)
164 #define RExC_emit_start (pRExC_state->emit_start)
165 #define RExC_emit_bound (pRExC_state->emit_bound)
166 #define RExC_naughty    (pRExC_state->naughty)
167 #define RExC_sawback    (pRExC_state->sawback)
168 #define RExC_seen       (pRExC_state->seen)
169 #define RExC_size       (pRExC_state->size)
170 #define RExC_npar       (pRExC_state->npar)
171 #define RExC_nestroot   (pRExC_state->nestroot)
172 #define RExC_extralen   (pRExC_state->extralen)
173 #define RExC_seen_zerolen       (pRExC_state->seen_zerolen)
174 #define RExC_seen_evals (pRExC_state->seen_evals)
175 #define RExC_utf8       (pRExC_state->utf8)
176 #define RExC_orig_utf8  (pRExC_state->orig_utf8)
177 #define RExC_charnames  (pRExC_state->charnames)
178 #define RExC_open_parens        (pRExC_state->open_parens)
179 #define RExC_close_parens       (pRExC_state->close_parens)
180 #define RExC_opend      (pRExC_state->opend)
181 #define RExC_paren_names        (pRExC_state->paren_names)
182 #define RExC_recurse    (pRExC_state->recurse)
183 #define RExC_recurse_count      (pRExC_state->recurse_count)
184
185
186 #define ISMULT1(c)      ((c) == '*' || (c) == '+' || (c) == '?')
187 #define ISMULT2(s)      ((*s) == '*' || (*s) == '+' || (*s) == '?' || \
188         ((*s) == '{' && regcurly(s)))
189
190 #ifdef SPSTART
191 #undef SPSTART          /* dratted cpp namespace... */
192 #endif
193 /*
194  * Flags to be passed up and down.
195  */
196 #define WORST           0       /* Worst case. */
197 #define HASWIDTH        0x01    /* Known to match non-null strings. */
198 #define SIMPLE          0x02    /* Simple enough to be STAR/PLUS operand. */
199 #define SPSTART         0x04    /* Starts with * or +. */
200 #define TRYAGAIN        0x08    /* Weeded out a declaration. */
201 #define POSTPONED       0x10    /* (?1),(?&name), (??{...}) or similar */
202
203 #define REG_NODE_NUM(x) ((x) ? (int)((x)-RExC_emit_start) : -1)
204
205 /* whether trie related optimizations are enabled */
206 #if PERL_ENABLE_EXTENDED_TRIE_OPTIMISATION
207 #define TRIE_STUDY_OPT
208 #define FULL_TRIE_STUDY
209 #define TRIE_STCLASS
210 #endif
211
212
213
214 #define PBYTE(u8str,paren) ((U8*)(u8str))[(paren) >> 3]
215 #define PBITVAL(paren) (1 << ((paren) & 7))
216 #define PAREN_TEST(u8str,paren) ( PBYTE(u8str,paren) & PBITVAL(paren))
217 #define PAREN_SET(u8str,paren) PBYTE(u8str,paren) |= PBITVAL(paren)
218 #define PAREN_UNSET(u8str,paren) PBYTE(u8str,paren) &= (~PBITVAL(paren))
219
220
221 /* About scan_data_t.
222
223   During optimisation we recurse through the regexp program performing
224   various inplace (keyhole style) optimisations. In addition study_chunk
225   and scan_commit populate this data structure with information about
226   what strings MUST appear in the pattern. We look for the longest 
227   string that must appear for at a fixed location, and we look for the
228   longest string that may appear at a floating location. So for instance
229   in the pattern:
230   
231     /FOO[xX]A.*B[xX]BAR/
232     
233   Both 'FOO' and 'A' are fixed strings. Both 'B' and 'BAR' are floating
234   strings (because they follow a .* construct). study_chunk will identify
235   both FOO and BAR as being the longest fixed and floating strings respectively.
236   
237   The strings can be composites, for instance
238   
239      /(f)(o)(o)/
240      
241   will result in a composite fixed substring 'foo'.
242   
243   For each string some basic information is maintained:
244   
245   - offset or min_offset
246     This is the position the string must appear at, or not before.
247     It also implicitly (when combined with minlenp) tells us how many
248     character must match before the string we are searching.
249     Likewise when combined with minlenp and the length of the string
250     tells us how many characters must appear after the string we have 
251     found.
252   
253   - max_offset
254     Only used for floating strings. This is the rightmost point that
255     the string can appear at. Ifset to I32 max it indicates that the
256     string can occur infinitely far to the right.
257   
258   - minlenp
259     A pointer to the minimum length of the pattern that the string 
260     was found inside. This is important as in the case of positive 
261     lookahead or positive lookbehind we can have multiple patterns 
262     involved. Consider
263     
264     /(?=FOO).*F/
265     
266     The minimum length of the pattern overall is 3, the minimum length
267     of the lookahead part is 3, but the minimum length of the part that
268     will actually match is 1. So 'FOO's minimum length is 3, but the 
269     minimum length for the F is 1. This is important as the minimum length
270     is used to determine offsets in front of and behind the string being 
271     looked for.  Since strings can be composites this is the length of the
272     pattern at the time it was commited with a scan_commit. Note that
273     the length is calculated by study_chunk, so that the minimum lengths
274     are not known until the full pattern has been compiled, thus the 
275     pointer to the value.
276   
277   - lookbehind
278   
279     In the case of lookbehind the string being searched for can be
280     offset past the start point of the final matching string. 
281     If this value was just blithely removed from the min_offset it would
282     invalidate some of the calculations for how many chars must match
283     before or after (as they are derived from min_offset and minlen and
284     the length of the string being searched for). 
285     When the final pattern is compiled and the data is moved from the
286     scan_data_t structure into the regexp structure the information
287     about lookbehind is factored in, with the information that would 
288     have been lost precalculated in the end_shift field for the 
289     associated string.
290
291   The fields pos_min and pos_delta are used to store the minimum offset
292   and the delta to the maximum offset at the current point in the pattern.    
293
294 */
295
296 typedef struct scan_data_t {
297     /*I32 len_min;      unused */
298     /*I32 len_delta;    unused */
299     I32 pos_min;
300     I32 pos_delta;
301     SV *last_found;
302     I32 last_end;           /* min value, <0 unless valid. */
303     I32 last_start_min;
304     I32 last_start_max;
305     SV **longest;           /* Either &l_fixed, or &l_float. */
306     SV *longest_fixed;      /* longest fixed string found in pattern */
307     I32 offset_fixed;       /* offset where it starts */
308     I32 *minlen_fixed;      /* pointer to the minlen relevent to the string */
309     I32 lookbehind_fixed;   /* is the position of the string modfied by LB */
310     SV *longest_float;      /* longest floating string found in pattern */
311     I32 offset_float_min;   /* earliest point in string it can appear */
312     I32 offset_float_max;   /* latest point in string it can appear */
313     I32 *minlen_float;      /* pointer to the minlen relevent to the string */
314     I32 lookbehind_float;   /* is the position of the string modified by LB */
315     I32 flags;
316     I32 whilem_c;
317     I32 *last_closep;
318     struct regnode_charclass_class *start_class;
319 } scan_data_t;
320
321 /*
322  * Forward declarations for pregcomp()'s friends.
323  */
324
325 static const scan_data_t zero_scan_data =
326   { 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0 ,0};
327
328 #define SF_BEFORE_EOL           (SF_BEFORE_SEOL|SF_BEFORE_MEOL)
329 #define SF_BEFORE_SEOL          0x0001
330 #define SF_BEFORE_MEOL          0x0002
331 #define SF_FIX_BEFORE_EOL       (SF_FIX_BEFORE_SEOL|SF_FIX_BEFORE_MEOL)
332 #define SF_FL_BEFORE_EOL        (SF_FL_BEFORE_SEOL|SF_FL_BEFORE_MEOL)
333
334 #ifdef NO_UNARY_PLUS
335 #  define SF_FIX_SHIFT_EOL      (0+2)
336 #  define SF_FL_SHIFT_EOL               (0+4)
337 #else
338 #  define SF_FIX_SHIFT_EOL      (+2)
339 #  define SF_FL_SHIFT_EOL               (+4)
340 #endif
341
342 #define SF_FIX_BEFORE_SEOL      (SF_BEFORE_SEOL << SF_FIX_SHIFT_EOL)
343 #define SF_FIX_BEFORE_MEOL      (SF_BEFORE_MEOL << SF_FIX_SHIFT_EOL)
344
345 #define SF_FL_BEFORE_SEOL       (SF_BEFORE_SEOL << SF_FL_SHIFT_EOL)
346 #define SF_FL_BEFORE_MEOL       (SF_BEFORE_MEOL << SF_FL_SHIFT_EOL) /* 0x20 */
347 #define SF_IS_INF               0x0040
348 #define SF_HAS_PAR              0x0080
349 #define SF_IN_PAR               0x0100
350 #define SF_HAS_EVAL             0x0200
351 #define SCF_DO_SUBSTR           0x0400
352 #define SCF_DO_STCLASS_AND      0x0800
353 #define SCF_DO_STCLASS_OR       0x1000
354 #define SCF_DO_STCLASS          (SCF_DO_STCLASS_AND|SCF_DO_STCLASS_OR)
355 #define SCF_WHILEM_VISITED_POS  0x2000
356
357 #define SCF_TRIE_RESTUDY        0x4000 /* Do restudy? */
358 #define SCF_SEEN_ACCEPT         0x8000 
359
360 #define UTF (RExC_utf8 != 0)
361 #define LOC ((RExC_flags & RXf_PMf_LOCALE) != 0)
362 #define FOLD ((RExC_flags & RXf_PMf_FOLD) != 0)
363
364 #define OOB_UNICODE             12345678
365 #define OOB_NAMEDCLASS          -1
366
367 #define CHR_SVLEN(sv) (UTF ? sv_len_utf8(sv) : SvCUR(sv))
368 #define CHR_DIST(a,b) (UTF ? utf8_distance(a,b) : a - b)
369
370
371 /* length of regex to show in messages that don't mark a position within */
372 #define RegexLengthToShowInErrorMessages 127
373
374 /*
375  * If MARKER[12] are adjusted, be sure to adjust the constants at the top
376  * of t/op/regmesg.t, the tests in t/op/re_tests, and those in
377  * op/pragma/warn/regcomp.
378  */
379 #define MARKER1 "<-- HERE"    /* marker as it appears in the description */
380 #define MARKER2 " <-- HERE "  /* marker as it appears within the regex */
381
382 #define REPORT_LOCATION " in regex; marked by " MARKER1 " in m/%.*s" MARKER2 "%s/"
383
384 /*
385  * Calls SAVEDESTRUCTOR_X if needed, then calls Perl_croak with the given
386  * arg. Show regex, up to a maximum length. If it's too long, chop and add
387  * "...".
388  */
389 #define _FAIL(code) STMT_START {                                        \
390     const char *ellipses = "";                                          \
391     IV len = RExC_end - RExC_precomp;                                   \
392                                                                         \
393     if (!SIZE_ONLY)                                                     \
394         SAVEDESTRUCTOR_X(clear_re,(void*)RExC_rx_sv);                   \
395     if (len > RegexLengthToShowInErrorMessages) {                       \
396         /* chop 10 shorter than the max, to ensure meaning of "..." */  \
397         len = RegexLengthToShowInErrorMessages - 10;                    \
398         ellipses = "...";                                               \
399     }                                                                   \
400     code;                                                               \
401 } STMT_END
402
403 #define FAIL(msg) _FAIL(                            \
404     Perl_croak(aTHX_ "%s in regex m/%.*s%s/",       \
405             msg, (int)len, RExC_precomp, ellipses))
406
407 #define FAIL2(msg,arg) _FAIL(                       \
408     Perl_croak(aTHX_ msg " in regex m/%.*s%s/",     \
409             arg, (int)len, RExC_precomp, ellipses))
410
411 /*
412  * Simple_vFAIL -- like FAIL, but marks the current location in the scan
413  */
414 #define Simple_vFAIL(m) STMT_START {                                    \
415     const IV offset = RExC_parse - RExC_precomp;                        \
416     Perl_croak(aTHX_ "%s" REPORT_LOCATION,                              \
417             m, (int)offset, RExC_precomp, RExC_precomp + offset);       \
418 } STMT_END
419
420 /*
421  * Calls SAVEDESTRUCTOR_X if needed, then Simple_vFAIL()
422  */
423 #define vFAIL(m) STMT_START {                           \
424     if (!SIZE_ONLY)                                     \
425         SAVEDESTRUCTOR_X(clear_re,(void*)RExC_rx_sv);   \
426     Simple_vFAIL(m);                                    \
427 } STMT_END
428
429 /*
430  * Like Simple_vFAIL(), but accepts two arguments.
431  */
432 #define Simple_vFAIL2(m,a1) STMT_START {                        \
433     const IV offset = RExC_parse - RExC_precomp;                        \
434     S_re_croak2(aTHX_ m, REPORT_LOCATION, a1,                   \
435             (int)offset, RExC_precomp, RExC_precomp + offset);  \
436 } STMT_END
437
438 /*
439  * Calls SAVEDESTRUCTOR_X if needed, then Simple_vFAIL2().
440  */
441 #define vFAIL2(m,a1) STMT_START {                       \
442     if (!SIZE_ONLY)                                     \
443         SAVEDESTRUCTOR_X(clear_re,(void*)RExC_rx_sv);   \
444     Simple_vFAIL2(m, a1);                               \
445 } STMT_END
446
447
448 /*
449  * Like Simple_vFAIL(), but accepts three arguments.
450  */
451 #define Simple_vFAIL3(m, a1, a2) STMT_START {                   \
452     const IV offset = RExC_parse - RExC_precomp;                \
453     S_re_croak2(aTHX_ m, REPORT_LOCATION, a1, a2,               \
454             (int)offset, RExC_precomp, RExC_precomp + offset);  \
455 } STMT_END
456
457 /*
458  * Calls SAVEDESTRUCTOR_X if needed, then Simple_vFAIL3().
459  */
460 #define vFAIL3(m,a1,a2) STMT_START {                    \
461     if (!SIZE_ONLY)                                     \
462         SAVEDESTRUCTOR_X(clear_re,(void*)RExC_rx_sv);   \
463     Simple_vFAIL3(m, a1, a2);                           \
464 } STMT_END
465
466 /*
467  * Like Simple_vFAIL(), but accepts four arguments.
468  */
469 #define Simple_vFAIL4(m, a1, a2, a3) STMT_START {               \
470     const IV offset = RExC_parse - RExC_precomp;                \
471     S_re_croak2(aTHX_ m, REPORT_LOCATION, a1, a2, a3,           \
472             (int)offset, RExC_precomp, RExC_precomp + offset);  \
473 } STMT_END
474
475 #define vWARN(loc,m) STMT_START {                                       \
476     const IV offset = loc - RExC_precomp;                               \
477     Perl_warner(aTHX_ packWARN(WARN_REGEXP), "%s" REPORT_LOCATION,      \
478             m, (int)offset, RExC_precomp, RExC_precomp + offset);       \
479 } STMT_END
480
481 #define vWARNdep(loc,m) STMT_START {                                    \
482     const IV offset = loc - RExC_precomp;                               \
483     Perl_warner(aTHX_ packWARN2(WARN_DEPRECATED, WARN_REGEXP),          \
484             "%s" REPORT_LOCATION,                                       \
485             m, (int)offset, RExC_precomp, RExC_precomp + offset);       \
486 } STMT_END
487
488
489 #define vWARN2(loc, m, a1) STMT_START {                                 \
490     const IV offset = loc - RExC_precomp;                               \
491     Perl_warner(aTHX_ packWARN(WARN_REGEXP), m REPORT_LOCATION,         \
492             a1, (int)offset, RExC_precomp, RExC_precomp + offset);      \
493 } STMT_END
494
495 #define vWARN3(loc, m, a1, a2) STMT_START {                             \
496     const IV offset = loc - RExC_precomp;                               \
497     Perl_warner(aTHX_ packWARN(WARN_REGEXP), m REPORT_LOCATION,         \
498             a1, a2, (int)offset, RExC_precomp, RExC_precomp + offset);  \
499 } STMT_END
500
501 #define vWARN4(loc, m, a1, a2, a3) STMT_START {                         \
502     const IV offset = loc - RExC_precomp;                               \
503     Perl_warner(aTHX_ packWARN(WARN_REGEXP), m REPORT_LOCATION,         \
504             a1, a2, a3, (int)offset, RExC_precomp, RExC_precomp + offset); \
505 } STMT_END
506
507 #define vWARN5(loc, m, a1, a2, a3, a4) STMT_START {                     \
508     const IV offset = loc - RExC_precomp;                               \
509     Perl_warner(aTHX_ packWARN(WARN_REGEXP), m REPORT_LOCATION,         \
510             a1, a2, a3, a4, (int)offset, RExC_precomp, RExC_precomp + offset); \
511 } STMT_END
512
513
514 /* Allow for side effects in s */
515 #define REGC(c,s) STMT_START {                  \
516     if (!SIZE_ONLY) *(s) = (c); else (void)(s); \
517 } STMT_END
518
519 /* Macros for recording node offsets.   20001227 mjd@plover.com 
520  * Nodes are numbered 1, 2, 3, 4.  Node #n's position is recorded in
521  * element 2*n-1 of the array.  Element #2n holds the byte length node #n.
522  * Element 0 holds the number n.
523  * Position is 1 indexed.
524  */
525 #ifndef RE_TRACK_PATTERN_OFFSETS
526 #define Set_Node_Offset_To_R(node,byte)
527 #define Set_Node_Offset(node,byte)
528 #define Set_Cur_Node_Offset
529 #define Set_Node_Length_To_R(node,len)
530 #define Set_Node_Length(node,len)
531 #define Set_Node_Cur_Length(node)
532 #define Node_Offset(n) 
533 #define Node_Length(n) 
534 #define Set_Node_Offset_Length(node,offset,len)
535 #define ProgLen(ri) ri->u.proglen
536 #define SetProgLen(ri,x) ri->u.proglen = x
537 #else
538 #define ProgLen(ri) ri->u.offsets[0]
539 #define SetProgLen(ri,x) ri->u.offsets[0] = x
540 #define Set_Node_Offset_To_R(node,byte) STMT_START {                    \
541     if (! SIZE_ONLY) {                                                  \
542         MJD_OFFSET_DEBUG(("** (%d) offset of node %d is %d.\n",         \
543                     __LINE__, (int)(node), (int)(byte)));               \
544         if((node) < 0) {                                                \
545             Perl_croak(aTHX_ "value of node is %d in Offset macro", (int)(node)); \
546         } else {                                                        \
547             RExC_offsets[2*(node)-1] = (byte);                          \
548         }                                                               \
549     }                                                                   \
550 } STMT_END
551
552 #define Set_Node_Offset(node,byte) \
553     Set_Node_Offset_To_R((node)-RExC_emit_start, (byte)-RExC_start)
554 #define Set_Cur_Node_Offset Set_Node_Offset(RExC_emit, RExC_parse)
555
556 #define Set_Node_Length_To_R(node,len) STMT_START {                     \
557     if (! SIZE_ONLY) {                                                  \
558         MJD_OFFSET_DEBUG(("** (%d) size of node %d is %d.\n",           \
559                 __LINE__, (int)(node), (int)(len)));                    \
560         if((node) < 0) {                                                \
561             Perl_croak(aTHX_ "value of node is %d in Length macro", (int)(node)); \
562         } else {                                                        \
563             RExC_offsets[2*(node)] = (len);                             \
564         }                                                               \
565     }                                                                   \
566 } STMT_END
567
568 #define Set_Node_Length(node,len) \
569     Set_Node_Length_To_R((node)-RExC_emit_start, len)
570 #define Set_Cur_Node_Length(len) Set_Node_Length(RExC_emit, len)
571 #define Set_Node_Cur_Length(node) \
572     Set_Node_Length(node, RExC_parse - parse_start)
573
574 /* Get offsets and lengths */
575 #define Node_Offset(n) (RExC_offsets[2*((n)-RExC_emit_start)-1])
576 #define Node_Length(n) (RExC_offsets[2*((n)-RExC_emit_start)])
577
578 #define Set_Node_Offset_Length(node,offset,len) STMT_START {    \
579     Set_Node_Offset_To_R((node)-RExC_emit_start, (offset));     \
580     Set_Node_Length_To_R((node)-RExC_emit_start, (len));        \
581 } STMT_END
582 #endif
583
584 #if PERL_ENABLE_EXPERIMENTAL_REGEX_OPTIMISATIONS
585 #define EXPERIMENTAL_INPLACESCAN
586 #endif /*RE_TRACK_PATTERN_OFFSETS*/
587
588 #define DEBUG_STUDYDATA(str,data,depth)                              \
589 DEBUG_OPTIMISE_MORE_r(if(data){                                      \
590     PerlIO_printf(Perl_debug_log,                                    \
591         "%*s" str "Pos:%"IVdf"/%"IVdf                                \
592         " Flags: 0x%"UVXf" Whilem_c: %"IVdf" Lcp: %"IVdf" %s",       \
593         (int)(depth)*2, "",                                          \
594         (IV)((data)->pos_min),                                       \
595         (IV)((data)->pos_delta),                                     \
596         (UV)((data)->flags),                                         \
597         (IV)((data)->whilem_c),                                      \
598         (IV)((data)->last_closep ? *((data)->last_closep) : -1),     \
599         is_inf ? "INF " : ""                                         \
600     );                                                               \
601     if ((data)->last_found)                                          \
602         PerlIO_printf(Perl_debug_log,                                \
603             "Last:'%s' %"IVdf":%"IVdf"/%"IVdf" %sFixed:'%s' @ %"IVdf \
604             " %sFloat: '%s' @ %"IVdf"/%"IVdf"",                      \
605             SvPVX_const((data)->last_found),                         \
606             (IV)((data)->last_end),                                  \
607             (IV)((data)->last_start_min),                            \
608             (IV)((data)->last_start_max),                            \
609             ((data)->longest &&                                      \
610              (data)->longest==&((data)->longest_fixed)) ? "*" : "",  \
611             SvPVX_const((data)->longest_fixed),                      \
612             (IV)((data)->offset_fixed),                              \
613             ((data)->longest &&                                      \
614              (data)->longest==&((data)->longest_float)) ? "*" : "",  \
615             SvPVX_const((data)->longest_float),                      \
616             (IV)((data)->offset_float_min),                          \
617             (IV)((data)->offset_float_max)                           \
618         );                                                           \
619     PerlIO_printf(Perl_debug_log,"\n");                              \
620 });
621
622 static void clear_re(pTHX_ void *r);
623
624 /* Mark that we cannot extend a found fixed substring at this point.
625    Update the longest found anchored substring and the longest found
626    floating substrings if needed. */
627
628 STATIC void
629 S_scan_commit(pTHX_ const RExC_state_t *pRExC_state, scan_data_t *data, I32 *minlenp, int is_inf)
630 {
631     const STRLEN l = CHR_SVLEN(data->last_found);
632     const STRLEN old_l = CHR_SVLEN(*data->longest);
633     GET_RE_DEBUG_FLAGS_DECL;
634
635     PERL_ARGS_ASSERT_SCAN_COMMIT;
636
637     if ((l >= old_l) && ((l > old_l) || (data->flags & SF_BEFORE_EOL))) {
638         SvSetMagicSV(*data->longest, data->last_found);
639         if (*data->longest == data->longest_fixed) {
640             data->offset_fixed = l ? data->last_start_min : data->pos_min;
641             if (data->flags & SF_BEFORE_EOL)
642                 data->flags
643                     |= ((data->flags & SF_BEFORE_EOL) << SF_FIX_SHIFT_EOL);
644             else
645                 data->flags &= ~SF_FIX_BEFORE_EOL;
646             data->minlen_fixed=minlenp; 
647             data->lookbehind_fixed=0;
648         }
649         else { /* *data->longest == data->longest_float */
650             data->offset_float_min = l ? data->last_start_min : data->pos_min;
651             data->offset_float_max = (l
652                                       ? data->last_start_max
653                                       : data->pos_min + data->pos_delta);
654             if (is_inf || (U32)data->offset_float_max > (U32)I32_MAX)
655                 data->offset_float_max = I32_MAX;
656             if (data->flags & SF_BEFORE_EOL)
657                 data->flags
658                     |= ((data->flags & SF_BEFORE_EOL) << SF_FL_SHIFT_EOL);
659             else
660                 data->flags &= ~SF_FL_BEFORE_EOL;
661             data->minlen_float=minlenp;
662             data->lookbehind_float=0;
663         }
664     }
665     SvCUR_set(data->last_found, 0);
666     {
667         SV * const sv = data->last_found;
668         if (SvUTF8(sv) && SvMAGICAL(sv)) {
669             MAGIC * const mg = mg_find(sv, PERL_MAGIC_utf8);
670             if (mg)
671                 mg->mg_len = 0;
672         }
673     }
674     data->last_end = -1;
675     data->flags &= ~SF_BEFORE_EOL;
676     DEBUG_STUDYDATA("commit: ",data,0);
677 }
678
679 /* Can match anything (initialization) */
680 STATIC void
681 S_cl_anything(const RExC_state_t *pRExC_state, struct regnode_charclass_class *cl)
682 {
683     PERL_ARGS_ASSERT_CL_ANYTHING;
684
685     ANYOF_CLASS_ZERO(cl);
686     ANYOF_BITMAP_SETALL(cl);
687     cl->flags = ANYOF_EOS|ANYOF_UNICODE_ALL;
688     if (LOC)
689         cl->flags |= ANYOF_LOCALE;
690 }
691
692 /* Can match anything (initialization) */
693 STATIC int
694 S_cl_is_anything(const struct regnode_charclass_class *cl)
695 {
696     int value;
697
698     PERL_ARGS_ASSERT_CL_IS_ANYTHING;
699
700     for (value = 0; value <= ANYOF_MAX; value += 2)
701         if (ANYOF_CLASS_TEST(cl, value) && ANYOF_CLASS_TEST(cl, value + 1))
702             return 1;
703     if (!(cl->flags & ANYOF_UNICODE_ALL))
704         return 0;
705     if (!ANYOF_BITMAP_TESTALLSET((const void*)cl))
706         return 0;
707     return 1;
708 }
709
710 /* Can match anything (initialization) */
711 STATIC void
712 S_cl_init(const RExC_state_t *pRExC_state, struct regnode_charclass_class *cl)
713 {
714     PERL_ARGS_ASSERT_CL_INIT;
715
716     Zero(cl, 1, struct regnode_charclass_class);
717     cl->type = ANYOF;
718     cl_anything(pRExC_state, cl);
719 }
720
721 STATIC void
722 S_cl_init_zero(const RExC_state_t *pRExC_state, struct regnode_charclass_class *cl)
723 {
724     PERL_ARGS_ASSERT_CL_INIT_ZERO;
725
726     Zero(cl, 1, struct regnode_charclass_class);
727     cl->type = ANYOF;
728     cl_anything(pRExC_state, cl);
729     if (LOC)
730         cl->flags |= ANYOF_LOCALE;
731 }
732
733 /* 'And' a given class with another one.  Can create false positives */
734 /* We assume that cl is not inverted */
735 STATIC void
736 S_cl_and(struct regnode_charclass_class *cl,
737         const struct regnode_charclass_class *and_with)
738 {
739     PERL_ARGS_ASSERT_CL_AND;
740
741     assert(and_with->type == ANYOF);
742     if (!(and_with->flags & ANYOF_CLASS)
743         && !(cl->flags & ANYOF_CLASS)
744         && (and_with->flags & ANYOF_LOCALE) == (cl->flags & ANYOF_LOCALE)
745         && !(and_with->flags & ANYOF_FOLD)
746         && !(cl->flags & ANYOF_FOLD)) {
747         int i;
748
749         if (and_with->flags & ANYOF_INVERT)
750             for (i = 0; i < ANYOF_BITMAP_SIZE; i++)
751                 cl->bitmap[i] &= ~and_with->bitmap[i];
752         else
753             for (i = 0; i < ANYOF_BITMAP_SIZE; i++)
754                 cl->bitmap[i] &= and_with->bitmap[i];
755     } /* XXXX: logic is complicated otherwise, leave it along for a moment. */
756     if (!(and_with->flags & ANYOF_EOS))
757         cl->flags &= ~ANYOF_EOS;
758
759     if (cl->flags & ANYOF_UNICODE_ALL && and_with->flags & ANYOF_UNICODE &&
760         !(and_with->flags & ANYOF_INVERT)) {
761         cl->flags &= ~ANYOF_UNICODE_ALL;
762         cl->flags |= ANYOF_UNICODE;
763         ARG_SET(cl, ARG(and_with));
764     }
765     if (!(and_with->flags & ANYOF_UNICODE_ALL) &&
766         !(and_with->flags & ANYOF_INVERT))
767         cl->flags &= ~ANYOF_UNICODE_ALL;
768     if (!(and_with->flags & (ANYOF_UNICODE|ANYOF_UNICODE_ALL)) &&
769         !(and_with->flags & ANYOF_INVERT))
770         cl->flags &= ~ANYOF_UNICODE;
771 }
772
773 /* 'OR' a given class with another one.  Can create false positives */
774 /* We assume that cl is not inverted */
775 STATIC void
776 S_cl_or(const RExC_state_t *pRExC_state, struct regnode_charclass_class *cl, const struct regnode_charclass_class *or_with)
777 {
778     PERL_ARGS_ASSERT_CL_OR;
779
780     if (or_with->flags & ANYOF_INVERT) {
781         /* We do not use
782          * (B1 | CL1) | (!B2 & !CL2) = (B1 | !B2 & !CL2) | (CL1 | (!B2 & !CL2))
783          *   <= (B1 | !B2) | (CL1 | !CL2)
784          * which is wasteful if CL2 is small, but we ignore CL2:
785          *   (B1 | CL1) | (!B2 & !CL2) <= (B1 | CL1) | !B2 = (B1 | !B2) | CL1
786          * XXXX Can we handle case-fold?  Unclear:
787          *   (OK1(i) | OK1(i')) | !(OK1(i) | OK1(i')) =
788          *   (OK1(i) | OK1(i')) | (!OK1(i) & !OK1(i'))
789          */
790         if ( (or_with->flags & ANYOF_LOCALE) == (cl->flags & ANYOF_LOCALE)
791              && !(or_with->flags & ANYOF_FOLD)
792              && !(cl->flags & ANYOF_FOLD) ) {
793             int i;
794
795             for (i = 0; i < ANYOF_BITMAP_SIZE; i++)
796                 cl->bitmap[i] |= ~or_with->bitmap[i];
797         } /* XXXX: logic is complicated otherwise */
798         else {
799             cl_anything(pRExC_state, cl);
800         }
801     } else {
802         /* (B1 | CL1) | (B2 | CL2) = (B1 | B2) | (CL1 | CL2)) */
803         if ( (or_with->flags & ANYOF_LOCALE) == (cl->flags & ANYOF_LOCALE)
804              && (!(or_with->flags & ANYOF_FOLD)
805                  || (cl->flags & ANYOF_FOLD)) ) {
806             int i;
807
808             /* OR char bitmap and class bitmap separately */
809             for (i = 0; i < ANYOF_BITMAP_SIZE; i++)
810                 cl->bitmap[i] |= or_with->bitmap[i];
811             if (or_with->flags & ANYOF_CLASS) {
812                 for (i = 0; i < ANYOF_CLASSBITMAP_SIZE; i++)
813                     cl->classflags[i] |= or_with->classflags[i];
814                 cl->flags |= ANYOF_CLASS;
815             }
816         }
817         else { /* XXXX: logic is complicated, leave it along for a moment. */
818             cl_anything(pRExC_state, cl);
819         }
820     }
821     if (or_with->flags & ANYOF_EOS)
822         cl->flags |= ANYOF_EOS;
823
824     if (cl->flags & ANYOF_UNICODE && or_with->flags & ANYOF_UNICODE &&
825         ARG(cl) != ARG(or_with)) {
826         cl->flags |= ANYOF_UNICODE_ALL;
827         cl->flags &= ~ANYOF_UNICODE;
828     }
829     if (or_with->flags & ANYOF_UNICODE_ALL) {
830         cl->flags |= ANYOF_UNICODE_ALL;
831         cl->flags &= ~ANYOF_UNICODE;
832     }
833 }
834
835 #define TRIE_LIST_ITEM(state,idx) (trie->states[state].trans.list)[ idx ]
836 #define TRIE_LIST_CUR(state)  ( TRIE_LIST_ITEM( state, 0 ).forid )
837 #define TRIE_LIST_LEN(state) ( TRIE_LIST_ITEM( state, 0 ).newstate )
838 #define TRIE_LIST_USED(idx)  ( trie->states[state].trans.list ? (TRIE_LIST_CUR( idx ) - 1) : 0 )
839
840
841 #ifdef DEBUGGING
842 /*
843    dump_trie(trie,widecharmap,revcharmap)
844    dump_trie_interim_list(trie,widecharmap,revcharmap,next_alloc)
845    dump_trie_interim_table(trie,widecharmap,revcharmap,next_alloc)
846
847    These routines dump out a trie in a somewhat readable format.
848    The _interim_ variants are used for debugging the interim
849    tables that are used to generate the final compressed
850    representation which is what dump_trie expects.
851
852    Part of the reason for their existance is to provide a form
853    of documentation as to how the different representations function.
854
855 */
856
857 /*
858   Dumps the final compressed table form of the trie to Perl_debug_log.
859   Used for debugging make_trie().
860 */
861  
862 STATIC void
863 S_dump_trie(pTHX_ const struct _reg_trie_data *trie, HV *widecharmap,
864             AV *revcharmap, U32 depth)
865 {
866     U32 state;
867     SV *sv=sv_newmortal();
868     int colwidth= widecharmap ? 6 : 4;
869     GET_RE_DEBUG_FLAGS_DECL;
870
871     PERL_ARGS_ASSERT_DUMP_TRIE;
872
873     PerlIO_printf( Perl_debug_log, "%*sChar : %-6s%-6s%-4s ",
874         (int)depth * 2 + 2,"",
875         "Match","Base","Ofs" );
876
877     for( state = 0 ; state < trie->uniquecharcount ; state++ ) {
878         SV ** const tmp = av_fetch( revcharmap, state, 0);
879         if ( tmp ) {
880             PerlIO_printf( Perl_debug_log, "%*s", 
881                 colwidth,
882                 pv_pretty(sv, SvPV_nolen_const(*tmp), SvCUR(*tmp), colwidth, 
883                             PL_colors[0], PL_colors[1],
884                             (SvUTF8(*tmp) ? PERL_PV_ESCAPE_UNI : 0) |
885                             PERL_PV_ESCAPE_FIRSTCHAR 
886                 ) 
887             );
888         }
889     }
890     PerlIO_printf( Perl_debug_log, "\n%*sState|-----------------------",
891         (int)depth * 2 + 2,"");
892
893     for( state = 0 ; state < trie->uniquecharcount ; state++ )
894         PerlIO_printf( Perl_debug_log, "%.*s", colwidth, "--------");
895     PerlIO_printf( Perl_debug_log, "\n");
896
897     for( state = 1 ; state < trie->statecount ; state++ ) {
898         const U32 base = trie->states[ state ].trans.base;
899
900         PerlIO_printf( Perl_debug_log, "%*s#%4"UVXf"|", (int)depth * 2 + 2,"", (UV)state);
901
902         if ( trie->states[ state ].wordnum ) {
903             PerlIO_printf( Perl_debug_log, " W%4X", trie->states[ state ].wordnum );
904         } else {
905             PerlIO_printf( Perl_debug_log, "%6s", "" );
906         }
907
908         PerlIO_printf( Perl_debug_log, " @%4"UVXf" ", (UV)base );
909
910         if ( base ) {
911             U32 ofs = 0;
912
913             while( ( base + ofs  < trie->uniquecharcount ) ||
914                    ( base + ofs - trie->uniquecharcount < trie->lasttrans
915                      && trie->trans[ base + ofs - trie->uniquecharcount ].check != state))
916                     ofs++;
917
918             PerlIO_printf( Perl_debug_log, "+%2"UVXf"[ ", (UV)ofs);
919
920             for ( ofs = 0 ; ofs < trie->uniquecharcount ; ofs++ ) {
921                 if ( ( base + ofs >= trie->uniquecharcount ) &&
922                      ( base + ofs - trie->uniquecharcount < trie->lasttrans ) &&
923                      trie->trans[ base + ofs - trie->uniquecharcount ].check == state )
924                 {
925                    PerlIO_printf( Perl_debug_log, "%*"UVXf,
926                     colwidth,
927                     (UV)trie->trans[ base + ofs - trie->uniquecharcount ].next );
928                 } else {
929                     PerlIO_printf( Perl_debug_log, "%*s",colwidth,"   ." );
930                 }
931             }
932
933             PerlIO_printf( Perl_debug_log, "]");
934
935         }
936         PerlIO_printf( Perl_debug_log, "\n" );
937     }
938 }    
939 /*
940   Dumps a fully constructed but uncompressed trie in list form.
941   List tries normally only are used for construction when the number of 
942   possible chars (trie->uniquecharcount) is very high.
943   Used for debugging make_trie().
944 */
945 STATIC void
946 S_dump_trie_interim_list(pTHX_ const struct _reg_trie_data *trie,
947                          HV *widecharmap, AV *revcharmap, U32 next_alloc,
948                          U32 depth)
949 {
950     U32 state;
951     SV *sv=sv_newmortal();
952     int colwidth= widecharmap ? 6 : 4;
953     GET_RE_DEBUG_FLAGS_DECL;
954
955     PERL_ARGS_ASSERT_DUMP_TRIE_INTERIM_LIST;
956
957     /* print out the table precompression.  */
958     PerlIO_printf( Perl_debug_log, "%*sState :Word | Transition Data\n%*s%s",
959         (int)depth * 2 + 2,"", (int)depth * 2 + 2,"",
960         "------:-----+-----------------\n" );
961     
962     for( state=1 ; state < next_alloc ; state ++ ) {
963         U16 charid;
964     
965         PerlIO_printf( Perl_debug_log, "%*s %4"UVXf" :",
966             (int)depth * 2 + 2,"", (UV)state  );
967         if ( ! trie->states[ state ].wordnum ) {
968             PerlIO_printf( Perl_debug_log, "%5s| ","");
969         } else {
970             PerlIO_printf( Perl_debug_log, "W%4x| ",
971                 trie->states[ state ].wordnum
972             );
973         }
974         for( charid = 1 ; charid <= TRIE_LIST_USED( state ) ; charid++ ) {
975             SV ** const tmp = av_fetch( revcharmap, TRIE_LIST_ITEM(state,charid).forid, 0);
976             if ( tmp ) {
977                 PerlIO_printf( Perl_debug_log, "%*s:%3X=%4"UVXf" | ",
978                     colwidth,
979                     pv_pretty(sv, SvPV_nolen_const(*tmp), SvCUR(*tmp), colwidth, 
980                             PL_colors[0], PL_colors[1],
981                             (SvUTF8(*tmp) ? PERL_PV_ESCAPE_UNI : 0) |
982                             PERL_PV_ESCAPE_FIRSTCHAR 
983                     ) ,
984                     TRIE_LIST_ITEM(state,charid).forid,
985                     (UV)TRIE_LIST_ITEM(state,charid).newstate
986                 );
987                 if (!(charid % 10)) 
988                     PerlIO_printf(Perl_debug_log, "\n%*s| ",
989                         (int)((depth * 2) + 14), "");
990             }
991         }
992         PerlIO_printf( Perl_debug_log, "\n");
993     }
994 }    
995
996 /*
997   Dumps a fully constructed but uncompressed trie in table form.
998   This is the normal DFA style state transition table, with a few 
999   twists to facilitate compression later. 
1000   Used for debugging make_trie().
1001 */
1002 STATIC void
1003 S_dump_trie_interim_table(pTHX_ const struct _reg_trie_data *trie,
1004                           HV *widecharmap, AV *revcharmap, U32 next_alloc,
1005                           U32 depth)
1006 {
1007     U32 state;
1008     U16 charid;
1009     SV *sv=sv_newmortal();
1010     int colwidth= widecharmap ? 6 : 4;
1011     GET_RE_DEBUG_FLAGS_DECL;
1012
1013     PERL_ARGS_ASSERT_DUMP_TRIE_INTERIM_TABLE;
1014     
1015     /*
1016        print out the table precompression so that we can do a visual check
1017        that they are identical.
1018      */
1019     
1020     PerlIO_printf( Perl_debug_log, "%*sChar : ",(int)depth * 2 + 2,"" );
1021
1022     for( charid = 0 ; charid < trie->uniquecharcount ; charid++ ) {
1023         SV ** const tmp = av_fetch( revcharmap, charid, 0);
1024         if ( tmp ) {
1025             PerlIO_printf( Perl_debug_log, "%*s", 
1026                 colwidth,
1027                 pv_pretty(sv, SvPV_nolen_const(*tmp), SvCUR(*tmp), colwidth, 
1028                             PL_colors[0], PL_colors[1],
1029                             (SvUTF8(*tmp) ? PERL_PV_ESCAPE_UNI : 0) |
1030                             PERL_PV_ESCAPE_FIRSTCHAR 
1031                 ) 
1032             );
1033         }
1034     }
1035
1036     PerlIO_printf( Perl_debug_log, "\n%*sState+-",(int)depth * 2 + 2,"" );
1037
1038     for( charid=0 ; charid < trie->uniquecharcount ; charid++ ) {
1039         PerlIO_printf( Perl_debug_log, "%.*s", colwidth,"--------");
1040     }
1041
1042     PerlIO_printf( Perl_debug_log, "\n" );
1043
1044     for( state=1 ; state < next_alloc ; state += trie->uniquecharcount ) {
1045
1046         PerlIO_printf( Perl_debug_log, "%*s%4"UVXf" : ", 
1047             (int)depth * 2 + 2,"",
1048             (UV)TRIE_NODENUM( state ) );
1049
1050         for( charid = 0 ; charid < trie->uniquecharcount ; charid++ ) {
1051             UV v=(UV)SAFE_TRIE_NODENUM( trie->trans[ state + charid ].next );
1052             if (v)
1053                 PerlIO_printf( Perl_debug_log, "%*"UVXf, colwidth, v );
1054             else
1055                 PerlIO_printf( Perl_debug_log, "%*s", colwidth, "." );
1056         }
1057         if ( ! trie->states[ TRIE_NODENUM( state ) ].wordnum ) {
1058             PerlIO_printf( Perl_debug_log, " (%4"UVXf")\n", (UV)trie->trans[ state ].check );
1059         } else {
1060             PerlIO_printf( Perl_debug_log, " (%4"UVXf") W%4X\n", (UV)trie->trans[ state ].check,
1061             trie->states[ TRIE_NODENUM( state ) ].wordnum );
1062         }
1063     }
1064 }
1065
1066 #endif
1067
1068 /* make_trie(startbranch,first,last,tail,word_count,flags,depth)
1069   startbranch: the first branch in the whole branch sequence
1070   first      : start branch of sequence of branch-exact nodes.
1071                May be the same as startbranch
1072   last       : Thing following the last branch.
1073                May be the same as tail.
1074   tail       : item following the branch sequence
1075   count      : words in the sequence
1076   flags      : currently the OP() type we will be building one of /EXACT(|F|Fl)/
1077   depth      : indent depth
1078
1079 Inplace optimizes a sequence of 2 or more Branch-Exact nodes into a TRIE node.
1080
1081 A trie is an N'ary tree where the branches are determined by digital
1082 decomposition of the key. IE, at the root node you look up the 1st character and
1083 follow that branch repeat until you find the end of the branches. Nodes can be
1084 marked as "accepting" meaning they represent a complete word. Eg:
1085
1086   /he|she|his|hers/
1087
1088 would convert into the following structure. Numbers represent states, letters
1089 following numbers represent valid transitions on the letter from that state, if
1090 the number is in square brackets it represents an accepting state, otherwise it
1091 will be in parenthesis.
1092
1093       +-h->+-e->[3]-+-r->(8)-+-s->[9]
1094       |    |
1095       |   (2)
1096       |    |
1097      (1)   +-i->(6)-+-s->[7]
1098       |
1099       +-s->(3)-+-h->(4)-+-e->[5]
1100
1101       Accept Word Mapping: 3=>1 (he),5=>2 (she), 7=>3 (his), 9=>4 (hers)
1102
1103 This shows that when matching against the string 'hers' we will begin at state 1
1104 read 'h' and move to state 2, read 'e' and move to state 3 which is accepting,
1105 then read 'r' and go to state 8 followed by 's' which takes us to state 9 which
1106 is also accepting. Thus we know that we can match both 'he' and 'hers' with a
1107 single traverse. We store a mapping from accepting to state to which word was
1108 matched, and then when we have multiple possibilities we try to complete the
1109 rest of the regex in the order in which they occured in the alternation.
1110
1111 The only prior NFA like behaviour that would be changed by the TRIE support is
1112 the silent ignoring of duplicate alternations which are of the form:
1113
1114  / (DUPE|DUPE) X? (?{ ... }) Y /x
1115
1116 Thus EVAL blocks follwing a trie may be called a different number of times with
1117 and without the optimisation. With the optimisations dupes will be silently
1118 ignored. This inconsistant behaviour of EVAL type nodes is well established as
1119 the following demonstrates:
1120
1121  'words'=~/(word|word|word)(?{ print $1 })[xyz]/
1122
1123 which prints out 'word' three times, but
1124
1125  'words'=~/(word|word|word)(?{ print $1 })S/
1126
1127 which doesnt print it out at all. This is due to other optimisations kicking in.
1128
1129 Example of what happens on a structural level:
1130
1131 The regexp /(ac|ad|ab)+/ will produce the folowing debug output:
1132
1133    1: CURLYM[1] {1,32767}(18)
1134    5:   BRANCH(8)
1135    6:     EXACT <ac>(16)
1136    8:   BRANCH(11)
1137    9:     EXACT <ad>(16)
1138   11:   BRANCH(14)
1139   12:     EXACT <ab>(16)
1140   16:   SUCCEED(0)
1141   17:   NOTHING(18)
1142   18: END(0)
1143
1144 This would be optimizable with startbranch=5, first=5, last=16, tail=16
1145 and should turn into:
1146
1147    1: CURLYM[1] {1,32767}(18)
1148    5:   TRIE(16)
1149         [Words:3 Chars Stored:6 Unique Chars:4 States:5 NCP:1]
1150           <ac>
1151           <ad>
1152           <ab>
1153   16:   SUCCEED(0)
1154   17:   NOTHING(18)
1155   18: END(0)
1156
1157 Cases where tail != last would be like /(?foo|bar)baz/:
1158
1159    1: BRANCH(4)
1160    2:   EXACT <foo>(8)
1161    4: BRANCH(7)
1162    5:   EXACT <bar>(8)
1163    7: TAIL(8)
1164    8: EXACT <baz>(10)
1165   10: END(0)
1166
1167 which would be optimizable with startbranch=1, first=1, last=7, tail=8
1168 and would end up looking like:
1169
1170     1: TRIE(8)
1171       [Words:2 Chars Stored:6 Unique Chars:5 States:7 NCP:1]
1172         <foo>
1173         <bar>
1174    7: TAIL(8)
1175    8: EXACT <baz>(10)
1176   10: END(0)
1177
1178     d = uvuni_to_utf8_flags(d, uv, 0);
1179
1180 is the recommended Unicode-aware way of saying
1181
1182     *(d++) = uv;
1183 */
1184
1185 #define TRIE_STORE_REVCHAR                                                 \
1186     STMT_START {                                                           \
1187         if (UTF) {                                                         \
1188             SV *zlopp = newSV(2);                                          \
1189             unsigned char *flrbbbbb = (unsigned char *) SvPVX(zlopp);      \
1190             unsigned const char *const kapow = uvuni_to_utf8(flrbbbbb, uvc & 0xFF); \
1191             SvCUR_set(zlopp, kapow - flrbbbbb);                            \
1192             SvPOK_on(zlopp);                                               \
1193             SvUTF8_on(zlopp);                                              \
1194             av_push(revcharmap, zlopp);                                    \
1195         } else {                                                           \
1196             char ooooff = (char)uvc;                                               \
1197             av_push(revcharmap, newSVpvn(&ooooff, 1));                     \
1198         }                                                                  \
1199         } STMT_END
1200
1201 #define TRIE_READ_CHAR STMT_START {                                           \
1202     wordlen++;                                                                \
1203     if ( UTF ) {                                                              \
1204         if ( folder ) {                                                       \
1205             if ( foldlen > 0 ) {                                              \
1206                uvc = utf8n_to_uvuni( scan, UTF8_MAXLEN, &len, uniflags );     \
1207                foldlen -= len;                                                \
1208                scan += len;                                                   \
1209                len = 0;                                                       \
1210             } else {                                                          \
1211                 uvc = utf8n_to_uvuni( (const U8*)uc, UTF8_MAXLEN, &len, uniflags);\
1212                 uvc = to_uni_fold( uvc, foldbuf, &foldlen );                  \
1213                 foldlen -= UNISKIP( uvc );                                    \
1214                 scan = foldbuf + UNISKIP( uvc );                              \
1215             }                                                                 \
1216         } else {                                                              \
1217             uvc = utf8n_to_uvuni( (const U8*)uc, UTF8_MAXLEN, &len, uniflags);\
1218         }                                                                     \
1219     } else {                                                                  \
1220         uvc = (U32)*uc;                                                       \
1221         len = 1;                                                              \
1222     }                                                                         \
1223 } STMT_END
1224
1225
1226
1227 #define TRIE_LIST_PUSH(state,fid,ns) STMT_START {               \
1228     if ( TRIE_LIST_CUR( state ) >=TRIE_LIST_LEN( state ) ) {    \
1229         U32 ging = TRIE_LIST_LEN( state ) *= 2;                 \
1230         Renew( trie->states[ state ].trans.list, ging, reg_trie_trans_le ); \
1231     }                                                           \
1232     TRIE_LIST_ITEM( state, TRIE_LIST_CUR( state ) ).forid = fid;     \
1233     TRIE_LIST_ITEM( state, TRIE_LIST_CUR( state ) ).newstate = ns;   \
1234     TRIE_LIST_CUR( state )++;                                   \
1235 } STMT_END
1236
1237 #define TRIE_LIST_NEW(state) STMT_START {                       \
1238     Newxz( trie->states[ state ].trans.list,               \
1239         4, reg_trie_trans_le );                                 \
1240      TRIE_LIST_CUR( state ) = 1;                                \
1241      TRIE_LIST_LEN( state ) = 4;                                \
1242 } STMT_END
1243
1244 #define TRIE_HANDLE_WORD(state) STMT_START {                    \
1245     U16 dupe= trie->states[ state ].wordnum;                    \
1246     regnode * const noper_next = regnext( noper );              \
1247                                                                 \
1248     if (trie->wordlen)                                          \
1249         trie->wordlen[ curword ] = wordlen;                     \
1250     DEBUG_r({                                                   \
1251         /* store the word for dumping */                        \
1252         SV* tmp;                                                \
1253         if (OP(noper) != NOTHING)                               \
1254             tmp = newSVpvn_utf8(STRING(noper), STR_LEN(noper), UTF);    \
1255         else                                                    \
1256             tmp = newSVpvn_utf8( "", 0, UTF );                  \
1257         av_push( trie_words, tmp );                             \
1258     });                                                         \
1259                                                                 \
1260     curword++;                                                  \
1261                                                                 \
1262     if ( noper_next < tail ) {                                  \
1263         if (!trie->jump)                                        \
1264             trie->jump = (U16 *) PerlMemShared_calloc( word_count + 1, sizeof(U16) ); \
1265         trie->jump[curword] = (U16)(noper_next - convert);      \
1266         if (!jumper)                                            \
1267             jumper = noper_next;                                \
1268         if (!nextbranch)                                        \
1269             nextbranch= regnext(cur);                           \
1270     }                                                           \
1271                                                                 \
1272     if ( dupe ) {                                               \
1273         /* So it's a dupe. This means we need to maintain a   */\
1274         /* linked-list from the first to the next.            */\
1275         /* we only allocate the nextword buffer when there    */\
1276         /* a dupe, so first time we have to do the allocation */\
1277         if (!trie->nextword)                                    \
1278             trie->nextword = (U16 *)                                    \
1279                 PerlMemShared_calloc( word_count + 1, sizeof(U16));     \
1280         while ( trie->nextword[dupe] )                          \
1281             dupe= trie->nextword[dupe];                         \
1282         trie->nextword[dupe]= curword;                          \
1283     } else {                                                    \
1284         /* we haven't inserted this word yet.                */ \
1285         trie->states[ state ].wordnum = curword;                \
1286     }                                                           \
1287 } STMT_END
1288
1289
1290 #define TRIE_TRANS_STATE(state,base,ucharcount,charid,special)          \
1291      ( ( base + charid >=  ucharcount                                   \
1292          && base + charid < ubound                                      \
1293          && state == trie->trans[ base - ucharcount + charid ].check    \
1294          && trie->trans[ base - ucharcount + charid ].next )            \
1295            ? trie->trans[ base - ucharcount + charid ].next             \
1296            : ( state==1 ? special : 0 )                                 \
1297       )
1298
1299 #define MADE_TRIE       1
1300 #define MADE_JUMP_TRIE  2
1301 #define MADE_EXACT_TRIE 4
1302
1303 STATIC I32
1304 S_make_trie(pTHX_ RExC_state_t *pRExC_state, regnode *startbranch, regnode *first, regnode *last, regnode *tail, U32 word_count, U32 flags, U32 depth)
1305 {
1306     dVAR;
1307     /* first pass, loop through and scan words */
1308     reg_trie_data *trie;
1309     HV *widecharmap = NULL;
1310     AV *revcharmap = newAV();
1311     regnode *cur;
1312     const U32 uniflags = UTF8_ALLOW_DEFAULT;
1313     STRLEN len = 0;
1314     UV uvc = 0;
1315     U16 curword = 0;
1316     U32 next_alloc = 0;
1317     regnode *jumper = NULL;
1318     regnode *nextbranch = NULL;
1319     regnode *convert = NULL;
1320     /* we just use folder as a flag in utf8 */
1321     const U8 * const folder = ( flags == EXACTF
1322                        ? PL_fold
1323                        : ( flags == EXACTFL
1324                            ? PL_fold_locale
1325                            : NULL
1326                          )
1327                      );
1328
1329 #ifdef DEBUGGING
1330     const U32 data_slot = add_data( pRExC_state, 4, "tuuu" );
1331     AV *trie_words = NULL;
1332     /* along with revcharmap, this only used during construction but both are
1333      * useful during debugging so we store them in the struct when debugging.
1334      */
1335 #else
1336     const U32 data_slot = add_data( pRExC_state, 2, "tu" );
1337     STRLEN trie_charcount=0;
1338 #endif
1339     SV *re_trie_maxbuff;
1340     GET_RE_DEBUG_FLAGS_DECL;
1341
1342     PERL_ARGS_ASSERT_MAKE_TRIE;
1343 #ifndef DEBUGGING
1344     PERL_UNUSED_ARG(depth);
1345 #endif
1346
1347     trie = (reg_trie_data *) PerlMemShared_calloc( 1, sizeof(reg_trie_data) );
1348     trie->refcount = 1;
1349     trie->startstate = 1;
1350     trie->wordcount = word_count;
1351     RExC_rxi->data->data[ data_slot ] = (void*)trie;
1352     trie->charmap = (U16 *) PerlMemShared_calloc( 256, sizeof(U16) );
1353     if (!(UTF && folder))
1354         trie->bitmap = (char *) PerlMemShared_calloc( ANYOF_BITMAP_SIZE, 1 );
1355     DEBUG_r({
1356         trie_words = newAV();
1357     });
1358
1359     re_trie_maxbuff = get_sv(RE_TRIE_MAXBUF_NAME, 1);
1360     if (!SvIOK(re_trie_maxbuff)) {
1361         sv_setiv(re_trie_maxbuff, RE_TRIE_MAXBUF_INIT);
1362     }
1363     DEBUG_OPTIMISE_r({
1364                 PerlIO_printf( Perl_debug_log,
1365                   "%*smake_trie start==%d, first==%d, last==%d, tail==%d depth=%d\n",
1366                   (int)depth * 2 + 2, "", 
1367                   REG_NODE_NUM(startbranch),REG_NODE_NUM(first), 
1368                   REG_NODE_NUM(last), REG_NODE_NUM(tail),
1369                   (int)depth);
1370     });
1371    
1372    /* Find the node we are going to overwrite */
1373     if ( first == startbranch && OP( last ) != BRANCH ) {
1374         /* whole branch chain */
1375         convert = first;
1376     } else {
1377         /* branch sub-chain */
1378         convert = NEXTOPER( first );
1379     }
1380         
1381     /*  -- First loop and Setup --
1382
1383        We first traverse the branches and scan each word to determine if it
1384        contains widechars, and how many unique chars there are, this is
1385        important as we have to build a table with at least as many columns as we
1386        have unique chars.
1387
1388        We use an array of integers to represent the character codes 0..255
1389        (trie->charmap) and we use a an HV* to store Unicode characters. We use the
1390        native representation of the character value as the key and IV's for the
1391        coded index.
1392
1393        *TODO* If we keep track of how many times each character is used we can
1394        remap the columns so that the table compression later on is more
1395        efficient in terms of memory by ensuring most common value is in the
1396        middle and the least common are on the outside.  IMO this would be better
1397        than a most to least common mapping as theres a decent chance the most
1398        common letter will share a node with the least common, meaning the node
1399        will not be compressable. With a middle is most common approach the worst
1400        case is when we have the least common nodes twice.
1401
1402      */
1403
1404     for ( cur = first ; cur < last ; cur = regnext( cur ) ) {
1405         regnode * const noper = NEXTOPER( cur );
1406         const U8 *uc = (U8*)STRING( noper );
1407         const U8 * const e  = uc + STR_LEN( noper );
1408         STRLEN foldlen = 0;
1409         U8 foldbuf[ UTF8_MAXBYTES_CASE + 1 ];
1410         const U8 *scan = (U8*)NULL;
1411         U32 wordlen      = 0;         /* required init */
1412         STRLEN chars = 0;
1413         bool set_bit = trie->bitmap ? 1 : 0; /*store the first char in the bitmap?*/
1414
1415         if (OP(noper) == NOTHING) {
1416             trie->minlen= 0;
1417             continue;
1418         }
1419         if ( set_bit ) /* bitmap only alloced when !(UTF&&Folding) */
1420             TRIE_BITMAP_SET(trie,*uc); /* store the raw first byte
1421                                           regardless of encoding */
1422
1423         for ( ; uc < e ; uc += len ) {
1424             TRIE_CHARCOUNT(trie)++;
1425             TRIE_READ_CHAR;
1426             chars++;
1427             if ( uvc < 256 ) {
1428                 if ( !trie->charmap[ uvc ] ) {
1429                     trie->charmap[ uvc ]=( ++trie->uniquecharcount );
1430                     if ( folder )
1431                         trie->charmap[ folder[ uvc ] ] = trie->charmap[ uvc ];
1432                     TRIE_STORE_REVCHAR;
1433                 }
1434                 if ( set_bit ) {
1435                     /* store the codepoint in the bitmap, and if its ascii
1436                        also store its folded equivelent. */
1437                     TRIE_BITMAP_SET(trie,uvc);
1438
1439                     /* store the folded codepoint */
1440                     if ( folder ) TRIE_BITMAP_SET(trie,folder[ uvc ]);
1441
1442                     if ( !UTF ) {
1443                         /* store first byte of utf8 representation of
1444                            codepoints in the 127 < uvc < 256 range */
1445                         if (127 < uvc && uvc < 192) {
1446                             TRIE_BITMAP_SET(trie,194);
1447                         } else if (191 < uvc ) {
1448                             TRIE_BITMAP_SET(trie,195);
1449                         /* && uvc < 256 -- we know uvc is < 256 already */
1450                         }
1451                     }
1452                     set_bit = 0; /* We've done our bit :-) */
1453                 }
1454             } else {
1455                 SV** svpp;
1456                 if ( !widecharmap )
1457                     widecharmap = newHV();
1458
1459                 svpp = hv_fetch( widecharmap, (char*)&uvc, sizeof( UV ), 1 );
1460
1461                 if ( !svpp )
1462                     Perl_croak( aTHX_ "error creating/fetching widecharmap entry for 0x%"UVXf, uvc );
1463
1464                 if ( !SvTRUE( *svpp ) ) {
1465                     sv_setiv( *svpp, ++trie->uniquecharcount );
1466                     TRIE_STORE_REVCHAR;
1467                 }
1468             }
1469         }
1470         if( cur == first ) {
1471             trie->minlen=chars;
1472             trie->maxlen=chars;
1473         } else if (chars < trie->minlen) {
1474             trie->minlen=chars;
1475         } else if (chars > trie->maxlen) {
1476             trie->maxlen=chars;
1477         }
1478
1479     } /* end first pass */
1480     DEBUG_TRIE_COMPILE_r(
1481         PerlIO_printf( Perl_debug_log, "%*sTRIE(%s): W:%d C:%d Uq:%d Min:%d Max:%d\n",
1482                 (int)depth * 2 + 2,"",
1483                 ( widecharmap ? "UTF8" : "NATIVE" ), (int)word_count,
1484                 (int)TRIE_CHARCOUNT(trie), trie->uniquecharcount,
1485                 (int)trie->minlen, (int)trie->maxlen )
1486     );
1487     trie->wordlen = (U32 *) PerlMemShared_calloc( word_count, sizeof(U32) );
1488
1489     /*
1490         We now know what we are dealing with in terms of unique chars and
1491         string sizes so we can calculate how much memory a naive
1492         representation using a flat table  will take. If it's over a reasonable
1493         limit (as specified by ${^RE_TRIE_MAXBUF}) we use a more memory
1494         conservative but potentially much slower representation using an array
1495         of lists.
1496
1497         At the end we convert both representations into the same compressed
1498         form that will be used in regexec.c for matching with. The latter
1499         is a form that cannot be used to construct with but has memory
1500         properties similar to the list form and access properties similar
1501         to the table form making it both suitable for fast searches and
1502         small enough that its feasable to store for the duration of a program.
1503
1504         See the comment in the code where the compressed table is produced
1505         inplace from the flat tabe representation for an explanation of how
1506         the compression works.
1507
1508     */
1509
1510
1511     if ( (IV)( ( TRIE_CHARCOUNT(trie) + 1 ) * trie->uniquecharcount + 1) > SvIV(re_trie_maxbuff) ) {
1512         /*
1513             Second Pass -- Array Of Lists Representation
1514
1515             Each state will be represented by a list of charid:state records
1516             (reg_trie_trans_le) the first such element holds the CUR and LEN
1517             points of the allocated array. (See defines above).
1518
1519             We build the initial structure using the lists, and then convert
1520             it into the compressed table form which allows faster lookups
1521             (but cant be modified once converted).
1522         */
1523
1524         STRLEN transcount = 1;
1525
1526         DEBUG_TRIE_COMPILE_MORE_r( PerlIO_printf( Perl_debug_log, 
1527             "%*sCompiling trie using list compiler\n",
1528             (int)depth * 2 + 2, ""));
1529         
1530         trie->states = (reg_trie_state *)
1531             PerlMemShared_calloc( TRIE_CHARCOUNT(trie) + 2,
1532                                   sizeof(reg_trie_state) );
1533         TRIE_LIST_NEW(1);
1534         next_alloc = 2;
1535
1536         for ( cur = first ; cur < last ; cur = regnext( cur ) ) {
1537
1538             regnode * const noper = NEXTOPER( cur );
1539             U8 *uc           = (U8*)STRING( noper );
1540             const U8 * const e = uc + STR_LEN( noper );
1541             U32 state        = 1;         /* required init */
1542             U16 charid       = 0;         /* sanity init */
1543             U8 *scan         = (U8*)NULL; /* sanity init */
1544             STRLEN foldlen   = 0;         /* required init */
1545             U32 wordlen      = 0;         /* required init */
1546             U8 foldbuf[ UTF8_MAXBYTES_CASE + 1 ];
1547
1548             if (OP(noper) != NOTHING) {
1549                 for ( ; uc < e ; uc += len ) {
1550
1551                     TRIE_READ_CHAR;
1552
1553                     if ( uvc < 256 ) {
1554                         charid = trie->charmap[ uvc ];
1555                     } else {
1556                         SV** const svpp = hv_fetch( widecharmap, (char*)&uvc, sizeof( UV ), 0);
1557                         if ( !svpp ) {
1558                             charid = 0;
1559                         } else {
1560                             charid=(U16)SvIV( *svpp );
1561                         }
1562                     }
1563                     /* charid is now 0 if we dont know the char read, or nonzero if we do */
1564                     if ( charid ) {
1565
1566                         U16 check;
1567                         U32 newstate = 0;
1568
1569                         charid--;
1570                         if ( !trie->states[ state ].trans.list ) {
1571                             TRIE_LIST_NEW( state );
1572                         }
1573                         for ( check = 1; check <= TRIE_LIST_USED( state ); check++ ) {
1574                             if ( TRIE_LIST_ITEM( state, check ).forid == charid ) {
1575                                 newstate = TRIE_LIST_ITEM( state, check ).newstate;
1576                                 break;
1577                             }
1578                         }
1579                         if ( ! newstate ) {
1580                             newstate = next_alloc++;
1581                             TRIE_LIST_PUSH( state, charid, newstate );
1582                             transcount++;
1583                         }
1584                         state = newstate;
1585                     } else {
1586                         Perl_croak( aTHX_ "panic! In trie construction, no char mapping for %"IVdf, uvc );
1587                     }
1588                 }
1589             }
1590             TRIE_HANDLE_WORD(state);
1591
1592         } /* end second pass */
1593
1594         /* next alloc is the NEXT state to be allocated */
1595         trie->statecount = next_alloc; 
1596         trie->states = (reg_trie_state *)
1597             PerlMemShared_realloc( trie->states,
1598                                    next_alloc
1599                                    * sizeof(reg_trie_state) );
1600
1601         /* and now dump it out before we compress it */
1602         DEBUG_TRIE_COMPILE_MORE_r(dump_trie_interim_list(trie, widecharmap,
1603                                                          revcharmap, next_alloc,
1604                                                          depth+1)
1605         );
1606
1607         trie->trans = (reg_trie_trans *)
1608             PerlMemShared_calloc( transcount, sizeof(reg_trie_trans) );
1609         {
1610             U32 state;
1611             U32 tp = 0;
1612             U32 zp = 0;
1613
1614
1615             for( state=1 ; state < next_alloc ; state ++ ) {
1616                 U32 base=0;
1617
1618                 /*
1619                 DEBUG_TRIE_COMPILE_MORE_r(
1620                     PerlIO_printf( Perl_debug_log, "tp: %d zp: %d ",tp,zp)
1621                 );
1622                 */
1623
1624                 if (trie->states[state].trans.list) {
1625                     U16 minid=TRIE_LIST_ITEM( state, 1).forid;
1626                     U16 maxid=minid;
1627                     U16 idx;
1628
1629                     for( idx = 2 ; idx <= TRIE_LIST_USED( state ) ; idx++ ) {
1630                         const U16 forid = TRIE_LIST_ITEM( state, idx).forid;
1631                         if ( forid < minid ) {
1632                             minid=forid;
1633                         } else if ( forid > maxid ) {
1634                             maxid=forid;
1635                         }
1636                     }
1637                     if ( transcount < tp + maxid - minid + 1) {
1638                         transcount *= 2;
1639                         trie->trans = (reg_trie_trans *)
1640                             PerlMemShared_realloc( trie->trans,
1641                                                      transcount
1642                                                      * sizeof(reg_trie_trans) );
1643                         Zero( trie->trans + (transcount / 2), transcount / 2 , reg_trie_trans );
1644                     }
1645                     base = trie->uniquecharcount + tp - minid;
1646                     if ( maxid == minid ) {
1647                         U32 set = 0;
1648                         for ( ; zp < tp ; zp++ ) {
1649                             if ( ! trie->trans[ zp ].next ) {
1650                                 base = trie->uniquecharcount + zp - minid;
1651                                 trie->trans[ zp ].next = TRIE_LIST_ITEM( state, 1).newstate;
1652                                 trie->trans[ zp ].check = state;
1653                                 set = 1;
1654                                 break;
1655                             }
1656                         }
1657                         if ( !set ) {
1658                             trie->trans[ tp ].next = TRIE_LIST_ITEM( state, 1).newstate;
1659                             trie->trans[ tp ].check = state;
1660                             tp++;
1661                             zp = tp;
1662                         }
1663                     } else {
1664                         for ( idx=1; idx <= TRIE_LIST_USED( state ) ; idx++ ) {
1665                             const U32 tid = base -  trie->uniquecharcount + TRIE_LIST_ITEM( state, idx ).forid;
1666                             trie->trans[ tid ].next = TRIE_LIST_ITEM( state, idx ).newstate;
1667                             trie->trans[ tid ].check = state;
1668                         }
1669                         tp += ( maxid - minid + 1 );
1670                     }
1671                     Safefree(trie->states[ state ].trans.list);
1672                 }
1673                 /*
1674                 DEBUG_TRIE_COMPILE_MORE_r(
1675                     PerlIO_printf( Perl_debug_log, " base: %d\n",base);
1676                 );
1677                 */
1678                 trie->states[ state ].trans.base=base;
1679             }
1680             trie->lasttrans = tp + 1;
1681         }
1682     } else {
1683         /*
1684            Second Pass -- Flat Table Representation.
1685
1686            we dont use the 0 slot of either trans[] or states[] so we add 1 to each.
1687            We know that we will need Charcount+1 trans at most to store the data
1688            (one row per char at worst case) So we preallocate both structures
1689            assuming worst case.
1690
1691            We then construct the trie using only the .next slots of the entry
1692            structs.
1693
1694            We use the .check field of the first entry of the node  temporarily to
1695            make compression both faster and easier by keeping track of how many non
1696            zero fields are in the node.
1697
1698            Since trans are numbered from 1 any 0 pointer in the table is a FAIL
1699            transition.
1700
1701            There are two terms at use here: state as a TRIE_NODEIDX() which is a
1702            number representing the first entry of the node, and state as a
1703            TRIE_NODENUM() which is the trans number. state 1 is TRIE_NODEIDX(1) and
1704            TRIE_NODENUM(1), state 2 is TRIE_NODEIDX(2) and TRIE_NODENUM(3) if there
1705            are 2 entrys per node. eg:
1706
1707              A B       A B
1708           1. 2 4    1. 3 7
1709           2. 0 3    3. 0 5
1710           3. 0 0    5. 0 0
1711           4. 0 0    7. 0 0
1712
1713            The table is internally in the right hand, idx form. However as we also
1714            have to deal with the states array which is indexed by nodenum we have to
1715            use TRIE_NODENUM() to convert.
1716
1717         */
1718         DEBUG_TRIE_COMPILE_MORE_r( PerlIO_printf( Perl_debug_log, 
1719             "%*sCompiling trie using table compiler\n",
1720             (int)depth * 2 + 2, ""));
1721
1722         trie->trans = (reg_trie_trans *)
1723             PerlMemShared_calloc( ( TRIE_CHARCOUNT(trie) + 1 )
1724                                   * trie->uniquecharcount + 1,
1725                                   sizeof(reg_trie_trans) );
1726         trie->states = (reg_trie_state *)
1727             PerlMemShared_calloc( TRIE_CHARCOUNT(trie) + 2,
1728                                   sizeof(reg_trie_state) );
1729         next_alloc = trie->uniquecharcount + 1;
1730
1731
1732         for ( cur = first ; cur < last ; cur = regnext( cur ) ) {
1733
1734             regnode * const noper   = NEXTOPER( cur );
1735             const U8 *uc     = (U8*)STRING( noper );
1736             const U8 * const e = uc + STR_LEN( noper );
1737
1738             U32 state        = 1;         /* required init */
1739
1740             U16 charid       = 0;         /* sanity init */
1741             U32 accept_state = 0;         /* sanity init */
1742             U8 *scan         = (U8*)NULL; /* sanity init */
1743
1744             STRLEN foldlen   = 0;         /* required init */
1745             U32 wordlen      = 0;         /* required init */
1746             U8 foldbuf[ UTF8_MAXBYTES_CASE + 1 ];
1747
1748             if ( OP(noper) != NOTHING ) {
1749                 for ( ; uc < e ; uc += len ) {
1750
1751                     TRIE_READ_CHAR;
1752
1753                     if ( uvc < 256 ) {
1754                         charid = trie->charmap[ uvc ];
1755                     } else {
1756                         SV* const * const svpp = hv_fetch( widecharmap, (char*)&uvc, sizeof( UV ), 0);
1757                         charid = svpp ? (U16)SvIV(*svpp) : 0;
1758                     }
1759                     if ( charid ) {
1760                         charid--;
1761                         if ( !trie->trans[ state + charid ].next ) {
1762                             trie->trans[ state + charid ].next = next_alloc;
1763                             trie->trans[ state ].check++;
1764                             next_alloc += trie->uniquecharcount;
1765                         }
1766                         state = trie->trans[ state + charid ].next;
1767                     } else {
1768                         Perl_croak( aTHX_ "panic! In trie construction, no char mapping for %"IVdf, uvc );
1769                     }
1770                     /* charid is now 0 if we dont know the char read, or nonzero if we do */
1771                 }
1772             }
1773             accept_state = TRIE_NODENUM( state );
1774             TRIE_HANDLE_WORD(accept_state);
1775
1776         } /* end second pass */
1777
1778         /* and now dump it out before we compress it */
1779         DEBUG_TRIE_COMPILE_MORE_r(dump_trie_interim_table(trie, widecharmap,
1780                                                           revcharmap,
1781                                                           next_alloc, depth+1));
1782
1783         {
1784         /*
1785            * Inplace compress the table.*
1786
1787            For sparse data sets the table constructed by the trie algorithm will
1788            be mostly 0/FAIL transitions or to put it another way mostly empty.
1789            (Note that leaf nodes will not contain any transitions.)
1790
1791            This algorithm compresses the tables by eliminating most such
1792            transitions, at the cost of a modest bit of extra work during lookup:
1793
1794            - Each states[] entry contains a .base field which indicates the
1795            index in the state[] array wheres its transition data is stored.
1796
1797            - If .base is 0 there are no  valid transitions from that node.
1798
1799            - If .base is nonzero then charid is added to it to find an entry in
1800            the trans array.
1801
1802            -If trans[states[state].base+charid].check!=state then the
1803            transition is taken to be a 0/Fail transition. Thus if there are fail
1804            transitions at the front of the node then the .base offset will point
1805            somewhere inside the previous nodes data (or maybe even into a node
1806            even earlier), but the .check field determines if the transition is
1807            valid.
1808
1809            XXX - wrong maybe?
1810            The following process inplace converts the table to the compressed
1811            table: We first do not compress the root node 1,and mark its all its
1812            .check pointers as 1 and set its .base pointer as 1 as well. This
1813            allows to do a DFA construction from the compressed table later, and
1814            ensures that any .base pointers we calculate later are greater than
1815            0.
1816
1817            - We set 'pos' to indicate the first entry of the second node.
1818
1819            - We then iterate over the columns of the node, finding the first and
1820            last used entry at l and m. We then copy l..m into pos..(pos+m-l),
1821            and set the .check pointers accordingly, and advance pos
1822            appropriately and repreat for the next node. Note that when we copy
1823            the next pointers we have to convert them from the original
1824            NODEIDX form to NODENUM form as the former is not valid post
1825            compression.
1826
1827            - If a node has no transitions used we mark its base as 0 and do not
1828            advance the pos pointer.
1829
1830            - If a node only has one transition we use a second pointer into the
1831            structure to fill in allocated fail transitions from other states.
1832            This pointer is independent of the main pointer and scans forward
1833            looking for null transitions that are allocated to a state. When it
1834            finds one it writes the single transition into the "hole".  If the
1835            pointer doesnt find one the single transition is appended as normal.
1836
1837            - Once compressed we can Renew/realloc the structures to release the
1838            excess space.
1839
1840            See "Table-Compression Methods" in sec 3.9 of the Red Dragon,
1841            specifically Fig 3.47 and the associated pseudocode.
1842
1843            demq
1844         */
1845         const U32 laststate = TRIE_NODENUM( next_alloc );
1846         U32 state, charid;
1847         U32 pos = 0, zp=0;
1848         trie->statecount = laststate;
1849
1850         for ( state = 1 ; state < laststate ; state++ ) {
1851             U8 flag = 0;
1852             const U32 stateidx = TRIE_NODEIDX( state );
1853             const U32 o_used = trie->trans[ stateidx ].check;
1854             U32 used = trie->trans[ stateidx ].check;
1855             trie->trans[ stateidx ].check = 0;
1856
1857             for ( charid = 0 ; used && charid < trie->uniquecharcount ; charid++ ) {
1858                 if ( flag || trie->trans[ stateidx + charid ].next ) {
1859                     if ( trie->trans[ stateidx + charid ].next ) {
1860                         if (o_used == 1) {
1861                             for ( ; zp < pos ; zp++ ) {
1862                                 if ( ! trie->trans[ zp ].next ) {
1863                                     break;
1864                                 }
1865                             }
1866                             trie->states[ state ].trans.base = zp + trie->uniquecharcount - charid ;
1867                             trie->trans[ zp ].next = SAFE_TRIE_NODENUM( trie->trans[ stateidx + charid ].next );
1868                             trie->trans[ zp ].check = state;
1869                             if ( ++zp > pos ) pos = zp;
1870                             break;
1871                         }
1872                         used--;
1873                     }
1874                     if ( !flag ) {
1875                         flag = 1;
1876                         trie->states[ state ].trans.base = pos + trie->uniquecharcount - charid ;
1877                     }
1878                     trie->trans[ pos ].next = SAFE_TRIE_NODENUM( trie->trans[ stateidx + charid ].next );
1879                     trie->trans[ pos ].check = state;
1880                     pos++;
1881                 }
1882             }
1883         }
1884         trie->lasttrans = pos + 1;
1885         trie->states = (reg_trie_state *)
1886             PerlMemShared_realloc( trie->states, laststate
1887                                    * sizeof(reg_trie_state) );
1888         DEBUG_TRIE_COMPILE_MORE_r(
1889                 PerlIO_printf( Perl_debug_log,
1890                     "%*sAlloc: %d Orig: %"IVdf" elements, Final:%"IVdf". Savings of %%%5.2f\n",
1891                     (int)depth * 2 + 2,"",
1892                     (int)( ( TRIE_CHARCOUNT(trie) + 1 ) * trie->uniquecharcount + 1 ),
1893                     (IV)next_alloc,
1894                     (IV)pos,
1895                     ( ( next_alloc - pos ) * 100 ) / (double)next_alloc );
1896             );
1897
1898         } /* end table compress */
1899     }
1900     DEBUG_TRIE_COMPILE_MORE_r(
1901             PerlIO_printf(Perl_debug_log, "%*sStatecount:%"UVxf" Lasttrans:%"UVxf"\n",
1902                 (int)depth * 2 + 2, "",
1903                 (UV)trie->statecount,
1904                 (UV)trie->lasttrans)
1905     );
1906     /* resize the trans array to remove unused space */
1907     trie->trans = (reg_trie_trans *)
1908         PerlMemShared_realloc( trie->trans, trie->lasttrans
1909                                * sizeof(reg_trie_trans) );
1910
1911     /* and now dump out the compressed format */
1912     DEBUG_TRIE_COMPILE_r(dump_trie(trie, widecharmap, revcharmap, depth+1));
1913
1914     {   /* Modify the program and insert the new TRIE node*/ 
1915         U8 nodetype =(U8)(flags & 0xFF);
1916         char *str=NULL;
1917         
1918 #ifdef DEBUGGING
1919         regnode *optimize = NULL;
1920 #ifdef RE_TRACK_PATTERN_OFFSETS
1921
1922         U32 mjd_offset = 0;
1923         U32 mjd_nodelen = 0;
1924 #endif /* RE_TRACK_PATTERN_OFFSETS */
1925 #endif /* DEBUGGING */
1926         /*
1927            This means we convert either the first branch or the first Exact,
1928            depending on whether the thing following (in 'last') is a branch
1929            or not and whther first is the startbranch (ie is it a sub part of
1930            the alternation or is it the whole thing.)
1931            Assuming its a sub part we conver the EXACT otherwise we convert
1932            the whole branch sequence, including the first.
1933          */
1934         /* Find the node we are going to overwrite */
1935         if ( first != startbranch || OP( last ) == BRANCH ) {
1936             /* branch sub-chain */
1937             NEXT_OFF( first ) = (U16)(last - first);
1938 #ifdef RE_TRACK_PATTERN_OFFSETS
1939             DEBUG_r({
1940                 mjd_offset= Node_Offset((convert));
1941                 mjd_nodelen= Node_Length((convert));
1942             });
1943 #endif
1944             /* whole branch chain */
1945         }
1946 #ifdef RE_TRACK_PATTERN_OFFSETS
1947         else {
1948             DEBUG_r({
1949                 const  regnode *nop = NEXTOPER( convert );
1950                 mjd_offset= Node_Offset((nop));
1951                 mjd_nodelen= Node_Length((nop));
1952             });
1953         }
1954         DEBUG_OPTIMISE_r(
1955             PerlIO_printf(Perl_debug_log, "%*sMJD offset:%"UVuf" MJD length:%"UVuf"\n",
1956                 (int)depth * 2 + 2, "",
1957                 (UV)mjd_offset, (UV)mjd_nodelen)
1958         );
1959 #endif
1960         /* But first we check to see if there is a common prefix we can 
1961            split out as an EXACT and put in front of the TRIE node.  */
1962         trie->startstate= 1;
1963         if ( trie->bitmap && !widecharmap && !trie->jump  ) {
1964             U32 state;
1965             for ( state = 1 ; state < trie->statecount-1 ; state++ ) {
1966                 U32 ofs = 0;
1967                 I32 idx = -1;
1968                 U32 count = 0;
1969                 const U32 base = trie->states[ state ].trans.base;
1970
1971                 if ( trie->states[state].wordnum )
1972                         count = 1;
1973
1974                 for ( ofs = 0 ; ofs < trie->uniquecharcount ; ofs++ ) {
1975                     if ( ( base + ofs >= trie->uniquecharcount ) &&
1976                          ( base + ofs - trie->uniquecharcount < trie->lasttrans ) &&
1977                          trie->trans[ base + ofs - trie->uniquecharcount ].check == state )
1978                     {
1979                         if ( ++count > 1 ) {
1980                             SV **tmp = av_fetch( revcharmap, ofs, 0);
1981                             const U8 *ch = (U8*)SvPV_nolen_const( *tmp );
1982                             if ( state == 1 ) break;
1983                             if ( count == 2 ) {
1984                                 Zero(trie->bitmap, ANYOF_BITMAP_SIZE, char);
1985                                 DEBUG_OPTIMISE_r(
1986                                     PerlIO_printf(Perl_debug_log,
1987                                         "%*sNew Start State=%"UVuf" Class: [",
1988                                         (int)depth * 2 + 2, "",
1989                                         (UV)state));
1990                                 if (idx >= 0) {
1991                                     SV ** const tmp = av_fetch( revcharmap, idx, 0);
1992                                     const U8 * const ch = (U8*)SvPV_nolen_const( *tmp );
1993
1994                                     TRIE_BITMAP_SET(trie,*ch);
1995                                     if ( folder )
1996                                         TRIE_BITMAP_SET(trie, folder[ *ch ]);
1997                                     DEBUG_OPTIMISE_r(
1998                                         PerlIO_printf(Perl_debug_log, (char*)ch)
1999                                     );
2000                                 }
2001                             }
2002                             TRIE_BITMAP_SET(trie,*ch);
2003                             if ( folder )
2004                                 TRIE_BITMAP_SET(trie,folder[ *ch ]);
2005                             DEBUG_OPTIMISE_r(PerlIO_printf( Perl_debug_log,"%s", ch));
2006                         }
2007                         idx = ofs;
2008                     }
2009                 }
2010                 if ( count == 1 ) {
2011                     SV **tmp = av_fetch( revcharmap, idx, 0);
2012                     STRLEN len;
2013                     char *ch = SvPV( *tmp, len );
2014                     DEBUG_OPTIMISE_r({
2015                         SV *sv=sv_newmortal();
2016                         PerlIO_printf( Perl_debug_log,
2017                             "%*sPrefix State: %"UVuf" Idx:%"UVuf" Char='%s'\n",
2018                             (int)depth * 2 + 2, "",
2019                             (UV)state, (UV)idx, 
2020                             pv_pretty(sv, SvPV_nolen_const(*tmp), SvCUR(*tmp), 6, 
2021                                 PL_colors[0], PL_colors[1],
2022                                 (SvUTF8(*tmp) ? PERL_PV_ESCAPE_UNI : 0) |
2023                                 PERL_PV_ESCAPE_FIRSTCHAR 
2024                             )
2025                         );
2026                     });
2027                     if ( state==1 ) {
2028                         OP( convert ) = nodetype;
2029                         str=STRING(convert);
2030                         STR_LEN(convert)=0;
2031                     }
2032                     STR_LEN(convert) += len;
2033                     while (len--)
2034                         *str++ = *ch++;
2035                 } else {
2036 #ifdef DEBUGGING            
2037                     if (state>1)
2038                         DEBUG_OPTIMISE_r(PerlIO_printf( Perl_debug_log,"]\n"));
2039 #endif
2040                     break;
2041                 }
2042             }
2043             if (str) {
2044                 regnode *n = convert+NODE_SZ_STR(convert);
2045                 NEXT_OFF(convert) = NODE_SZ_STR(convert);
2046                 trie->startstate = state;
2047                 trie->minlen -= (state - 1);
2048                 trie->maxlen -= (state - 1);
2049 #ifdef DEBUGGING
2050                /* At least the UNICOS C compiler choked on this
2051                 * being argument to DEBUG_r(), so let's just have
2052                 * it right here. */
2053                if (
2054 #ifdef PERL_EXT_RE_BUILD
2055                    1
2056 #else
2057                    DEBUG_r_TEST
2058 #endif
2059                    ) {
2060                    regnode *fix = convert;
2061                    U32 word = trie->wordcount;
2062                    mjd_nodelen++;
2063                    Set_Node_Offset_Length(convert, mjd_offset, state - 1);
2064                    while( ++fix < n ) {
2065                        Set_Node_Offset_Length(fix, 0, 0);
2066                    }
2067                    while (word--) {
2068                        SV ** const tmp = av_fetch( trie_words, word, 0 );
2069                        if (tmp) {
2070                            if ( STR_LEN(convert) <= SvCUR(*tmp) )
2071                                sv_chop(*tmp, SvPV_nolen(*tmp) + STR_LEN(convert));
2072                            else
2073                                sv_chop(*tmp, SvPV_nolen(*tmp) + SvCUR(*tmp));
2074                        }
2075                    }
2076                }
2077 #endif
2078                 if (trie->maxlen) {
2079                     convert = n;
2080                 } else {
2081                     NEXT_OFF(convert) = (U16)(tail - convert);
2082                     DEBUG_r(optimize= n);
2083                 }
2084             }
2085         }
2086         if (!jumper) 
2087             jumper = last; 
2088         if ( trie->maxlen ) {
2089             NEXT_OFF( convert ) = (U16)(tail - convert);
2090             ARG_SET( convert, data_slot );
2091             /* Store the offset to the first unabsorbed branch in 
2092                jump[0], which is otherwise unused by the jump logic. 
2093                We use this when dumping a trie and during optimisation. */
2094             if (trie->jump) 
2095                 trie->jump[0] = (U16)(nextbranch - convert);
2096             
2097             /* XXXX */
2098             if ( !trie->states[trie->startstate].wordnum && trie->bitmap && 
2099                  ( (char *)jumper - (char *)convert) >= (int)sizeof(struct regnode_charclass) )
2100             {
2101                 OP( convert ) = TRIEC;
2102                 Copy(trie->bitmap, ((struct regnode_charclass *)convert)->bitmap, ANYOF_BITMAP_SIZE, char);
2103                 PerlMemShared_free(trie->bitmap);
2104                 trie->bitmap= NULL;
2105             } else 
2106                 OP( convert ) = TRIE;
2107
2108             /* store the type in the flags */
2109             convert->flags = nodetype;
2110             DEBUG_r({
2111             optimize = convert 
2112                       + NODE_STEP_REGNODE 
2113                       + regarglen[ OP( convert ) ];
2114             });
2115             /* XXX We really should free up the resource in trie now, 
2116                    as we won't use them - (which resources?) dmq */
2117         }
2118         /* needed for dumping*/
2119         DEBUG_r(if (optimize) {
2120             regnode *opt = convert;
2121
2122             while ( ++opt < optimize) {
2123                 Set_Node_Offset_Length(opt,0,0);
2124             }
2125             /* 
2126                 Try to clean up some of the debris left after the 
2127                 optimisation.
2128              */
2129             while( optimize < jumper ) {
2130                 mjd_nodelen += Node_Length((optimize));
2131                 OP( optimize ) = OPTIMIZED;
2132                 Set_Node_Offset_Length(optimize,0,0);
2133                 optimize++;
2134             }
2135             Set_Node_Offset_Length(convert,mjd_offset,mjd_nodelen);
2136         });
2137     } /* end node insert */
2138     RExC_rxi->data->data[ data_slot + 1 ] = (void*)widecharmap;
2139 #ifdef DEBUGGING
2140     RExC_rxi->data->data[ data_slot + TRIE_WORDS_OFFSET ] = (void*)trie_words;
2141     RExC_rxi->data->data[ data_slot + 3 ] = (void*)revcharmap;
2142 #else
2143     SvREFCNT_dec(revcharmap);
2144 #endif
2145     return trie->jump 
2146            ? MADE_JUMP_TRIE 
2147            : trie->startstate>1 
2148              ? MADE_EXACT_TRIE 
2149              : MADE_TRIE;
2150 }
2151
2152 STATIC void
2153 S_make_trie_failtable(pTHX_ RExC_state_t *pRExC_state, regnode *source,  regnode *stclass, U32 depth)
2154 {
2155 /* The Trie is constructed and compressed now so we can build a fail array now if its needed
2156
2157    This is basically the Aho-Corasick algorithm. Its from exercise 3.31 and 3.32 in the
2158    "Red Dragon" -- Compilers, principles, techniques, and tools. Aho, Sethi, Ullman 1985/88
2159    ISBN 0-201-10088-6
2160
2161    We find the fail state for each state in the trie, this state is the longest proper
2162    suffix of the current states 'word' that is also a proper prefix of another word in our
2163    trie. State 1 represents the word '' and is the thus the default fail state. This allows
2164    the DFA not to have to restart after its tried and failed a word at a given point, it
2165    simply continues as though it had been matching the other word in the first place.
2166    Consider
2167       'abcdgu'=~/abcdefg|cdgu/
2168    When we get to 'd' we are still matching the first word, we would encounter 'g' which would
2169    fail, which would bring use to the state representing 'd' in the second word where we would
2170    try 'g' and succeed, prodceding to match 'cdgu'.
2171  */
2172  /* add a fail transition */
2173     const U32 trie_offset = ARG(source);
2174     reg_trie_data *trie=(reg_trie_data *)RExC_rxi->data->data[trie_offset];
2175     U32 *q;
2176     const U32 ucharcount = trie->uniquecharcount;
2177     const U32 numstates = trie->statecount;
2178     const U32 ubound = trie->lasttrans + ucharcount;
2179     U32 q_read = 0;
2180     U32 q_write = 0;
2181     U32 charid;
2182     U32 base = trie->states[ 1 ].trans.base;
2183     U32 *fail;
2184     reg_ac_data *aho;
2185     const U32 data_slot = add_data( pRExC_state, 1, "T" );
2186     GET_RE_DEBUG_FLAGS_DECL;
2187
2188     PERL_ARGS_ASSERT_MAKE_TRIE_FAILTABLE;
2189 #ifndef DEBUGGING
2190     PERL_UNUSED_ARG(depth);
2191 #endif
2192
2193
2194     ARG_SET( stclass, data_slot );
2195     aho = (reg_ac_data *) PerlMemShared_calloc( 1, sizeof(reg_ac_data) );
2196     RExC_rxi->data->data[ data_slot ] = (void*)aho;
2197     aho->trie=trie_offset;
2198     aho->states=(reg_trie_state *)PerlMemShared_malloc( numstates * sizeof(reg_trie_state) );
2199     Copy( trie->states, aho->states, numstates, reg_trie_state );
2200     Newxz( q, numstates, U32);
2201     aho->fail = (U32 *) PerlMemShared_calloc( numstates, sizeof(U32) );
2202     aho->refcount = 1;
2203     fail = aho->fail;
2204     /* initialize fail[0..1] to be 1 so that we always have
2205        a valid final fail state */
2206     fail[ 0 ] = fail[ 1 ] = 1;
2207
2208     for ( charid = 0; charid < ucharcount ; charid++ ) {
2209         const U32 newstate = TRIE_TRANS_STATE( 1, base, ucharcount, charid, 0 );
2210         if ( newstate ) {
2211             q[ q_write ] = newstate;
2212             /* set to point at the root */
2213             fail[ q[ q_write++ ] ]=1;
2214         }
2215     }
2216     while ( q_read < q_write) {
2217         const U32 cur = q[ q_read++ % numstates ];
2218         base = trie->states[ cur ].trans.base;
2219
2220         for ( charid = 0 ; charid < ucharcount ; charid++ ) {
2221             const U32 ch_state = TRIE_TRANS_STATE( cur, base, ucharcount, charid, 1 );
2222             if (ch_state) {
2223                 U32 fail_state = cur;
2224                 U32 fail_base;
2225                 do {
2226                     fail_state = fail[ fail_state ];
2227                     fail_base = aho->states[ fail_state ].trans.base;
2228                 } while ( !TRIE_TRANS_STATE( fail_state, fail_base, ucharcount, charid, 1 ) );
2229
2230                 fail_state = TRIE_TRANS_STATE( fail_state, fail_base, ucharcount, charid, 1 );
2231                 fail[ ch_state ] = fail_state;
2232                 if ( !aho->states[ ch_state ].wordnum && aho->states[ fail_state ].wordnum )
2233                 {
2234                         aho->states[ ch_state ].wordnum =  aho->states[ fail_state ].wordnum;
2235                 }
2236                 q[ q_write++ % numstates] = ch_state;
2237             }
2238         }
2239     }
2240     /* restore fail[0..1] to 0 so that we "fall out" of the AC loop
2241        when we fail in state 1, this allows us to use the
2242        charclass scan to find a valid start char. This is based on the principle
2243        that theres a good chance the string being searched contains lots of stuff
2244        that cant be a start char.
2245      */
2246     fail[ 0 ] = fail[ 1 ] = 0;
2247     DEBUG_TRIE_COMPILE_r({
2248         PerlIO_printf(Perl_debug_log,
2249                       "%*sStclass Failtable (%"UVuf" states): 0", 
2250                       (int)(depth * 2), "", (UV)numstates
2251         );
2252         for( q_read=1; q_read<numstates; q_read++ ) {
2253             PerlIO_printf(Perl_debug_log, ", %"UVuf, (UV)fail[q_read]);
2254         }
2255         PerlIO_printf(Perl_debug_log, "\n");
2256     });
2257     Safefree(q);
2258     /*RExC_seen |= REG_SEEN_TRIEDFA;*/
2259 }
2260
2261
2262 /*
2263  * There are strange code-generation bugs caused on sparc64 by gcc-2.95.2.
2264  * These need to be revisited when a newer toolchain becomes available.
2265  */
2266 #if defined(__sparc64__) && defined(__GNUC__)
2267 #   if __GNUC__ < 2 || (__GNUC__ == 2 && __GNUC_MINOR__ < 96)
2268 #       undef  SPARC64_GCC_WORKAROUND
2269 #       define SPARC64_GCC_WORKAROUND 1
2270 #   endif
2271 #endif
2272
2273 #define DEBUG_PEEP(str,scan,depth) \
2274     DEBUG_OPTIMISE_r({if (scan){ \
2275        SV * const mysv=sv_newmortal(); \
2276        regnode *Next = regnext(scan); \
2277        regprop(RExC_rx, mysv, scan); \
2278        PerlIO_printf(Perl_debug_log, "%*s" str ">%3d: %s (%d)\n", \
2279        (int)depth*2, "", REG_NODE_NUM(scan), SvPV_nolen_const(mysv),\
2280        Next ? (REG_NODE_NUM(Next)) : 0 ); \
2281    }});
2282
2283
2284
2285
2286
2287 #define JOIN_EXACT(scan,min,flags) \
2288     if (PL_regkind[OP(scan)] == EXACT) \
2289         join_exact(pRExC_state,(scan),(min),(flags),NULL,depth+1)
2290
2291 STATIC U32
2292 S_join_exact(pTHX_ RExC_state_t *pRExC_state, regnode *scan, I32 *min, U32 flags,regnode *val, U32 depth) {
2293     /* Merge several consecutive EXACTish nodes into one. */
2294     regnode *n = regnext(scan);
2295     U32 stringok = 1;
2296     regnode *next = scan + NODE_SZ_STR(scan);
2297     U32 merged = 0;
2298     U32 stopnow = 0;
2299 #ifdef DEBUGGING
2300     regnode *stop = scan;
2301     GET_RE_DEBUG_FLAGS_DECL;
2302 #else
2303     PERL_UNUSED_ARG(depth);
2304 #endif
2305
2306     PERL_ARGS_ASSERT_JOIN_EXACT;
2307 #ifndef EXPERIMENTAL_INPLACESCAN
2308     PERL_UNUSED_ARG(flags);
2309     PERL_UNUSED_ARG(val);
2310 #endif
2311     DEBUG_PEEP("join",scan,depth);
2312     
2313     /* Skip NOTHING, merge EXACT*. */
2314     while (n &&
2315            ( PL_regkind[OP(n)] == NOTHING ||
2316              (stringok && (OP(n) == OP(scan))))
2317            && NEXT_OFF(n)
2318            && NEXT_OFF(scan) + NEXT_OFF(n) < I16_MAX) {
2319         
2320         if (OP(n) == TAIL || n > next)
2321             stringok = 0;
2322         if (PL_regkind[OP(n)] == NOTHING) {
2323             DEBUG_PEEP("skip:",n,depth);
2324             NEXT_OFF(scan) += NEXT_OFF(n);
2325             next = n + NODE_STEP_REGNODE;
2326 #ifdef DEBUGGING
2327             if (stringok)
2328                 stop = n;
2329 #endif
2330             n = regnext(n);
2331         }
2332         else if (stringok) {
2333             const unsigned int oldl = STR_LEN(scan);
2334             regnode * const nnext = regnext(n);
2335             
2336             DEBUG_PEEP("merg",n,depth);
2337             
2338             merged++;
2339             if (oldl + STR_LEN(n) > U8_MAX)
2340                 break;
2341             NEXT_OFF(scan) += NEXT_OFF(n);
2342             STR_LEN(scan) += STR_LEN(n);
2343             next = n + NODE_SZ_STR(n);
2344             /* Now we can overwrite *n : */
2345             Move(STRING(n), STRING(scan) + oldl, STR_LEN(n), char);
2346 #ifdef DEBUGGING
2347             stop = next - 1;
2348 #endif
2349             n = nnext;
2350             if (stopnow) break;
2351         }
2352
2353 #ifdef EXPERIMENTAL_INPLACESCAN
2354         if (flags && !NEXT_OFF(n)) {
2355             DEBUG_PEEP("atch", val, depth);
2356             if (reg_off_by_arg[OP(n)]) {
2357                 ARG_SET(n, val - n);
2358             }
2359             else {
2360                 NEXT_OFF(n) = val - n;
2361             }
2362             stopnow = 1;
2363         }
2364 #endif
2365     }
2366     
2367     if (UTF && ( OP(scan) == EXACTF ) && ( STR_LEN(scan) >= 6 ) ) {
2368     /*
2369     Two problematic code points in Unicode casefolding of EXACT nodes:
2370     
2371     U+0390 - GREEK SMALL LETTER IOTA WITH DIALYTIKA AND TONOS
2372     U+03B0 - GREEK SMALL LETTER UPSILON WITH DIALYTIKA AND TONOS
2373     
2374     which casefold to
2375     
2376     Unicode                      UTF-8
2377     
2378     U+03B9 U+0308 U+0301         0xCE 0xB9 0xCC 0x88 0xCC 0x81
2379     U+03C5 U+0308 U+0301         0xCF 0x85 0xCC 0x88 0xCC 0x81
2380     
2381     This means that in case-insensitive matching (or "loose matching",
2382     as Unicode calls it), an EXACTF of length six (the UTF-8 encoded byte
2383     length of the above casefolded versions) can match a target string
2384     of length two (the byte length of UTF-8 encoded U+0390 or U+03B0).
2385     This would rather mess up the minimum length computation.
2386     
2387     What we'll do is to look for the tail four bytes, and then peek
2388     at the preceding two bytes to see whether we need to decrease
2389     the minimum length by four (six minus two).
2390     
2391     Thanks to the design of UTF-8, there cannot be false matches:
2392     A sequence of valid UTF-8 bytes cannot be a subsequence of
2393     another valid sequence of UTF-8 bytes.
2394     
2395     */
2396          char * const s0 = STRING(scan), *s, *t;
2397          char * const s1 = s0 + STR_LEN(scan) - 1;
2398          char * const s2 = s1 - 4;
2399 #ifdef EBCDIC /* RD tunifold greek 0390 and 03B0 */
2400          const char t0[] = "\xaf\x49\xaf\x42";
2401 #else
2402          const char t0[] = "\xcc\x88\xcc\x81";
2403 #endif
2404          const char * const t1 = t0 + 3;
2405     
2406          for (s = s0 + 2;
2407               s < s2 && (t = ninstr(s, s1, t0, t1));
2408               s = t + 4) {
2409 #ifdef EBCDIC
2410               if (((U8)t[-1] == 0x68 && (U8)t[-2] == 0xB4) ||
2411                   ((U8)t[-1] == 0x46 && (U8)t[-2] == 0xB5))
2412 #else
2413               if (((U8)t[-1] == 0xB9 && (U8)t[-2] == 0xCE) ||
2414                   ((U8)t[-1] == 0x85 && (U8)t[-2] == 0xCF))
2415 #endif
2416                    *min -= 4;
2417          }
2418     }
2419     
2420 #ifdef DEBUGGING
2421     /* Allow dumping */
2422     n = scan + NODE_SZ_STR(scan);
2423     while (n <= stop) {
2424         if (PL_regkind[OP(n)] != NOTHING || OP(n) == NOTHING) {
2425             OP(n) = OPTIMIZED;
2426             NEXT_OFF(n) = 0;
2427         }
2428         n++;
2429     }
2430 #endif
2431     DEBUG_OPTIMISE_r(if (merged){DEBUG_PEEP("finl",scan,depth)});
2432     return stopnow;
2433 }
2434
2435 /* REx optimizer.  Converts nodes into quickier variants "in place".
2436    Finds fixed substrings.  */
2437
2438 /* Stops at toplevel WHILEM as well as at "last". At end *scanp is set
2439    to the position after last scanned or to NULL. */
2440
2441 #define INIT_AND_WITHP \
2442     assert(!and_withp); \
2443     Newx(and_withp,1,struct regnode_charclass_class); \
2444     SAVEFREEPV(and_withp)
2445
2446 /* this is a chain of data about sub patterns we are processing that
2447    need to be handled seperately/specially in study_chunk. Its so
2448    we can simulate recursion without losing state.  */
2449 struct scan_frame;
2450 typedef struct scan_frame {
2451     regnode *last;  /* last node to process in this frame */
2452     regnode *next;  /* next node to process when last is reached */
2453     struct scan_frame *prev; /*previous frame*/
2454     I32 stop; /* what stopparen do we use */
2455 } scan_frame;
2456
2457
2458 #define SCAN_COMMIT(s, data, m) scan_commit(s, data, m, is_inf)
2459
2460 #define CASE_SYNST_FNC(nAmE)                                       \
2461 case nAmE:                                                         \
2462     if (flags & SCF_DO_STCLASS_AND) {                              \
2463             for (value = 0; value < 256; value++)                  \
2464                 if (!is_ ## nAmE ## _cp(value))                       \
2465                     ANYOF_BITMAP_CLEAR(data->start_class, value);  \
2466     }                                                              \
2467     else {                                                         \
2468             for (value = 0; value < 256; value++)                  \
2469                 if (is_ ## nAmE ## _cp(value))                        \
2470                     ANYOF_BITMAP_SET(data->start_class, value);    \
2471     }                                                              \
2472     break;                                                         \
2473 case N ## nAmE:                                                    \
2474     if (flags & SCF_DO_STCLASS_AND) {                              \
2475             for (value = 0; value < 256; value++)                   \
2476                 if (is_ ## nAmE ## _cp(value))                         \
2477                     ANYOF_BITMAP_CLEAR(data->start_class, value);   \
2478     }                                                               \
2479     else {                                                          \
2480             for (value = 0; value < 256; value++)                   \
2481                 if (!is_ ## nAmE ## _cp(value))                        \
2482                     ANYOF_BITMAP_SET(data->start_class, value);     \
2483     }                                                               \
2484     break
2485
2486
2487
2488 STATIC I32
2489 S_study_chunk(pTHX_ RExC_state_t *pRExC_state, regnode **scanp,
2490                         I32 *minlenp, I32 *deltap,
2491                         regnode *last,
2492                         scan_data_t *data,
2493                         I32 stopparen,
2494                         U8* recursed,
2495                         struct regnode_charclass_class *and_withp,
2496                         U32 flags, U32 depth)
2497                         /* scanp: Start here (read-write). */
2498                         /* deltap: Write maxlen-minlen here. */
2499                         /* last: Stop before this one. */
2500                         /* data: string data about the pattern */
2501                         /* stopparen: treat close N as END */
2502                         /* recursed: which subroutines have we recursed into */
2503                         /* and_withp: Valid if flags & SCF_DO_STCLASS_OR */
2504 {
2505     dVAR;
2506     I32 min = 0, pars = 0, code;
2507     regnode *scan = *scanp, *next;
2508     I32 delta = 0;
2509     int is_inf = (flags & SCF_DO_SUBSTR) && (data->flags & SF_IS_INF);
2510     int is_inf_internal = 0;            /* The studied chunk is infinite */
2511     I32 is_par = OP(scan) == OPEN ? ARG(scan) : 0;
2512     scan_data_t data_fake;
2513     SV *re_trie_maxbuff = NULL;
2514     regnode *first_non_open = scan;
2515     I32 stopmin = I32_MAX;
2516     scan_frame *frame = NULL;
2517     GET_RE_DEBUG_FLAGS_DECL;
2518
2519     PERL_ARGS_ASSERT_STUDY_CHUNK;
2520
2521 #ifdef DEBUGGING
2522     StructCopy(&zero_scan_data, &data_fake, scan_data_t);
2523 #endif
2524
2525     if ( depth == 0 ) {
2526         while (first_non_open && OP(first_non_open) == OPEN)
2527             first_non_open=regnext(first_non_open);
2528     }
2529
2530
2531   fake_study_recurse:
2532     while ( scan && OP(scan) != END && scan < last ){
2533         /* Peephole optimizer: */
2534         DEBUG_STUDYDATA("Peep:", data,depth);
2535         DEBUG_PEEP("Peep",scan,depth);
2536         JOIN_EXACT(scan,&min,0);
2537
2538         /* Follow the next-chain of the current node and optimize
2539            away all the NOTHINGs from it.  */
2540         if (OP(scan) != CURLYX) {
2541             const int max = (reg_off_by_arg[OP(scan)]
2542                        ? I32_MAX
2543                        /* I32 may be smaller than U16 on CRAYs! */
2544                        : (I32_MAX < U16_MAX ? I32_MAX : U16_MAX));
2545             int off = (reg_off_by_arg[OP(scan)] ? ARG(scan) : NEXT_OFF(scan));
2546             int noff;
2547             regnode *n = scan;
2548         
2549             /* Skip NOTHING and LONGJMP. */
2550             while ((n = regnext(n))
2551                    && ((PL_regkind[OP(n)] == NOTHING && (noff = NEXT_OFF(n)))
2552                        || ((OP(n) == LONGJMP) && (noff = ARG(n))))
2553                    && off + noff < max)
2554                 off += noff;
2555             if (reg_off_by_arg[OP(scan)])
2556                 ARG(scan) = off;
2557             else
2558                 NEXT_OFF(scan) = off;
2559         }
2560
2561
2562
2563         /* The principal pseudo-switch.  Cannot be a switch, since we
2564            look into several different things.  */
2565         if (OP(scan) == BRANCH || OP(scan) == BRANCHJ
2566                    || OP(scan) == IFTHEN) {
2567             next = regnext(scan);
2568             code = OP(scan);
2569             /* demq: the op(next)==code check is to see if we have "branch-branch" AFAICT */
2570         
2571             if (OP(next) == code || code == IFTHEN) {
2572                 /* NOTE - There is similar code to this block below for handling
2573                    TRIE nodes on a re-study.  If you change stuff here check there
2574                    too. */
2575                 I32 max1 = 0, min1 = I32_MAX, num = 0;
2576                 struct regnode_charclass_class accum;
2577                 regnode * const startbranch=scan;
2578                 
2579                 if (flags & SCF_DO_SUBSTR)
2580                     SCAN_COMMIT(pRExC_state, data, minlenp); /* Cannot merge strings after this. */
2581                 if (flags & SCF_DO_STCLASS)
2582                     cl_init_zero(pRExC_state, &accum);
2583
2584                 while (OP(scan) == code) {
2585                     I32 deltanext, minnext, f = 0, fake;
2586                     struct regnode_charclass_class this_class;
2587
2588                     num++;
2589                     data_fake.flags = 0;
2590                     if (data) {
2591                         data_fake.whilem_c = data->whilem_c;
2592                         data_fake.last_closep = data->last_closep;
2593                     }
2594                     else
2595                         data_fake.last_closep = &fake;
2596
2597                     data_fake.pos_delta = delta;
2598                     next = regnext(scan);
2599                     scan = NEXTOPER(scan);
2600                     if (code != BRANCH)
2601                         scan = NEXTOPER(scan);
2602                     if (flags & SCF_DO_STCLASS) {
2603                         cl_init(pRExC_state, &this_class);
2604                         data_fake.start_class = &this_class;
2605                         f = SCF_DO_STCLASS_AND;
2606                     }
2607                     if (flags & SCF_WHILEM_VISITED_POS)
2608                         f |= SCF_WHILEM_VISITED_POS;
2609
2610                     /* we suppose the run is continuous, last=next...*/
2611                     minnext = study_chunk(pRExC_state, &scan, minlenp, &deltanext,
2612                                           next, &data_fake,
2613                                           stopparen, recursed, NULL, f,depth+1);
2614                     if (min1 > minnext)
2615                         min1 = minnext;
2616                     if (max1 < minnext + deltanext)
2617                         max1 = minnext + deltanext;
2618                     if (deltanext == I32_MAX)
2619                         is_inf = is_inf_internal = 1;
2620                     scan = next;
2621                     if (data_fake.flags & (SF_HAS_PAR|SF_IN_PAR))
2622                         pars++;
2623                     if (data_fake.flags & SCF_SEEN_ACCEPT) {
2624                         if ( stopmin > minnext) 
2625                             stopmin = min + min1;
2626                         flags &= ~SCF_DO_SUBSTR;
2627                         if (data)
2628                             data->flags |= SCF_SEEN_ACCEPT;
2629                     }
2630                     if (data) {
2631                         if (data_fake.flags & SF_HAS_EVAL)
2632                             data->flags |= SF_HAS_EVAL;
2633                         data->whilem_c = data_fake.whilem_c;
2634                     }
2635                     if (flags & SCF_DO_STCLASS)
2636                         cl_or(pRExC_state, &accum, &this_class);
2637                 }
2638                 if (code == IFTHEN && num < 2) /* Empty ELSE branch */
2639                     min1 = 0;
2640                 if (flags & SCF_DO_SUBSTR) {
2641                     data->pos_min += min1;
2642                     data->pos_delta += max1 - min1;
2643                     if (max1 != min1 || is_inf)
2644                         data->longest = &(data->longest_float);
2645                 }
2646                 min += min1;
2647                 delta += max1 - min1;
2648                 if (flags & SCF_DO_STCLASS_OR) {
2649                     cl_or(pRExC_state, data->start_class, &accum);
2650                     if (min1) {
2651                         cl_and(data->start_class, and_withp);
2652                         flags &= ~SCF_DO_STCLASS;
2653                     }
2654                 }
2655                 else if (flags & SCF_DO_STCLASS_AND) {
2656                     if (min1) {
2657                         cl_and(data->start_class, &accum);
2658                         flags &= ~SCF_DO_STCLASS;
2659                     }
2660                     else {
2661                         /* Switch to OR mode: cache the old value of
2662                          * data->start_class */
2663                         INIT_AND_WITHP;
2664                         StructCopy(data->start_class, and_withp,
2665                                    struct regnode_charclass_class);
2666                         flags &= ~SCF_DO_STCLASS_AND;
2667                         StructCopy(&accum, data->start_class,
2668                                    struct regnode_charclass_class);
2669                         flags |= SCF_DO_STCLASS_OR;
2670                         data->start_class->flags |= ANYOF_EOS;
2671                     }
2672                 }
2673
2674                 if (PERL_ENABLE_TRIE_OPTIMISATION && OP( startbranch ) == BRANCH ) {
2675                 /* demq.
2676
2677                    Assuming this was/is a branch we are dealing with: 'scan' now
2678                    points at the item that follows the branch sequence, whatever
2679                    it is. We now start at the beginning of the sequence and look
2680                    for subsequences of
2681
2682                    BRANCH->EXACT=>x1
2683                    BRANCH->EXACT=>x2
2684                    tail
2685
2686                    which would be constructed from a pattern like /A|LIST|OF|WORDS/
2687
2688                    If we can find such a subseqence we need to turn the first
2689                    element into a trie and then add the subsequent branch exact
2690                    strings to the trie.
2691
2692                    We have two cases
2693
2694                      1. patterns where the whole set of branch can be converted. 
2695
2696                      2. patterns where only a subset can be converted.
2697
2698                    In case 1 we can replace the whole set with a single regop
2699                    for the trie. In case 2 we need to keep the start and end
2700                    branchs so
2701
2702                      'BRANCH EXACT; BRANCH EXACT; BRANCH X'
2703                      becomes BRANCH TRIE; BRANCH X;
2704
2705                   There is an additional case, that being where there is a 
2706                   common prefix, which gets split out into an EXACT like node
2707                   preceding the TRIE node.
2708
2709                   If x(1..n)==tail then we can do a simple trie, if not we make
2710                   a "jump" trie, such that when we match the appropriate word
2711                   we "jump" to the appopriate tail node. Essentailly we turn
2712                   a nested if into a case structure of sorts.
2713
2714                 */
2715                 
2716                     int made=0;
2717                     if (!re_trie_maxbuff) {
2718                         re_trie_maxbuff = get_sv(RE_TRIE_MAXBUF_NAME, 1);
2719                         if (!SvIOK(re_trie_maxbuff))
2720                             sv_setiv(re_trie_maxbuff, RE_TRIE_MAXBUF_INIT);
2721                     }
2722                     if ( SvIV(re_trie_maxbuff)>=0  ) {
2723                         regnode *cur;
2724                         regnode *first = (regnode *)NULL;
2725                         regnode *last = (regnode *)NULL;
2726                         regnode *tail = scan;
2727                         U8 optype = 0;
2728                         U32 count=0;
2729
2730 #ifdef DEBUGGING
2731                         SV * const mysv = sv_newmortal();       /* for dumping */
2732 #endif
2733                         /* var tail is used because there may be a TAIL
2734                            regop in the way. Ie, the exacts will point to the
2735                            thing following the TAIL, but the last branch will
2736                            point at the TAIL. So we advance tail. If we
2737                            have nested (?:) we may have to move through several
2738                            tails.
2739                          */
2740
2741                         while ( OP( tail ) == TAIL ) {
2742                             /* this is the TAIL generated by (?:) */
2743                             tail = regnext( tail );
2744                         }
2745
2746                         
2747                         DEBUG_OPTIMISE_r({
2748                             regprop(RExC_rx, mysv, tail );
2749                             PerlIO_printf( Perl_debug_log, "%*s%s%s\n",
2750                                 (int)depth * 2 + 2, "", 
2751                                 "Looking for TRIE'able sequences. Tail node is: ", 
2752                                 SvPV_nolen_const( mysv )
2753                             );
2754                         });
2755                         
2756                         /*
2757
2758                            step through the branches, cur represents each
2759                            branch, noper is the first thing to be matched
2760                            as part of that branch and noper_next is the
2761                            regnext() of that node. if noper is an EXACT
2762                            and noper_next is the same as scan (our current
2763                            position in the regex) then the EXACT branch is
2764                            a possible optimization target. Once we have
2765                            two or more consequetive such branches we can
2766                            create a trie of the EXACT's contents and stich
2767                            it in place. If the sequence represents all of
2768                            the branches we eliminate the whole thing and
2769                            replace it with a single TRIE. If it is a
2770                            subsequence then we need to stitch it in. This
2771                            means the first branch has to remain, and needs
2772                            to be repointed at the item on the branch chain
2773                            following the last branch optimized. This could
2774                            be either a BRANCH, in which case the
2775                            subsequence is internal, or it could be the
2776                            item following the branch sequence in which
2777                            case the subsequence is at the end.
2778
2779                         */
2780
2781                         /* dont use tail as the end marker for this traverse */
2782                         for ( cur = startbranch ; cur != scan ; cur = regnext( cur ) ) {
2783                             regnode * const noper = NEXTOPER( cur );
2784 #if defined(DEBUGGING) || defined(NOJUMPTRIE)
2785                             regnode * const noper_next = regnext( noper );
2786 #endif
2787
2788                             DEBUG_OPTIMISE_r({
2789                                 regprop(RExC_rx, mysv, cur);
2790                                 PerlIO_printf( Perl_debug_log, "%*s- %s (%d)",
2791                                    (int)depth * 2 + 2,"", SvPV_nolen_const( mysv ), REG_NODE_NUM(cur) );
2792
2793                                 regprop(RExC_rx, mysv, noper);
2794                                 PerlIO_printf( Perl_debug_log, " -> %s",
2795                                     SvPV_nolen_const(mysv));
2796
2797                                 if ( noper_next ) {
2798                                   regprop(RExC_rx, mysv, noper_next );
2799                                   PerlIO_printf( Perl_debug_log,"\t=> %s\t",
2800                                     SvPV_nolen_const(mysv));
2801                                 }
2802                                 PerlIO_printf( Perl_debug_log, "(First==%d,Last==%d,Cur==%d)\n",
2803                                    REG_NODE_NUM(first), REG_NODE_NUM(last), REG_NODE_NUM(cur) );
2804                             });
2805                             if ( (((first && optype!=NOTHING) ? OP( noper ) == optype
2806                                          : PL_regkind[ OP( noper ) ] == EXACT )
2807                                   || OP(noper) == NOTHING )
2808 #ifdef NOJUMPTRIE
2809                                   && noper_next == tail
2810 #endif
2811                                   && count < U16_MAX)
2812                             {
2813                                 count++;
2814                                 if ( !first || optype == NOTHING ) {
2815                                     if (!first) first = cur;
2816                                     optype = OP( noper );
2817                                 } else {
2818                                     last = cur;
2819                                 }
2820                             } else {
2821 /* 
2822     Currently we assume that the trie can handle unicode and ascii
2823     matches fold cased matches. If this proves true then the following
2824     define will prevent tries in this situation. 
2825     
2826     #define TRIE_TYPE_IS_SAFE (UTF || optype==EXACT)
2827 */
2828 #define TRIE_TYPE_IS_SAFE 1
2829                                 if ( last && TRIE_TYPE_IS_SAFE ) {
2830                                     make_trie( pRExC_state, 
2831                                             startbranch, first, cur, tail, count, 
2832                                             optype, depth+1 );
2833                                 }
2834                                 if ( PL_regkind[ OP( noper ) ] == EXACT
2835 #ifdef NOJUMPTRIE
2836                                      && noper_next == tail
2837 #endif
2838                                 ){
2839                                     count = 1;
2840                                     first = cur;
2841                                     optype = OP( noper );
2842                                 } else {
2843                                     count = 0;
2844                                     first = NULL;
2845                                     optype = 0;
2846                                 }
2847                                 last = NULL;
2848                             }
2849                         }
2850                         DEBUG_OPTIMISE_r({
2851                             regprop(RExC_rx, mysv, cur);
2852                             PerlIO_printf( Perl_debug_log,
2853                               "%*s- %s (%d) <SCAN FINISHED>\n", (int)depth * 2 + 2,
2854                               "", SvPV_nolen_const( mysv ),REG_NODE_NUM(cur));
2855
2856                         });
2857                         
2858                         if ( last && TRIE_TYPE_IS_SAFE ) {
2859                             made= make_trie( pRExC_state, startbranch, first, scan, tail, count, optype, depth+1 );
2860 #ifdef TRIE_STUDY_OPT   
2861                             if ( ((made == MADE_EXACT_TRIE && 
2862                                  startbranch == first) 
2863                                  || ( first_non_open == first )) && 
2864                                  depth==0 ) {
2865                                 flags |= SCF_TRIE_RESTUDY;
2866                                 if ( startbranch == first 
2867                                      && scan == tail ) 
2868                                 {
2869                                     RExC_seen &=~REG_TOP_LEVEL_BRANCHES;
2870                                 }
2871                             }
2872 #endif
2873                         }
2874                     }
2875                     
2876                 } /* do trie */
2877                 
2878             }
2879             else if ( code == BRANCHJ ) {  /* single branch is optimized. */
2880                 scan = NEXTOPER(NEXTOPER(scan));
2881             } else                      /* single branch is optimized. */
2882                 scan = NEXTOPER(scan);
2883             continue;
2884         } else if (OP(scan) == SUSPEND || OP(scan) == GOSUB || OP(scan) == GOSTART) {
2885             scan_frame *newframe = NULL;
2886             I32 paren;
2887             regnode *start;
2888             regnode *end;
2889
2890             if (OP(scan) != SUSPEND) {
2891             /* set the pointer */
2892                 if (OP(scan) == GOSUB) {
2893                     paren = ARG(scan);
2894                     RExC_recurse[ARG2L(scan)] = scan;
2895                     start = RExC_open_parens[paren-1];
2896                     end   = RExC_close_parens[paren-1];
2897                 } else {
2898                     paren = 0;
2899                     start = RExC_rxi->program + 1;
2900                     end   = RExC_opend;
2901                 }
2902                 if (!recursed) {
2903                     Newxz(recursed, (((RExC_npar)>>3) +1), U8);
2904                     SAVEFREEPV(recursed);
2905                 }
2906                 if (!PAREN_TEST(recursed,paren+1)) {
2907                     PAREN_SET(recursed,paren+1);
2908                     Newx(newframe,1,scan_frame);
2909                 } else {
2910                     if (flags & SCF_DO_SUBSTR) {
2911                         SCAN_COMMIT(pRExC_state,data,minlenp);
2912                         data->longest = &(data->longest_float);
2913                     }
2914                     is_inf = is_inf_internal = 1;
2915                     if (flags & SCF_DO_STCLASS_OR) /* Allow everything */
2916                         cl_anything(pRExC_state, data->start_class);
2917                     flags &= ~SCF_DO_STCLASS;
2918                 }
2919             } else {
2920                 Newx(newframe,1,scan_frame);
2921                 paren = stopparen;
2922                 start = scan+2;
2923                 end = regnext(scan);
2924             }
2925             if (newframe) {
2926                 assert(start);
2927                 assert(end);
2928                 SAVEFREEPV(newframe);
2929                 newframe->next = regnext(scan);
2930                 newframe->last = last;
2931                 newframe->stop = stopparen;
2932                 newframe->prev = frame;
2933
2934                 frame = newframe;
2935                 scan =  start;
2936                 stopparen = paren;
2937                 last = end;
2938
2939                 continue;
2940             }
2941         }
2942         else if (OP(scan) == EXACT) {
2943             I32 l = STR_LEN(scan);
2944             UV uc;
2945             if (UTF) {
2946                 const U8 * const s = (U8*)STRING(scan);
2947                 l = utf8_length(s, s + l);
2948                 uc = utf8_to_uvchr(s, NULL);
2949             } else {
2950                 uc = *((U8*)STRING(scan));
2951             }
2952             min += l;
2953             if (flags & SCF_DO_SUBSTR) { /* Update longest substr. */
2954                 /* The code below prefers earlier match for fixed
2955                    offset, later match for variable offset.  */
2956                 if (data->last_end == -1) { /* Update the start info. */
2957                     data->last_start_min = data->pos_min;
2958                     data->last_start_max = is_inf
2959                         ? I32_MAX : data->pos_min + data->pos_delta;
2960                 }
2961                 sv_catpvn(data->last_found, STRING(scan), STR_LEN(scan));
2962                 if (UTF)
2963                     SvUTF8_on(data->last_found);
2964                 {
2965                     SV * const sv = data->last_found;
2966                     MAGIC * const mg = SvUTF8(sv) && SvMAGICAL(sv) ?
2967                         mg_find(sv, PERL_MAGIC_utf8) : NULL;
2968                     if (mg && mg->mg_len >= 0)
2969                         mg->mg_len += utf8_length((U8*)STRING(scan),
2970                                                   (U8*)STRING(scan)+STR_LEN(scan));
2971                 }
2972                 data->last_end = data->pos_min + l;
2973                 data->pos_min += l; /* As in the first entry. */
2974                 data->flags &= ~SF_BEFORE_EOL;
2975             }
2976             if (flags & SCF_DO_STCLASS_AND) {
2977                 /* Check whether it is compatible with what we know already! */
2978                 int compat = 1;
2979
2980                 if (uc >= 0x100 ||
2981                     (!(data->start_class->flags & (ANYOF_CLASS | ANYOF_LOCALE))
2982                     && !ANYOF_BITMAP_TEST(data->start_class, uc)
2983                     && (!(data->start_class->flags & ANYOF_FOLD)
2984                         || !ANYOF_BITMAP_TEST(data->start_class, PL_fold[uc])))
2985                     )
2986                     compat = 0;
2987                 ANYOF_CLASS_ZERO(data->start_class);
2988                 ANYOF_BITMAP_ZERO(data->start_class);
2989                 if (compat)
2990                     ANYOF_BITMAP_SET(data->start_class, uc);
2991                 data->start_class->flags &= ~ANYOF_EOS;
2992                 if (uc < 0x100)
2993                   data->start_class->flags &= ~ANYOF_UNICODE_ALL;
2994             }
2995             else if (flags & SCF_DO_STCLASS_OR) {
2996                 /* false positive possible if the class is case-folded */
2997                 if (uc < 0x100)
2998                     ANYOF_BITMAP_SET(data->start_class, uc);
2999                 else
3000                     data->start_class->flags |= ANYOF_UNICODE_ALL;
3001                 data->start_class->flags &= ~ANYOF_EOS;
3002                 cl_and(data->start_class, and_withp);
3003             }
3004             flags &= ~SCF_DO_STCLASS;
3005         }
3006         else if (PL_regkind[OP(scan)] == EXACT) { /* But OP != EXACT! */
3007             I32 l = STR_LEN(scan);
3008             UV uc = *((U8*)STRING(scan));
3009
3010             /* Search for fixed substrings supports EXACT only. */
3011             if (flags & SCF_DO_SUBSTR) {
3012                 assert(data);
3013                 SCAN_COMMIT(pRExC_state, data, minlenp);
3014             }
3015             if (UTF) {
3016                 const U8 * const s = (U8 *)STRING(scan);
3017                 l = utf8_length(s, s + l);
3018                 uc = utf8_to_uvchr(s, NULL);
3019             }
3020             min += l;
3021             if (flags & SCF_DO_SUBSTR)
3022                 data->pos_min += l;
3023             if (flags & SCF_DO_STCLASS_AND) {
3024                 /* Check whether it is compatible with what we know already! */
3025                 int compat = 1;
3026
3027                 if (uc >= 0x100 ||
3028                     (!(data->start_class->flags & (ANYOF_CLASS | ANYOF_LOCALE))
3029                     && !ANYOF_BITMAP_TEST(data->start_class, uc)
3030                      && !ANYOF_BITMAP_TEST(data->start_class, PL_fold[uc])))
3031                     compat = 0;
3032                 ANYOF_CLASS_ZERO(data->start_class);
3033                 ANYOF_BITMAP_ZERO(data->start_class);
3034                 if (compat) {
3035                     ANYOF_BITMAP_SET(data->start_class, uc);
3036                     data->start_class->flags &= ~ANYOF_EOS;
3037                     data->start_class->flags |= ANYOF_FOLD;
3038                     if (OP(scan) == EXACTFL)
3039                         data->start_class->flags |= ANYOF_LOCALE;
3040                 }
3041             }
3042             else if (flags & SCF_DO_STCLASS_OR) {
3043                 if (data->start_class->flags & ANYOF_FOLD) {
3044                     /* false positive possible if the class is case-folded.
3045                        Assume that the locale settings are the same... */
3046                     if (uc < 0x100)
3047                         ANYOF_BITMAP_SET(data->start_class, uc);
3048                     data->start_class->flags &= ~ANYOF_EOS;
3049                 }
3050                 cl_and(data->start_class, and_withp);
3051             }
3052             flags &= ~SCF_DO_STCLASS;
3053         }
3054         else if (strchr((const char*)PL_varies,OP(scan))) {
3055             I32 mincount, maxcount, minnext, deltanext, fl = 0;
3056             I32 f = flags, pos_before = 0;
3057             regnode * const oscan = scan;
3058             struct regnode_charclass_class this_class;
3059             struct regnode_charclass_class *oclass = NULL;
3060             I32 next_is_eval = 0;
3061
3062             switch (PL_regkind[OP(scan)]) {
3063             case WHILEM:                /* End of (?:...)* . */
3064                 scan = NEXTOPER(scan);
3065                 goto finish;
3066             case PLUS:
3067                 if (flags & (SCF_DO_SUBSTR | SCF_DO_STCLASS)) {
3068                     next = NEXTOPER(scan);
3069                     if (OP(next) == EXACT || (flags & SCF_DO_STCLASS)) {
3070                         mincount = 1;
3071                         maxcount = REG_INFTY;
3072                         next = regnext(scan);
3073                         scan = NEXTOPER(scan);
3074                         goto do_curly;
3075                     }
3076                 }
3077                 if (flags & SCF_DO_SUBSTR)
3078                     data->pos_min++;
3079                 min++;
3080                 /* Fall through. */
3081             case STAR:
3082                 if (flags & SCF_DO_STCLASS) {
3083                     mincount = 0;
3084                     maxcount = REG_INFTY;
3085                     next = regnext(scan);
3086                     scan = NEXTOPER(scan);
3087                     goto do_curly;
3088                 }
3089                 is_inf = is_inf_internal = 1;
3090                 scan = regnext(scan);
3091                 if (flags & SCF_DO_SUBSTR) {
3092                     SCAN_COMMIT(pRExC_state, data, minlenp); /* Cannot extend fixed substrings */
3093                     data->longest = &(data->longest_float);
3094                 }
3095                 goto optimize_curly_tail;
3096             case CURLY:
3097                 if (stopparen>0 && (OP(scan)==CURLYN || OP(scan)==CURLYM)
3098                     && (scan->flags == stopparen))
3099                 {
3100                     mincount = 1;
3101                     maxcount = 1;
3102                 } else {
3103                     mincount = ARG1(scan);
3104                     maxcount = ARG2(scan);
3105                 }
3106                 next = regnext(scan);
3107                 if (OP(scan) == CURLYX) {
3108                     I32 lp = (data ? *(data->last_closep) : 0);
3109                     scan->flags = ((lp <= (I32)U8_MAX) ? (U8)lp : U8_MAX);
3110                 }
3111                 scan = NEXTOPER(scan) + EXTRA_STEP_2ARGS;
3112                 next_is_eval = (OP(scan) == EVAL);
3113               do_curly:
3114                 if (flags & SCF_DO_SUBSTR) {
3115                     if (mincount == 0) SCAN_COMMIT(pRExC_state,data,minlenp); /* Cannot extend fixed substrings */
3116                     pos_before = data->pos_min;
3117                 }
3118                 if (data) {
3119                     fl = data->flags;
3120                     data->flags &= ~(SF_HAS_PAR|SF_IN_PAR|SF_HAS_EVAL);
3121                     if (is_inf)
3122                         data->flags |= SF_IS_INF;
3123                 }
3124                 if (flags & SCF_DO_STCLASS) {
3125                     cl_init(pRExC_state, &this_class);
3126                     oclass = data->start_class;
3127                     data->start_class = &this_class;
3128                     f |= SCF_DO_STCLASS_AND;
3129                     f &= ~SCF_DO_STCLASS_OR;
3130                 }
3131                 /* These are the cases when once a subexpression
3132                    fails at a particular position, it cannot succeed
3133                    even after backtracking at the enclosing scope.
3134                 
3135                    XXXX what if minimal match and we are at the
3136                         initial run of {n,m}? */
3137                 if ((mincount != maxcount - 1) && (maxcount != REG_INFTY))
3138                     f &= ~SCF_WHILEM_VISITED_POS;
3139
3140                 /* This will finish on WHILEM, setting scan, or on NULL: */
3141                 minnext = study_chunk(pRExC_state, &scan, minlenp, &deltanext, 
3142                                       last, data, stopparen, recursed, NULL,
3143                                       (mincount == 0
3144                                         ? (f & ~SCF_DO_SUBSTR) : f),depth+1);
3145
3146                 if (flags & SCF_DO_STCLASS)
3147                     data->start_class = oclass;
3148                 if (mincount == 0 || minnext == 0) {
3149                     if (flags & SCF_DO_STCLASS_OR) {
3150                         cl_or(pRExC_state, data->start_class, &this_class);
3151                     }
3152                     else if (flags & SCF_DO_STCLASS_AND) {
3153                         /* Switch to OR mode: cache the old value of
3154                          * data->start_class */
3155                         INIT_AND_WITHP;
3156                         StructCopy(data->start_class, and_withp,
3157                                    struct regnode_charclass_class);
3158                         flags &= ~SCF_DO_STCLASS_AND;
3159                         StructCopy(&this_class, data->start_class,
3160                                    struct regnode_charclass_class);
3161                         flags |= SCF_DO_STCLASS_OR;
3162                         data->start_class->flags |= ANYOF_EOS;
3163                     }
3164                 } else {                /* Non-zero len */
3165                     if (flags & SCF_DO_STCLASS_OR) {
3166                         cl_or(pRExC_state, data->start_class, &this_class);
3167                         cl_and(data->start_class, and_withp);
3168                     }
3169                     else if (flags & SCF_DO_STCLASS_AND)
3170                         cl_and(data->start_class, &this_class);
3171                     flags &= ~SCF_DO_STCLASS;
3172                 }
3173                 if (!scan)              /* It was not CURLYX, but CURLY. */
3174                     scan = next;
3175                 if ( /* ? quantifier ok, except for (?{ ... }) */
3176                     (next_is_eval || !(mincount == 0 && maxcount == 1))
3177                     && (minnext == 0) && (deltanext == 0)
3178                     && data && !(data->flags & (SF_HAS_PAR|SF_IN_PAR))
3179                     && maxcount <= REG_INFTY/3 /* Complement check for big count */
3180                     && ckWARN(WARN_REGEXP))
3181                 {
3182                     vWARN(RExC_parse,
3183                           "Quantifier unexpected on zero-length expression");
3184                 }
3185
3186                 min += minnext * mincount;
3187                 is_inf_internal |= ((maxcount == REG_INFTY
3188                                      && (minnext + deltanext) > 0)
3189                                     || deltanext == I32_MAX);
3190                 is_inf |= is_inf_internal;
3191                 delta += (minnext + deltanext) * maxcount - minnext * mincount;
3192
3193                 /* Try powerful optimization CURLYX => CURLYN. */
3194                 if (  OP(oscan) == CURLYX && data
3195                       && data->flags & SF_IN_PAR
3196                       && !(data->flags & SF_HAS_EVAL)
3197                       && !deltanext && minnext == 1 ) {
3198                     /* Try to optimize to CURLYN.  */
3199                     regnode *nxt = NEXTOPER(oscan) + EXTRA_STEP_2ARGS;
3200                     regnode * const nxt1 = nxt;
3201 #ifdef DEBUGGING
3202                     regnode *nxt2;
3203 #endif
3204
3205                     /* Skip open. */
3206                     nxt = regnext(nxt);
3207                     if (!strchr((const char*)PL_simple,OP(nxt))
3208                         && !(PL_regkind[OP(nxt)] == EXACT
3209                              && STR_LEN(nxt) == 1))
3210                         goto nogo;
3211 #ifdef DEBUGGING
3212                     nxt2 = nxt;
3213 #endif
3214                     nxt = regnext(nxt);
3215                     if (OP(nxt) != CLOSE)
3216                         goto nogo;
3217                     if (RExC_open_parens) {
3218                         RExC_open_parens[ARG(nxt1)-1]=oscan; /*open->CURLYM*/
3219                         RExC_close_parens[ARG(nxt1)-1]=nxt+2; /*close->while*/
3220                     }
3221                     /* Now we know that nxt2 is the only contents: */
3222                     oscan->flags = (U8)ARG(nxt);
3223                     OP(oscan) = CURLYN;
3224                     OP(nxt1) = NOTHING; /* was OPEN. */
3225
3226 #ifdef DEBUGGING
3227                     OP(nxt1 + 1) = OPTIMIZED; /* was count. */
3228                     NEXT_OFF(nxt1+ 1) = 0; /* just for consistancy. */
3229                     NEXT_OFF(nxt2) = 0; /* just for consistancy with CURLY. */
3230                     OP(nxt) = OPTIMIZED;        /* was CLOSE. */
3231                     OP(nxt + 1) = OPTIMIZED; /* was count. */
3232                     NEXT_OFF(nxt+ 1) = 0; /* just for consistancy. */
3233 #endif
3234                 }
3235               nogo:
3236
3237                 /* Try optimization CURLYX => CURLYM. */
3238                 if (  OP(oscan) == CURLYX && data
3239                       && !(data->flags & SF_HAS_PAR)
3240                       && !(data->flags & SF_HAS_EVAL)
3241                       && !deltanext     /* atom is fixed width */
3242                       && minnext != 0   /* CURLYM can't handle zero width */
3243                 ) {
3244                     /* XXXX How to optimize if data == 0? */
3245                     /* Optimize to a simpler form.  */
3246                     regnode *nxt = NEXTOPER(oscan) + EXTRA_STEP_2ARGS; /* OPEN */
3247                     regnode *nxt2;
3248
3249                     OP(oscan) = CURLYM;
3250                     while ( (nxt2 = regnext(nxt)) /* skip over embedded stuff*/
3251                             && (OP(nxt2) != WHILEM))
3252                         nxt = nxt2;
3253                     OP(nxt2)  = SUCCEED; /* Whas WHILEM */
3254                     /* Need to optimize away parenths. */
3255                     if (data->flags & SF_IN_PAR) {
3256                         /* Set the parenth number.  */
3257                         regnode *nxt1 = NEXTOPER(oscan) + EXTRA_STEP_2ARGS; /* OPEN*/
3258
3259                         if (OP(nxt) != CLOSE)
3260                             FAIL("Panic opt close");
3261                         oscan->flags = (U8)ARG(nxt);
3262                         if (RExC_open_parens) {
3263                             RExC_open_parens[ARG(nxt1)-1]=oscan; /*open->CURLYM*/
3264                             RExC_close_parens[ARG(nxt1)-1]=nxt2+1; /*close->NOTHING*/
3265                         }
3266                         OP(nxt1) = OPTIMIZED;   /* was OPEN. */
3267                         OP(nxt) = OPTIMIZED;    /* was CLOSE. */
3268
3269 #ifdef DEBUGGING
3270                         OP(nxt1 + 1) = OPTIMIZED; /* was count. */
3271                         OP(nxt + 1) = OPTIMIZED; /* was count. */
3272                         NEXT_OFF(nxt1 + 1) = 0; /* just for consistancy. */
3273                         NEXT_OFF(nxt + 1) = 0; /* just for consistancy. */
3274 #endif
3275 #if 0
3276                         while ( nxt1 && (OP(nxt1) != WHILEM)) {
3277                             regnode *nnxt = regnext(nxt1);
3278                         
3279                             if (nnxt == nxt) {
3280                                 if (reg_off_by_arg[OP(nxt1)])
3281                                     ARG_SET(nxt1, nxt2 - nxt1);
3282                                 else if (nxt2 - nxt1 < U16_MAX)
3283                                     NEXT_OFF(nxt1) = nxt2 - nxt1;
3284                                 else
3285                                     OP(nxt) = NOTHING;  /* Cannot beautify */
3286                             }
3287                             nxt1 = nnxt;
3288                         }
3289 #endif
3290                         /* Optimize again: */
3291                         study_chunk(pRExC_state, &nxt1, minlenp, &deltanext, nxt,
3292                                     NULL, stopparen, recursed, NULL, 0,depth+1);
3293                     }
3294                     else
3295                         oscan->flags = 0;
3296                 }
3297                 else if ((OP(oscan) == CURLYX)
3298                          && (flags & SCF_WHILEM_VISITED_POS)
3299                          /* See the comment on a similar expression above.
3300                             However, this time it not a subexpression
3301                             we care about, but the expression itself. */
3302                          && (maxcount == REG_INFTY)
3303                          && data && ++data->whilem_c < 16) {
3304                     /* This stays as CURLYX, we can put the count/of pair. */
3305                     /* Find WHILEM (as in regexec.c) */
3306                     regnode *nxt = oscan + NEXT_OFF(oscan);
3307
3308                     if (OP(PREVOPER(nxt)) == NOTHING) /* LONGJMP */
3309                         nxt += ARG(nxt);
3310                     PREVOPER(nxt)->flags = (U8)(data->whilem_c
3311                         | (RExC_whilem_seen << 4)); /* On WHILEM */
3312                 }
3313                 if (data && fl & (SF_HAS_PAR|SF_IN_PAR))
3314                     pars++;
3315                 if (flags & SCF_DO_SUBSTR) {
3316                     SV *last_str = NULL;
3317                     int counted = mincount != 0;
3318
3319                     if (data->last_end > 0 && mincount != 0) { /* Ends with a string. */
3320 #if defined(SPARC64_GCC_WORKAROUND)
3321                         I32 b = 0;
3322                         STRLEN l = 0;
3323                         const char *s = NULL;
3324                         I32 old = 0;
3325
3326                         if (pos_before >= data->last_start_min)
3327                             b = pos_before;
3328                         else
3329                             b = data->last_start_min;
3330
3331                         l = 0;
3332                         s = SvPV_const(data->last_found, l);
3333                         old = b - data->last_start_min;
3334
3335 #else
3336                         I32 b = pos_before >= data->last_start_min
3337                             ? pos_before : data->last_start_min;
3338                         STRLEN l;
3339                         const char * const s = SvPV_const(data->last_found, l);
3340                         I32 old = b - data->last_start_min;
3341 #endif
3342
3343                         if (UTF)
3344                             old = utf8_hop((U8*)s, old) - (U8*)s;
3345                         
3346                         l -= old;
3347                         /* Get the added string: */
3348                         last_str = newSVpvn_utf8(s  + old, l, UTF);
3349                         if (deltanext == 0 && pos_before == b) {
3350                             /* What was added is a constant string */
3351                             if (mincount > 1) {
3352                                 SvGROW(last_str, (mincount * l) + 1);
3353                                 repeatcpy(SvPVX(last_str) + l,
3354                                           SvPVX_const(last_str), l, mincount - 1);
3355                                 SvCUR_set(last_str, SvCUR(last_str) * mincount);
3356                                 /* Add additional parts. */
3357                                 SvCUR_set(data->last_found,
3358                                           SvCUR(data->last_found) - l);
3359                                 sv_catsv(data->last_found, last_str);
3360                                 {
3361                                     SV * sv = data->last_found;
3362                                     MAGIC *mg =
3363                                         SvUTF8(sv) && SvMAGICAL(sv) ?
3364                                         mg_find(sv, PERL_MAGIC_utf8) : NULL;
3365                                     if (mg && mg->mg_len >= 0)
3366                                         mg->mg_len += CHR_SVLEN(last_str) - l;
3367                                 }
3368                                 data->last_end += l * (mincount - 1);
3369                             }
3370                         } else {
3371                             /* start offset must point into the last copy */
3372                             data->last_start_min += minnext * (mincount - 1);
3373                             data->last_start_max += is_inf ? I32_MAX
3374                                 : (maxcount - 1) * (minnext + data->pos_delta);
3375                         }
3376                     }
3377                     /* It is counted once already... */
3378                     data->pos_min += minnext * (mincount - counted);
3379                     data->pos_delta += - counted * deltanext +
3380                         (minnext + deltanext) * maxcount - minnext * mincount;
3381                     if (mincount != maxcount) {
3382                          /* Cannot extend fixed substrings found inside
3383                             the group.  */
3384                         SCAN_COMMIT(pRExC_state,data,minlenp);
3385                         if (mincount && last_str) {
3386                             SV * const sv = data->last_found;
3387                             MAGIC * const mg = SvUTF8(sv) && SvMAGICAL(sv) ?
3388                                 mg_find(sv, PERL_MAGIC_utf8) : NULL;
3389
3390                             if (mg)
3391                                 mg->mg_len = -1;
3392                             sv_setsv(sv, last_str);
3393                             data->last_end = data->pos_min;
3394                             data->last_start_min =
3395                                 data->pos_min - CHR_SVLEN(last_str);
3396                             data->last_start_max = is_inf
3397                                 ? I32_MAX
3398                                 : data->pos_min + data->pos_delta
3399                                 - CHR_SVLEN(last_str);
3400                         }
3401                         data->longest = &(data->longest_float);
3402                     }
3403                     SvREFCNT_dec(last_str);
3404                 }
3405                 if (data && (fl & SF_HAS_EVAL))
3406                     data->flags |= SF_HAS_EVAL;
3407               optimize_curly_tail:
3408                 if (OP(oscan) != CURLYX) {
3409                     while (PL_regkind[OP(next = regnext(oscan))] == NOTHING
3410                            && NEXT_OFF(next))
3411                         NEXT_OFF(oscan) += NEXT_OFF(next);
3412                 }
3413                 continue;
3414             default:                    /* REF and CLUMP only? */
3415                 if (flags & SCF_DO_SUBSTR) {
3416                     SCAN_COMMIT(pRExC_state,data,minlenp);      /* Cannot expect anything... */
3417                     data->longest = &(data->longest_float);
3418                 }
3419                 is_inf = is_inf_internal = 1;
3420                 if (flags & SCF_DO_STCLASS_OR)
3421                     cl_anything(pRExC_state, data->start_class);
3422                 flags &= ~SCF_DO_STCLASS;
3423                 break;
3424             }
3425         }
3426         else if (OP(scan) == LNBREAK) {
3427             if (flags & SCF_DO_STCLASS) {
3428                 int value = 0;
3429                 data->start_class->flags &= ~ANYOF_EOS; /* No match on empty */
3430                 if (flags & SCF_DO_STCLASS_AND) {
3431                     for (value = 0; value < 256; value++)
3432                         if (!is_VERTWS_cp(value))
3433                             ANYOF_BITMAP_CLEAR(data->start_class, value);  
3434                 }                                                              
3435                 else {                                                         
3436                     for (value = 0; value < 256; value++)
3437                         if (is_VERTWS_cp(value))
3438                             ANYOF_BITMAP_SET(data->start_class, value);    
3439                 }                                                              
3440                 if (flags & SCF_DO_STCLASS_OR)
3441                     cl_and(data->start_class, and_withp);
3442                 flags &= ~SCF_DO_STCLASS;
3443             }
3444             min += 1;
3445             delta += 1;
3446             if (flags & SCF_DO_SUBSTR) {
3447                 SCAN_COMMIT(pRExC_state,data,minlenp);  /* Cannot expect anything... */
3448                 data->pos_min += 1;
3449                 data->pos_delta += 1;
3450                 data->longest = &(data->longest_float);
3451             }
3452             
3453         }
3454         else if (OP(scan) == FOLDCHAR) {
3455             int d = ARG(scan)==0xDF ? 1 : 2;
3456             flags &= ~SCF_DO_STCLASS;
3457             min += 1;
3458             delta += d;
3459             if (flags & SCF_DO_SUBSTR) {
3460                 SCAN_COMMIT(pRExC_state,data,minlenp);  /* Cannot expect anything... */
3461                 data->pos_min += 1;
3462                 data->pos_delta += d;
3463                 data->longest = &(data->longest_float);
3464             }
3465         }
3466         else if (strchr((const char*)PL_simple,OP(scan))) {
3467             int value = 0;
3468
3469             if (flags & SCF_DO_SUBSTR) {
3470                 SCAN_COMMIT(pRExC_state,data,minlenp);
3471                 data->pos_min++;
3472             }
3473             min++;
3474             if (flags & SCF_DO_STCLASS) {
3475                 data->start_class->flags &= ~ANYOF_EOS; /* No match on empty */
3476
3477                 /* Some of the logic below assumes that switching
3478                    locale on will only add false positives. */
3479                 switch (PL_regkind[OP(scan)]) {
3480                 case SANY:
3481                 default:
3482                   do_default:
3483                     /* Perl_croak(aTHX_ "panic: unexpected simple REx opcode %d", OP(scan)); */
3484                     if (flags & SCF_DO_STCLASS_OR) /* Allow everything */
3485                         cl_anything(pRExC_state, data->start_class);
3486                     break;
3487                 case REG_ANY:
3488                     if (OP(scan) == SANY)
3489                         goto do_default;
3490                     if (flags & SCF_DO_STCLASS_OR) { /* Everything but \n */
3491                         value = (ANYOF_BITMAP_TEST(data->start_class,'\n')
3492                                  || (data->start_class->flags & ANYOF_CLASS));
3493                         cl_anything(pRExC_state, data->start_class);
3494                     }
3495                     if (flags & SCF_DO_STCLASS_AND || !value)
3496                         ANYOF_BITMAP_CLEAR(data->start_class,'\n');
3497                     break;
3498                 case ANYOF:
3499                     if (flags & SCF_DO_STCLASS_AND)
3500                         cl_and(data->start_class,
3501                                (struct regnode_charclass_class*)scan);
3502                     else
3503                         cl_or(pRExC_state, data->start_class,
3504                               (struct regnode_charclass_class*)scan);
3505                     break;
3506                 case ALNUM:
3507                     if (flags & SCF_DO_STCLASS_AND) {
3508                         if (!(data->start_class->flags & ANYOF_LOCALE)) {
3509                             ANYOF_CLASS_CLEAR(data->start_class,ANYOF_NALNUM);
3510                             for (value = 0; value < 256; value++)
3511                                 if (!isALNUM(value))
3512                                     ANYOF_BITMAP_CLEAR(data->start_class, value);
3513                         }
3514                     }
3515                     else {
3516                         if (data->start_class->flags & ANYOF_LOCALE)
3517                             ANYOF_CLASS_SET(data->start_class,ANYOF_ALNUM);
3518                         else {
3519                             for (value = 0; value < 256; value++)
3520                                 if (isALNUM(value))
3521                                     ANYOF_BITMAP_SET(data->start_class, value);                 
3522                         }
3523                     }
3524                     break;
3525                 case ALNUML:
3526                     if (flags & SCF_DO_STCLASS_AND) {
3527                         if (data->start_class->flags & ANYOF_LOCALE)
3528                             ANYOF_CLASS_CLEAR(data->start_class,ANYOF_NALNUM);
3529                     }
3530                     else {
3531                         ANYOF_CLASS_SET(data->start_class,ANYOF_ALNUM);
3532                         data->start_class->flags |= ANYOF_LOCALE;
3533                     }
3534                     break;
3535                 case NALNUM:
3536                     if (flags & SCF_DO_STCLASS_AND) {
3537                         if (!(data->start_class->flags & ANYOF_LOCALE)) {
3538                             ANYOF_CLASS_CLEAR(data->start_class,ANYOF_ALNUM);
3539                             for (value = 0; value < 256; value++)
3540                                 if (isALNUM(value))
3541                                     ANYOF_BITMAP_CLEAR(data->start_class, value);
3542                         }
3543                     }
3544                     else {
3545                         if (data->start_class->flags & ANYOF_LOCALE)
3546                             ANYOF_CLASS_SET(data->start_class,ANYOF_NALNUM);
3547                         else {
3548                             for (value = 0; value < 256; value++)
3549                                 if (!isALNUM(value))
3550                                     ANYOF_BITMAP_SET(data->start_class, value);                 
3551                         }
3552                     }
3553                     break;
3554                 case NALNUML:
3555                     if (flags & SCF_DO_STCLASS_AND) {
3556                         if (data->start_class->flags & ANYOF_LOCALE)
3557                             ANYOF_CLASS_CLEAR(data->start_class,ANYOF_ALNUM);
3558                     }
3559                     else {
3560                         data->start_class->flags |= ANYOF_LOCALE;
3561                         ANYOF_CLASS_SET(data->start_class,ANYOF_NALNUM);
3562                     }
3563                     break;
3564                 case SPACE:
3565                     if (flags & SCF_DO_STCLASS_AND) {
3566                         if (!(data->start_class->flags & ANYOF_LOCALE)) {
3567                             ANYOF_CLASS_CLEAR(data->start_class,ANYOF_NSPACE);
3568                             for (value = 0; value < 256; value++)
3569                                 if (!isSPACE(value))
3570                                     ANYOF_BITMAP_CLEAR(data->start_class, value);
3571                         }
3572                     }
3573                     else {
3574                         if (data->start_class->flags & ANYOF_LOCALE)
3575                             ANYOF_CLASS_SET(data->start_class,ANYOF_SPACE);
3576                         else {
3577                             for (value = 0; value < 256; value++)
3578                                 if (isSPACE(value))
3579                                     ANYOF_BITMAP_SET(data->start_class, value);                 
3580                         }
3581                     }
3582                     break;
3583                 case SPACEL:
3584                     if (flags & SCF_DO_STCLASS_AND) {
3585                         if (data->start_class->flags & ANYOF_LOCALE)
3586                             ANYOF_CLASS_CLEAR(data->start_class,ANYOF_NSPACE);
3587                     }
3588                     else {
3589                         data->start_class->flags |= ANYOF_LOCALE;
3590                         ANYOF_CLASS_SET(data->start_class,ANYOF_SPACE);
3591                     }
3592                     break;
3593                 case NSPACE:
3594                     if (flags & SCF_DO_STCLASS_AND) {
3595                         if (!(data->start_class->flags & ANYOF_LOCALE)) {
3596                             ANYOF_CLASS_CLEAR(data->start_class,ANYOF_SPACE);
3597                             for (value = 0; value < 256; value++)
3598                                 if (isSPACE(value))
3599                                     ANYOF_BITMAP_CLEAR(data->start_class, value);
3600                         }
3601                     }
3602                     else {
3603                         if (data->start_class->flags & ANYOF_LOCALE)
3604                             ANYOF_CLASS_SET(data->start_class,ANYOF_NSPACE);
3605                         else {
3606                             for (value = 0; value < 256; value++)
3607                                 if (!isSPACE(value))
3608                                     ANYOF_BITMAP_SET(data->start_class, value);                 
3609                         }
3610                     }
3611                     break;
3612                 case NSPACEL:
3613                     if (flags & SCF_DO_STCLASS_AND) {
3614                         if (data->start_class->flags & ANYOF_LOCALE) {
3615                             ANYOF_CLASS_CLEAR(data->start_class,ANYOF_SPACE);
3616                             for (value = 0; value < 256; value++)
3617                                 if (!isSPACE(value))
3618                                     ANYOF_BITMAP_CLEAR(data->start_class, value);
3619                         }
3620                     }
3621                     else {
3622                         data->start_class->flags |= ANYOF_LOCALE;
3623                         ANYOF_CLASS_SET(data->start_class,ANYOF_NSPACE);
3624                     }
3625                     break;
3626                 case DIGIT:
3627                     if (flags & SCF_DO_STCLASS_AND) {
3628                         ANYOF_CLASS_CLEAR(data->start_class,ANYOF_NDIGIT);
3629                         for (value = 0; value < 256; value++)
3630                             if (!isDIGIT(value))
3631                                 ANYOF_BITMAP_CLEAR(data->start_class, value);
3632                     }
3633                     else {
3634                         if (data->start_class->flags & ANYOF_LOCALE)
3635                             ANYOF_CLASS_SET(data->start_class,ANYOF_DIGIT);
3636                         else {
3637                             for (value = 0; value < 256; value++)
3638                                 if (isDIGIT(value))
3639                                     ANYOF_BITMAP_SET(data->start_class, value);                 
3640                         }
3641                     }
3642                     break;
3643                 case NDIGIT:
3644                     if (flags & SCF_DO_STCLASS_AND) {
3645                         ANYOF_CLASS_CLEAR(data->start_class,ANYOF_DIGIT);
3646                         for (value = 0; value < 256; value++)
3647                             if (isDIGIT(value))
3648                                 ANYOF_BITMAP_CLEAR(data->start_class, value);
3649                     }
3650                     else {
3651                         if (data->start_class->flags & ANYOF_LOCALE)
3652                             ANYOF_CLASS_SET(data->start_class,ANYOF_NDIGIT);
3653                         else {
3654                             for (value = 0; value < 256; value++)
3655                                 if (!isDIGIT(value))
3656                                     ANYOF_BITMAP_SET(data->start_class, value);                 
3657                         }
3658                     }
3659                     break;
3660                 CASE_SYNST_FNC(VERTWS);
3661                 CASE_SYNST_FNC(HORIZWS);
3662                 
3663                 }
3664                 if (flags & SCF_DO_STCLASS_OR)
3665                     cl_and(data->start_class, and_withp);
3666                 flags &= ~SCF_DO_STCLASS;
3667             }
3668         }
3669         else if (PL_regkind[OP(scan)] == EOL && flags & SCF_DO_SUBSTR) {
3670             data->flags |= (OP(scan) == MEOL
3671                             ? SF_BEFORE_MEOL
3672                             : SF_BEFORE_SEOL);
3673         }
3674         else if (  PL_regkind[OP(scan)] == BRANCHJ
3675                  /* Lookbehind, or need to calculate parens/evals/stclass: */
3676                    && (scan->flags || data || (flags & SCF_DO_STCLASS))
3677                    && (OP(scan) == IFMATCH || OP(scan) == UNLESSM)) {
3678             if ( !PERL_ENABLE_POSITIVE_ASSERTION_STUDY 
3679                 || OP(scan) == UNLESSM )
3680             {
3681                 /* Negative Lookahead/lookbehind
3682                    In this case we can't do fixed string optimisation.
3683                 */
3684
3685                 I32 deltanext, minnext, fake = 0;
3686                 regnode *nscan;
3687                 struct regnode_charclass_class intrnl;
3688                 int f = 0;
3689
3690                 data_fake.flags = 0;
3691                 if (data) {
3692                     data_fake.whilem_c = data->whilem_c;
3693                     data_fake.last_closep = data->last_closep;
3694                 }
3695                 else
3696                     data_fake.last_closep = &fake;
3697                 data_fake.pos_delta = delta;
3698                 if ( flags & SCF_DO_STCLASS && !scan->flags
3699                      && OP(scan) == IFMATCH ) { /* Lookahead */
3700                     cl_init(pRExC_state, &intrnl);
3701                     data_fake.start_class = &intrnl;
3702                     f |= SCF_DO_STCLASS_AND;
3703                 }
3704                 if (flags & SCF_WHILEM_VISITED_POS)
3705                     f |= SCF_WHILEM_VISITED_POS;
3706                 next = regnext(scan);
3707                 nscan = NEXTOPER(NEXTOPER(scan));
3708                 minnext = study_chunk(pRExC_state, &nscan, minlenp, &deltanext, 
3709                     last, &data_fake, stopparen, recursed, NULL, f, depth+1);
3710                 if (scan->flags) {
3711                     if (deltanext) {
3712                         FAIL("Variable length lookbehind not implemented");
3713                     }
3714                     else if (minnext > (I32)U8_MAX) {
3715                         FAIL2("Lookbehind longer than %"UVuf" not implemented", (UV)U8_MAX);
3716                     }
3717                     scan->flags = (U8)minnext;
3718                 }
3719                 if (data) {
3720                     if (data_fake.flags & (SF_HAS_PAR|SF_IN_PAR))
3721                         pars++;
3722                     if (data_fake.flags & SF_HAS_EVAL)
3723                         data->flags |= SF_HAS_EVAL;
3724                     data->whilem_c = data_fake.whilem_c;
3725                 }
3726                 if (f & SCF_DO_STCLASS_AND) {
3727                     const int was = (data->start_class->flags & ANYOF_EOS);
3728
3729                     cl_and(data->start_class, &intrnl);
3730                     if (was)
3731                         data->start_class->flags |= ANYOF_EOS;
3732                 }
3733             }
3734 #if PERL_ENABLE_POSITIVE_ASSERTION_STUDY
3735             else {
3736                 /* Positive Lookahead/lookbehind
3737                    In this case we can do fixed string optimisation,
3738                    but we must be careful about it. Note in the case of
3739                    lookbehind the positions will be offset by the minimum
3740                    length of the pattern, something we won't know about
3741                    until after the recurse.
3742                 */
3743                 I32 deltanext, fake = 0;
3744                 regnode *nscan;
3745                 struct regnode_charclass_class intrnl;
3746                 int f = 0;
3747                 /* We use SAVEFREEPV so that when the full compile 
3748                     is finished perl will clean up the allocated 
3749                     minlens when its all done. This was we don't
3750                     have to worry about freeing them when we know
3751                     they wont be used, which would be a pain.
3752                  */
3753                 I32 *minnextp;
3754                 Newx( minnextp, 1, I32 );
3755                 SAVEFREEPV(minnextp);
3756
3757                 if (data) {
3758                     StructCopy(data, &data_fake, scan_data_t);
3759                     if ((flags & SCF_DO_SUBSTR) && data->last_found) {
3760                         f |= SCF_DO_SUBSTR;
3761                         if (scan->flags) 
3762                             SCAN_COMMIT(pRExC_state, &data_fake,minlenp);
3763                         data_fake.last_found=newSVsv(data->last_found);
3764                     }
3765                 }
3766                 else
3767                     data_fake.last_closep = &fake;
3768                 data_fake.flags = 0;
3769                 data_fake.pos_delta = delta;
3770                 if (is_inf)
3771                     data_fake.flags |= SF_IS_INF;
3772                 if ( flags & SCF_DO_STCLASS && !scan->flags
3773                      && OP(scan) == IFMATCH ) { /* Lookahead */
3774                     cl_init(pRExC_state, &intrnl);
3775                     data_fake.start_class = &intrnl;
3776                     f |= SCF_DO_STCLASS_AND;
3777                 }
3778                 if (flags & SCF_WHILEM_VISITED_POS)
3779                     f |= SCF_WHILEM_VISITED_POS;
3780                 next = regnext(scan);
3781                 nscan = NEXTOPER(NEXTOPER(scan));
3782
3783                 *minnextp = study_chunk(pRExC_state, &nscan, minnextp, &deltanext, 
3784                     last, &data_fake, stopparen, recursed, NULL, f,depth+1);
3785                 if (scan->flags) {
3786                     if (deltanext) {
3787                         FAIL("Variable length lookbehind not implemented");
3788                     }
3789                     else if (*minnextp > (I32)U8_MAX) {
3790                         FAIL2("Lookbehind longer than %"UVuf" not implemented", (UV)U8_MAX);
3791                     }
3792                     scan->flags = (U8)*minnextp;
3793                 }
3794
3795                 *minnextp += min;
3796
3797                 if (f & SCF_DO_STCLASS_AND) {
3798                     const int was = (data->start_class->flags & ANYOF_EOS);
3799
3800                     cl_and(data->start_class, &intrnl);
3801                     if (was)
3802                         data->start_class->flags |= ANYOF_EOS;
3803                 }
3804                 if (data) {
3805                     if (data_fake.flags & (SF_HAS_PAR|SF_IN_PAR))
3806                         pars++;
3807                     if (data_fake.flags & SF_HAS_EVAL)
3808                         data->flags |= SF_HAS_EVAL;
3809                     data->whilem_c = data_fake.whilem_c;
3810                     if ((flags & SCF_DO_SUBSTR) && data_fake.last_found) {
3811                         if (RExC_rx->minlen<*minnextp)
3812                             RExC_rx->minlen=*minnextp;
3813                         SCAN_COMMIT(pRExC_state, &data_fake, minnextp);
3814                         SvREFCNT_dec(data_fake.last_found);
3815                         
3816                         if ( data_fake.minlen_fixed != minlenp ) 
3817                         {
3818                             data->offset_fixed= data_fake.offset_fixed;
3819                             data->minlen_fixed= data_fake.minlen_fixed;
3820                             data->lookbehind_fixed+= scan->flags;
3821                         }
3822                         if ( data_fake.minlen_float != minlenp )
3823                         {
3824                             data->minlen_float= data_fake.minlen_float;
3825                             data->offset_float_min=data_fake.offset_float_min;
3826                             data->offset_float_max=data_fake.offset_float_max;
3827                             data->lookbehind_float+= scan->flags;
3828                         }
3829                     }
3830                 }
3831
3832
3833             }
3834 #endif
3835         }
3836         else if (OP(scan) == OPEN) {
3837             if (stopparen != (I32)ARG(scan))
3838                 pars++;
3839         }
3840         else if (OP(scan) == CLOSE) {
3841             if (stopparen == (I32)ARG(scan)) {
3842                 break;
3843             }
3844             if ((I32)ARG(scan) == is_par) {
3845                 next = regnext(scan);
3846
3847                 if ( next && (OP(next) != WHILEM) && next < last)
3848                     is_par = 0;         /* Disable optimization */
3849             }
3850             if (data)
3851                 *(data->last_closep) = ARG(scan);
3852         }
3853         else if (OP(scan) == EVAL) {
3854                 if (data)
3855                     data->flags |= SF_HAS_EVAL;
3856         }
3857         else if ( PL_regkind[OP(scan)] == ENDLIKE ) {
3858             if (flags & SCF_DO_SUBSTR) {
3859                 SCAN_COMMIT(pRExC_state,data,minlenp);
3860                 flags &= ~SCF_DO_SUBSTR;
3861             }
3862             if (data && OP(scan)==ACCEPT) {
3863                 data->flags |= SCF_SEEN_ACCEPT;
3864                 if (stopmin > min)
3865                     stopmin = min;
3866             }
3867         }
3868         else if (OP(scan) == LOGICAL && scan->flags == 2) /* Embedded follows */
3869         {
3870                 if (flags & SCF_DO_SUBSTR) {
3871                     SCAN_COMMIT(pRExC_state,data,minlenp);
3872                     data->longest = &(data->longest_float);
3873                 }
3874                 is_inf = is_inf_internal = 1;
3875                 if (flags & SCF_DO_STCLASS_OR) /* Allow everything */
3876                     cl_anything(pRExC_state, data->start_class);
3877                 flags &= ~SCF_DO_STCLASS;
3878         }
3879         else if (OP(scan) == GPOS) {
3880             if (!(RExC_rx->extflags & RXf_GPOS_FLOAT) &&
3881                 !(delta || is_inf || (data && data->pos_delta))) 
3882             {
3883                 if (!(RExC_rx->extflags & RXf_ANCH) && (flags & SCF_DO_SUBSTR))
3884                     RExC_rx->extflags |= RXf_ANCH_GPOS;
3885                 if (RExC_rx->gofs < (U32)min)
3886                     RExC_rx->gofs = min;
3887             } else {
3888                 RExC_rx->extflags |= RXf_GPOS_FLOAT;
3889                 RExC_rx->gofs = 0;
3890             }       
3891         }
3892 #ifdef TRIE_STUDY_OPT
3893 #ifdef FULL_TRIE_STUDY
3894         else if (PL_regkind[OP(scan)] == TRIE) {
3895             /* NOTE - There is similar code to this block above for handling
3896                BRANCH nodes on the initial study.  If you change stuff here
3897                check there too. */
3898             regnode *trie_node= scan;
3899             regnode *tail= regnext(scan);
3900             reg_trie_data *trie = (reg_trie_data*)RExC_rxi->data->data[ ARG(scan) ];
3901             I32 max1 = 0, min1 = I32_MAX;
3902             struct regnode_charclass_class accum;
3903
3904             if (flags & SCF_DO_SUBSTR) /* XXXX Add !SUSPEND? */
3905                 SCAN_COMMIT(pRExC_state, data,minlenp); /* Cannot merge strings after this. */
3906             if (flags & SCF_DO_STCLASS)
3907                 cl_init_zero(pRExC_state, &accum);
3908                 
3909             if (!trie->jump) {
3910                 min1= trie->minlen;
3911                 max1= trie->maxlen;
3912             } else {
3913                 const regnode *nextbranch= NULL;
3914                 U32 word;
3915                 
3916                 for ( word=1 ; word <= trie->wordcount ; word++) 
3917                 {
3918                     I32 deltanext=0, minnext=0, f = 0, fake;
3919                     struct regnode_charclass_class this_class;
3920                     
3921                     data_fake.flags = 0;
3922                     if (data) {
3923                         data_fake.whilem_c = data->whilem_c;
3924                         data_fake.last_closep = data->last_closep;
3925                     }
3926                     else
3927                         data_fake.last_closep = &fake;
3928                     data_fake.pos_delta = delta;
3929                     if (flags & SCF_DO_STCLASS) {
3930                         cl_init(pRExC_state, &this_class);
3931                         data_fake.start_class = &this_class;
3932                         f = SCF_DO_STCLASS_AND;
3933                     }
3934                     if (flags & SCF_WHILEM_VISITED_POS)
3935                         f |= SCF_WHILEM_VISITED_POS;
3936     
3937                     if (trie->jump[word]) {
3938                         if (!nextbranch)
3939                             nextbranch = trie_node + trie->jump[0];
3940                         scan= trie_node + trie->jump[word];
3941                         /* We go from the jump point to the branch that follows
3942                            it. Note this means we need the vestigal unused branches
3943                            even though they arent otherwise used.
3944                          */
3945                         minnext = study_chunk(pRExC_state, &scan, minlenp, 
3946                             &deltanext, (regnode *)nextbranch, &data_fake, 
3947                             stopparen, recursed, NULL, f,depth+1);
3948                     }
3949                     if (nextbranch && PL_regkind[OP(nextbranch)]==BRANCH)
3950                         nextbranch= regnext((regnode*)nextbranch);
3951                     
3952                     if (min1 > (I32)(minnext + trie->minlen))
3953                         min1 = minnext + trie->minlen;
3954                     if (max1 < (I32)(minnext + deltanext + trie->maxlen))
3955                         max1 = minnext + deltanext + trie->maxlen;
3956                     if (deltanext == I32_MAX)
3957                         is_inf = is_inf_internal = 1;
3958                     
3959                     if (data_fake.flags & (SF_HAS_PAR|SF_IN_PAR))
3960                         pars++;
3961                     if (data_fake.flags & SCF_SEEN_ACCEPT) {
3962                         if ( stopmin > min + min1) 
3963                             stopmin = min + min1;
3964                         flags &= ~SCF_DO_SUBSTR;
3965                         if (data)
3966                             data->flags |= SCF_SEEN_ACCEPT;
3967                     }
3968                     if (data) {
3969                         if (data_fake.flags & SF_HAS_EVAL)
3970                             data->flags |= SF_HAS_EVAL;
3971                         data->whilem_c = data_fake.whilem_c;
3972                     }
3973                     if (flags & SCF_DO_STCLASS)
3974                         cl_or(pRExC_state, &accum, &this_class);
3975                 }
3976             }
3977             if (flags & SCF_DO_SUBSTR) {
3978                 data->pos_min += min1;
3979                 data->pos_delta += max1 - min1;
3980                 if (max1 != min1 || is_inf)
3981                     data->longest = &(data->longest_float);
3982             }
3983             min += min1;
3984             delta += max1 - min1;
3985             if (flags & SCF_DO_STCLASS_OR) {
3986                 cl_or(pRExC_state, data->start_class, &accum);
3987                 if (min1) {
3988                     cl_and(data->start_class, and_withp);
3989                     flags &= ~SCF_DO_STCLASS;
3990                 }
3991             }
3992             else if (flags & SCF_DO_STCLASS_AND) {
3993                 if (min1) {
3994                     cl_and(data->start_class, &accum);
3995                     flags &= ~SCF_DO_STCLASS;
3996                 }
3997                 else {
3998                     /* Switch to OR mode: cache the old value of
3999                      * data->start_class */
4000                     INIT_AND_WITHP;
4001                     StructCopy(data->start_class, and_withp,
4002                                struct regnode_charclass_class);
4003                     flags &= ~SCF_DO_STCLASS_AND;
4004                     StructCopy(&accum, data->start_class,
4005                                struct regnode_charclass_class);
4006                     flags |= SCF_DO_STCLASS_OR;
4007                     data->start_class->flags |= ANYOF_EOS;
4008                 }
4009             }
4010             scan= tail;
4011             continue;
4012         }
4013 #else
4014         else if (PL_regkind[OP(scan)] == TRIE) {
4015             reg_trie_data *trie = (reg_trie_data*)RExC_rxi->data->data[ ARG(scan) ];
4016             U8*bang=NULL;
4017             
4018             min += trie->minlen;
4019             delta += (trie->maxlen - trie->minlen);
4020             flags &= ~SCF_DO_STCLASS; /* xxx */
4021             if (flags & SCF_DO_SUBSTR) {
4022                 SCAN_COMMIT(pRExC_state,data,minlenp);  /* Cannot expect anything... */
4023                 data->pos_min += trie->minlen;
4024                 data->pos_delta += (trie->maxlen - trie->minlen);
4025                 if (trie->maxlen != trie->minlen)
4026                     data->longest = &(data->longest_float);
4027             }
4028             if (trie->jump) /* no more substrings -- for now /grr*/
4029                 flags &= ~SCF_DO_SUBSTR; 
4030         }
4031 #endif /* old or new */
4032 #endif /* TRIE_STUDY_OPT */     
4033
4034         /* Else: zero-length, ignore. */
4035         scan = regnext(scan);
4036     }
4037     if (frame) {
4038         last = frame->last;
4039         scan = frame->next;
4040         stopparen = frame->stop;
4041         frame = frame->prev;
4042         goto fake_study_recurse;
4043     }
4044
4045   finish:
4046     assert(!frame);
4047     DEBUG_STUDYDATA("pre-fin:",data,depth);
4048
4049     *scanp = scan;
4050     *deltap = is_inf_internal ? I32_MAX : delta;
4051     if (flags & SCF_DO_SUBSTR && is_inf)
4052         data->pos_delta = I32_MAX - data->pos_min;
4053     if (is_par > (I32)U8_MAX)
4054         is_par = 0;
4055     if (is_par && pars==1 && data) {
4056         data->flags |= SF_IN_PAR;
4057         data->flags &= ~SF_HAS_PAR;
4058     }
4059     else if (pars && data) {
4060         data->flags |= SF_HAS_PAR;
4061         data->flags &= ~SF_IN_PAR;
4062     }
4063     if (flags & SCF_DO_STCLASS_OR)
4064         cl_and(data->start_class, and_withp);
4065     if (flags & SCF_TRIE_RESTUDY)
4066         data->flags |=  SCF_TRIE_RESTUDY;
4067     
4068     DEBUG_STUDYDATA("post-fin:",data,depth);
4069     
4070     return min < stopmin ? min : stopmin;
4071 }
4072
4073 STATIC U32
4074 S_add_data(RExC_state_t *pRExC_state, U32 n, const char *s)
4075 {
4076     U32 count = RExC_rxi->data ? RExC_rxi->data->count : 0;
4077
4078     PERL_ARGS_ASSERT_ADD_DATA;
4079
4080     Renewc(RExC_rxi->data,
4081            sizeof(*RExC_rxi->data) + sizeof(void*) * (count + n - 1),
4082            char, struct reg_data);
4083     if(count)
4084         Renew(RExC_rxi->data->what, count + n, U8);
4085     else
4086         Newx(RExC_rxi->data->what, n, U8);
4087     RExC_rxi->data->count = count + n;
4088     Copy(s, RExC_rxi->data->what + count, n, U8);
4089     return count;
4090 }
4091
4092 /*XXX: todo make this not included in a non debugging perl */
4093 #ifndef PERL_IN_XSUB_RE
4094 void
4095 Perl_reginitcolors(pTHX)
4096 {
4097     dVAR;
4098     const char * const s = PerlEnv_getenv("PERL_RE_COLORS");
4099     if (s) {
4100         char *t = savepv(s);
4101         int i = 0;
4102         PL_colors[0] = t;
4103         while (++i < 6) {
4104             t = strchr(t, '\t');
4105             if (t) {
4106                 *t = '\0';
4107                 PL_colors[i] = ++t;
4108             }
4109             else
4110                 PL_colors[i] = t = (char *)"";
4111         }
4112     } else {
4113         int i = 0;
4114         while (i < 6)
4115             PL_colors[i++] = (char *)"";
4116     }
4117     PL_colorset = 1;
4118 }
4119 #endif
4120
4121
4122 #ifdef TRIE_STUDY_OPT
4123 #define CHECK_RESTUDY_GOTO                                  \
4124         if (                                                \
4125               (data.flags & SCF_TRIE_RESTUDY)               \
4126               && ! restudied++                              \
4127         )     goto reStudy
4128 #else
4129 #define CHECK_RESTUDY_GOTO
4130 #endif        
4131
4132 /*
4133  - pregcomp - compile a regular expression into internal code
4134  *
4135  * We can't allocate space until we know how big the compiled form will be,
4136  * but we can't compile it (and thus know how big it is) until we've got a
4137  * place to put the code.  So we cheat:  we compile it twice, once with code
4138  * generation turned off and size counting turned on, and once "for real".
4139  * This also means that we don't allocate space until we are sure that the
4140  * thing really will compile successfully, and we never have to move the
4141  * code and thus invalidate pointers into it.  (Note that it has to be in
4142  * one piece because free() must be able to free it all.) [NB: not true in perl]
4143  *
4144  * Beware that the optimization-preparation code in here knows about some
4145  * of the structure of the compiled regexp.  [I'll say.]
4146  */
4147
4148
4149
4150 #ifndef PERL_IN_XSUB_RE
4151 #define RE_ENGINE_PTR &PL_core_reg_engine
4152 #else
4153 extern const struct regexp_engine my_reg_engine;
4154 #define RE_ENGINE_PTR &my_reg_engine
4155 #endif
4156
4157 #ifndef PERL_IN_XSUB_RE 
4158 REGEXP *
4159 Perl_pregcomp(pTHX_ const SV * const pattern, const U32 flags)
4160 {
4161     dVAR;
4162     HV * const table = GvHV(PL_hintgv);
4163
4164     PERL_ARGS_ASSERT_PREGCOMP;
4165
4166     /* Dispatch a request to compile a regexp to correct 
4167        regexp engine. */
4168     if (table) {
4169         SV **ptr= hv_fetchs(table, "regcomp", FALSE);
4170         GET_RE_DEBUG_FLAGS_DECL;
4171         if (ptr && SvIOK(*ptr) && SvIV(*ptr)) {
4172             const regexp_engine *eng=INT2PTR(regexp_engine*,SvIV(*ptr));
4173             DEBUG_COMPILE_r({
4174                 PerlIO_printf(Perl_debug_log, "Using engine %"UVxf"\n",
4175                     SvIV(*ptr));
4176             });            
4177             return CALLREGCOMP_ENG(eng, pattern, flags);
4178         } 
4179     }
4180     return Perl_re_compile(aTHX_ pattern, flags);
4181 }
4182 #endif
4183
4184 REGEXP *
4185 Perl_re_compile(pTHX_ const SV * const pattern, U32 pm_flags)
4186 {
4187     dVAR;
4188     REGEXP *rx;
4189     struct regexp *r;
4190     register regexp_internal *ri;
4191     STRLEN plen;
4192     char*  exp = SvPV((SV*)pattern, plen);
4193     char* xend = exp + plen;
4194     regnode *scan;
4195     I32 flags;
4196     I32 minlen = 0;
4197     I32 sawplus = 0;
4198     I32 sawopen = 0;
4199     scan_data_t data;
4200     RExC_state_t RExC_state;
4201     RExC_state_t * const pRExC_state = &RExC_state;
4202 #ifdef TRIE_STUDY_OPT    
4203     int restudied= 0;
4204     RExC_state_t copyRExC_state;
4205 #endif    
4206     GET_RE_DEBUG_FLAGS_DECL;
4207
4208     PERL_ARGS_ASSERT_RE_COMPILE;
4209
4210     DEBUG_r(if (!PL_colorset) reginitcolors());
4211
4212     RExC_utf8 = RExC_orig_utf8 = SvUTF8(pattern);
4213
4214     DEBUG_COMPILE_r({
4215         SV *dsv= sv_newmortal();
4216         RE_PV_QUOTED_DECL(s, RExC_utf8,
4217             dsv, exp, plen, 60);
4218         PerlIO_printf(Perl_debug_log, "%sCompiling REx%s %s\n",
4219                        PL_colors[4],PL_colors[5],s);
4220     });
4221
4222 redo_first_pass:
4223     RExC_precomp = exp;
4224     RExC_flags = pm_flags;
4225     RExC_sawback = 0;
4226
4227     RExC_seen = 0;
4228     RExC_seen_zerolen = *exp == '^' ? -1 : 0;
4229     RExC_seen_evals = 0;
4230     RExC_extralen = 0;
4231
4232     /* First pass: determine size, legality. */
4233     RExC_parse = exp;
4234     RExC_start = exp;
4235     RExC_end = xend;
4236     RExC_naughty = 0;
4237     RExC_npar = 1;
4238     RExC_nestroot = 0;
4239     RExC_size = 0L;
4240     RExC_emit = &PL_regdummy;
4241     RExC_whilem_seen = 0;
4242     RExC_charnames = NULL;
4243     RExC_open_parens = NULL;
4244     RExC_close_parens = NULL;
4245     RExC_opend = NULL;
4246     RExC_paren_names = NULL;
4247 #ifdef DEBUGGING
4248     RExC_paren_name_list = NULL;
4249 #endif
4250     RExC_recurse = NULL;
4251     RExC_recurse_count = 0;
4252
4253 #if 0 /* REGC() is (currently) a NOP at the first pass.
4254        * Clever compilers notice this and complain. --jhi */
4255     REGC((U8)REG_MAGIC, (char*)RExC_emit);
4256 #endif
4257     DEBUG_PARSE_r(PerlIO_printf(Perl_debug_log, "Starting first pass (sizing)\n"));
4258     if (reg(pRExC_state, 0, &flags,1) == NULL) {
4259         RExC_precomp = NULL;
4260         return(NULL);
4261     }
4262     if (RExC_utf8 && !RExC_orig_utf8) {
4263         /* It's possible to write a regexp in ascii that represents Unicode
4264         codepoints outside of the byte range, such as via \x{100}. If we
4265         detect such a sequence we have to convert the entire pattern to utf8
4266         and then recompile, as our sizing calculation will have been based
4267         on 1 byte == 1 character, but we will need to use utf8 to encode
4268         at least some part of the pattern, and therefore must convert the whole
4269         thing.
4270         XXX: somehow figure out how to make this less expensive...
4271         -- dmq */
4272         STRLEN len = plen;
4273         DEBUG_PARSE_r(PerlIO_printf(Perl_debug_log,
4274             "UTF8 mismatch! Converting to utf8 for resizing and compile\n"));
4275         exp = (char*)Perl_bytes_to_utf8(aTHX_ (U8*)exp, &len);
4276         xend = exp + len;
4277         RExC_orig_utf8 = RExC_utf8;
4278         SAVEFREEPV(exp);
4279         goto redo_first_pass;
4280     }
4281     DEBUG_PARSE_r({
4282         PerlIO_printf(Perl_debug_log, 
4283             "Required size %"IVdf" nodes\n"
4284             "Starting second pass (creation)\n", 
4285             (IV)RExC_size);
4286         RExC_lastnum=0; 
4287         RExC_lastparse=NULL; 
4288     });
4289     /* Small enough for pointer-storage convention?
4290        If extralen==0, this means that we will not need long jumps. */
4291     if (RExC_size >= 0x10000L && RExC_extralen)
4292         RExC_size += RExC_extralen;
4293     else
4294         RExC_extralen = 0;
4295     if (RExC_whilem_seen > 15)
4296         RExC_whilem_seen = 15;
4297
4298     /* Allocate space and zero-initialize. Note, the two step process 
4299        of zeroing when in debug mode, thus anything assigned has to 
4300        happen after that */
4301     rx = (REGEXP*) newSV_type(SVt_REGEXP);
4302     r = (struct regexp*)SvANY(rx);
4303     Newxc(ri, sizeof(regexp_internal) + (unsigned)RExC_size * sizeof(regnode),
4304          char, regexp_internal);
4305     if ( r == NULL || ri == NULL )
4306         FAIL("Regexp out of space");
4307 #ifdef DEBUGGING
4308     /* avoid reading uninitialized memory in DEBUGGING code in study_chunk() */
4309     Zero(ri, sizeof(regexp_internal) + (unsigned)RExC_size * sizeof(regnode), char);
4310 #else 
4311     /* bulk initialize base fields with 0. */
4312     Zero(ri, sizeof(regexp_internal), char);        
4313 #endif
4314
4315     /* non-zero initialization begins here */
4316     RXi_SET( r, ri );
4317     r->engine= RE_ENGINE_PTR;
4318     r->extflags = pm_flags;
4319     {
4320         bool has_p     = ((r->extflags & RXf_PMf_KEEPCOPY) == RXf_PMf_KEEPCOPY);
4321         bool has_minus = ((r->extflags & RXf_PMf_STD_PMMOD) != RXf_PMf_STD_PMMOD);
4322         bool has_runon = ((RExC_seen & REG_SEEN_RUN_ON_COMMENT)==REG_SEEN_RUN_ON_COMMENT);
4323         U16 reganch = (U16)((r->extflags & RXf_PMf_STD_PMMOD)
4324                             >> RXf_PMf_STD_PMMOD_SHIFT);
4325         const char *fptr = STD_PAT_MODS;        /*"msix"*/
4326         char *p;
4327         const STRLEN wraplen = plen + has_minus + has_p + has_runon
4328             + (sizeof(STD_PAT_MODS) - 1)
4329             + (sizeof("(?:)") - 1);
4330
4331         p = sv_grow((SV *)rx, wraplen + 1);
4332         SvCUR_set(rx, wraplen);
4333         SvPOK_on(rx);
4334         SvFLAGS(rx) |= SvUTF8(pattern);
4335         *p++='('; *p++='?';
4336         if (has_p)
4337             *p++ = KEEPCOPY_PAT_MOD; /*'p'*/
4338         {
4339             char *r = p + (sizeof(STD_PAT_MODS) - 1) + has_minus - 1;
4340             char *colon = r + 1;
4341             char ch;
4342
4343             while((ch = *fptr++)) {
4344                 if(reganch & 1)
4345                     *p++ = ch;
4346                 else
4347                     *r-- = ch;
4348                 reganch >>= 1;
4349             }
4350             if(has_minus) {
4351                 *r = '-';
4352                 p = colon;
4353             }
4354         }
4355
4356         *p++ = ':';
4357         Copy(RExC_precomp, p, plen, char);
4358         assert ((RX_WRAPPED(rx) - p) < 16);
4359         r->pre_prefix = p - RX_WRAPPED(rx);
4360         p += plen;
4361         if (has_runon)
4362             *p++ = '\n';
4363         *p++ = ')';
4364         *p = 0;
4365     }
4366
4367     r->intflags = 0;
4368     r->nparens = RExC_npar - 1; /* set early to validate backrefs */
4369     
4370     if (RExC_seen & REG_SEEN_RECURSE) {
4371         Newxz(RExC_open_parens, RExC_npar,regnode *);
4372         SAVEFREEPV(RExC_open_parens);
4373         Newxz(RExC_close_parens,RExC_npar,regnode *);
4374         SAVEFREEPV(RExC_close_parens);
4375     }
4376
4377     /* Useful during FAIL. */
4378 #ifdef RE_TRACK_PATTERN_OFFSETS
4379     Newxz(ri->u.offsets, 2*RExC_size+1, U32); /* MJD 20001228 */
4380     DEBUG_OFFSETS_r(PerlIO_printf(Perl_debug_log,
4381                           "%s %"UVuf" bytes for offset annotations.\n",
4382                           ri->u.offsets ? "Got" : "Couldn't get",
4383                           (UV)((2*RExC_size+1) * sizeof(U32))));
4384 #endif
4385     SetProgLen(ri,RExC_size);
4386     RExC_rx_sv = rx;
4387     RExC_rx = r;
4388     RExC_rxi = ri;
4389
4390     /* Second pass: emit code. */
4391     RExC_flags = pm_flags;      /* don't let top level (?i) bleed */
4392     RExC_parse = exp;
4393     RExC_end = xend;
4394     RExC_naughty = 0;
4395     RExC_npar = 1;
4396     RExC_emit_start = ri->program;
4397     RExC_emit = ri->program;
4398     RExC_emit_bound = ri->program + RExC_size + 1;
4399
4400     /* Store the count of eval-groups for security checks: */
4401     RExC_rx->seen_evals = RExC_seen_evals;
4402     REGC((U8)REG_MAGIC, (char*) RExC_emit++);
4403     if (reg(pRExC_state, 0, &flags,1) == NULL) {
4404         ReREFCNT_dec(rx);   
4405         return(NULL);
4406     }
4407     /* XXXX To minimize changes to RE engine we always allocate
4408        3-units-long substrs field. */
4409     Newx(r->substrs, 1, struct reg_substr_data);
4410     if (RExC_recurse_count) {
4411         Newxz(RExC_recurse,RExC_recurse_count,regnode *);
4412         SAVEFREEPV(RExC_recurse);
4413     }
4414
4415 reStudy:
4416     r->minlen = minlen = sawplus = sawopen = 0;
4417     Zero(r->substrs, 1, struct reg_substr_data);
4418
4419 #ifdef TRIE_STUDY_OPT
4420     if (!restudied) {
4421         StructCopy(&zero_scan_data, &data, scan_data_t);
4422         copyRExC_state = RExC_state;
4423     } else {
4424         U32 seen=RExC_seen;
4425         DEBUG_OPTIMISE_r(PerlIO_printf(Perl_debug_log,"Restudying\n"));
4426         
4427         RExC_state = copyRExC_state;
4428         if (seen & REG_TOP_LEVEL_BRANCHES) 
4429             RExC_seen |= REG_TOP_LEVEL_BRANCHES;
4430         else
4431             RExC_seen &= ~REG_TOP_LEVEL_BRANCHES;
4432         if (data.last_found) {
4433             SvREFCNT_dec(data.longest_fixed);
4434             SvREFCNT_dec(data.longest_float);
4435             SvREFCNT_dec(data.last_found);
4436         }
4437         StructCopy(&zero_scan_data, &data, scan_data_t);
4438     }
4439 #else
4440     StructCopy(&zero_scan_data, &data, scan_data_t);
4441 #endif    
4442
4443     /* Dig out information for optimizations. */
4444     r->extflags = RExC_flags; /* was pm_op */
4445     /*dmq: removed as part of de-PMOP: pm->op_pmflags = RExC_flags; */
4446  
4447     if (UTF)
4448         SvUTF8_on(rx);  /* Unicode in it? */
4449     ri->regstclass = NULL;
4450     if (RExC_naughty >= 10)     /* Probably an expensive pattern. */
4451         r->intflags |= PREGf_NAUGHTY;
4452     scan = ri->program + 1;             /* First BRANCH. */
4453
4454     /* testing for BRANCH here tells us whether there is "must appear"
4455        data in the pattern. If there is then we can use it for optimisations */
4456     if (!(RExC_seen & REG_TOP_LEVEL_BRANCHES)) { /*  Only one top-level choice. */
4457         I32 fake;
4458         STRLEN longest_float_length, longest_fixed_length;
4459         struct regnode_charclass_class ch_class; /* pointed to by data */
4460         int stclass_flag;
4461         I32 last_close = 0; /* pointed to by data */
4462         regnode *first= scan;
4463         regnode *first_next= regnext(first);
4464         
4465         /*
4466          * Skip introductions and multiplicators >= 1
4467          * so that we can extract the 'meat' of the pattern that must 
4468          * match in the large if() sequence following.
4469          * NOTE that EXACT is NOT covered here, as it is normally
4470          * picked up by the optimiser separately. 
4471          *
4472          * This is unfortunate as the optimiser isnt handling lookahead
4473          * properly currently.
4474          *
4475          */
4476         while ((OP(first) == OPEN && (sawopen = 1)) ||
4477                /* An OR of *one* alternative - should not happen now. */
4478             (OP(first) == BRANCH && OP(first_next) != BRANCH) ||
4479             /* for now we can't handle lookbehind IFMATCH*/
4480             (OP(first) == IFMATCH && !first->flags) || 
4481             (OP(first) == PLUS) ||
4482             (OP(first) == MINMOD) ||
4483                /* An {n,m} with n>0 */
4484             (PL_regkind[OP(first)] == CURLY && ARG1(first) > 0) ||
4485             (OP(first) == NOTHING && PL_regkind[OP(first_next)] != END ))
4486         {
4487                 /* 
4488                  * the only op that could be a regnode is PLUS, all the rest
4489                  * will be regnode_1 or regnode_2.
4490                  *
4491                  */
4492                 if (OP(first) == PLUS)
4493                     sawplus = 1;
4494                 else
4495                     first += regarglen[OP(first)];
4496                 
4497                 first = NEXTOPER(first);
4498                 first_next= regnext(first);
4499         }
4500
4501         /* Starting-point info. */
4502       again:
4503         DEBUG_PEEP("first:",first,0);
4504         /* Ignore EXACT as we deal with it later. */
4505         if (PL_regkind[OP(first)] == EXACT) {
4506             if (OP(first) == EXACT)
4507                 NOOP;   /* Empty, get anchored substr later. */
4508             else if ((OP(first) == EXACTF || OP(first) == EXACTFL))
4509                 ri->regstclass = first;
4510         }
4511 #ifdef TRIE_STCLASS     
4512         else if (PL_regkind[OP(first)] == TRIE &&
4513                 ((reg_trie_data *)ri->data->data[ ARG(first) ])->minlen>0) 
4514         {
4515             regnode *trie_op;
4516             /* this can happen only on restudy */
4517             if ( OP(first) == TRIE ) {
4518                 struct regnode_1 *trieop = (struct regnode_1 *)
4519                     PerlMemShared_calloc(1, sizeof(struct regnode_1));
4520                 StructCopy(first,trieop,struct regnode_1);
4521                 trie_op=(regnode *)trieop;
4522             } else {
4523                 struct regnode_charclass *trieop = (struct regnode_charclass *)
4524                     PerlMemShared_calloc(1, sizeof(struct regnode_charclass));
4525                 StructCopy(first,trieop,struct regnode_charclass);
4526                 trie_op=(regnode *)trieop;
4527             }
4528             OP(trie_op)+=2;
4529             make_trie_failtable(pRExC_state, (regnode *)first, trie_op, 0);
4530             ri->regstclass = trie_op;
4531         }
4532 #endif  
4533         else if (strchr((const char*)PL_simple,OP(first)))
4534             ri->regstclass = first;
4535         else if (PL_regkind[OP(first)] == BOUND ||
4536                  PL_regkind[OP(first)] == NBOUND)
4537             ri->regstclass = first;
4538         else if (PL_regkind[OP(first)] == BOL) {
4539             r->extflags |= (OP(first) == MBOL
4540                            ? RXf_ANCH_MBOL
4541                            : (OP(first) == SBOL
4542                               ? RXf_ANCH_SBOL
4543                               : RXf_ANCH_BOL));
4544             first = NEXTOPER(first);
4545             goto again;
4546         }
4547         else if (OP(first) == GPOS) {
4548             r->extflags |= RXf_ANCH_GPOS;
4549             first = NEXTOPER(first);
4550             goto again;
4551         }
4552         else if ((!sawopen || !RExC_sawback) &&
4553             (OP(first) == STAR &&
4554             PL_regkind[OP(NEXTOPER(first))] == REG_ANY) &&
4555             !(r->extflags & RXf_ANCH) && !(RExC_seen & REG_SEEN_EVAL))
4556         {
4557             /* turn .* into ^.* with an implied $*=1 */
4558             const int type =
4559                 (OP(NEXTOPER(first)) == REG_ANY)
4560                     ? RXf_ANCH_MBOL
4561                     : RXf_ANCH_SBOL;
4562             r->extflags |= type;
4563             r->intflags |= PREGf_IMPLICIT;
4564             first = NEXTOPER(first);
4565             goto again;
4566         }
4567         if (sawplus && (!sawopen || !RExC_sawback)
4568             && !(RExC_seen & REG_SEEN_EVAL)) /* May examine pos and $& */
4569             /* x+ must match at the 1st pos of run of x's */
4570             r->intflags |= PREGf_SKIP;
4571
4572         /* Scan is after the zeroth branch, first is atomic matcher. */
4573 #ifdef TRIE_STUDY_OPT
4574         DEBUG_PARSE_r(
4575             if (!restudied)
4576                 PerlIO_printf(Perl_debug_log, "first at %"IVdf"\n",
4577                               (IV)(first - scan + 1))
4578         );
4579 #else
4580         DEBUG_PARSE_r(
4581             PerlIO_printf(Perl_debug_log, "first at %"IVdf"\n",
4582                 (IV)(first - scan + 1))
4583         );
4584 #endif
4585
4586
4587         /*
4588         * If there's something expensive in the r.e., find the
4589         * longest literal string that must appear and make it the
4590         * regmust.  Resolve ties in favor of later strings, since
4591         * the regstart check works with the beginning of the r.e.
4592         * and avoiding duplication strengthens checking.  Not a
4593         * strong reason, but sufficient in the absence of others.
4594         * [Now we resolve ties in favor of the earlier string if
4595         * it happens that c_offset_min has been invalidated, since the
4596         * earlier string may buy us something the later one won't.]
4597         */
4598         
4599         data.longest_fixed = newSVpvs("");
4600         data.longest_float = newSVpvs("");
4601         data.last_found = newSVpvs("");
4602         data.longest = &(data.longest_fixed);
4603         first = scan;
4604         if (!ri->regstclass) {
4605             cl_init(pRExC_state, &ch_class);
4606             data.start_class = &ch_class;
4607             stclass_flag = SCF_DO_STCLASS_AND;
4608         } else                          /* XXXX Check for BOUND? */
4609             stclass_flag = 0;
4610         data.last_closep = &last_close;
4611         
4612         minlen = study_chunk(pRExC_state, &first, &minlen, &fake, scan + RExC_size, /* Up to end */
4613             &data, -1, NULL, NULL,
4614             SCF_DO_SUBSTR | SCF_WHILEM_VISITED_POS | stclass_flag,0);
4615
4616         
4617         CHECK_RESTUDY_GOTO;
4618
4619
4620         if ( RExC_npar == 1 && data.longest == &(data.longest_fixed)
4621              && data.last_start_min == 0 && data.last_end > 0
4622              && !RExC_seen_zerolen
4623              && !(RExC_seen & REG_SEEN_VERBARG)
4624              && (!(RExC_seen & REG_SEEN_GPOS) || (r->extflags & RXf_ANCH_GPOS)))
4625             r->extflags |= RXf_CHECK_ALL;
4626         scan_commit(pRExC_state, &data,&minlen,0);
4627         SvREFCNT_dec(data.last_found);
4628
4629         /* Note that code very similar to this but for anchored string 
4630            follows immediately below, changes may need to be made to both. 
4631            Be careful. 
4632          */
4633         longest_float_length = CHR_SVLEN(data.longest_float);
4634         if (longest_float_length
4635             || (data.flags & SF_FL_BEFORE_EOL
4636                 && (!(data.flags & SF_FL_BEFORE_MEOL)
4637                     || (RExC_flags & RXf_PMf_MULTILINE)))) 
4638         {
4639             I32 t,ml;
4640
4641             if (SvCUR(data.longest_fixed)  /* ok to leave SvCUR */
4642                 && data.offset_fixed == data.offset_float_min
4643                 && SvCUR(data.longest_fixed) == SvCUR(data.longest_float))
4644                     goto remove_float;          /* As in (a)+. */
4645
4646             /* copy the information about the longest float from the reg_scan_data
4647                over to the program. */
4648             if (SvUTF8(data.longest_float)) {
4649                 r->float_utf8 = data.longest_float;
4650                 r->float_substr = NULL;
4651             } else {
4652                 r->float_substr = data.longest_float;
4653                 r->float_utf8 = NULL;
4654             }
4655             /* float_end_shift is how many chars that must be matched that 
4656                follow this item. We calculate it ahead of time as once the
4657                lookbehind offset is added in we lose the ability to correctly
4658                calculate it.*/
4659             ml = data.minlen_float ? *(data.minlen_float) 
4660                                    : (I32)longest_float_length;
4661             r->float_end_shift = ml - data.offset_float_min
4662                 - longest_float_length + (SvTAIL(data.longest_float) != 0)
4663                 + data.lookbehind_float;
4664             r->float_min_offset = data.offset_float_min - data.lookbehind_float;
4665             r->float_max_offset = data.offset_float_max;
4666             if (data.offset_float_max < I32_MAX) /* Don't offset infinity */
4667                 r->float_max_offset -= data.lookbehind_float;
4668             
4669             t = (data.flags & SF_FL_BEFORE_EOL /* Can't have SEOL and MULTI */
4670                        && (!(data.flags & SF_FL_BEFORE_MEOL)
4671                            || (RExC_flags & RXf_PMf_MULTILINE)));
4672             fbm_compile(data.longest_float, t ? FBMcf_TAIL : 0);
4673         }
4674         else {
4675           remove_float:
4676             r->float_substr = r->float_utf8 = NULL;
4677             SvREFCNT_dec(data.longest_float);
4678             longest_float_length = 0;
4679         }
4680
4681         /* Note that code very similar to this but for floating string 
4682            is immediately above, changes may need to be made to both. 
4683            Be careful. 
4684          */
4685         longest_fixed_length = CHR_SVLEN(data.longest_fixed);
4686         if (longest_fixed_length
4687             || (data.flags & SF_FIX_BEFORE_EOL /* Cannot have SEOL and MULTI */
4688                 && (!(data.flags & SF_FIX_BEFORE_MEOL)
4689                     || (RExC_flags & RXf_PMf_MULTILINE)))) 
4690         {
4691             I32 t,ml;
4692
4693             /* copy the information about the longest fixed 
4694                from the reg_scan_data over to the program. */
4695             if (SvUTF8(data.longest_fixed)) {
4696                 r->anchored_utf8 = data.longest_fixed;
4697                 r->anchored_substr = NULL;
4698             } else {
4699                 r->anchored_substr = data.longest_fixed;
4700                 r->anchored_utf8 = NULL;
4701             }
4702             /* fixed_end_shift is how many chars that must be matched that 
4703                follow this item. We calculate it ahead of time as once the
4704                lookbehind offset is added in we lose the ability to correctly
4705                calculate it.*/
4706             ml = data.minlen_fixed ? *(data.minlen_fixed) 
4707                                    : (I32)longest_fixed_length;
4708             r->anchored_end_shift = ml - data.offset_fixed
4709                 - longest_fixed_length + (SvTAIL(data.longest_fixed) != 0)
4710                 + data.lookbehind_fixed;
4711             r->anchored_offset = data.offset_fixed - data.lookbehind_fixed;
4712
4713             t = (data.flags & SF_FIX_BEFORE_EOL /* Can't have SEOL and MULTI */
4714                  && (!(data.flags & SF_FIX_BEFORE_MEOL)
4715                      || (RExC_flags & RXf_PMf_MULTILINE)));
4716             fbm_compile(data.longest_fixed, t ? FBMcf_TAIL : 0);
4717         }
4718         else {
4719             r->anchored_substr = r->anchored_utf8 = NULL;
4720             SvREFCNT_dec(data.longest_fixed);
4721             longest_fixed_length = 0;
4722         }
4723         if (ri->regstclass
4724             && (OP(ri->regstclass) == REG_ANY || OP(ri->regstclass) == SANY))
4725             ri->regstclass = NULL;
4726         if ((!(r->anchored_substr || r->anchored_utf8) || r->anchored_offset)
4727             && stclass_flag
4728             && !(data.start_class->flags & ANYOF_EOS)
4729             && !cl_is_anything(data.start_class))
4730         {
4731             const U32 n = add_data(pRExC_state, 1, "f");
4732
4733             Newx(RExC_rxi->data->data[n], 1,
4734                 struct regnode_charclass_class);
4735             StructCopy(data.start_class,
4736                        (struct regnode_charclass_class*)RExC_rxi->data->data[n],
4737                        struct regnode_charclass_class);
4738             ri->regstclass = (regnode*)RExC_rxi->data->data[n];
4739             r->intflags &= ~PREGf_SKIP; /* Used in find_byclass(). */
4740             DEBUG_COMPILE_r({ SV *sv = sv_newmortal();
4741                       regprop(r, sv, (regnode*)data.start_class);
4742                       PerlIO_printf(Perl_debug_log,
4743                                     "synthetic stclass \"%s\".\n",
4744                                     SvPVX_const(sv));});
4745         }
4746
4747         /* A temporary algorithm prefers floated substr to fixed one to dig more info. */
4748         if (longest_fixed_length > longest_float_length) {
4749             r->check_end_shift = r->anchored_end_shift;
4750             r->check_substr = r->anchored_substr;
4751             r->check_utf8 = r->anchored_utf8;
4752             r->check_offset_min = r->check_offset_max = r->anchored_offset;
4753             if (r->extflags & RXf_ANCH_SINGLE)
4754                 r->extflags |= RXf_NOSCAN;
4755         }
4756         else {
4757             r->check_end_shift = r->float_end_shift;
4758             r->check_substr = r->float_substr;
4759             r->check_utf8 = r->float_utf8;
4760             r->check_offset_min = r->float_min_offset;
4761             r->check_offset_max = r->float_max_offset;
4762         }
4763         /* XXXX Currently intuiting is not compatible with ANCH_GPOS.
4764            This should be changed ASAP!  */
4765         if ((r->check_substr || r->check_utf8) && !(r->extflags & RXf_ANCH_GPOS)) {
4766             r->extflags |= RXf_USE_INTUIT;
4767             if (SvTAIL(r->check_substr ? r->check_substr : r->check_utf8))
4768                 r->extflags |= RXf_INTUIT_TAIL;
4769         }
4770         /* XXX Unneeded? dmq (shouldn't as this is handled elsewhere)
4771         if ( (STRLEN)minlen < longest_float_length )
4772             minlen= longest_float_length;
4773         if ( (STRLEN)minlen < longest_fixed_length )
4774             minlen= longest_fixed_length;     
4775         */
4776     }
4777     else {
4778         /* Several toplevels. Best we can is to set minlen. */
4779         I32 fake;
4780         struct regnode_charclass_class ch_class;
4781         I32 last_close = 0;
4782         
4783         DEBUG_PARSE_r(PerlIO_printf(Perl_debug_log, "\nMulti Top Level\n"));
4784
4785         scan = ri->program + 1;
4786         cl_init(pRExC_state, &ch_class);
4787         data.start_class = &ch_class;
4788         data.last_closep = &last_close;
4789
4790         
4791         minlen = study_chunk(pRExC_state, &scan, &minlen, &fake, scan + RExC_size,
4792             &data, -1, NULL, NULL, SCF_DO_STCLASS_AND|SCF_WHILEM_VISITED_POS,0);
4793         
4794         CHECK_RESTUDY_GOTO;
4795
4796         r->check_substr = r->check_utf8 = r->anchored_substr = r->anchored_utf8
4797                 = r->float_substr = r->float_utf8 = NULL;
4798         if (!(data.start_class->flags & ANYOF_EOS)
4799             && !cl_is_anything(data.start_class))
4800         {
4801             const U32 n = add_data(pRExC_state, 1, "f");
4802
4803             Newx(RExC_rxi->data->data[n], 1,
4804                 struct regnode_charclass_class);
4805             StructCopy(data.start_class,
4806                        (struct regnode_charclass_class*)RExC_rxi->data->data[n],
4807                        struct regnode_charclass_class);
4808             ri->regstclass = (regnode*)RExC_rxi->data->data[n];
4809             r->intflags &= ~PREGf_SKIP; /* Used in find_byclass(). */
4810             DEBUG_COMPILE_r({ SV* sv = sv_newmortal();
4811                       regprop(r, sv, (regnode*)data.start_class);
4812                       PerlIO_printf(Perl_debug_log,
4813                                     "synthetic stclass \"%s\".\n",
4814                                     SvPVX_const(sv));});
4815         }
4816     }
4817
4818     /* Guard against an embedded (?=) or (?<=) with a longer minlen than
4819        the "real" pattern. */
4820     DEBUG_OPTIMISE_r({
4821         PerlIO_printf(Perl_debug_log,"minlen: %"IVdf" r->minlen:%"IVdf"\n",
4822                       (IV)minlen, (IV)r->minlen);
4823     });
4824     r->minlenret = minlen;
4825     if (r->minlen < minlen) 
4826         r->minlen = minlen;
4827     
4828     if (RExC_seen & REG_SEEN_GPOS)
4829         r->extflags |= RXf_GPOS_SEEN;
4830     if (RExC_seen & REG_SEEN_LOOKBEHIND)
4831         r->extflags |= RXf_LOOKBEHIND_SEEN;
4832     if (RExC_seen & REG_SEEN_EVAL)
4833         r->extflags |= RXf_EVAL_SEEN;
4834     if (RExC_seen & REG_SEEN_CANY)
4835         r->extflags |= RXf_CANY_SEEN;
4836     if (RExC_seen & REG_SEEN_VERBARG)
4837         r->intflags |= PREGf_VERBARG_SEEN;
4838     if (RExC_seen & REG_SEEN_CUTGROUP)
4839         r->intflags |= PREGf_CUTGROUP_SEEN;
4840     if (RExC_paren_names)
4841         RXp_PAREN_NAMES(r) = (HV*)SvREFCNT_inc(RExC_paren_names);
4842     else
4843         RXp_PAREN_NAMES(r) = NULL;
4844
4845 #ifdef STUPID_PATTERN_CHECKS            
4846     if (RX_PRELEN(rx) == 0)
4847         r->extflags |= RXf_NULL;
4848     if (r->extflags & RXf_SPLIT && RX_PRELEN(rx) == 1 && RX_PRECOMP(rx)[0] == ' ')
4849         /* XXX: this should happen BEFORE we compile */
4850         r->extflags |= (RXf_SKIPWHITE|RXf_WHITE); 
4851     else if (RX_PRELEN(rx) == 3 && memEQ("\\s+", RX_PRECOMP(rx), 3))
4852         r->extflags |= RXf_WHITE;
4853     else if (RX_PRELEN(rx) == 1 && RXp_PRECOMP(rx)[0] == '^')
4854         r->extflags |= RXf_START_ONLY;
4855 #else
4856     if (r->extflags & RXf_SPLIT && RX_PRELEN(rx) == 1 && RX_PRECOMP(rx)[0] == ' ')
4857             /* XXX: this should happen BEFORE we compile */
4858             r->extflags |= (RXf_SKIPWHITE|RXf_WHITE); 
4859     else {
4860         regnode *first = ri->program + 1;
4861         U8 fop = OP(first);
4862         U8 nop = OP(NEXTOPER(first));
4863         
4864         if (PL_regkind[fop] == NOTHING && nop == END)
4865             r->extflags |= RXf_NULL;
4866         else if (PL_regkind[fop] == BOL && nop == END)
4867             r->extflags |= RXf_START_ONLY;
4868         else if (fop == PLUS && nop ==SPACE && OP(regnext(first))==END)
4869             r->extflags |= RXf_WHITE;    
4870     }
4871 #endif
4872 #ifdef DEBUGGING
4873     if (RExC_paren_names) {
4874         ri->name_list_idx = add_data( pRExC_state, 1, "p" );
4875         ri->data->data[ri->name_list_idx] = (void*)SvREFCNT_inc(RExC_paren_name_list);
4876     } else
4877 #endif
4878         ri->name_list_idx = 0;
4879
4880     if (RExC_recurse_count) {
4881         for ( ; RExC_recurse_count ; RExC_recurse_count-- ) {
4882             const regnode *scan = RExC_recurse[RExC_recurse_count-1];
4883             ARG2L_SET( scan, RExC_open_parens[ARG(scan)-1] - scan );
4884         }
4885     }
4886     Newxz(r->offs, RExC_npar, regexp_paren_pair);
4887     /* assume we don't need to swap parens around before we match */
4888
4889     DEBUG_DUMP_r({
4890         PerlIO_printf(Perl_debug_log,"Final program:\n");
4891         regdump(r);
4892     });
4893 #ifdef RE_TRACK_PATTERN_OFFSETS
4894     DEBUG_OFFSETS_r(if (ri->u.offsets) {
4895         const U32 len = ri->u.offsets[0];
4896         U32 i;
4897         GET_RE_DEBUG_FLAGS_DECL;
4898         PerlIO_printf(Perl_debug_log, "Offsets: [%"UVuf"]\n\t", (UV)ri->u.offsets[0]);
4899         for (i = 1; i <= len; i++) {
4900             if (ri->u.offsets[i*2-1] || ri->u.offsets[i*2])
4901                 PerlIO_printf(Perl_debug_log, "%"UVuf":%"UVuf"[%"UVuf"] ",
4902                 (UV)i, (UV)ri->u.offsets[i*2-1], (UV)ri->u.offsets[i*2]);
4903             }
4904         PerlIO_printf(Perl_debug_log, "\n");
4905     });
4906 #endif
4907     return rx;
4908 }
4909
4910 #undef RE_ENGINE_PTR
4911
4912
4913 SV*
4914 Perl_reg_named_buff(pTHX_ REGEXP * const rx, SV * const key, SV * const value,
4915                     const U32 flags)
4916 {
4917     PERL_ARGS_ASSERT_REG_NAMED_BUFF;
4918
4919     PERL_UNUSED_ARG(value);
4920
4921     if (flags & RXapif_FETCH) {
4922         return reg_named_buff_fetch(rx, key, flags);
4923     } else if (flags & (RXapif_STORE | RXapif_DELETE | RXapif_CLEAR)) {
4924         Perl_croak(aTHX_ PL_no_modify);
4925         return NULL;
4926     } else if (flags & RXapif_EXISTS) {
4927         return reg_named_buff_exists(rx, key, flags)
4928             ? &PL_sv_yes
4929             : &PL_sv_no;
4930     } else if (flags & RXapif_REGNAMES) {
4931         return reg_named_buff_all(rx, flags);
4932     } else if (flags & (RXapif_SCALAR | RXapif_REGNAMES_COUNT)) {
4933         return reg_named_buff_scalar(rx, flags);
4934     } else {
4935         Perl_croak(aTHX_ "panic: Unknown flags %d in named_buff", (int)flags);
4936         return NULL;
4937     }
4938 }
4939
4940 SV*
4941 Perl_reg_named_buff_iter(pTHX_ REGEXP * const rx, const SV * const lastkey,
4942                          const U32 flags)
4943 {
4944     PERL_ARGS_ASSERT_REG_NAMED_BUFF_ITER;
4945     PERL_UNUSED_ARG(lastkey);
4946
4947     if (flags & RXapif_FIRSTKEY)
4948         return reg_named_buff_firstkey(rx, flags);
4949     else if (flags & RXapif_NEXTKEY)
4950         return reg_named_buff_nextkey(rx, flags);
4951     else {
4952         Perl_croak(aTHX_ "panic: Unknown flags %d in named_buff_iter", (int)flags);
4953         return NULL;
4954     }
4955 }
4956
4957 SV*
4958 Perl_reg_named_buff_fetch(pTHX_ REGEXP * const r, SV * const namesv,
4959                           const U32 flags)
4960 {
4961     AV *retarray = NULL;
4962     SV *ret;
4963     struct regexp *const rx = (struct regexp *)SvANY(r);
4964
4965     PERL_ARGS_ASSERT_REG_NAMED_BUFF_FETCH;
4966
4967     if (flags & RXapif_ALL)
4968         retarray=newAV();
4969
4970     if (rx && RXp_PAREN_NAMES(rx)) {
4971         HE *he_str = hv_fetch_ent( RXp_PAREN_NAMES(rx), namesv, 0, 0 );
4972         if (he_str) {
4973             IV i;
4974             SV* sv_dat=HeVAL(he_str);
4975             I32 *nums=(I32*)SvPVX(sv_dat);
4976             for ( i=0; i<SvIVX(sv_dat); i++ ) {
4977                 if ((I32)(rx->nparens) >= nums[i]
4978                     && rx->offs[nums[i]].start != -1
4979                     && rx->offs[nums[i]].end != -1)
4980                 {
4981                     ret = newSVpvs("");
4982                     CALLREG_NUMBUF_FETCH(r,nums[i],ret);
4983                     if (!retarray)
4984                         return ret;
4985                 } else {
4986                     ret = newSVsv(&PL_sv_undef);
4987                 }
4988                 if (retarray) {
4989                     SvREFCNT_inc_simple_void(ret);
4990                     av_push(retarray, ret);
4991                 }
4992             }
4993             if (retarray)
4994                 return newRV((SV*)retarray);
4995         }
4996     }
4997     return NULL;
4998 }
4999
5000 bool
5001 Perl_reg_named_buff_exists(pTHX_ REGEXP * const r, SV * const key,
5002                            const U32 flags)
5003 {
5004     struct regexp *const rx = (struct regexp *)SvANY(r);
5005
5006     PERL_ARGS_ASSERT_REG_NAMED_BUFF_EXISTS;
5007
5008     if (rx && RXp_PAREN_NAMES(rx)) {
5009         if (flags & RXapif_ALL) {
5010             return hv_exists_ent(RXp_PAREN_NAMES(rx), key, 0);
5011         } else {
5012             SV *sv = CALLREG_NAMED_BUFF_FETCH(r, key, flags);
5013             if (sv) {
5014                 SvREFCNT_dec(sv);
5015                 return TRUE;
5016             } else {
5017                 return FALSE;
5018             }
5019         }
5020     } else {
5021         return FALSE;
5022     }
5023 }
5024
5025 SV*
5026 Perl_reg_named_buff_firstkey(pTHX_ REGEXP * const r, const U32 flags)
5027 {
5028     struct regexp *const rx = (struct regexp *)SvANY(r);
5029
5030     PERL_ARGS_ASSERT_REG_NAMED_BUFF_FIRSTKEY;
5031
5032     if ( rx && RXp_PAREN_NAMES(rx) ) {
5033         (void)hv_iterinit(RXp_PAREN_NAMES(rx));
5034
5035         return CALLREG_NAMED_BUFF_NEXTKEY(r, NULL, flags & ~RXapif_FIRSTKEY);
5036     } else {
5037         return FALSE;
5038     }
5039 }
5040
5041 SV*
5042 Perl_reg_named_buff_nextkey(pTHX_ REGEXP * const r, const U32 flags)
5043 {
5044     struct regexp *const rx = (struct regexp *)SvANY(r);
5045     GET_RE_DEBUG_FLAGS_DECL;
5046
5047     PERL_ARGS_ASSERT_REG_NAMED_BUFF_NEXTKEY;
5048
5049     if (rx && RXp_PAREN_NAMES(rx)) {
5050         HV *hv = RXp_PAREN_NAMES(rx);
5051         HE *temphe;
5052         while ( (temphe = hv_iternext_flags(hv,0)) ) {
5053             IV i;
5054             IV parno = 0;
5055             SV* sv_dat = HeVAL(temphe);
5056             I32 *nums = (I32*)SvPVX(sv_dat);
5057             for ( i = 0; i < SvIVX(sv_dat); i++ ) {
5058                 if ((I32)(rx->lastparen) >= nums[i] &&
5059                     rx->offs[nums[i]].start != -1 &&
5060                     rx->offs[nums[i]].end != -1)
5061                 {
5062                     parno = nums[i];
5063                     break;
5064                 }
5065             }
5066             if (parno || flags & RXapif_ALL) {
5067                 return newSVhek(HeKEY_hek(temphe));
5068             }
5069         }
5070     }
5071     return NULL;
5072 }
5073
5074 SV*
5075 Perl_reg_named_buff_scalar(pTHX_ REGEXP * const r, const U32 flags)
5076 {
5077     SV *ret;
5078     AV *av;
5079     I32 length;
5080     struct regexp *const rx = (struct regexp *)SvANY(r);
5081
5082     PERL_ARGS_ASSERT_REG_NAMED_BUFF_SCALAR;
5083
5084     if (rx && RXp_PAREN_NAMES(rx)) {
5085         if (flags & (RXapif_ALL | RXapif_REGNAMES_COUNT)) {
5086             return newSViv(HvTOTALKEYS(RXp_PAREN_NAMES(rx)));
5087         } else if (flags & RXapif_ONE) {
5088             ret = CALLREG_NAMED_BUFF_ALL(r, (flags | RXapif_REGNAMES));
5089             av = (AV*)SvRV(ret);
5090             length = av_len(av);
5091             return newSViv(length + 1);
5092         } else {
5093             Perl_croak(aTHX_ "panic: Unknown flags %d in named_buff_scalar", (int)flags);
5094             return NULL;
5095         }
5096     }
5097     return &PL_sv_undef;
5098 }
5099
5100 SV*
5101 Perl_reg_named_buff_all(pTHX_ REGEXP * const r, const U32 flags)
5102 {
5103     struct regexp *const rx = (struct regexp *)SvANY(r);
5104     AV *av = newAV();
5105
5106     PERL_ARGS_ASSERT_REG_NAMED_BUFF_ALL;
5107
5108     if (rx && RXp_PAREN_NAMES(rx)) {
5109         HV *hv= RXp_PAREN_NAMES(rx);
5110         HE *temphe;
5111         (void)hv_iterinit(hv);
5112         while ( (temphe = hv_iternext_flags(hv,0)) ) {
5113             IV i;
5114             IV parno = 0;
5115             SV* sv_dat = HeVAL(temphe);
5116             I32 *nums = (I32*)SvPVX(sv_dat);
5117             for ( i = 0; i < SvIVX(sv_dat); i++ ) {
5118                 if ((I32)(rx->lastparen) >= nums[i] &&
5119                     rx->offs[nums[i]].start != -1 &&
5120                     rx->offs[nums[i]].end != -1)
5121                 {
5122                     parno = nums[i];
5123                     break;
5124                 }
5125             }
5126             if (parno || flags & RXapif_ALL) {
5127                 av_push(av, newSVhek(HeKEY_hek(temphe)));
5128             }
5129         }
5130     }
5131
5132     return newRV((SV*)av);
5133 }
5134
5135 void
5136 Perl_reg_numbered_buff_fetch(pTHX_ REGEXP * const r, const I32 paren,
5137                              SV * const sv)
5138 {
5139     struct regexp *const rx = (struct regexp *)SvANY(r);
5140     char *s = NULL;
5141     I32 i = 0;
5142     I32 s1, t1;
5143
5144     PERL_ARGS_ASSERT_REG_NUMBERED_BUFF_FETCH;
5145         
5146     if (!rx->subbeg) {
5147         sv_setsv(sv,&PL_sv_undef);
5148         return;
5149     } 
5150     else               
5151     if (paren == RX_BUFF_IDX_PREMATCH && rx->offs[0].start != -1) {
5152         /* $` */
5153         i = rx->offs[0].start;
5154         s = rx->subbeg;
5155     }
5156     else 
5157     if (paren == RX_BUFF_IDX_POSTMATCH && rx->offs[0].end != -1) {
5158         /* $' */
5159         s = rx->subbeg + rx->offs[0].end;
5160         i = rx->sublen - rx->offs[0].end;
5161     } 
5162     else
5163     if ( 0 <= paren && paren <= (I32)rx->nparens &&
5164         (s1 = rx->offs[paren].start) != -1 &&
5165         (t1 = rx->offs[paren].end) != -1)
5166     {
5167         /* $& $1 ... */
5168         i = t1 - s1;
5169         s = rx->subbeg + s1;
5170     } else {
5171         sv_setsv(sv,&PL_sv_undef);
5172         return;
5173     }          
5174     assert(rx->sublen >= (s - rx->subbeg) + i );
5175     if (i >= 0) {
5176         const int oldtainted = PL_tainted;
5177         TAINT_NOT;
5178         sv_setpvn(sv, s, i);
5179         PL_tainted = oldtainted;
5180         if ( (rx->extflags & RXf_CANY_SEEN)
5181             ? (RXp_MATCH_UTF8(rx)
5182                         && (!i || is_utf8_string((U8*)s, i)))
5183             : (RXp_MATCH_UTF8(rx)) )
5184         {
5185             SvUTF8_on(sv);
5186         }
5187         else
5188             SvUTF8_off(sv);
5189         if (PL_tainting) {
5190             if (RXp_MATCH_TAINTED(rx)) {
5191                 if (SvTYPE(sv) >= SVt_PVMG) {
5192                     MAGIC* const mg = SvMAGIC(sv);
5193                     MAGIC* mgt;
5194                     PL_tainted = 1;
5195                     SvMAGIC_set(sv, mg->mg_moremagic);
5196                     SvTAINT(sv);
5197                     if ((mgt = SvMAGIC(sv))) {
5198                         mg->mg_moremagic = mgt;
5199                         SvMAGIC_set(sv, mg);
5200                     }
5201                 } else {
5202                     PL_tainted = 1;
5203                     SvTAINT(sv);
5204                 }
5205             } else 
5206                 SvTAINTED_off(sv);
5207         }
5208     } else {
5209         sv_setsv(sv,&PL_sv_undef);
5210         return;
5211     }
5212 }
5213
5214 void
5215 Perl_reg_numbered_buff_store(pTHX_ REGEXP * const rx, const I32 paren,
5216                                                          SV const * const value)
5217 {
5218     PERL_ARGS_ASSERT_REG_NUMBERED_BUFF_STORE;
5219
5220     PERL_UNUSED_ARG(rx);
5221     PERL_UNUSED_ARG(paren);
5222     PERL_UNUSED_ARG(value);
5223
5224     if (!PL_localizing)
5225         Perl_croak(aTHX_ PL_no_modify);
5226 }
5227
5228 I32
5229 Perl_reg_numbered_buff_length(pTHX_ REGEXP * const r, const SV * const sv,
5230                               const I32 paren)
5231 {
5232     struct regexp *const rx = (struct regexp *)SvANY(r);
5233     I32 i;
5234     I32 s1, t1;
5235
5236     PERL_ARGS_ASSERT_REG_NUMBERED_BUFF_LENGTH;
5237
5238     /* Some of this code was originally in C<Perl_magic_len> in F<mg.c> */
5239         switch (paren) {
5240       /* $` / ${^PREMATCH} */
5241       case RX_BUFF_IDX_PREMATCH:
5242         if (rx->offs[0].start != -1) {
5243                         i = rx->offs[0].start;
5244                         if (i > 0) {
5245                                 s1 = 0;
5246                                 t1 = i;
5247                                 goto getlen;
5248                         }
5249             }
5250         return 0;
5251       /* $' / ${^POSTMATCH} */
5252       case RX_BUFF_IDX_POSTMATCH:
5253             if (rx->offs[0].end != -1) {
5254                         i = rx->sublen - rx->offs[0].end;
5255                         if (i > 0) {
5256                                 s1 = rx->offs[0].end;
5257                                 t1 = rx->sublen;
5258                                 goto getlen;
5259                         }
5260             }
5261         return 0;
5262       /* $& / ${^MATCH}, $1, $2, ... */
5263       default:
5264             if (paren <= (I32)rx->nparens &&
5265             (s1 = rx->offs[paren].start) != -1 &&
5266             (t1 = rx->offs[paren].end) != -1)
5267             {
5268             i = t1 - s1;
5269             goto getlen;
5270         } else {
5271             if (ckWARN(WARN_UNINITIALIZED))
5272                 report_uninit((SV*)sv);
5273             return 0;
5274         }
5275     }
5276   getlen:
5277     if (i > 0 && RXp_MATCH_UTF8(rx)) {
5278         const char * const s = rx->subbeg + s1;
5279         const U8 *ep;
5280         STRLEN el;
5281
5282         i = t1 - s1;
5283         if (is_utf8_string_loclen((U8*)s, i, &ep, &el))
5284                         i = el;
5285     }
5286     return i;
5287 }
5288
5289 SV*
5290 Perl_reg_qr_package(pTHX_ REGEXP * const rx)
5291 {
5292     PERL_ARGS_ASSERT_REG_QR_PACKAGE;
5293         PERL_UNUSED_ARG(rx);
5294         if (0)
5295             return NULL;
5296         else
5297             return newSVpvs("Regexp");
5298 }
5299
5300 /* Scans the name of a named buffer from the pattern.
5301  * If flags is REG_RSN_RETURN_NULL returns null.
5302  * If flags is REG_RSN_RETURN_NAME returns an SV* containing the name
5303  * If flags is REG_RSN_RETURN_DATA returns the data SV* corresponding
5304  * to the parsed name as looked up in the RExC_paren_names hash.
5305  * If there is an error throws a vFAIL().. type exception.
5306  */
5307
5308 #define REG_RSN_RETURN_NULL    0
5309 #define REG_RSN_RETURN_NAME    1
5310 #define REG_RSN_RETURN_DATA    2
5311
5312 STATIC SV*
5313 S_reg_scan_name(pTHX_ RExC_state_t *pRExC_state, U32 flags)
5314 {
5315     char *name_start = RExC_parse;
5316
5317     PERL_ARGS_ASSERT_REG_SCAN_NAME;
5318
5319     if (isIDFIRST_lazy_if(RExC_parse, UTF)) {
5320          /* skip IDFIRST by using do...while */
5321         if (UTF)
5322             do {
5323                 RExC_parse += UTF8SKIP(RExC_parse);
5324             } while (isALNUM_utf8((U8*)RExC_parse));
5325         else
5326             do {
5327                 RExC_parse++;
5328             } while (isALNUM(*RExC_parse));
5329     }
5330
5331     if ( flags ) {
5332         SV* sv_name
5333             = newSVpvn_flags(name_start, (int)(RExC_parse - name_start),
5334                              SVs_TEMP | (UTF ? SVf_UTF8 : 0));
5335         if ( flags == REG_RSN_RETURN_NAME)
5336             return sv_name;
5337         else if (flags==REG_RSN_RETURN_DATA) {
5338             HE *he_str = NULL;
5339             SV *sv_dat = NULL;
5340             if ( ! sv_name )      /* should not happen*/
5341                 Perl_croak(aTHX_ "panic: no svname in reg_scan_name");
5342             if (RExC_paren_names)
5343                 he_str = hv_fetch_ent( RExC_paren_names, sv_name, 0, 0 );
5344             if ( he_str )
5345                 sv_dat = HeVAL(he_str);
5346             if ( ! sv_dat )
5347                 vFAIL("Reference to nonexistent named group");
5348             return sv_dat;
5349         }
5350         else {
5351             Perl_croak(aTHX_ "panic: bad flag in reg_scan_name");
5352         }
5353         /* NOT REACHED */
5354     }
5355     return NULL;
5356 }
5357
5358 #define DEBUG_PARSE_MSG(funcname)     DEBUG_PARSE_r({           \
5359     int rem=(int)(RExC_end - RExC_parse);                       \
5360     int cut;                                                    \
5361     int num;                                                    \
5362     int iscut=0;                                                \
5363     if (rem>10) {                                               \
5364         rem=10;                                                 \
5365         iscut=1;                                                \
5366     }                                                           \
5367     cut=10-rem;                                                 \
5368     if (RExC_lastparse!=RExC_parse)                             \
5369         PerlIO_printf(Perl_debug_log," >%.*s%-*s",              \
5370             rem, RExC_parse,                                    \
5371             cut + 4,                                            \
5372             iscut ? "..." : "<"                                 \
5373         );                                                      \
5374     else                                                        \
5375         PerlIO_printf(Perl_debug_log,"%16s","");                \
5376                                                                 \
5377     if (SIZE_ONLY)                                              \
5378        num = RExC_size + 1;                                     \
5379     else                                                        \
5380        num=REG_NODE_NUM(RExC_emit);                             \
5381     if (RExC_lastnum!=num)                                      \
5382        PerlIO_printf(Perl_debug_log,"|%4d",num);                \
5383     else                                                        \
5384        PerlIO_printf(Perl_debug_log,"|%4s","");                 \
5385     PerlIO_printf(Perl_debug_log,"|%*s%-4s",                    \
5386         (int)((depth*2)), "",                                   \
5387         (funcname)                                              \
5388     );                                                          \
5389     RExC_lastnum=num;                                           \
5390     RExC_lastparse=RExC_parse;                                  \
5391 })
5392
5393
5394
5395 #define DEBUG_PARSE(funcname)     DEBUG_PARSE_r({           \
5396     DEBUG_PARSE_MSG((funcname));                            \
5397     PerlIO_printf(Perl_debug_log,"%4s","\n");               \
5398 })
5399 #define DEBUG_PARSE_FMT(funcname,fmt,args)     DEBUG_PARSE_r({           \
5400     DEBUG_PARSE_MSG((funcname));                            \
5401     PerlIO_printf(Perl_debug_log,fmt "\n",args);               \
5402 })
5403 /*
5404  - reg - regular expression, i.e. main body or parenthesized thing
5405  *
5406  * Caller must absorb opening parenthesis.
5407  *
5408  * Combining parenthesis handling with the base level of regular expression
5409  * is a trifle forced, but the need to tie the tails of the branches to what
5410  * follows makes it hard to avoid.
5411  */
5412 #define REGTAIL(x,y,z) regtail((x),(y),(z),depth+1)
5413 #ifdef DEBUGGING
5414 #define REGTAIL_STUDY(x,y,z) regtail_study((x),(y),(z),depth+1)
5415 #else
5416 #define REGTAIL_STUDY(x,y,z) regtail((x),(y),(z),depth+1)
5417 #endif
5418
5419 STATIC regnode *
5420 S_reg(pTHX_ RExC_state_t *pRExC_state, I32 paren, I32 *flagp,U32 depth)
5421     /* paren: Parenthesized? 0=top, 1=(, inside: changed to letter. */
5422 {
5423     dVAR;
5424     register regnode *ret;              /* Will be the head of the group. */
5425     register regnode *br;
5426     register regnode *lastbr;
5427     register regnode *ender = NULL;
5428     register I32 parno = 0;
5429     I32 flags;
5430     U32 oregflags = RExC_flags;
5431     bool have_branch = 0;
5432     bool is_open = 0;
5433     I32 freeze_paren = 0;
5434     I32 after_freeze = 0;
5435
5436     /* for (?g), (?gc), and (?o) warnings; warning
5437        about (?c) will warn about (?g) -- japhy    */
5438
5439 #define WASTED_O  0x01
5440 #define WASTED_G  0x02
5441 #define WASTED_C  0x04
5442 #define WASTED_GC (0x02|0x04)
5443     I32 wastedflags = 0x00;
5444
5445     char * parse_start = RExC_parse; /* MJD */
5446     char * const oregcomp_parse = RExC_parse;
5447
5448     GET_RE_DEBUG_FLAGS_DECL;
5449
5450     PERL_ARGS_ASSERT_REG;
5451     DEBUG_PARSE("reg ");
5452
5453     *flagp = 0;                         /* Tentatively. */
5454
5455
5456     /* Make an OPEN node, if parenthesized. */
5457     if (paren) {
5458         if ( *RExC_parse == '*') { /* (*VERB:ARG) */
5459             char *start_verb = RExC_parse;
5460             STRLEN verb_len = 0;
5461             char *start_arg = NULL;
5462             unsigned char op = 0;
5463             int argok = 1;
5464             int internal_argval = 0; /* internal_argval is only useful if !argok */
5465             while ( *RExC_parse && *RExC_parse != ')' ) {
5466                 if ( *RExC_parse == ':' ) {
5467                     start_arg = RExC_parse + 1;
5468                     break;
5469                 }
5470                 RExC_parse++;
5471             }
5472             ++start_verb;
5473             verb_len = RExC_parse - start_verb;
5474             if ( start_arg ) {
5475                 RExC_parse++;
5476                 while ( *RExC_parse && *RExC_parse != ')' ) 
5477                     RExC_parse++;
5478                 if ( *RExC_parse != ')' ) 
5479                     vFAIL("Unterminated verb pattern argument");
5480                 if ( RExC_parse == start_arg )
5481                     start_arg = NULL;
5482             } else {
5483                 if ( *RExC_parse != ')' )
5484                     vFAIL("Unterminated verb pattern");
5485             }
5486             
5487             switch ( *start_verb ) {
5488             case 'A':  /* (*ACCEPT) */
5489                 if ( memEQs(start_verb,verb_len,"ACCEPT") ) {
5490                     op = ACCEPT;
5491                     internal_argval = RExC_nestroot;
5492                 }
5493                 break;
5494             case 'C':  /* (*COMMIT) */
5495                 if ( memEQs(start_verb,verb_len,"COMMIT") )
5496                     op = COMMIT;
5497                 break;
5498             case 'F':  /* (*FAIL) */
5499                 if ( verb_len==1 || memEQs(start_verb,verb_len,"FAIL") ) {
5500                     op = OPFAIL;
5501                     argok = 0;
5502                 }
5503                 break;
5504             case ':':  /* (*:NAME) */
5505             case 'M':  /* (*MARK:NAME) */
5506                 if ( verb_len==0 || memEQs(start_verb,verb_len,"MARK") ) {
5507                     op = MARKPOINT;
5508                     argok = -1;
5509                 }
5510                 break;
5511             case 'P':  /* (*PRUNE) */
5512                 if ( memEQs(start_verb,verb_len,"PRUNE") )
5513                     op = PRUNE;
5514                 break;
5515             case 'S':   /* (*SKIP) */  
5516                 if ( memEQs(start_verb,verb_len,"SKIP") ) 
5517                     op = SKIP;
5518                 break;
5519             case 'T':  /* (*THEN) */
5520                 /* [19:06] <TimToady> :: is then */
5521                 if ( memEQs(start_verb,verb_len,"THEN") ) {
5522                     op = CUTGROUP;
5523                     RExC_seen |= REG_SEEN_CUTGROUP;
5524                 }
5525                 break;
5526             }
5527             if ( ! op ) {
5528                 RExC_parse++;
5529                 vFAIL3("Unknown verb pattern '%.*s'",
5530                     verb_len, start_verb);
5531             }
5532             if ( argok ) {
5533                 if ( start_arg && internal_argval ) {
5534                     vFAIL3("Verb pattern '%.*s' may not have an argument",
5535                         verb_len, start_verb); 
5536                 } else if ( argok < 0 && !start_arg ) {
5537                     vFAIL3("Verb pattern '%.*s' has a mandatory argument",
5538                         verb_len, start_verb);    
5539                 } else {
5540                     ret = reganode(pRExC_state, op, internal_argval);
5541                     if ( ! internal_argval && ! SIZE_ONLY ) {
5542                         if (start_arg) {
5543                             SV *sv = newSVpvn( start_arg, RExC_parse - start_arg);
5544                             ARG(ret) = add_data( pRExC_state, 1, "S" );
5545                             RExC_rxi->data->data[ARG(ret)]=(void*)sv;
5546                             ret->flags = 0;
5547                         } else {
5548                             ret->flags = 1; 
5549                         }
5550                     }               
5551                 }
5552                 if (!internal_argval)
5553                     RExC_seen |= REG_SEEN_VERBARG;
5554             } else if ( start_arg ) {
5555                 vFAIL3("Verb pattern '%.*s' may not have an argument",
5556                         verb_len, start_verb);    
5557             } else {
5558                 ret = reg_node(pRExC_state, op);
5559             }
5560             nextchar(pRExC_state);
5561             return ret;
5562         } else 
5563         if (*RExC_parse == '?') { /* (?...) */
5564             bool is_logical = 0;
5565             const char * const seqstart = RExC_parse;
5566
5567             RExC_parse++;
5568             paren = *RExC_parse++;
5569             ret = NULL;                 /* For look-ahead/behind. */
5570             switch (paren) {
5571
5572             case 'P':   /* (?P...) variants for those used to PCRE/Python */
5573                 paren = *RExC_parse++;
5574                 if ( paren == '<')         /* (?P<...>) named capture */
5575                     goto named_capture;
5576                 else if (paren == '>') {   /* (?P>name) named recursion */
5577                     goto named_recursion;
5578                 }
5579                 else if (paren == '=') {   /* (?P=...)  named backref */
5580                     /* this pretty much dupes the code for \k<NAME> in regatom(), if
5581                        you change this make sure you change that */
5582                     char* name_start = RExC_parse;
5583                     U32 num = 0;
5584                     SV *sv_dat = reg_scan_name(pRExC_state,
5585                         SIZE_ONLY ? REG_RSN_RETURN_NULL : REG_RSN_RETURN_DATA);
5586                     if (RExC_parse == name_start || *RExC_parse != ')')
5587                         vFAIL2("Sequence %.3s... not terminated",parse_start);
5588
5589                     if (!SIZE_ONLY) {
5590                         num = add_data( pRExC_state, 1, "S" );
5591                         RExC_rxi->data->data[num]=(void*)sv_dat;
5592                         SvREFCNT_inc_simple_void(sv_dat);
5593                     }
5594                     RExC_sawback = 1;
5595                     ret = reganode(pRExC_state,
5596                            (U8)(FOLD ? (LOC ? NREFFL : NREFF) : NREF),
5597                            num);
5598                     *flagp |= HASWIDTH;
5599
5600                     Set_Node_Offset(ret, parse_start+1);
5601                     Set_Node_Cur_Length(ret); /* MJD */
5602
5603                     nextchar(pRExC_state);
5604                     return ret;
5605                 }
5606                 RExC_parse++;
5607                 vFAIL3("Sequence (%.*s...) not recognized", RExC_parse-seqstart, seqstart);
5608                 /*NOTREACHED*/
5609             case '<':           /* (?<...) */
5610                 if (*RExC_parse == '!')
5611                     paren = ',';
5612                 else if (*RExC_parse != '=') 
5613               named_capture:
5614                 {               /* (?<...>) */
5615                     char *name_start;
5616                     SV *svname;
5617                     paren= '>';
5618             case '\'':          /* (?'...') */
5619                     name_start= RExC_parse;
5620                     svname = reg_scan_name(pRExC_state,
5621                         SIZE_ONLY ?  /* reverse test from the others */
5622                         REG_RSN_RETURN_NAME : 
5623                         REG_RSN_RETURN_NULL);
5624                     if (RExC_parse == name_start) {
5625                         RExC_parse++;
5626                         vFAIL3("Sequence (%.*s...) not recognized", RExC_parse-seqstart, seqstart);
5627                         /*NOTREACHED*/
5628                     }
5629                     if (*RExC_parse != paren)
5630                         vFAIL2("Sequence (?%c... not terminated",
5631                             paren=='>' ? '<' : paren);
5632                     if (SIZE_ONLY) {
5633                         HE *he_str;
5634                         SV *sv_dat = NULL;
5635                         if (!svname) /* shouldnt happen */
5636                             Perl_croak(aTHX_
5637                                 "panic: reg_scan_name returned NULL");
5638                         if (!RExC_paren_names) {
5639                             RExC_paren_names= newHV();
5640                             sv_2mortal((SV*)RExC_paren_names);
5641 #ifdef DEBUGGING
5642                             RExC_paren_name_list= newAV();
5643                             sv_2mortal((SV*)RExC_paren_name_list);
5644 #endif
5645                         }
5646                         he_str = hv_fetch_ent( RExC_paren_names, svname, 1, 0 );
5647                         if ( he_str )
5648                             sv_dat = HeVAL(he_str);
5649                         if ( ! sv_dat ) {
5650                             /* croak baby croak */
5651                             Perl_croak(aTHX_
5652                                 "panic: paren_name hash element allocation failed");
5653                         } else if ( SvPOK(sv_dat) ) {
5654                             /* (?|...) can mean we have dupes so scan to check
5655                                its already been stored. Maybe a flag indicating
5656                                we are inside such a construct would be useful,
5657                                but the arrays are likely to be quite small, so
5658                                for now we punt -- dmq */
5659                             IV count = SvIV(sv_dat);
5660                             I32 *pv = (I32*)SvPVX(sv_dat);
5661                             IV i;
5662                             for ( i = 0 ; i < count ; i++ ) {
5663                                 if ( pv[i] == RExC_npar ) {
5664                                     count = 0;
5665                                     break;
5666                                 }
5667                             }
5668                             if ( count ) {
5669                                 pv = (I32*)SvGROW(sv_dat, SvCUR(sv_dat) + sizeof(I32)+1);
5670                                 SvCUR_set(sv_dat, SvCUR(sv_dat) + sizeof(I32));
5671                                 pv[count] = RExC_npar;
5672 #ifdef PERL_DEBUG_COW
5673                                 ((XPVIV*) SvANY(sv_dat))->xiv_iv++;
5674 #else
5675                                 SvIVX(sv_dat)++;
5676 #endif
5677                             }
5678                         } else {
5679                             (void)SvUPGRADE(sv_dat,SVt_PVNV);
5680                             sv_setpvn(sv_dat, (char *)&(RExC_npar), sizeof(I32));
5681                             SvIOK_on(sv_dat);
5682                             SvIV_set(sv_dat, 1);
5683                         }
5684 #ifdef DEBUGGING
5685                         if (!av_store(RExC_paren_name_list, RExC_npar, SvREFCNT_inc(svname)))
5686                             SvREFCNT_dec(svname);
5687 #endif
5688
5689                         /*sv_dump(sv_dat);*/
5690                     }
5691                     nextchar(pRExC_state);
5692                     paren = 1;
5693                     goto capturing_parens;
5694                 }
5695                 RExC_seen |= REG_SEEN_LOOKBEHIND;
5696                 RExC_parse++;
5697             case '=':           /* (?=...) */
5698                 RExC_seen_zerolen++;
5699                         break;
5700             case '!':           /* (?!...) */
5701                 RExC_seen_zerolen++;
5702                 if (*RExC_parse == ')') {
5703                     ret=reg_node(pRExC_state, OPFAIL);
5704                     nextchar(pRExC_state);
5705                     return ret;
5706                 }
5707                 break;
5708             case '|':           /* (?|...) */
5709                 /* branch reset, behave like a (?:...) except that
5710                    buffers in alternations share the same numbers */
5711                 paren = ':'; 
5712                 after_freeze = freeze_paren = RExC_npar;
5713                 break;
5714             case ':':           /* (?:...) */
5715             case '>':           /* (?>...) */
5716                 break;
5717             case '$':           /* (?$...) */
5718             case '@':           /* (?@...) */
5719                 vFAIL2("Sequence (?%c...) not implemented", (int)paren);
5720                 break;
5721             case '#':           /* (?#...) */
5722                 while (*RExC_parse && *RExC_parse != ')')
5723                     RExC_parse++;
5724                 if (*RExC_parse != ')')
5725                     FAIL("Sequence (?#... not terminated");
5726                 nextchar(pRExC_state);
5727                 *flagp = TRYAGAIN;
5728                 return NULL;
5729             case '0' :           /* (?0) */
5730             case 'R' :           /* (?R) */
5731                 if (*RExC_parse != ')')
5732                     FAIL("Sequence (?R) not terminated");
5733                 ret = reg_node(pRExC_state, GOSTART);
5734                 *flagp |= POSTPONED;
5735                 nextchar(pRExC_state);
5736                 return ret;
5737                 /*notreached*/
5738             { /* named and numeric backreferences */
5739                 I32 num;
5740             case '&':            /* (?&NAME) */
5741                 parse_start = RExC_parse - 1;
5742               named_recursion:
5743                 {
5744                     SV *sv_dat = reg_scan_name(pRExC_state,
5745                         SIZE_ONLY ? REG_RSN_RETURN_NULL : REG_RSN_RETURN_DATA);
5746                      num = sv_dat ? *((I32 *)SvPVX(sv_dat)) : 0;
5747                 }
5748                 goto gen_recurse_regop;
5749                 /* NOT REACHED */
5750             case '+':
5751                 if (!(RExC_parse[0] >= '1' && RExC_parse[0] <= '9')) {
5752                     RExC_parse++;
5753                     vFAIL("Illegal pattern");
5754                 }
5755                 goto parse_recursion;
5756                 /* NOT REACHED*/
5757             case '-': /* (?-1) */
5758                 if (!(RExC_parse[0] >= '1' && RExC_parse[0] <= '9')) {
5759                     RExC_parse--; /* rewind to let it be handled later */
5760                     goto parse_flags;
5761                 } 
5762                 /*FALLTHROUGH */
5763             case '1': case '2': case '3': case '4': /* (?1) */
5764             case '5': case '6': case '7': case '8': case '9':
5765                 RExC_parse--;
5766               parse_recursion:
5767                 num = atoi(RExC_parse);
5768                 parse_start = RExC_parse - 1; /* MJD */
5769                 if (*RExC_parse == '-')
5770                     RExC_parse++;
5771                 while (isDIGIT(*RExC_parse))
5772                         RExC_parse++;
5773                 if (*RExC_parse!=')') 
5774                     vFAIL("Expecting close bracket");
5775                         
5776               gen_recurse_regop:
5777                 if ( paren == '-' ) {
5778                     /*
5779                     Diagram of capture buffer numbering.
5780                     Top line is the normal capture buffer numbers
5781                     Botton line is the negative indexing as from
5782                     the X (the (?-2))
5783
5784                     +   1 2    3 4 5 X          6 7
5785                        /(a(x)y)(a(b(c(?-2)d)e)f)(g(h))/
5786                     -   5 4    3 2 1 X          x x
5787
5788                     */
5789                     num = RExC_npar + num;
5790                     if (num < 1)  {
5791                         RExC_parse++;
5792                         vFAIL("Reference to nonexistent group");
5793                     }
5794                 } else if ( paren == '+' ) {
5795                     num = RExC_npar + num - 1;
5796                 }
5797
5798                 ret = reganode(pRExC_state, GOSUB, num);
5799                 if (!SIZE_ONLY) {
5800                     if (num > (I32)RExC_rx->nparens) {
5801                         RExC_parse++;
5802                         vFAIL("Reference to nonexistent group");
5803                     }
5804                     ARG2L_SET( ret, RExC_recurse_count++);
5805                     RExC_emit++;
5806                     DEBUG_OPTIMISE_MORE_r(PerlIO_printf(Perl_debug_log,
5807                         "Recurse #%"UVuf" to %"IVdf"\n", (UV)ARG(ret), (IV)ARG2L(ret)));
5808                 } else {
5809                     RExC_size++;
5810                 }
5811                 RExC_seen |= REG_SEEN_RECURSE;
5812                 Set_Node_Length(ret, 1 + regarglen[OP(ret)]); /* MJD */
5813                 Set_Node_Offset(ret, parse_start); /* MJD */
5814
5815                 *flagp |= POSTPONED;
5816                 nextchar(pRExC_state);
5817                 return ret;
5818             } /* named and numeric backreferences */
5819             /* NOT REACHED */
5820
5821             case '?':           /* (??...) */
5822                 is_logical = 1;
5823                 if (*RExC_parse != '{') {
5824                     RExC_parse++;
5825                     vFAIL3("Sequence (%.*s...) not recognized", RExC_parse-seqstart, seqstart);
5826                     /*NOTREACHED*/
5827                 }
5828                 *flagp |= POSTPONED;
5829                 paren = *RExC_parse++;
5830                 /* FALL THROUGH */
5831             case '{':           /* (?{...}) */
5832             {
5833                 I32 count = 1;
5834                 U32 n = 0;
5835                 char c;
5836                 char *s = RExC_parse;
5837
5838                 RExC_seen_zerolen++;
5839                 RExC_seen |= REG_SEEN_EVAL;
5840                 while (count && (c = *RExC_parse)) {
5841                     if (c == '\\') {
5842                         if (RExC_parse[1])
5843                             RExC_parse++;
5844                     }
5845                     else if (c == '{')
5846                         count++;
5847                     else if (c == '}')
5848                         count--;
5849                     RExC_parse++;
5850                 }
5851                 if (*RExC_parse != ')') {
5852                     RExC_parse = s;             
5853                     vFAIL("Sequence (?{...}) not terminated or not {}-balanced");
5854                 }
5855                 if (!SIZE_ONLY) {
5856                     PAD *pad;
5857                     OP_4tree *sop, *rop;
5858                     SV * const sv = newSVpvn(s, RExC_parse - 1 - s);
5859
5860                     ENTER;
5861                     Perl_save_re_context(aTHX);
5862                     rop = sv_compile_2op(sv, &sop, "re", &pad);
5863                     sop->op_private |= OPpREFCOUNTED;
5864                     /* re_dup will OpREFCNT_inc */
5865                     OpREFCNT_set(sop, 1);
5866                     LEAVE;
5867
5868                     n = add_data(pRExC_state, 3, "nop");
5869                     RExC_rxi->data->data[n] = (void*)rop;
5870                     RExC_rxi->data->data[n+1] = (void*)sop;
5871                     RExC_rxi->data->data[n+2] = (void*)pad;
5872                     SvREFCNT_dec(sv);
5873                 }
5874                 else {                                          /* First pass */
5875                     if (PL_reginterp_cnt < ++RExC_seen_evals
5876                         && IN_PERL_RUNTIME)
5877                         /* No compiled RE interpolated, has runtime
5878                            components ===> unsafe.  */
5879                         FAIL("Eval-group not allowed at runtime, use re 'eval'");
5880                     if (PL_tainting && PL_tainted)
5881                         FAIL("Eval-group in insecure regular expression");
5882 #if PERL_VERSION > 8
5883                     if (IN_PERL_COMPILETIME)
5884                         PL_cv_has_eval = 1;
5885 #endif
5886                 }
5887
5888                 nextchar(pRExC_state);
5889                 if (is_logical) {
5890                     ret = reg_node(pRExC_state, LOGICAL);
5891                     if (!SIZE_ONLY)
5892                         ret->flags = 2;
5893                     REGTAIL(pRExC_state, ret, reganode(pRExC_state, EVAL, n));
5894                     /* deal with the length of this later - MJD */
5895                     return ret;
5896                 }
5897                 ret = reganode(pRExC_state, EVAL, n);
5898                 Set_Node_Length(ret, RExC_parse - parse_start + 1);
5899                 Set_Node_Offset(ret, parse_start);
5900                 return ret;
5901             }
5902             case '(':           /* (?(?{...})...) and (?(?=...)...) */
5903             {
5904                 int is_define= 0;
5905                 if (RExC_parse[0] == '?') {        /* (?(?...)) */
5906                     if (RExC_parse[1] == '=' || RExC_parse[1] == '!'
5907                         || RExC_parse[1] == '<'
5908                         || RExC_parse[1] == '{') { /* Lookahead or eval. */
5909                         I32 flag;
5910                         
5911                         ret = reg_node(pRExC_state, LOGICAL);
5912                         if (!SIZE_ONLY)
5913                             ret->flags = 1;
5914                         REGTAIL(pRExC_state, ret, reg(pRExC_state, 1, &flag,depth+1));
5915                         goto insert_if;
5916                     }
5917                 }
5918                 else if ( RExC_parse[0] == '<'     /* (?(<NAME>)...) */
5919                          || RExC_parse[0] == '\'' ) /* (?('NAME')...) */
5920                 {
5921                     char ch = RExC_parse[0] == '<' ? '>' : '\'';
5922                     char *name_start= RExC_parse++;
5923                     U32 num = 0;
5924                     SV *sv_dat=reg_scan_name(pRExC_state,
5925                         SIZE_ONLY ? REG_RSN_RETURN_NULL : REG_RSN_RETURN_DATA);
5926                     if (RExC_parse == name_start || *RExC_parse != ch)
5927                         vFAIL2("Sequence (?(%c... not terminated",
5928                             (ch == '>' ? '<' : ch));
5929                     RExC_parse++;
5930                     if (!SIZE_ONLY) {
5931                         num = add_data( pRExC_state, 1, "S" );
5932                         RExC_rxi->data->data[num]=(void*)sv_dat;
5933                         SvREFCNT_inc_simple_void(sv_dat);
5934                     }
5935                     ret = reganode(pRExC_state,NGROUPP,num);
5936                     goto insert_if_check_paren;
5937                 }
5938                 else if (RExC_parse[0] == 'D' &&
5939                          RExC_parse[1] == 'E' &&
5940                          RExC_parse[2] == 'F' &&
5941                          RExC_parse[3] == 'I' &&
5942                          RExC_parse[4] == 'N' &&
5943                          RExC_parse[5] == 'E')
5944                 {
5945                     ret = reganode(pRExC_state,DEFINEP,0);
5946                     RExC_parse +=6 ;
5947                     is_define = 1;
5948                     goto insert_if_check_paren;
5949                 }
5950                 else if (RExC_parse[0] == 'R') {
5951                     RExC_parse++;
5952                     parno = 0;
5953                     if (RExC_parse[0] >= '1' && RExC_parse[0] <= '9' ) {
5954                         parno = atoi(RExC_parse++);
5955                         while (isDIGIT(*RExC_parse))
5956                             RExC_parse++;
5957                     } else if (RExC_parse[0] == '&') {
5958                         SV *sv_dat;
5959                         RExC_parse++;
5960                         sv_dat = reg_scan_name(pRExC_state,
5961                             SIZE_ONLY ? REG_RSN_RETURN_NULL : REG_RSN_RETURN_DATA);
5962                         parno = sv_dat ? *((I32 *)SvPVX(sv_dat)) : 0;
5963                     }
5964                     ret = reganode(pRExC_state,INSUBP,parno); 
5965                     goto insert_if_check_paren;
5966                 }
5967                 else if (RExC_parse[0] >= '1' && RExC_parse[0] <= '9' ) {
5968                     /* (?(1)...) */
5969                     char c;
5970                     parno = atoi(RExC_parse++);
5971
5972                     while (isDIGIT(*RExC_parse))
5973                         RExC_parse++;
5974                     ret = reganode(pRExC_state, GROUPP, parno);
5975
5976                  insert_if_check_paren:
5977                     if ((c = *nextchar(pRExC_state)) != ')')
5978                         vFAIL("Switch condition not recognized");
5979                   insert_if:
5980                     REGTAIL(pRExC_state, ret, reganode(pRExC_state, IFTHEN, 0));
5981                     br = regbranch(pRExC_state, &flags, 1,depth+1);
5982                     if (br == NULL)
5983                         br = reganode(pRExC_state, LONGJMP, 0);
5984                     else
5985                         REGTAIL(pRExC_state, br, reganode(pRExC_state, LONGJMP, 0));
5986                     c = *nextchar(pRExC_state);
5987                     if (flags&HASWIDTH)
5988                         *flagp |= HASWIDTH;
5989                     if (c == '|') {
5990                         if (is_define) 
5991                             vFAIL("(?(DEFINE)....) does not allow branches");
5992                         lastbr = reganode(pRExC_state, IFTHEN, 0); /* Fake one for optimizer. */
5993                         regbranch(pRExC_state, &flags, 1,depth+1);
5994                         REGTAIL(pRExC_state, ret, lastbr);
5995                         if (flags&HASWIDTH)
5996                             *flagp |= HASWIDTH;
5997                         c = *nextchar(pRExC_state);
5998                     }
5999                     else
6000                         lastbr = NULL;
6001                     if (c != ')')
6002                         vFAIL("Switch (?(condition)... contains too many branches");
6003                     ender = reg_node(pRExC_state, TAIL);
6004                     REGTAIL(pRExC_state, br, ender);
6005                     if (lastbr) {
6006                         REGTAIL(pRExC_state, lastbr, ender);
6007                         REGTAIL(pRExC_state, NEXTOPER(NEXTOPER(lastbr)), ender);
6008                     }
6009                     else
6010                         REGTAIL(pRExC_state, ret, ender);
6011                     RExC_size++; /* XXX WHY do we need this?!!
6012                                     For large programs it seems to be required
6013                                     but I can't figure out why. -- dmq*/
6014                     return ret;
6015                 }
6016                 else {
6017                     vFAIL2("Unknown switch condition (?(%.2s", RExC_parse);
6018                 }
6019             }
6020             case 0:
6021                 RExC_parse--; /* for vFAIL to print correctly */
6022                 vFAIL("Sequence (? incomplete");
6023                 break;
6024             default:
6025                 --RExC_parse;
6026                 parse_flags:      /* (?i) */  
6027             {
6028                 U32 posflags = 0, negflags = 0;
6029                 U32 *flagsp = &posflags;
6030
6031                 while (*RExC_parse) {
6032                     /* && strchr("iogcmsx", *RExC_parse) */
6033                     /* (?g), (?gc) and (?o) are useless here
6034                        and must be globally applied -- japhy */
6035                     switch (*RExC_parse) {
6036                     CASE_STD_PMMOD_FLAGS_PARSE_SET(flagsp);
6037                     case ONCE_PAT_MOD: /* 'o' */
6038                     case GLOBAL_PAT_MOD: /* 'g' */
6039                         if (SIZE_ONLY && ckWARN(WARN_REGEXP)) {
6040                             const I32 wflagbit = *RExC_parse == 'o' ? WASTED_O : WASTED_G;
6041                             if (! (wastedflags & wflagbit) ) {
6042                                 wastedflags |= wflagbit;
6043                                 vWARN5(
6044                                     RExC_parse + 1,
6045                                     "Useless (%s%c) - %suse /%c modifier",
6046                                     flagsp == &negflags ? "?-" : "?",
6047                                     *RExC_parse,
6048                                     flagsp == &negflags ? "don't " : "",
6049                                     *RExC_parse
6050                                 );
6051                             }
6052                         }
6053                         break;
6054                         
6055                     case CONTINUE_PAT_MOD: /* 'c' */
6056                         if (SIZE_ONLY && ckWARN(WARN_REGEXP)) {
6057                             if (! (wastedflags & WASTED_C) ) {
6058                                 wastedflags |= WASTED_GC;
6059                                 vWARN3(
6060                                     RExC_parse + 1,
6061                                     "Useless (%sc) - %suse /gc modifier",
6062                                     flagsp == &negflags ? "?-" : "?",
6063                                     flagsp == &negflags ? "don't " : ""
6064                                 );
6065                             }
6066                         }
6067                         break;
6068                     case KEEPCOPY_PAT_MOD: /* 'p' */
6069                         if (flagsp == &negflags) {
6070                             if (SIZE_ONLY && ckWARN(WARN_REGEXP))
6071                                 vWARN(RExC_parse + 1,"Useless use of (?-p)");
6072                         } else {
6073                             *flagsp |= RXf_PMf_KEEPCOPY;
6074                         }
6075                         break;
6076                     case '-':
6077                         if (flagsp == &negflags) {
6078                             RExC_parse++;
6079                             vFAIL3("Sequence (%.*s...) not recognized", RExC_parse-seqstart, seqstart);
6080                             /*NOTREACHED*/
6081                         }
6082                         flagsp = &negflags;
6083                         wastedflags = 0;  /* reset so (?g-c) warns twice */
6084                         break;
6085                     case ':':
6086                         paren = ':';
6087                         /*FALLTHROUGH*/
6088                     case ')':
6089                         RExC_flags |= posflags;
6090                         RExC_flags &= ~negflags;
6091                         if (paren != ':') {
6092                             oregflags |= posflags;
6093                             oregflags &= ~negflags;
6094                         }
6095                         nextchar(pRExC_state);
6096                         if (paren != ':') {
6097                             *flagp = TRYAGAIN;
6098                             return NULL;
6099                         } else {
6100                             ret = NULL;
6101                             goto parse_rest;
6102                         }
6103                         /*NOTREACHED*/
6104                     default:
6105                         RExC_parse++;
6106                         vFAIL3("Sequence (%.*s...) not recognized", RExC_parse-seqstart, seqstart);
6107                         /*NOTREACHED*/
6108                     }                           
6109                     ++RExC_parse;
6110                 }
6111             }} /* one for the default block, one for the switch */
6112         }
6113         else {                  /* (...) */
6114           capturing_parens:
6115             parno = RExC_npar;
6116             RExC_npar++;
6117             
6118             ret = reganode(pRExC_state, OPEN, parno);
6119             if (!SIZE_ONLY ){
6120                 if (!RExC_nestroot) 
6121                     RExC_nestroot = parno;
6122                 if (RExC_seen & REG_SEEN_RECURSE
6123                     && !RExC_open_parens[parno-1])
6124                 {
6125                     DEBUG_OPTIMISE_MORE_r(PerlIO_printf(Perl_debug_log,
6126                         "Setting open paren #%"IVdf" to %d\n", 
6127                         (IV)parno, REG_NODE_NUM(ret)));
6128                     RExC_open_parens[parno-1]= ret;
6129                 }
6130             }
6131             Set_Node_Length(ret, 1); /* MJD */
6132             Set_Node_Offset(ret, RExC_parse); /* MJD */
6133             is_open = 1;
6134         }
6135     }
6136     else                        /* ! paren */
6137         ret = NULL;
6138    
6139    parse_rest:
6140     /* Pick up the branches, linking them together. */
6141     parse_start = RExC_parse;   /* MJD */
6142     br = regbranch(pRExC_state, &flags, 1,depth+1);
6143     /*     branch_len = (paren != 0); */
6144
6145     if (br == NULL)
6146         return(NULL);
6147     if (*RExC_parse == '|') {
6148         if (!SIZE_ONLY && RExC_extralen) {
6149             reginsert(pRExC_state, BRANCHJ, br, depth+1);
6150         }
6151         else {                  /* MJD */
6152             reginsert(pRExC_state, BRANCH, br, depth+1);
6153             Set_Node_Length(br, paren != 0);
6154             Set_Node_Offset_To_R(br-RExC_emit_start, parse_start-RExC_start);
6155         }
6156         have_branch = 1;
6157         if (SIZE_ONLY)
6158             RExC_extralen += 1;         /* For BRANCHJ-BRANCH. */
6159     }
6160     else if (paren == ':') {
6161         *flagp |= flags&SIMPLE;
6162     }
6163     if (is_open) {                              /* Starts with OPEN. */
6164         REGTAIL(pRExC_state, ret, br);          /* OPEN -> first. */
6165     }
6166     else if (paren != '?')              /* Not Conditional */
6167         ret = br;
6168     *flagp |= flags & (SPSTART | HASWIDTH | POSTPONED);
6169     lastbr = br;
6170     while (*RExC_parse == '|') {
6171         if (!SIZE_ONLY && RExC_extralen) {
6172             ender = reganode(pRExC_state, LONGJMP,0);
6173             REGTAIL(pRExC_state, NEXTOPER(NEXTOPER(lastbr)), ender); /* Append to the previous. */
6174         }
6175         if (SIZE_ONLY)
6176             RExC_extralen += 2;         /* Account for LONGJMP. */
6177         nextchar(pRExC_state);
6178         if (freeze_paren) {
6179             if (RExC_npar > after_freeze)
6180                 after_freeze = RExC_npar;
6181             RExC_npar = freeze_paren;       
6182         }
6183         br = regbranch(pRExC_state, &flags, 0, depth+1);
6184
6185         if (br == NULL)
6186             return(NULL);
6187         REGTAIL(pRExC_state, lastbr, br);               /* BRANCH -> BRANCH. */
6188         lastbr = br;
6189         *flagp |= flags & (SPSTART | HASWIDTH | POSTPONED);
6190     }
6191
6192     if (have_branch || paren != ':') {
6193         /* Make a closing node, and hook it on the end. */
6194         switch (paren) {
6195         case ':':
6196             ender = reg_node(pRExC_state, TAIL);
6197             break;
6198         case 1:
6199             ender = reganode(pRExC_state, CLOSE, parno);
6200             if (!SIZE_ONLY && RExC_seen & REG_SEEN_RECURSE) {
6201                 DEBUG_OPTIMISE_MORE_r(PerlIO_printf(Perl_debug_log,
6202                         "Setting close paren #%"IVdf" to %d\n", 
6203                         (IV)parno, REG_NODE_NUM(ender)));
6204                 RExC_close_parens[parno-1]= ender;
6205                 if (RExC_nestroot == parno) 
6206                     RExC_nestroot = 0;
6207             }       
6208             Set_Node_Offset(ender,RExC_parse+1); /* MJD */
6209             Set_Node_Length(ender,1); /* MJD */
6210             break;
6211         case '<':
6212         case ',':
6213         case '=':
6214         case '!':
6215             *flagp &= ~HASWIDTH;
6216             /* FALL THROUGH */
6217         case '>':
6218             ender = reg_node(pRExC_state, SUCCEED);
6219             break;
6220         case 0:
6221             ender = reg_node(pRExC_state, END);
6222             if (!SIZE_ONLY) {
6223                 assert(!RExC_opend); /* there can only be one! */
6224                 RExC_opend = ender;
6225             }
6226             break;
6227         }
6228         REGTAIL(pRExC_state, lastbr, ender);
6229
6230         if (have_branch && !SIZE_ONLY) {
6231             if (depth==1)
6232                 RExC_seen |= REG_TOP_LEVEL_BRANCHES;
6233
6234             /* Hook the tails of the branches to the closing node. */
6235             for (br = ret; br; br = regnext(br)) {
6236                 const U8 op = PL_regkind[OP(br)];
6237                 if (op == BRANCH) {
6238                     REGTAIL_STUDY(pRExC_state, NEXTOPER(br), ender);
6239                 }
6240                 else if (op == BRANCHJ) {
6241                     REGTAIL_STUDY(pRExC_state, NEXTOPER(NEXTOPER(br)), ender);
6242                 }
6243             }
6244         }
6245     }
6246
6247     {
6248         const char *p;
6249         static const char parens[] = "=!<,>";
6250
6251         if (paren && (p = strchr(parens, paren))) {
6252             U8 node = ((p - parens) % 2) ? UNLESSM : IFMATCH;
6253             int flag = (p - parens) > 1;
6254
6255             if (paren == '>')
6256                 node = SUSPEND, flag = 0;
6257             reginsert(pRExC_state, node,ret, depth+1);
6258             Set_Node_Cur_Length(ret);
6259             Set_Node_Offset(ret, parse_start + 1);
6260             ret->flags = flag;
6261             REGTAIL_STUDY(pRExC_state, ret, reg_node(pRExC_state, TAIL));
6262         }
6263     }
6264
6265     /* Check for proper termination. */
6266     if (paren) {
6267         RExC_flags = oregflags;
6268         if (RExC_parse >= RExC_end || *nextchar(pRExC_state) != ')') {
6269             RExC_parse = oregcomp_parse;
6270             vFAIL("Unmatched (");
6271         }
6272     }
6273     else if (!paren && RExC_parse < RExC_end) {
6274         if (*RExC_parse == ')') {
6275             RExC_parse++;
6276             vFAIL("Unmatched )");
6277         }
6278         else
6279             FAIL("Junk on end of regexp");      /* "Can't happen". */
6280         /* NOTREACHED */
6281     }
6282     if (after_freeze)
6283         RExC_npar = after_freeze;
6284     return(ret);
6285 }
6286
6287 /*
6288  - regbranch - one alternative of an | operator
6289  *
6290  * Implements the concatenation operator.
6291  */
6292 STATIC regnode *
6293 S_regbranch(pTHX_ RExC_state_t *pRExC_state, I32 *flagp, I32 first, U32 depth)
6294 {
6295     dVAR;
6296     register regnode *ret;
6297     register regnode *chain = NULL;
6298     register regnode *latest;
6299     I32 flags = 0, c = 0;
6300     GET_RE_DEBUG_FLAGS_DECL;
6301
6302     PERL_ARGS_ASSERT_REGBRANCH;
6303
6304     DEBUG_PARSE("brnc");
6305
6306     if (first)
6307         ret = NULL;
6308     else {
6309         if (!SIZE_ONLY && RExC_extralen)
6310             ret = reganode(pRExC_state, BRANCHJ,0);
6311         else {
6312             ret = reg_node(pRExC_state, BRANCH);
6313             Set_Node_Length(ret, 1);
6314         }
6315     }
6316         
6317     if (!first && SIZE_ONLY)
6318         RExC_extralen += 1;                     /* BRANCHJ */
6319
6320     *flagp = WORST;                     /* Tentatively. */
6321
6322     RExC_parse--;
6323     nextchar(pRExC_state);
6324     while (RExC_parse < RExC_end && *RExC_parse != '|' && *RExC_parse != ')') {
6325         flags &= ~TRYAGAIN;
6326         latest = regpiece(pRExC_state, &flags,depth+1);
6327         if (latest == NULL) {
6328             if (flags & TRYAGAIN)
6329                 continue;
6330             return(NULL);
6331         }
6332         else if (ret == NULL)
6333             ret = latest;
6334         *flagp |= flags&(HASWIDTH|POSTPONED);
6335         if (chain == NULL)      /* First piece. */
6336             *flagp |= flags&SPSTART;
6337         else {
6338             RExC_naughty++;
6339             REGTAIL(pRExC_state, chain, latest);
6340         }
6341         chain = latest;
6342         c++;
6343     }
6344     if (chain == NULL) {        /* Loop ran zero times. */
6345         chain = reg_node(pRExC_state, NOTHING);
6346         if (ret == NULL)
6347             ret = chain;
6348     }
6349     if (c == 1) {
6350         *flagp |= flags&SIMPLE;
6351     }
6352
6353     return ret;
6354 }
6355
6356 /*
6357  - regpiece - something followed by possible [*+?]
6358  *
6359  * Note that the branching code sequences used for ? and the general cases
6360  * of * and + are somewhat optimized:  they use the same NOTHING node as
6361  * both the endmarker for their branch list and the body of the last branch.
6362  * It might seem that this node could be dispensed with entirely, but the
6363  * endmarker role is not redundant.
6364  */
6365 STATIC regnode *
6366 S_regpiece(pTHX_ RExC_state_t *pRExC_state, I32 *flagp, U32 depth)
6367 {
6368     dVAR;
6369     register regnode *ret;
6370     register char op;
6371     register char *next;
6372     I32 flags;
6373     const char * const origparse = RExC_parse;
6374     I32 min;
6375     I32 max = REG_INFTY;
6376     char *parse_start;
6377     const char *maxpos = NULL;
6378     GET_RE_DEBUG_FLAGS_DECL;
6379
6380     PERL_ARGS_ASSERT_REGPIECE;
6381
6382     DEBUG_PARSE("piec");
6383
6384     ret = regatom(pRExC_state, &flags,depth+1);
6385     if (ret == NULL) {
6386         if (flags & TRYAGAIN)
6387             *flagp |= TRYAGAIN;
6388         return(NULL);
6389     }
6390
6391     op = *RExC_parse;
6392
6393     if (op == '{' && regcurly(RExC_parse)) {
6394         maxpos = NULL;
6395         parse_start = RExC_parse; /* MJD */
6396         next = RExC_parse + 1;
6397         while (isDIGIT(*next) || *next == ',') {
6398             if (*next == ',') {
6399                 if (maxpos)
6400                     break;
6401                 else
6402                     maxpos = next;
6403             }
6404             next++;
6405         }
6406         if (*next == '}') {             /* got one */
6407             if (!maxpos)
6408                 maxpos = next;
6409             RExC_parse++;
6410             min = atoi(RExC_parse);
6411             if (*maxpos == ',')
6412                 maxpos++;
6413             else
6414                 maxpos = RExC_parse;
6415             max = atoi(maxpos);
6416             if (!max && *maxpos != '0')
6417                 max = REG_INFTY;                /* meaning "infinity" */
6418             else if (max >= REG_INFTY)
6419                 vFAIL2("Quantifier in {,} bigger than %d", REG_INFTY - 1);
6420             RExC_parse = next;
6421             nextchar(pRExC_state);
6422
6423         do_curly:
6424             if ((flags&SIMPLE)) {
6425                 RExC_naughty += 2 + RExC_naughty / 2;
6426                 reginsert(pRExC_state, CURLY, ret, depth+1);
6427                 Set_Node_Offset(ret, parse_start+1); /* MJD */
6428                 Set_Node_Cur_Length(ret);
6429             }
6430             else {
6431                 regnode * const w = reg_node(pRExC_state, WHILEM);
6432
6433                 w->flags = 0;
6434                 REGTAIL(pRExC_state, ret, w);
6435                 if (!SIZE_ONLY && RExC_extralen) {
6436                     reginsert(pRExC_state, LONGJMP,ret, depth+1);
6437                     reginsert(pRExC_state, NOTHING,ret, depth+1);
6438                     NEXT_OFF(ret) = 3;  /* Go over LONGJMP. */
6439                 }
6440                 reginsert(pRExC_state, CURLYX,ret, depth+1);
6441                                 /* MJD hk */
6442                 Set_Node_Offset(ret, parse_start+1);
6443                 Set_Node_Length(ret,
6444                                 op == '{' ? (RExC_parse - parse_start) : 1);
6445
6446                 if (!SIZE_ONLY && RExC_extralen)
6447                     NEXT_OFF(ret) = 3;  /* Go over NOTHING to LONGJMP. */
6448                 REGTAIL(pRExC_state, ret, reg_node(pRExC_state, NOTHING));
6449                 if (SIZE_ONLY)
6450                     RExC_whilem_seen++, RExC_extralen += 3;
6451                 RExC_naughty += 4 + RExC_naughty;       /* compound interest */
6452             }
6453             ret->flags = 0;
6454
6455             if (min > 0)
6456                 *flagp = WORST;
6457             if (max > 0)
6458                 *flagp |= HASWIDTH;
6459             if (max && max < min)
6460                 vFAIL("Can't do {n,m} with n > m");
6461             if (!SIZE_ONLY) {
6462                 ARG1_SET(ret, (U16)min);
6463                 ARG2_SET(ret, (U16)max);
6464             }
6465
6466             goto nest_check;
6467         }
6468     }
6469
6470     if (!ISMULT1(op)) {
6471         *flagp = flags;
6472         return(ret);
6473     }
6474
6475 #if 0                           /* Now runtime fix should be reliable. */
6476
6477     /* if this is reinstated, don't forget to put this back into perldiag:
6478
6479             =item Regexp *+ operand could be empty at {#} in regex m/%s/
6480
6481            (F) The part of the regexp subject to either the * or + quantifier
6482            could match an empty string. The {#} shows in the regular
6483            expression about where the problem was discovered.
6484
6485     */
6486
6487     if (!(flags&HASWIDTH) && op != '?')
6488       vFAIL("Regexp *+ operand could be empty");
6489 #endif
6490
6491     parse_start = RExC_parse;
6492     nextchar(pRExC_state);
6493
6494     *flagp = (op != '+') ? (WORST|SPSTART|HASWIDTH) : (WORST|HASWIDTH);
6495
6496     if (op == '*' && (flags&SIMPLE)) {
6497         reginsert(pRExC_state, STAR, ret, depth+1);
6498         ret->flags = 0;
6499         RExC_naughty += 4;
6500     }
6501     else if (op == '*') {
6502         min = 0;
6503         goto do_curly;
6504     }
6505     else if (op == '+' && (flags&SIMPLE)) {
6506         reginsert(pRExC_state, PLUS, ret, depth+1);
6507         ret->flags = 0;
6508         RExC_naughty += 3;
6509     }
6510     else if (op == '+') {
6511         min = 1;
6512         goto do_curly;
6513     }
6514     else if (op == '?') {
6515         min = 0; max = 1;
6516         goto do_curly;
6517     }
6518   nest_check:
6519     if (!SIZE_ONLY && !(flags&(HASWIDTH|POSTPONED)) && max > REG_INFTY/3 && ckWARN(WARN_REGEXP)) {
6520         vWARN3(RExC_parse,
6521                "%.*s matches null string many times",
6522                (int)(RExC_parse >= origparse ? RExC_parse - origparse : 0),
6523                origparse);
6524     }
6525
6526     if (RExC_parse < RExC_end && *RExC_parse == '?') {
6527         nextchar(pRExC_state);
6528         reginsert(pRExC_state, MINMOD, ret, depth+1);
6529         REGTAIL(pRExC_state, ret, ret + NODE_STEP_REGNODE);
6530     }
6531 #ifndef REG_ALLOW_MINMOD_SUSPEND
6532     else
6533 #endif
6534     if (RExC_parse < RExC_end && *RExC_parse == '+') {
6535         regnode *ender;
6536         nextchar(pRExC_state);
6537         ender = reg_node(pRExC_state, SUCCEED);
6538         REGTAIL(pRExC_state, ret, ender);
6539         reginsert(pRExC_state, SUSPEND, ret, depth+1);
6540         ret->flags = 0;
6541         ender = reg_node(pRExC_state, TAIL);
6542         REGTAIL(pRExC_state, ret, ender);
6543         /*ret= ender;*/
6544     }
6545
6546     if (RExC_parse < RExC_end && ISMULT2(RExC_parse)) {
6547         RExC_parse++;
6548         vFAIL("Nested quantifiers");
6549     }
6550
6551     return(ret);
6552 }
6553
6554
6555 /* reg_namedseq(pRExC_state,UVp)
6556    
6557    This is expected to be called by a parser routine that has 
6558    recognized'\N' and needs to handle the rest. RExC_parse is 
6559    expected to point at the first char following the N at the time
6560    of the call.
6561    
6562    If valuep is non-null then it is assumed that we are parsing inside 
6563    of a charclass definition and the first codepoint in the resolved
6564    string is returned via *valuep and the routine will return NULL. 
6565    In this mode if a multichar string is returned from the charnames 
6566    handler a warning will be issued, and only the first char in the 
6567    sequence will be examined. If the string returned is zero length
6568    then the value of *valuep is undefined and NON-NULL will 
6569    be returned to indicate failure. (This will NOT be a valid pointer 
6570    to a regnode.)
6571    
6572    If value is null then it is assumed that we are parsing normal text
6573    and inserts a new EXACT node into the program containing the resolved
6574    string and returns a pointer to the new node. If the string is 
6575    zerolength a NOTHING node is emitted.
6576    
6577    On success RExC_parse is set to the char following the endbrace.
6578    Parsing failures will generate a fatal errorvia vFAIL(...)
6579    
6580    NOTE: We cache all results from the charnames handler locally in 
6581    the RExC_charnames hash (created on first use) to prevent a charnames 
6582    handler from playing silly-buggers and returning a short string and 
6583    then a long string for a given pattern. Since the regexp program 
6584    size is calculated during an initial parse this would result
6585    in a buffer overrun so we cache to prevent the charname result from
6586    changing during the course of the parse.
6587    
6588  */
6589 STATIC regnode *
6590 S_reg_namedseq(pTHX_ RExC_state_t *pRExC_state, UV *valuep) 
6591 {
6592     char * name;        /* start of the content of the name */
6593     char * endbrace;    /* endbrace following the name */
6594     SV *sv_str = NULL;  
6595     SV *sv_name = NULL;
6596     STRLEN len; /* this has various purposes throughout the code */
6597     bool cached = 0; /* if this is true then we shouldn't refcount dev sv_str */
6598     regnode *ret = NULL;
6599  
6600     PERL_ARGS_ASSERT_REG_NAMEDSEQ;
6601    
6602     if (*RExC_parse != '{') {
6603         vFAIL("Missing braces on \\N{}");
6604     }
6605     name = RExC_parse+1;
6606     endbrace = strchr(RExC_parse, '}');
6607     if ( ! endbrace ) {
6608         RExC_parse++;
6609         vFAIL("Missing right brace on \\N{}");
6610     } 
6611     RExC_parse = endbrace + 1;  
6612     
6613     
6614     /* RExC_parse points at the beginning brace, 
6615        endbrace points at the last */
6616     if ( name[0]=='U' && name[1]=='+' ) {
6617         /* its a "Unicode hex" notation {U+89AB} */
6618         I32 fl = PERL_SCAN_ALLOW_UNDERSCORES
6619             | PERL_SCAN_DISALLOW_PREFIX
6620             | (SIZE_ONLY ? PERL_SCAN_SILENT_ILLDIGIT : 0);
6621         UV cp;
6622         char string;
6623         len = (STRLEN)(endbrace - name - 2);
6624         cp = grok_hex(name + 2, &len, &fl, NULL);
6625         if ( len != (STRLEN)(endbrace - name - 2) ) {
6626             cp = 0xFFFD;
6627         }    
6628         if (cp > 0xff)
6629             RExC_utf8 = 1;
6630         if ( valuep ) {
6631             *valuep = cp;
6632             return NULL;
6633         }
6634         string = (char)cp;
6635         sv_str= newSVpvn(&string, 1);
6636     } else {
6637         /* fetch the charnames handler for this scope */
6638         HV * const table = GvHV(PL_hintgv);
6639         SV **cvp= table ? 
6640             hv_fetchs(table, "charnames", FALSE) :
6641             NULL;
6642         SV *cv= cvp ? *cvp : NULL;
6643         HE *he_str;
6644         int count;
6645         /* create an SV with the name as argument */
6646         sv_name = newSVpvn(name, endbrace - name);
6647         
6648         if (!table || !(PL_hints & HINT_LOCALIZE_HH)) {
6649             vFAIL2("Constant(\\N{%s}) unknown: "
6650                   "(possibly a missing \"use charnames ...\")",
6651                   SvPVX(sv_name));
6652         }
6653         if (!cvp || !SvOK(*cvp)) { /* when $^H{charnames} = undef; */
6654             vFAIL2("Constant(\\N{%s}): "
6655                   "$^H{charnames} is not defined",SvPVX(sv_name));
6656         }
6657         
6658         
6659         
6660         if (!RExC_charnames) {
6661             /* make sure our cache is allocated */
6662             RExC_charnames = newHV();
6663             sv_2mortal((SV*)RExC_charnames);
6664         } 
6665             /* see if we have looked this one up before */
6666         he_str = hv_fetch_ent( RExC_charnames, sv_name, 0, 0 );
6667         if ( he_str ) {
6668             sv_str = HeVAL(he_str);
6669             cached = 1;
6670         } else {
6671             dSP ;
6672
6673             ENTER ;
6674             SAVETMPS ;
6675             PUSHMARK(SP) ;
6676             
6677             XPUSHs(sv_name);
6678             
6679             PUTBACK ;
6680             
6681             count= call_sv(cv, G_SCALAR);
6682             
6683             if (count == 1) { /* XXXX is this right? dmq */
6684                 sv_str = POPs;
6685                 SvREFCNT_inc_simple_void(sv_str);
6686             } 
6687             
6688             SPAGAIN ;
6689             PUTBACK ;
6690             FREETMPS ;
6691             LEAVE ;
6692             
6693             if ( !sv_str || !SvOK(sv_str) ) {
6694                 vFAIL2("Constant(\\N{%s}): Call to &{$^H{charnames}} "
6695                       "did not return a defined value",SvPVX(sv_name));
6696             }
6697             if (hv_store_ent( RExC_charnames, sv_name, sv_str, 0))
6698                 cached = 1;
6699         }
6700     }
6701     if (valuep) {
6702         char *p = SvPV(sv_str, len);
6703         if (len) {
6704             STRLEN numlen = 1;
6705             if ( SvUTF8(sv_str) ) {
6706                 *valuep = utf8_to_uvchr((U8*)p, &numlen);
6707                 if (*valuep > 0x7F)
6708                     RExC_utf8 = 1; 
6709                 /* XXXX
6710                   We have to turn on utf8 for high bit chars otherwise
6711                   we get failures with
6712                   
6713                    "ss" =~ /[\N{LATIN SMALL LETTER SHARP S}]/i
6714                    "SS" =~ /[\N{LATIN SMALL LETTER SHARP S}]/i
6715                 
6716                   This is different from what \x{} would do with the same
6717                   codepoint, where the condition is > 0xFF.
6718                   - dmq
6719                 */
6720                 
6721                 
6722             } else {
6723                 *valuep = (UV)*p;
6724                 /* warn if we havent used the whole string? */
6725             }
6726             if (numlen<len && SIZE_ONLY && ckWARN(WARN_REGEXP)) {
6727                 vWARN2(RExC_parse,
6728                     "Ignoring excess chars from \\N{%s} in character class",
6729                     SvPVX(sv_name)
6730                 );
6731             }        
6732         } else if (SIZE_ONLY && ckWARN(WARN_REGEXP)) {
6733             vWARN2(RExC_parse,
6734                     "Ignoring zero length \\N{%s} in character class",
6735                     SvPVX(sv_name)
6736                 );
6737         }
6738         if (sv_name)    
6739             SvREFCNT_dec(sv_name);    
6740         if (!cached)
6741             SvREFCNT_dec(sv_str);    
6742         return len ? NULL : (regnode *)&len;
6743     } else if(SvCUR(sv_str)) {     
6744         
6745         char *s; 
6746         char *p, *pend;        
6747         STRLEN charlen = 1;
6748 #ifdef DEBUGGING
6749         char * parse_start = name-3; /* needed for the offsets */
6750 #endif
6751         GET_RE_DEBUG_FLAGS_DECL;     /* needed for the offsets */
6752         
6753         ret = reg_node(pRExC_state,
6754             (U8)(FOLD ? (LOC ? EXACTFL : EXACTF) : EXACT));
6755         s= STRING(ret);
6756         
6757         if ( RExC_utf8 && !SvUTF8(sv_str) ) {
6758             sv_utf8_upgrade(sv_str);
6759         } else if ( !RExC_utf8 && SvUTF8(sv_str) ) {
6760             RExC_utf8= 1;
6761         }
6762         
6763         p = SvPV(sv_str, len);
6764         pend = p + len;
6765         /* len is the length written, charlen is the size the char read */
6766         for ( len = 0; p < pend; p += charlen ) {
6767             if (UTF) {
6768                 UV uvc = utf8_to_uvchr((U8*)p, &charlen);
6769                 if (FOLD) {
6770                     STRLEN foldlen,numlen;
6771                     U8 tmpbuf[UTF8_MAXBYTES_CASE+1], *foldbuf;
6772                     uvc = toFOLD_uni(uvc, tmpbuf, &foldlen);
6773                     /* Emit all the Unicode characters. */
6774                     
6775                     for (foldbuf = tmpbuf;
6776                         foldlen;
6777                         foldlen -= numlen) 
6778                     {
6779                         uvc = utf8_to_uvchr(foldbuf, &numlen);
6780                         if (numlen > 0) {
6781                             const STRLEN unilen = reguni(pRExC_state, uvc, s);
6782                             s       += unilen;
6783                             len     += unilen;
6784                             /* In EBCDIC the numlen
6785                             * and unilen can differ. */
6786                             foldbuf += numlen;
6787                             if (numlen >= foldlen)
6788                                 break;
6789                         }
6790                         else
6791                             break; /* "Can't happen." */
6792                     }                          
6793                 } else {
6794                     const STRLEN unilen = reguni(pRExC_state, uvc, s);
6795                     if (unilen > 0) {
6796                        s   += unilen;
6797                        len += unilen;
6798                     }
6799                 }
6800             } else {
6801                 len++;
6802                 REGC(*p, s++);
6803             }
6804         }
6805         if (SIZE_ONLY) {
6806             RExC_size += STR_SZ(len);
6807         } else {
6808             STR_LEN(ret) = len;
6809             RExC_emit += STR_SZ(len);
6810         }
6811         Set_Node_Cur_Length(ret); /* MJD */
6812         RExC_parse--; 
6813         nextchar(pRExC_state);
6814     } else {
6815         ret = reg_node(pRExC_state,NOTHING);
6816     }
6817     if (!cached) {
6818         SvREFCNT_dec(sv_str);
6819     }
6820     if (sv_name) {
6821         SvREFCNT_dec(sv_name); 
6822     }
6823     return ret;
6824
6825 }
6826
6827
6828 /*
6829  * reg_recode
6830  *
6831  * It returns the code point in utf8 for the value in *encp.
6832  *    value: a code value in the source encoding
6833  *    encp:  a pointer to an Encode object
6834  *
6835  * If the result from Encode is not a single character,
6836  * it returns U+FFFD (Replacement character) and sets *encp to NULL.
6837  */
6838 STATIC UV
6839 S_reg_recode(pTHX_ const char value, SV **encp)
6840 {
6841     STRLEN numlen = 1;
6842     SV * const sv = newSVpvn_flags(&value, numlen, SVs_TEMP);
6843     const char * const s = *encp ? sv_recode_to_utf8(sv, *encp) : SvPVX(sv);
6844     const STRLEN newlen = SvCUR(sv);
6845     UV uv = UNICODE_REPLACEMENT;
6846
6847     PERL_ARGS_ASSERT_REG_RECODE;
6848
6849     if (newlen)
6850         uv = SvUTF8(sv)
6851              ? utf8n_to_uvchr((U8*)s, newlen, &numlen, UTF8_ALLOW_DEFAULT)
6852              : *(U8*)s;
6853
6854     if (!newlen || numlen != newlen) {
6855         uv = UNICODE_REPLACEMENT;
6856         *encp = NULL;
6857     }
6858     return uv;
6859 }
6860
6861
6862 /*
6863  - regatom - the lowest level
6864
6865    Try to identify anything special at the start of the pattern. If there
6866    is, then handle it as required. This may involve generating a single regop,
6867    such as for an assertion; or it may involve recursing, such as to
6868    handle a () structure.
6869
6870    If the string doesn't start with something special then we gobble up
6871    as much literal text as we can.
6872
6873    Once we have been able to handle whatever type of thing started the
6874    sequence, we return.
6875
6876    Note: we have to be careful with escapes, as they can be both literal
6877    and special, and in the case of \10 and friends can either, depending
6878    on context. Specifically there are two seperate switches for handling
6879    escape sequences, with the one for handling literal escapes requiring
6880    a dummy entry for all of the special escapes that are actually handled
6881    by the other.
6882 */
6883
6884 STATIC regnode *
6885 S_regatom(pTHX_ RExC_state_t *pRExC_state, I32 *flagp, U32 depth)
6886 {
6887     dVAR;
6888     register regnode *ret = NULL;
6889     I32 flags;
6890     char *parse_start = RExC_parse;
6891     GET_RE_DEBUG_FLAGS_DECL;
6892     DEBUG_PARSE("atom");
6893     *flagp = WORST;             /* Tentatively. */
6894
6895     PERL_ARGS_ASSERT_REGATOM;
6896
6897 tryagain:
6898     switch ((U8)*RExC_parse) {
6899     case '^':
6900         RExC_seen_zerolen++;
6901         nextchar(pRExC_state);
6902         if (RExC_flags & RXf_PMf_MULTILINE)
6903             ret = reg_node(pRExC_state, MBOL);
6904         else if (RExC_flags & RXf_PMf_SINGLELINE)
6905             ret = reg_node(pRExC_state, SBOL);
6906         else
6907             ret = reg_node(pRExC_state, BOL);
6908         Set_Node_Length(ret, 1); /* MJD */
6909         break;
6910     case '$':
6911         nextchar(pRExC_state);
6912         if (*RExC_parse)
6913             RExC_seen_zerolen++;
6914         if (RExC_flags & RXf_PMf_MULTILINE)
6915             ret = reg_node(pRExC_state, MEOL);
6916         else if (RExC_flags & RXf_PMf_SINGLELINE)
6917             ret = reg_node(pRExC_state, SEOL);
6918         else
6919             ret = reg_node(pRExC_state, EOL);
6920         Set_Node_Length(ret, 1); /* MJD */
6921         break;
6922     case '.':
6923         nextchar(pRExC_state);
6924         if (RExC_flags & RXf_PMf_SINGLELINE)
6925             ret = reg_node(pRExC_state, SANY);
6926         else
6927             ret = reg_node(pRExC_state, REG_ANY);
6928         *flagp |= HASWIDTH|SIMPLE;
6929         RExC_naughty++;
6930         Set_Node_Length(ret, 1); /* MJD */
6931         break;
6932     case '[':
6933     {
6934         char * const oregcomp_parse = ++RExC_parse;
6935         ret = regclass(pRExC_state,depth+1);
6936         if (*RExC_parse != ']') {
6937             RExC_parse = oregcomp_parse;
6938             vFAIL("Unmatched [");
6939         }
6940         nextchar(pRExC_state);
6941         *flagp |= HASWIDTH|SIMPLE;
6942         Set_Node_Length(ret, RExC_parse - oregcomp_parse + 1); /* MJD */
6943         break;
6944     }
6945     case '(':
6946         nextchar(pRExC_state);
6947         ret = reg(pRExC_state, 1, &flags,depth+1);
6948         if (ret == NULL) {
6949                 if (flags & TRYAGAIN) {
6950                     if (RExC_parse == RExC_end) {
6951                          /* Make parent create an empty node if needed. */
6952                         *flagp |= TRYAGAIN;
6953                         return(NULL);
6954                     }
6955                     goto tryagain;
6956                 }
6957                 return(NULL);
6958         }
6959         *flagp |= flags&(HASWIDTH|SPSTART|SIMPLE|POSTPONED);
6960         break;
6961     case '|':
6962     case ')':
6963         if (flags & TRYAGAIN) {
6964             *flagp |= TRYAGAIN;
6965             return NULL;
6966         }
6967         vFAIL("Internal urp");
6968                                 /* Supposed to be caught earlier. */
6969         break;
6970     case '{':
6971         if (!regcurly(RExC_parse)) {
6972             RExC_parse++;
6973             goto defchar;
6974         }
6975         /* FALL THROUGH */
6976     case '?':
6977     case '+':
6978     case '*':
6979         RExC_parse++;
6980         vFAIL("Quantifier follows nothing");
6981         break;
6982     case 0xDF:
6983     case 0xC3:
6984     case 0xCE:
6985         do_foldchar:
6986         if (!LOC && FOLD) {
6987             U32 len,cp;
6988             len=0; /* silence a spurious compiler warning */
6989             if ((cp = what_len_TRICKYFOLD_safe(RExC_parse,RExC_end,UTF,len))) {
6990                 *flagp |= HASWIDTH; /* could be SIMPLE too, but needs a handler in regexec.regrepeat */
6991                 RExC_parse+=len-1; /* we get one from nextchar() as well. :-( */
6992                 ret = reganode(pRExC_state, FOLDCHAR, cp);
6993                 Set_Node_Length(ret, 1); /* MJD */
6994                 nextchar(pRExC_state); /* kill whitespace under /x */
6995                 return ret;
6996             }
6997         }
6998         goto outer_default;
6999     case '\\':
7000         /* Special Escapes
7001
7002            This switch handles escape sequences that resolve to some kind
7003            of special regop and not to literal text. Escape sequnces that
7004            resolve to literal text are handled below in the switch marked
7005            "Literal Escapes".
7006
7007            Every entry in this switch *must* have a corresponding entry
7008            in the literal escape switch. However, the opposite is not
7009            required, as the default for this switch is to jump to the
7010            literal text handling code.
7011         */
7012         switch ((U8)*++RExC_parse) {
7013         case 0xDF:
7014         case 0xC3:
7015         case 0xCE:
7016                    goto do_foldchar;        
7017         /* Special Escapes */
7018         case 'A':
7019             RExC_seen_zerolen++;
7020             ret = reg_node(pRExC_state, SBOL);
7021             *flagp |= SIMPLE;
7022             goto finish_meta_pat;
7023         case 'G':
7024             ret = reg_node(pRExC_state, GPOS);
7025             RExC_seen |= REG_SEEN_GPOS;
7026             *flagp |= SIMPLE;
7027             goto finish_meta_pat;
7028         case 'K':
7029             RExC_seen_zerolen++;
7030             ret = reg_node(pRExC_state, KEEPS);
7031             *flagp |= SIMPLE;
7032             /* XXX:dmq : disabling in-place substitution seems to
7033              * be necessary here to avoid cases of memory corruption, as
7034              * with: C<$_="x" x 80; s/x\K/y/> -- rgs
7035              */
7036             RExC_seen |= REG_SEEN_LOOKBEHIND;
7037             goto finish_meta_pat;
7038         case 'Z':
7039             ret = reg_node(pRExC_state, SEOL);
7040             *flagp |= SIMPLE;
7041             RExC_seen_zerolen++;                /* Do not optimize RE away */
7042             goto finish_meta_pat;
7043         case 'z':
7044             ret = reg_node(pRExC_state, EOS);
7045             *flagp |= SIMPLE;
7046             RExC_seen_zerolen++;                /* Do not optimize RE away */
7047             goto finish_meta_pat;
7048         case 'C':
7049             ret = reg_node(pRExC_state, CANY);
7050             RExC_seen |= REG_SEEN_CANY;
7051             *flagp |= HASWIDTH|SIMPLE;
7052             goto finish_meta_pat;
7053         case 'X':
7054             ret = reg_node(pRExC_state, CLUMP);
7055             *flagp |= HASWIDTH;
7056             goto finish_meta_pat;
7057         case 'w':
7058             ret = reg_node(pRExC_state, (U8)(LOC ? ALNUML     : ALNUM));
7059             *flagp |= HASWIDTH|SIMPLE;
7060             goto finish_meta_pat;
7061         case 'W':
7062             ret = reg_node(pRExC_state, (U8)(LOC ? NALNUML    : NALNUM));
7063             *flagp |= HASWIDTH|SIMPLE;
7064             goto finish_meta_pat;
7065         case 'b':
7066             RExC_seen_zerolen++;
7067             RExC_seen |= REG_SEEN_LOOKBEHIND;
7068             ret = reg_node(pRExC_state, (U8)(LOC ? BOUNDL     : BOUND));
7069             *flagp |= SIMPLE;
7070             goto finish_meta_pat;
7071         case 'B':
7072             RExC_seen_zerolen++;
7073             RExC_seen |= REG_SEEN_LOOKBEHIND;
7074             ret = reg_node(pRExC_state, (U8)(LOC ? NBOUNDL    : NBOUND));
7075             *flagp |= SIMPLE;
7076             goto finish_meta_pat;
7077         case 's':
7078             ret = reg_node(pRExC_state, (U8)(LOC ? SPACEL     : SPACE));
7079             *flagp |= HASWIDTH|SIMPLE;
7080             goto finish_meta_pat;
7081         case 'S':
7082             ret = reg_node(pRExC_state, (U8)(LOC ? NSPACEL    : NSPACE));
7083             *flagp |= HASWIDTH|SIMPLE;
7084             goto finish_meta_pat;
7085         case 'd':
7086             ret = reg_node(pRExC_state, DIGIT);
7087             *flagp |= HASWIDTH|SIMPLE;
7088             goto finish_meta_pat;
7089         case 'D':
7090             ret = reg_node(pRExC_state, NDIGIT);
7091             *flagp |= HASWIDTH|SIMPLE;
7092             goto finish_meta_pat;
7093         case 'R':
7094             ret = reg_node(pRExC_state, LNBREAK);
7095             *flagp |= HASWIDTH|SIMPLE;
7096             goto finish_meta_pat;
7097         case 'h':
7098             ret = reg_node(pRExC_state, HORIZWS);
7099             *flagp |= HASWIDTH|SIMPLE;
7100             goto finish_meta_pat;
7101         case 'H':
7102             ret = reg_node(pRExC_state, NHORIZWS);
7103             *flagp |= HASWIDTH|SIMPLE;
7104             goto finish_meta_pat;
7105         case 'v':
7106             ret = reg_node(pRExC_state, VERTWS);
7107             *flagp |= HASWIDTH|SIMPLE;
7108             goto finish_meta_pat;
7109         case 'V':
7110             ret = reg_node(pRExC_state, NVERTWS);
7111             *flagp |= HASWIDTH|SIMPLE;
7112          finish_meta_pat:           
7113             nextchar(pRExC_state);
7114             Set_Node_Length(ret, 2); /* MJD */
7115             break;          
7116         case 'p':
7117         case 'P':
7118             {   
7119                 char* const oldregxend = RExC_end;
7120 #ifdef DEBUGGING
7121                 char* parse_start = RExC_parse - 2;
7122 #endif
7123
7124                 if (RExC_parse[1] == '{') {
7125                   /* a lovely hack--pretend we saw [\pX] instead */
7126                     RExC_end = strchr(RExC_parse, '}');
7127                     if (!RExC_end) {
7128                         const U8 c = (U8)*RExC_parse;
7129                         RExC_parse += 2;
7130                         RExC_end = oldregxend;
7131                         vFAIL2("Missing right brace on \\%c{}", c);
7132                     }
7133                     RExC_end++;
7134                 }
7135                 else {
7136                     RExC_end = RExC_parse + 2;
7137                     if (RExC_end > oldregxend)
7138                         RExC_end = oldregxend;
7139                 }
7140                 RExC_parse--;
7141
7142                 ret = regclass(pRExC_state,depth+1);
7143
7144                 RExC_end = oldregxend;
7145                 RExC_parse--;
7146
7147                 Set_Node_Offset(ret, parse_start + 2);
7148                 Set_Node_Cur_Length(ret);
7149                 nextchar(pRExC_state);
7150                 *flagp |= HASWIDTH|SIMPLE;
7151             }
7152             break;
7153         case 'N': 
7154             /* Handle \N{NAME} here and not below because it can be 
7155             multicharacter. join_exact() will join them up later on. 
7156             Also this makes sure that things like /\N{BLAH}+/ and 
7157             \N{BLAH} being multi char Just Happen. dmq*/
7158             ++RExC_parse;
7159             ret= reg_namedseq(pRExC_state, NULL); 
7160             break;
7161         case 'k':    /* Handle \k<NAME> and \k'NAME' */
7162         parse_named_seq:
7163         {   
7164             char ch= RExC_parse[1];         
7165             if (ch != '<' && ch != '\'' && ch != '{') {
7166                 RExC_parse++;
7167                 vFAIL2("Sequence %.2s... not terminated",parse_start);
7168             } else {
7169                 /* this pretty much dupes the code for (?P=...) in reg(), if
7170                    you change this make sure you change that */
7171                 char* name_start = (RExC_parse += 2);
7172                 U32 num = 0;
7173                 SV *sv_dat = reg_scan_name(pRExC_state,
7174                     SIZE_ONLY ? REG_RSN_RETURN_NULL : REG_RSN_RETURN_DATA);
7175                 ch= (ch == '<') ? '>' : (ch == '{') ? '}' : '\'';
7176                 if (RExC_parse == name_start || *RExC_parse != ch)
7177                     vFAIL2("Sequence %.3s... not terminated",parse_start);
7178
7179                 if (!SIZE_ONLY) {
7180                     num = add_data( pRExC_state, 1, "S" );
7181                     RExC_rxi->data->data[num]=(void*)sv_dat;
7182                     SvREFCNT_inc_simple_void(sv_dat);
7183                 }
7184
7185                 RExC_sawback = 1;
7186                 ret = reganode(pRExC_state,
7187                            (U8)(FOLD ? (LOC ? NREFFL : NREFF) : NREF),
7188                            num);
7189                 *flagp |= HASWIDTH;
7190
7191                 /* override incorrect value set in reganode MJD */
7192                 Set_Node_Offset(ret, parse_start+1);
7193                 Set_Node_Cur_Length(ret); /* MJD */
7194                 nextchar(pRExC_state);
7195
7196             }
7197             break;
7198         }
7199         case 'g': 
7200         case '1': case '2': case '3': case '4':
7201         case '5': case '6': case '7': case '8': case '9':
7202             {
7203                 I32 num;
7204                 bool isg = *RExC_parse == 'g';
7205                 bool isrel = 0; 
7206                 bool hasbrace = 0;
7207                 if (isg) {
7208                     RExC_parse++;
7209                     if (*RExC_parse == '{') {
7210                         RExC_parse++;
7211                         hasbrace = 1;
7212                     }
7213                     if (*RExC_parse == '-') {
7214                         RExC_parse++;
7215                         isrel = 1;
7216                     }
7217                     if (hasbrace && !isDIGIT(*RExC_parse)) {
7218                         if (isrel) RExC_parse--;
7219                         RExC_parse -= 2;                            
7220                         goto parse_named_seq;
7221                 }   }
7222                 num = atoi(RExC_parse);
7223                 if (isg && num == 0)
7224                     vFAIL("Reference to invalid group 0");
7225                 if (isrel) {
7226                     num = RExC_npar - num;
7227                     if (num < 1)
7228                         vFAIL("Reference to nonexistent or unclosed group");
7229                 }
7230                 if (!isg && num > 9 && num >= RExC_npar)
7231                     goto defchar;
7232                 else {
7233                     char * const parse_start = RExC_parse - 1; /* MJD */
7234                     while (isDIGIT(*RExC_parse))
7235                         RExC_parse++;
7236                     if (parse_start == RExC_parse - 1) 
7237                         vFAIL("Unterminated \\g... pattern");
7238                     if (hasbrace) {
7239                         if (*RExC_parse != '}') 
7240                             vFAIL("Unterminated \\g{...} pattern");
7241                         RExC_parse++;
7242                     }    
7243                     if (!SIZE_ONLY) {
7244                         if (num > (I32)RExC_rx->nparens)
7245                             vFAIL("Reference to nonexistent group");
7246                     }
7247                     RExC_sawback = 1;
7248                     ret = reganode(pRExC_state,
7249                                    (U8)(FOLD ? (LOC ? REFFL : REFF) : REF),
7250                                    num);
7251                     *flagp |= HASWIDTH;
7252
7253                     /* override incorrect value set in reganode MJD */
7254                     Set_Node_Offset(ret, parse_start+1);
7255                     Set_Node_Cur_Length(ret); /* MJD */
7256                     RExC_parse--;
7257                     nextchar(pRExC_state);
7258                 }
7259             }
7260             break;
7261         case '\0':
7262             if (RExC_parse >= RExC_end)
7263                 FAIL("Trailing \\");
7264             /* FALL THROUGH */
7265         default:
7266             /* Do not generate "unrecognized" warnings here, we fall
7267                back into the quick-grab loop below */
7268             parse_start--;
7269             goto defchar;
7270         }
7271         break;
7272
7273     case '#':
7274         if (RExC_flags & RXf_PMf_EXTENDED) {
7275             if ( reg_skipcomment( pRExC_state ) )
7276                 goto tryagain;
7277         }
7278         /* FALL THROUGH */
7279
7280     default:
7281         outer_default:{
7282             register STRLEN len;
7283             register UV ender;
7284             register char *p;
7285             char *s;
7286             STRLEN foldlen;
7287             U8 tmpbuf[UTF8_MAXBYTES_CASE+1], *foldbuf;
7288
7289             parse_start = RExC_parse - 1;
7290
7291             RExC_parse++;
7292
7293         defchar:
7294             ender = 0;
7295             ret = reg_node(pRExC_state,
7296                            (U8)(FOLD ? (LOC ? EXACTFL : EXACTF) : EXACT));
7297             s = STRING(ret);
7298             for (len = 0, p = RExC_parse - 1;
7299               len < 127 && p < RExC_end;
7300               len++)
7301             {
7302                 char * const oldp = p;
7303
7304                 if (RExC_flags & RXf_PMf_EXTENDED)
7305                     p = regwhite( pRExC_state, p );
7306                 switch ((U8)*p) {
7307                 case 0xDF:
7308                 case 0xC3:
7309                 case 0xCE:
7310                            if (LOC || !FOLD || !is_TRICKYFOLD_safe(p,RExC_end,UTF))
7311                                 goto normal_default;
7312                 case '^':
7313                 case '$':
7314                 case '.':
7315                 case '[':
7316                 case '(':
7317                 case ')':
7318                 case '|':
7319                     goto loopdone;
7320                 case '\\':
7321                     /* Literal Escapes Switch
7322
7323                        This switch is meant to handle escape sequences that
7324                        resolve to a literal character.
7325
7326                        Every escape sequence that represents something
7327                        else, like an assertion or a char class, is handled
7328                        in the switch marked 'Special Escapes' above in this
7329                        routine, but also has an entry here as anything that
7330                        isn't explicitly mentioned here will be treated as
7331                        an unescaped equivalent literal.
7332                     */
7333
7334                     switch ((U8)*++p) {
7335                     /* These are all the special escapes. */
7336                     case 0xDF:
7337                     case 0xC3:
7338                     case 0xCE:
7339                            if (LOC || !FOLD || !is_TRICKYFOLD_safe(p,RExC_end,UTF))
7340                                 goto normal_default;                
7341                     case 'A':             /* Start assertion */
7342                     case 'b': case 'B':   /* Word-boundary assertion*/
7343                     case 'C':             /* Single char !DANGEROUS! */
7344                     case 'd': case 'D':   /* digit class */
7345                     case 'g': case 'G':   /* generic-backref, pos assertion */
7346                     case 'h': case 'H':   /* HORIZWS */
7347                     case 'k': case 'K':   /* named backref, keep marker */
7348                     case 'N':             /* named char sequence */
7349                     case 'p': case 'P':   /* Unicode property */
7350                               case 'R':   /* LNBREAK */
7351                     case 's': case 'S':   /* space class */
7352                     case 'v': case 'V':   /* VERTWS */
7353                     case 'w': case 'W':   /* word class */
7354                     case 'X':             /* eXtended Unicode "combining character sequence" */
7355                     case 'z': case 'Z':   /* End of line/string assertion */
7356                         --p;
7357                         goto loopdone;
7358
7359                     /* Anything after here is an escape that resolves to a
7360                        literal. (Except digits, which may or may not)
7361                      */
7362                     case 'n':
7363                         ender = '\n';
7364                         p++;
7365                         break;
7366                     case 'r':
7367                         ender = '\r';
7368                         p++;
7369                         break;
7370                     case 't':
7371                         ender = '\t';
7372                         p++;
7373                         break;
7374                     case 'f':
7375                         ender = '\f';
7376                         p++;
7377                         break;
7378                     case 'e':
7379                           ender = ASCII_TO_NATIVE('\033');
7380                         p++;
7381                         break;
7382                     case 'a':
7383                           ender = ASCII_TO_NATIVE('\007');
7384                         p++;
7385                         break;
7386                     case 'x':
7387                         if (*++p == '{') {
7388                             char* const e = strchr(p, '}');
7389         
7390                             if (!e) {
7391                                 RExC_parse = p + 1;
7392                                 vFAIL("Missing right brace on \\x{}");
7393                             }
7394                             else {
7395                                 I32 flags = PERL_SCAN_ALLOW_UNDERSCORES
7396                                     | PERL_SCAN_DISALLOW_PREFIX;
7397                                 STRLEN numlen = e - p - 1;
7398                                 ender = grok_hex(p + 1, &numlen, &flags, NULL);
7399                                 if (ender > 0xff)
7400                                     RExC_utf8 = 1;
7401                                 p = e + 1;
7402                             }
7403                         }
7404                         else {
7405                             I32 flags = PERL_SCAN_DISALLOW_PREFIX;
7406                             STRLEN numlen = 2;
7407                             ender = grok_hex(p, &numlen, &flags, NULL);
7408                             p += numlen;
7409                         }
7410                         if (PL_encoding && ender < 0x100)
7411                             goto recode_encoding;
7412                         break;
7413                     case 'c':
7414                         p++;
7415                         ender = UCHARAT(p++);
7416                         ender = toCTRL(ender);
7417                         break;
7418                     case '0': case '1': case '2': case '3':case '4':
7419                     case '5': case '6': case '7': case '8':case '9':
7420                         if (*p == '0' ||
7421                           (isDIGIT(p[1]) && atoi(p) >= RExC_npar) ) {
7422                             I32 flags = 0;
7423                             STRLEN numlen = 3;
7424                             ender = grok_oct(p, &numlen, &flags, NULL);
7425                             p += numlen;
7426                         }
7427                         else {
7428                             --p;
7429                             goto loopdone;
7430                         }
7431                         if (PL_encoding && ender < 0x100)
7432                             goto recode_encoding;
7433                         break;
7434                     recode_encoding:
7435                         {
7436                             SV* enc = PL_encoding;
7437                             ender = reg_recode((const char)(U8)ender, &enc);
7438                             if (!enc && SIZE_ONLY && ckWARN(WARN_REGEXP))
7439                                 vWARN(p, "Invalid escape in the specified encoding");
7440                             RExC_utf8 = 1;
7441                         }
7442                         break;
7443                     case '\0':
7444                         if (p >= RExC_end)
7445                             FAIL("Trailing \\");
7446                         /* FALL THROUGH */
7447                     default:
7448                         if (!SIZE_ONLY&& isALPHA(*p) && ckWARN(WARN_REGEXP))
7449                             vWARN2(p + 1, "Unrecognized escape \\%c passed through", UCHARAT(p));
7450                         goto normal_default;
7451                     }
7452                     break;
7453                 default:
7454                   normal_default:
7455                     if (UTF8_IS_START(*p) && UTF) {
7456                         STRLEN numlen;
7457                         ender = utf8n_to_uvchr((U8*)p, RExC_end - p,
7458                                                &numlen, UTF8_ALLOW_DEFAULT);
7459                         p += numlen;
7460                     }
7461                     else
7462                         ender = *p++;
7463                     break;
7464                 }
7465                 if ( RExC_flags & RXf_PMf_EXTENDED)
7466                     p = regwhite( pRExC_state, p );
7467                 if (UTF && FOLD) {
7468                     /* Prime the casefolded buffer. */
7469                     ender = toFOLD_uni(ender, tmpbuf, &foldlen);
7470                 }
7471                 if (p < RExC_end && ISMULT2(p)) { /* Back off on ?+*. */
7472                     if (len)
7473                         p = oldp;
7474                     else if (UTF) {
7475                          if (FOLD) {
7476                               /* Emit all the Unicode characters. */
7477                               STRLEN numlen;
7478                               for (foldbuf = tmpbuf;
7479                                    foldlen;
7480                                    foldlen -= numlen) {
7481                                    ender = utf8_to_uvchr(foldbuf, &numlen);
7482                                    if (numlen > 0) {
7483                                         const STRLEN unilen = reguni(pRExC_state, ender, s);
7484                                         s       += unilen;
7485                                         len     += unilen;
7486                                         /* In EBCDIC the numlen
7487                                          * and unilen can differ. */
7488                                         foldbuf += numlen;
7489                                         if (numlen >= foldlen)
7490                                              break;
7491                                    }
7492                                    else
7493                                         break; /* "Can't happen." */
7494                               }
7495                          }
7496                          else {
7497                               const STRLEN unilen = reguni(pRExC_state, ender, s);
7498                               if (unilen > 0) {
7499                                    s   += unilen;
7500                                    len += unilen;
7501                               }
7502                          }
7503                     }
7504                     else {
7505                         len++;
7506                         REGC((char)ender, s++);
7507                     }
7508                     break;
7509                 }
7510                 if (UTF) {
7511                      if (FOLD) {
7512                           /* Emit all the Unicode characters. */
7513                           STRLEN numlen;
7514                           for (foldbuf = tmpbuf;
7515                                foldlen;
7516                                foldlen -= numlen) {
7517                                ender = utf8_to_uvchr(foldbuf, &numlen);
7518                                if (numlen > 0) {
7519                                     const STRLEN unilen = reguni(pRExC_state, ender, s);
7520                                     len     += unilen;
7521                                     s       += unilen;
7522                                     /* In EBCDIC the numlen
7523                                      * and unilen can differ. */
7524                                     foldbuf += numlen;
7525                                     if (numlen >= foldlen)
7526                                          break;
7527                                }
7528                                else
7529                                     break;
7530                           }
7531                      }
7532                      else {
7533                           const STRLEN unilen = reguni(pRExC_state, ender, s);
7534                           if (unilen > 0) {
7535                                s   += unilen;
7536                                len += unilen;
7537                           }
7538                      }
7539                      len--;
7540                 }
7541                 else
7542                     REGC((char)ender, s++);
7543             }
7544         loopdone:
7545             RExC_parse = p - 1;
7546             Set_Node_Cur_Length(ret); /* MJD */
7547             nextchar(pRExC_state);
7548             {
7549                 /* len is STRLEN which is unsigned, need to copy to signed */
7550                 IV iv = len;
7551                 if (iv < 0)
7552                     vFAIL("Internal disaster");
7553             }
7554             if (len > 0)
7555                 *flagp |= HASWIDTH;
7556             if (len == 1 && UNI_IS_INVARIANT(ender))
7557                 *flagp |= SIMPLE;
7558                 
7559             if (SIZE_ONLY)
7560                 RExC_size += STR_SZ(len);
7561             else {
7562                 STR_LEN(ret) = len;
7563                 RExC_emit += STR_SZ(len);
7564             }
7565         }
7566         break;
7567     }
7568
7569     return(ret);
7570 }
7571
7572 STATIC char *
7573 S_regwhite( RExC_state_t *pRExC_state, char *p )
7574 {
7575     const char *e = RExC_end;
7576
7577     PERL_ARGS_ASSERT_REGWHITE;
7578
7579     while (p < e) {
7580         if (isSPACE(*p))
7581             ++p;
7582         else if (*p == '#') {
7583             bool ended = 0;
7584             do {
7585                 if (*p++ == '\n') {
7586                     ended = 1;
7587                     break;
7588                 }
7589             } while (p < e);
7590             if (!ended)
7591                 RExC_seen |= REG_SEEN_RUN_ON_COMMENT;
7592         }
7593         else
7594             break;
7595     }
7596     return p;
7597 }
7598
7599 /* Parse POSIX character classes: [[:foo:]], [[=foo=]], [[.foo.]].
7600    Character classes ([:foo:]) can also be negated ([:^foo:]).
7601    Returns a named class id (ANYOF_XXX) if successful, -1 otherwise.
7602    Equivalence classes ([=foo=]) and composites ([.foo.]) are parsed,
7603    but trigger failures because they are currently unimplemented. */
7604
7605 #define POSIXCC_DONE(c)   ((c) == ':')
7606 #define POSIXCC_NOTYET(c) ((c) == '=' || (c) == '.')
7607 #define POSIXCC(c) (POSIXCC_DONE(c) || POSIXCC_NOTYET(c))
7608
7609 STATIC I32
7610 S_regpposixcc(pTHX_ RExC_state_t *pRExC_state, I32 value)
7611 {
7612     dVAR;
7613     I32 namedclass = OOB_NAMEDCLASS;
7614
7615     PERL_ARGS_ASSERT_REGPPOSIXCC;
7616
7617     if (value == '[' && RExC_parse + 1 < RExC_end &&
7618         /* I smell either [: or [= or [. -- POSIX has been here, right? */
7619         POSIXCC(UCHARAT(RExC_parse))) {
7620         const char c = UCHARAT(RExC_parse);
7621         char* const s = RExC_parse++;
7622         
7623         while (RExC_parse < RExC_end && UCHARAT(RExC_parse) != c)
7624             RExC_parse++;
7625         if (RExC_parse == RExC_end)
7626             /* Grandfather lone [:, [=, [. */
7627             RExC_parse = s;
7628         else {
7629             const char* const t = RExC_parse++; /* skip over the c */
7630             assert(*t == c);
7631
7632             if (UCHARAT(RExC_parse) == ']') {
7633                 const char *posixcc = s + 1;
7634                 RExC_parse++; /* skip over the ending ] */
7635
7636                 if (*s == ':') {
7637                     const I32 complement = *posixcc == '^' ? *posixcc++ : 0;
7638                     const I32 skip = t - posixcc;
7639
7640                     /* Initially switch on the length of the name.  */
7641                     switch (skip) {
7642                     case 4:
7643                         if (memEQ(posixcc, "word", 4)) /* this is not POSIX, this is the Perl \w */
7644                             namedclass = complement ? ANYOF_NALNUM : ANYOF_ALNUM;
7645                         break;
7646                     case 5:
7647                         /* Names all of length 5.  */
7648                         /* alnum alpha ascii blank cntrl digit graph lower
7649                            print punct space upper  */
7650                         /* Offset 4 gives the best switch position.  */
7651                         switch (posixcc[4]) {
7652                         case 'a':
7653                             if (memEQ(posixcc, "alph", 4)) /* alpha */
7654                                 namedclass = complement ? ANYOF_NALPHA : ANYOF_ALPHA;
7655                             break;
7656                         case 'e':
7657                             if (memEQ(posixcc, "spac", 4)) /* space */
7658                                 namedclass = complement ? ANYOF_NPSXSPC : ANYOF_PSXSPC;
7659                             break;
7660                         case 'h':
7661                             if (memEQ(posixcc, "grap", 4)) /* graph */
7662                                 namedclass = complement ? ANYOF_NGRAPH : ANYOF_GRAPH;
7663                             break;
7664                         case 'i':
7665                             if (memEQ(posixcc, "asci", 4)) /* ascii */
7666                                 namedclass = complement ? ANYOF_NASCII : ANYOF_ASCII;
7667                             break;
7668                         case 'k':
7669                             if (memEQ(posixcc, "blan", 4)) /* blank */
7670                                 namedclass = complement ? ANYOF_NBLANK : ANYOF_BLANK;
7671                             break;
7672                         case 'l':
7673                             if (memEQ(posixcc, "cntr", 4)) /* cntrl */
7674                                 namedclass = complement ? ANYOF_NCNTRL : ANYOF_CNTRL;
7675                             break;
7676                         case 'm':
7677                             if (memEQ(posixcc, "alnu", 4)) /* alnum */
7678                                 namedclass = complement ? ANYOF_NALNUMC : ANYOF_ALNUMC;
7679                             break;
7680                         case 'r':
7681                             if (memEQ(posixcc, "lowe", 4)) /* lower */
7682                                 namedclass = complement ? ANYOF_NLOWER : ANYOF_LOWER;
7683                             else if (memEQ(posixcc, "uppe", 4)) /* upper */
7684                                 namedclass = complement ? ANYOF_NUPPER : ANYOF_UPPER;
7685                             break;
7686                         case 't':
7687                             if (memEQ(posixcc, "digi", 4)) /* digit */
7688                                 namedclass = complement ? ANYOF_NDIGIT : ANYOF_DIGIT;
7689                             else if (memEQ(posixcc, "prin", 4)) /* print */
7690                                 namedclass = complement ? ANYOF_NPRINT : ANYOF_PRINT;
7691                             else if (memEQ(posixcc, "punc", 4)) /* punct */
7692                                 namedclass = complement ? ANYOF_NPUNCT : ANYOF_PUNCT;
7693                             break;
7694                         }
7695                         break;
7696                     case 6:
7697                         if (memEQ(posixcc, "xdigit", 6))
7698                             namedclass = complement ? ANYOF_NXDIGIT : ANYOF_XDIGIT;
7699                         break;
7700                     }
7701
7702                     if (namedclass == OOB_NAMEDCLASS)
7703                         Simple_vFAIL3("POSIX class [:%.*s:] unknown",
7704                                       t - s - 1, s + 1);
7705                     assert (posixcc[skip] == ':');
7706                     assert (posixcc[skip+1] == ']');
7707                 } else if (!SIZE_ONLY) {
7708                     /* [[=foo=]] and [[.foo.]] are still future. */
7709
7710                     /* adjust RExC_parse so the warning shows after
7711                        the class closes */
7712                     while (UCHARAT(RExC_parse) && UCHARAT(RExC_parse) != ']')
7713                         RExC_parse++;
7714                     Simple_vFAIL3("POSIX syntax [%c %c] is reserved for future extensions", c, c);
7715                 }
7716             } else {
7717                 /* Maternal grandfather:
7718                  * "[:" ending in ":" but not in ":]" */
7719                 RExC_parse = s;
7720             }
7721         }
7722     }
7723
7724     return namedclass;
7725 }
7726
7727 STATIC void
7728 S_checkposixcc(pTHX_ RExC_state_t *pRExC_state)
7729 {
7730     dVAR;
7731
7732     PERL_ARGS_ASSERT_CHECKPOSIXCC;
7733
7734     if (POSIXCC(UCHARAT(RExC_parse))) {
7735         const char *s = RExC_parse;
7736         const char  c = *s++;
7737
7738         while (isALNUM(*s))
7739             s++;
7740         if (*s && c == *s && s[1] == ']') {
7741             if (ckWARN(WARN_REGEXP))
7742                 vWARN3(s+2,
7743                         "POSIX syntax [%c %c] belongs inside character classes",
7744                         c, c);
7745
7746             /* [[=foo=]] and [[.foo.]] are still future. */
7747             if (POSIXCC_NOTYET(c)) {
7748                 /* adjust RExC_parse so the error shows after
7749                    the class closes */
7750                 while (UCHARAT(RExC_parse) && UCHARAT(RExC_parse++) != ']')
7751                     NOOP;
7752                 Simple_vFAIL3("POSIX syntax [%c %c] is reserved for future extensions", c, c);
7753             }
7754         }
7755     }
7756 }
7757
7758
7759 #define _C_C_T_(NAME,TEST,WORD)                         \
7760 ANYOF_##NAME:                                           \
7761     if (LOC)                                            \
7762         ANYOF_CLASS_SET(ret, ANYOF_##NAME);             \
7763     else {                                              \
7764         for (value = 0; value < 256; value++)           \
7765             if (TEST)                                   \
7766                 ANYOF_BITMAP_SET(ret, value);           \
7767     }                                                   \
7768     yesno = '+';                                        \
7769     what = WORD;                                        \
7770     break;                                              \
7771 case ANYOF_N##NAME:                                     \
7772     if (LOC)                                            \
7773         ANYOF_CLASS_SET(ret, ANYOF_N##NAME);            \
7774     else {                                              \
7775         for (value = 0; value < 256; value++)           \
7776             if (!TEST)                                  \
7777                 ANYOF_BITMAP_SET(ret, value);           \
7778     }                                                   \
7779     yesno = '!';                                        \
7780     what = WORD;                                        \
7781     break
7782
7783 #define _C_C_T_NOLOC_(NAME,TEST,WORD)                   \
7784 ANYOF_##NAME:                                           \
7785         for (value = 0; value < 256; value++)           \
7786             if (TEST)                                   \
7787                 ANYOF_BITMAP_SET(ret, value);           \
7788     yesno = '+';                                        \
7789     what = WORD;                                        \
7790     break;                                              \
7791 case ANYOF_N##NAME:                                     \
7792         for (value = 0; value < 256; value++)           \
7793             if (!TEST)                                  \
7794                 ANYOF_BITMAP_SET(ret, value);           \
7795     yesno = '!';                                        \
7796     what = WORD;                                        \
7797     break
7798
7799 /*
7800    parse a class specification and produce either an ANYOF node that
7801    matches the pattern or if the pattern matches a single char only and
7802    that char is < 256 and we are case insensitive then we produce an 
7803    EXACT node instead.
7804 */
7805
7806 STATIC regnode *
7807 S_regclass(pTHX_ RExC_state_t *pRExC_state, U32 depth)
7808 {
7809     dVAR;
7810     register UV nextvalue;
7811     register IV prevvalue = OOB_UNICODE;
7812     register IV range = 0;
7813     UV value = 0; /* XXX:dmq: needs to be referenceable (unfortunately) */
7814     register regnode *ret;
7815     STRLEN numlen;
7816     IV namedclass;
7817     char *rangebegin = NULL;
7818     bool need_class = 0;
7819     SV *listsv = NULL;
7820     UV n;
7821     bool optimize_invert   = TRUE;
7822     AV* unicode_alternate  = NULL;
7823 #ifdef EBCDIC
7824     UV literal_endpoint = 0;
7825 #endif
7826     UV stored = 0;  /* number of chars stored in the class */
7827
7828     regnode * const orig_emit = RExC_emit; /* Save the original RExC_emit in
7829         case we need to change the emitted regop to an EXACT. */
7830     const char * orig_parse = RExC_parse;
7831     GET_RE_DEBUG_FLAGS_DECL;
7832
7833     PERL_ARGS_ASSERT_REGCLASS;
7834 #ifndef DEBUGGING
7835     PERL_UNUSED_ARG(depth);
7836 #endif
7837
7838     DEBUG_PARSE("clas");
7839
7840     /* Assume we are going to generate an ANYOF node. */
7841     ret = reganode(pRExC_state, ANYOF, 0);
7842
7843     if (!SIZE_ONLY)
7844         ANYOF_FLAGS(ret) = 0;
7845
7846     if (UCHARAT(RExC_parse) == '^') {   /* Complement of range. */
7847         RExC_naughty++;
7848         RExC_parse++;
7849         if (!SIZE_ONLY)
7850             ANYOF_FLAGS(ret) |= ANYOF_INVERT;
7851     }
7852
7853     if (SIZE_ONLY) {
7854         RExC_size += ANYOF_SKIP;
7855         listsv = &PL_sv_undef; /* For code scanners: listsv always non-NULL. */
7856     }
7857     else {
7858         RExC_emit += ANYOF_SKIP;
7859         if (FOLD)
7860             ANYOF_FLAGS(ret) |= ANYOF_FOLD;
7861         if (LOC)
7862             ANYOF_FLAGS(ret) |= ANYOF_LOCALE;
7863         ANYOF_BITMAP_ZERO(ret);
7864         listsv = newSVpvs("# comment\n");
7865     }
7866
7867     nextvalue = RExC_parse < RExC_end ? UCHARAT(RExC_parse) : 0;
7868
7869     if (!SIZE_ONLY && POSIXCC(nextvalue))
7870         checkposixcc(pRExC_state);
7871
7872     /* allow 1st char to be ] (allowing it to be - is dealt with later) */
7873     if (UCHARAT(RExC_parse) == ']')
7874         goto charclassloop;
7875
7876 parseit:
7877     while (RExC_parse < RExC_end && UCHARAT(RExC_parse) != ']') {
7878
7879     charclassloop:
7880
7881         namedclass = OOB_NAMEDCLASS; /* initialize as illegal */
7882
7883         if (!range)
7884             rangebegin = RExC_parse;
7885         if (UTF) {
7886             value = utf8n_to_uvchr((U8*)RExC_parse,
7887                                    RExC_end - RExC_parse,
7888                                    &numlen, UTF8_ALLOW_DEFAULT);
7889             RExC_parse += numlen;
7890         }
7891         else
7892             value = UCHARAT(RExC_parse++);
7893
7894         nextvalue = RExC_parse < RExC_end ? UCHARAT(RExC_parse) : 0;
7895         if (value == '[' && POSIXCC(nextvalue))
7896             namedclass = regpposixcc(pRExC_state, value);
7897         else if (value == '\\') {
7898             if (UTF) {
7899                 value = utf8n_to_uvchr((U8*)RExC_parse,
7900                                    RExC_end - RExC_parse,
7901                                    &numlen, UTF8_ALLOW_DEFAULT);
7902                 RExC_parse += numlen;
7903             }
7904             else
7905                 value = UCHARAT(RExC_parse++);
7906             /* Some compilers cannot handle switching on 64-bit integer
7907              * values, therefore value cannot be an UV.  Yes, this will
7908              * be a problem later if we want switch on Unicode.
7909              * A similar issue a little bit later when switching on
7910              * namedclass. --jhi */
7911             switch ((I32)value) {
7912             case 'w':   namedclass = ANYOF_ALNUM;       break;
7913             case 'W':   namedclass = ANYOF_NALNUM;      break;
7914             case 's':   namedclass = ANYOF_SPACE;       break;
7915             case 'S':   namedclass = ANYOF_NSPACE;      break;
7916             case 'd':   namedclass = ANYOF_DIGIT;       break;
7917             case 'D':   namedclass = ANYOF_NDIGIT;      break;
7918             case 'v':   namedclass = ANYOF_VERTWS;      break;
7919             case 'V':   namedclass = ANYOF_NVERTWS;     break;
7920             case 'h':   namedclass = ANYOF_HORIZWS;     break;
7921             case 'H':   namedclass = ANYOF_NHORIZWS;    break;
7922             case 'N':  /* Handle \N{NAME} in class */
7923                 {
7924                     /* We only pay attention to the first char of 
7925                     multichar strings being returned. I kinda wonder
7926                     if this makes sense as it does change the behaviour
7927                     from earlier versions, OTOH that behaviour was broken
7928                     as well. */
7929                     UV v; /* value is register so we cant & it /grrr */
7930                     if (reg_namedseq(pRExC_state, &v)) {
7931                         goto parseit;
7932                     }
7933                     value= v; 
7934                 }
7935                 break;
7936             case 'p':
7937             case 'P':
7938                 {
7939                 char *e;
7940                 if (RExC_parse >= RExC_end)
7941                     vFAIL2("Empty \\%c{}", (U8)value);
7942                 if (*RExC_parse == '{') {
7943                     const U8 c = (U8)value;
7944                     e = strchr(RExC_parse++, '}');
7945                     if (!e)
7946                         vFAIL2("Missing right brace on \\%c{}", c);
7947                     while (isSPACE(UCHARAT(RExC_parse)))
7948                         RExC_parse++;
7949                     if (e == RExC_parse)
7950                         vFAIL2("Empty \\%c{}", c);
7951                     n = e - RExC_parse;
7952                     while (isSPACE(UCHARAT(RExC_parse + n - 1)))
7953                         n--;
7954                 }
7955                 else {
7956                     e = RExC_parse;
7957                     n = 1;
7958                 }
7959                 if (!SIZE_ONLY) {
7960                     if (UCHARAT(RExC_parse) == '^') {
7961                          RExC_parse++;
7962                          n--;
7963                          value = value == 'p' ? 'P' : 'p'; /* toggle */
7964                          while (isSPACE(UCHARAT(RExC_parse))) {
7965                               RExC_parse++;
7966                               n--;
7967                          }
7968                     }
7969                     Perl_sv_catpvf(aTHX_ listsv, "%cutf8::%.*s\n",
7970                         (value=='p' ? '+' : '!'), (int)n, RExC_parse);
7971                 }
7972                 RExC_parse = e + 1;
7973                 ANYOF_FLAGS(ret) |= ANYOF_UNICODE;
7974                 namedclass = ANYOF_MAX;  /* no official name, but it's named */
7975                 }
7976                 break;
7977             case 'n':   value = '\n';                   break;
7978             case 'r':   value = '\r';                   break;
7979             case 't':   value = '\t';                   break;
7980             case 'f':   value = '\f';                   break;
7981             case 'b':   value = '\b';                   break;
7982             case 'e':   value = ASCII_TO_NATIVE('\033');break;
7983             case 'a':   value = ASCII_TO_NATIVE('\007');break;
7984             case 'x':
7985                 if (*RExC_parse == '{') {
7986                     I32 flags = PERL_SCAN_ALLOW_UNDERSCORES
7987                         | PERL_SCAN_DISALLOW_PREFIX;
7988                     char * const e = strchr(RExC_parse++, '}');
7989                     if (!e)
7990                         vFAIL("Missing right brace on \\x{}");
7991
7992                     numlen = e - RExC_parse;
7993                     value = grok_hex(RExC_parse, &numlen, &flags, NULL);
7994                     RExC_parse = e + 1;
7995                 }
7996                 else {
7997                     I32 flags = PERL_SCAN_DISALLOW_PREFIX;
7998                     numlen = 2;
7999                     value = grok_hex(RExC_parse, &numlen, &flags, NULL);
8000                     RExC_parse += numlen;
8001                 }
8002                 if (PL_encoding && value < 0x100)
8003                     goto recode_encoding;
8004                 break;
8005             case 'c':
8006                 value = UCHARAT(RExC_parse++);
8007                 value = toCTRL(value);
8008                 break;
8009             case '0': case '1': case '2': case '3': case '4':
8010             case '5': case '6': case '7': case '8': case '9':
8011                 {
8012                     I32 flags = 0;
8013                     numlen = 3;
8014                     value = grok_oct(--RExC_parse, &numlen, &flags, NULL);
8015                     RExC_parse += numlen;
8016                     if (PL_encoding && value < 0x100)
8017                         goto recode_encoding;
8018                     break;
8019                 }
8020             recode_encoding:
8021                 {
8022                     SV* enc = PL_encoding;
8023                     value = reg_recode((const char)(U8)value, &enc);
8024                     if (!enc && SIZE_ONLY && ckWARN(WARN_REGEXP))
8025                         vWARN(RExC_parse,
8026                               "Invalid escape in the specified encoding");
8027                     break;
8028                 }
8029             default:
8030                 if (!SIZE_ONLY && isALPHA(value) && ckWARN(WARN_REGEXP))
8031                     vWARN2(RExC_parse,
8032                            "Unrecognized escape \\%c in character class passed through",
8033                            (int)value);
8034                 break;
8035             }
8036         } /* end of \blah */
8037 #ifdef EBCDIC
8038         else
8039             literal_endpoint++;
8040 #endif
8041
8042         if (namedclass > OOB_NAMEDCLASS) { /* this is a named class \blah */
8043
8044             if (!SIZE_ONLY && !need_class)
8045                 ANYOF_CLASS_ZERO(ret);
8046
8047             need_class = 1;
8048
8049             /* a bad range like a-\d, a-[:digit:] ? */
8050             if (range) {
8051                 if (!SIZE_ONLY) {
8052                     if (ckWARN(WARN_REGEXP)) {
8053                         const int w =
8054                             RExC_parse >= rangebegin ?
8055                             RExC_parse - rangebegin : 0;
8056                         vWARN4(RExC_parse,
8057                                "False [] range \"%*.*s\"",
8058                                w, w, rangebegin);
8059                     }
8060                     if (prevvalue < 256) {
8061                         ANYOF_BITMAP_SET(ret, prevvalue);
8062                         ANYOF_BITMAP_SET(ret, '-');
8063                     }
8064                     else {
8065                         ANYOF_FLAGS(ret) |= ANYOF_UNICODE;
8066                         Perl_sv_catpvf(aTHX_ listsv,
8067                                        "%04"UVxf"\n%04"UVxf"\n", (UV)prevvalue, (UV) '-');
8068                     }
8069                 }
8070
8071                 range = 0; /* this was not a true range */
8072             }
8073
8074
8075     
8076             if (!SIZE_ONLY) {
8077                 const char *what = NULL;
8078                 char yesno = 0;
8079
8080                 if (namedclass > OOB_NAMEDCLASS)
8081                     optimize_invert = FALSE;
8082                 /* Possible truncation here but in some 64-bit environments
8083                  * the compiler gets heartburn about switch on 64-bit values.
8084                  * A similar issue a little earlier when switching on value.
8085                  * --jhi */
8086                 switch ((I32)namedclass) {
8087                 case _C_C_T_(ALNUM, isALNUM(value), "Word");
8088                 case _C_C_T_(ALNUMC, isALNUMC(value), "Alnum");
8089                 case _C_C_T_(ALPHA, isALPHA(value), "Alpha");
8090                 case _C_C_T_(BLANK, isBLANK(value), "Blank");
8091                 case _C_C_T_(CNTRL, isCNTRL(value), "Cntrl");
8092                 case _C_C_T_(GRAPH, isGRAPH(value), "Graph");
8093                 case _C_C_T_(LOWER, isLOWER(value), "Lower");
8094                 case _C_C_T_(PRINT, isPRINT(value), "Print");
8095                 case _C_C_T_(PSXSPC, isPSXSPC(value), "Space");
8096                 case _C_C_T_(PUNCT, isPUNCT(value), "Punct");
8097                 case _C_C_T_(SPACE, isSPACE(value), "SpacePerl");
8098                 case _C_C_T_(UPPER, isUPPER(value), "Upper");
8099                 case _C_C_T_(XDIGIT, isXDIGIT(value), "XDigit");
8100                 case _C_C_T_NOLOC_(VERTWS, is_VERTWS_latin1(&value), "VertSpace");
8101                 case _C_C_T_NOLOC_(HORIZWS, is_HORIZWS_latin1(&value), "HorizSpace");
8102                 case ANYOF_ASCII:
8103                     if (LOC)
8104                         ANYOF_CLASS_SET(ret, ANYOF_ASCII);
8105                     else {
8106 #ifndef EBCDIC
8107                         for (value = 0; value < 128; value++)
8108                             ANYOF_BITMAP_SET(ret, value);
8109 #else  /* EBCDIC */
8110                         for (value = 0; value < 256; value++) {
8111                             if (isASCII(value))
8112                                 ANYOF_BITMAP_SET(ret, value);
8113                         }
8114 #endif /* EBCDIC */
8115                     }
8116                     yesno = '+';
8117                     what = "ASCII";
8118                     break;
8119                 case ANYOF_NASCII:
8120                     if (LOC)
8121                         ANYOF_CLASS_SET(ret, ANYOF_NASCII);
8122                     else {
8123 #ifndef EBCDIC
8124                         for (value = 128; value < 256; value++)
8125                             ANYOF_BITMAP_SET(ret, value);
8126 #else  /* EBCDIC */
8127                         for (value = 0; value < 256; value++) {
8128                             if (!isASCII(value))
8129                                 ANYOF_BITMAP_SET(ret, value);
8130                         }
8131 #endif /* EBCDIC */
8132                     }
8133                     yesno = '!';
8134                     what = "ASCII";
8135                     break;              
8136                 case ANYOF_DIGIT:
8137                     if (LOC)
8138                         ANYOF_CLASS_SET(ret, ANYOF_DIGIT);
8139                     else {
8140                         /* consecutive digits assumed */
8141                         for (value = '0'; value <= '9'; value++)
8142                             ANYOF_BITMAP_SET(ret, value);
8143                     }
8144                     yesno = '+';
8145                     what = "Digit";
8146                     break;
8147                 case ANYOF_NDIGIT:
8148                     if (LOC)
8149                         ANYOF_CLASS_SET(ret, ANYOF_NDIGIT);
8150                     else {
8151                         /* consecutive digits assumed */
8152                         for (value = 0; value < '0'; value++)
8153                             ANYOF_BITMAP_SET(ret, value);
8154                         for (value = '9' + 1; value < 256; value++)
8155                             ANYOF_BITMAP_SET(ret, value);
8156                     }
8157                     yesno = '!';
8158                     what = "Digit";
8159                     break;              
8160                 case ANYOF_MAX:
8161                     /* this is to handle \p and \P */
8162                     break;
8163                 default:
8164                     vFAIL("Invalid [::] class");
8165                     break;
8166                 }
8167                 if (what) {
8168                     /* Strings such as "+utf8::isWord\n" */
8169                     Perl_sv_catpvf(aTHX_ listsv, "%cutf8::Is%s\n", yesno, what);
8170                 }
8171                 if (LOC)
8172                     ANYOF_FLAGS(ret) |= ANYOF_CLASS;
8173                 continue;
8174             }
8175         } /* end of namedclass \blah */
8176
8177         if (range) {
8178             if (prevvalue > (IV)value) /* b-a */ {
8179                 const int w = RExC_parse - rangebegin;
8180                 Simple_vFAIL4("Invalid [] range \"%*.*s\"", w, w, rangebegin);
8181                 range = 0; /* not a valid range */
8182             }
8183         }
8184         else {
8185             prevvalue = value; /* save the beginning of the range */
8186             if (*RExC_parse == '-' && RExC_parse+1 < RExC_end &&
8187                 RExC_parse[1] != ']') {
8188                 RExC_parse++;
8189
8190                 /* a bad range like \w-, [:word:]- ? */
8191                 if (namedclass > OOB_NAMEDCLASS) {
8192                     if (ckWARN(WARN_REGEXP)) {
8193                         const int w =
8194                             RExC_parse >= rangebegin ?
8195                             RExC_parse - rangebegin : 0;
8196                         vWARN4(RExC_parse,
8197                                "False [] range \"%*.*s\"",
8198                                w, w, rangebegin);
8199                     }
8200                     if (!SIZE_ONLY)
8201                         ANYOF_BITMAP_SET(ret, '-');
8202                 } else
8203                     range = 1;  /* yeah, it's a range! */
8204                 continue;       /* but do it the next time */
8205             }
8206         }
8207
8208         /* now is the next time */
8209         /*stored += (value - prevvalue + 1);*/
8210         if (!SIZE_ONLY) {
8211             if (prevvalue < 256) {
8212                 const IV ceilvalue = value < 256 ? value : 255;
8213                 IV i;
8214 #ifdef EBCDIC
8215                 /* In EBCDIC [\x89-\x91] should include
8216                  * the \x8e but [i-j] should not. */
8217                 if (literal_endpoint == 2 &&
8218                     ((isLOWER(prevvalue) && isLOWER(ceilvalue)) ||
8219                      (isUPPER(prevvalue) && isUPPER(ceilvalue))))
8220                 {
8221                     if (isLOWER(prevvalue)) {
8222                         for (i = prevvalue; i <= ceilvalue; i++)
8223                             if (isLOWER(i) && !ANYOF_BITMAP_TEST(ret,i)) {
8224                                 stored++;
8225                                 ANYOF_BITMAP_SET(ret, i);
8226                             }
8227                     } else {
8228                         for (i = prevvalue; i <= ceilvalue; i++)
8229                             if (isUPPER(i) && !ANYOF_BITMAP_TEST(ret,i)) {
8230                                 stored++;
8231                                 ANYOF_BITMAP_SET(ret, i);
8232                             }
8233                     }
8234                 }
8235                 else
8236 #endif
8237                       for (i = prevvalue; i <= ceilvalue; i++) {
8238                         if (!ANYOF_BITMAP_TEST(ret,i)) {
8239                             stored++;  
8240                             ANYOF_BITMAP_SET(ret, i);
8241                         }
8242                       }
8243           }
8244           if (value > 255 || UTF) {
8245                 const UV prevnatvalue  = NATIVE_TO_UNI(prevvalue);
8246                 const UV natvalue      = NATIVE_TO_UNI(value);
8247                 stored+=2; /* can't optimize this class */
8248                 ANYOF_FLAGS(ret) |= ANYOF_UNICODE;
8249                 if (prevnatvalue < natvalue) { /* what about > ? */
8250                     Perl_sv_catpvf(aTHX_ listsv, "%04"UVxf"\t%04"UVxf"\n",
8251                                    prevnatvalue, natvalue);
8252                 }
8253                 else if (prevnatvalue == natvalue) {
8254                     Perl_sv_catpvf(aTHX_ listsv, "%04"UVxf"\n", natvalue);
8255                     if (FOLD) {
8256                          U8 foldbuf[UTF8_MAXBYTES_CASE+1];
8257                          STRLEN foldlen;
8258                          const UV f = to_uni_fold(natvalue, foldbuf, &foldlen);
8259
8260 #ifdef EBCDIC /* RD t/uni/fold ff and 6b */
8261                          if (RExC_precomp[0] == ':' &&
8262                              RExC_precomp[1] == '[' &&
8263                              (f == 0xDF || f == 0x92)) {
8264                              f = NATIVE_TO_UNI(f);
8265                         }
8266 #endif
8267                          /* If folding and foldable and a single
8268                           * character, insert also the folded version
8269                           * to the charclass. */
8270                          if (f != value) {
8271 #ifdef EBCDIC /* RD tunifold ligatures s,t fb05, fb06 */
8272                              if ((RExC_precomp[0] == ':' &&
8273                                   RExC_precomp[1] == '[' &&
8274                                   (f == 0xA2 &&
8275                                    (value == 0xFB05 || value == 0xFB06))) ?
8276                                  foldlen == ((STRLEN)UNISKIP(f) - 1) :
8277                                  foldlen == (STRLEN)UNISKIP(f) )
8278 #else
8279                               if (foldlen == (STRLEN)UNISKIP(f))
8280 #endif
8281                                   Perl_sv_catpvf(aTHX_ listsv,
8282                                                  "%04"UVxf"\n", f);
8283                               else {
8284                                   /* Any multicharacter foldings
8285                                    * require the following transform:
8286                                    * [ABCDEF] -> (?:[ABCabcDEFd]|pq|rst)
8287                                    * where E folds into "pq" and F folds
8288                                    * into "rst", all other characters
8289                                    * fold to single characters.  We save
8290                                    * away these multicharacter foldings,
8291                                    * to be later saved as part of the
8292                                    * additional "s" data. */
8293                                   SV *sv;
8294
8295                                   if (!unicode_alternate)
8296                                       unicode_alternate = newAV();
8297                                   sv = newSVpvn_utf8((char*)foldbuf, foldlen,
8298                                                      TRUE);
8299                                   av_push(unicode_alternate, sv);
8300                               }
8301                          }
8302
8303                          /* If folding and the value is one of the Greek
8304                           * sigmas insert a few more sigmas to make the
8305                           * folding rules of the sigmas to work right.
8306                           * Note that not all the possible combinations
8307                           * are handled here: some of them are handled
8308                           * by the standard folding rules, and some of
8309                           * them (literal or EXACTF cases) are handled
8310                           * during runtime in regexec.c:S_find_byclass(). */
8311                          if (value == UNICODE_GREEK_SMALL_LETTER_FINAL_SIGMA) {
8312                               Perl_sv_catpvf(aTHX_ listsv, "%04"UVxf"\n",
8313                                              (UV)UNICODE_GREEK_CAPITAL_LETTER_SIGMA);
8314                               Perl_sv_catpvf(aTHX_ listsv, "%04"UVxf"\n",
8315                                              (UV)UNICODE_GREEK_SMALL_LETTER_SIGMA);
8316                          }
8317                          else if (value == UNICODE_GREEK_CAPITAL_LETTER_SIGMA)
8318                               Perl_sv_catpvf(aTHX_ listsv, "%04"UVxf"\n",
8319                                              (UV)UNICODE_GREEK_SMALL_LETTER_SIGMA);
8320                     }
8321                 }
8322             }
8323 #ifdef EBCDIC
8324             literal_endpoint = 0;
8325 #endif
8326         }
8327
8328         range = 0; /* this range (if it was one) is done now */
8329     }
8330
8331     if (need_class) {
8332         ANYOF_FLAGS(ret) |= ANYOF_LARGE;
8333         if (SIZE_ONLY)
8334             RExC_size += ANYOF_CLASS_ADD_SKIP;
8335         else
8336             RExC_emit += ANYOF_CLASS_ADD_SKIP;
8337     }
8338
8339
8340     if (SIZE_ONLY)
8341         return ret;
8342     /****** !SIZE_ONLY AFTER HERE *********/
8343
8344     if( stored == 1 && (value < 128 || (value < 256 && !UTF))
8345         && !( ANYOF_FLAGS(ret) & ( ANYOF_FLAGS_ALL ^ ANYOF_FOLD ) )
8346     ) {
8347         /* optimize single char class to an EXACT node
8348            but *only* when its not a UTF/high char  */
8349         const char * cur_parse= RExC_parse;
8350         RExC_emit = (regnode *)orig_emit;
8351         RExC_parse = (char *)orig_parse;
8352         ret = reg_node(pRExC_state,
8353                        (U8)((ANYOF_FLAGS(ret) & ANYOF_FOLD) ? EXACTF : EXACT));
8354         RExC_parse = (char *)cur_parse;
8355         *STRING(ret)= (char)value;
8356         STR_LEN(ret)= 1;
8357         RExC_emit += STR_SZ(1);
8358         return ret;
8359     }
8360     /* optimize case-insensitive simple patterns (e.g. /[a-z]/i) */
8361     if ( /* If the only flag is folding (plus possibly inversion). */
8362         ((ANYOF_FLAGS(ret) & (ANYOF_FLAGS_ALL ^ ANYOF_INVERT)) == ANYOF_FOLD)
8363        ) {
8364         for (value = 0; value < 256; ++value) {
8365             if (ANYOF_BITMAP_TEST(ret, value)) {
8366                 UV fold = PL_fold[value];
8367
8368                 if (fold != value)
8369                     ANYOF_BITMAP_SET(ret, fold);
8370             }
8371         }
8372         ANYOF_FLAGS(ret) &= ~ANYOF_FOLD;
8373     }
8374
8375     /* optimize inverted simple patterns (e.g. [^a-z]) */
8376     if (optimize_invert &&
8377         /* If the only flag is inversion. */
8378         (ANYOF_FLAGS(ret) & ANYOF_FLAGS_ALL) == ANYOF_INVERT) {
8379         for (value = 0; value < ANYOF_BITMAP_SIZE; ++value)
8380             ANYOF_BITMAP(ret)[value] ^= ANYOF_FLAGS_ALL;
8381         ANYOF_FLAGS(ret) = ANYOF_UNICODE_ALL;
8382     }
8383     {
8384         AV * const av = newAV();
8385         SV *rv;
8386         /* The 0th element stores the character class description
8387          * in its textual form: used later (regexec.c:Perl_regclass_swash())
8388          * to initialize the appropriate swash (which gets stored in
8389          * the 1st element), and also useful for dumping the regnode.
8390          * The 2nd element stores the multicharacter foldings,
8391          * used later (regexec.c:S_reginclass()). */
8392         av_store(av, 0, listsv);
8393         av_store(av, 1, NULL);
8394         av_store(av, 2, (SV*)unicode_alternate);
8395         rv = newRV_noinc((SV*)av);
8396         n = add_data(pRExC_state, 1, "s");
8397         RExC_rxi->data->data[n] = (void*)rv;
8398         ARG_SET(ret, n);
8399     }
8400     return ret;
8401 }
8402 #undef _C_C_T_
8403
8404
8405 /* reg_skipcomment()
8406
8407    Absorbs an /x style # comments from the input stream.
8408    Returns true if there is more text remaining in the stream.
8409    Will set the REG_SEEN_RUN_ON_COMMENT flag if the comment
8410    terminates the pattern without including a newline.
8411
8412    Note its the callers responsibility to ensure that we are
8413    actually in /x mode
8414
8415 */
8416
8417 STATIC bool
8418 S_reg_skipcomment(pTHX_ RExC_state_t *pRExC_state)
8419 {
8420     bool ended = 0;
8421
8422     PERL_ARGS_ASSERT_REG_SKIPCOMMENT;
8423
8424     while (RExC_parse < RExC_end)
8425         if (*RExC_parse++ == '\n') {
8426             ended = 1;
8427             break;
8428         }
8429     if (!ended) {
8430         /* we ran off the end of the pattern without ending
8431            the comment, so we have to add an \n when wrapping */
8432         RExC_seen |= REG_SEEN_RUN_ON_COMMENT;
8433         return 0;
8434     } else
8435         return 1;
8436 }
8437
8438 /* nextchar()
8439
8440    Advance that parse position, and optionall absorbs
8441    "whitespace" from the inputstream.
8442
8443    Without /x "whitespace" means (?#...) style comments only,
8444    with /x this means (?#...) and # comments and whitespace proper.
8445
8446    Returns the RExC_parse point from BEFORE the scan occurs.
8447
8448    This is the /x friendly way of saying RExC_parse++.
8449 */
8450
8451 STATIC char*
8452 S_nextchar(pTHX_ RExC_state_t *pRExC_state)
8453 {
8454     char* const retval = RExC_parse++;
8455
8456     PERL_ARGS_ASSERT_NEXTCHAR;
8457
8458     for (;;) {
8459         if (*RExC_parse == '(' && RExC_parse[1] == '?' &&
8460                 RExC_parse[2] == '#') {
8461             while (*RExC_parse != ')') {
8462                 if (RExC_parse == RExC_end)
8463                     FAIL("Sequence (?#... not terminated");
8464                 RExC_parse++;
8465             }
8466             RExC_parse++;
8467             continue;
8468         }
8469         if (RExC_flags & RXf_PMf_EXTENDED) {
8470             if (isSPACE(*RExC_parse)) {
8471                 RExC_parse++;
8472                 continue;
8473             }
8474             else if (*RExC_parse == '#') {
8475                 if ( reg_skipcomment( pRExC_state ) )
8476                     continue;
8477             }
8478         }
8479         return retval;
8480     }
8481 }
8482
8483 /*
8484 - reg_node - emit a node
8485 */
8486 STATIC regnode *                        /* Location. */
8487 S_reg_node(pTHX_ RExC_state_t *pRExC_state, U8 op)
8488 {
8489     dVAR;
8490     register regnode *ptr;
8491     regnode * const ret = RExC_emit;
8492     GET_RE_DEBUG_FLAGS_DECL;
8493
8494     PERL_ARGS_ASSERT_REG_NODE;
8495
8496     if (SIZE_ONLY) {
8497         SIZE_ALIGN(RExC_size);
8498         RExC_size += 1;
8499         return(ret);
8500     }
8501     if (RExC_emit >= RExC_emit_bound)
8502         Perl_croak(aTHX_ "panic: reg_node overrun trying to emit %d", op);
8503
8504     NODE_ALIGN_FILL(ret);
8505     ptr = ret;
8506     FILL_ADVANCE_NODE(ptr, op);
8507 #ifdef RE_TRACK_PATTERN_OFFSETS
8508     if (RExC_offsets) {         /* MJD */
8509         MJD_OFFSET_DEBUG(("%s:%d: (op %s) %s %"UVuf" (len %"UVuf") (max %"UVuf").\n", 
8510               "reg_node", __LINE__, 
8511               PL_reg_name[op],
8512               (UV)(RExC_emit - RExC_emit_start) > RExC_offsets[0] 
8513                 ? "Overwriting end of array!\n" : "OK",
8514               (UV)(RExC_emit - RExC_emit_start),
8515               (UV)(RExC_parse - RExC_start),
8516               (UV)RExC_offsets[0])); 
8517         Set_Node_Offset(RExC_emit, RExC_parse + (op == END));
8518     }
8519 #endif
8520     RExC_emit = ptr;
8521     return(ret);
8522 }
8523
8524 /*
8525 - reganode - emit a node with an argument
8526 */
8527 STATIC regnode *                        /* Location. */
8528 S_reganode(pTHX_ RExC_state_t *pRExC_state, U8 op, U32 arg)
8529 {
8530     dVAR;
8531     register regnode *ptr;
8532     regnode * const ret = RExC_emit;
8533     GET_RE_DEBUG_FLAGS_DECL;
8534
8535     PERL_ARGS_ASSERT_REGANODE;
8536
8537     if (SIZE_ONLY) {
8538         SIZE_ALIGN(RExC_size);
8539         RExC_size += 2;
8540         /* 
8541            We can't do this:
8542            
8543            assert(2==regarglen[op]+1); 
8544         
8545            Anything larger than this has to allocate the extra amount.
8546            If we changed this to be:
8547            
8548            RExC_size += (1 + regarglen[op]);
8549            
8550            then it wouldn't matter. Its not clear what side effect
8551            might come from that so its not done so far.
8552            -- dmq
8553         */
8554         return(ret);
8555     }
8556     if (RExC_emit >= RExC_emit_bound)
8557         Perl_croak(aTHX_ "panic: reg_node overrun trying to emit %d", op);
8558
8559     NODE_ALIGN_FILL(ret);
8560     ptr = ret;
8561     FILL_ADVANCE_NODE_ARG(ptr, op, arg);
8562 #ifdef RE_TRACK_PATTERN_OFFSETS
8563     if (RExC_offsets) {         /* MJD */
8564         MJD_OFFSET_DEBUG(("%s(%d): (op %s) %s %"UVuf" <- %"UVuf" (max %"UVuf").\n", 
8565               "reganode",
8566               __LINE__,
8567               PL_reg_name[op],
8568               (UV)(RExC_emit - RExC_emit_start) > RExC_offsets[0] ? 
8569               "Overwriting end of array!\n" : "OK",
8570               (UV)(RExC_emit - RExC_emit_start),
8571               (UV)(RExC_parse - RExC_start),
8572               (UV)RExC_offsets[0])); 
8573         Set_Cur_Node_Offset;
8574     }
8575 #endif            
8576     RExC_emit = ptr;
8577     return(ret);
8578 }
8579
8580 /*
8581 - reguni - emit (if appropriate) a Unicode character
8582 */
8583 STATIC STRLEN
8584 S_reguni(pTHX_ const RExC_state_t *pRExC_state, UV uv, char* s)
8585 {
8586     dVAR;
8587
8588     PERL_ARGS_ASSERT_REGUNI;
8589
8590     return SIZE_ONLY ? UNISKIP(uv) : (uvchr_to_utf8((U8*)s, uv) - (U8*)s);
8591 }
8592
8593 /*
8594 - reginsert - insert an operator in front of already-emitted operand
8595 *
8596 * Means relocating the operand.
8597 */
8598 STATIC void
8599 S_reginsert(pTHX_ RExC_state_t *pRExC_state, U8 op, regnode *opnd, U32 depth)
8600 {
8601     dVAR;
8602     register regnode *src;
8603     register regnode *dst;
8604     register regnode *place;
8605     const int offset = regarglen[(U8)op];
8606     const int size = NODE_STEP_REGNODE + offset;
8607     GET_RE_DEBUG_FLAGS_DECL;
8608
8609     PERL_ARGS_ASSERT_REGINSERT;
8610     PERL_UNUSED_ARG(depth);
8611 /* (PL_regkind[(U8)op] == CURLY ? EXTRA_STEP_2ARGS : 0); */
8612     DEBUG_PARSE_FMT("inst"," - %s",PL_reg_name[op]);
8613     if (SIZE_ONLY) {
8614         RExC_size += size;
8615         return;
8616     }
8617
8618     src = RExC_emit;
8619     RExC_emit += size;
8620     dst = RExC_emit;
8621     if (RExC_open_parens) {
8622         int paren;
8623         /*DEBUG_PARSE_FMT("inst"," - %"IVdf, (IV)RExC_npar);*/
8624         for ( paren=0 ; paren < RExC_npar ; paren++ ) {
8625             if ( RExC_open_parens[paren] >= opnd ) {
8626                 /*DEBUG_PARSE_FMT("open"," - %d",size);*/
8627                 RExC_open_parens[paren] += size;
8628             } else {
8629                 /*DEBUG_PARSE_FMT("open"," - %s","ok");*/
8630             }
8631             if ( RExC_close_parens[paren] >= opnd ) {
8632                 /*DEBUG_PARSE_FMT("close"," - %d",size);*/
8633                 RExC_close_parens[paren] += size;
8634             } else {
8635                 /*DEBUG_PARSE_FMT("close"," - %s","ok");*/
8636             }
8637         }
8638     }
8639
8640     while (src > opnd) {
8641         StructCopy(--src, --dst, regnode);
8642 #ifdef RE_TRACK_PATTERN_OFFSETS
8643         if (RExC_offsets) {     /* MJD 20010112 */
8644             MJD_OFFSET_DEBUG(("%s(%d): (op %s) %s copy %"UVuf" -> %"UVuf" (max %"UVuf").\n",
8645                   "reg_insert",
8646                   __LINE__,
8647                   PL_reg_name[op],
8648                   (UV)(dst - RExC_emit_start) > RExC_offsets[0] 
8649                     ? "Overwriting end of array!\n" : "OK",
8650                   (UV)(src - RExC_emit_start),
8651                   (UV)(dst - RExC_emit_start),
8652                   (UV)RExC_offsets[0])); 
8653             Set_Node_Offset_To_R(dst-RExC_emit_start, Node_Offset(src));
8654             Set_Node_Length_To_R(dst-RExC_emit_start, Node_Length(src));
8655         }
8656 #endif
8657     }
8658     
8659
8660     place = opnd;               /* Op node, where operand used to be. */
8661 #ifdef RE_TRACK_PATTERN_OFFSETS
8662     if (RExC_offsets) {         /* MJD */
8663         MJD_OFFSET_DEBUG(("%s(%d): (op %s) %s %"UVuf" <- %"UVuf" (max %"UVuf").\n", 
8664               "reginsert",
8665               __LINE__,
8666               PL_reg_name[op],
8667               (UV)(place - RExC_emit_start) > RExC_offsets[0] 
8668               ? "Overwriting end of array!\n" : "OK",
8669               (UV)(place - RExC_emit_start),
8670               (UV)(RExC_parse - RExC_start),
8671               (UV)RExC_offsets[0]));
8672         Set_Node_Offset(place, RExC_parse);
8673         Set_Node_Length(place, 1);
8674     }
8675 #endif    
8676     src = NEXTOPER(place);
8677     FILL_ADVANCE_NODE(place, op);
8678     Zero(src, offset, regnode);
8679 }
8680
8681 /*
8682 - regtail - set the next-pointer at the end of a node chain of p to val.
8683 - SEE ALSO: regtail_study
8684 */
8685 /* TODO: All three parms should be const */
8686 STATIC void
8687 S_regtail(pTHX_ RExC_state_t *pRExC_state, regnode *p, const regnode *val,U32 depth)
8688 {
8689     dVAR;
8690     register regnode *scan;
8691     GET_RE_DEBUG_FLAGS_DECL;
8692
8693     PERL_ARGS_ASSERT_REGTAIL;
8694 #ifndef DEBUGGING
8695     PERL_UNUSED_ARG(depth);
8696 #endif
8697
8698     if (SIZE_ONLY)
8699         return;
8700
8701     /* Find last node. */
8702     scan = p;
8703     for (;;) {
8704         regnode * const temp = regnext(scan);
8705         DEBUG_PARSE_r({
8706             SV * const mysv=sv_newmortal();
8707             DEBUG_PARSE_MSG((scan==p ? "tail" : ""));
8708             regprop(RExC_rx, mysv, scan);
8709             PerlIO_printf(Perl_debug_log, "~ %s (%d) %s %s\n",
8710                 SvPV_nolen_const(mysv), REG_NODE_NUM(scan),
8711                     (temp == NULL ? "->" : ""),
8712                     (temp == NULL ? PL_reg_name[OP(val)] : "")
8713             );
8714         });
8715         if (temp == NULL)
8716             break;
8717         scan = temp;
8718     }
8719
8720     if (reg_off_by_arg[OP(scan)]) {
8721         ARG_SET(scan, val - scan);
8722     }
8723     else {
8724         NEXT_OFF(scan) = val - scan;
8725     }
8726 }
8727
8728 #ifdef DEBUGGING
8729 /*
8730 - regtail_study - set the next-pointer at the end of a node chain of p to val.
8731 - Look for optimizable sequences at the same time.
8732 - currently only looks for EXACT chains.
8733
8734 This is expermental code. The idea is to use this routine to perform 
8735 in place optimizations on branches and groups as they are constructed,
8736 with the long term intention of removing optimization from study_chunk so
8737 that it is purely analytical.
8738
8739 Currently only used when in DEBUG mode. The macro REGTAIL_STUDY() is used
8740 to control which is which.
8741
8742 */
8743 /* TODO: All four parms should be const */
8744
8745 STATIC U8
8746 S_regtail_study(pTHX_ RExC_state_t *pRExC_state, regnode *p, const regnode *val,U32 depth)
8747 {
8748     dVAR;
8749     register regnode *scan;
8750     U8 exact = PSEUDO;
8751 #ifdef EXPERIMENTAL_INPLACESCAN
8752     I32 min = 0;
8753 #endif
8754     GET_RE_DEBUG_FLAGS_DECL;
8755
8756     PERL_ARGS_ASSERT_REGTAIL_STUDY;
8757
8758
8759     if (SIZE_ONLY)
8760         return exact;
8761
8762     /* Find last node. */
8763
8764     scan = p;
8765     for (;;) {
8766         regnode * const temp = regnext(scan);
8767 #ifdef EXPERIMENTAL_INPLACESCAN
8768         if (PL_regkind[OP(scan)] == EXACT)
8769             if (join_exact(pRExC_state,scan,&min,1,val,depth+1))
8770                 return EXACT;
8771 #endif
8772         if ( exact ) {
8773             switch (OP(scan)) {
8774                 case EXACT:
8775                 case EXACTF:
8776                 case EXACTFL:
8777                         if( exact == PSEUDO )
8778                             exact= OP(scan);
8779                         else if ( exact != OP(scan) )
8780                             exact= 0;
8781                 case NOTHING:
8782                     break;
8783                 default:
8784                     exact= 0;
8785             }
8786         }
8787         DEBUG_PARSE_r({
8788             SV * const mysv=sv_newmortal();
8789             DEBUG_PARSE_MSG((scan==p ? "tsdy" : ""));
8790             regprop(RExC_rx, mysv, scan);
8791             PerlIO_printf(Perl_debug_log, "~ %s (%d) -> %s\n",
8792                 SvPV_nolen_const(mysv),
8793                 REG_NODE_NUM(scan),
8794                 PL_reg_name[exact]);
8795         });
8796         if (temp == NULL)
8797             break;
8798         scan = temp;
8799     }
8800     DEBUG_PARSE_r({
8801         SV * const mysv_val=sv_newmortal();
8802         DEBUG_PARSE_MSG("");
8803         regprop(RExC_rx, mysv_val, val);
8804         PerlIO_printf(Perl_debug_log, "~ attach to %s (%"IVdf") offset to %"IVdf"\n",
8805                       SvPV_nolen_const(mysv_val),
8806                       (IV)REG_NODE_NUM(val),
8807                       (IV)(val - scan)
8808         );
8809     });
8810     if (reg_off_by_arg[OP(scan)]) {
8811         ARG_SET(scan, val - scan);
8812     }
8813     else {
8814         NEXT_OFF(scan) = val - scan;
8815     }
8816
8817     return exact;
8818 }
8819 #endif
8820
8821 /*
8822  - regcurly - a little FSA that accepts {\d+,?\d*}
8823  */
8824 STATIC I32
8825 S_regcurly(register const char *s)
8826 {
8827     PERL_ARGS_ASSERT_REGCURLY;
8828
8829     if (*s++ != '{')
8830         return FALSE;
8831     if (!isDIGIT(*s))
8832         return FALSE;
8833     while (isDIGIT(*s))
8834         s++;
8835     if (*s == ',')
8836         s++;
8837     while (isDIGIT(*s))
8838         s++;
8839     if (*s != '}')
8840         return FALSE;
8841     return TRUE;
8842 }
8843
8844
8845 /*
8846  - regdump - dump a regexp onto Perl_debug_log in vaguely comprehensible form
8847  */
8848 #ifdef DEBUGGING
8849 void 
8850 S_regdump_extflags(pTHX_ const char *lead, const U32 flags)
8851 {
8852     int bit;
8853     int set=0;
8854
8855     for (bit=0; bit<32; bit++) {
8856         if (flags & (1<<bit)) {
8857             if (!set++ && lead) 
8858                 PerlIO_printf(Perl_debug_log, "%s",lead);
8859             PerlIO_printf(Perl_debug_log, "%s ",PL_reg_extflags_name[bit]);
8860         }               
8861     }      
8862     if (lead)  {
8863         if (set) 
8864             PerlIO_printf(Perl_debug_log, "\n");
8865         else 
8866             PerlIO_printf(Perl_debug_log, "%s[none-set]\n",lead);
8867     }            
8868 }   
8869 #endif
8870
8871 void
8872 Perl_regdump(pTHX_ const regexp *r)
8873 {
8874 #ifdef DEBUGGING
8875     dVAR;
8876     SV * const sv = sv_newmortal();
8877     SV *dsv= sv_newmortal();
8878     RXi_GET_DECL(r,ri);
8879     GET_RE_DEBUG_FLAGS_DECL;
8880
8881     PERL_ARGS_ASSERT_REGDUMP;
8882
8883     (void)dumpuntil(r, ri->program, ri->program + 1, NULL, NULL, sv, 0, 0);
8884
8885     /* Header fields of interest. */
8886     if (r->anchored_substr) {
8887         RE_PV_QUOTED_DECL(s, 0, dsv, SvPVX_const(r->anchored_substr), 
8888             RE_SV_DUMPLEN(r->anchored_substr), 30);
8889         PerlIO_printf(Perl_debug_log,
8890                       "anchored %s%s at %"IVdf" ",
8891                       s, RE_SV_TAIL(r->anchored_substr),
8892                       (IV)r->anchored_offset);
8893     } else if (r->anchored_utf8) {
8894         RE_PV_QUOTED_DECL(s, 1, dsv, SvPVX_const(r->anchored_utf8), 
8895             RE_SV_DUMPLEN(r->anchored_utf8), 30);
8896         PerlIO_printf(Perl_debug_log,
8897                       "anchored utf8 %s%s at %"IVdf" ",
8898                       s, RE_SV_TAIL(r->anchored_utf8),
8899                       (IV)r->anchored_offset);
8900     }                 
8901     if (r->float_substr) {
8902         RE_PV_QUOTED_DECL(s, 0, dsv, SvPVX_const(r->float_substr), 
8903             RE_SV_DUMPLEN(r->float_substr), 30);
8904         PerlIO_printf(Perl_debug_log,
8905                       "floating %s%s at %"IVdf"..%"UVuf" ",
8906                       s, RE_SV_TAIL(r->float_substr),
8907                       (IV)r->float_min_offset, (UV)r->float_max_offset);
8908     } else if (r->float_utf8) {
8909         RE_PV_QUOTED_DECL(s, 1, dsv, SvPVX_const(r->float_utf8), 
8910             RE_SV_DUMPLEN(r->float_utf8), 30);
8911         PerlIO_printf(Perl_debug_log,
8912                       "floating utf8 %s%s at %"IVdf"..%"UVuf" ",
8913                       s, RE_SV_TAIL(r->float_utf8),
8914                       (IV)r->float_min_offset, (UV)r->float_max_offset);
8915     }
8916     if (r->check_substr || r->check_utf8)
8917         PerlIO_printf(Perl_debug_log,
8918                       (const char *)
8919                       (r->check_substr == r->float_substr
8920                        && r->check_utf8 == r->float_utf8
8921                        ? "(checking floating" : "(checking anchored"));
8922     if (r->extflags & RXf_NOSCAN)
8923         PerlIO_printf(Perl_debug_log, " noscan");
8924     if (r->extflags & RXf_CHECK_ALL)
8925         PerlIO_printf(Perl_debug_log, " isall");
8926     if (r->check_substr || r->check_utf8)
8927         PerlIO_printf(Perl_debug_log, ") ");
8928
8929     if (ri->regstclass) {
8930         regprop(r, sv, ri->regstclass);
8931         PerlIO_printf(Perl_debug_log, "stclass %s ", SvPVX_const(sv));
8932     }
8933     if (r->extflags & RXf_ANCH) {
8934         PerlIO_printf(Perl_debug_log, "anchored");
8935         if (r->extflags & RXf_ANCH_BOL)
8936             PerlIO_printf(Perl_debug_log, "(BOL)");
8937         if (r->extflags & RXf_ANCH_MBOL)
8938             PerlIO_printf(Perl_debug_log, "(MBOL)");
8939         if (r->extflags & RXf_ANCH_SBOL)
8940             PerlIO_printf(Perl_debug_log, "(SBOL)");
8941         if (r->extflags & RXf_ANCH_GPOS)
8942             PerlIO_printf(Perl_debug_log, "(GPOS)");
8943         PerlIO_putc(Perl_debug_log, ' ');
8944     }
8945     if (r->extflags & RXf_GPOS_SEEN)
8946         PerlIO_printf(Perl_debug_log, "GPOS:%"UVuf" ", (UV)r->gofs);
8947     if (r->intflags & PREGf_SKIP)
8948         PerlIO_printf(Perl_debug_log, "plus ");
8949     if (r->intflags & PREGf_IMPLICIT)
8950         PerlIO_printf(Perl_debug_log, "implicit ");
8951     PerlIO_printf(Perl_debug_log, "minlen %"IVdf" ", (IV)r->minlen);
8952     if (r->extflags & RXf_EVAL_SEEN)
8953         PerlIO_printf(Perl_debug_log, "with eval ");
8954     PerlIO_printf(Perl_debug_log, "\n");
8955     DEBUG_FLAGS_r(regdump_extflags("r->extflags: ",r->extflags));            
8956 #else
8957     PERL_ARGS_ASSERT_REGDUMP;
8958     PERL_UNUSED_CONTEXT;
8959     PERL_UNUSED_ARG(r);
8960 #endif  /* DEBUGGING */
8961 }
8962
8963 /*
8964 - regprop - printable representation of opcode
8965 */
8966 void
8967 Perl_regprop(pTHX_ const regexp *prog, SV *sv, const regnode *o)
8968 {
8969 #ifdef DEBUGGING
8970     dVAR;
8971     register int k;
8972     RXi_GET_DECL(prog,progi);
8973     GET_RE_DEBUG_FLAGS_DECL;
8974     
8975     PERL_ARGS_ASSERT_REGPROP;
8976
8977     sv_setpvn(sv, "", 0);
8978
8979     if (OP(o) > REGNODE_MAX)            /* regnode.type is unsigned */
8980         /* It would be nice to FAIL() here, but this may be called from
8981            regexec.c, and it would be hard to supply pRExC_state. */
8982         Perl_croak(aTHX_ "Corrupted regexp opcode %d > %d", (int)OP(o), (int)REGNODE_MAX);
8983     sv_catpv(sv, PL_reg_name[OP(o)]); /* Take off const! */
8984
8985     k = PL_regkind[OP(o)];
8986
8987     if (k == EXACT) {
8988         sv_catpvs(sv, " ");
8989         /* Using is_utf8_string() (via PERL_PV_UNI_DETECT) 
8990          * is a crude hack but it may be the best for now since 
8991          * we have no flag "this EXACTish node was UTF-8" 
8992          * --jhi */
8993         pv_pretty(sv, STRING(o), STR_LEN(o), 60, PL_colors[0], PL_colors[1],
8994                   PERL_PV_ESCAPE_UNI_DETECT |
8995                   PERL_PV_PRETTY_ELLIPSES   |
8996                   PERL_PV_PRETTY_LTGT       |
8997                   PERL_PV_PRETTY_NOCLEAR
8998                   );
8999     } else if (k == TRIE) {
9000         /* print the details of the trie in dumpuntil instead, as
9001          * progi->data isn't available here */
9002         const char op = OP(o);
9003         const U32 n = ARG(o);
9004         const reg_ac_data * const ac = IS_TRIE_AC(op) ?
9005                (reg_ac_data *)progi->data->data[n] :
9006                NULL;
9007         const reg_trie_data * const trie
9008             = (reg_trie_data*)progi->data->data[!IS_TRIE_AC(op) ? n : ac->trie];
9009         
9010         Perl_sv_catpvf(aTHX_ sv, "-%s",PL_reg_name[o->flags]);
9011         DEBUG_TRIE_COMPILE_r(
9012             Perl_sv_catpvf(aTHX_ sv,
9013                 "<S:%"UVuf"/%"IVdf" W:%"UVuf" L:%"UVuf"/%"UVuf" C:%"UVuf"/%"UVuf">",
9014                 (UV)trie->startstate,
9015                 (IV)trie->statecount-1, /* -1 because of the unused 0 element */
9016                 (UV)trie->wordcount,
9017                 (UV)trie->minlen,
9018                 (UV)trie->maxlen,
9019                 (UV)TRIE_CHARCOUNT(trie),
9020                 (UV)trie->uniquecharcount
9021             )
9022         );
9023         if ( IS_ANYOF_TRIE(op) || trie->bitmap ) {
9024             int i;
9025             int rangestart = -1;
9026             U8* bitmap = IS_ANYOF_TRIE(op) ? (U8*)ANYOF_BITMAP(o) : (U8*)TRIE_BITMAP(trie);
9027             sv_catpvs(sv, "[");
9028             for (i = 0; i <= 256; i++) {
9029                 if (i < 256 && BITMAP_TEST(bitmap,i)) {
9030                     if (rangestart == -1)
9031                         rangestart = i;
9032                 } else if (rangestart != -1) {
9033                     if (i <= rangestart + 3)
9034                         for (; rangestart < i; rangestart++)
9035                             put_byte(sv, rangestart);
9036                     else {
9037                         put_byte(sv, rangestart);
9038                         sv_catpvs(sv, "-");
9039                         put_byte(sv, i - 1);
9040                     }
9041                     rangestart = -1;
9042                 }
9043             }
9044             sv_catpvs(sv, "]");
9045         } 
9046          
9047     } else if (k == CURLY) {
9048         if (OP(o) == CURLYM || OP(o) == CURLYN || OP(o) == CURLYX)
9049             Perl_sv_catpvf(aTHX_ sv, "[%d]", o->flags); /* Parenth number */
9050         Perl_sv_catpvf(aTHX_ sv, " {%d,%d}", ARG1(o), ARG2(o));
9051     }
9052     else if (k == WHILEM && o->flags)                   /* Ordinal/of */
9053         Perl_sv_catpvf(aTHX_ sv, "[%d/%d]", o->flags & 0xf, o->flags>>4);
9054     else if (k == REF || k == OPEN || k == CLOSE || k == GROUPP || OP(o)==ACCEPT) {
9055         Perl_sv_catpvf(aTHX_ sv, "%d", (int)ARG(o));    /* Parenth number */
9056         if ( RXp_PAREN_NAMES(prog) ) {
9057             if ( k != REF || OP(o) < NREF) {        
9058                 AV *list= (AV *)progi->data->data[progi->name_list_idx];
9059                 SV **name= av_fetch(list, ARG(o), 0 );
9060                 if (name)
9061                     Perl_sv_catpvf(aTHX_ sv, " '%"SVf"'", SVfARG(*name));
9062             }       
9063             else {
9064                 AV *list= (AV *)progi->data->data[ progi->name_list_idx ];
9065                 SV *sv_dat=(SV*)progi->data->data[ ARG( o ) ];
9066                 I32 *nums=(I32*)SvPVX(sv_dat);
9067                 SV **name= av_fetch(list, nums[0], 0 );
9068                 I32 n;
9069                 if (name) {
9070                     for ( n=0; n<SvIVX(sv_dat); n++ ) {
9071                         Perl_sv_catpvf(aTHX_ sv, "%s%"IVdf,
9072                                     (n ? "," : ""), (IV)nums[n]);
9073                     }
9074                     Perl_sv_catpvf(aTHX_ sv, " '%"SVf"'", SVfARG(*name));
9075                 }
9076             }
9077         }            
9078     } else if (k == GOSUB) 
9079         Perl_sv_catpvf(aTHX_ sv, "%d[%+d]", (int)ARG(o),(int)ARG2L(o)); /* Paren and offset */
9080     else if (k == VERB) {
9081         if (!o->flags) 
9082             Perl_sv_catpvf(aTHX_ sv, ":%"SVf, 
9083                 SVfARG((SV*)progi->data->data[ ARG( o ) ]));
9084     } else if (k == LOGICAL)
9085         Perl_sv_catpvf(aTHX_ sv, "[%d]", o->flags);     /* 2: embedded, otherwise 1 */
9086     else if (k == FOLDCHAR)
9087         Perl_sv_catpvf(aTHX_ sv, "[0x%"UVXf"]", PTR2UV(ARG(o)) );
9088     else if (k == ANYOF) {
9089         int i, rangestart = -1;
9090         const U8 flags = ANYOF_FLAGS(o);
9091
9092         /* Should be synchronized with * ANYOF_ #xdefines in regcomp.h */
9093         static const char * const anyofs[] = {
9094             "\\w",
9095             "\\W",
9096             "\\s",
9097             "\\S",
9098             "\\d",
9099             "\\D",
9100             "[:alnum:]",
9101             "[:^alnum:]",
9102             "[:alpha:]",
9103             "[:^alpha:]",
9104             "[:ascii:]",
9105             "[:^ascii:]",
9106             "[:ctrl:]",
9107             "[:^ctrl:]",
9108             "[:graph:]",
9109             "[:^graph:]",
9110             "[:lower:]",
9111             "[:^lower:]",
9112             "[:print:]",
9113             "[:^print:]",
9114             "[:punct:]",
9115             "[:^punct:]",
9116             "[:upper:]",
9117             "[:^upper:]",
9118             "[:xdigit:]",
9119             "[:^xdigit:]",
9120             "[:space:]",
9121             "[:^space:]",
9122             "[:blank:]",
9123             "[:^blank:]"
9124         };
9125
9126         if (flags & ANYOF_LOCALE)
9127             sv_catpvs(sv, "{loc}");
9128         if (flags & ANYOF_FOLD)
9129             sv_catpvs(sv, "{i}");
9130         Perl_sv_catpvf(aTHX_ sv, "[%s", PL_colors[0]);
9131         if (flags & ANYOF_INVERT)
9132             sv_catpvs(sv, "^");
9133         for (i = 0; i <= 256; i++) {
9134             if (i < 256 && ANYOF_BITMAP_TEST(o,i)) {
9135                 if (rangestart == -1)
9136                     rangestart = i;
9137             } else if (rangestart != -1) {
9138                 if (i <= rangestart + 3)
9139                     for (; rangestart < i; rangestart++)
9140                         put_byte(sv, rangestart);
9141                 else {
9142                     put_byte(sv, rangestart);
9143                     sv_catpvs(sv, "-");
9144                     put_byte(sv, i - 1);
9145                 }
9146                 rangestart = -1;
9147             }
9148         }
9149
9150         if (o->flags & ANYOF_CLASS)
9151             for (i = 0; i < (int)(sizeof(anyofs)/sizeof(char*)); i++)
9152                 if (ANYOF_CLASS_TEST(o,i))
9153                     sv_catpv(sv, anyofs[i]);
9154
9155         if (flags & ANYOF_UNICODE)
9156             sv_catpvs(sv, "{unicode}");
9157         else if (flags & ANYOF_UNICODE_ALL)
9158             sv_catpvs(sv, "{unicode_all}");
9159
9160         {
9161             SV *lv;
9162             SV * const sw = regclass_swash(prog, o, FALSE, &lv, 0);
9163         
9164             if (lv) {
9165                 if (sw) {
9166                     U8 s[UTF8_MAXBYTES_CASE+1];
9167                 
9168                     for (i = 0; i <= 256; i++) { /* just the first 256 */
9169                         uvchr_to_utf8(s, i);
9170                         
9171                         if (i < 256 && swash_fetch(sw, s, TRUE)) {
9172                             if (rangestart == -1)
9173                                 rangestart = i;
9174                         } else if (rangestart != -1) {
9175                             if (i <= rangestart + 3)
9176                                 for (; rangestart < i; rangestart++) {
9177                                     const U8 * const e = uvchr_to_utf8(s,rangestart);
9178                                     U8 *p;
9179                                     for(p = s; p < e; p++)
9180                                         put_byte(sv, *p);
9181                                 }
9182                             else {
9183                                 const U8 *e = uvchr_to_utf8(s,rangestart);
9184                                 U8 *p;
9185                                 for (p = s; p < e; p++)
9186                                     put_byte(sv, *p);
9187                                 sv_catpvs(sv, "-");
9188                                 e = uvchr_to_utf8(s, i-1);
9189                                 for (p = s; p < e; p++)
9190                                     put_byte(sv, *p);
9191                                 }
9192                                 rangestart = -1;
9193                             }
9194                         }
9195                         
9196                     sv_catpvs(sv, "..."); /* et cetera */
9197                 }
9198
9199                 {
9200                     char *s = savesvpv(lv);
9201                     char * const origs = s;
9202                 
9203                     while (*s && *s != '\n')
9204                         s++;
9205                 
9206                     if (*s == '\n') {
9207                         const char * const t = ++s;
9208                         
9209                         while (*s) {
9210                             if (*s == '\n')
9211                                 *s = ' ';
9212                             s++;
9213                         }
9214                         if (s[-1] == ' ')
9215                             s[-1] = 0;
9216                         
9217                         sv_catpv(sv, t);
9218                     }
9219                 
9220                     Safefree(origs);
9221                 }
9222             }
9223         }
9224
9225         Perl_sv_catpvf(aTHX_ sv, "%s]", PL_colors[1]);
9226     }
9227     else if (k == BRANCHJ && (OP(o) == UNLESSM || OP(o) == IFMATCH))
9228         Perl_sv_catpvf(aTHX_ sv, "[%d]", -(o->flags));
9229 #else
9230     PERL_UNUSED_CONTEXT;
9231     PERL_UNUSED_ARG(sv);
9232     PERL_UNUSED_ARG(o);
9233     PERL_UNUSED_ARG(prog);
9234 #endif  /* DEBUGGING */
9235 }
9236
9237 SV *
9238 Perl_re_intuit_string(pTHX_ REGEXP * const r)
9239 {                               /* Assume that RE_INTUIT is set */
9240     dVAR;
9241     struct regexp *const prog = (struct regexp *)SvANY(r);
9242     GET_RE_DEBUG_FLAGS_DECL;
9243
9244     PERL_ARGS_ASSERT_RE_INTUIT_STRING;
9245     PERL_UNUSED_CONTEXT;
9246
9247     DEBUG_COMPILE_r(
9248         {
9249             const char * const s = SvPV_nolen_const(prog->check_substr
9250                       ? prog->check_substr : prog->check_utf8);
9251
9252             if (!PL_colorset) reginitcolors();
9253             PerlIO_printf(Perl_debug_log,
9254                       "%sUsing REx %ssubstr:%s \"%s%.60s%s%s\"\n",
9255                       PL_colors[4],
9256                       prog->check_substr ? "" : "utf8 ",
9257                       PL_colors[5],PL_colors[0],
9258                       s,
9259                       PL_colors[1],
9260                       (strlen(s) > 60 ? "..." : ""));
9261         } );
9262
9263     return prog->check_substr ? prog->check_substr : prog->check_utf8;
9264 }
9265
9266 /* 
9267    pregfree() 
9268    
9269    handles refcounting and freeing the perl core regexp structure. When 
9270    it is necessary to actually free the structure the first thing it 
9271    does is call the 'free' method of the regexp_engine associated to to 
9272    the regexp, allowing the handling of the void *pprivate; member 
9273    first. (This routine is not overridable by extensions, which is why 
9274    the extensions free is called first.)
9275    
9276    See regdupe and regdupe_internal if you change anything here. 
9277 */
9278 #ifndef PERL_IN_XSUB_RE
9279 void
9280 Perl_pregfree(pTHX_ REGEXP *r)
9281 {
9282     SvREFCNT_dec(r);
9283 }
9284
9285 void
9286 Perl_pregfree2(pTHX_ REGEXP *rx)
9287 {
9288     dVAR;
9289     struct regexp *const r = (struct regexp *)SvANY(rx);
9290     GET_RE_DEBUG_FLAGS_DECL;
9291
9292     PERL_ARGS_ASSERT_PREGFREE2;
9293
9294     if (r->mother_re) {
9295         ReREFCNT_dec(r->mother_re);
9296     } else {
9297         CALLREGFREE_PVT(rx); /* free the private data */
9298         if (RXp_PAREN_NAMES(r))
9299             SvREFCNT_dec(RXp_PAREN_NAMES(r));
9300     }        
9301     if (r->substrs) {
9302         if (r->anchored_substr)
9303             SvREFCNT_dec(r->anchored_substr);
9304         if (r->anchored_utf8)
9305             SvREFCNT_dec(r->anchored_utf8);
9306         if (r->float_substr)
9307             SvREFCNT_dec(r->float_substr);
9308         if (r->float_utf8)
9309             SvREFCNT_dec(r->float_utf8);
9310         Safefree(r->substrs);
9311     }
9312     RX_MATCH_COPY_FREE(rx);
9313 #ifdef PERL_OLD_COPY_ON_WRITE
9314     if (r->saved_copy)
9315         SvREFCNT_dec(r->saved_copy);
9316 #endif
9317     Safefree(r->swap);
9318     Safefree(r->offs);
9319 }
9320
9321 /*  reg_temp_copy()
9322     
9323     This is a hacky workaround to the structural issue of match results
9324     being stored in the regexp structure which is in turn stored in
9325     PL_curpm/PL_reg_curpm. The problem is that due to qr// the pattern
9326     could be PL_curpm in multiple contexts, and could require multiple
9327     result sets being associated with the pattern simultaneously, such
9328     as when doing a recursive match with (??{$qr})
9329     
9330     The solution is to make a lightweight copy of the regexp structure 
9331     when a qr// is returned from the code executed by (??{$qr}) this
9332     lightweight copy doesnt actually own any of its data except for
9333     the starp/end and the actual regexp structure itself. 
9334     
9335 */    
9336     
9337     
9338 REGEXP *
9339 Perl_reg_temp_copy (pTHX_ REGEXP *rx)
9340 {
9341     REGEXP *ret_x = (REGEXP*) newSV_type(SVt_REGEXP);
9342     struct regexp *ret = (struct regexp *)SvANY(ret_x);
9343     struct regexp *const r = (struct regexp *)SvANY(rx);
9344     register const I32 npar = r->nparens+1;
9345
9346     PERL_ARGS_ASSERT_REG_TEMP_COPY;
9347
9348     (void)ReREFCNT_inc(rx);
9349     /* We can take advantage of the existing "copied buffer" mechanism in SVs
9350        by pointing directly at the buffer, but flagging that the allocated
9351        space in the copy is zero. As we've just done a struct copy, it's now
9352        a case of zero-ing that, rather than copying the current length.  */
9353     SvPV_set(ret_x, RX_WRAPPED(rx));
9354     SvFLAGS(ret_x) |= SvFLAGS(rx) & (SVf_POK|SVp_POK|SVf_UTF8);
9355     StructCopy(&(r->xpv_cur), &(ret->xpv_cur), struct regexp_allocated);
9356     SvLEN_set(ret_x, 0);
9357     Newx(ret->offs, npar, regexp_paren_pair);
9358     Copy(r->offs, ret->offs, npar, regexp_paren_pair);
9359     if (r->substrs) {
9360         Newx(ret->substrs, 1, struct reg_substr_data);
9361         StructCopy(r->substrs, ret->substrs, struct reg_substr_data);
9362
9363         SvREFCNT_inc_void(ret->anchored_substr);
9364         SvREFCNT_inc_void(ret->anchored_utf8);
9365         SvREFCNT_inc_void(ret->float_substr);
9366         SvREFCNT_inc_void(ret->float_utf8);
9367
9368         /* check_substr and check_utf8, if non-NULL, point to either their
9369            anchored or float namesakes, and don't hold a second reference.  */
9370     }
9371     RX_MATCH_COPIED_off(ret_x);
9372 #ifdef PERL_OLD_COPY_ON_WRITE
9373     ret->saved_copy = NULL;
9374 #endif
9375     ret->mother_re = rx;
9376     ret->swap = NULL;
9377     
9378     return ret_x;
9379 }
9380 #endif
9381
9382 /* regfree_internal() 
9383
9384    Free the private data in a regexp. This is overloadable by 
9385    extensions. Perl takes care of the regexp structure in pregfree(), 
9386    this covers the *pprivate pointer which technically perldoesnt 
9387    know about, however of course we have to handle the 
9388    regexp_internal structure when no extension is in use. 
9389    
9390    Note this is called before freeing anything in the regexp 
9391    structure. 
9392  */
9393  
9394 void
9395 Perl_regfree_internal(pTHX_ REGEXP * const rx)
9396 {
9397     dVAR;
9398     struct regexp *const r = (struct regexp *)SvANY(rx);
9399     RXi_GET_DECL(r,ri);
9400     GET_RE_DEBUG_FLAGS_DECL;
9401
9402     PERL_ARGS_ASSERT_REGFREE_INTERNAL;
9403
9404     DEBUG_COMPILE_r({
9405         if (!PL_colorset)
9406             reginitcolors();
9407         {
9408             SV *dsv= sv_newmortal();
9409             RE_PV_QUOTED_DECL(s, RX_UTF8(rx),
9410                 dsv, RX_PRECOMP(rx), RX_PRELEN(rx), 60);
9411             PerlIO_printf(Perl_debug_log,"%sFreeing REx:%s %s\n", 
9412                 PL_colors[4],PL_colors[5],s);
9413         }
9414     });
9415 #ifdef RE_TRACK_PATTERN_OFFSETS
9416     if (ri->u.offsets)
9417         Safefree(ri->u.offsets);             /* 20010421 MJD */
9418 #endif
9419     if (ri->data) {
9420         int n = ri->data->count;
9421         PAD* new_comppad = NULL;
9422         PAD* old_comppad;
9423         PADOFFSET refcnt;
9424
9425         while (--n >= 0) {
9426           /* If you add a ->what type here, update the comment in regcomp.h */
9427             switch (ri->data->what[n]) {
9428             case 's':
9429             case 'S':
9430             case 'u':
9431                 SvREFCNT_dec((SV*)ri->data->data[n]);
9432                 break;
9433             case 'f':
9434                 Safefree(ri->data->data[n]);
9435                 break;
9436             case 'p':
9437                 new_comppad = (AV*)ri->data->data[n];
9438                 break;
9439             case 'o':
9440                 if (new_comppad == NULL)
9441                     Perl_croak(aTHX_ "panic: pregfree comppad");
9442                 PAD_SAVE_LOCAL(old_comppad,
9443                     /* Watch out for global destruction's random ordering. */
9444                     (SvTYPE(new_comppad) == SVt_PVAV) ? new_comppad : NULL
9445                 );
9446                 OP_REFCNT_LOCK;
9447                 refcnt = OpREFCNT_dec((OP_4tree*)ri->data->data[n]);
9448                 OP_REFCNT_UNLOCK;
9449                 if (!refcnt)
9450                     op_free((OP_4tree*)ri->data->data[n]);
9451
9452                 PAD_RESTORE_LOCAL(old_comppad);
9453                 SvREFCNT_dec((SV*)new_comppad);
9454                 new_comppad = NULL;
9455                 break;
9456             case 'n':
9457                 break;
9458             case 'T':           
9459                 { /* Aho Corasick add-on structure for a trie node.
9460                      Used in stclass optimization only */
9461                     U32 refcount;
9462                     reg_ac_data *aho=(reg_ac_data*)ri->data->data[n];
9463                     OP_REFCNT_LOCK;
9464                     refcount = --aho->refcount;
9465                     OP_REFCNT_UNLOCK;
9466                     if ( !refcount ) {
9467                         PerlMemShared_free(aho->states);
9468                         PerlMemShared_free(aho->fail);
9469                          /* do this last!!!! */
9470                         PerlMemShared_free(ri->data->data[n]);
9471                         PerlMemShared_free(ri->regstclass);
9472                     }
9473                 }
9474                 break;
9475             case 't':
9476                 {
9477                     /* trie structure. */
9478                     U32 refcount;
9479                     reg_trie_data *trie=(reg_trie_data*)ri->data->data[n];
9480                     OP_REFCNT_LOCK;
9481                     refcount = --trie->refcount;
9482                     OP_REFCNT_UNLOCK;
9483                     if ( !refcount ) {
9484                         PerlMemShared_free(trie->charmap);
9485                         PerlMemShared_free(trie->states);
9486                         PerlMemShared_free(trie->trans);
9487                         if (trie->bitmap)
9488                             PerlMemShared_free(trie->bitmap);
9489                         if (trie->wordlen)
9490                             PerlMemShared_free(trie->wordlen);
9491                         if (trie->jump)
9492                             PerlMemShared_free(trie->jump);
9493                         if (trie->nextword)
9494                             PerlMemShared_free(trie->nextword);
9495                         /* do this last!!!! */
9496                         PerlMemShared_free(ri->data->data[n]);
9497                     }
9498                 }
9499                 break;
9500             default:
9501                 Perl_croak(aTHX_ "panic: regfree data code '%c'", ri->data->what[n]);
9502             }
9503         }
9504         Safefree(ri->data->what);
9505         Safefree(ri->data);
9506     }
9507
9508     Safefree(ri);
9509 }
9510
9511 #define sv_dup_inc(s,t) SvREFCNT_inc(sv_dup(s,t))
9512 #define av_dup_inc(s,t) (AV*)SvREFCNT_inc(sv_dup((SV*)s,t))
9513 #define hv_dup_inc(s,t) (HV*)SvREFCNT_inc(sv_dup((SV*)s,t))
9514 #define SAVEPVN(p,n)    ((p) ? savepvn(p,n) : NULL)
9515
9516 /* 
9517    re_dup - duplicate a regexp. 
9518    
9519    This routine is expected to clone a given regexp structure. It is only
9520    compiled under USE_ITHREADS.
9521
9522    After all of the core data stored in struct regexp is duplicated
9523    the regexp_engine.dupe method is used to copy any private data
9524    stored in the *pprivate pointer. This allows extensions to handle
9525    any duplication it needs to do.
9526
9527    See pregfree() and regfree_internal() if you change anything here. 
9528 */
9529 #if defined(USE_ITHREADS)
9530 #ifndef PERL_IN_XSUB_RE
9531 void
9532 Perl_re_dup_guts(pTHX_ const REGEXP *sstr, REGEXP *dstr, CLONE_PARAMS *param)
9533 {
9534     dVAR;
9535     I32 npar;
9536     const struct regexp *r = (const struct regexp *)SvANY(sstr);
9537     struct regexp *ret = (struct regexp *)SvANY(dstr);
9538     
9539     PERL_ARGS_ASSERT_RE_DUP_GUTS;
9540
9541     npar = r->nparens+1;
9542     Newx(ret->offs, npar, regexp_paren_pair);
9543     Copy(r->offs, ret->offs, npar, regexp_paren_pair);
9544     if(ret->swap) {
9545         /* no need to copy these */
9546         Newx(ret->swap, npar, regexp_paren_pair);
9547     }
9548
9549     if (ret->substrs) {
9550         /* Do it this way to avoid reading from *r after the StructCopy().
9551            That way, if any of the sv_dup_inc()s dislodge *r from the L1
9552            cache, it doesn't matter.  */
9553         const bool anchored = r->check_substr
9554             ? r->check_substr == r->anchored_substr
9555             : r->check_utf8 == r->anchored_utf8;
9556         Newx(ret->substrs, 1, struct reg_substr_data);
9557         StructCopy(r->substrs, ret->substrs, struct reg_substr_data);
9558
9559         ret->anchored_substr = sv_dup_inc(ret->anchored_substr, param);
9560         ret->anchored_utf8 = sv_dup_inc(ret->anchored_utf8, param);
9561         ret->float_substr = sv_dup_inc(ret->float_substr, param);
9562         ret->float_utf8 = sv_dup_inc(ret->float_utf8, param);
9563
9564         /* check_substr and check_utf8, if non-NULL, point to either their
9565            anchored or float namesakes, and don't hold a second reference.  */
9566
9567         if (ret->check_substr) {
9568             if (anchored) {
9569                 assert(r->check_utf8 == r->anchored_utf8);
9570                 ret->check_substr = ret->anchored_substr;
9571                 ret->check_utf8 = ret->anchored_utf8;
9572             } else {
9573                 assert(r->check_substr == r->float_substr);
9574                 assert(r->check_utf8 == r->float_utf8);
9575                 ret->check_substr = ret->float_substr;
9576                 ret->check_utf8 = ret->float_utf8;
9577             }
9578         } else if (ret->check_utf8) {
9579             if (anchored) {
9580                 ret->check_utf8 = ret->anchored_utf8;
9581             } else {
9582                 ret->check_utf8 = ret->float_utf8;
9583             }
9584         }
9585     }
9586
9587     RXp_PAREN_NAMES(ret) = hv_dup_inc(RXp_PAREN_NAMES(ret), param);
9588
9589     if (ret->pprivate)
9590         RXi_SET(ret,CALLREGDUPE_PVT(dstr,param));
9591
9592     if (RX_MATCH_COPIED(dstr))
9593         ret->subbeg  = SAVEPVN(ret->subbeg, ret->sublen);
9594     else
9595         ret->subbeg = NULL;
9596 #ifdef PERL_OLD_COPY_ON_WRITE
9597     ret->saved_copy = NULL;
9598 #endif
9599
9600     ret->mother_re      = NULL;
9601     ret->gofs = 0;
9602 }
9603 #endif /* PERL_IN_XSUB_RE */
9604
9605 /*
9606    regdupe_internal()
9607    
9608    This is the internal complement to regdupe() which is used to copy
9609    the structure pointed to by the *pprivate pointer in the regexp.
9610    This is the core version of the extension overridable cloning hook.
9611    The regexp structure being duplicated will be copied by perl prior
9612    to this and will be provided as the regexp *r argument, however 
9613    with the /old/ structures pprivate pointer value. Thus this routine
9614    may override any copying normally done by perl.
9615    
9616    It returns a pointer to the new regexp_internal structure.
9617 */
9618
9619 void *
9620 Perl_regdupe_internal(pTHX_ REGEXP * const rx, CLONE_PARAMS *param)
9621 {
9622     dVAR;
9623     struct regexp *const r = (struct regexp *)SvANY(rx);
9624     regexp_internal *reti;
9625     int len, npar;
9626     RXi_GET_DECL(r,ri);
9627
9628     PERL_ARGS_ASSERT_REGDUPE_INTERNAL;
9629     
9630     npar = r->nparens+1;
9631     len = ProgLen(ri);
9632     
9633     Newxc(reti, sizeof(regexp_internal) + (len+1)*sizeof(regnode), char, regexp_internal);
9634     Copy(ri->program, reti->program, len+1, regnode);
9635     
9636
9637     reti->regstclass = NULL;
9638
9639     if (ri->data) {
9640         struct reg_data *d;
9641         const int count = ri->data->count;
9642         int i;
9643
9644         Newxc(d, sizeof(struct reg_data) + count*sizeof(void *),
9645                 char, struct reg_data);
9646         Newx(d->what, count, U8);
9647
9648         d->count = count;
9649         for (i = 0; i < count; i++) {
9650             d->what[i] = ri->data->what[i];
9651             switch (d->what[i]) {
9652                 /* legal options are one of: sSfpontTu
9653                    see also regcomp.h and pregfree() */
9654             case 's':
9655             case 'S':
9656             case 'p': /* actually an AV, but the dup function is identical.  */
9657             case 'u': /* actually an HV, but the dup function is identical.  */
9658                 d->data[i] = sv_dup_inc((SV *)ri->data->data[i], param);
9659                 break;
9660             case 'f':
9661                 /* This is cheating. */
9662                 Newx(d->data[i], 1, struct regnode_charclass_class);
9663                 StructCopy(ri->data->data[i], d->data[i],
9664                             struct regnode_charclass_class);
9665                 reti->regstclass = (regnode*)d->data[i];
9666                 break;
9667             case 'o':
9668                 /* Compiled op trees are readonly and in shared memory,
9669                    and can thus be shared without duplication. */
9670                 OP_REFCNT_LOCK;
9671                 d->data[i] = (void*)OpREFCNT_inc((OP*)ri->data->data[i]);
9672                 OP_REFCNT_UNLOCK;
9673                 break;
9674             case 'T':
9675                 /* Trie stclasses are readonly and can thus be shared
9676                  * without duplication. We free the stclass in pregfree
9677                  * when the corresponding reg_ac_data struct is freed.
9678                  */
9679                 reti->regstclass= ri->regstclass;
9680                 /* Fall through */
9681             case 't':
9682                 OP_REFCNT_LOCK;
9683                 ((reg_trie_data*)ri->data->data[i])->refcount++;
9684                 OP_REFCNT_UNLOCK;
9685                 /* Fall through */
9686             case 'n':
9687                 d->data[i] = ri->data->data[i];
9688                 break;
9689             default:
9690                 Perl_croak(aTHX_ "panic: re_dup unknown data code '%c'", ri->data->what[i]);
9691             }
9692         }
9693
9694         reti->data = d;
9695     }
9696     else
9697         reti->data = NULL;
9698
9699     reti->name_list_idx = ri->name_list_idx;
9700
9701 #ifdef RE_TRACK_PATTERN_OFFSETS
9702     if (ri->u.offsets) {
9703         Newx(reti->u.offsets, 2*len+1, U32);
9704         Copy(ri->u.offsets, reti->u.offsets, 2*len+1, U32);
9705     }
9706 #else
9707     SetProgLen(reti,len);
9708 #endif
9709
9710     return (void*)reti;
9711 }
9712
9713 #endif    /* USE_ITHREADS */
9714
9715 #ifndef PERL_IN_XSUB_RE
9716
9717 /*
9718  - regnext - dig the "next" pointer out of a node
9719  */
9720 regnode *
9721 Perl_regnext(pTHX_ register regnode *p)
9722 {
9723     dVAR;
9724     register I32 offset;
9725
9726     if (!p)
9727         return(NULL);
9728
9729     offset = (reg_off_by_arg[OP(p)] ? ARG(p) : NEXT_OFF(p));
9730     if (offset == 0)
9731         return(NULL);
9732
9733     return(p+offset);
9734 }
9735 #endif
9736
9737 STATIC void     
9738 S_re_croak2(pTHX_ const char* pat1,const char* pat2,...)
9739 {
9740     va_list args;
9741     STRLEN l1 = strlen(pat1);
9742     STRLEN l2 = strlen(pat2);
9743     char buf[512];
9744     SV *msv;
9745     const char *message;
9746
9747     PERL_ARGS_ASSERT_RE_CROAK2;
9748
9749     if (l1 > 510)
9750         l1 = 510;
9751     if (l1 + l2 > 510)
9752         l2 = 510 - l1;
9753     Copy(pat1, buf, l1 , char);
9754     Copy(pat2, buf + l1, l2 , char);
9755     buf[l1 + l2] = '\n';
9756     buf[l1 + l2 + 1] = '\0';
9757 #ifdef I_STDARG
9758     /* ANSI variant takes additional second argument */
9759     va_start(args, pat2);
9760 #else
9761     va_start(args);
9762 #endif
9763     msv = vmess(buf, &args);
9764     va_end(args);
9765     message = SvPV_const(msv,l1);
9766     if (l1 > 512)
9767         l1 = 512;
9768     Copy(message, buf, l1 , char);
9769     buf[l1-1] = '\0';                   /* Overwrite \n */
9770     Perl_croak(aTHX_ "%s", buf);
9771 }
9772
9773 /* XXX Here's a total kludge.  But we need to re-enter for swash routines. */
9774
9775 #ifndef PERL_IN_XSUB_RE
9776 void
9777 Perl_save_re_context(pTHX)
9778 {
9779     dVAR;
9780
9781     struct re_save_state *state;
9782
9783     SAVEVPTR(PL_curcop);
9784     SSGROW(SAVESTACK_ALLOC_FOR_RE_SAVE_STATE + 1);
9785
9786     state = (struct re_save_state *)(PL_savestack + PL_savestack_ix);
9787     PL_savestack_ix += SAVESTACK_ALLOC_FOR_RE_SAVE_STATE;
9788     SSPUSHINT(SAVEt_RE_STATE);
9789
9790     Copy(&PL_reg_state, state, 1, struct re_save_state);
9791
9792     PL_reg_start_tmp = 0;
9793     PL_reg_start_tmpl = 0;
9794     PL_reg_oldsaved = NULL;
9795     PL_reg_oldsavedlen = 0;
9796     PL_reg_maxiter = 0;
9797     PL_reg_leftiter = 0;
9798     PL_reg_poscache = NULL;
9799     PL_reg_poscache_size = 0;
9800 #ifdef PERL_OLD_COPY_ON_WRITE
9801     PL_nrs = NULL;
9802 #endif
9803
9804     /* Save $1..$n (#18107: UTF-8 s/(\w+)/uc($1)/e); AMS 20021106. */
9805     if (PL_curpm) {
9806         const REGEXP * const rx = PM_GETRE(PL_curpm);
9807         if (rx) {
9808             U32 i;
9809             for (i = 1; i <= RX_NPARENS(rx); i++) {
9810                 char digits[TYPE_CHARS(long)];
9811                 const STRLEN len = my_snprintf(digits, sizeof(digits), "%lu", (long)i);
9812                 GV *const *const gvp
9813                     = (GV**)hv_fetch(PL_defstash, digits, len, 0);
9814
9815                 if (gvp) {
9816                     GV * const gv = *gvp;
9817                     if (SvTYPE(gv) == SVt_PVGV && GvSV(gv))
9818                         save_scalar(gv);
9819                 }
9820             }
9821         }
9822     }
9823 }
9824 #endif
9825
9826 static void
9827 clear_re(pTHX_ void *r)
9828 {
9829     dVAR;
9830     ReREFCNT_dec((REGEXP *)r);
9831 }
9832
9833 #ifdef DEBUGGING
9834
9835 STATIC void
9836 S_put_byte(pTHX_ SV *sv, int c)
9837 {
9838     PERL_ARGS_ASSERT_PUT_BYTE;
9839
9840     /* Our definition of isPRINT() ignores locales, so only bytes that are
9841        not part of UTF-8 are considered printable. I assume that the same
9842        holds for UTF-EBCDIC.
9843        Also, code point 255 is not printable in either (it's E0 in EBCDIC,
9844        which Wikipedia says:
9845
9846        EO, or Eight Ones, is an 8-bit EBCDIC character code represented as all
9847        ones (binary 1111 1111, hexadecimal FF). It is similar, but not
9848        identical, to the ASCII delete (DEL) or rubout control character.
9849        ) So the old condition can be simplified to !isPRINT(c)  */
9850     if (!isPRINT(c))
9851         Perl_sv_catpvf(aTHX_ sv, "\\%o", c);
9852     else {
9853         const char string = c;
9854         if (c == '-' || c == ']' || c == '\\' || c == '^')
9855             sv_catpvs(sv, "\\");
9856         sv_catpvn(sv, &string, 1);
9857     }
9858 }
9859
9860
9861 #define CLEAR_OPTSTART \
9862     if (optstart) STMT_START { \
9863             DEBUG_OPTIMISE_r(PerlIO_printf(Perl_debug_log, " (%"IVdf" nodes)\n", (IV)(node - optstart))); \
9864             optstart=NULL; \
9865     } STMT_END
9866
9867 #define DUMPUNTIL(b,e) CLEAR_OPTSTART; node=dumpuntil(r,start,(b),(e),last,sv,indent+1,depth+1);
9868
9869 STATIC const regnode *
9870 S_dumpuntil(pTHX_ const regexp *r, const regnode *start, const regnode *node,
9871             const regnode *last, const regnode *plast, 
9872             SV* sv, I32 indent, U32 depth)
9873 {
9874     dVAR;
9875     register U8 op = PSEUDO;    /* Arbitrary non-END op. */
9876     register const regnode *next;
9877     const regnode *optstart= NULL;
9878     
9879     RXi_GET_DECL(r,ri);
9880     GET_RE_DEBUG_FLAGS_DECL;
9881
9882     PERL_ARGS_ASSERT_DUMPUNTIL;
9883
9884 #ifdef DEBUG_DUMPUNTIL
9885     PerlIO_printf(Perl_debug_log, "--- %d : %d - %d - %d\n",indent,node-start,
9886         last ? last-start : 0,plast ? plast-start : 0);
9887 #endif
9888             
9889     if (plast && plast < last) 
9890         last= plast;
9891
9892     while (PL_regkind[op] != END && (!last || node < last)) {
9893         /* While that wasn't END last time... */
9894         NODE_ALIGN(node);
9895         op = OP(node);
9896         if (op == CLOSE || op == WHILEM)
9897             indent--;
9898         next = regnext((regnode *)node);
9899
9900         /* Where, what. */
9901         if (OP(node) == OPTIMIZED) {
9902             if (!optstart && RE_DEBUG_FLAG(RE_DEBUG_COMPILE_OPTIMISE))
9903                 optstart = node;
9904             else
9905                 goto after_print;
9906         } else
9907             CLEAR_OPTSTART;
9908         
9909         regprop(r, sv, node);
9910         PerlIO_printf(Perl_debug_log, "%4"IVdf":%*s%s", (IV)(node - start),
9911                       (int)(2*indent + 1), "", SvPVX_const(sv));
9912         
9913         if (OP(node) != OPTIMIZED) {                  
9914             if (next == NULL)           /* Next ptr. */
9915                 PerlIO_printf(Perl_debug_log, " (0)");
9916             else if (PL_regkind[(U8)op] == BRANCH && PL_regkind[OP(next)] != BRANCH )
9917                 PerlIO_printf(Perl_debug_log, " (FAIL)");
9918             else 
9919                 PerlIO_printf(Perl_debug_log, " (%"IVdf")", (IV)(next - start));
9920             (void)PerlIO_putc(Perl_debug_log, '\n'); 
9921         }
9922         
9923       after_print:
9924         if (PL_regkind[(U8)op] == BRANCHJ) {
9925             assert(next);
9926             {
9927                 register const regnode *nnode = (OP(next) == LONGJMP
9928                                              ? regnext((regnode *)next)
9929                                              : next);
9930                 if (last && nnode > last)
9931                     nnode = last;
9932                 DUMPUNTIL(NEXTOPER(NEXTOPER(node)), nnode);
9933             }
9934         }
9935         else if (PL_regkind[(U8)op] == BRANCH) {
9936             assert(next);
9937             DUMPUNTIL(NEXTOPER(node), next);
9938         }
9939         else if ( PL_regkind[(U8)op]  == TRIE ) {
9940             const regnode *this_trie = node;
9941             const char op = OP(node);
9942             const U32 n = ARG(node);
9943             const reg_ac_data * const ac = op>=AHOCORASICK ?
9944                (reg_ac_data *)ri->data->data[n] :
9945                NULL;
9946             const reg_trie_data * const trie =
9947                 (reg_trie_data*)ri->data->data[op<AHOCORASICK ? n : ac->trie];
9948 #ifdef DEBUGGING
9949             AV *const trie_words = (AV *) ri->data->data[n + TRIE_WORDS_OFFSET];
9950 #endif
9951             const regnode *nextbranch= NULL;
9952             I32 word_idx;
9953             sv_setpvn(sv, "", 0);
9954             for (word_idx= 0; word_idx < (I32)trie->wordcount; word_idx++) {
9955                 SV ** const elem_ptr = av_fetch(trie_words,word_idx,0);
9956                 
9957                 PerlIO_printf(Perl_debug_log, "%*s%s ",
9958                    (int)(2*(indent+3)), "",
9959                     elem_ptr ? pv_pretty(sv, SvPV_nolen_const(*elem_ptr), SvCUR(*elem_ptr), 60,
9960                             PL_colors[0], PL_colors[1],
9961                             (SvUTF8(*elem_ptr) ? PERL_PV_ESCAPE_UNI : 0) |
9962                             PERL_PV_PRETTY_ELLIPSES    |
9963                             PERL_PV_PRETTY_LTGT
9964                             )
9965                             : "???"
9966                 );
9967                 if (trie->jump) {
9968                     U16 dist= trie->jump[word_idx+1];
9969                     PerlIO_printf(Perl_debug_log, "(%"UVuf")\n",
9970                                   (UV)((dist ? this_trie + dist : next) - start));
9971                     if (dist) {
9972                         if (!nextbranch)
9973                             nextbranch= this_trie + trie->jump[0];    
9974                         DUMPUNTIL(this_trie + dist, nextbranch);
9975                     }
9976                     if (nextbranch && PL_regkind[OP(nextbranch)]==BRANCH)
9977                         nextbranch= regnext((regnode *)nextbranch);
9978                 } else {
9979                     PerlIO_printf(Perl_debug_log, "\n");
9980                 }
9981             }
9982             if (last && next > last)
9983                 node= last;
9984             else
9985                 node= next;
9986         }
9987         else if ( op == CURLY ) {   /* "next" might be very big: optimizer */
9988             DUMPUNTIL(NEXTOPER(node) + EXTRA_STEP_2ARGS,
9989                     NEXTOPER(node) + EXTRA_STEP_2ARGS + 1);
9990         }
9991         else if (PL_regkind[(U8)op] == CURLY && op != CURLYX) {
9992             assert(next);
9993             DUMPUNTIL(NEXTOPER(node) + EXTRA_STEP_2ARGS, next);
9994         }
9995         else if ( op == PLUS || op == STAR) {
9996             DUMPUNTIL(NEXTOPER(node), NEXTOPER(node) + 1);
9997         }
9998         else if (op == ANYOF) {
9999             /* arglen 1 + class block */
10000             node += 1 + ((ANYOF_FLAGS(node) & ANYOF_LARGE)
10001                     ? ANYOF_CLASS_SKIP : ANYOF_SKIP);
10002             node = NEXTOPER(node);
10003         }
10004         else if (PL_regkind[(U8)op] == EXACT) {
10005             /* Literal string, where present. */
10006             node += NODE_SZ_STR(node) - 1;
10007             node = NEXTOPER(node);
10008         }
10009         else {
10010             node = NEXTOPER(node);
10011             node += regarglen[(U8)op];
10012         }
10013         if (op == CURLYX || op == OPEN)
10014             indent++;
10015     }
10016     CLEAR_OPTSTART;
10017 #ifdef DEBUG_DUMPUNTIL    
10018     PerlIO_printf(Perl_debug_log, "--- %d\n", (int)indent);
10019 #endif
10020     return node;
10021 }
10022
10023 #endif  /* DEBUGGING */
10024
10025 /*
10026  * Local variables:
10027  * c-indentation-style: bsd
10028  * c-basic-offset: 4
10029  * indent-tabs-mode: t
10030  * End:
10031  *
10032  * ex: set ts=8 sts=4 sw=4 noet:
10033  */