More UTF-8 patches from Inaba Hiroto.
authorJarkko Hietaniemi <jhi@iki.fi>
Mon, 15 Jan 2001 05:02:24 +0000 (05:02 +0000)
committerJarkko Hietaniemi <jhi@iki.fi>
Mon, 15 Jan 2001 05:02:24 +0000 (05:02 +0000)
commit9aa983d27b0af31badfcbbb76567f6e557076b41
treea3290ebe9e4a9773e967a8beb2895428f7e717c7
parent78d8f6e05211de1a60b4bb9b795b8ff72f179ebe
More UTF-8 patches from Inaba Hiroto.
- The substr lval was still not okay.
- Now pp_stringify and sv_setsv copies source's UTF8 flag
  even if IN_BYTE.  pp_stringify is called from fold_constants
  at optimization phase and "\x{100}" was made SvUTF8_off under
  use bytes (the bytes pragma is for "byte semantics" and not
  for "do not produce UTF8 data")
- New `qu' operator to generate UTF8 string explicitly.
  Though I agree with the policy "0x00-0xff always produce bytes",
  sometimes want to such a string to be coded in UTF8.
  I can use pack"U0a*" but it requires more typing and has
  runtime overhead.
- Fix pp_regcomp bug uncovered by "0x00-0xff always produce bytes"
  change, the bug appears if a pm has PMdf_UTF8 flag but interpolated
  string is not UTF8_on and has char 0x80-0xff.

TODO: document and test qu.

p4raw-id: //depot/perl@8439
keywords.pl
mg.c
pp.c
pp_ctl.c
pp_hot.c
sv.c
t/lib/charnames.t
t/op/length.t
t/op/substr.t
t/pragma/utf8.t
toke.c