[p5sagit/p5-mst-13.2.git] / lib / Unicode / UCD.t

#!perl -w
BEGIN {
    if (ord("A") != 65) {
	print "1..0 # Skip: EBCDIC\n";
	exit 0;
    }
    chdir 't' if -d 't';
    @INC = '../lib';
    @INC = "::lib" if $^O eq 'MacOS'; # module parses @INC itself
    require Config; import Config;
    if ($Config{'extensions'} !~ /\bStorable\b/) {
        print "1..0 # Skip: Storable was not built; Unicode::UCD uses Storable\n";
        exit 0;
    }
}

use strict;
use Unicode::UCD;
use Test::More;

BEGIN { plan tests => 256 };

use Unicode::UCD 'charinfo';

my $charinfo;

$charinfo = charinfo(0);    # Null is often problematic, so test it.

is($charinfo->{code},           '0000', '<control>');
is($charinfo->{name},           '<control>');
is($charinfo->{category},       'Cc');
is($charinfo->{combining},      '0');
is($charinfo->{bidi},           'BN');
is($charinfo->{decomposition},  '');
is($charinfo->{decimal},        '');
is($charinfo->{digit},          '');
is($charinfo->{numeric},        '');
is($charinfo->{mirrored},       'N');
is($charinfo->{unicode10},      'NULL');
is($charinfo->{comment},        '');
is($charinfo->{upper},          '');
is($charinfo->{lower},          '');
is($charinfo->{title},          '');
is($charinfo->{block},          'Basic Latin');
is($charinfo->{script},         'Common');

$charinfo = charinfo(0x41);

is($charinfo->{code},           '0041', 'LATIN CAPITAL LETTER A');
is($charinfo->{name},           'LATIN CAPITAL LETTER A');
is($charinfo->{category},       'Lu');
is($charinfo->{combining},      '0');
is($charinfo->{bidi},           'L');
is($charinfo->{decomposition},  '');
is($charinfo->{decimal},        '');
is($charinfo->{digit},          '');
is($charinfo->{numeric},        '');
is($charinfo->{mirrored},       'N');
is($charinfo->{unicode10},      '');
is($charinfo->{comment},        '');
is($charinfo->{upper},          '');
is($charinfo->{lower},          '0061');
is($charinfo->{title},          '');
is($charinfo->{block},          'Basic Latin');
is($charinfo->{script},         'Latin');

$charinfo = charinfo(0x100);

is($charinfo->{code},           '0100', 'LATIN CAPITAL LETTER A WITH MACRON');
is($charinfo->{name},           'LATIN CAPITAL LETTER A WITH MACRON');
is($charinfo->{category},       'Lu');
is($charinfo->{combining},      '0');
is($charinfo->{bidi},           'L');
is($charinfo->{decomposition},  '0041 0304');
is($charinfo->{decimal},        '');
is($charinfo->{digit},          '');
is($charinfo->{numeric},        '');
is($charinfo->{mirrored},       'N');
is($charinfo->{unicode10},      'LATIN CAPITAL LETTER A MACRON');
is($charinfo->{comment},        '');
is($charinfo->{upper},          '');
is($charinfo->{lower},          '0101');
is($charinfo->{title},          '');
is($charinfo->{block},          'Latin Extended-A');
is($charinfo->{script},         'Latin');

# 0x0590 is in the Hebrew block but unused.

$charinfo = charinfo(0x590);

is($charinfo->{code},          undef,	'0x0590 - unused Hebrew');
is($charinfo->{name},          undef);
is($charinfo->{category},      undef);
is($charinfo->{combining},     undef);
is($charinfo->{bidi},          undef);
is($charinfo->{decomposition}, undef);
is($charinfo->{decimal},       undef);
is($charinfo->{digit},         undef);
is($charinfo->{numeric},       undef);
is($charinfo->{mirrored},      undef);
is($charinfo->{unicode10},     undef);
is($charinfo->{comment},       undef);
is($charinfo->{upper},         undef);
is($charinfo->{lower},         undef);
is($charinfo->{title},         undef);
is($charinfo->{block},         undef);
is($charinfo->{script},        undef);

# 0x05d0 is in the Hebrew block and used.

$charinfo = charinfo(0x5d0);

is($charinfo->{code},           '05D0', '05D0 - used Hebrew');
is($charinfo->{name},           'HEBREW LETTER ALEF');
is($charinfo->{category},       'Lo');
is($charinfo->{combining},      '0');
is($charinfo->{bidi},           'R');
is($charinfo->{decomposition},  '');
is($charinfo->{decimal},        '');
is($charinfo->{digit},          '');
is($charinfo->{numeric},        '');
is($charinfo->{mirrored},       'N');
is($charinfo->{unicode10},      '');
is($charinfo->{comment},        '');
is($charinfo->{upper},          '');
is($charinfo->{lower},          '');
is($charinfo->{title},          '');
is($charinfo->{block},          'Hebrew');
is($charinfo->{script},         'Hebrew');

# An open syllable in Hangul.

$charinfo = charinfo(0xAC00);

is($charinfo->{code},           'AC00', 'HANGUL SYLLABLE-AC00');
is($charinfo->{name},           'HANGUL SYLLABLE-AC00');
is($charinfo->{category},       'Lo');
is($charinfo->{combining},      '0');
is($charinfo->{bidi},           'L');
is($charinfo->{decomposition},  undef);
is($charinfo->{decimal},        '');
is($charinfo->{digit},          '');
is($charinfo->{numeric},        '');
is($charinfo->{mirrored},       'N');
is($charinfo->{unicode10},      '');
is($charinfo->{comment},        '');
is($charinfo->{upper},          '');
is($charinfo->{lower},          '');
is($charinfo->{title},          '');
is($charinfo->{block},          'Hangul Syllables');
is($charinfo->{script},         'Hangul');

# A closed syllable in Hangul.

$charinfo = charinfo(0xAE00);

is($charinfo->{code},           'AE00', 'HANGUL SYLLABLE-AE00');
is($charinfo->{name},           'HANGUL SYLLABLE-AE00');
is($charinfo->{category},       'Lo');
is($charinfo->{combining},      '0');
is($charinfo->{bidi},           'L');
is($charinfo->{decomposition},  undef);
is($charinfo->{decimal},        '');
is($charinfo->{digit},          '');
is($charinfo->{numeric},        '');
is($charinfo->{mirrored},       'N');
is($charinfo->{unicode10},      '');
is($charinfo->{comment},        '');
is($charinfo->{upper},          '');
is($charinfo->{lower},          '');
is($charinfo->{title},          '');
is($charinfo->{block},          'Hangul Syllables');
is($charinfo->{script},         'Hangul');

$charinfo = charinfo(0x1D400);

is($charinfo->{code},           '1D400', 'MATHEMATICAL BOLD CAPITAL A');
is($charinfo->{name},           'MATHEMATICAL BOLD CAPITAL A');
is($charinfo->{category},       'Lu');
is($charinfo->{combining},      '0');
is($charinfo->{bidi},           'L');
is($charinfo->{decomposition},  '<font> 0041');
is($charinfo->{decimal},        '');
is($charinfo->{digit},          '');
is($charinfo->{numeric},        '');
is($charinfo->{mirrored},       'N');
is($charinfo->{unicode10},      '');
is($charinfo->{comment},        '');
is($charinfo->{upper},          '');
is($charinfo->{lower},          '');
is($charinfo->{title},          '');
is($charinfo->{block},          'Mathematical Alphanumeric Symbols');
is($charinfo->{script},         'Common');

$charinfo = charinfo(0x9FBA);	#Bug 58428

is($charinfo->{code},           '9FBA', 'U+9FBA');
is($charinfo->{name},           'CJK UNIFIED IDEOGRAPH-9FBA');
is($charinfo->{category},       'Lo');
is($charinfo->{combining},      '0');
is($charinfo->{bidi},           'L');
is($charinfo->{decomposition},  '');
is($charinfo->{decimal},        '');
is($charinfo->{digit},          '');
is($charinfo->{numeric},        '');
is($charinfo->{mirrored},       'N');
is($charinfo->{unicode10},      '');
is($charinfo->{comment},        '');
is($charinfo->{upper},          '');
is($charinfo->{lower},          '');
is($charinfo->{title},          '');
is($charinfo->{block},          'CJK Unified Ideographs');
is($charinfo->{script},         'Han');

use Unicode::UCD qw(charblock charscript);

# 0x0590 is in the Hebrew block but unused.

is(charblock(0x590),          'Hebrew', '0x0590 - Hebrew unused charblock');
is(charscript(0x590),         undef,    '0x0590 - Hebrew unused charscript');

$charinfo = charinfo(0xbe);

is($charinfo->{code},           '00BE', 'VULGAR FRACTION THREE QUARTERS');
is($charinfo->{name},           'VULGAR FRACTION THREE QUARTERS');
is($charinfo->{category},       'No');
is($charinfo->{combining},      '0');
is($charinfo->{bidi},           'ON');
is($charinfo->{decomposition},  '<fraction> 0033 2044 0034');
is($charinfo->{decimal},        '');
is($charinfo->{digit},          '');
is($charinfo->{numeric},        '3/4');
is($charinfo->{mirrored},       'N');
is($charinfo->{unicode10},      'FRACTION THREE QUARTERS');
is($charinfo->{comment},        '');
is($charinfo->{upper},          '');
is($charinfo->{lower},          '');
is($charinfo->{title},          '');
is($charinfo->{block},          'Latin-1 Supplement');
is($charinfo->{script},         'Common');

use Unicode::UCD qw(charblocks charscripts);

my $charblocks = charblocks();

ok(exists $charblocks->{Thai}, 'Thai charblock exists');
is($charblocks->{Thai}->[0]->[0], hex('0e00'));
ok(!exists $charblocks->{PigLatin}, 'PigLatin charblock does not exist');

my $charscripts = charscripts();

ok(exists $charscripts->{Armenian}, 'Armenian charscript exists');
is($charscripts->{Armenian}->[0]->[0], hex('0531'));
ok(!exists $charscripts->{PigLatin}, 'PigLatin charscript does not exist');

my $charscript;

$charscript = charscript("12ab");
is($charscript, 'Ethiopic', 'Ethiopic charscript');

$charscript = charscript("0x12ab");
is($charscript, 'Ethiopic');

$charscript = charscript("U+12ab");
is($charscript, 'Ethiopic');

my $ranges;

$ranges = charscript('Ogham');
is($ranges->[1]->[0], hex('1681'), 'Ogham charscript');
is($ranges->[1]->[1], hex('169a'));

use Unicode::UCD qw(charinrange);

$ranges = charscript('Cherokee');
ok(!charinrange($ranges, "139f"), 'Cherokee charscript');
ok( charinrange($ranges, "13a0"));
ok( charinrange($ranges, "13f4"));
ok(!charinrange($ranges, "13f5"));

use Unicode::UCD qw(general_categories);

my $gc = general_categories();

ok(exists $gc->{L}, 'has L');
is($gc->{L}, 'Letter', 'L is Letter');
is($gc->{Lu}, 'UppercaseLetter', 'Lu is UppercaseLetter');

use Unicode::UCD qw(bidi_types);

my $bt = bidi_types();

ok(exists $bt->{L}, 'has L');
is($bt->{L}, 'Left-to-Right', 'L is Left-to-Right');
is($bt->{AL}, 'Right-to-Left Arabic', 'AL is Right-to-Left Arabic');

# If this fails, then maybe one should look at the Unicode changes to see
# what else might need to be updated.
is(Unicode::UCD::UnicodeVersion, '5.2.0', 'UnicodeVersion');

use Unicode::UCD qw(compexcl);

ok(!compexcl(0x0100), 'compexcl');
ok( compexcl(0x0958));

use Unicode::UCD qw(casefold);

my $casefold;

$casefold = casefold(0x41);

is($casefold->{code}, '0041', 'casefold 0x41 code');
is($casefold->{status}, 'C', 'casefold 0x41 status');
is($casefold->{mapping}, '0061', 'casefold 0x41 mapping');
is($casefold->{full}, '0061', 'casefold 0x41 full');
is($casefold->{simple}, '0061', 'casefold 0x41 simple');
is($casefold->{turkic}, "", 'casefold 0x41 turkic');

$casefold = casefold(0xdf);

is($casefold->{code}, '00DF', 'casefold 0xDF code');
is($casefold->{status}, 'F', 'casefold 0xDF status');
is($casefold->{mapping}, '0073 0073', 'casefold 0xDF mapping');
is($casefold->{full}, '0073 0073', 'casefold 0xDF full');
is($casefold->{simple}, "", 'casefold 0xDF simple');
is($casefold->{turkic}, "", 'casefold 0xDF turkic');

# Do different tests depending on if version <= 3.1, or not.
(my $version = Unicode::UCD::UnicodeVersion) =~ /^(\d+)\.(\d+)/;
if (defined $1 && ($1 <= 2 || $1 == 3 && defined $2 && $2 <= 1)) {
	$casefold = casefold(0x130);

	is($casefold->{code}, '0130', 'casefold 0x130 code');
	is($casefold->{status}, 'I' , 'casefold 0x130 status');
	is($casefold->{mapping}, '0069', 'casefold 0x130 mapping');
	is($casefold->{full}, '0069', 'casefold 0x130 full');
	is($casefold->{simple}, "0069", 'casefold 0x130 simple');
	is($casefold->{turkic}, "0069", 'casefold 0x130 turkic');

	$casefold = casefold(0x131);

	is($casefold->{code}, '0131', 'casefold 0x131 code');
	is($casefold->{status}, 'I' , 'casefold 0x131 status');
	is($casefold->{mapping}, '0069', 'casefold 0x131 mapping');
	is($casefold->{full}, '0069', 'casefold 0x131 full');
	is($casefold->{simple}, "0069", 'casefold 0x131 simple');
	is($casefold->{turkic}, "0069", 'casefold 0x131 turkic');
} else {
	$casefold = casefold(0x49);

	is($casefold->{code}, '0049', 'casefold 0x49 code');
	is($casefold->{status}, 'C' , 'casefold 0x49 status');
	is($casefold->{mapping}, '0069', 'casefold 0x49 mapping');
	is($casefold->{full}, '0069', 'casefold 0x49 full');
	is($casefold->{simple}, "0069", 'casefold 0x49 simple');
	is($casefold->{turkic}, "0131", 'casefold 0x49 turkic');

	$casefold = casefold(0x130);

	is($casefold->{code}, '0130', 'casefold 0x130 code');
	is($casefold->{status}, 'F' , 'casefold 0x130 status');
	is($casefold->{mapping}, '0069 0307', 'casefold 0x130 mapping');
	is($casefold->{full}, '0069 0307', 'casefold 0x130 full');
	is($casefold->{simple}, "", 'casefold 0x130 simple');
	is($casefold->{turkic}, "0069", 'casefold 0x130 turkic');
}

$casefold = casefold(0x1F88);

is($casefold->{code}, '1F88', 'casefold 0x1F88 code');
is($casefold->{status}, 'S' , 'casefold 0x1F88 status');
is($casefold->{mapping}, '1F80', 'casefold 0x1F88 mapping');
is($casefold->{full}, '1F00 03B9', 'casefold 0x1F88 full');
is($casefold->{simple}, '1F80', 'casefold 0x1F88 simple');
is($casefold->{turkic}, "", 'casefold 0x1F88 turkic');

ok(!casefold(0x20));

use Unicode::UCD qw(casespec);

my $casespec;

ok(!casespec(0x41));

$casespec = casespec(0xdf);

ok($casespec->{code} eq '00DF' &&
   $casespec->{lower} eq '00DF'  &&
   $casespec->{title} eq '0053 0073'  &&
   $casespec->{upper} eq '0053 0053' &&
   !defined $casespec->{condition}, 'casespec 0xDF');

$casespec = casespec(0x307);

ok($casespec->{az}->{code} eq '0307' &&
   !defined $casespec->{az}->{lower} &&
   $casespec->{az}->{title} eq '0307'  &&
   $casespec->{az}->{upper} eq '0307' &&
   $casespec->{az}->{condition} eq 'az After_I',
   'casespec 0x307');

# perl #7305 UnicodeCD::compexcl is weird

for (1) {my $a=compexcl $_}
ok(1, 'compexcl read-only $_: perl #7305');
map {compexcl $_} %{{1=>2}};
ok(1, 'compexcl read-only hash: perl #7305');

is(Unicode::UCD::_getcode('123'),     123, "_getcode(123)");
is(Unicode::UCD::_getcode('0123'),  0x123, "_getcode(0123)");
is(Unicode::UCD::_getcode('0x123'), 0x123, "_getcode(0x123)");
is(Unicode::UCD::_getcode('0X123'), 0x123, "_getcode(0X123)");
is(Unicode::UCD::_getcode('U+123'), 0x123, "_getcode(U+123)");
is(Unicode::UCD::_getcode('u+123'), 0x123, "_getcode(u+123)");
is(Unicode::UCD::_getcode('U+1234'),   0x1234, "_getcode(U+1234)");
is(Unicode::UCD::_getcode('U+12345'), 0x12345, "_getcode(U+12345)");
is(Unicode::UCD::_getcode('123x'),    undef, "_getcode(123x)");
is(Unicode::UCD::_getcode('x123'),    undef, "_getcode(x123)");
is(Unicode::UCD::_getcode('0x123x'),  undef, "_getcode(x123)");
is(Unicode::UCD::_getcode('U+123x'),  undef, "_getcode(x123)");

{
    my $r1 = charscript('Latin');
    my $n1 = @$r1;
    is($n1, 42, "number of ranges in Latin script (Unicode 5.1.0)");
    shift @$r1 while @$r1;
    my $r2 = charscript('Latin');
    is(@$r2, $n1, "modifying results should not mess up internal caches");
}

{
	is(charinfo(0xdeadbeef), undef, "[perl #23273] warnings in Unicode::UCD");
}

use Unicode::UCD qw(namedseq);

is(namedseq("KATAKANA LETTER AINU P"), "\x{31F7}\x{309A}", "namedseq");
is(namedseq("KATAKANA LETTER AINU Q"), undef);
is(namedseq(), undef);
is(namedseq(qw(foo bar)), undef);
my @ns = namedseq("KATAKANA LETTER AINU P");
is(scalar @ns, 2);
is($ns[0], 0x31F7);
is($ns[1], 0x309A);
my %ns = namedseq();
is($ns{"KATAKANA LETTER AINU P"}, "\x{31F7}\x{309A}");
@ns = namedseq(42);
is(@ns, 0);
Commit	Line	Data
25a47338	1	#!perl -w
8b731da2	2	BEGIN {
a452d459	3	if (ord("A") != 65) {
8b731da2	4	print "1..0 # Skip: EBCDIC\n";
	5	exit 0;
	6	}
a778afa6	7	chdir 't' if -d 't';
a778afa6	8	@INC = '../lib';
e69a2255	9	@INC = "::lib" if $^O eq 'MacOS'; # module parses @INC itself
25a47338	10	require Config; import Config;
	11	if ($Config{'extensions'} !~ /\bStorable\b/) {
	12	print "1..0 # Skip: Storable was not built; Unicode::UCD uses Storable\n";
	13	exit 0;
	14	}
8b731da2	15	}
8b731da2	16
a778afa6	17	use strict;
a778afa6	18	use Unicode::UCD;
f5c9f3db	19	use Test::More;
8b731da2	20
6c44f856	21	BEGIN { plan tests => 256 };
561c79ed	22
55d7b906	23	use Unicode::UCD 'charinfo';
561c79ed	24
b08cd201	25	my $charinfo;
b08cd201	26
e10d7780	27	$charinfo = charinfo(0); # Null is often problematic, so test it.
	28
	29	is($charinfo->{code}, '0000', '<control>');
	30	is($charinfo->{name}, '<control>');
	31	is($charinfo->{category}, 'Cc');
	32	is($charinfo->{combining}, '0');
	33	is($charinfo->{bidi}, 'BN');
	34	is($charinfo->{decomposition}, '');
	35	is($charinfo->{decimal}, '');
	36	is($charinfo->{digit}, '');
	37	is($charinfo->{numeric}, '');
	38	is($charinfo->{mirrored}, 'N');
	39	is($charinfo->{unicode10}, 'NULL');
	40	is($charinfo->{comment}, '');
	41	is($charinfo->{upper}, '');
	42	is($charinfo->{lower}, '');
	43	is($charinfo->{title}, '');
	44	is($charinfo->{block}, 'Basic Latin');
	45	is($charinfo->{script}, 'Common');
	46
b08cd201	47	$charinfo = charinfo(0x41);
b08cd201	48
f5c9f3db	49	is($charinfo->{code}, '0041', 'LATIN CAPITAL LETTER A');
	50	is($charinfo->{name}, 'LATIN CAPITAL LETTER A');
	51	is($charinfo->{category}, 'Lu');
	52	is($charinfo->{combining}, '0');
	53	is($charinfo->{bidi}, 'L');
	54	is($charinfo->{decomposition}, '');
	55	is($charinfo->{decimal}, '');
	56	is($charinfo->{digit}, '');
	57	is($charinfo->{numeric}, '');
	58	is($charinfo->{mirrored}, 'N');
	59	is($charinfo->{unicode10}, '');
	60	is($charinfo->{comment}, '');
	61	is($charinfo->{upper}, '');
	62	is($charinfo->{lower}, '0061');
	63	is($charinfo->{title}, '');
	64	is($charinfo->{block}, 'Basic Latin');
	65	is($charinfo->{script}, 'Latin');
b08cd201	66
	67	$charinfo = charinfo(0x100);
	68
f5c9f3db	69	is($charinfo->{code}, '0100', 'LATIN CAPITAL LETTER A WITH MACRON');
	70	is($charinfo->{name}, 'LATIN CAPITAL LETTER A WITH MACRON');
	71	is($charinfo->{category}, 'Lu');
	72	is($charinfo->{combining}, '0');
	73	is($charinfo->{bidi}, 'L');
	74	is($charinfo->{decomposition}, '0041 0304');
	75	is($charinfo->{decimal}, '');
	76	is($charinfo->{digit}, '');
	77	is($charinfo->{numeric}, '');
	78	is($charinfo->{mirrored}, 'N');
	79	is($charinfo->{unicode10}, 'LATIN CAPITAL LETTER A MACRON');
	80	is($charinfo->{comment}, '');
	81	is($charinfo->{upper}, '');
	82	is($charinfo->{lower}, '0101');
	83	is($charinfo->{title}, '');
	84	is($charinfo->{block}, 'Latin Extended-A');
	85	is($charinfo->{script}, 'Latin');
a196fbfd	86
a196fbfd	87	# 0x0590 is in the Hebrew block but unused.
561c79ed	88
b08cd201	89	$charinfo = charinfo(0x590);
b08cd201	90
f5c9f3db	91	is($charinfo->{code}, undef, '0x0590 - unused Hebrew');
	92	is($charinfo->{name}, undef);
	93	is($charinfo->{category}, undef);
	94	is($charinfo->{combining}, undef);
	95	is($charinfo->{bidi}, undef);
	96	is($charinfo->{decomposition}, undef);
	97	is($charinfo->{decimal}, undef);
	98	is($charinfo->{digit}, undef);
	99	is($charinfo->{numeric}, undef);
	100	is($charinfo->{mirrored}, undef);
	101	is($charinfo->{unicode10}, undef);
	102	is($charinfo->{comment}, undef);
	103	is($charinfo->{upper}, undef);
	104	is($charinfo->{lower}, undef);
	105	is($charinfo->{title}, undef);
	106	is($charinfo->{block}, undef);
	107	is($charinfo->{script}, undef);
a196fbfd	108
a196fbfd	109	# 0x05d0 is in the Hebrew block and used.
561c79ed	110
b08cd201	111	$charinfo = charinfo(0x5d0);
b08cd201	112
f5c9f3db	113	is($charinfo->{code}, '05D0', '05D0 - used Hebrew');
	114	is($charinfo->{name}, 'HEBREW LETTER ALEF');
	115	is($charinfo->{category}, 'Lo');
	116	is($charinfo->{combining}, '0');
	117	is($charinfo->{bidi}, 'R');
	118	is($charinfo->{decomposition}, '');
	119	is($charinfo->{decimal}, '');
	120	is($charinfo->{digit}, '');
	121	is($charinfo->{numeric}, '');
	122	is($charinfo->{mirrored}, 'N');
	123	is($charinfo->{unicode10}, '');
	124	is($charinfo->{comment}, '');
	125	is($charinfo->{upper}, '');
	126	is($charinfo->{lower}, '');
	127	is($charinfo->{title}, '');
	128	is($charinfo->{block}, 'Hebrew');
	129	is($charinfo->{script}, 'Hebrew');
561c79ed	130
74f8133e	131	# An open syllable in Hangul.
a6fa416b	132
	133	$charinfo = charinfo(0xAC00);
	134
f5c9f3db	135	is($charinfo->{code}, 'AC00', 'HANGUL SYLLABLE-AC00');
	136	is($charinfo->{name}, 'HANGUL SYLLABLE-AC00');
	137	is($charinfo->{category}, 'Lo');
	138	is($charinfo->{combining}, '0');
	139	is($charinfo->{bidi}, 'L');
	140	is($charinfo->{decomposition}, undef);
	141	is($charinfo->{decimal}, '');
	142	is($charinfo->{digit}, '');
	143	is($charinfo->{numeric}, '');
	144	is($charinfo->{mirrored}, 'N');
	145	is($charinfo->{unicode10}, '');
	146	is($charinfo->{comment}, '');
	147	is($charinfo->{upper}, '');
	148	is($charinfo->{lower}, '');
	149	is($charinfo->{title}, '');
	150	is($charinfo->{block}, 'Hangul Syllables');
	151	is($charinfo->{script}, 'Hangul');
a6fa416b	152
74f8133e	153	# A closed syllable in Hangul.
a6fa416b	154
	155	$charinfo = charinfo(0xAE00);
	156
f5c9f3db	157	is($charinfo->{code}, 'AE00', 'HANGUL SYLLABLE-AE00');
	158	is($charinfo->{name}, 'HANGUL SYLLABLE-AE00');
	159	is($charinfo->{category}, 'Lo');
	160	is($charinfo->{combining}, '0');
	161	is($charinfo->{bidi}, 'L');
	162	is($charinfo->{decomposition}, undef);
	163	is($charinfo->{decimal}, '');
	164	is($charinfo->{digit}, '');
	165	is($charinfo->{numeric}, '');
	166	is($charinfo->{mirrored}, 'N');
	167	is($charinfo->{unicode10}, '');
	168	is($charinfo->{comment}, '');
	169	is($charinfo->{upper}, '');
	170	is($charinfo->{lower}, '');
	171	is($charinfo->{title}, '');
	172	is($charinfo->{block}, 'Hangul Syllables');
	173	is($charinfo->{script}, 'Hangul');
a6fa416b	174
	175	$charinfo = charinfo(0x1D400);
	176
f5c9f3db	177	is($charinfo->{code}, '1D400', 'MATHEMATICAL BOLD CAPITAL A');
	178	is($charinfo->{name}, 'MATHEMATICAL BOLD CAPITAL A');
	179	is($charinfo->{category}, 'Lu');
	180	is($charinfo->{combining}, '0');
	181	is($charinfo->{bidi}, 'L');
	182	is($charinfo->{decomposition}, '<font> 0041');
	183	is($charinfo->{decimal}, '');
	184	is($charinfo->{digit}, '');
	185	is($charinfo->{numeric}, '');
	186	is($charinfo->{mirrored}, 'N');
	187	is($charinfo->{unicode10}, '');
	188	is($charinfo->{comment}, '');
	189	is($charinfo->{upper}, '');
	190	is($charinfo->{lower}, '');
	191	is($charinfo->{title}, '');
	192	is($charinfo->{block}, 'Mathematical Alphanumeric Symbols');
7be0dac3	193	is($charinfo->{script}, 'Common');
a6fa416b	194
a452d459	195	$charinfo = charinfo(0x9FBA); #Bug 58428
	196
	197	is($charinfo->{code}, '9FBA', 'U+9FBA');
	198	is($charinfo->{name}, 'CJK UNIFIED IDEOGRAPH-9FBA');
	199	is($charinfo->{category}, 'Lo');
	200	is($charinfo->{combining}, '0');
	201	is($charinfo->{bidi}, 'L');
	202	is($charinfo->{decomposition}, '');
	203	is($charinfo->{decimal}, '');
	204	is($charinfo->{digit}, '');
	205	is($charinfo->{numeric}, '');
	206	is($charinfo->{mirrored}, 'N');
	207	is($charinfo->{unicode10}, '');
	208	is($charinfo->{comment}, '');
	209	is($charinfo->{upper}, '');
	210	is($charinfo->{lower}, '');
	211	is($charinfo->{title}, '');
	212	is($charinfo->{block}, 'CJK Unified Ideographs');
	213	is($charinfo->{script}, 'Han');
	214
55d7b906	215	use Unicode::UCD qw(charblock charscript);
a196fbfd	216
a196fbfd	217	# 0x0590 is in the Hebrew block but unused.
561c79ed	218
f5c9f3db	219	is(charblock(0x590), 'Hebrew', '0x0590 - Hebrew unused charblock');
f5c9f3db	220	is(charscript(0x590), undef, '0x0590 - Hebrew unused charscript');
561c79ed	221
b08cd201	222	$charinfo = charinfo(0xbe);
b08cd201	223
f5c9f3db	224	is($charinfo->{code}, '00BE', 'VULGAR FRACTION THREE QUARTERS');
	225	is($charinfo->{name}, 'VULGAR FRACTION THREE QUARTERS');
	226	is($charinfo->{category}, 'No');
	227	is($charinfo->{combining}, '0');
	228	is($charinfo->{bidi}, 'ON');
	229	is($charinfo->{decomposition}, '<fraction> 0033 2044 0034');
	230	is($charinfo->{decimal}, '');
	231	is($charinfo->{digit}, '');
	232	is($charinfo->{numeric}, '3/4');
	233	is($charinfo->{mirrored}, 'N');
	234	is($charinfo->{unicode10}, 'FRACTION THREE QUARTERS');
	235	is($charinfo->{comment}, '');
	236	is($charinfo->{upper}, '');
	237	is($charinfo->{lower}, '');
	238	is($charinfo->{title}, '');
	239	is($charinfo->{block}, 'Latin-1 Supplement');
7be0dac3	240	is($charinfo->{script}, 'Common');
10a6ecd2	241
55d7b906	242	use Unicode::UCD qw(charblocks charscripts);
10a6ecd2	243
b08cd201	244	my $charblocks = charblocks();
10a6ecd2	245
f5c9f3db	246	ok(exists $charblocks->{Thai}, 'Thai charblock exists');
	247	is($charblocks->{Thai}->[0]->[0], hex('0e00'));
	248	ok(!exists $charblocks->{PigLatin}, 'PigLatin charblock does not exist');
10a6ecd2	249
b08cd201	250	my $charscripts = charscripts();
10a6ecd2	251
f5c9f3db	252	ok(exists $charscripts->{Armenian}, 'Armenian charscript exists');
	253	is($charscripts->{Armenian}->[0]->[0], hex('0531'));
	254	ok(!exists $charscripts->{PigLatin}, 'PigLatin charscript does not exist');
10a6ecd2	255
	256	my $charscript;
	257
	258	$charscript = charscript("12ab");
f5c9f3db	259	is($charscript, 'Ethiopic', 'Ethiopic charscript');
10a6ecd2	260
10a6ecd2	261	$charscript = charscript("0x12ab");
f5c9f3db	262	is($charscript, 'Ethiopic');
10a6ecd2	263
10a6ecd2	264	$charscript = charscript("U+12ab");
f5c9f3db	265	is($charscript, 'Ethiopic');
10a6ecd2	266
	267	my $ranges;
	268
	269	$ranges = charscript('Ogham');
7be0dac3	270	is($ranges->[1]->[0], hex('1681'), 'Ogham charscript');
7be0dac3	271	is($ranges->[1]->[1], hex('169a'));
10a6ecd2	272
55d7b906	273	use Unicode::UCD qw(charinrange);
10a6ecd2	274
10a6ecd2	275	$ranges = charscript('Cherokee');
f5c9f3db	276	ok(!charinrange($ranges, "139f"), 'Cherokee charscript');
10a6ecd2	277	ok( charinrange($ranges, "13a0"));
	278	ok( charinrange($ranges, "13f4"));
	279	ok(!charinrange($ranges, "13f5"));
	280
ea508aee	281	use Unicode::UCD qw(general_categories);
	282
	283	my $gc = general_categories();
	284
	285	ok(exists $gc->{L}, 'has L');
	286	is($gc->{L}, 'Letter', 'L is Letter');
	287	is($gc->{Lu}, 'UppercaseLetter', 'Lu is UppercaseLetter');
	288
	289	use Unicode::UCD qw(bidi_types);
	290
	291	my $bt = bidi_types();
	292
	293	ok(exists $bt->{L}, 'has L');
	294	is($bt->{L}, 'Left-to-Right', 'L is Left-to-Right');
	295	is($bt->{AL}, 'Right-to-Left Arabic', 'AL is Right-to-Left Arabic');
	296
a452d459	297	# If this fails, then maybe one should look at the Unicode changes to see
a452d459	298	# what else might need to be updated.
283b82dc	299	is(Unicode::UCD::UnicodeVersion, '5.2.0', 'UnicodeVersion');
b08cd201	300
55d7b906	301	use Unicode::UCD qw(compexcl);
b08cd201	302
f5c9f3db	303	ok(!compexcl(0x0100), 'compexcl');
b08cd201	304	ok( compexcl(0x0958));
b08cd201	305
55d7b906	306	use Unicode::UCD qw(casefold);
b08cd201	307
	308	my $casefold;
	309
	310	$casefold = casefold(0x41);
	311
a452d459	312	is($casefold->{code}, '0041', 'casefold 0x41 code');
	313	is($casefold->{status}, 'C', 'casefold 0x41 status');
	314	is($casefold->{mapping}, '0061', 'casefold 0x41 mapping');
	315	is($casefold->{full}, '0061', 'casefold 0x41 full');
	316	is($casefold->{simple}, '0061', 'casefold 0x41 simple');
	317	is($casefold->{turkic}, "", 'casefold 0x41 turkic');
b08cd201	318
	319	$casefold = casefold(0xdf);
	320
a452d459	321	is($casefold->{code}, '00DF', 'casefold 0xDF code');
	322	is($casefold->{status}, 'F', 'casefold 0xDF status');
	323	is($casefold->{mapping}, '0073 0073', 'casefold 0xDF mapping');
	324	is($casefold->{full}, '0073 0073', 'casefold 0xDF full');
	325	is($casefold->{simple}, "", 'casefold 0xDF simple');
	326	is($casefold->{turkic}, "", 'casefold 0xDF turkic');
	327
	328	# Do different tests depending on if version <= 3.1, or not.
	329	(my $version = Unicode::UCD::UnicodeVersion) =~ /^(\d+)\.(\d+)/;
	330	if (defined $1 && ($1 <= 2 \|\| $1 == 3 && defined $2 && $2 <= 1)) {
	331	$casefold = casefold(0x130);
	332
	333	is($casefold->{code}, '0130', 'casefold 0x130 code');
	334	is($casefold->{status}, 'I' , 'casefold 0x130 status');
	335	is($casefold->{mapping}, '0069', 'casefold 0x130 mapping');
	336	is($casefold->{full}, '0069', 'casefold 0x130 full');
	337	is($casefold->{simple}, "0069", 'casefold 0x130 simple');
	338	is($casefold->{turkic}, "0069", 'casefold 0x130 turkic');
	339
	340	$casefold = casefold(0x131);
	341
	342	is($casefold->{code}, '0131', 'casefold 0x131 code');
	343	is($casefold->{status}, 'I' , 'casefold 0x131 status');
	344	is($casefold->{mapping}, '0069', 'casefold 0x131 mapping');
	345	is($casefold->{full}, '0069', 'casefold 0x131 full');
	346	is($casefold->{simple}, "0069", 'casefold 0x131 simple');
	347	is($casefold->{turkic}, "0069", 'casefold 0x131 turkic');
	348	} else {
	349	$casefold = casefold(0x49);
	350
	351	is($casefold->{code}, '0049', 'casefold 0x49 code');
	352	is($casefold->{status}, 'C' , 'casefold 0x49 status');
	353	is($casefold->{mapping}, '0069', 'casefold 0x49 mapping');
	354	is($casefold->{full}, '0069', 'casefold 0x49 full');
	355	is($casefold->{simple}, "0069", 'casefold 0x49 simple');
	356	is($casefold->{turkic}, "0131", 'casefold 0x49 turkic');
	357
	358	$casefold = casefold(0x130);
	359
	360	is($casefold->{code}, '0130', 'casefold 0x130 code');
	361	is($casefold->{status}, 'F' , 'casefold 0x130 status');
	362	is($casefold->{mapping}, '0069 0307', 'casefold 0x130 mapping');
	363	is($casefold->{full}, '0069 0307', 'casefold 0x130 full');
	364	is($casefold->{simple}, "", 'casefold 0x130 simple');
	365	is($casefold->{turkic}, "0069", 'casefold 0x130 turkic');
	366	}
	367
	368	$casefold = casefold(0x1F88);
	369
	370	is($casefold->{code}, '1F88', 'casefold 0x1F88 code');
	371	is($casefold->{status}, 'S' , 'casefold 0x1F88 status');
	372	is($casefold->{mapping}, '1F80', 'casefold 0x1F88 mapping');
	373	is($casefold->{full}, '1F00 03B9', 'casefold 0x1F88 full');
	374	is($casefold->{simple}, '1F80', 'casefold 0x1F88 simple');
	375	is($casefold->{turkic}, "", 'casefold 0x1F88 turkic');
b08cd201	376
	377	ok(!casefold(0x20));
	378
55d7b906	379	use Unicode::UCD qw(casespec);
b08cd201	380
	381	my $casespec;
	382
	383	ok(!casespec(0x41));
	384
	385	$casespec = casespec(0xdf);
	386
	387	ok($casespec->{code} eq '00DF' &&
	388	$casespec->{lower} eq '00DF' &&
	389	$casespec->{title} eq '0053 0073' &&
	390	$casespec->{upper} eq '0053 0053' &&
2d3cf3ee	391	!defined $casespec->{condition}, 'casespec 0xDF');
b08cd201	392
	393	$casespec = casespec(0x307);
	394
f499c386	395	ok($casespec->{az}->{code} eq '0307' &&
2d3cf3ee	396	!defined $casespec->{az}->{lower} &&
f499c386	397	$casespec->{az}->{title} eq '0307' &&
f499c386	398	$casespec->{az}->{upper} eq '0307' &&
9c3dc587	399	$casespec->{az}->{condition} eq 'az After_I',
f5c9f3db	400	'casespec 0x307');
6c8d78fb	401
	402	# perl #7305 UnicodeCD::compexcl is weird
	403
2d3cf3ee	404	for (1) {my $a=compexcl $_}
6c8d78fb	405	ok(1, 'compexcl read-only $_: perl #7305');
1f27373c	406	map {compexcl $_} %{{1=>2}};
6c8d78fb	407	ok(1, 'compexcl read-only hash: perl #7305');
6c8d78fb	408
d7829152	409	is(Unicode::UCD::_getcode('123'), 123, "_getcode(123)");
	410	is(Unicode::UCD::_getcode('0123'), 0x123, "_getcode(0123)");
	411	is(Unicode::UCD::_getcode('0x123'), 0x123, "_getcode(0x123)");
	412	is(Unicode::UCD::_getcode('0X123'), 0x123, "_getcode(0X123)");
	413	is(Unicode::UCD::_getcode('U+123'), 0x123, "_getcode(U+123)");
	414	is(Unicode::UCD::_getcode('u+123'), 0x123, "_getcode(u+123)");
	415	is(Unicode::UCD::_getcode('U+1234'), 0x1234, "_getcode(U+1234)");
	416	is(Unicode::UCD::_getcode('U+12345'), 0x12345, "_getcode(U+12345)");
	417	is(Unicode::UCD::_getcode('123x'), undef, "_getcode(123x)");
	418	is(Unicode::UCD::_getcode('x123'), undef, "_getcode(x123)");
	419	is(Unicode::UCD::_getcode('0x123x'), undef, "_getcode(x123)");
	420	is(Unicode::UCD::_getcode('U+123x'), undef, "_getcode(x123)");
741297c1	421
	422	{
	423	my $r1 = charscript('Latin');
	424	my $n1 = @$r1;
5cd1aaf0	425	is($n1, 42, "number of ranges in Latin script (Unicode 5.1.0)");
741297c1	426	shift @$r1 while @$r1;
	427	my $r2 = charscript('Latin');
	428	is(@$r2, $n1, "modifying results should not mess up internal caches");
	429	}
	430
c5a29f40	431	{
c5a29f40	432	is(charinfo(0xdeadbeef), undef, "[perl #23273] warnings in Unicode::UCD");
2d3cf3ee	433	}
a2bd7410	434
	435	use Unicode::UCD qw(namedseq);
	436
	437	is(namedseq("KATAKANA LETTER AINU P"), "\x{31F7}\x{309A}", "namedseq");
	438	is(namedseq("KATAKANA LETTER AINU Q"), undef);
	439	is(namedseq(), undef);
	440	is(namedseq(qw(foo bar)), undef);
	441	my @ns = namedseq("KATAKANA LETTER AINU P");
	442	is(scalar @ns, 2);
	443	is($ns[0], 0x31F7);
	444	is($ns[1], 0x309A);
	445	my %ns = namedseq();
	446	is($ns{"KATAKANA LETTER AINU P"}, "\x{31F7}\x{309A}");
	447	@ns = namedseq(42);
	448	is(@ns, 0);
	449