S_utf16_textfilter() was not returning EOF correctly in some situations.
[p5sagit/p5-mst-13.2.git] / lib / unicore / ArabicShaping.txt
1 # ArabicShaping-5.1.0.txt
2 # Date: 2008-03-20, 17:39:00 PDT [KW]
3 #
4 # This file is a normative contributory data file in the
5 # Unicode Character Database.
6 #
7 # Copyright (c) 1991-2008 Unicode, Inc.
8 # For terms of use, see http://www.unicode.org/terms_of_use.html
9 #
10 # This file defines the shaping classes for Arabic and Syriac
11 # positional shaping, repeating in machine readable form the
12 # information printed in Tables 8-3, 8-7, 8-8, 8-11, 8-12, and
13 # 8-13 of The Unicode Standard, Version 5.0.
14 #
15 # See sections 8.2 and 8.3 of The Unicode Standard, Version 5.0
16 # for more information.
17 #
18 # Each line contains four fields, separated by a semicolon.
19 #
20 # Field 0: the code point, in 4-digit hexadecimal
21 #   form, of an Arabic or Syriac character.
22 # Field 1: gives a short schematic name for that character,
23 #   abbreviated from the normative Unicode character name.
24 # Field 2: defines the joining type (property name: Joining_Type)
25 #   R Right_Joining
26 #   L Left_Joining
27 #   D Dual_Joining
28 #   C Join_Causing
29 #   U Non_Joining
30 #   T Transparent
31 #       See the Arabic block description for more information on these types.
32 # Field 3: defines the joining group (property name: Joining_Group)
33 #
34 # The values of the joining group are based schematically on character
35 # names. Where a schematic character name consists of two or more parts separated
36 # by spaces, the formal Joining_Group property value, as specified in
37 # PropertyValueAliases.txt, consists of the same name parts joined by
38 # underscores. Hence, the entry:
39 #
40 #   0629; TEH MARBUTA; R; TEH MARBUTA
41 #
42 # corresponds to [Joining_Group = Teh_Marbuta].
43 #
44 # Note: For historical reasons, the property value [Joining_Group = Hamza_On_Heh_Goal]
45 #   is anachronistically named. It used to apply to both of the following characters
46 #   in earlier versions of the standard:
47 #
48 #   U+06C2 ARABIC LETTER HEH GOAL WITH HAMZA ABOVE
49 #   U+06C3 ARABIC LETTER TEH MARBUTA GOAL
50 #
51 #   However, it currently applies only to U+06C3, and *not* to U+06C2.
52 #   To avoid destabilizing existing Joining_Group property aliases, the
53 #   value Hamza_On_Heh_Goal has not been changed, despite the fact that it
54 #   no longer applies to Hamza On Heh Goal, but only to Teh Marbuta Goal.
55 #
56 # Note: Code points that are not explicitly listed in this file are
57 # either of joining type T or U:
58 #
59 # - Those that not explicitly listed that are of General Category Mn, Me, or Cf
60 #   have joining type T.
61 # - All others not explicitly listed have type U.
62 #
63 # For an explicit listing of characters of joining type T, see
64 # the derived property file DerivedJoiningType.txt.
65 #
66 # There are currently no characters of type L defined in Unicode.
67 #
68 # #############################################################
69  
70 # Unicode; Schematic Name; Joining Type; Joining Group
71
72 # Arabic characters
73
74 0600; ARABIC NUMBER SIGN; U; No_Joining_Group
75 0601; ARABIC SIGN SANAH; U; No_Joining_Group
76 0602; ARABIC FOOTNOTE MARKER; U; No_Joining_Group
77 0603; ARABIC SIGN SAFHA; U; No_Joining_Group
78 0608; ARABIC RAY; U; No_Joining_Group
79 060B; AFGHANI SIGN; U; No_Joining_Group
80 0621; HAMZA; U; No_Joining_Group
81 0622; MADDA ON ALEF; R; ALEF
82 0623; HAMZA ON ALEF; R; ALEF
83 0624; HAMZA ON WAW; R; WAW
84 0625; HAMZA UNDER ALEF; R; ALEF
85 0626; HAMZA ON YEH; D; YEH
86 0627; ALEF; R; ALEF
87 0628; BEH; D; BEH
88 0629; TEH MARBUTA; R; TEH MARBUTA
89 062A; TEH; D; BEH
90 062B; THEH; D; BEH
91 062C; JEEM; D; HAH
92 062D; HAH; D; HAH
93 062E; KHAH; D; HAH
94 062F; DAL; R; DAL
95 0630; THAL; R; DAL
96 0631; REH; R; REH
97 0632; ZAIN; R; REH
98 0633; SEEN; D; SEEN
99 0634; SHEEN; D; SEEN
100 0635; SAD; D; SAD
101 0636; DAD; D; SAD
102 0637; TAH; D; TAH
103 0638; ZAH; D; TAH
104 0639; AIN; D; AIN
105 063A; GHAIN; D; AIN
106 063B; KEHEH WITH 2 DOTS ABOVE; D; GAF
107 063C; KEHEH WITH 3 DOTS BELOW; D; GAF 
108 063D; FARSI YEH WITH INVERTED V; D; YEH
109 063E; FARSI YEH WITH 2 DOTS ABOVE; D; YEH
110 063F; FARSI YEH WITH 3 DOTS ABOVE; D; YEH
111 0640; TATWEEL; C; No_Joining_Group
112 0641; FEH; D; FEH
113 0642; QAF; D; QAF
114 0643; KAF; D; KAF
115 0644; LAM; D; LAM
116 0645; MEEM; D; MEEM
117 0646; NOON; D; NOON
118 0647; HEH; D; HEH
119 0648; WAW; R; WAW
120 0649; ALEF MAKSURA; D; YEH
121 064A; YEH; D; YEH
122 066E; DOTLESS BEH; D; BEH
123 066F; DOTLESS QAF; D; QAF
124 0671; HAMZAT WASL ON ALEF; R; ALEF
125 0672; WAVY HAMZA ON ALEF; R; ALEF
126 0673; WAVY HAMZA UNDER ALEF; R; ALEF
127 0674; HIGH HAMZA; U; No_Joining_Group
128 0675; HIGH HAMZA ALEF; R; ALEF
129 0676; HIGH HAMZA WAW; R; WAW
130 0677; HIGH HAMZA WAW WITH DAMMA; R; WAW
131 0678; HIGH HAMZA YEH; D; YEH
132 0679; TEH WITH SMALL TAH; D; BEH
133 067A; TEH WITH 2 DOTS VERTICAL ABOVE; D; BEH
134 067B; BEH WITH 2 DOTS VERTICAL BELOW; D; BEH
135 067C; TEH WITH RING; D; BEH
136 067D; TEH WITH 3 DOTS ABOVE DOWNWARD; D; BEH
137 067E; TEH WITH 3 DOTS BELOW; D; BEH
138 067F; TEH WITH 4 DOTS ABOVE; D; BEH
139 0680; BEH WITH 4 DOTS BELOW; D; BEH
140 0681; HAMZA ON HAH; D; HAH
141 0682; HAH WITH 2 DOTS VERTICAL ABOVE; D; HAH
142 0683; HAH WITH MIDDLE 2 DOTS; D; HAH
143 0684; HAH WITH MIDDLE 2 DOTS VERTICAL; D; HAH
144 0685; HAH WITH 3 DOTS ABOVE; D; HAH
145 0686; HAH WITH MIDDLE 3 DOTS DOWNWARD; D; HAH
146 0687; HAH WITH MIDDLE 4 DOTS; D; HAH
147 0688; DAL WITH SMALL TAH; R; DAL
148 0689; DAL WITH RING; R; DAL
149 068A; DAL WITH DOT BELOW; R; DAL
150 068B; DAL WITH DOT BELOW AND SMALL TAH; R; DAL
151 068C; DAL WITH 2 DOTS ABOVE; R; DAL
152 068D; DAL WITH 2 DOTS BELOW; R; DAL
153 068E; DAL WITH 3 DOTS ABOVE; R; DAL
154 068F; DAL WITH 3 DOTS ABOVE DOWNWARD; R; DAL
155 0690; DAL WITH 4 DOTS ABOVE; R; DAL
156 0691; REH WITH SMALL TAH; R; REH
157 0692; REH WITH SMALL V; R; REH
158 0693; REH WITH RING; R; REH
159 0694; REH WITH DOT BELOW; R; REH
160 0695; REH WITH SMALL V BELOW; R; REH
161 0696; REH WITH DOT BELOW AND DOT ABOVE; R; REH
162 0697; REH WITH 2 DOTS ABOVE; R; REH
163 0698; REH WITH 3 DOTS ABOVE; R; REH
164 0699; REH WITH 4 DOTS ABOVE; R; REH
165 069A; SEEN WITH DOT BELOW AND DOT ABOVE; D; SEEN
166 069B; SEEN WITH 3 DOTS BELOW; D; SEEN
167 069C; SEEN WITH 3 DOTS BELOW AND 3 DOTS ABOVE; D; SEEN
168 069D; SAD WITH 2 DOTS BELOW; D; SAD
169 069E; SAD WITH 3 DOTS ABOVE; D; SAD
170 069F; TAH WITH 3 DOTS ABOVE; D; TAH
171 06A0; AIN WITH 3 DOTS ABOVE; D; AIN
172 06A1; DOTLESS FEH; D; FEH
173 06A2; FEH WITH DOT MOVED BELOW; D; FEH
174 06A3; FEH WITH DOT BELOW; D; FEH
175 06A4; FEH WITH 3 DOTS ABOVE; D; FEH
176 06A5; FEH WITH 3 DOTS BELOW; D; FEH
177 06A6; FEH WITH 4 DOTS ABOVE; D; FEH
178 06A7; QAF WITH DOT ABOVE; D; QAF
179 06A8; QAF WITH 3 DOTS ABOVE; D; QAF
180 06A9; KEHEH; D; GAF
181 06AA; SWASH KAF; D; SWASH KAF
182 06AB; KAF WITH RING; D; GAF
183 06AC; KAF WITH DOT ABOVE; D; KAF
184 06AD; KAF WITH 3 DOTS ABOVE; D; KAF
185 06AE; KAF WITH 3 DOTS BELOW; D; KAF
186 06AF; GAF; D; GAF
187 06B0; GAF WITH RING; D; GAF
188 06B1; GAF WITH 2 DOTS ABOVE; D; GAF
189 06B2; GAF WITH 2 DOTS BELOW; D; GAF
190 06B3; GAF WITH 2 DOTS VERTICAL BELOW; D; GAF
191 06B4; GAF WITH 3 DOTS ABOVE; D; GAF
192 06B5; LAM WITH SMALL V; D; LAM
193 06B6; LAM WITH DOT ABOVE; D; LAM
194 06B7; LAM WITH 3 DOTS ABOVE; D; LAM
195 06B8; LAM WITH 3 DOTS BELOW; D; LAM
196 06B9; NOON WITH DOT BELOW; D; NOON
197 06BA; DOTLESS NOON; D; NOON
198 06BB; DOTLESS NOON WITH SMALL TAH; D; NOON
199 06BC; NOON WITH RING; D; NOON
200 06BD; NOON WITH 3 DOTS ABOVE; D; NOON
201 06BE; KNOTTED HEH; D; KNOTTED HEH
202 06BF; HAH WITH MIDDLE 3 DOTS DOWNWARD AND DOT ABOVE; D; HAH
203 06C0; HAMZA ON HEH; R; TEH MARBUTA
204 06C1; HEH GOAL; D; HEH GOAL
205 06C2; HAMZA ON HEH GOAL; D; HEH GOAL
206 06C3; TEH MARBUTA GOAL; R; HAMZA ON HEH GOAL
207 06C4; WAW WITH RING; R; WAW
208 06C5; WAW WITH BAR; R; WAW
209 06C6; WAW WITH SMALL V; R; WAW
210 06C7; WAW WITH DAMMA; R; WAW
211 06C8; WAW WITH ALEF ABOVE; R; WAW
212 06C9; WAW WITH INVERTED SMALL V; R; WAW
213 06CA; WAW WITH 2 DOTS ABOVE; R; WAW
214 06CB; WAW WITH 3 DOTS ABOVE; R; WAW
215 06CC; DOTLESS YEH; D; YEH
216 06CD; YEH WITH TAIL; R; YEH WITH TAIL
217 06CE; YEH WITH SMALL V; D; YEH
218 06CF; WAW WITH DOT ABOVE; R; WAW
219 06D0; YEH WITH 2 DOTS VERTICAL BELOW; D; YEH
220 06D1; YEH WITH 3 DOTS BELOW; D; YEH
221 06D2; YEH BARREE; R; YEH BARREE
222 06D3; HAMZA ON YEH BARREE; R; YEH BARREE
223 06D5; AE; R; TEH MARBUTA
224 06DD; ARABIC END OF AYAH; U; No_Joining_Group
225 06EE; DAL WITH INVERTED V; R; DAL
226 06EF; REH WITH INVERTED V; R; REH
227 06FA; SEEN WITH DOT BELOW AND 3 DOTS ABOVE; D; SEEN
228 06FB; DAD WITH DOT BELOW; D; SAD
229 06FC; GHAIN WITH DOT BELOW; D; AIN
230 06FF; HEH WITH INVERTED V; D; KNOTTED HEH
231
232 # Syriac characters
233
234 0710; ALAPH; R; ALAPH
235 0712; BETH; D; BETH
236 0713; GAMAL; D; GAMAL
237 0714; GAMAL GARSHUNI; D; GAMAL
238 0715; DALATH; R; DALATH RISH
239 0716; DOTLESS DALATH RISH; R; DALATH RISH
240 0717; HE; R; HE
241 0718; WAW; R; SYRIAC WAW
242 0719; ZAIN; R; ZAIN
243 071A; HETH; D; HETH
244 071B; TETH; D; TETH
245 071C; TETH GARSHUNI; D; TETH
246 071D; YUDH; D; YUDH
247 071E; YUDH HE; R; YUDH HE
248 071F; KAPH; D; KAPH
249 0720; LAMADH; D; LAMADH
250 0721; MIM; D; MIM
251 0722; NUN; D; NUN
252 0723; SEMKATH; D; SEMKATH
253 0724; FINAL SEMKATH; D; FINAL SEMKATH
254 0725; E; D; E
255 0726; PE; D; PE
256 0727; REVERSED PE; D; REVERSED PE
257 0728; SADHE; R; SADHE
258 0729; QAPH; D; QAPH
259 072A; RISH; R; DALATH RISH
260 072B; SHIN; D; SHIN
261 072C; TAW; R; TAW
262 072D; PERSIAN BHETH; D; BETH
263 072E; PERSIAN GHAMAL; D; GAMAL
264 072F; PERSIAN DHALATH; R; DALATH RISH
265 074D; SOGDIAN ZHAIN; R; ZHAIN
266 074E; SOGDIAN KHAPH; D; KHAPH
267 074F; SOGDIAN FE; D; FE
268
269 # Arabic supplement characters
270
271 0750; BEH WITH 3 DOTS HORIZONTALLY BELOW; D; BEH
272 0751; BEH WITH DOT BELOW AND 3 DOTS ABOVE; D; BEH
273 0752; BEH WITH 3 DOTS POINTING UPWARDS BELOW; D; BEH
274 0753; BEH WITH 3 DOTS POINTING UPWARDS BELOW AND 2 DOTS ABOVE; D; BEH
275 0754; BEH WITH 2 DOTS BELOW AND DOT ABOVE; D; BEH
276 0755; BEH WITH INVERTED SMALL V BELOW; D; BEH
277 0756; BEH WITH SMALL V; D; BEH
278 0757; HAH WITH 2 DOTS ABOVE; D; HAH
279 0758; HAH WITH 3 DOTS POINTING UPWARDS BELOW; D; HAH
280 0759; DAL WITH 2 DOTS VERTICALLY BELOW AND SMALL TAH; R; DAL
281 075A; DAL WITH INVERTED SMALL V BELOW; R; DAL
282 075B; REH WITH STROKE; R; REH
283 075C; SEEN WITH 4 DOTS ABOVE; D; SEEN
284 075D; AIN WITH 2 DOTS ABOVE; D; AIN
285 075E; AIN WITH 3 DOTS POINTING DOWNWARDS ABOVE; D; AIN
286 075F; AIN WITH 2 DOTS VERTICALLY ABOVE; D; AIN
287 0760; FEH WITH 2 DOTS BELOW; D; FEH
288 0761; FEH WITH 3 DOTS POINTING UPWARDS BELOW; D; FEH
289 0762; KEHEH WITH DOT ABOVE; D; GAF
290 0763; KEHEH WITH 3 DOTS ABOVE; D; GAF
291 0764; KEHEH WITH 3 DOTS POINTING UPWARDS BELOW; D; GAF
292 0765; MEEM WITH DOT ABOVE; D; MEEM
293 0766; MEEM WITH DOT BELOW; D; MEEM
294 0767; NOON WITH 2 DOTS BELOW; D; NOON
295 0768; NOON WITH SMALL TAH; D; NOON
296 0769; NOON WITH SMALL V; D; NOON
297 076A; LAM WITH BAR; D; LAM
298 076B; REH WITH 2 DOTS VERTICALLY ABOVE; R; REH
299 076C; REH WITH HAMZA ABOVE; R; REH
300 076D; SEEN WITH 2 DOTS VERTICALLY ABOVE; D; SEEN
301 076E; HAH WITH SMALL TAH BELOW; D; HAH
302 076F; HAH WITH SMALL TAH AND 2 DOTS; D; HAH
303 0770; SEEN WITH SMALL TAH AND 2 DOTS; D; SEEN
304 0771; REH WITH SMALL TAH AND 2 DOTS; R; REH
305 0772; HAH WITH SMALL TAH ABOVE; D; HAH
306 0773; ALEF WITH DIGIT TWO ABOVE; R; ALEF
307 0774; ALEF WITH DIGIT THREE ABOVE; R; ALEF
308 0775; DOTLESS YEH WITH DIGIT TWO ABOVE; D; YEH
309 0776; DOTLESS YEH WITH DIGIT THREE ABOVE; D; YEH
310 0777; DOTLESS YEH WITH DIGIT FOUR BELOW; D; YEH
311 0778; WAW WITH DIGIT TWO ABOVE; R; WAW
312 0779; WAW WITH DIGIT THREE ABOVE; R; WAW
313 077A; YEH BARREE WITH DIGIT TWO ABOVE; D; BURUSHASKI YEH BARREE
314 077B; YEH BARREE WITH DIGIT THREE ABOVE; D; BURUSHASKI YEH BARREE
315 077C; HAH WITH DIGIT FOUR BELOW; D; HAH
316 077D; SEEN WITH DIGIT FOUR ABOVE; D; SEEN
317 077E; SEEN WITH INVERTED V; D; SEEN
318 077F; KAF WITH 2 DOTS ABOVE; D; KAF
319
320 # N'Ko Characters
321
322 07CA; NKO A; D; No_Joining_Group
323 07CB; NKO EE; D; No_Joining_Group
324 07CC; NKO I; D; No_Joining_Group
325 07CD; NKO E; D; No_Joining_Group
326 07CE; NKO U; D; No_Joining_Group
327 07CF; NKO OO; D; No_Joining_Group
328 07D0; NKO O; D; No_Joining_Group
329 07D1; NKO DAGBASINNA; D; No_Joining_Group
330 07D2; NKO N; D; No_Joining_Group
331 07D3; NKO BA; D; No_Joining_Group
332 07D4; NKO PA; D; No_Joining_Group
333 07D5; NKO TA; D; No_Joining_Group
334 07D6; NKO JA; D; No_Joining_Group
335 07D7; NKO CHA; D; No_Joining_Group
336 07D8; NKO DA; D; No_Joining_Group
337 07D9; NKO RA; D; No_Joining_Group
338 07DA; NKO RRA; D; No_Joining_Group
339 07DB; NKO SA; D; No_Joining_Group
340 07DC; NKO GBA; D; No_Joining_Group
341 07DD; NKO FA; D; No_Joining_Group
342 07DE; NKO KA; D; No_Joining_Group
343 07DF; NKO LA; D; No_Joining_Group
344 07E0; NKO NA WOLOSO; D; No_Joining_Group
345 07E1; NKO MA; D; No_Joining_Group
346 07E2; NKO NYA; D; No_Joining_Group
347 07E3; NKO NA; D; No_Joining_Group
348 07E4; NKO HA; D; No_Joining_Group
349 07E5; NKO WA; D; No_Joining_Group
350 07E6; NKO YA; D; No_Joining_Group
351 07E7; NKO NYA WOLOSO; D; No_Joining_Group
352 07E8; NKO JONA JA; D; No_Joining_Group
353 07E9; NKO JONA CHA; D; No_Joining_Group
354 07EA; NKO JONA RA; D; No_Joining_Group
355 07FA; NKO LAJANYALAN; C; No_Joining_Group
356
357 # Other
358
359 200D; ZERO WIDTH JOINER; C; No_Joining_Group
360 200C; ZERO WIDTH NON-JOINER; U; No_Joining_Group
361
362 # EOF