எல்லா எழுத்துக்களையும் அடிக்க - 20 வரியில் தமிழ் நிரல்

Saturday, February 20, 2010


வாக்கியத் தொகுப்பு(text processing) போன்ற அவக்கர வேலைகளுக்கு எளிய நிரல்மொழியான பைத்தான்-ஐ பாவித்துக்கொள்வேன். அதை தமிழ் மொழியிலும் பயன்
படுத்தவேண்டுமென்று ஆவல் இருந்தது. என் நீண்ட நாள் விருப்பம் இன்று நிரைவேறியது.
முதல் கட்டமாக எல்லா தமிழ் எழுத்துக்களையும் பதிக்க இந்த நிரலியை எழுதி உள்ளேன். புதிர் தயாரித்தல், வரிசைப் படுத்துதல் போன்ற தேவைகளுக்கு இந்த ஏற்பாடு உதவியாய் இருக்கும்.


1: # coding: utf-8
2: import sys

4: uyir = ("அ", "ஆ", "இ", "ஈ", "உ", "ஊ", "எ", "ஏ", "ஐ", "ஒ", "ஓ", "ஔ", "ஃ")
5: mey = ("க", "ங", "ச", "ஞ", "ட", "ண", "த", "ந", "ப", "ம", "ய", "ர", "ல", "வ", "ழ", "ள", "ற", "ன")
6: # கா கி கீ கு கூ கெ கே கை கொ கோ கௌ ஃ
7: thunai = ('\u0bbe', '\u0bbf', '\u0bc0', '\u0bc1', '\u0bc2', '\u0bc6', '\u0bc7', '\u0bc8', '\u0bca', '\u0bcb', '\u0bcc', '\u0bcd')

9: # உயிர் எழுத்துக்களைப் பதி
10: for u in uyir :
11: sys.stdout.write(u)
12: sys.stdout.write(" ")

14: # மெய் எழுத்துக்களைப் பதி
15: for m in mey :
16: sys.stdout.write("\n" + m)
17: for t in thunai:
18: sys.stdout.write(" ")
19: sys.stdout.write(m + t)

இந்த நிரலின் அமைப்பையும், அதன் கட்டளைகளையும் வரிசை எண் கிரமமாக கீழே விவரித்துள்ளேன்:
1. இந்த இழை UTF-8 ஒருங்குறி வகை சார்ந்தது
2. பதிப்பு பந்தம் (print function) உள்ளடக்கிய கட்டகத்தை நிறுவு
4. உயிர் எழுத்துக்களின் பட்டியல்
5. மெய்யெழுத்துக்கள்
7. துணை எழுத்து ஒருங்குறி குறியீடுகள்
10 பட்டியலில் உள்ள உயிர் எழுத்துக்கள் ஒவ்வொன்றையும்
11 பதி
12 இடைவெளி விடு
15 பட்டியலில் உள்ள மெய்யெழுத்து ஒவ்வொன்றையும் (--- உண்மையில் அகர வரிசை)
16 அடுத்த வரியில் பதி
17 பட்டியலில் உள்ள துணை எழுத்து ஒவ்வொன்றுக்கும்
18 இடைவெளி விடு
19 மெய் + துணை எழுத்தை பதி
விண்டோசில், பைத்தான் நிறுவியது போக, எக்ளிப்ஸ் (கிரகணம் என்றால் தப்பாக எடுத்துக்கொள்வீர்களா?)-உடன் பைடெவும் (pydev) நிறுவிக்கொண்டேன்.

யுனிக்ஸ்/லினக்ஸ் இயங்குதளத்தில் முனையத்திலேயே தமிழ் வரும் என்பதால் இவற்றைபயன்படுத்த வேண்டும் என்ற கட்டாயம் இல்லை.
பைத்தான் கற்றுக்கொள்ள மிகவும் எளிய நிரல் மொழியாகும். அடுத்ததாக எதும் பயனுள்ள நிரல்கள் எழுதினால் உங்களோடு பகிர்ந்து கொள்கிறேன்.

தொடர்புடைய சுட்டிகள்:

பைத்தான்: http://www.python.org
தமிழ் ஒருங்குறி UTF-8 பட்டியல்: http://www.utf8-chartable.de/unicode-utf8-table.pl?start=2944&number=128&unicodeinhtml=dec
http://www.eclipse.org/
http://pydev.org/

0 மறுமொழிகள்:

Post a Comment