පෑන් දේශීයකරණ ව්යාපෘතිය - පළමු අදියර
මෙම ව්යාපෘතියේ පළමු අදියර ලෙස, පරිගණකගත සම්පත් දෙකක් සහ වාණිජ මට්ටමේ මෘදුකාංග දෙකක් අප විසින් එළි දක්වා ඇත. මේ සම්පත් සහ මෘදුකාංග වාණිජමය නොවන භාවිතයන් සඳහා නොමිලේ ලබාගතහැක.
- වචන කෝටියක වාක් සංහිතාව (Text Corpus)
- සිංහල, දෙමළ හා ඉංග්රීසි ශබ්දකෝෂය (Lexicon)
- ලේඛන කථනයට හැරවීමේ මෘදුකාංගය (TTS)
- මුද්රිත අකුරු හඳුනා ගැනීමේ මෘදුකාංගය (OCR)
|
.....................................................................................................................................
|
වාක් සංහිතාව සහ වාක් සංහිතා විශ්ලේෂණ මෘදුකාංගය
භාෂා පැසුරුම්කරණයේ විවිධ කටයුතු සඳහා අවශ්ය වාක් සංහිතාවක් නිර්මාණය මෙහි අරමුණ විය. පරිගණකගත කරන ලද සිංහල පෙළ විශාල ප්රමාණයක් යුනිකෝඩ් සම්මයට අනුකූලව මෙහි අඩංගු වෙයි. වචන 10,000,000 අඩංගු මෙම වාක් සංහිතාව ඔබට දැන් පර්යේෂණ කටයුතු සඳහා ලිඛිතව ඉල්ලුම්කර ලබාගත හැකිය. ඉදිරියේදී මෙය සමබර වාක් සංහිතාවක් ලෙස වැඩිදියුණු කරනු ලැබේ.
මෙතෙක් පැවති වාක් සංහිතා විශ්ලේෂක මෘදුකාංග සිංහල යුනිකෝඩ් සඳහා නිසි ලෙස සහය නොදක්වන හෙයින් එවැනි මෘදුකාංගයක අවශ්යතාව තදින්ම දැණිනි. අප නිර්මාණය කළ මෙම ජාවා පදනම් කරගත් (Java-based) මෙහෙයුම් පද්ධතිවලින් ස්වායත්ත (platform-independent) මෘදුකාංගය ඕනෑම යුනිකෝඩ් වාක් සංහිතාවක් සඳහා සහාය දක්වයි. මෙම මෘදුකාංගය ද ඔබට වාක් සංහිතාව සමඟ ලබාගත හැකිය.
මෙම වාක් සංහිතාව ගොඩනැගීමේදී අප එකතු තළ පෙළ විවිධ ෆොන්ට් සම්මුතියන් භාවිතයෙන් පරිගණකගත කර තිබූ නිසා එම පෙළ යුනිකෝඩ් ප්රමිතියට හැරවීමට අප විසින් මෙවලමක් නිර්මාණය කරන ලදී. එයද අවශ්යනම් ඔබට මෙහිදී බාගත හැකිය.
මේ වාක් සංහිතාව පහත සඳහන් පියවර වලින් වර්තමාන තත්වයට වර්ධනය විය.
- රාජ්ය ලිපි ලේඛන එක් රැස් කිරීම
- ප්රකාශකයින් සමඟ අන්තර්ගතය සඳහා සාකච්ඡා කිරීම හා එක් රැස් කිරීම
- සංචිත (archived) වෙබ් අන්තර්ගතයන් එක් රැස් කිරීම
- මුද්රිත අන්තර්ගතයන් යුනිකෝඩ් ලෙස පරිගණක ගත කිරීම
- යුනිකෝඩ් නොවන පෙළ ඇති සුලභ ෆොන්ට් සම්මතයන් හඳුනා ගැනීම
- එම පෙළ යුනිකෝඩ් බවට පෙරලීමට පරිවර්තන වගු නිර්මාණය
- එලෙස පෙළ යුනිකෝඩ් බවට පෙරලීම
- වාක් සංහිතාව නිර්මාණය කිරීම
|
 |
ශබ්දකෝෂය
මෙම ශබ්ද කෝෂයේ වචන 25,000 කට වැඩි පුමාණයකින් ඇතැම් ව්යාරකරණ විස්තර සහිතවම අඩංගු වේ. තවද, වචනවල සිංහල තේරුමට අමතරව සුලබ සිංහල වචන සඳහා දෙමළ හා ඉංග්රීසි පරිවර්තන ද මෙහි අඩංගුය. මෙම ශබ්දකෝෂය ද ඔබට බාගත හැකිය.
මෙම ශබ්දකෝෂය ගොඩනැංවීමේදී පහත පියවරවල් අනුගමනය කෙරිණි.
- මුද්රිත ශබ්දකෝෂ දත්ත එකතු කිරීම
- එම අන්තර්ගතයන් යුනිකෝඩ් ක්රමයට පරිගණකගත කිරීම
- පරිගණකගත ශබ්දකෝෂ දත්ත එකතු කිරීම
- එම දත්ත යුනිකෝඩ් බවට පරිවර්තනය කිරීම
- දත්ත සංස්කරණය මඟින් අවශ්ය තොරතුරු උකහා ගැනීම
- මුද්රණ දෝෂ හා වැරදි නිවැරදි කිරීම
- ශබ්දකෝෂය නිර්මාණය කිරීම
- ශබ්දකෝෂය සඳහා විත්රක අතුරුමුහුණත නිර්මාණය කිරීම
|
 |
ලේඛන කථනයට හැරවීමේ මෘදුකාංගය
පර්යේෂණ මට්ටමින් සිංහල ලේඛන කථනයට හැරවීමේ මෘදුකාංග පිලිබඳව කොළඹ විශ්ව විද්යාලයීය පරිගණක අධ්යයනායතනයේ කටයුතු කෙරුණද මෙම ව්යාපෘතියේ අරමුණ වූයේ වාණිජ මට්ටමේ එවැනි මෘදුකාංගයක් නිෂ්පාදනය කිරීමයි. එහෙයින් මේ දක්වා අප උත්සාහයන් යොමුවූයේ මෙම කටයුත්තෙහි ගුණාත්මක භාවය ඉහල නැංවීමටයි. සිංහල ශබ්දමාලාව හඳුනා ගැනීම, අදාල වාක්යාංශ පටිගත කර සංහිතාවකට ඇතුල් කිරීම සහ පෙළ විශ්ලේෂකයක් නිර්මාණය කිරීමට අමතරව මෙම ව්යා පෘතිය මඟින් ස්වාභාවික ලෙස සිංහල උච්චාරණට හැකි සංයෝජක මෘදුකාංගයක් ද නිමවන ලදී. මෙම මෘදුකාංගය ද ඔබට බාගත කළ හැකිය.
මෙහිදී මූලික ක්රමවේදය ලෙස අපි යොදාගත්තේ ද්වි-ශබ්ද (diphone) ඈඳීමයි. මේ සඳහා අපි පහත සඳහන් පියවරවල් අනුගමනය කළෙමු.
- පෙළ විශ්ලේෂකය:
- සිංහල පෙළ නොවන දේ සහ ඒවා සිංහල පෙළ බවට පෙරළිය හැකි ක්රම අධ්යයනය කිරීම
- පෙළ විශ්ලේෂකයක අතුරුමුහුණත නිර්ණය කිරීම
- පෙළ විශ්ලේෂකයක අතුරුමුහුණත නිර්මාණය කිරීම
- ශබ්දානුසාරකය:
- සිංහල ශබ්ද විද්යාව අධ්යයනයනය කිරීම
- ශබ්ද පිළිබඳ ක්ෂේත්රයීය වචනමාලාව හඳුනාගැනීම
- සුලබම ද්වි-ශබ්ද (diphone) පටිගත කිරීම සඳහා වාක්ය සැකසීම
- ශබ්ද සංස්කාරකය නිර්ණය කිරීම
- ද්වි-ශබ්ද (diphone) සංහිතාව ගොඩනැගීම
- ශබ්ද සංස්කාරකය නිර්මාණය කිරීම
- මෙම සියළු කොටස් එකතු කර ලේඛන කථනයට හැරවීමේ මෘදුකාංගය නිර්මාණය කිරීම
|
 |
මුද්රිත අකුරු හඳුනාගැනීමේ මෘදුකාංගය
කොළඹ විශ්ව විද්යාලයීය පරිගණක අධ්යයනායතනය මුද්රිත අකුරු හඳුනාගැනීමේ මෘදුකාංග පිළිබඳව කළ පෙර උත්සාහයන් මූලික වශයෙන් යොමුවූයේ මේ කටයුත්ත සඳහා වඩාත්ම ඔබින ක්රමවේදය සොයාගැනීමටයි. මෙහිදී අප අරමුණ වූයේ ඉහත කී ප්රයත්නයන්හි ප්රතිඵල නිෂ්පාදනයක් ලෙස එළි දැක්වීමයි. මුලින් මෙම මෘදුකාංගය සුලබ භාවිතයේ වූ ෆොන්ට් සඳහා නිර්මාණය කර තිබුන ද ඉදිරියේදී එය ෆොන්ට්වලින් ස්වායත්ත මෘදුකාංගයක් බවට පත්කරනු ලැබේ.
මෙම මෘදුකාංගය ද ඔබට දැන් බාගත හැකිය.
මෙම මුද්රිත අකුරු හඳුනාගැනීමේ මෘදුකාංගය නිර්මාණයේදී පහත සඳහන් පියවර අනුගමනය කෙරිණි.
- පෙර සැකසුම් කටයුතු:
- ලේඛන පරිලෝකනය කිරීම (scanning) සහ ආනති හඳුනා ගැනීම
- දෝෂ හඳුනා ගැනීම හා ඉවත් කිරීම
- පෙළ ලක්ෂණ හා අක්ෂර ලක්ෂණ උකහා ගැනීම
- දත්ත එක්රැස් කිරීම:
- නියෝජිත පෙළ (representative text) හඳුනා ගැනීම
- පුහුණු, සහතික කරන හා පරීක්ෂක පෙළ කුලක බෙදීම
- සැකසුම:
- ලක්ෂණ උකහාගැනීම හා රටා ගැලපීම
- වෙනත් තරඟකාරී ඇල්ගොරිදම පරීක්ෂා කිරීම
- ඇල්ගොරිදමය සියුම් සැකසීම (optimization)
- මෘදුකාංගය නිර්මාණය
|
 |
|