Feed on
Posts
Comments


Language Technology Research Laboratory has released online
Sinhala language related statistics. The research outcomes are based on 10 million word database (LTRL Corpus).

  • Most frequently used Sinhala words
  • Pats of Speech(POS) Tags for Sinhala
  • LTRL’s TTS (Text to Speech) System for Sinhala won the best innovative product at the IITC 2008 exhibition. Text to Speech system for Sinhala was released in March 2007 at the LTRL software launch. TTS is a free and open source software which works on Linux and Windows platforms as well. Now it is being widely used in the visually impaired community.
    Thank you very much; Mr. Asanka Wasala & Mr. Viraj Welgama, Research assistants of LTRL for your hard work.


    Image source :http://www.itpro.lk/?q=node/1554

    On the 22nd of September, 2008 Language Technology Research Laboratory conducted a Workshop at Sri Lanka College of Journalism - Colombo 7. The workshop focused on introducing the web as a new publishing media. Blogs, other social networking sites, and Wikis were introduced as latest trends in the new web publishing sphere. Further an awareness of the use of Sinhala & Tamil Unicode in web publishing was given.

    The Agenda was:

    • Introduction to Unicode
    • Introduction to Wikipedia
    • Introduction to Blogs
    • Web 2.0

    Language Technology Research Laboratory (LTRL) conducted a two day workshop at the University of Sabaragamuwa on the 12th, 13th June 2008. The workshops basically focused on introducing Sinhala Unicode system, its various usages and benefits. In addition the latest web technologies such as Blogs, Wikis, and Social networking (web 2.0 applications) were introduced.

    Workshop day one (12-07-2008):

    The workshop was aimed at introducing modern web concepts (web 2.0). Introduction to the Blogs & Introduction to the Wikis sessions were done as major part of Web 2.0 concept. Hands on experience in Blogging & Contributing to the Wikipedia in Sinhala Language were very interesting experiences for all participants.

    Workshop Agenda:

    • Introduction
    • Introduction to Sinhala Unicode
    • Structure of Internet
    • Web 2.0
    • Introduction to Blogs
    • Hands on session on Blogging
    • Introduction to Wikis
    • Contribute to the Wikipedia

    Workshop day two (13-07-2008):

    The day two was a little bit different from that of day one. Because the workshop was designed for Sinhala Unicode usage and introducing interesting tools for working with it. Practical Blogging session was a good experience to all as on the previous day.

    Workshop Agenda:

    • Importance of localization
    • Introduction to Sinhala Unicode
    • Introduction to Blogs
    • Hands on session on Blogging
    • Sinhala Unicode Installation
    • Hands on sessions on Sinhala Unicode


    EnSiTip now works with Firefox 3! New features introduced in EnSiTip-AR are given below. EnSiTip-AR will be released in parallel to Firfox 3 launch.
    View some screen-shots of EnSiTip-AR.

    Features introduced in EnSiTip-AR:

    • Supports Firefox 3
    • Custom font support - Now you can choose your favorite font: Potha, LKLUK, Malithi Web
    • Custom dictionary support: You can add your own dictionaries (this means, EnSiTip is now universal and you can add other languages too).
    • Automatically translate text inside controls (e.g. buttons)
    • Easy translation with context menu suggestions
    • Fixed errors in Sinhala entries
    • Improved efficiency

    Venue : Sri Lanka College of Journalism - Colombo-07

    Date and time :28-September-2007 (9.00 am to 4.00pm)

    Program :

    • Introduction to Unicode
    • Online Journalism
    • Web 2.0 & e- Journalism
    • Wikipedia & Blogs
    • Practical Session

    Introduction to Unicode
    By Mr:Viraj Wellgama & Mr Premkumar(In Tamil)


    Online Journalism

    Mr:Viraj Wellgama & Mr Premkumar(In Tamil)

    Web 2.0 & e-Journalisum

    Mr:Asanka Wasala & Mr Premkumar(In Tamil)

    The topics which Mr Asanka was explained how and why Web 2.0 important to journalist and its usage, are shown below. He explained the Different between other media like news papers and multimedia too in that presentation.

    • You tube
    • Del.icio.us
    • Blog
    • Wikipedia
    • Fliker

    Practical Session
    LTRLTeam

                       
    Program was assisted by: Chamila Liyanage and Asiri Ranasinghe.

    *Parallel sessions in Tamil were conducted by Premkumar.

    LTRL meets with CBOs

    In order to strengthen its efforts in disseminating computer localization and related technologies through out the country, LTRL met with some of the island’s leading community based organizations (CBOs) on August 21st, 2007.
    The meeting

    අන්තර්ගත සපයන්නන් සමඟ පැවති සාකච්ඡාව - 24/07/2007

    පෙ.ව. 10.00-12.00.

    ආචාර්ය රුවන් වීරසිංහ මහතා විසින් සභාව පිළිගැනීම සහ අරමුණ පැහැදිළි කිරීම.

    • පසුගිය වසර 3ක කාලය තුළ භාෂා තාක්ෂණ පර්යේෂණාගාරය කරන ලද විවිධ ව්‍යාපෘති සහ ඒවායේ ප්‍රතිඵල පිළිබඳ සංක්‍ෂිප්ත විග්‍රහයක් කිරීම.

    සාකච්ඡාවේ අරමුණු පැහැදිලි කිරීම-

    • පරිගණක දේශීයකරණය පිළිබඳ පැමිණ සිටි පිරිස දැනුවත් කිරීම.
    • පෑන් දේශීයකරණ ව්‍යාපෘතියේ දෙවන අදියර පිළිබඳ හැඳින්වීම සහ පැමිණ සිටි අයගේ කාර්යභාරය විස්තර කිරීම.
    • භාෂා තාක්ෂණ පර්යේෂණාගාරයේ මීළඟ අදියරේ කාර්යභාරය පිළිබඳව පැමිණ සිටි අයගේ අදහස් සහ යෝජනා විමසා සිටීම.

    සාකච්ඡා සැසිය.
    —————-

    අර්ජුන රණවන මහතා:

    • ශ්‍රී ලංකා ජන සන්නිවේදන ආයතනයේ කාර්යභාරය පිළිබඳ හැඳින්වීම.
    • පාසල් හැරගිය පිරිස්, මාධ්‍ය වෘත්තිකයන් සහ අර්ධ කාලීන වෘත්තිකයන්ගේ නිපුණතා සංවර්ධනය.
    • පරිගණක දේශීයකරණය අවශ්‍යය ද නැති ද පිළිබඳව සංවාදයක අවශ්‍යතාව ය. (එක් දින හෝ දෙදින වැඩමුළුවක්)
    • ඒ සඳහා ප්‍රවීණ මාධ්‍යවේදීන්, සංස්කාරකවරු සහ ආයතන ප්‍රධානීන්ගේ සහභාගීත්වයේ වැදගත්කම.
    • මුද්‍රිත ලේඛන (ඉලෙක්ට්‍රොනික පිටපත්)පරිගණක භාවිතය(උදා. corpus, wikipedia ) සඳහා යොදා ගැනීමේ දී ඒවායේ අයිතිය පිළිබඳ නීතිමය ගැටලු නිරාකරණය කර ගැනීම.
    • භාෂා සංගායනාවක අවශ්‍යතාව ය. (standardizing language - e.g. in media usage)
    • ලිඛිත මාධ්‍යයේ ප්‍රමිතිකරණයක් ගොඩ නැගීම.
    • ජනමාධ්‍යවේදීන් ප්‍රමිතිගත භාෂාව භාවිතයෙහිලා දිරි ගැන්වීම.

    සේනානි හරිස්චන්ද්‍ර මහතා(ශ්‍රී ජයවර්ධනපුර විශ්වවිද්‍යාලය):

    • පරිගණක තාක්ෂණය පිළිබඳ විශ්වවිද්‍යාල ශිෂ්‍ය/ශිෂ්‍යාවන්ගේ දැනුම ප්‍රමාණවත් නො වන නිසා ඔවුන් දැනුවත් කිරීමේ දැඩි අවශ්‍යතාවක් පවති.
    • සිය නිබන්ධන සැකසීම සඳහා තමන් විසින් ම පරිගණක භාවිත කරන්නේ විශ්වවිද්‍යාල සිසුන් අතලොස්සක් පමණි.
    • ඔවුන් අතරින් බොහෝ දෙනෙක් පෞද්ගලික ආයතනවලින් යතුරුලියන සහ මුද්‍රණ කටයුතු කරගනි. ඔවුන් සිය නිබන්ධවල ඉලෙක්ට්‍රොනික පිටපත් ලබා ගැනීමට සැලකිලිමත් වන්නේ ද නැත.
    • සිසුන් තම ඉලෙක්ට්‍රොනික පිටපත් ලබා ගැනීම සඳහා උනන්දු කළ යුතු බව සහ ඒවා සංරක්‍ෂණය කිරීමේ අවශ්‍යතාවක් පවතින බව පැහැදිළි කිරීම.
    • සිසුන් පරිගණක තාක්ෂණය පිළිබඳව දැනුවත් කිරීමේ වැඩමුළු පැවැත්වීමේ අවශ්‍යතාවක් පවති.

    අර්ජුන රණවන මහතා:

    • සිංහල පරිගණක යතුරු ලියන කටයුතු ප්‍රමිතිගත කිරීමේ අවශ්‍යතාව. (යුනිකෝඩ් භාවිතය - යතුරු පුවරුව)
    • පරිගණක භාවිත කරන්නන් අතර සිංහල යතුරු පුවරුව භාවිතය ව්‍යාප්තකිරීමේ අවශ්‍යතාව. උදා. සියලු මාධ්‍යවේදීන් හට සිංහල යතුරු පුවරුව භාවිත කළ හැකි විය යුතුයි.

    වින්සන්ට් හලහකෝන් මහතා:

    • සිංහල යතුරු පුවරුව ඉගැන්වීමේ මෘදුකාංගයක අවශ්‍යතාව (Sinhala Typing Tutor) පවති.

    අර්ජුන රණවන මහතා:

    • අන්තර්ජාලයේ ලිපි ලේඛන පරිහරණය කිරීම පිළිබඳ ආචාර ධර්ම පද්ධතියක් ඇති කිරීම, බුද්ධිමය දේපල පනත බල ගැන්වීම සහ ඊට අවශ්‍යය සංශෝධන ඇතුළත් කිරීම. (netiquette)
      උදා. ලක්බිම පුවත්පතේ පළ කිරීම උදෙසා වියුණු සටහන්වල (blog) ලිපි ලේඛන යොදා ගැනීම.
    • CNN සහ BBC ආදි මාධ්‍ය අනුගමනය කරන ප්‍රතිපත්ති අධ්‍යයනය කිරීම වැදගත්ය.

    අනුර තිසේරා මහතා:

    • දැනට බොහෝ දුරට පවතින්නේ දේශපාලන වියුනු සටහන්,වෙනත් ක්ෂෙත්රවල ද වියුනු සටහන් භාවිතය ක්රමයෙන් ව්යාප්තවීම දක්නට ලැබුන ද, වියුනු සටහන් ව්යාප්ත කිරීමේ අවශ්යතාවක් පවති.
    • ජනමාධ්‍යවේදීන්ගේ ලිපි ලේඛන ගබඩා කිරීමේ ආවේනික ක්‍රමවේදයක අවශ්‍යතාවක් ද පවති.(need of a native document format to used by the journalists e.g.xml defining title, authors, keywords, content etc)
    • මෙය විවෘත ලේඛන ශෛලියක් වීම වැදගත්.(open document format)
    • මුද්‍රණය කරන්නාට පහසුවෙන් අන්තර්ගතය ලබාගත හැකි විය යුතුයි.(transformable)
    • ජනමාධ්‍යවේදියාට යථෝක්ත විවෘත ලේඛන හා ශෛලිය හා එහි තාක්‍ෂණික පසුබිම තේරුම් ගැනීමට කාලයක් ගතවන නිසා ඔවුන්ගේ භාවිතයට උචිත ඉතා සරල මෘදුකාංග නිෂ්පාදනය වැදගත් වේ.(it takes time to learn open document format e.g .xml by a journalists. therefore if you can develop a simple editor to be used by them it will be conveineieut.)
    • යට කී ලේඛන ශෛලිය (xml) සංරක්ෂණය කිරීම පහසු විය යුතු ය.(format ready for archival)
    • යතුරු ලියනය කරන අවස්ථාවේ උපරිම තොරතුරු ප්‍රමාණයක් ඇතුලත් කිරීම වැදගත් (ඉතාම සුදුසු )
    • SLIIT මගින් වචන 2500-3000ක් පමණ ඇතුලත් අක්‍ෂර වින්‍යාස පරීක්ෂණ මෘදුකාංගයක් නිපදවුව ද එය ප්‍රමාණවත් නෑ. එම මෘදුකාංගය වැඩි දියුණු කිරීම හෝ අලුතින් මෘදුකාංගයක් නිපදවීම වැදගත්. එය වචන වාග් සංහිතාව (corpus) ඇසුරින් ලබා ගැනීම වැදගත්.
    • රජයේ ප්‍රකාශනවල ප්‍රමිතියක් තිබීම අවශ්‍යයි.

    නෙරංජන් බණ්ඩාර මහතා:

    • Adobe මෘදුකාංග යුනිකෝඩ් සම්මතයට අනුකූල නැතිවීම ගැටළුවකි.
    • Windows 2000,2003වල සිංහල යුනිකෝඩ් වැඩ නො කිරීම ද ගැටළුවකි.

    ආචාර්ය රුවන් වීරසිංහ මහතා:

    • විවෘත සහ නිදහස් මෘදුකාංග (free and open source software) භාවිතයට ජනතාව නැඹුරු කළ නොහැකි ද?

    අර්ජුණ රණවන මහතා:

    • වානිජ ක්‍ෂේත්‍රවල ඉල්ලුමක් පවතින්නේ Adobe වැනි විවෘත නොවන මූලාශ්‍රවලට නිසා ශිෂ්‍යයින්ට එම මූලාශ්‍ර දෙක පිළිබඳව ම ඉගැන්වීම වැදගත්.

    අනුර තිසේරා මහතා(ලේක්හවුස් ආයතනය):

    • විවෘත මූලාශ්‍රමය මෘදුකාංග (open-source) හොඳින් දන්නා අයෙකු කොන්ත්‍රාත් පදනම යටතේ හෝ තාවකාලික ව සේවයේ යොදවා ආයතනවල කාර්යමණ්ඩල පුහුණු කිරීම, උදව් ලබා ගැනීම. ( ලිපි ලේඛන සැකසීම, රූප නිර්මාණය, graphics වැනි කටයුතු සඳහා)

    ආචාර්ය රුවන් වීරසිංහ මහතා:

    • විවෘත නොවන මූලාශ්‍රමය මෘදුකාංගවලට තිබෙන විකල්ප විවෘත මූලාශ්‍රමය මෘදුකාංග මොනවාද යන්න සොයා බැලිය යුතුය. ඒවායේ කෙතරම් පහසුකම් තිබේ ද යන්න සහ සිංහල යුනිකෝඩ් කොතරම් දුරට ඒවා සමඟ වැඩ කරනවා ද යන්න සොයා බැලිය යුතු ය.

    සේනානි හරිස්චන්ද්‍ර මහතා:

    • සරසවි සිසුන් පරිගණක තාක්ෂණය පිළිබඳ දැනුවත් කිරීමේ දැඩි අවශ්‍යයතාවක් පවති.

    අනුර තිසේරා මහතා:

    • භාවිතයට හුරු කිරීම මඟින් වඩා හොඳින් දැනුවත් කිරීම කළ හැකි ය, නැතහොත් අලුත් කණ්ඩායම් පැමිණි විට යළි යළි වැඩ මුළු සංවිධානය කිරීමට සිදු වේ.
    • ශිෂ්‍ය නිබන්ධන සඳහා ප්‍රමිතියක් හා ශෛලියක් (format) තිබිය යුතු ය. e.g. using latex - dr. Ruvan)

    දුලිප් ලක්මාල් හේරත් මහතා:

    • ශිෂ්‍යයන්ට වැඩමුළුවලට අමතරව දෙපාර්තමේන්තුවේ/අංශයේ කාර්යමණ්ඩලයේ හෝ අචාර්ය මණ්ඩලයේ යම්කිසි අයෙක් පුහුණු කිරීම වඩා උචිතය.
    • නිබන්ධනවල ඉලෙක්ට්‍රොනික පිටපත් ලබා ගැනීමට සහ සංරක්ෂණය කිරීමට උනන්දු කළ යුතු බව.

    නේරංජ බණ්ඩාර මහතා:

    • නව තාක්ෂණය පිළිබඳ සිංහලයෙන් පොතක් පළ කිරීම වැදගත් වේ.
    • Fonts මදිවීම ගැ‍ටළුවකි.
    • යුනිකෝඩ්වලට මිනිසුන් නැඹුරු නො වීම ගැටළුවකි. FM අභය වැනි font තව දුරටත් භාවිතය ගැටළුවකි.

    ස්තූතියි.

    Minutes of the meeting held with content providers


    Time: 10.00 am - 12.00 am

    Date: 24-07-2007

    Venue: ADMTC Lab A

    Dr. Ruvan Weerasinghe welcomed the gathering and briefed the achievements/results of the 1st phase of PAN localization project.

    · Explained the objectives of the meeting

    · Introduced the software localization, and explained LTRL’s involvement in software localization

    · Described the proposed activities (vision/mission) and objectives of the 2nd phase of the pan localization project

    · The audience was asked suggest possible activities to be carried out at LTRL during the next three years

    · Explained the importance of archiving electronic content

    Discussion Session

    Mr. Arjuna Ranawana:

    - Briefed about the work carried out at SLCJ

    o Capacity building in Media for School leavers, Mid-career and Part-time students

    - Emphasized on need of a workshop(debate) to discuss the importance and necessity of localization

    - Get the views of senior journalists, editors

    - To discuss ownership issues of electronic content (when published or used in corpus/wikipedia)

    - To discuss issues of standardizing language

    - To define a written language media standard

    - Force journalists to use standardized language

    Mr. Senani Harischandara:

    - Lack of ICT awareness among the university students

    - ICT/Sinhala technology awareness program for university students

    - Only few students are using computers themselves to prepare thesis

    - dissertations are typed and printed using computers (from bookshops etc)

    Mr. Arjuna Ranawana:

    - Issues with the attitudes/capabilities of (Sinhala) typists

    Mr. Vincent Halahakone:

    - Need of a Sinhala typing tutor software

    Mr. Arjuna Ranawana:

    - Need for a sense of ‘netiquette’, refined intellectual laws, and force journalists/people to adhere to high standards of ethics and integrity in using web

    e.g. Lakbima publishing content extracted from blogs

    Mr. Anura Thisera:

    - Most of the Sri Lankan blogs are about politics. However, people are gradually moving onto other areas such as technology and so on. We need to encourage people to blogging.

    - Need of a native and open document format to be used by journalists (XML)

    - Publisher(printer) should be able to easily extract/format the printable content

    - Facilities to mark up author, keywords and other useful information

    - This format should be ready for archival

    - Formats such as NEWSML are already exists, however journalists are not technicians so it takes time to learn such format. Therefore, it’s ideal if a simple editor can be created for them to use.

    -i.e. Editor will taken care of the markup. journalist just use the GUI

    - it is wiser to collect as much as information at the time of inputting(key-in) data.

    - SLIIT has developed a Sinhala spell checker - however due to small lexicon size (2500-3000 words) it cannot be used in professional daily work, i.e. not reliable

    - it is better if this software can be improved, or a new software can be created for this purpose

    - spell checker is better than a predictive text application

    - one possibility is to use the words obtained from the corpus for this tool (some amount of processing is needed)

    - government documents must adhere to a standard (document format)

    Mr. Neranja Bandara:

    - Sinhala Unicode does not work with Windows 2000, Windows 2003 and Adobe products

    Dr. Ruvan Weerasinghe:

    - Enforce community to use open-source alternatives

    Mr. Arjuna Ranawana:

    - Due to the industry’s and students’ demand it is difficult for moving into open-source products (Adobe alternatives)

    - But, both (free/commercial) can be taught

    Mr. Anura Thisera:

    - Hire a person familiar with open-source DTP products (1 year contract) and train staff, let him find issues

    Dr. Ruvan Weerasinghe:

    -Need to find what are the popular commercial DTP applications and what support they have? what are the parallel/alternative open-source products?

    Mr. Senani Harischandara:

    - Necessity of a ICT training program to students

    Mr. Anura Thisera:

    - Usage should force students to learn ICT/Sinhala Unicode

    - Enforce standards to students dissertations

    Mr. Dulip Herath:

    - Better to train someone from the department rather than only students

    - Defining standards to thesis

    - Commencing computational linguist course

    Mr. Neranjan Bandara:

    - Publish a book containing latest ICT technologies in Sinhala

    - Lack of Unicode fonts

    - People are still using proprietary fonts and some are reluctant to move into Unicode

    In order to increase its contribution to local language content and resource development in future, LTRL held an initial meeting with some of the island’s leading publishers and media personnel on July 25th, 2007.
    The meeting

    Older Posts »