GeMUG
  • მთავარი
  • სიახლეები
  • მიმოხილვა
  • ხრიკები
  • პოდკასტი
No Result
View All Result
GeMUG
  • მთავარი
  • სიახლეები
  • მიმოხილვა
  • ხრიკები
  • პოდკასტი
No Result
View All Result
GeMUG
No Result
View All Result

ქართული სიტყვების სია | Georgian Word List

დიმიტრი გოგელია by დიმიტრი გოგელია
25/04/2011
in სხვადასხვა
Reading Time: 2 mins read
A A
0
3.3k
VIEWS
Share on FacebookShare on Twitter

განმარტება: მართალია, ეს სტატია აქ კვლავ დევს, მაგრამ სამწუხაროდ პროექტის ფაილები დიდი ხანია, რაც დაზიანდა და აღარ არსებობს. შესაბამისად, ტყუილად ნუ მოიწერებით წერილს, სამწუხაროდ ვერაფრით დაგეხმარებით.

ძვირფასო მოგობრებო!

მაქვს პატივი წარმოგიდგინოთ ჩემი საკმაოდ შრომატევადი მუშაობის შედეგი: ქართულ სიტყვათა სია, ე.წ. „Word List“-ი. პროექტი ფრიად შთამბეჭდავია თავისი მოცულობით.
პირველ ეტაპზე ინტერნეტში არსებული ღია წყაროებიდან (საჯარო ბიბლიოთეკის ვებ-გვერდი, ქართული ჟურნალ-გაზეთების არქივის ვებ-გვერდი და ა.შ.) მოგროვდა პირველადი მასალები. მოხდა მიღებული ტექსტის გაცხრილვა დუბლიკატებზე და პარაზიტ-სიტყვებზე. მიღებულ სიტყვათა მოცულობაც შტაბბეჭდავი აღმოჩნდა: 108 000-მდე არსებითი სახელი და 10 000-11 000 ზმნა.

მეორე ეტაპზე მოხდა სიტყვათა არსებული ბაზის მიხედვით ფუძეების გამოყოფა (უნდა აღინიშნოს, რომ ეს ყველაზე შრომატევადი საქმე გახლდათ).
მესამე ეტაპზე ქართული ენის გრამატიკის წესებზე დაყრდნობით ჩამოყალიბდა მიღებული ფუძეებიდან სიტყვა-ფორმების წარმოშობის ალგორითმი. მასზე დაყრდნობით დაიწერა კომპიუტერული პროგრამა.

ბოლო ეტაპი გახლდათ ამ პროგრამის მიერ ფუძეების მიხედვით და ალგორთმზე დაყრდნობით ყველა შესაძლო ვარიანტის დაგენერირება.

შედეგად მივიღეთ 66 მილიონზე მეტი სიტყვა ფორმა, რაც ქართულ ენას ფარავს 97%-ით.

ამიერიდან ამ პროექტის მასალები ყველასათვის ხელმისაწვდომი ხდება! თქვენ თავისუფლად შეგიძლიათ გამოიყენოთ ის თქვენს ნებისმიერ პროექტში MIT-ლიცენზიაზე დაყრდნობით.

ამასთან ერთად, მომზადებულია ქართული ენის სიხშირული ლექსიკონი, რომელიც 2413 სიტყვას ითვლის. ეს ფაილიც აქ არის განთავსებული:

Frequency.zip

არის მხოლოდ ერთი ხელისშემშლელი ფაქტი — ფაილების მოცულობიდან გამომდინარე, მე არ შემიძლია მათი განთავსება ჩემს სერვერზე, ეს ძალიან ბევრ ადგილს წაიღებს. ამიტომ პროექტის ფაილების მიღების მსურველები გთხოვთ გამომეხმაუროთ ელფოსტის საშუალებით: d******.*******@gmail.com, ან ტელეფონით +995 5** ******

Dear friends

I’m proud to present a result of my volunteer work, which took 2 years of my life: a list of Georgian words. I must say this is overall am impressive piece of work.

At the first stage, preliminary data was gathered from  internet-based open sources (Public Library’s web site, the website of the Georgian press archives, etc.). We eliminated all duplicates. What we got after this was quite impressive in its volume: about 108 000 words and about 11 000 verbs. At the following stage, we screened all words in the database and dissected the word-roots, which proved to be one of the most labour-intensive parts of this work.

In the third phase, based on the Georgian grammar rules, we developed an algorithm for producing various forms of words from the existing word roots, and based on this algorithm, we developed a special software. At the last stage of this work, using the software and the algorithm, we generated all possible variations of words in line with the existing word roots.

As a result, we generated more than 66 million word forms, which amount to about 97 % of the entire Georgian language.

From now on, this data is available to all! Based on the MIT License (MIT), you can freely use it in any of your projects .

In addition, the frequency dictionary prepared for the Georgian language.

Frequency.zip

There is only one barrier here – due to the large size of these files, I am not able to place all of them on my server – this will take too much of the space. In case if you are interested in obtaining this data, please contact me on my email:   d******.*******@gmail.com, or via my mobile phone: +995 5** ******

Previous Post

iOS-მა აიპედზე რაოდენობით ლინუქსს გადაუსწრო

Next Post

აიფონი – Flickr-ის ყველაზე პოპულარული სმარტფონი

დიმიტრი გოგელია

დიმიტრი გოგელია

Apple Evangelist, Trekkie, Blogger, Dreamer, Father...

Related Posts

როგორ გავათბოთ სახლი მოწამვლის საფრთხის გარეშე
სხვადასხვა

როგორ გავათბოთ სახლი მოწამვლის საფრთხის გარეშე

17/01/2023
18
ტიმ კუკი სექტემბრის კვარტალში შემოსავლის ზრდას ელოდება
სხვადასხვა

ტიმ კუკი სექტემბრის კვარტალში შემოსავლის ზრდას ელოდება

29/07/2022
31
სხვადასხვა

ზოგიერთი განმარტება iOS-ისა და ქართული კლავიატურის შესახებ

26/09/2011
1k
სხვადასხვა

პორტალის gemug.ge რედკოლეგიის შექმნა

26/04/2011
702
სხვადასხვა

პორტალის წესები

31/03/2011
881
Next Post
დამატებითი 1 ტერაბაიტი ფოტოებისათვის iPhone-ში

აიფონი – Flickr-ის ყველაზე პოპულარული სმარტფონი

Please login to join discussion
  • KAR.GE

© 2021 GeMUG

No Result
View All Result
  • მთავარი
  • სიახლეები
  • მიმოხილვა
  • ხრიკები
  • პოდკასტი

© 2021 GeMUG