Jump to content

Featured Replies

Posted

Dragi članovi Kluba,

Voleli bismo da imamo neke kvalitetne tekstove na sajtu. Primera radi, Rebeku Vest, Edvarda Saida, V. G. Zebalda, Krležu, Kiša, itd. Da se radi o engleskim tekstovima bilo bi lako, jer se mogu naći na netu u tekstualnom formatu.

Međutim, tekstovi na srpskohrvatskom teško se nalaze, čak i lektire i kanonizovani tekstovi. Nema skeniranih knjiga i retko se radi OCR.

To rešavamo prekucavanjem ili OCR-ovanjem starih PDF-ova, ali to je zahtevan posao i ne bi bilo loše ako bi nam neko pomogao.

Evo kako izgleda proces:

(1) Treba skenirati knjigu ili naći odgovarajući PDF, na ćirilici ili latinici, srpskom ili hrvatskom, svejedno.

(2) Treba uraditi OCR a onda, ukoliko je tekst na ćirilici, presloviti.

(3) Treba proći kroz OCR-ovani tekst i ispraviti sve greške. Ukoliko se radi o ćirilici, grešaka će biti više, pa će i popravka biti napornija.

Pošto sam juće instalirao kvalitetan OCR-softver, aktivnost (2) uvek mogu da obavim ja. Aktivnost (3) mogu da obavim takođe onda kada imam vremena, ali bilo bi lepo kada bi još ljudi to hteli da rade. Najveći problem je aktivnosti (1): skenirati knjige za koje ne postoje PDF-ovi.

Za sada se traže sledeće knjige:

- Saturnovi prstvenovi, V. G. Zebald

- Orijentalizam, Edvard Said

- Crno jagnje i sivi soko, Rebeka Vest

Edited by Uroš Krčadinac

На послу имам доста времена, али слаб компјутер, дакле што се тиче куцања може, нешто захтевније тешко.

Јел може да ми пошаљете 4-5 страница, па кад их одрадим следеће, и тако, пошто никад не знам кад ћу имати времена?

1. Имам скенер и искуства у скенирању у ПДФ формату.

2. (Мада никад нисам ОЦР-овао неки текст, па не знам да ли је потребно скенирати у већој резолуцији или шта...Користим ГНУ/Линукс систем и ИксСејн (X sane) програм за скенирање. )

3. Да ли је код исправљања ОЦР-ованог текста неопходно имати текст за упоређивање (пдф или штампано издање), или се из самог текста може тачно одредити смисао? Да ли је брже прекуцати текст или исправљати ОЦР-ован? (Можем да куцам и "на слепо". :) ) Пресловљавање са ћирилице сам радио у ЛибреОфису (Libre Office).

Ограничен сам количином брзог интернета на месечном нивоу. (У случају слања/примања фајлова од 100 мегабајта и више, морао бих користити туђи интернет - па самим тим слати/примати са дан-два закашњења - кад се договорим са рођацима. :) )

Немам ни једну од актуелних књига. :102:

И тако...

  • Author

Evo, iskopao sam PDF skraćenog Crnog jagnjeta. Trebalo bi ga prvo pročitati, videti je l sve okej, pa ako jeste, može se uraditi OCR i ostalo.

Kada sam nedavno sređivao ćiriličnu Enciklopediju mrtvih bilo mi je lakše da ispravljam OCR-ovan tekst nego da prekucavam, ali i dalje je bilo puno posla. U svakoj rečenici bilo je nekoliko grešaka, a neke od njih bile su tolike da sam morao da upoređujem sa originalnim tekstom (iako sam priču čitao nekoliko puta).

Uglavnom, dogovorićemo se koji su nam tekstovi prioritetni, pa ćemo vam javiti. Hvala u svakom slučaju! :)

Evo, iskopao sam PDF skraćenog Crnog jagnjeta. Trebalo bi ga prvo pročitati, videti je l sve okej, pa ako jeste, može se uraditi OCR i ostalo.

Scribd даје опцију преузимања у .txt формату. Зар није лакше тако га преузети и онда исправити евентуалне грешке?! Ако је неко скинуо нека ми баци на мејл па да се договоримо ко ће шта да исправља.

Pa kad kliknem na to opet mi skine PDF. Je l' nešto krivo radim?

Скинуо сам ја у текстуалном формату. Фајл је тежак 735 килобајта. Колико има пдф? Да разменимо фајлове..

Create an account or sign in to comment