O latim clássico de cícero à luz da linguística de corpus: descrição e implementação de métodos computacionais

Essa página contém links, códigos de referência e arquivos de dados utilizados no projeto de monografia homônimo. Dúvidas, críticas ou quaisquer sugestões podem ser encaminhadas para Caio Begotti, e-mail caio1982 arroba gmail ponto com. Pretende-se criar algum tipo de interface online para consultas e manipulações dos corpora, porém no momento eles estão disponíveis somente em forma estática (todos em domínio público), abaixo.

Corpora

Todos os corpora de Cícero abaixo estão em formato XML com codificação em UTF-8. Embora tenham sido utilizados com o NLTK, eles precisam de um carregamento específico pois são XML categorizados. Uma classe para carregamento deles no NLTK está na seção de códigos.

Download dos 75 corpora de Cícero em XML, categorizados (3.0M).

Download dos arquivos de stopwords, individuais e combinados (4.0K).

Códigos

Todos os códigos estão sob domínio público e podem ser baixados em um pacote único (12K).

Ferramentas

As ferramentas online pra manipulação dos corpora serão desenvolvidas em breve.

Léxico

Léxico de latim clássico para aprendizado, de acordo com os métodos apresentados no projeto:

dicouerbumquantusoportetlexanima
possumpopulussuisauctoritasmodiusliber
uideouitaciuisquaeroarsexercitus
homoanimussuofacilisarbitrorreliquus
faciotuussuusprouinciaquinpraetor
causascribosententiastudiumgenushonor
habeomultussemperlocouirusdiligo
uololegonullusintellegoplusbene
iudexconsiliumceteruscorpuspericulumbellum
tantusiussaepedignitasoptimussentio
bonusoratiomaiorpatersoleodomus
ratioinquamuirdolorscribasapio
primusdiestotusscioopusrego
publicagenerparsdodicadiu
maximusuirtusiudiciumagomodusimperium
tempusponoueneonecesseproficiscorplures
litteraitaquepecuniaaudiomorsaccipio
nuncdeusminorumquamspespraesertim
senatuslocusdebeofortunaurbsuno
uisciuitasnumquamulluspariomalis
multaconsulforsomninoduouoluntas
naturasatissummooratorgratiaamicus
putonomenanimosalusmemoriamoueo
magnuspublicopotisutorcredomens
altersolusferouoluptaspopulorpostea
fidesanteapaeneamiciopriorcontineo
crimenterrastatimexterlaudoiter
paullustestiscrassusmanusexspectoconsto
sermobellopetoconstituonolofrumentum
brutusmeliornoscoofficiousquefinis
patriaaioplurimussociusconscribocumque
iniurianegopertineouercontrariusdicis
salloquoruerressolphilosophiaquaeso
gloriamoriortandemnumerobrutesabsum
potestashonestusdedoaccusatorsperoquirito
epistuladefendoconsuloaccedosummaconcedo
sanusmittopublicuscommodusforoaccuso
aetasualdeuixputeopraesidiumaudacia
ageraliquandodomiointersumeloquentiamare
maloexistimocommuniomagistratuscastrumdisciplina
filiusimmortalisbreuissexcontiodiuino
fereannuslibertasamplusaratoralienus
cognoscouiuoiudicononnelibetsicilis
amicitiabellisfamiliarisiubeoadulescolegio
fraterminimuscasusfalsummundusinuenio
efficiosummusliberitribunusostendoquaestio
grauisitaliaafferopraeclaruspridiemiles
appelloquintusundereusuenioconsequor
uehemensplaceocenseocaputcottidielaus
planusprincepsgeneropacomeherculedefensio
ingeniusscelerussequorconsulatustabulaturpis
licetgerocupiditasciuilisscientiadubito
negotiumbeneficiumtestimoniumopinordiligentiadecimus
beoadhucdolabellaueracaelumcommunis
tamquammetusgratusfilianimispraeceptum
operarexorbislegatusasiaclarus
ualeoconsuetudoconueniomisersimilismultitudo
hostiscertusaccidoauctorlabormagnitudo
armapraetereatalisamordignusconficio
nescioreligiophilosophusplebsodeumpraesto
nascorlongusordoimperatorprudentiaduco
simultotageroopiniouacometellus
curauoxinimicuscogitoadsumfortis
officiumoculusutilitassapientiaactiohonestas
copiapartimfaciadoceopoenaaegritudo
exemplumnumerusdatoquod-sipueroccido
suspicioordinoedicoteneoconsularisuictoria
ulciscorcontentioadeosuperiordemonstrocognitio
argumentuminuidiarelinquoconstitutiocatulussingula
proboexemplolibidorogusargumentatiosenectus
ibiparpaucicaedesinstituofructus
formaactaacteinsumhortenshortus
lentulussimilitudonauissubeoplatonnouo
facultasfamiliaotionadhibeocurrosingularis
indenimiusscilicetconsideromosdatus
aequusculpanecessariusgensredeoreddo
domosocietasutinamuersoadnocerno
aduersariusscipiosimilehincapiograuitas
deasistonuperuiadiuinatiocontendo
controuersiaexeohirperspicuusspecieshumanitas
tribusplerusquequoadpercipiotemplumpopularis
utilisuitiouereoramoaedesnecessitudo
cupioauspiciummarcusdubiusarmatusquattuor
assentiodifficilisdisbalbuscollegamater
totusiustitiaaperiosignocareopando
nondummulierpostuloiurocadoseruus
beneuolentiacoepioisticcalamitasaurisconiungo
sumograecorimprobusfidesabsoluoferrum
pompeumdoctrinafamamolestuscondemnoforum
cieoparumcatocapioequesfacinus

Referências

  1. 2012, CNPq. Diretório dos Grupos de Pesquisa no Brasil.
  2. 2011, Peter Norvig. On Chomsky and the Two Cultures of Statistical Learning.
  3. 2011, Efstathios Stamatatos. Plagiarism Detection Using Stopword n-grams.
  4. 2011, Andrew Montalenti. Just Enough NLP with Python.
  5. 2010, Nelly Furman e David Goldberg e Natalia Lusin. Enrollments in Languages Other Than English in United States Institutions of Higher Education, Fall 2009.
  6. 2010, Jacob Perkins. Python Text Processing with NLTK Cookbook.
  7. 2010, Ana Paula Ladeira. Processamento de linguagem natural: caracterização da produção científica dos pesquisadores brasileiros.
  8. 2009, Steve Bird e Ewan Klein e Edward Loper. Natural Language Processing with Python.
  9. 2009, David Pellegrino. Cicero and Horace Vocabulary Frequency Lists for AP Selections.
  10. 2008, Masoud Makrehchi e Mohamed Kamel. Automatic Extraction of Domain-Specific Stopwords from Labeled Documents.
  11. 2007, Marshall William Fishwick. Cicero, classicism, and popular culture.
  12. 2007, James Clackson. Indo-European Linguistics: An Introduction.
  13. 2006, Alex Franz e Thorsten Brants. All Our N-gram are Belong to You.
  14. 2005, Torstein Petersson. Cicero: A Biography.
  15. 2005, Franz Josef Och. Statistical Machine Translation: Foundations and Recent Advances.
  16. 2004, Tony Berber Sardinha. Linguística de corpus.
  17. 2004, Steven Bird e Edward Loper. NLTK: The Natural Language Toolkit.
  18. 2004, John McHardy Sinclair. How to use corpora in language teaching.
  19. 2003, Tony Berber Sardinha. Schoolchildren writing: A corpus-based analysis, reproduzido em Linguagem e Ensino.
  20. 2003, Rubens Almeida. As Palavras Mais Comuns da Língua Inglesa.
  21. 2002, Wentian Li. Zipf's Law Everywhere.
  22. 2002, James May e Christopher Craig. Brill's companion to Cicero, oratory and rhetoric.
  23. 2001, George Kennedy e Cecil Wooten. The orator in action and theory in Greece and Rome.
  24. 2001, Claudia Jacobi. Linguística de Corpus e ensino de espanhol a brasileiros: Descrição de padrões e preparação de atividades didáticas.
  25. 2001, Brian Krostenko. Cicero, Catullus, and the language of social performance.
  26. 2001, Anthony Everitt. Cicero: the life and times of Rome's greatest politician.
  27. 2000, Tony Berber Sardinha. Computador, corpus e concordância no ensino da léxico-gramática de língua estrangeira.
  28. 2000, Tony Berber Sardinha. Comparing corpora with WordSmith Tools: How large must the reference corpus be?
  29. 2000, James Dee. A Dual-Source Database of Word Frequencies in Latin.
  30. 1999, Guido van Rossum. Computer Programming for Everybody.
  31. 1999, Gian Biagio Conte e Joseph Solodow. Latin Literature: A History.
  32. 1997, Rubens Almeida. Palavras mais comuns em inglês.
  33. 1996, Steven Abney. Statistical Methods e Linguistics.
  34. 1996, Robyn Schinke e Mark Greengrass e Alexander Robertson e Peter Willett. A stemming algorithm for Latin text databases.
  35. 1992, Marie Tesitelova. Quantitative linguistics.
  36. 1991, John McHardy Sinclair. The automatic analysis of corpora.
  37. 1990, S. J. Harrison. Cicero's De Temporibus Suis: The Evidence Reconsidered.
  38. 1990, Dave Willis. The Lexical Syllabus, a new approach to language teaching.
  39. 1989, Bernhard Kytzler. Breve diccionario de autores griegos y latinos.
  40. 1988, Leonard Palmer. The Latin Language.
  41. 1988, John McHardy Sinclair e Antoinette Renouf. A lexical syllabus for language learning.
  42. 1985, Christopher P. Craig. Dilemma in Ciceros Divinatio in Caecilium.
  43. 1984, Jane Crawford. Marcus Tullius Cicero: The lost and unpublished orations.
  44. 1983, Ettore Paratore. História da Literatura Latina.
  45. 1983, Edward John Kenney e Wendell Vernon Clausen. The Cambridge History of Classical Literature: Latin Literature.
  46. 1977, Manu Leumann e Johann Hofmann e Anton Szantyr. Lateinische Grammatik.
  47. 1949, Edward Sapir. Culture, language and personality.
  48. 1939, Paul Diederich. The Frequency of Latin Words and Their Endings.
  49. 1912, Raphael Küuhner. Ausführliche Grammatik der lateinischen Sprache.
  50. 1910, Evan Taylor Sage. The pseudo-Ciceronian Consolatio.
  51. 1879, Müller, Carl Friedrich Wilhelm. M. Tulli Ciceronis scripta quae manserunt omnia.
  52. 1869, Désiré Nisard. Oeuvres complètes de Cicéron: avec la traduction en français.