Mostrar el registro sencillo del ítem

dc.contributor.authorCadavid Rengifo, Héctor Fabio
dc.contributor.authorGómez Perdomo, Jonatan
dc.date.accessioned2021-12-04T16:03:44Z
dc.date.available2021-12-04T16:03:44Z
dc.date.issued2009
dc.identifier.issn01205609
dc.identifier.urihttps://repositorio.escuelaing.edu.co/handle/001/1903
dc.description.abstractEn este artículo se describe un sistema desarrollado para la extracción de grandes cuerpos de texto de Internet, teniendo como motivación el valor que ofrecen los ejemplos de lenguaje natural disponibles en la red para las tareas de aprendizaje no supervisado de dichos naturales, dado por características como su enorme volumen, permanente actualización respecto de las alteraciones del lenguaje, y bajo costo, en tiempo y recursos, en cuanto a los mecanismos tradicionales de construcción de corpus para esas tareas de aprendizaje. Se presentan las estrategias incorporadas al sistema con el fin de maximizar el aprovechamiento de los recursos de hardware y así reducir los tiempos de extracción, al igual que se presentan las características de extensibilidad para los formatos soportados, y adaptabilidad respecto a la manera como el sistema limpia los contenidos para obtener muestras de lenguaje natural puras. Al final del artículo se presentan los resultados experimentales obtenidos con uno de los dominios de contenido en español más grande de Internet: es.wikipedia.org, a través de los cuales se concluye sobre la validez y aplicabilidad de un corpus extraído directamente de la Internet para un eventual proceso de aprendizaje de morfología o sintaxis.spa
dc.description.abstractInternet content, used as text corpus for natural language learning, offers important characteristics for such task, like its huge volume, being permanently up-to-date with linguistic variants and having low time and resource costs regarding the traditional way that text is built for natural language machine learning tasks. This paper describes a system for the automatic extraction of large bodies of text from the Internet as a valuable tool for such learning tasks. A concurrent programming-based, hardware-use optimisation strategy significantly improving extraction performance is also presented. The strategies incorporated into the system for maximising hardware resource exploitation, thereby reducing extraction time are presented, as are extendibility (supporting digital-content formats) and adaptability (regarding how the system cleanses content for obtaining pure natural language samples). The experimental results obtained after processing one of the biggest Spanish domains on the internet, are presented (i.e. es.wikipedia.org). Such results are used for presenting initial conclusions about the validity and applicability of corpus directly extracted from Internet as morphological or syntactical learning input.eng
dc.format.extent7 páginas.spa
dc.format.mimetypeapplication/pdfspa
dc.language.isospaspa
dc.publisherScielospa
dc.rights.urihttps://creativecommons.org/licenses/by/4.0/spa
dc.sourcehttp://www.scielo.org.co/scielo.php?script=sci_arttext&pid=S0120-56092009000300009spa
dc.titleSistema de extracción de cuerpos de texto de la web para tareas lingüísticasspa
dc.typeArtículo de revistaspa
dc.type.versioninfo:eu-repo/semantics/publishedVersionspa
oaire.accessrightshttp://purl.org/coar/access_right/c_abf2spa
oaire.versionhttp://purl.org/coar/version/c_970fb48d4fbd8a85spa
dc.contributor.researchgroupInformáticaspa
dc.publisher.placeColombiaspa
dc.relation.citationendpage60spa
dc.relation.citationissue3spa
dc.relation.citationstartpage54spa
dc.relation.citationvolume29spa
dc.relation.indexedN/Aspa
dc.relation.ispartofjournalIngeniería e Investigaciónspa
dc.relation.referencesChomsky, N., Knowledge of Language: Its Nature, Origin, and Use., Praeger, 1986.spa
dc.relation.referencesClark, A., Unsupervised Language Acquisition: Theory and Practice., Tesis presentada a la Universidad Génova, para optar al grado de Doctor of Philosophy, Dicembre, 2002.spa
dc.relation.referencesParekh, R., Honavar, V., Grammar inference, automata induction, and language acquisition., 2000.spa
dc.relation.referencesNavigli, R., Velardi, P., Gangemi, A., Ontology learning and its application to automated terminology translation., IEEE Intelligent Systems, Vol. 18, No. 1, 2003, pp. 22­31.spa
dc.relation.referencesZhou, L., Ontology learning: state of the art and open issues., Information Technology and Management archive, Vol. 8 , No. 3, September, 2007, pp. 241­252.spa
dc.relation.referencesChurch, K. W., Mercer, R. L., Introduction to the special issue on computational linguistics using large corpora., Comput. Linguist., Vol. 19, No. 1, 1993, pp. 1­24.spa
dc.relation.referencesMarianne Hundt, N. N., Biewer, C., Corpus Linguistics and the Web., Language and Computers 59, Kenilworth: Rodopi, 2007.spa
dc.relation.referencesKeller, F., Lapata, M., Using the web to obtain frequencies for unseen bigrams., Comput. Linguist., Vol. 29, No. 3, 2003, pp. 459­484.spa
dc.relation.referencesKilgarriff, A., Grefenstette, G., Introduction to the special issue on the web as corpus., Computational Linguistics, Vol. 29, 2003, pp. 333­347.spa
dc.relation.referencesMiller, R. C., Bharat, K., Sphinx: a framework for creating personal, site-specific web crawlers., in WWW7: Proceedings of the seventh international conference on World Wide Web 7, (Amsterdam, The Netherlands, The Netherlands), Elsevier Science Publishers B. V., 1998., pp. 119­130.spa
dc.relation.referencesKehoe, A. R., Webcorp: Applying the web to linguistics and linguistics to the web., in WWW2002 Conference, Honolulu, Hawaii, 2002.spa
dc.relation.referencesMattson, G., Sanders, B. A., Massingill. B. L., Patterns for Parallel Programming., Addison-Wesley Professional, 2004.spa
dc.relation.referencesKrishnamurthy, A., Yelick, K., Optimizing parallel programs with explicit synchronization., SIGPLAN Not. 30, 1995, pp. 96-204.spa
dc.relation.referencesGelbukh, A., Sidorov, G., Procesamiento automático del español con enfoque en recursos léxicos grandes., IPN, Mexico, 2006.spa
dc.rights.accessrightsinfo:eu-repo/semantics/openAccessspa
dc.rights.creativecommonsAtribución 4.0 Internacional (CC BY 4.0)spa
dc.subject.proposalcorpus webspa
dc.subject.proposalcrawlerspa
dc.subject.proposalaprendizaje no supervisado de lenguajesspa
dc.subject.proposalprogramación concurrentespa
dc.subject.proposalweb corpuseng
dc.subject.proposalcrawlereng
dc.subject.proposalunsupervised language learningeng
dc.subject.proposalconcurrent programmingeng
dc.type.coarhttp://purl.org/coar/resource_type/c_6501spa
dc.type.contentTextspa
dc.type.driverinfo:eu-repo/semantics/articlespa
dc.type.redcolhttp://purl.org/redcol/resource_type/ARTspa


Ficheros en el ítem

Thumbnail

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem

https://creativecommons.org/licenses/by/4.0/
Excepto si se señala otra cosa, la licencia del ítem se describe como https://creativecommons.org/licenses/by/4.0/