Mostrar el registro sencillo del ítem

dc.contributor.advisorBenavides Navarro, Luis Daniel
dc.contributor.advisorGarzón A, Wilmer
dc.contributor.advisorCadavid R, Héctor
dc.contributor.authorRodríguez Torres, Sergio Andrés
dc.date.accessioned2023-04-12T16:56:37Z
dc.date.available2023-04-12T16:56:37Z
dc.date.issued2023
dc.identifier.urihttps://repositorio.escuelaing.edu.co/handle/001/2243
dc.description.abstractEste documento presenta un análisis enfocado a los diagramas de software en repositorios Git. Para el análisis se construyó un dataset con 5.981 imágenes con las categorías none, diagrama de actividades, diagrama de secuencia, diagrama de clases, diagrama de componentes, diagrama de casos de uso y diagramas cloud. Dicho dataset se usó para el entrenamiento de una red convolucional DenseNet169 pre-entrenada con el dataset ImageNet usando la técnica de transfer learning. La red alcanzó una exactitud en la predicción del 98.6 % y un f1-score de 98.3 %. Luego se usaron técnicas de minería de repositorios para analizar 2’469.206 imágenes equivalentes a 231 GB en datos, obtenidas de 287.201 repositorios. Con el fin de conocer que tan común es cargar imágenes de diagramas, cómo se distribuyen en los repositorios de software y cada cuanto se actualizan.spa
dc.description.abstractThis document presents an analysis focused on software diagrams in Git repositories. For the analysis, a dataset was built with 5,981 images with the categories none, activity diagram, sequence diagram, class diagram, component diagram, use case diagram, and cloud diagrams. The dataset was used to train a DenseNet169 convolutional neural network pre-trained with the ImageNet dataset using the transfer learning technique complemented with fine-tuning. The network achieved a prediction accuracy of 98.6% and an f1-score of 98.3%. Repository mining techniques were then used to analyze 2,469,206 images equivalent to 231 GB of data, obtained from 287,201 repositories. To know how common it is to upload diagram images, their distribution in the repositories, and the update frequency.eng
dc.description.tableofcontents1. Introducción 2 1.1. Problemática ........................... 4 1.2. Motivación............................. 4 1.3. Preguntas de investigación.................... 5 1.4. Contribuciones .......................... 6 2. Marco Teórico 8 2.1. Red convolucional......................... 8 2.2. Overfitting............................. 12 2.3. Transferlearning ......................... 13 2.4. Minería de repositorios...................... 16 2.5.UML................................ 16 2.6. Diagrama de arquitectura cloud ................. 17 3. Estado del arte 19 3.1. Minería de repositorios aplicada a imágenes de diagramas . . . 19 3.2. Clasificación de imágenes de diagramas . . . . . . . . . . . . . 20 3.3. Otros estudios con minería de repositorios . . . . . . . . . . . 22 4. Desarrollo 23 4.1. Construcción del Dataset..................... 23 4.1.1. Scrapper a Google search................. 24 4.1.2. Normalización de las imágenes. . . . . . . . . . . . . . 26 4.2. Clasificador de imágenes ..................... 28 4.2.1. Refinamiento de la red .................. 29 4.3. Extracción y predicción de imágenes . . . . . . . . . . . . . . 34 4.3.1. Predicción......................... 34 4.3.2. Validación de resultados ................. 35 5. Resultados y análisis 37 5.1. Rendimiento del clasificador de imágenes . . . . . . . . . . . . 37 5.2. Análisis de imágenes en proyectos Git. . . . . . . . . . . . . . 40 6. Conclusiones y trabajo futuro 43spa
dc.format.extent51 páginasspa
dc.format.mimetypeapplication/pdfspa
dc.language.isospaspa
dc.titleMinería de imágenes en repositorios de proyectos de Software soportada por Machine Learningspa
dc.typeTrabajo de grado - Maestríaspa
dc.type.versioninfo:eu-repo/semantics/publishedVersionspa
oaire.accessrightshttp://purl.org/coar/access_right/c_abf2spa
oaire.versionhttp://purl.org/coar/version/c_970fb48d4fbd8a85spa
dc.description.degreelevelMaestríaspa
dc.description.degreenameMagíster en Informáticaspa
dc.identifier.urlhttps://catalogo.escuelaing.edu.co/cgi-bin/koha/opac-detail.pl?biblionumber=23410
dc.publisher.programIngeniería de Sistemasspa
dc.relation.indexedN/Aspa
dc.relation.references[1] About the Unified Modeling Language Specification Version 2.5 — omg.org. https://www.omg.org/spec/UML/2.5/.spa
dc.relation.references[2] G. Antoniol et al. «Recovering traceability links between code and do- cumentation». En: IEEE Transactions on Software Engineering 28.10 (2002), págs. 970-983. doi: 10.1109/TSE.2002.1041053.spa
dc.relation.references[3] Robert Audi. Cambridge Dictionary of Philosophy. Cambridge Univer- sity Press, 1999.spa
dc.relation.references[4] Thazin Win Win Aung, Huan Huo y Yulei Sui. «A Literature Review of Automatic Traceability Links Recovery for Software Change Impact Analysis». En: Proceedings of the 28th International Conference on Program Comprehension. ICPC ’20. Seoul, Republic of Korea: Associa- tion for Computing Machinery, 2020, págs. 14-24. isbn: 9781450379588. doi: 10.1145/3387904.3389251. url: https://doi.org/10.1145/ 3387904.3389251.spa
dc.relation.references[5] Olusola Tope Babalola. Automatic recognition and interpretation of finite state automata diagrams. Dic. de 2015. url: https://scholar. sun.ac.za/handle/10019.1/97814.spa
dc.relation.references[6] Natalie Best, Jordan Ott y Erik Linstead. «Exploring the efficacy of transfer learning in mining image-based software artifacts». En: Jour- nal Of Big Data 7 (ago. de 2020). doi: 10.1186/s40537-020-00335-4.spa
dc.relation.references[7] Gosala Bethany et al. «Automatic Classification of UML Class Dia- grams Using Deep Learning Technique: Convolutional Neural Network». En: Applied Sciences (mayo de 2021). doi: 10.3390/app11094267.spa
dc.relation.references[8] Francois Chollet. Deep learning with python. en. New York, NY: Man- ning Publications, 2017. isbn: 9781617294433.spa
dc.relation.references[9] Dataset of the Paper .Automatically Classifying UML Class Diagrams from Images using Deep Learning". Zenodo, ene. de 2021. doi: 10. 5281/zenodo.4252890. url: https://doi.org/10.5281/zenodo. 4252890.spa
dc.relation.references[10] Jia Deng et al. «ImageNet: a Large-Scale Hierarchical Image Data- base». En: jun. de 2009, págs. 248-255. doi: 10.1109/CVPR.2009. 5206848.spa
dc.relation.references[11] Arden Dertat. Applied Deep Learning - Part 4: Convolutional neu- ral networks. en. 2017. url: https://towardsdatascience.com/ applied-deep-learning-part-4-convolutional-neural-networks- 584bc134c1e2.spa
dc.relation.references[12] Marta de Esteban Belzuz, Carlos Martin y Francisco Morillo. MPM Construyendo una arquitectura Segura y altamente Disponible en AWS. url: https://aws.amazon.com/es/blogs/aws-spanish/mpm- construyendo-una-arquitectura-segura-y-altamente-disponible- en-aws/.spa
dc.relation.references[13] Georgios Gousios. «The GHTorrent dataset and tool suite». En: Procee- dings of the 10th Working Conference on Mining Software Repositories. MSR ’13. San Francisco, CA, USA: IEEE Press, 2013, págs. 233-236. isbn: 978-1-4673-2936-1. url: http://dl.acm.org/citation.cfm? id=2487085.2487132.spa
dc.relation.references[14] Douglas M. Hawkins. «The problem of overfitting». En: ChemInform 35.19 (2004). doi: 10.1002/chin.200419274.spa
dc.relation.references[15] Regina Hebig et al. «The quest for open source projects that use UML: mining GitHub». En: oct. de 2016, págs. 173-183. doi: 10.1145/ 2976767.2976778.spa
dc.relation.references[16] Gao Huang et al. «Densely Connected Convolutional Networks». En: 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). Jul. de 2017, págs. 2261-2269. doi: 10.1109/CVPR.2017.243.spa
dc.relation.references[17] B. Karasneh y Michel Chaudron. «Extracting UML models from ima- ges». En: mar. de 2013, págs. 169-178. doi: 10.1109/CSIT.2013. 6588776.spa
dc.relation.references[18] B. Karasneh y Michel Chaudron. «Img2UML: A system for extracting UML models from images». En: sep. de 2013, págs. 134-137. doi: 10. 1109/SEAA.2013.45.spa
dc.relation.references[19] B. Karasneh y Michel Chaudron. «Online Img2UML Repository: An Online Repository for UML Models». En: oct. de 2013.spa
dc.relation.references[20] C. Lanczos. «An iteration method for the solution of the eigenvalue problem of linear differential and integral operators». En: Journal of research of the National Bureau of Standards 45.4 (1950), pág. 255. issn: 0091-0635. doi: 10.6028/jres.045.026. url: http://dx.doi. org/10.6028/jres.045.026.spa
dc.relation.references[21] D. Lu y Q. Weng. «A survey of image classification methods and techniques for improving classification performance». En: Internatio- nal Journal of Remote Sensing 28.5 (2007), págs. 823-870. doi: 10. 1080/01431160600746456. eprint: https://doi.org/10.1080/ 01431160600746456. url: https://doi.org/10.1080/01431160600746456.spa
dc.relation.references[22] Ramírez Luna et al. «Modelo para Almacenar y Recuperar Métri- cas de Software». Español. En: Conciencia Tecnológica (2010). issn: 1405-5597. url: https://www.redalyc.org/articulo.oa?id= 94415753006.spa
dc.relation.references[23] Emmanuel Maggiori et al. «Towards Recovering Architectural Infor- mation from Images of Architectural Diagrams». En: sep. de 2014.spa
dc.relation.references[24] Kaushil Mangaroliya y Het Patel. «Classification of Reverse-Engineered Class Diagram and Forward-Engineered Class Diagram using Machine Learning». En: (nov. de 2020).spa
dc.relation.references[25] Amitha Mathew, Amudha Arul y S. Sivakumari. «Deep Learning Tech- niques: An Overview». En: ene. de 2021, págs. 599-608. isbn: 978-981- 15-3382-2. doi: 10.1007/978-981-15-3383-9_54.spa
dc.relation.references[26] Valentín Moreno et al. «Automatic Classification of Web Images as UML Static Diagrams Using Machine Learning Techniques». En: Ap- plied Sciences 10 (abr. de 2020), pág. 2406. doi: 10.3390/app10072406.spa
dc.relation.references[27] Jordan Ott, Abigail Atchison y Erik Linstead. «Exploring the applica- bility of low-shot learning in mining software repositories». En: Journal Of Big Data 6 (mayo de 2019), pág. 35. doi: 10.1186/s40537-019- 0198-z.spa
dc.relation.references[28] Mr Pankaj S. Parsania y Dr Paresh V. Virparia. «A comparative analy- sis of image interpolation algorithms». En: nternational journal of ad- vanced research in computer and communication engineering 5.1 (2016), págs. 29-34. issn: 2319-5940. doi: 10.17148/ijarcce.2016.5107. url: http://dx.doi.org/10.17148/ijarcce.2016.5107.spa
dc.relation.references[29] Truong Ho-Quang et al. «Automatic Classification of UML Class Dia- grams from Images». En: dic. de 2014. doi: 10.1109/APSEC.2014.65.spa
dc.relation.references[30] George Reese. Cloud application architectures: Building Applications and infrastructure in the cloud. O’Reilly, 2009.spa
dc.relation.references[31] Romain Robbes. «Minería de repositorios de software para ayudar a los desarrolladores». En: Revista Bits de Ciencia 5 (2011), págs. 2-7. issn: 0718-8013. url: https://revistasdex.uchile.cl/index.php/ bits/issue/view/130.spa
dc.relation.references[32] Gregorio Robles et al. «An Extensive Dataset of UML Models in GitHub». En: 2017 IEEE/ACM 14th International Conference on Mining Soft- ware Repositories (MSR). Abr. de 2017, págs. 519-522. doi: 10.1109/ MSR.2017.48.spa
dc.relation.references[33] Sumit Saha. A comprehensive guide to Convolutional Neural Networks - the eli5 way. Nov. de 2022. url: https://towardsdatascience.com/a - comprehensive - guide - to - convolutional - neural - networks - the-eli5-way-3bd2b1164a53.spa
dc.relation.references[34] Selenium: Definition, how it works and Why you need it. Jun. de 2022. url: https://www.browserstack.com/selenium.spa
dc.relation.references[35] Sergei Shcherban et al. «Multiclass Classification of Four Types of UML Diagrams from Images Using Deep Learning». En: mayo de 2021. doi: 10.18293/SEKE2021-185.spa
dc.relation.references[36] Crystal Song. Software architecture diagramming and patterns. Abr. de 2022. url: https://www.educative.io/blog/software-architecture- diagramming-and-patterns.spa
dc.relation.references[37] Farhana Sultana, Abu Sufian y Paramartha Dutta. «Advancements in Image Classification using Convolutional Neural Network». En: 2018 Fourth International Conference on Research in Computational Intelli- gence and Communication Networks (ICRCICN). 2018, págs. 122-129. doi: 10.1109/ICRCICN.2018.8718718.spa
dc.relation.references[38] Warnick Sean West Jeremy Ventura Dan. «A Theoretical Foundation for Inductive Transfer». En: Spring Research (2007).spa
dc.relation.references[39] Rikiya Yamashita et al. «Convolutional neural networks: an overview and application in radiology». En: Insights into Imaging 9 (jun. de 2018). doi: 10.1007/s13244-018-0639-9.spa
dc.rights.accessrightsinfo:eu-repo/semantics/openAccessspa
dc.subject.armarcMinería de repositorios
dc.subject.armarcRed neuronal
dc.subject.armarcAprendizaje profundo
dc.subject.proposalMinería de repositoriosspa
dc.subject.proposalRed neuronalspa
dc.subject.proposalAprendizaje profundospa
dc.subject.proposalRepository miningeng
dc.subject.proposalNeural networkseng
dc.subject.proposalDeep learningeng
dc.type.coarhttp://purl.org/coar/resource_type/c_bdccspa
dc.type.contentTextspa
dc.type.driverinfo:eu-repo/semantics/masterThesisspa
dc.type.redcolhttps://purl.org/redcol/resource_type/TMspa


Ficheros en el ítem

Thumbnail
Thumbnail

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem