Resumen
Por su carácter ofensivo o vulgar, las obscenidades son palabras o expresiones consideradas inapropiadas en conversaciones públicas. Hoy en día es común encontrar en blogs, foros y redes sociales el uso de obscenidades para insultar a o denigrar de opiniones, personajes o marcas; una anomalía cuyo agravante es mayor si se tiene en cuenta la amplia cobertura mundial que pueden alcanzar. El uso de diccionarios de palabras vetadas como mecanismo de filtrado es insuficiente, debido a la versatilidad del lenguaje escrito, que permite a los usuarios inventar variantes con transliteraciones o enmascaramientos del texto (por ejemplo, cambiar mierda por m1erd@ o m.i.e.r.d.a). Inspirados en la genómica comparativa, se ha desarrollado un foro web experimental (ForumForte), donde los mensajes ingresados por los usuarios son inspeccionados y depurados de obscenidades transliteradas o enmascaradas. Este artículo presenta dicho software con una descripción breve de su diseño y su uso con datos reales de comentarios provenientes de medios digitales en español y portugués. La efectividad se ubicó entre 84 % y 97 % en la escala de palabra, dependiendo de la longitud de la obscenidad (para más de cuatro letras), y en 86 % en la escala de comentario. Estos resultados insinúan la utilidad del software para filtrado de obscenidades en foros web, independientes del idioma del usuario.
[2] S. Sood, J. Antin, and E. Churchill, “Profanity use in online communities,” in Proc. SIGCHI Conf. Human Factors in Computing Systems, ACM, 2012, pp. 1481–1490.
[3] W. Wang, L. Chen, K. Thirunarayan, and A. P. Sheth, “Cursing in English on Twitter,” in Proc. 17th ACM Conf. Comput. Supported Cooperative Work & Social Computing, 2014.
[4] M.-E. Maurer and L. Höfer, “Sophisticated phishers make more spelling mistakes: using URL similarity against phishing,” in Cyberspace Safety and Security. Berlin: Springer, 2012, pp. 414–426.
[5] S. A. Rojas-Galeano, “Revealing non-alphabetical guises of spam-trigger vocables,” DYNA, vol. 80, pp. 15-24, 2013.
[6] X. Zhong, “Deobfuscation based on edit distance algorithm for spam filtering,” in Machine Learning and Cybernetics (ICMLC), 2014 International Conference on, vol. 1. IEEE, 2014, pp. 109–114.
[7] V. P. Cardona-Zea and S. A. Rojas-Galeano, “Recognizing irregular answers in automatic assessment of fill-in-the-blank tests,” in Engineering Applications (WEA), 2012 Workshop on, 2012, pp. 1–4.
[8] S. A. Rojas-Galeano, “Towards automatic recognition of irregular, short-open answers in Fill-in-the-blank tests,” Tecnura, vol. 18, 2014.
[9] C. Mogollón Pinzón and S. Rojas-Galeano, “A genomic-based profanity-safe Web forum,” Proc. 10th Colombian Computing Conference, IEEExplore, 2015.
[10] S. B. Needleman and C. D. Wunsch, “A general method applicable to the search for similarities in the amino acid sequence of two proteins,” J. Mol. Biol., vol. 48, no. 3, pp. 443-453, 1970.
[11] T. F. Smith and M. S. Waterman, “Identification of common molecular subsequences,” J. Mol. Biol., vol. 147, no. 1, 1981.
[12] D. Venema. “Evolution basics: Genomes as ancient texts”. The BioLogos Forum. [Online]. Available: http://biologos.org/
[13] R. A. Wagner and M. J. Fischer, “The string-to-string correction problem,” J. ACM, vol. 21, pp. 168–173, 1974.
[14] V. I. Levenshtein, “Binary codes capable of correcting deletions, insertions, and reversals,” Sov Phys Doklady, vol. 10, no. 8, 1966.
[15] A. Leff and J. T. Rayfield, “Web-application development using the model/view/controller design pattern,” in Enterprise Distributed Object Computing Conference, Proc. Fifth IEEE Int., 2001.
[16] D. Alur, D. Malks, J. Crupi, G. Booch, and M. Fowler, “Core J2EE Patterns (Core Design Series): Best Practices and Design Strategies”. Sun Microsystems, 2003.
[17] G. Laboreiro and E. Oliveira, “What we can learn from looking at profanity,” Computational Processing of the Portuguese Language. Berlin: Springer, 2014, pp. 108-113.
[18] P. Burnap and M.L. Williams, “Us and them: Identifying cyber hate on Twitter across multiple protected characteristics,” EPJ Data Sci., vol. 5, no. 1, pp. 1-15, 2016.
[19] H. Hosseinmardi et al., “Analyzing labeled cyberbullying incidents on the Instagram social network,” Social Informatics: 7th Int. Conf. (SocInfo 2015), Beijing, China, December 9-12, 2015, 2015, pp.49-66.
[20] S. H. Yadav and P. Manwatkar, “An Approach for offensive text detection and prevention in social networks,” Innovations in Information Embedded and Communication Systems (ICIIECS), 2015 IEEE 2nd International Conference on. IEEExplore, 2015.
Una vez aceptado un trabajo para publicación la revista podrá disponer de él en toda su extensión, tanto directamente como a través de intermediarios, ya sea de forma impresa o electrónica, para su publicación ya sea en medio impreso o en medio electrónico, en formatos electrónicos de almacenamiento, en sitios de la Internet propios o de cualquier otro editor. Este uso tiene como fin divulgar el trabajo en la comunidad científica y académica nacional e internacional y no persigue fines de lucro. Para ello el autor o los autores le otorgan el permiso correspondiente a la revista para dicha divulgación mediante autorización escrita.
Todos los articulos aceptados para publicación son sometidos a corrección de estilo. Por tanto el autor /los autores autorizan desde ya los cambios sufridos por el artículo en la corrección de estilo.
El autor o los autores conservarán los derechos morales y patrimoniales del artículo.