Hay que tener en cuenta de que no todos los documentos son escritos por las personas nativas. Sin embargo Web tiene ciertamente ventajas potenciales como colección del texto. Es enorme y está creciendo cada vez más. Contiene una selección amplia y todo tipo de texto, incluyendo el material que es relativamente raro en los corpora diseñados, por ejemplo existen muchos textos escritos que no están publicados oficialmente, por lo tanto no están corregidos profesionalmente. En comparación con corpora tradicionales el Web tiene una desventaja. Aunque funcione como un corpus, no hay aplicación adecuada para generar concordancias. Es necesario tener un Motor de Búsqueda especializado. Es posible hacer investigación lingüística por la ayuda de los motores de búsqueda convencionales pero las concordancias tradicionales ofrecen más oportunidades de analizar las estructuras del texto.
|
||||||||
Web como fuente de corpus
Internet se ha convertido en el principal campo de aplicación de las técnicas de tratamiento de corpórea multilingües. Es una fuente ilimitada de textos en diferentes idiomas y accesible a cualquier lugar, en la mayor parte de manera gratuita. Pero Internet no es un corpus en el sentido estricto de la lingüística de corpus, ya que no siguen los criterios para ser constituidos como corpus, al no existir una clasificación general ni una codificación estándar. Sin embargo, Internet constituye un corpus dinámico, una forma viva que va cambiando continuamente. Es como una base de datos enorme de documentos textuales. Se puede utilizar las páginas Web como un corpus activo o bajar las páginas al disco duro y considerarlo como un corpus estático. A la hora de documentar una página, es conveniente señalar el día en que se obtuvo, ya que lo que hay en una página ahora, puede estar en otra página o puede cambiar su contenido rápidamente. Una parte importante de las publicaciones en Internet procede de los medios de comunicación, de las empresas multinacionales y de las instituciones internacionales. Todos ellos se esfuerzan para que su representación en la red supere las barreras lingüísticas. Por ello, la red se ha convertido también en un vasto corpus multilingüe que crece cada vez más velozmente. Esto ha disparado la demanda de tecnologías con capacidad de procesamiento multilingüe: buscadores inteligentes, sistemas de indexación y catalogación, extractores de información, gestores de conocimientos, generadores de textos, generadores de resúmenes, etc.
No se han encontrado comentarios.
Trackbacks
URL de trackback: |
Archivo mensual
Artículos recientes
Buscar
|
|||||||
|
||||||||