Introducción y antecedentes
El marco conceptual del tema que se está explorando en este proyecto está basado en tres disciplinas lingüísticas: la Lingüística Forense (en particular, la fonética forense, para la identificación de hablantes y el establecimiento de perfiles lingüísticos, por un lado, y la determinación/atribución de autoría de textos escritos), la Idiolectrometría, y finalmente, la Teoría de la Variación Lingüística, y más específicamente, la Variación Sociolingüística.
Para poder situar conceptual y metodológicamente este proyecto definimos la Lingüística forense de forma muy general como la interfaz entre lengua y derecho (para una definición más detallada, consúltese: http://www.iafl.org). Desde el punto de vista metodológico es importante mencionar que en la mayoría de casos la lingüística forense utiliza técnicas derivadas de las nuevas tecnologías, es decir, que el desarrollo de la investigación y de servicio público en lingüística forense se realiza habitualmente a partir de toda una serie de herramientas informáticas y técnicas estadísticas que posibilitan opiniones, actuaciones y asesoramiento científico y profesional de alta competencia y fiabilidad por parte de los lingüistas forenses, para su posterior uso desde diferentes instituciones y organismos públicos (escuela judicial, ministerio fiscal, policía) y privados (empresas), y por parte de profesionales diversos (jueces, abogados defensores, psicólogos, médicos). En cualquier caso, las pruebas periciales que se presentan no son en ningún caso pruebas definitivas ni concluyentes, sino más bien complementarias de otros tipos de evidencia o bien para introducir una duda razonable.
La Idiolectometría, disciplina lingüística que se encuentra en fase inicial, tiene como objeto de estudio el idiolecto. Hasta ahora se ha ocupado de analizar la distancia lingüística entre hablantes y de establecer fronteras entre idiolectos diferentes, fronteras que por definición separan a cada persona del resto de hablantes. El idiolecto se puede definir como la elección de los hablantes de algunas formas lingüísticas (fonéticas, fonológicas, morfológicas, sintácticas) determinadas que ofrece la lengua (Nolan 1994:331). Por tanto, podemos entender que una lengua está formada por la suma de dialectos y sociolectos, y estos a su vez se definen como la suma de idiolectos (o usos individuales de la lengua). Así, los factores sociales (grupo socioeconómico, grupo de edad, nivel educativo, género, profesión) se manifiestan en la configuración de los idiolectos (Figura 1).
Figura 1. Esquema de la estructura de las lenguas, formadas por dialectos, y estos formados por el conjunto de idiolectos. Los idiolectos estan condicionados por factores sociales, paralingüísticos e históricos.
Los estudios que analizan la influencia de los factores sociales en las realizaciones lingüísticas de los hablantes se centran en la Teoría de la Variación Lingüística (Labov 1994, 2001; Turell 1995), que postula la existencia de variación lingüística inherente a todas las lenguas. Esta variación afecta todos los niveles lingüísticos: fonética y fonología, morfología, sintaxis, semántica, pragmática y discurso. La Variación sociolingüística estudia como se estructura esta variación, es decir que considera aquellos factores internos (lingüísticos) y externos (sociales) que intervienen en la estructuración de la misma. Diversos estudios han demostrado la influencia del estilo (Schilling-Estes 2002), del género, la edad, la etnicidad y la clase socioeconómica (Labov 1966, 1994, 2001), o la de los grupos o redes sociales (Milroy 1987, Eckert 2000), en las producciones lingüísticas, tanto a nivel fonético y fonológico, com morfológico, sintáctico y semántico. Así, la sociolingüística estudia la estructura de la variación desde diversos niveles y diversas perspectivas; no obstante, la variación sociolingüística no se ha centrado de manera prominente en el estudio del idiolecto a excepción de algunos estudios más bien generalistas como el de Guy (1980), Coulthard (2004), Abercrombie (1969) o Biber (1988, 1995). Y este proyecto se propone estudiar precisamente la variación individual y el idiolecto.
Objetivos generales
y aspectos novedosos de la propuesta
- La aplicación del estudio del idiolecto al campo de la Lingüística forense es fundamental, ya que dicha aplicación debe permitir identificar de manera inequívoca a los hablantes o escritores, comparando una grabación o texto escrito dubitados (cuya autoría presenta dudas) y un conjunto de grabaciones o textos escritos indubitados (cuya autoría es conocida), a partir del análisis de las formas lingüísticas elegidas por cada hablante.
- El interés por el idiolecto es evidente en lingüística forense, ya que en la actuación de los lingüistas forenses en casos reales, de identificación de hablantes o de determinación/atribución de autoría, se trata de demostrar que cada persona tiene un comportamiento lingüístico diferenciado y único, y que además es inconsciente y se mantiene en cierta medida a lo largo del tiempo. La utilidad del idiolecto en los dictámenes periciales forenses de identificación de hablantes o escritores es evidente.
- Lo que está explorando y desarrollando este proyecto es la posibilidad de medir la diferencia lingüística entre diversos idiolectos y la distancia idiolectal de cada individuo, de manera que al final se pueda conseguir un índice de similitud idiolectal (ISI) que compare diversas muestras lingüísticas y calcule la distancia lingüística. Más específicamente, se trata de poder establecer el nivel de similitud idiolectal a partir del cual se puede considerar que dos muestras lingüísticas (orales o escritas) han sido producidas por una misma persona.
- Así pues, este proyecto se propone crear un protocolo que permita establecer ese índice de similitud idiolectal (ISI), que compare diversas muestras lingüísticas y calcule la distancia lingüística, y concluir, una vez analizados diversos parámetros lingüísticos, si dos grabaciones o dos textos escritos han sido producidos por una misma persona o no.
Metodología
En el marco de este proyecto las actividades que se estan desarrollando, derivadas de los objetivos expuestos más arriba, son las siguientes:
- Establecimiento de la técnica para aplicarla a cualquier lengua.
- Diseño global del protocolo.
- Propuesta de las pruebas estadísticas que deben permitir el cálculo del ISI, y
- Evaluación del módulo fonológico para estudiar aspectos del idiolecto en español y catalán
El resto de módulos y la aplicación se irán desarrollando en el marco de proyectos futuros (tesis doctorales y otros proyectos de investigación (HUM 2008, ya solicitado y pendiente de resolución).
La metodología a seguir en este proyecto consiste en el diseño de un protocolo para calcular el ISI (índice de similitud idiolectal) entre dos o más textos orales o escritos. Por tanto, es preciso detallar el corpus de análisis, las variables de estudio, y las técnicas de análisis lingüístico y estadístico.
Corpus para el ISI
en catalán
Para la identificación de hablantes se usará la parte en catalán de un corpus oral en tiempo aparente y tiempo real: el corpus de La Canonja (Pujadas, Pujol Berché, Turell), recogido por el grupo UVAL (Unitat de Variació Lingüística) del Institut Universitari de Lingüística Aplicada de la Universitat Pompeu Fabra. Inicialmente, este corpus estaba constituido por 30 grabaciones (19 de hablantes catalanohablantes y 11 de hablantes castellanohablantes) realizadas a mediados de los años ochenta. En el proceso de realización de este proyecto se realizará una nueva tanda de grabaciones, de manera que se podrán estudiar los mismos hablantes con un intervalo temporal de unos 20 años.
Corpus para el ISI
en español
Para la identificación de hablantes se usará el corpus en tiempo aparente y real para el español de México que se está recogiendo a partir de una beca CONACIT, concedida a Fernanda López para la realización de su tesis doctoral. Se trata del corpus DIMEX100, compilado por el Instituto de Investigaciones en Matemáticas Aplicadas y Sistemas de la Universidad Nacional Autónoma de México, y que tenía como principal objetivo utilizarse para crear un reconocedor automático de habla. El corpus fue grabado por 100 hablantes que leyeron 10 frases iguales para todos y 50 frases distintas para cada uno. Los hablantes fueron seleccionados según su edad (de 16 a 36 años), su nivel escolar (estudios superiores a secundaria), y su lugar de origen (Ciudad de México).
Variables
En este proyecto, que se propone desarrollar el ISI para el módulo fonológico del español, se consideraran variables fonológicas y fonéticas. Se establecerá una puntuación del grado de similitud presente en dos muestras de habla, tanto para los parámetros fonéticos como fonológicos, de manera que aquellos puntos de coincidencia con la “norma oral” del español y del catalán, o del dialecto de cada una de estas lenguas al que pertenezcan los hablantes tengan una menor puntuación, y aquellos puntos “idiosincrásicos”, “raros” (ya sea porque se apartan de la norma, o porque presentan particularidades lingüísticas significativamente diferentes a la mediana de la población) tengan una mayor puntuación.
Pruebas estadísticas
SPSS versión 15.0 y ss (ANOVA, MANOVA, PRUEBAS POST-HOC, PRUEBAS DE CONTRASTE DE DISTRIBUCIÓN, CHII CUADRADO ((X2)); Análisis de Componentes Principales (ACP); Análisis Discriminante Lineal (ADL); Análisis Multivariante (VARBRUL 2 y 3; GOLDVARB2001).
Interés y beneficios
del proyecto
Este proyecto, que podemos enmarcar en la lingüística aplicada, es claramente ‘problem-based’: a partir de la detección de un problema que existe en nuestra sociedad (la necesidad de identificar hablantes o escritores, de determinar/atribuir la autoría de textos, o de detectar el plagio), se utilizan una serie de conocimientos lingüísticos, a todos los niveles (fonético, fonológico, morfológico, sintáctico, semántico, pragmático y discursivo) para solucionarlo. Así pues, los resultados de este proyecto podrán ser usados en casos reales en que la Justicia necesite la pericia de lingüistas para:
- identificar hablantes,
- construir perfiles lingüísticos a partir de fragmentos de voz o texto,
- a medio plazo, determinar la autoría de textos escritos (por ejemplo, notas de suicidio o amenazas), a partir del desarrollo de los módulos morfo-sintáctico y pragmático-discursivo en otros proyectos.
- y como reverso de la moneda de la autoría, detectar el plagio en textos escritos.
Los conocimientos actuales en lingüística forense permiten realizar, con ciertas limitaciones, las tareas arriba mencionadas. No obstante, la conclusión del dictamen pericial siempre ha de ser necesariamente conservadora, para evitar la posibilidad de falsas identificaciones. En la actualidad, no hay ningún modelo lingüístico que tenga en cuenta todos los módulos de la gramática con finalidades forenses, aunque hay algunos modelos específicos para las grabaciones, que no entran a valorar aspectos lingüísticos, sino puramente físicos de la voz y otros modelos específicos para textos escritos (como el CopyCatch, que ayuda al experto lingüista a detectar el plagio, o incluso otros que analizan el estilo de diversos textos y pueden ser usados como complemento para el análisis forense). La aplicación que se diseñara en el marco de este proyecto permitirá obtener un grado de seguridad mayor que el actual en los dictámenes periciales, revirtiendo en una mejor administración de la Justicia.
En el ámbito académico, en el transcurso del proyecto el objetivo es publicar los resultados más relevantes en revistas especializadas (especialmente en Forensic Linguistics. The International Journal of Speech, Language and the Law, Literary and Linguistic Computing, Journal of Sociolinguisitcs y Language Variation and Change, y realizar diversas comunicaciones para presentar en los congresos que organicen tanto la Asociación Internacional de Lingüistas Forenses y la Asociación Internacional de Fonètica y Acústica Forenses, como en congresos más generales de lingüística aplicada y de derecho aplicado.
Esta nueva técnica que se pretende desarrollar formará parte tanto del temario de la asignatura de Lingüística Forense del Master en Lingüística y Aplicaciones Tecnológicas de la UPF, como del Diploma de postgrado en Lingüística Forense (Peritaje Lingüístico), dirigido por la Dra. Teresa Turell y organizado por el IDEC y el IULA, y que durante el curso 2007-2008 llega a su tercera edición. Además, este mismo curso académico empieza la primera edición IDEC-IULA del Diploma de postgrado en Lingüística Forense (Lenguaje Jurídico y Judicial) que, al ser cursado conjuntamente con el Diploma en Peritaje Lingüístico, permite la obtención del Master en Lingüística Forense, primero a escala mundial que se imparte en español.

