Proceedings - CLiC-it 2023

Table of Contents

Preface
Summary: There were 86 papers submitted for peer-review to this conference. Out of these, 75 papers were accepted for this volume, 54 as regular papers and 21 as short papers.

Invited speakers

The Promise and Peril of Large Language Models for Cultural Analytics
David Bamman
When the Lab of CompLing was started at the University of Venice – Preface to the proceedings of the first workshop held in 1982
Rodolfo Delmonte
Pragmatic processing in humans and language models
Vera Demberg

Long papers

Legal Summarization: to each Court its own model
Flavia Achena, David Preti, Davide Venditti, Leonardo Ranaldi, Cristina Giannone, Fabio Massimo Zanzotto, Andrea Favalli, Raniero Romagnoli
CorpusCompass: A Tool for Data Extraction and Dataset Generation in Corpus Linguistics
Muhadj Adnan, Nicolo’ Brandizzi
Harnessing ‘Il Manifesto’ Newspaper Archive for Knowledge Base Creation: Techniques and Findings in the ‘MeMa’ Project
Robert J. Alexander, Matteo Bartocci, Oriana Persico, Guido Vetere
Unmasking the Wordsmith: Revealing Author Identity through Reader Reviews
Chiara Alzetta, Felice Dell’Orletta, Chiara Fazzone, Alessio Miaschi, Giulia Venturi
Integrated Gradients as Proxy of Disagreement in Hateful Content
Alessandro Astorino, Giulia Rizzi, Elisabetta Fersini
Challenging specialized transformers on zero-shot classification
Serena Auriemma, Mauro Madeddu, Martina Miliani, Alessandro Bondielli, Lucia Passaro, Alessandro Lenci
Bias Mitigation in Misogynous Meme Recognition: A Preliminary Study
Gianmaria Balducci, Giulia Rizzi, Elisabetta Fersini
Building a Spoken Dialogue System for Supporting Blind People in Accessing Mathematical Expressions
Pier Felice Balestrucci, Alessandro Mazzei, Luca Anselma, Cristian Bernareggi
Contrastive Language–Image Pre-training for the Italian Language
Federico Bianchi, Giuseppe Attanasio, Raphael Pisoni, Silvia Terragni, Gabriele Sarti, Dario Balestri
Modelling and Publishing the Lexicon der indogermanischen Verben as Linked Open Data
Valeria Irene Boano, Francesco Mambrini, Marco Carlo Passarotti, Riccardo Ginevra
How green is Sentiment Analysis? Environmental Topics in Corpora at the University of Turin
Cristina Bosco, Muhammad Okky Ibrohim, Valerio Basile, Indra Budi
“Ti blocco perché sei un trollazzo”. Lexical innovation in contemporary Italian in a large Twitter corpus
Paolo Brasolin, Greta Hayley Franzini, Stefania Spina
Testing ChatGPT for Stability and Reasoning: A Case Study Using Italian Medical Specialization Tests
Silvia Casola, Tiziano Labruna, Alberto Lavelli, Bernardo Magnini
Assessing Language and Vision-Language Models on Event Plausibility
Maria Cassese, Alessandro Bondielli, Alessandro Lenci
GPT-based Language Models meet Emojitaliano: A Preliminary Assessment Test between Automation and Creativity
Francesca Chiusaroli, Tiberio Uricchio, Johanna Monti, Maria Laura Pierucci, Federico Sangati
Linking Stance and Stereotypes About Migrants in Italian Fake News
Alessandra Teresa Cignarella, Simona Frenda, Tom Bourgeade, Cristina Bosco, Francesca D’Errico
Interpretation of Generalization in Masked Language Models: An Investigation Straddling Quantifiers and Generics
Claudia Collacciani, Giulia Rambelli
Highway to Hell. Towards a Universal Dependencies Treebank for Dante Alighieri’s Comedy.
Claudia Corbetta, Marco Carlo Passarotti, Flavio Massimiliano Cecchini, Giovanni Moretti
Towards an Italian Corpus for Implicit Object Completion
Agnese Daffara, Elisabetta Jezek
Linking the Corpus CLaSSES to the LiLa Knowledge Base of Interoperable Linguistic Resources for Latin
Irene De Felice, Lucia Tamponi, Federica Iurescia, Marco Carlo Passarotti
Processing effort during reading texts in young adults: text simplification, readability assessment and preliminary eye-tracking data
Maria De Martino
An experiment in error analysis of real-time speech machine translation using the example of the European Parliament’s Innovation Partnership
Elisa Di Nuovo
A Cognitive Linguistics analysis of Phrasal Verbs representation in Distributional Semantics
Melissa Donati, Carlo Strapparava
How To Build Competitive Multi-gender Speech Translation Models For Controlling Speaker Gender Translation
Marco Gaido, Dennis Fucci, Matteo Negri, Luisa Bentivogli
Hate Speech Detection in an Italian Incel Forum Using Bilingual Data for Pre-Training and Fine-Tuning
Paolo Gajo, Silvia Bernardini, Adriano Ferraresi, Alberto Barrón-Cedeño
Linking the Dictionary of Medieval Latin in the Czech Lands to the LiLa Knowledge Base
Federica Gamba, Marco Carlo Passarotti, Paolo Ruffolo
Check-IT!: A Corpus of Expert Fact-checked Claims for Italian
Jacopo Gili, Lucia Passaro, Tommaso Caselli
End-to-end Dependency Parsing via Auto-regressive Large Language Model
Claudiu Daniel Hromei, Danilo Croce, Roberto Basili
DisaggregHate It Corpus: A Disaggregated Italian Dataset of Hate Speech
Marco Madeddu, Simona Frenda, Mirko Lai, Viviana Patti, Valerio Basile
Automatic Detection of Parkinson’s Disease with Connected Speech Acoustic Features: towards a Linguistically Interpretable Approach
Marta Maffia, Loredana Schettino, Vincenzo Norman Vitale
Introducing Deep Learning with Data Augmentation and Corpus Construction for LIS
Manuela Marchisio, Alessandro Mazzei, Dario Sammaruga
XL-WA: a Gold Evaluation Benchmark for Word Alignment in 14 Language Pairs
Federico Martelli, Andrei Stefan Bejgu, Cesare Campagnano, Jaka Čibej, Rute Costa, Apolonija Gantar, Jelena Kallas, Svetla Peneva Koeva, Kristina Koppel, Simon Krek, Margit Langemets, Veronika Lipp, Sanni Nimb, Sussi Olsen, Bolette Sanford Pedersen, Valeria Quochi, Ana Salgado, László Simon, Carole Tiberius, Rafael-J Ureña-Ruiz, Roberto Navigli
Is Change the Only Constant? An Inquiry Into Diachronic Semantic Shifts in Italian and Spanish
Matteo Melis, Anastasiia Salova, Roberto Zamparelli
Building structured synthetic datasets: The case of Blackbird Language Matrices (BLMs)
Paola Merlo, Giuseppe Samo, Vivi Nastase, Chunyang Jiang
Simplifying Administrative Texts for Italian L2 Readers with Controllable Transformers Models: A Data-driven Approach
Martina Miliani, Fernando Alva-Manchego, Alessandro Lenci
Multi-task Learning for German Text Readability Assessment
Salar Mohtaj, Vera Schmitt, Razieh Khamsehashari, Sebastian Möller
Is It Really That Simple? Prompting Large Language Models for Automatic Text Simplification in Italian
Debora Nozza, Giuseppe Attanasio
Unraveling Text Coherence from the Human Perspective: a Novel Dataset for Italian
Federica Papa, Luca Dini, Dominique Brunato, Felice Dell’Orletta
Lost in Labels: An Ongoing Quest to Optimize Text-to-Text Label Selection for Classification
Michele Papucci, Alessio Miaschi, Felice Dell’Orletta
Are All Languages Equal? Curriculum Learning over Different Languages
Giulia Pucci, Leonardo Ranaldi, Fabio Massimo Zanzotto
Prompting LLMs in Italian language for Text-to-SQL translation
Federico Ranaldi, Elena Sofia Ruzzetti, Leonardo Ranaldi, Davide Venditti, Cristina Giannone, Andrea Favalli, Raniero Romagnoli, Fabio Massimo Zanzotto
Beyond Obscuration and Visibility: Thoughts on the Different Strategies of Gender-Fair Language in Italian
Martina Rosola, Simona Frenda, Alessandra Teresa Cignarella, Matteo Pellegrini, Andrea Marra, Mara Floris
Blaze-IT: a lightweight BERT model for the Italian language
Francesco Russo, Michele Filannino
Camoscio: an Italian Instruction-tuned LLaMA
Andrea Santilli, Emanuele Rodolà
Automatic Generation of Common Procurement Vocabulary Codes
Lucia Siciliani, Emanuele Tanzi, Pierpaolo Basile, Pasquale Lops
Inters8: A Corpus to Study Misogyny and Intersectionality on Twitter
Ivan Spada, Mirko Lai, Viviana Patti
Let’s keep an eye on Russian: testing sensitivity to the change in the grammatical number in somatic idioms with ruBERT
Elena Spaziani, Eliana Di Palma
“That branch of the Lake of Como…”: Developing a New Resource for the Analysis of I Promessi Sposi and its Historical Translations
Rachele Sprugnoli, Marco Sartor
Qualitative Analysis of Persuasive Emotion Triggering in Online Content
Olga Uryupina
When You Doubt, Abstain: A Study of Automated Fact-Checking in Italian Under Domain Shift
Giovanni Valer, Alan Ramponi, Sara Tonelli
On incrementing interpretability of machine learning models from the foundations: a study on syllabic speech units
Vincenzo Norman Vitale, Loredana Schettino, Francesco Cutugno
Drug name recognition in the cryptomarket forum of Silk Road 2
Romane Werner, Sonja Bitzer,Thomas Francois
Italian Crossword Generator: Enhancing Education through Interactive Word Puzzles
Kamyar Zeinalipour, Tommaso Iaquinta, Asya Zanollo, Giovanni Angelini, Leonardo Rigutini, Marco Maggini, Marco Gori
Die Rätselrevolution: Automated German Crossword Solving
Andrea Zugarini, Thomas Röthenbacher, Kai Klede, Marco Ernandes, Bjoern Eskofier, Dario Zanca

Short papers

Towards a Multilingual System for Vaccine Hesitancy using a Data Mixture Approach
Oscar Araque, Mª Felipa Ledesma Corniel, Kyriaki Kalimeri
TAll: a new Shiny app of Text Analysis for All
Massimo Aria, Corrado Cuccurullo, Luca D’Aniello, Michelangelo Misuraca, Maria Spano
On the impact of Language Adaptation for Large Language Models: A case study for the Italian language using only open resources
Pierpaolo Basile, Pierluigi Cassotti, Marco Polignano, Lucia Siciliani, Giovanni Semeraro
Annotating Homeric Emotions by a Domain-Specific Language
Federico Boschetti, Laura Chilla, Maria Konstantinidou, John Pavlopoulos
How good is NLLB for low-resource languages? A study on the Genoese Language
Davide Buscaldi, Paolo Rosso
Debunker Assistant: a support for detecting online misinformation
Arthur Thomas Edward Capozzi Lupi, Alessandra Teresa Cignarella, Simona Frenda, Mirko Lai, Marco Antonio Stranisci, Alessandra Urbinati
Towards a Multi-Level Annotation Format for the Interoperability of Automatic Term Extraction Corpora
Nicola Cirillo, Daniela Vellutino
The PBSDS: A Dataset for the Detection of Pseudoprofound Bullshit
Evan DeFrancesco, Carlo Strapparava
A Post-Modern Approach to Automatic Metaphor Identification
Dario Del Fante, Federico Manzella, Guido Sciavicco, Eduard Ionel Stan
Building a corpus on Eating Disorders from TikTok: challenges and opportunities
Melissa Donati, Ludovica Polidori, Paola Vernillo, Gloria Gagliardi
A preliminary release of the Italian Parliamentary Corpus
Valentino Frasnelli, Alessio Palmero Aprosio
Extracting an expectation-based lexicon for UD treebanks
Matteo Gay, Cristiano Chesi
An Analysis of Visually Grounded Instructions in Embodied AI Tasks
Marco Grazioso, Alessandro Suglia
Exploring sentiments in summarization: SentiTextRank, an Emotional Variant of TextRank
Md.Murad Hossain, Luca Anselma, Alessandro Mazzei
An Italian Verb Lexicon for Sentiment Inference
Manfred Klenner, Dylan Massey, Susanna Tron
The Inherence of Telicity: Unveiling Temporal Reasoning in Video Question Answering
Olga Loginova, Raffaella Bernardi
Identification of Multiword Expressions: comparing the performance of a Conditional Random Fields model on corpora of written and spoken Italian
Ilaria Manfredi, Lorenzo Gregori
Teasing It-LLMs adapted to Italian
Leonardo Ranaldi, Giulia Pucci, Elena Sofia Ruzzetti, Fabio Massimo Zanzotto, Andre Freitas
Investigating Gender Bias in Large Language Models for the Italian Language
Elena Sofia Ruzzetti, Dario Onorati, Leonardo Ranaldi, Davide Venditti, Fabio Massimo Zanzotto
Towards a New Computational Lexicon for Italian: building the morphological layer by harmonizing and merging existing resources
Flavia Sciolette, Simone Marchi, Emiliano Giovannetti
Textual Entailment with Natural Language Explanations: The Italian e-RTE-3 Dataset
Andrea Zaninello, Sofia Brenna, Bernardo Magnini