На днях обнаружил что Mozilla на сайте survey.mozilla.com публикуют информацию и (что немаловажно!) полные датасеты в CSV с описанием причин и числа удалений Firefox’а с рабочих компьютеров.
Например, можно посмотреть почему удаляют Mozilla Firefox 2.0 и скачать этот датасет в CSV
В полных датасетах содержатся не просто причины удаления браузера, но и подробные комментарии пользователей в том числе и непечатные (достаточно поискать по ключевым 3-м и 4-х буквенным словам).
Например, эти датасеты могут быть интересны как тренировочные для различных IR задачек — распознавания языка, тематики комментария, группировки комментариев по подтемам, формирования облака ключевых слов и так далее.