26.11.2021 ###################################################################3 negative samples reduction http://ceur-ws.org/Vol-2007/LEARNER2017_short_1.pdf bert for ranking latest review https://arxiv.org/abs/2010.06467 new sampling approach USEFUL https://arxiv.org/abs/2104.06967 multitask learning https://github.com/CAMTL/CA-MTL distillation https://arxiv.org/pdf/2111.09645.pdf 22.09.2022 ################################################################### New search paradigm https://arxiv.org/pdf/2204.10628.pdf https://arxiv.org/pdf/2206.02743.pdf https://arxiv.org/pdf/2202.06991.pdf Auto prompting Gurevich Irina TU Darmstadt #useful####################################################################### videos about foundation models https://www.youtube.com/playlist?list=PL9t0xVFP90GD8hox0KipBkJcLX_C3ja67 09.10.2022 ############################################################################# From "Autoregressive Search Engines: Generating Substrings as Document Identifiers" "Query likelihood models" -- Cicero Nogueira dos Santos, Xiaofei Ma, Ramesh Nallapati, Zhiheng Huang, and Bing Xiang. 2020. Beyond [CLS] through ranking by generation. ShengyaoZhuangandGuidoZuccon.2021.TILDE: termindependentlikelihoodmodelforpassagereranking. Oleg Lesota, Navid Rekabsaz, Daniel Cohen, Klaus Antonius Grasserbauer, Carsten Eickhoff, and Markus Schedl. 2021. A modern perspective on query likelihood with deep generative retrieval models. Prompting to generate queries -- Angeliki Lazaridou, Elena Gribovskaya, Wojciech Stokowiec, and Nikolai Grigorev. 2022. Internetaugmented language models through few-shot prompting for open-domain question answering. 11.10.2022 ############################################################################# 18.10.2022 ############################################################################ Articles with BEIR: Researcher: Gautier Izacard ################################################################################3 ###################################################################################3 ##################################################################################### 23.02.2023 ############################################################################ Sparse CLIP (STAIR paper from Apple) https://arxiv.org/pdf/2301.13081.pdf ######################################################################################################### Chain of thought reasoning Chain-of-Thought Prompting Elicits Reasoning in Large Language Models https://arxiv.org/pdf/2201.11903.pdf NIPS 2022 (Кратко -- чуваки просто взяли несколько примеров из датасетов и зафигачили для них промпты (in context learning) в стиле пошаговых действий; Это улучшило очень сильно метрики на математике, на всяких логических задачах) Large Language Models are Zero-Shot Reasoners https://arxiv.org/pdf/2205.11916.pdf NIPS 2022 (Чуваки добавляют промрт "Let's think step by step" с помощью него генерируют последовательное решение задачи, затем подставляют это решение снова как промпт в модель и получают ответ. Это тоже бустит метрики на арифметике и commonsense. Можно сказать, что модель сама может генерировать себе решение задачи.) (нужно почитать подробнее) AUTOMATIC CHAIN OF THOUGHT PROMPTING IN LARGE LANGUAGE MODELS https://arxiv.org/pdf/2210.03493.pdf (Чуваки хотят придумать auto-cot. Они разбивают вопросы на несколько кластеров, затем берут из каждого кластера репрезентативный вопрос и генерируют для него auto-cot. Генерация auto-cot не идеальная. Может попасться один кластер, в котором все плохо. Авторы делят все вопросы на кластеры (с помощью sentence bert!!!). (Спросить у Димы, как они используют кластеры)) TO READ Multimodal Chain-of-Thought Reasoning in Language Models https://arxiv.org/pdf/2302.00923.pdf (Самый простой способ реализовать multimodal cot -- перевести картинки в текст и реализовать обычный cot. LLMs до 100B параметров могут производить галлюцинирующие rationale) 27.02.2023 ################################################################################ Выбор коллокаций https://nlp.stanford.edu/fsnlp/promo/colloc.pdf Large Language models TO READ Scaling Laws for Neural Language Models https://arxiv.org/pdf/2001.08361.pdf LLAMA https://scontent-ams4-1.xx.fbcdn.net/v/t39.2365-6/333007794_1182140292435357_4481174526219500228_n.pdf?_nc_cat=101&ccb=1-7&_nc_sid=3c67a6&_nc_ohc=Z5B8LP9penMAX_SWEqj&_nc_ht=scontent-ams4-1.xx&oh=00_AfAogQwG27t4J0ui35Jxwf1G31cgj2HiZGtw8v3cHk3szA&oe=6401D9D1 Чуваки просто взяли много очищенных данных и натренировали модели меньше, чем GPT-3 и PALM, показав, что данных для больших моделей нужно больше. У них получилось, что даже в статье Hoffman, где показано, что для обучения больших моделей нужно больше данных, была недостаточно хорошая оценка. Модель лучше или comparable to 175B gpt-3 или 450B PALM. (Не бьет code-davinci-002 на MMLU) TO READ Training compute optimal large language models https://arxiv.org/pdf/2203.15556.pdf Toolformer: Language Models Can Teach Themselves to Use Tools https://arxiv.org/pdf/2302.04761.pdf Тут взяли GPT-J, аугментировали с помощью нее данные вызовами api, затем дообучили ее на этом. Таким образом, GPT-J научилась вызывать калькулятор, поиск по вики, переводчик и побеждать большие GPT-3 и OPT на некоторых задачах To READ Generating Datasets with Pretrained Language Models https://aclanthology.org/2021.emnlp-main.555.pdf 28.02.2023 ###########################################################################################################################3 TO READ Atlas: Few-shot Learning with Retrieval Augmented Language Models https://arxiv.org/pdf/2208.03299.pdf TO READ GTP-J TO READ Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks https://arxiv.org/pdf/1908.10084.pdf TO READ SLIM: Sparsified Late Interaction for Multi-Vector Retrieval with Inverted Indexes https://arxiv.org/abs/2302.06587 TO READ LexLIP: Lexicon-Bottlenecked Language-Image Pre-Training for Large-Scale Image-Text Retrieval https://arxiv.org/pdf/2302.02908.pdf TO READ InPars-v2: Large Language Models as Efficient Dataset Generators for Information Retrieval https://arxiv.org/pdf/2301.01820.pdf TO READ ExaRanker: Explanation-Augmented Neural Ranker https://arxiv.org/abs/2301.10521 01.03.2023 ####################################################################################################### Language Is Not All You Need: Aligning Perception with Language Models (Kosmos-1 from microsoft) https://arxiv.org/pdf/2302.14045.pdf Authors combine image embeddings from VIT-L/14 and texts. Then train LLM on it. 03.03.2023 ####################################################################################################### DEMONSTRATE–SEARCH–PREDICT: Composing retrieval and language models for knowledge-intensive NLP https://arxiv.org/pdf/2212.14024.pdf GPT-3 взаимодействует с Colbert-V2. Примеры взаимодействия: https://colab.research.google.com/github/stanfordnlp/dsp/blob/main/intro.ipynb#scrollTo=773rwc-aMuVD (TODO дочитать про последнюю часть ноутбука (qa-v2)) TO READ Baleen: Robust Multi-Hop Reasoning at Scale via Condensed Retrieval https://cs.stanford.edu/~matei/papers/2021/neurips_baleen.pdf 10.03.2023 ######################################################################### Scaling Language-Image Pre-training via Masking https://arxiv.org/pdf/2212.00794.pdf (authors present FLIP -- new way to train CLIP faster. They simply mask images during pretraining. It allows to use larger batch size (not all patches from image are used) and also allows model understand image-text distribution faster) TO READ Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models TO READ How to avoid machine learning pitfalls: a guide for academic researchers 14.03.2023 ########################################################################## TO READ Less is more: Pretrain a strong Siamese encoder for dense text retrieval using a weak decoder. https://aclanthology.org/2021.emnlp-main.220.pdf "We hypothesize that to perform robust retrieval, the [CLS] vector used for computing matching scores should encode all the essential information in the passage. " SIMLM: Pre-training with Representation Bottleneck for Dense Passage Retrieval https://arxiv.org/pdf/2207.02578.pdf Authors claim that improved GLUE score does not result in better retrieval performance Основная тема -- авторы обучают вместе энеодер и shallow декодер на задаче, похожей на LM. Декодер всего из двух слоев и принимает на вход помимо текста CLS эмбеддинг из энкодера. Таким образом CLS эмбеддинги лучше выучиваются. Затем энкодер обучается в стиле contriever. (TO DO -- посмотреть в ablation. Возможно, они не проверили, что их претрейнинг помогает) TO READ LEXMAE: LEXICON-BOTTLENECKED PRETRAINING FOR LARGE-SCALE RETRIEVAL https://arxiv.org/pdf/2208.14754.pdf 17.03.2023 ########################################################################## ART: Automatic multi-step reasoning and tool-use for large language models https://arxiv.org/pdf/2303.09014v1.pdf 19.03.2023 ######################################################################### How to Train Your DRAGON: Diverse Augmentation Towards Generalizable Dense Retrieval 04.04.2023 ######################################################################## TOKEN MERGING: YOUR VIT BUT FASTER https://arxiv.org/pdf/2210.09461.pdf Чуваки предлагают ускорять вижуал трансформер при помощи соединения токенов. На каждом слое после аттеншона они делят токены на две части (A и B), затем считают скоры между A и B. Потом соединяют токены с максимальными симилярити скорами (они также предлагают нормировку на Q и K). Таким образом им удалось достичь x2 в скорости при уменьшении качества всего на 0.4%. SPLADE: Sparse Lexical and Expansion Model for First Stage Ranking https://arxiv.org/pdf/2107.05720.pdf Questions -- Weight tying (use input embeddings as embeddings for MLM head) (does original BERT use weight tying) Improvements -- log saturation effect, FLOPS-regularizer 0.322 MRR@10 on MSMARCO 0.665 on TREC DL 2019 SPLADE v2: Sparse Lexical and Expansion Model for Information Retrieval Modified pooling mechanism from original splade (from sum to max) Extension of model without query expansion (SPLADE-doc) Distillation (I did not understand the pipeline) SPLADE-doc 0.368 MSMARCO TO READ Learning to retrieve prompts for in-context learning. Selective annotation makes language models better few-shot learners. Rethinking the role of demonstrations: What makes in-context learning work? Language Model Crossover: Variation through Few-Shot Prompting Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback∗ Active Prompting with Chain-of-Thought for Large Language Models ControlNet How Does In-Context Learning Help Prompt Tuning? BLEU metric TO READ!!!!! 1) Ultra-High Dimensional Sparse Representations with Binarization for Efficient Text Retrieval - https://aclanthology.org/2021.emnlp-main.78.pdf UHD-BERT 2) (query likelihood) TILDE https://espace.library.uq.edu.au/data/UQ_b024b10/arvin2021tilde.pdf?Expires=1680013702&Key-Pair-Id=APKAJKNBJ4MJBJNC6NLQ&Signature=bDdC3xFxyJngCdV69kr3J99~UsnjdFEH6jzRgwy7KkRAZFhbZNTRBJSp6p5cC3hz8dp7lc85-flXx00sBVRd1DqP9sG73-sI6aPNNEDoNxc0eBcZafmbzQ7ARBCAPmpybc4Z2F1RnH29eGW1AExWyQKquBBLQE8li-iLT~jILV5p3YCt-Shzt9HBV7pNUB7zJA3R~GTYVlCiFfLZhy7PvyQ6KH~rJHukWua5ULsuJcicdHg01SKviH2nt9YPuFVV6SDECMJVaALgiZYhCo9GzftC-Sh1BgZLlLFIpGYxU4C1M1xwGykzQUkHKx0CPJu56DtrZGNQGqDWzXIkyvaBPA__ 3) DeepCT - term weightning as regression problem measuring query term recall. !!! 4) Learning to Tokenize for Generative Retrieval RELEVANT DATASETS Social media conversations TASKS WikiHow history.stackexchange.com *.stackexchange.com список источников с QA со ссылками и длинными ответами. Обозначить темы Посмотреть, на какие ссылки ссылаются в ответах METRICS for longform qa -- ROUGE-L PROBLEMS dataset ELI5 - data leak (article Hurdles to Progress in Long-form Question Answering -- https://arxiv.org/pdf/2103.06332v2.pdf) "Our analysis reveals that this result is partially due to significant train / validation overlap in the ELI5 dataset" "A human study shows that at least 81% of validation questions have a paraphrase in the training set, and almost all validation questions are topically similar to a training set question." "While Fan et al. (2019) attempted to identify and remove question overlap using TF-IDF similarity, more complex semantic matching methods & human verification is needed to address this issue in future LFQA datasets." "Digging deeper, we identify fundamental issues with using ROUGE-L to evaluate generated answer quality (Figure 1b). Simple baselines such as just repeatedly copying the question, or choosing a random training set answer, can outperform LFQA systems such as RAG (Lewis et al., 2020c) in terms of ROUGE-L. On the other hand, our system achieves higher ROUGE-L than reference human-written answers, which is misleading since human A/B testers strongly prefer reference answers to our system’s." "We conclude that ROUGE-L is not a reliable metric to evaluate LFQA due to its large and relatively unconstrained output space (e.g., compared to translation or summarization), and we offer suggestions for better automatic & human evaluations to enable meaningful progress on this task." ################################################################################################################## TO FIND: 2/2 "Soft Prompt Decoding for Multilingual Dense Retrieval" was made possible by the first author @huang_zhiqi , alone with collaborators James Allen and @HamedZamani Smooth Operators 😎 (for Effective Systematic Review Queries) accepted at #sigir2023 w/ @fschlatt1 and @martinpotthast Webis group Universität Tübingen AIHannover