File size: 16,091 Bytes
219c0b4
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
26.11.2021 ###################################################################3
negative samples reduction http://ceur-ws.org/Vol-2007/LEARNER2017_short_1.pdf
bert for ranking latest review https://arxiv.org/abs/2010.06467
new sampling approach USEFUL https://arxiv.org/abs/2104.06967
multitask learning https://github.com/CAMTL/CA-MTL
distillation https://arxiv.org/pdf/2111.09645.pdf

22.09.2022 ###################################################################
New search paradigm
https://arxiv.org/pdf/2204.10628.pdf 
https://arxiv.org/pdf/2206.02743.pdf 
https://arxiv.org/pdf/2202.06991.pdf 

Auto prompting

Gurevich Irina
TU Darmstadt 


#useful#######################################################################
videos about foundation models
https://www.youtube.com/playlist?list=PL9t0xVFP90GD8hox0KipBkJcLX_C3ja67


09.10.2022 #############################################################################
From "Autoregressive Search Engines: Generating Substrings as Document Identifiers"
"Query likelihood models" -- 
    Cicero Nogueira dos Santos, Xiaofei Ma, Ramesh Nallapati, Zhiheng Huang, and Bing Xiang. 2020. Beyond [CLS] through ranking by generation.
    ShengyaoZhuangandGuidoZuccon.2021.TILDE: termindependentlikelihoodmodelforpassagereranking.
    Oleg Lesota, Navid Rekabsaz, Daniel Cohen, Klaus Antonius Grasserbauer, Carsten Eickhoff, and Markus Schedl. 2021. A modern perspective on query likelihood with deep generative retrieval models.

Prompting to generate queries --
    Angeliki Lazaridou, Elena Gribovskaya, Wojciech Stokowiec, and Nikolai Grigorev. 2022. Internetaugmented language models through few-shot prompting for open-domain question answering.

11.10.2022 #############################################################################



18.10.2022 ############################################################################
Articles with BEIR:

Researcher: Gautier Izacard

################################################################################3
###################################################################################3
#####################################################################################

23.02.2023 ############################################################################
Sparse CLIP (STAIR paper from Apple) https://arxiv.org/pdf/2301.13081.pdf

#########################################################################################################
Chain of thought reasoning

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models https://arxiv.org/pdf/2201.11903.pdf NIPS 2022
(Кратко -- чуваки просто взяли несколько примеров из датасетов и зафигачили для них промпты (in context learning)
в стиле пошаговых действий; Это улучшило очень сильно метрики на математике, на всяких логических задачах)

Large Language Models are Zero-Shot Reasoners https://arxiv.org/pdf/2205.11916.pdf NIPS 2022
(Чуваки добавляют промрт "Let's think step by step" с помощью него генерируют последовательное решение задачи, 
затем подставляют это решение снова как промпт в модель и получают ответ. Это тоже бустит метрики на арифметике 
и commonsense. Можно сказать, что модель сама может генерировать себе решение задачи.) (нужно почитать подробнее)

AUTOMATIC CHAIN OF THOUGHT PROMPTING IN LARGE LANGUAGE MODELS https://arxiv.org/pdf/2210.03493.pdf
(Чуваки хотят придумать auto-cot. Они разбивают вопросы на несколько кластеров, 
затем берут из каждого кластера репрезентативный вопрос и генерируют для него auto-cot. 
Генерация auto-cot не идеальная. Может попасться один кластер, в котором все плохо. 
Авторы делят все вопросы на кластеры (с помощью sentence bert!!!). (Спросить у Димы, как они используют кластеры))

TO READ Multimodal Chain-of-Thought Reasoning in Language Models https://arxiv.org/pdf/2302.00923.pdf 
(Самый простой способ реализовать multimodal cot -- перевести картинки в текст и реализовать обычный cot. 
LLMs до 100B параметров могут производить галлюцинирующие rationale)

27.02.2023 ################################################################################
Выбор коллокаций
https://nlp.stanford.edu/fsnlp/promo/colloc.pdf

Large Language models
TO READ Scaling Laws for Neural Language Models https://arxiv.org/pdf/2001.08361.pdf

LLAMA https://scontent-ams4-1.xx.fbcdn.net/v/t39.2365-6/333007794_1182140292435357_4481174526219500228_n.pdf?_nc_cat=101&ccb=1-7&_nc_sid=3c67a6&_nc_ohc=Z5B8LP9penMAX_SWEqj&_nc_ht=scontent-ams4-1.xx&oh=00_AfAogQwG27t4J0ui35Jxwf1G31cgj2HiZGtw8v3cHk3szA&oe=6401D9D1
Чуваки просто взяли много очищенных данных и натренировали модели меньше, чем GPT-3 и PALM, показав, 
что данных для больших моделей нужно больше. У них получилось, что даже в статье Hoffman, где показано, 
что для обучения больших моделей нужно больше данных, была недостаточно хорошая оценка. 
Модель лучше или comparable to 175B gpt-3 или 450B PALM. (Не бьет code-davinci-002 на MMLU)

TO READ Training compute optimal large language models https://arxiv.org/pdf/2203.15556.pdf

Toolformer: Language Models Can Teach Themselves to Use Tools https://arxiv.org/pdf/2302.04761.pdf
Тут взяли GPT-J, аугментировали с помощью нее данные вызовами api, затем дообучили ее на этом. 
Таким образом, GPT-J научилась вызывать калькулятор, поиск по вики,
переводчик и побеждать большие GPT-3 и OPT на некоторых задачах

To READ Generating Datasets with Pretrained Language Models https://aclanthology.org/2021.emnlp-main.555.pdf

28.02.2023 ###########################################################################################################################3

TO READ Atlas: Few-shot Learning with Retrieval Augmented Language Models https://arxiv.org/pdf/2208.03299.pdf

TO READ GTP-J

TO READ Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks https://arxiv.org/pdf/1908.10084.pdf

TO READ SLIM: Sparsified Late Interaction for Multi-Vector Retrieval with Inverted Indexes https://arxiv.org/abs/2302.06587

TO READ LexLIP: Lexicon-Bottlenecked Language-Image Pre-Training for Large-Scale Image-Text Retrieval https://arxiv.org/pdf/2302.02908.pdf

TO READ InPars-v2: Large Language Models as Efficient Dataset Generators for Information Retrieval https://arxiv.org/pdf/2301.01820.pdf

TO READ ExaRanker: Explanation-Augmented Neural Ranker https://arxiv.org/abs/2301.10521

01.03.2023 #######################################################################################################

Language Is Not All You Need: Aligning Perception with Language Models (Kosmos-1 from microsoft) https://arxiv.org/pdf/2302.14045.pdf
Authors combine image embeddings from VIT-L/14 and texts. Then train LLM on it.

03.03.2023 #######################################################################################################
DEMONSTRATE–SEARCH–PREDICT: Composing retrieval and language models for knowledge-intensive NLP  https://arxiv.org/pdf/2212.14024.pdf
GPT-3 взаимодействует с Colbert-V2. Примеры взаимодействия: https://colab.research.google.com/github/stanfordnlp/dsp/blob/main/intro.ipynb#scrollTo=773rwc-aMuVD
(TODO дочитать про последнюю часть ноутбука (qa-v2))

TO READ Baleen: Robust Multi-Hop Reasoning at Scale via Condensed Retrieval https://cs.stanford.edu/~matei/papers/2021/neurips_baleen.pdf

10.03.2023 #########################################################################
Scaling Language-Image Pre-training via Masking https://arxiv.org/pdf/2212.00794.pdf 
(authors present FLIP -- new way to train CLIP faster. They simply mask images during pretraining. 
 It allows to use larger batch size (not all patches from image are used) and also allows model 
 understand image-text distribution faster)

TO READ Visual ChatGPT: Talking, Drawing and Editing with Visual Foundation Models 

TO READ How to avoid machine learning pitfalls: a guide for academic researchers

14.03.2023 ##########################################################################
TO READ Less is more: Pretrain a strong Siamese encoder for dense text
retrieval using a weak decoder. https://aclanthology.org/2021.emnlp-main.220.pdf
"We hypothesize that to perform robust retrieval, the [CLS] vector used for computing
matching scores should encode all the essential information in the passage. "


SIMLM: Pre-training with Representation Bottleneck for Dense Passage Retrieval https://arxiv.org/pdf/2207.02578.pdf
Authors claim that improved GLUE score does not result in better retrieval performance
Основная тема -- авторы обучают вместе энеодер и shallow декодер на задаче, похожей на LM. 
Декодер всего из двух слоев и принимает на вход помимо текста CLS эмбеддинг из энкодера.
Таким образом CLS эмбеддинги лучше выучиваются. Затем энкодер обучается в стиле contriever.
(TO DO -- посмотреть в ablation. Возможно, они не проверили, что их претрейнинг помогает)

TO READ LEXMAE: LEXICON-BOTTLENECKED PRETRAINING FOR LARGE-SCALE RETRIEVAL https://arxiv.org/pdf/2208.14754.pdf

17.03.2023 ##########################################################################
ART: Automatic multi-step reasoning and tool-use for large language models  https://arxiv.org/pdf/2303.09014v1.pdf

19.03.2023 #########################################################################
How to Train Your DRAGON: Diverse Augmentation Towards Generalizable Dense Retrieval

04.04.2023 ########################################################################
TOKEN MERGING: YOUR VIT BUT FASTER https://arxiv.org/pdf/2210.09461.pdf
Чуваки предлагают ускорять вижуал трансформер при помощи соединения токенов. 
На каждом слое после аттеншона они делят токены на две части (A и B), затем считают скоры между A и B. 
Потом соединяют токены с максимальными симилярити скорами (они также предлагают нормировку на Q и K). 
Таким образом им удалось достичь x2 в скорости при уменьшении качества всего на 0.4%. 

SPLADE: Sparse Lexical and Expansion Model
for First Stage Ranking https://arxiv.org/pdf/2107.05720.pdf
Questions -- Weight tying (use input embeddings as embeddings for MLM head) (does original BERT use weight tying)
Improvements -- log saturation effect, FLOPS-regularizer 
0.322 MRR@10 on MSMARCO 0.665 on TREC DL 2019

SPLADE v2: Sparse Lexical and Expansion Model for
Information Retrieval
Modified pooling mechanism from original splade (from sum to max)
Extension of model without query expansion (SPLADE-doc)
Distillation (I did not understand the pipeline)
SPLADE-doc 0.368 MSMARCO



TO READ
Learning to retrieve prompts for in-context learning.
Selective annotation makes language models better few-shot learners.
Rethinking the role of demonstrations: What makes in-context learning work?
Language Model Crossover: Variation through Few-Shot Prompting
Check Your Facts and Try Again: Improving Large Language Models with External Knowledge and Automated Feedback∗
Active Prompting with Chain-of-Thought for Large Language Models
ControlNet
How Does In-Context Learning Help Prompt Tuning?
BLEU metric

TO READ!!!!!
1) Ultra-High Dimensional Sparse Representations with Binarization for
Efficient Text Retrieval - https://aclanthology.org/2021.emnlp-main.78.pdf UHD-BERT
2) (query likelihood) TILDE https://espace.library.uq.edu.au/data/UQ_b024b10/arvin2021tilde.pdf?Expires=1680013702&Key-Pair-Id=APKAJKNBJ4MJBJNC6NLQ&Signature=bDdC3xFxyJngCdV69kr3J99~UsnjdFEH6jzRgwy7KkRAZFhbZNTRBJSp6p5cC3hz8dp7lc85-flXx00sBVRd1DqP9sG73-sI6aPNNEDoNxc0eBcZafmbzQ7ARBCAPmpybc4Z2F1RnH29eGW1AExWyQKquBBLQE8li-iLT~jILV5p3YCt-Shzt9HBV7pNUB7zJA3R~GTYVlCiFfLZhy7PvyQ6KH~rJHukWua5ULsuJcicdHg01SKviH2nt9YPuFVV6SDECMJVaALgiZYhCo9GzftC-Sh1BgZLlLFIpGYxU4C1M1xwGykzQUkHKx0CPJu56DtrZGNQGqDWzXIkyvaBPA__
3) DeepCT - term weightning as regression problem measuring query term recall. !!!
4) Learning to Tokenize for Generative Retrieval

RELEVANT DATASETS
Social media conversations

TASKS 
WikiHow
history.stackexchange.com
*.stackexchange.com
список источников с QA со ссылками и длинными ответами. Обозначить темы
Посмотреть, на какие ссылки ссылаются в ответах

METRICS
for longform qa -- ROUGE-L

PROBLEMS

dataset ELI5 - data leak (article Hurdles to Progress in Long-form Question Answering -- https://arxiv.org/pdf/2103.06332v2.pdf)
"Our analysis reveals that this result is partially due to significant train / validation overlap in the ELI5 dataset"
"A human study shows that at least 81% of validation questions have a paraphrase in the training set, and almost all validation questions are topically similar
to a training set question."
"While Fan et al. (2019) attempted to identify and remove question overlap using TF-IDF similarity, more complex semantic matching methods & human verification is needed to address this issue in future LFQA datasets."
"Digging deeper, we identify fundamental issues with using ROUGE-L to evaluate generated answer quality (Figure 1b). Simple baselines such as just repeatedly copying the question, or choosing a random training set answer, 
can outperform LFQA systems such as RAG (Lewis et al., 2020c) in terms of ROUGE-L. 
On the other hand, our system achieves
higher ROUGE-L than reference human-written
answers, which is misleading since human A/B
testers strongly prefer reference answers to our system’s."
"We conclude that ROUGE-L is not a reliable metric to evaluate LFQA due to its large and 
relatively unconstrained output space (e.g., compared
to translation or summarization), and we offer suggestions for better automatic & human evaluations
to enable meaningful progress on this task."
##################################################################################################################



TO FIND:
2/2 "Soft Prompt Decoding for Multilingual Dense Retrieval" was made possible by the first author 
@huang_zhiqi
, alone with collaborators James Allen and 
@HamedZamani
Smooth Operators 😎 (for Effective Systematic Review Queries) accepted at #sigir2023 w/
@fschlatt1
 and 
@martinpotthast

Webis group
Universität Tübingen
AIHannover