Spaces:

taka-yamakoshi
/

causal-intervention-demo

Running

App Files Files Community

taka-yamakoshi commited on Mar 23, 2023

Commit

10ced5b

•

1 Parent(s): 779710f

debug

Browse files

Files changed (1) hide show

app.py +19 -21

app.py CHANGED Viewed

@@ -76,6 +76,7 @@ if __name__=='__main__':
     if st.session_state['page_status']=='tokenized':
         tokenizer,model = load_model()
         mask_id = tokenizer('[MASK]').input_ids[1:-1][0]
         sent_1 = st.session_state['sent_1']
         sent_2 = st.session_state['sent_2']
         if 'masked_pos_1' not in st.session_state:
@@ -85,29 +86,26 @@ if __name__=='__main__':
         st.write('2. Select sites to mask out and click "Confirm"')
         input_sent = tokenizer(sent_1).input_ids
-        decoded_sent = [tokenizer.decode([token]) for token in input_sent]
         char_nums = [len(word)+2 for word in decoded_sent]
         cols = st.columns(char_nums)
-        with cols[0]:
-            st.write(decoded_sent[0])
-        with cols[-1]:
-            st.write(decoded_sent[-1])
-        for word_id,(col,word) in enumerate(zip(cols[1:-1],decoded_sent[1:-1])):
             with col:
                 if st.button(word,key=f'word_{word_id}'):
-                    if word_in not in st.session_state['masked_pos_1']:
                         st.session_state['masked_pos_1'].append(word_id)
-        st.write(f'Masked words: {", ".join([decoded_sent[word_id+1] for word_id in np.sort(st.session_state["masked_pos_1"])])}')
-    '''
-    sent_1 = st.sidebar.text_input('Sentence 1',value='It is better to play a prank on Samuel than Craig because he gets angry less often.',on_change=clear_data)
-    sent_2 = st.sidebar.text_input('Sentence 2',value='It is better to play a prank on Samuel than Craig because he gets angry more often.',on_change=clear_data)
-    input_ids_1 = tokenizer(sent_1).input_ids
-    input_ids_2 = tokenizer(sent_2).input_ids
-    input_ids = torch.tensor([input_ids_1,input_ids_2])
-    outputs = SkeletonAlbertForMaskedLM(model,input_ids,interventions = {0:{'lay':[(8,1,[0,1])]}})
-    logprobs = F.log_softmax(outputs['logits'], dim = -1)
-    preds = [torch.multinomial(torch.exp(probs), num_samples=1).squeeze(dim=-1) for probs in logprobs[0]]
-    st.write([tokenizer.decode([token]) for token in preds])
-    '''

     if st.session_state['page_status']=='tokenized':
         tokenizer,model = load_model()
         mask_id = tokenizer('[MASK]').input_ids[1:-1][0]
         sent_1 = st.session_state['sent_1']
         sent_2 = st.session_state['sent_2']
         if 'masked_pos_1' not in st.session_state:
         st.write('2. Select sites to mask out and click "Confirm"')
         input_sent = tokenizer(sent_1).input_ids
+        decoded_sent = [tokenizer.decode([token]) for token in input_sent[1:-1]]
         char_nums = [len(word)+2 for word in decoded_sent]
+        st.write(char_nums)
         cols = st.columns(char_nums)
+        for word_id,(col,word) in enumerate(zip(cols,decoded_sent)):
             with col:
                 if st.button(word,key=f'word_{word_id}'):
+                    if word_id not in st.session_state['masked_pos_1']:
                         st.session_state['masked_pos_1'].append(word_id)
+        st.write(f'Masked words: {", ".join([decoded_sent[word_id] for word_id in np.sort(st.session_state["masked_pos_1"])])}')
+    if st.session_state['page_status']=='analysis':
+        sent_1 = st.sidebar.text_input('Sentence 1',value='It is better to play a prank on Samuel than Craig because he gets angry less often.',on_change=clear_data)
+        sent_2 = st.sidebar.text_input('Sentence 2',value='It is better to play a prank on Samuel than Craig because he gets angry more often.',on_change=clear_data)
+        input_ids_1 = tokenizer(sent_1).input_ids
+        input_ids_2 = tokenizer(sent_2).input_ids
+        input_ids = torch.tensor([input_ids_1,input_ids_2])
+        outputs = SkeletonAlbertForMaskedLM(model,input_ids,interventions = {0:{'lay':[(8,1,[0,1])]}})
+        logprobs = F.log_softmax(outputs['logits'], dim = -1)
+        preds = [torch.multinomial(torch.exp(probs), num_samples=1).squeeze(dim=-1) for probs in logprobs[0]]
+        st.write([tokenizer.decode([token]) for token in preds])