4 6 1

Jindong Wang

jindongwang

https://jd92.wang

AI & ML interests

Robust machine learning, transfer learning, OOD generalization. Recently: large language models.

Recent Activity

liked a Space 13 days ago

Ahren09/AgentReview

authored a paper about 2 months ago

MentalArena: Self-play Training of Language Models for Diagnosis and Treatment of Mental Health Disorders

upvoted a paper about 2 months ago

MentalArena: Self-play Training of Language Models for Diagnosis and Treatment of Mental Health Disorders

View all activity

Organizations

jindongwang's activity

liked a Space 13 days ago

Running

🎓

AgentReview

EMNLP 2024

authored a paper about 2 months ago

MentalArena: Self-play Training of Language Models for Diagnosis and Treatment of Mental Health Disorders

Paper • 2410.06845 • Published Oct 9 • 5

upvoted a paper about 2 months ago

MentalArena: Self-play Training of Language Models for Diagnosis and Treatment of Mental Health Disorders

Paper • 2410.06845 • Published Oct 9 • 5

commented a paper about 2 months ago

MentalArena: Self-play Training of Language Models for Diagnosis and Treatment of Mental Health Disorders

Paper • 2410.06845 • Published Oct 9 • 5 •

upvoted a paper 5 months ago

Is Your Model Really A Good Math Reasoner? Evaluating Mathematical Reasoning with Checklist

Paper • 2407.08733 • Published Jul 11 • 20

authored a paper 5 months ago

Is Your Model Really A Good Math Reasoner? Evaluating Mathematical Reasoning with Checklist

Paper • 2407.08733 • Published Jul 11 • 20

authored a paper 11 months ago

TrustLLM: Trustworthiness in Large Language Models

Paper • 2401.05561 • Published Jan 10 • 65

upvoted a paper 11 months ago

TrustLLM: Trustworthiness in Large Language Models

Paper • 2401.05561 • Published Jan 10 • 65

authored a paper 12 months ago

PromptBench: A Unified Library for Evaluation of Large Language Models

Paper • 2312.07910 • Published Dec 13, 2023 • 15

upvoted a paper 12 months ago

How Well Does GPT-4V(ision) Adapt to Distribution Shifts? A Preliminary Investigation

Paper • 2312.07424 • Published Dec 12, 2023 • 7

authored a paper 12 months ago

How Well Does GPT-4V(ision) Adapt to Distribution Shifts? A Preliminary Investigation

Paper • 2312.07424 • Published Dec 12, 2023 • 7

authored a paper over 1 year ago

A Survey on Evaluation of Large Language Models

Paper • 2307.03109 • Published Jul 6, 2023 • 42

upvoted 2 papers over 1 year ago

PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization

Paper • 2306.05087 • Published Jun 8, 2023 • 6

PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts

Paper • 2306.04528 • Published Jun 7, 2023 • 3

commented a paper over 1 year ago

A Survey on Evaluation of Large Language Models

Paper • 2307.03109 • Published Jul 6, 2023 • 42 •

authored 2 papers over 1 year ago

PromptBench: Towards Evaluating the Robustness of Large Language Models on Adversarial Prompts

Paper • 2306.04528 • Published Jun 7, 2023 • 3

PandaLM: An Automatic Evaluation Benchmark for LLM Instruction Tuning Optimization

Paper • 2306.05087 • Published Jun 8, 2023 • 6

updated a model almost 3 years ago

jindongwang/opus-mt-en-ro-finetuned-en-to-ro

Text2Text Generation • Updated Feb 10, 2022 • 23