# LLM-Detection

**Repository Path**: loxs/llm-detection

## Basic Information

- **Project Name**: LLM-Detection
- **Description**: 大语言模型生成检测

- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2024-01-01
- **Last Updated**: 2024-03-06

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 比赛地址

https://www.kaggle.com/competitions/llm-detect-ai-generated-text

# 介绍

近年来，大型语言模型（LLM）变得越来越复杂，能够生成难以与人类书面文本区分的文本。在这场比赛中，我们希望促进对适用于现实世界的人工智能检测技术的公开研究和透明度。

这项比赛要求参与者开发一个机器学习模型，该模型可以准确地检测论文是由学生还是LLM撰写的。比赛数据集包括学生撰写的论文和各种LLM生成的论文。

### 描述

你能帮助建立一个模型来确定哪篇文章是中学生写的，哪篇是用大型语言模型写的吗？随着LLM的传播，许多人担心它们会取代或改变通常由人类完成的工作。教育工作者特别关注LLM对学生技能发展的影响，尽管许多人仍然乐观地认为LLM最终将成为帮助学生提高写作技能的有用工具。

学术界对LLM最关心的是它们可能导致剽窃。LLM是在庞大的文本和代码数据集上进行训练的，这意味着它们能够生成与人类书写的文本非常相似的文本。例如，学生可以使用LLM生成非自己的文章，从而错过关键的学习要点。你在这场比赛中的工作可以帮助识别LLM伪像，并提高LLM文本检测的技术水平。通过使用各种主题的中等长度的文本和多个未知的生成模型，我们的目标是复制典型的检测场景，并激励跨模型推广的学习特征。

### 评价

在 ROC 曲线下的面积上，预测的概率与观测到的目标之间的区域被评估。

### 数据描述

比赛数据集包括约10000篇论文，其中一些由学生撰写，另一些由各种大型语言模型生成。比赛的目标是确定论文是否由LLM生成。

所有的文章都是根据七个文章提示中的一个写的。在每个提示中，学生都被要求阅读一个或多个源文本，然后写下回应。当生成文章时，该相同的信息可能被提供或可能没有被提供作为LLM的输入。

来自两个提示的短文组成训练集；剩下的文章组成了隐藏的测试集。几乎所有的训练集文章都是学生写的，只有少数生成的文章作为例子。您可能希望生成更多的文章作为训练数据。

请注意，这是一场代码竞赛。test_essays.csv中的数据只是用于帮助您编写解决方案的伪数据。当您的提交被评分时，此示例测试数据将替换为完整的测试集。测试集中有大约9000篇论文，既有学生写的，也有LLM生成的。

#### 外部数据集
https://www.kaggle.com/datasets/alejopaullier/daigt-external-dataset
https://www.kaggle.com/datasets/alejopaullier/argugpt
https://www.kaggle.com/datasets/thedrcat/daigt-proper-train-dataset

### 参考数据处理代码

https://www.kaggle.com/code/awsaf49/detect-fake-text-kerasnlp-tf-torch-jax-train/notebook
https://www.kaggle.com/code/verracodeguacas/se7en-prompts

### 提交

使用notebook，生成 submission.csv