目次
新たな安全性アップデートにより、ChatGPT はリスクが徐々に高まる会話にも安全に応答できるようになります。
人々は毎日、ChatGPT に日常的な質問から、より個人的で複雑な会話まで、さまざまな重要な話題を相談しています。数億件にのぼるやり取りの中には、苦しんでいたり、危機的な状態にある人との会話も含まれます。私たちは、そうした場面では慎重に応答するようシステムを設計しており、必要に応じて危機対応リソースを案内したり、信頼できる連絡先につなぐことも行っています。
本日、私たちは新しい安全性アップデートの詳細を共有します。会話の中で微妙な兆候や変化していく手がかりを捉えることで、リスクが徐々に高まっていることを ChatGPT がより適切に認識できるようにし、その文脈をもとにより安全な応答へ導く、という取り組みです。 これにより、ChatGPT は、毎日数億件に及ぶ安全なやり取りと、より慎重な対応が必要なごく少数の稀な状況とを区別しやすくなります。その結果、たとえば緊張を和らげる、危険な詳細の提供を拒否する、あるいはより安全な代替案へ誘導するといった、より慎重な応答が可能になります。
これらの改善は、モデルの学習、評価、監視システム、そしてメンタルヘルスおよび安全性の専門家との 2 年以上にわたる協働を含む、長年にわたる大規模な取り組みの上に成り立っています。
デリケートな会話で文脈が重要な理由
デリケートな会話では、文脈は 1 つのメッセージと同じくらい重要です。単体では普通に見える、あるいは曖昧に見える依頼でも、以前に見られた苦痛の兆候や有害な意図の可能性と合わせて見ると、まったく異なる意味を持つことがあります。適切に応答するために、私たちは ChatGPT が周囲の文脈から潜在的に有害な意図を認識できるよう学習させ、依頼を拒否したり、緊張を和らげたり、支援につなげたりできるようにしています。
こうした状況はまれですが、正しく対応することが非常に重要です。私たちの目標は、日常的な会話を過剰に反応することなく、必要なときには関連する兆候をつなぎ合わせられるようにすることです。
この取り組みでは、特に自殺、自傷、他者への危害に関わる急性のケースに注力しました。メンタルヘルスの専門家と協力しながら、会話の進行に伴って徐々に現れる警告サインを ChatGPT がより正確に認識し、その文脈を踏まえてより慎重に応答できるよう、モデルの挙動と学習を更新しました。
このような稀な高リスク状況では、ChatGPT は無害な依頼と、より高い危害リスクを示している可能性のある依頼とを、より適切に区別できるようになります。これは、safe completion アプローチをさらに発展させたもので、ユーザーの依頼のうち安全でない部分は拒否しつつ、安全に対応できる範囲では有用な返答を返すよう設計されています。私たちの目指すところは、文脈に応じてより適切に応答することです。危害の兆候が見られる場合はより慎重に、無害な場面では引き続き有用に応答します。
会話をまたいだ安全性の向上
安全上のリスクは、別々の会話をまたいで積み上がることがあります。ある会話には潜在的に有害な意図を示す微妙な兆候が含まれていて、別の会話での関連する依頼は、前の文脈と結びつけて理解して初めて問題性が見えてくることがあります。そうした安全に関わる文脈がなければ、その後の会話やそこでの重要な警告サインは無害に見えてしまうかもしれません。
ChatGPT が苦痛の兆候を認識する能力を強化してきたこれまでの取り組みを踏まえ、私たちは safety summaries を開発しました。これは、限られた数の高リスクなシナリオに対して、以前の安全関連文脈を要約した、簡潔で事実に基づく記録です。これらの要約は、安全推論に特化して学習したモデルによって生成され、対象を厳密に絞ったうえで、保持期間も限定されており、重大な安全上の問題に関連がある場合にのみ使用されます。一般的なパーソナライズや長期記憶として機能させるものではなく、事実ベースの安全文脈を保持することを目的としています。前述のとおり、ChatGPT にはこの文脈をより慎重に使うよう学習させており、追加の注意が必要な場面をより適切に見極め、緊張を和らげたり、詳細の提供を拒否したり、より安全な代替案へ誘導したりできるようにしています。
メンタルヘルスの専門家との協働
私たちはこれらのシステムを、世界各地の医師ネットワークに所属するメンタルヘルスの専門家と協力しながら開発しました。そこには、司法心理学、自殺予防、自傷に関する専門知識を持つ精神科医や心理学者も含まれています。
これらの専門家は、どのタイミングで safety summaries を作成すべきか、どの程度の過去の文脈が関連し得るか、そして応答時にその文脈をどのくらいの期間考慮すべきかについて、私たちの判断を支えてくれました。彼らの助言は、この取り組みを実際の専門的経験に基づいて進め、デリケートな状況でより適切な応答を支えるうえで役立ちました。
改善の測定
これらのアップデートにより、ChatGPT は、1 つの会話の中でも会話をまたいでも、有害な意図のパターンをよりよく認識できるようになります。懸念すべき兆候が徐々に現れる場合でも、そのパターンを特定し、より安全に応答できるようになっています。
難しいケースでの性能を測るために設計した社内評価では、リスクが時間とともに明確になっていく場合の安全な応答が大幅に改善しました。これらのテストでは、高リスクのシナリオを模した会話において、モデルが期待される安全な応答をどの程度返せるかを測定しています。
単一の長い会話シナリオでは、自殺・自傷のケースで安全な応答の性能が 50% 向上し、他者への危害に関するケースでは 16% 向上しました。これは、会話の前半部分が後半の依頼の意味をどう変えるかをモデルがより適切に理解し、適切に応答しやすくなったことを意味します。
また、改善がモデルの進化に伴って維持されるかを確認するため、複数の会話、複数のモデルにまたがって性能も検証しました。ChatGPT の現在のデフォルトモデルである GPT‑5.5 Instant では、他者への危害に関するケースで安全な応答の性能が 52% 向上し、自殺・自傷に関するケースでは 39% 向上しました。
さらに、safety summaries そのものの品質も評価しました。4,000 件を超える評価において、平均の安全関連性スコアは 4.93/5、事実性スコアは 4.34/5 でした。