Google先生、AIが生成したコンテンツのランキングを下げる！

偽ブログの量産
GPT-3とは？GPT-3の持つ破壊力
バックグラウンド
批判
Google、AIが生成したコンテンツのランキングを破壊!
結論：インターネット上に生ごみを大量量産しないようにしましょう！

偽ブログの量産

　GPT-3の技術、本当にすごいですよね。GPT-3で作るブログ記事！これは便利！と思ったのもつかの間、Google先生はAIによるコピーライティングを見抜いて、ランキングを20％下げてくる！という鼬ごっこのスタート！しそうなのもあり、色々調査してみたところ、GPT-3単体のWIKIページもない事が分かり、色々自分で調査ましたので、調査内容をご報告いたします。

コピーライティングで人工知能を活用し、コンバージョンの高いコンテンツを作る方法

コピーライティングで人工知能を活用し、コンバージョンの高いコンテンツを作る方法

を書きながら、これをやられちゃうと、完全な偽ブログ　みたいなのが量産できちゃうよね…って言うのが気になりました。
インターネット黎明期から生存している老害からの観点でいくと、WELQの再来より酷い未来が見えてきてしまう訳でした。

　WELQに関しては、前進となるMEDエッジ（サービスインは2014年だったんですね）が

https://dena.com/jp/press/115/

https://dena.com/jp/press/2511/

危険な香りをにおわせ始めた2015年から批判をしてまして…

https://www.facebook.com/iakiyama/posts/pfbid02bxmGy4UGzgNoZ35HdP8qHicwXQ4uJiX5k1fezM3JrLK4hXbQy8sYgoKSHuFRwprRl

MED エッジ批判し始めた頃

このまま暴走していって、WELQ事件につながった訳でしたね。

GPT-3とは？GPT-3の持つ破壊力

high angle photo of robot — Photo by Alex Knight on Pexels.com

GPT-3ってそもそも何？の世界があるのでwikipedia(日本語)を見てみました…が…ない！
というのかOpenAIの解説内で少し触れられているだけの様子

Generative Pretrained Transformer 2 (GPT-2) の後継モデルである Generative Pretrained Transformer 3 (GPT-3) は、教師なしの Transformer 言語モデルである。 GPT-3 は 2020 年 5 月に初めて紹介された。 OpenAI によると、GPT-3 には 1,750 億個のパラメータが含まれ、GPT-2（パラメータ数 15 億個）より 2 桁大きい。

OpenAI は、GPT-3 は特定の「メタ学習」タスクで成功すると述べた。単一の入出力ペアの目的を一般化できる。この論文は、英語-ルーマニア語間、および英語-ドイツ語間の翻訳および言語間転移学習の例を示している。

GPT-3 のベンチマーク結果は、GPT-2 のそれと比較して劇的に改善している。 OpenAI は、そのような言語モデルのスケールアップは、予測言語モデルの基本的な機能制限に近づいたり遭遇したりする可能性があると警告した。トレーニングに要した計算量は、GPT-2 では数十ペタフロップ/秒・日だったのに対し、GPT-3 では、数千ペタフロップ/秒・日を要した。

GPT-2 と同様、GPT-3 の完全にトレーニングされたモデルは、悪用される可能性があるという理由ですぐには一般公開されなかった。 OpenAI は、2 か月の無料プライベートベータ版の提供後に有料クラウド API を介したアクセスを許可する予定だった。

GPT-3が書いたことを伏せたオンライン記事がニュースサイトで、ランキング1位を獲得するなど、人間並みに自然な文章を実現している。ただし、GPT-3を含む「言語AI」の言語処理は「定量的アプローチ」であり、人間の言語能力とは根本的に異なる。

詳細は「自然言語処理#処理内容とその限界」を参照

また、将来的には「自然言語を用いたプログラミング」が可能になることも期待されている。
wikipedia OpenAIより

Generative Pre-trained Transformer 3 (GPT-3・GPT 3) は、深層学習を使用して人間のようなテキストを生成する自己回帰言語モデル(国内では、大規模言語モデルと言われる事も多い）。『プロンプト』として最初のテキストを指定すると、プロンプトを継続するテキストが生成される。

アーキテクチャは、2048 トークン長のコンテキストと 1750 億個のパラメーター (800 GB のストレージが必要) という前例のないサイズの標準的なトランスフォーマーネットワーク (いくつかのエンジニアリング調整を加えたもの) 。トレーニング方法は「ジェネレーティブプレトレーニング」。これは、次のトークンが何であるかを予測するようにトレーニングするもの。このモデルは、多くのテキストベースのタスクで成功している。

　GPT-3は、サンフランシスコを拠点とする人工知能研究所である OpenAI によって作成された GPT-n シリーズ (および GPT-2 の後継モデル) の第 3 世代の言語予測モデルであり、 2020 年 5 月に紹介され、2020 年 7 月の時点でベータテストを経てリリースされた。 GPT-3 は、事前にトレーニングされた（プレトレーンドと言う）言語表現の自然言語処理 (NLP) システムである。

　GPT-3 によって生成されたテキストの品質は非常に高く、それが人間によって書かれたものかどうかを判断することは困難であり、これには利点とリスク双方が発生する。 31 人の OpenAI の研究者とエンジニアが、GPT-3 を紹介する元の 2020 年 5 月 28 日の論文を発表している。彼らの論文の中で、彼らは GPT-3 の潜在的な危険性について警告し、リスクを軽減するための研究を呼びかけている。2022 年 4 月のニューヨークタイムズ紙のレビューでは、GPT-3 の機能は、人間と同等の流暢さで独自の散文を書くことができるとしている。

　Microsoft は 2020 年 9 月 22 日に、GPT-3 の「独占的な」使用を許諾したと発表。ユーザーは引き続きパブリック API を使用して出力を受け取れるが、Microsoft のみが GPT-3 の基礎となるモデルにアクセス可能。

https://www.itmedia.co.jp/news/articles/2111/03/news026.html

https://news.microsoft.com/ja-jp/2021/05/26/210526-microsoft-introduces-its-first-product-features-powered-by-gpt-3/

バックグラウンド

　The Economist によると、アルゴリズムの改善、コンピューター計算リソースの強化、デジタル化されたデータの増加により、2010 年代の新しい技術によって機械学習の革命が促進され、言語の操作を含む「タスクの急速な改善」がもたらされた。
　ソフトウェアモデルは、「脳の神経構造に大まかに基づいた構造」で数千または数百万の例を使用して学習するように訓練されてた。自然言語処理 (NLP) で使用されるアーキテクチャの 1 つは、2017 年に初めて導入されたディープラーニングモデルに基づくニューラルネットワークである Transformer であり、GPT-n モデルは、この Transformer ベースのディープラーニングニューラルネットワークアーキテクチャに基づいている。テキスト入力を処理、マイニング、整理、接続、対比し、質問に正しく答えることができる NLP システムは多数存在する。
　
　2018 年 6 月 11 日、OpenAI の研究者とエンジニアは、生成モデル (言語モデル、人工知能システム) に関する独自の論文を投稿。generative pre-training (GP)の過程で利用する、データセットを介して膨大で多様なテキストのコーパスを使用し、事前トレーニングすることが可能。著者らは、自然言語処理 (NLP) における言語理解のパフォーマンスが、GPT-n で「ラベル付けされていないテキストの多様なコーパスでの言語モデルの生成的な事前トレーニング（generative pre-training）と、それに続くそれぞれの固有の識別可能な微調整」のプロセスを通じて、どのように改善されたかを説明した。”人間による監督と時間のかかる手作業によるラベル付けの必要がなくなった。”
　2020 年 2 月、Microsoft は Turing Natural Language Generation (T-NLG) を導入を発表。「170 億のパラメーターでこれまでに公開された最大の言語モデル」であると主張。テキストの要約と質問への回答を実現している。

　2020 年 5 月 28 日、OpenAI の 31 人のエンジニアと研究者のグループによる arXiv プレプリントで、第 3 世代の「最先端の言語モデル」である GPT-3 の開発を表明。チームは、GPT-3 の容量をその前身である GPT-2 の容量から 2 桁以上増加させ、GPT-3 をこれまでで最大の非スパース言語モデルにしました。
　スパースモデルでは、パラメーターの多くが定数値に設定されているため、合計パラメーターがより多くても、意味のある情報は少なくなる。)
　GPT-3 は先行モデルとなるGPT-2と構造的に類似している。精度が高い理由は、容量の増加とパラメーターの数の増加によるもの。 GPT-3 の容量は、2番目に大きい NLP モデルである Microsoft の Turing NLG の 10倍。

　GPT-3 の重み付けされた事前トレーニングデータセットの 60% は、4,100 億のバイトペアでエンコードされたトークンで構成される Common Crawl のフィルター処理されたもの。GPT-3 は数千億の単語でトレーニングされ、またCSS、JSX、Python などでのコーディングが可能。

　GPT-3 のトレーニングデータはすべてを網羅しているため、個別の言語タスクについてさらにトレーニングする必要がない。トレーニングデータには時折、有害な表現が含まれており、GPT-3 はトレーニングデータを模倣するため、有害な表現を生成することがある。ワシントン大学の研究によると、GPT-3 は、先行するGPT-2 同様、有害な表現を生成することが判明している。 GPT-3 は、その前身のモデルである GPT-1 と比較すると有害な表現を生成する確率は減らしているが、Wikipedia のデータで完全にトレーニングされた言語モデルである CTRL Wiki と比較すると有害な表現を生成する事が分かっている。

　2020 年 6 月 11 日、OpenAI は、ユーザーが使いやすい GPT-3 API (「機械学習ツールセット」) へのアクセスを要求できることを発表しました。これは、OpenAI がこの新しいテクノロジーの「長所と限界を探る」のに役立ちます。招待状には、この API が、通常の単一のユースケースではなく、ほぼ「あらゆる英語のタスク」を完了できる汎用の「テキストイン、テキストアウト」インターフェイスを備えていることが説明されていました。OpenAI GPT-3 API の非公開の初期リリースにアクセスしたあるユーザーによると、GPT-3 は「驚くほどまとまりのあるテキスト」を書くのが「不気味なほど上手」で、いくつかの簡単なプロンプトだけだった。最初の実験では、米国の 80 人の被験者が、200 語以内の短い記事が人間によって書かれたものか、GPT-3 によって書かれたものかを判断するよう求められた。参加者は 52% の確率で正しく判断しましたが、無作為に推測した場合よりもわずかに優れているだけだった。

2021 年 11 月 18 日、OpenAI は、API へのアクセスが制限されないように十分な保護手段が実装されていることを発表。 OpenAI は、開発者が OpenAI のコンテンツポリシーを順守するのに役立つコンテンツモデレーションツールを開発者に提供した。 2022 年 1 月 27 日、OpenAI は、InstructGPT と総称される最新の GPT-3 言語モデルが、API で使用されるデフォルトの言語モデルになったことを発表。 OpenAI によると、InstructGPT は、より適切に指示に従い、でっち上げの事実を減らし、毒性の少ないコンテンツを生成することで、ユーザーの意図に沿ったコンテンツ生成を実現した。

　GPT-3 は「人間の評価者が人間が書いた記事と区別するのが困難なニュース記事を生成する」ことができるため、GPT-3 には「言語モデルの有益なアプリケーションと有害なアプリケーションの両方を促進する可能性がある」。2020 年 5 月 28 日の論文で、研究者は「GPT-3 の潜在的な有害な影響」について詳細に説明した。「誤った情報、スパム、フィッシング、法的および政府のプロセスの悪用、不正な学術論文の執筆、ソーシャルエンジニアリングの口実が含まれる」。著者らは、これらの危険性に注意を向け、リスク軽減に関する研究を呼びかけている。

　GPT-3 は、ゼロショット、数ショット、および 1 ショットの学習を実行可能。
　2022 年 6 月、Almira Osmanovic Thunström は、GPT-3 自身が論文のファーストオーサーだったこと、公開のために提出し、レビューの完了を待っている間に事前公開されたと書いている。

批判

　GPT-3 を生み出したOpenAI は、当初 2015 年に非営利団体として設立された。
　2019 年、OpenAI はモデルがフェイクニュースを永続させるという懸念をあげ、OpenAI の以前のオープンソースの慣習の禁を破り、GPT-3 の前身モデルを公開しなかった。

　OpenAI は最終的に、元のモデルのサイズの 8%となる GPT-2 のバージョンをリリース。同年、OpenAI は営利企業に再編された。　　

　2020 年、Microsoft は、OpenAI への１ビリオンドル（1 billionUSD=1,400億円）の出資を通じ、Microsoft の製品とサービスに対して GPT-3 の独占ライセンスを取得したと発表。契約では、ユーザーがテキストを GPT-3 に送信してモデルの出力を受け取ることができるように、OpenAI が公開 API を提供することを許可しているものの、GPT-3 のソースコードにアクセスできるのは Microsoft だけとなった。

　GPT-3 などの大規模な言語モデルは、2021 年に Timnit Gebru と Emily M. Bender が共同執筆した論文で詳述されているように、モデルのトレーニングと保存が環境に与える影響について、Google の AI 倫理研究者から批判を受けている。
　

　GPT-3 やその他の言語ジェネレーターに基づく自動筆記技術の使用の増加は、学問的誠実性に関する懸念を引き起こし、大学や学校が剽窃などの学問的不正行為を構成するものをどのように評価するかという問題を提起した。
　OpenAI は、米国特許商標庁 (「USPTO」) からの人工知能イノベーションの知的財産保護に関するコメント要請への回答で、「著作者がオリジナルの作品を作成し、それを修正したときに自動的に著作権保護が発生する」ことを認めている。

　オンラインに投稿されたコンテンツの大部分は、米国の著作権法によって保護されている。GPT は、著作権で保護された記事、インターネット投稿、ウェブページ、 12 年間で 6,000 万のドメインからスクレイピングされた本を学習データにしている。
　TechCrunch は、このトレーニングデータには、BBC、ニューヨークタイムズ、Reddit、オンラインブックの全文などからの著作権で保護された素材が含まれていると報告されている。

　GPT は、研究論文の捏造に使用されたと考えられている。 2021 年 4 月、コンピュータサイエンティストのグループは、GPT によって生成されたテキストを識別するツールを使用し、科学論文に奇妙なフレーズが現れる理由を特定しようとした。 Cabanac と同僚は、このツールを使用してジャーナル Microprocessors and Microsystems から抜粋した抄録を実行し、無意味なテキストや盗用されたテキストや画像などの「重大な欠陥」を発見した。

Google、AIが生成したコンテンツのランキングを破壊!

Google、AIが生成したコンテンツのランキングを破壊

Google、AIが生成したコンテンツのランキングを破壊

この記事を書いた理由って、実は本当に『Google、AIが生成したコンテンツのランキングを破壊!』のタイトルを見たからであって、何も他の要素はないのですが…
再度読んだら…あまりコンテンツは内包されていませんでした。

GPT-3.5 released, content companies reeling の記事も一読しましたが…

https://nicksaraev.com/gpt-3-5-released-content-companies-reeling/

AI生成記事のGoogle検索ランキング：GPT-3をはじめとする大規模言語モデルの登場により、AIが自動生成する記事が公開されるようになった。しかし、こうした記事はGoogleの検索ランキングにおいてはペナリティが課せられる。それゆえSEO的観点から言えば、AI自動生成記事に人間の手を加えるのが望ましい。
AINOW より引用

うーん…と言ったところでした

Google先生、AIが生成したコンテンツのランキングを下げる！

偽ブログの量産

GPT-3とは？GPT-3の持つ破壊力

バックグラウンド

批判

Google、AIが生成したコンテンツのランキングを破壊!

結論：インターネット上に生ごみを大量量産しないようにしましょう！