【技術ノート@Web】Google検索セントラル(旧Google Web Master)を読んだって話。

SEO触る上でまず基礎とされるのがGoogle。Googleがひとしきり記載されているのがWeb Masterだ。読んで気になった箇所をメモ感覚で残しておく。正直なところ、エンジニアやSIerでなければ冒頭1/3で十分な気がした。

\n\n\n\n

ハッキングに関して

\n\n\n\n

ハッキングされたコードには下記の種類がある。
1.コードインジェクション
アクセス権を手に入れたハッカーによってサイト上の既存ページに悪意のあるコンテンツを挿入すること。Javascriptあるいはiframeにて挿入。

\n\n\n\n

2.ページインジェクション
セキュリティ上の欠陥によりハッカーにより新たなページを追加されること。URLは正規のもののためフィッシングに用いられたりする。

\n\n\n\n

3.コンテンツインジェクション
既存のページのコンテンツを操作すること。ウェブマスターやユーザーにはわからない隠しリンクやかくしテキストを追加する。

\n\n\n\n

4.リダイレクト
別サイトへ変遷

\n\n\n\n

HPの公開に際して

\n\n\n\n

ブラウザにてsite:example.comと入力し、表示されるかどうかで公開されているかどうかを確認する。もし表示されないとしたら下記の要因が考えられる。
1.サイトがウェブ上の他のサイトからリンクされていない
課金してのリンクはスパム行為違反となる

\n\n\n\n

2.新しいサイトのためにクロールできていない
▷公開時間が確定しているティザーサイトなどは事前に立ち上げてクロールし、その上で更新した方が有効の模様

\n\n\n\n

3.サイト上のデザインによりクロールできない。

\n\n\n\n

※Googleはモバイルフレンドリーかテストするためのツールを提供している

\n\n\n\n

検索エンジンにサイト情報を提供する

\n\n\n\n

Googleの検索エンジンにサイト情報を提供するために必要なことがいくつかある。

\n\n\n\n

クロール

\n\n\n\n

自動bot(以下クローラー)によるサイトの検閲。これによって検索結果のリストに表示されることになる。この設定はGoogle consoleによってクロールの頻度を変更することができる。詳細はクローラー頻度の変更。クローラーがアクセスできない場合は下記の原因が考えられる。
サーバーによるサイトの処理に関する問題
*ネットワークに関する問題
*robots.txtルール
▷ファイルでrobots.txtでクロールしないよう仕様を書き加える。ただし反映に最大1日かかる。ちなみにnoindexとの併用は推奨されていない。

\n\n\n\n

ちなみにnoindexとrobots.txtはどちらもクロールの制御を行えるが下記の点で異なる。

\n\n\n\n

\n
noindexとrobots.txtは、両方とも検索エンジンのクローリングとインデックス化を制御するためにSEOで使用されますが、それぞれの動作は異なります。
\n\n\n\n
noindex：これは、WebページのHTMLコードに追加されるメタタグで、検索エンジンがそのページをインデックスしないように指示するものです。これは、他のWebページからリンクされていても、そのページが検索エンジンの検索結果ページ（SERP）に表示されないことを意味します。noindexタグは、重複コンテンツ、ログインページ、または開発中のページなど、ユーザーに表示することを意図していないページに役立ちます。
\n\n\n\n
robots.txt：これは、ウェブサイトのルートディレクトリに配置されるテキストファイルで、検索エンジンのロボットがどのページやセクションをクロールしてインデックスできるかを指示します。robots.txtファイルは、特定のページやディレクトリをブロックして、検索エンジンがそれらをクロールしてインデックスしないようにするためにも使用できます。ただし、robots.txtファイルは、検索エンジンにクロールとインデックスを避けるページを伝えるだけであり、他のWebサイトからそのページにリンクされることを防ぐわけではなく、他のWebサイトからリンクされている場合はインデックスされる可能性があることに注意する必要があります。
\n\n\n\n
要約すると、noindexタグは、ウェブサイトの特定のページを検索エンジンがインデックスしないようにするために使用され、robots.txtファイルは、検索エンジンがクロールしてインデックスできるウェブサイトのページやセクションを制御するために使用されます。
\nnoindexとrobots.txtでの違い(CHATGPT-4)

\n\n\n\n

インデックス登録

\n\n\n\n

インデックスとはクローラーがwebサイトを解析し、その結果webサイト情報をデータベースに登録すること。

\n\n\n\n

検索結果の提供

\n\n\n\n

//上記までがおおよそ気になった項目。SEOスターターガイドで十分。

\n\n\n\n

加えて気になった事項(箇条書き)

\n\n\n\n

*不要なマークアップがあるとSEOに不適である。

\n\n\n\n

*リッチリザルトを充実させることもSEO対策となる。リッチリザルトとはwebページの要約したテキスト情報であるスニペットに加え、画像や動画などの検索結果表示のコンテンツを指す。

\n\n\n\n

*Googleの検索結果を管理するのもSEOに適する。

\n\n\n\n

*パンくずリストはGoogleでも推奨されている。

\n\n\n\n

*スニペットの内容は全くもってwebページと同様の内容というのは避けた方がいい。簡潔にまとめる作業は必要となる。

\n\n\n\n

*ナビゲーションページを作成する。(ナビゲーションページとはWebサイトの構造を簡潔に示したページで行うこと)

\n\n\n\n

見出しタグについて
*多用は控えること。
*長い見出しもあまり適していない。テキスト書式を整えるために見出しタグを使用するものよくない。

\n\n\n\n

画像の最適化
*画像に対してloading=\”lazy\”にすることでページ読み込み速度を上げられることを明記しており、推奨している。
*alt属性で画像の説明を最適にテキストで行う。
*アップロードする際には\”image_**.jpg\”や\”pic.png\”など一般的なファイル名を避け、固有の名前にした方が良い。なお長すぎるのもNG。

\n\n\n\n

モバイル戦略
レスポンシブウェブデザイン: Googlebotはタグを使用してインデックスを行う。サイト上の全てのページが検出可能な別のページからのリンクでアクセスできるか確認される。そのため参照リンクにはターゲットページに関するテキストまたはalt属性(image)のいずれかが含めておく必要がある。高度なクロールが行えるようにサイトマップは表示しておくべきである。

\n\n\n\n

URLの最適化
詳細はURL構造ガイドライン。
<推奨内容>
*シンプルでわかりやすく
*ローカライズされた語句を使用する
*必要に応じてUTF-8コードを使用する
*国別のドメインを使用するかgTLDとともに国別のサブディレクトリを使用する
*ハイフンを使用する NG
*長い
*非ASCII文字を使用する
*アンダースコアはNG
*URL内の単語を繋げる長すぎるURLはNG。不必要なパラメーターであったりも含まれる。

\n\n\n\n

*正規化のためにrobots.txtは使用しない

\n\n\n\n

*リダイレクト項目の一覧

\n\n\n\n

*サイトを引っ越しした際にはサーバー側のリダイレクトの実装を行う。サーバー構成ファイル（Apache の .htaccess ファイルなど）にアクセスするか、サーバー側のスクリプト（PHP など）を使用してリダイレクトヘッダーを設定する必要がある。

\n\n\n\n

Search Consoleについて
サイトの所有権を確認できるサービスである。他にも下記のことができる。
*Googleがページを検出して読み取れるように制御を行う。
*サイトで検出されたモバイルユーザービリティに関するエラーを確認できる。
*サイトのパフォーマンスをモニタリングする
※search consoleでは自社HPまでアクセするまでのユーザー情報を可視化できるツールであるため、スパム行為のあるアカウントまで特定できてしまう。セキュリティ対策としてマルウェアへの感染を防止する/ソーシャルエンジニアリング時の対応策も確認すること。

【技術ノート@Web】Google検索セントラル(旧Google Web Master)を読んだって話。

ハッキングに関して

HPの公開に際して

検索エンジンにサイト情報を提供する

クロール

インデックス登録

検索結果の提供

加えて気になった事項(箇条書き)

コメントを発表する 返信をキャンセル

コメントを発表する返信をキャンセル