2020年10月24日土曜日

野球選手を一意に識別する主キーとは

  プロ野球の年度別個人成績を独自に集計したりするために、エクセルでデータベース化している。ただ、選手名は基本的にはそのシーズンの登録名で管理しているので、選手の通算成績を算出する際、集計するのが難しかった。

 ということで、ちゃんと主キーを設定して、データベースとしての活用の幅を広げようと決断。早速、作業に取り掛かろうとしたのだが、どのように主キーを設定すべきか迷う。

 最初に思ったのは、公式サイトに倣うことだが、NPBもMLBも独自に決めたと思われる数字をURLに埋め込んでおり、おそらくこれを主キーとしている模様。世界最大級の野球データサイトであるBaseball Referenceは名字の5文字+名前2文字+数字。このレベルだと重複する選手が出てくるので、最後の数字の部分で古い選手から順番にカウントアップしているようだ。

 どちらも真似しにくいので、独自に考えようと思い、最初に考えたのがドラフト順位を主キーとすること。ただ、当然、ドラフト制以前に入団した選手は主キーを設定できないし、過去にはドラフト外というのもあったし、そもそも外国人選手はドラフトにかからないので、使えない。

 考えても結論が出ないので、一旦、フルネームを主キーとしてデータ整備することにしたが、同姓同名の選手は居るし、現役中に改名する選手も少なくないので、完全に一意に特定できない。

 妙案が思いつくまで、一旦は継続検討かな。

0 件のコメント:

コメントを投稿