Kaihatsu

githubのtimelineがbigqueryで解析できる

http://www.githubarchive.org/

Githutという Github の解析サイトがあって、仕掛けを調べていたらGithubはpublicなtimelineをオープンデータとして公開しているらしい。

GithutのREADMEにもある通り

select
  repository_language,
  count(distinct(repository_url)) as active_repos_by_url,
  YEAR(created_at) as year,
  QUARTER(created_at) as quarter,
from [githubarchive:github.timeline]
where
    type="PushEvent"
group by
  repository_language,
  year,
  quarter
order by
  repository_language,
  year DESC,
  quarter DESC

みたいなSQLを書くと言語毎のPush量みたいなやつが見れたりする。ほいではStarはどうなのかなあ、とおもったらgithubarchive:github.timelineのスキーマのtypeにStar的なやつがなかったので見れなかった。

2014/09/26現在、githubarchive:github.timeline249,308,569のRowがあって、サイズは154GBもあるんだそうだ。それがものの10s程度で解析できるのでBigQueryスゲーなとおもいます。