Semalt-ekspert fortæller, hvordan skrapning af webdata blev legaliseret med en domstolsafgørelse

Selvom det kan være ulovligt at skrabe data fra websteder uden den eksplicitte tilladelse fra ejere af webstedet, har en dommer for nylig afsagt andet under visse omstændigheder. hiQ Labs anlagde for nylig en retssag mod LinkedIn for at forhindre dem i at udtrække data fra LinkedIn-sider.

Det kom som et uhøfligt chok for de fleste mennesker, at LinkedIn fik besked på at give startup gratis adgang til sine websider. hiQ brugte sine algoritmer til at registrere, når en LinkedIn-bruger er på udkig efter et job baseret på de ændringer, brugeren foretager i hans / hendes offentlige profil.

Algoritmerne kører på data, der er uddraget fra LinkedIn-websider. Som forventet kunne LinkedIn ikke lide det, og modforanstaltninger blev indført for at forhindre hiQ fra yderligere dataudtrækning. Bortset fra de tekniske barrierer, der blev indført, blev der også udsendt stærkt formulerede juridiske advarsler.

Opstarten havde intet andet valg end at tage problemet lovligt op. hiQ måtte søge juridisk klage. Virksomheden ønskede, at LinkedIn beordrede at fjerne sine tekniske barrierer. hiQ ville også have sin dataekstraktionsproces på LinkedIn legaliseret.

Heldigvis til opstart fik den, hvad den ønskede. Kendelsen var til fordel for hiQ. LinkedIn blev beordret til at fjerne alle modforanstaltninger, der forhindrer HiQ i at skrabe sine (LinkedIn) websider og også give HiQ fri hånd, da handlingen er fuldstændig lovlig. Dommeren hængte med sin afgørelse om, at det, som hiQ ønsker at skrabe, er data, der er blevet vist til offentligt syn.

Dommeren pålagde ikke kun tiltalte at fjerne al den forebyggelsesmekanisme, der blev indført mod hiQ, men han beordrede også, at tiltalte skulle afstå fra sådanne handlinger i fremtiden.

Fremme af åbne webdata

Selv om kendelsen stadig er et midlertidigt påbud, er det hjertevarende at høre, at loven understøtter åben web-data og fri adgang til information på Internettet, da denne afgørelse bekræfter det. Selv hvis den endelige beslutning bliver til fordel for tiltalte, er denne kendsgerning allerede blevet fastlagt.

Dommeren fremmede denne politik ved at lukke næsten alle LinkedIn's argumenter ned. Mens LinkedIn forsøgte at konstatere, at sagsøgeren overtrådte privatlivets fred, modsatte dommeren det med den kendsgerning, at sagsøgte også sælger dataene.

Når argumentet ikke holdt vand, sagde den tiltalte også, at hiQ's handling var i grov overtrædelse af Computer Fraud and Abuse Act (CFAA), fordi opstart adgang til deres servere for at høste data ulovligt. Igen blev argumentet punkteret. Det blev afvist med den begrundelse, at hiQ kun skrabede indhold på de offentlige, ikke-beskyttede sider.

Dommeren analogiserede sagen som en person, der gik ind i en åben butik i arbejdstiden. En sådan person kan ikke siges at være overtrædelse. Så hiQ var ikke overtrædelse. Interessant nok gik dommeren videre til at forklare, hvorfor hans afgørelse er i almenhedens interesse.

Kort sagt accepterede retten, at det er i offentlighedens interesse at tillade, at data gennemgås, udtrækkes og analyseres. Så det vil være en skadelig politik at tilskynde til placering af barrierer for den frie informationsstrøm.

Hvad du burde lære af kendelsen

Selvom du muligvis ikke har grunde til at udtrække data direkte fra LinkedIn, bør du lære af kendelsen. Det er bedre at spille sikkert ved at læse og respektere filen robots.txt på alle websteder. Husk, at kendelsen stadig er et midlertidigt påbud. Det kunne i sidste ende gå til fordel for LinkedIn.

Selvom kendelsen muligvis ikke berører dig direkte, er det glad for, at en føderal domstol opretholder politikken om at holde internettet åbent for offentligheden. Så information skal være tilgængelig og tilgængelig for dem, der kan søge og gøre brug af dem godt.

Webdata er ekstremt nyttige for alle, især medieanalytikere, udviklere, dataforskere og nogle andre fagfolk. Som sådan er kendelsen en velkommen udvikling.